tokyor26 data fusion
DESCRIPTION
TRANSCRIPT
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
◆ 名前: 里 洋平
◆ 職業: データサイエンティスト
◆ ID : yokkuns
◆ 時系列解析や異常検知など 各種方法論を実ビジネスに適用
自己紹介
2012年9月9日日曜日
Tokyo.R主催
パッケージ本執筆しました!
活動例: 勉強会の主催・執筆
2012年9月9日日曜日
閲覧されている動画の情報を用いておすすめ動画を表示する
活動例: 動画レコメンド
2012年9月9日日曜日
Web上の情報から市場予測
活動例: 市場予測
2012年9月9日日曜日
異常な振る舞い
複数時系列の異常検知
時系列A
時系列B 時系列C
ケースA
ケースB
ケースC
例2:CM効果のノイズ除去
異常な振る舞いの時系列を検出
異常な振る舞いをしているケースを除外して、CMの効果を算出する
CM効果トラフィックA
トラフィックB
トラフィックC
例1:トラフィック異常検知
異常な振る舞いをしているトラフィックの原因を調査する
調査
AB
C
時系列のモデリング
時系列A
時系列B
時系列C
Anomaly detection複数時系列から異常な振る舞いを検知する
85
活動例: 異常検知
2012年9月9日日曜日
87
CM時系列
各KPIの時系列
CM
新規登録
ARPU
ARPPU
継続率
ケース
イベント
その他外部要因
TV Commercial Effects時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出
活動例: 時系列解析と影響分析
2012年9月9日日曜日
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
87
Data Fusionとは
2012年9月9日日曜日
87
異なる複数のデータを単一のデータに統合することで
Data Fusionとは
2012年9月9日日曜日
87
異なる複数のデータを単一のデータに統合することで
Data Fusionとは
個別のデータからは得られない複合的な情報を抽出し
2012年9月9日日曜日
87
異なる複数のデータを単一のデータに統合することで
Data Fusionとは
個別のデータからは得られない複合的な情報を抽出し
予測や意思決定を支援する方法論
2012年9月9日日曜日
87
異なる複数のデータを単一のデータに統合し個別のデータからは得られない、複合的な情報を抽出する
Data Fusionとは
データAとデータBの相関関係データBで特定の値だったユーザのデータAの値の予測・補完
データA データB
2012年9月9日日曜日
広告接触のデータと購買履歴のデータ異なる対象者によるデータである事が多い
Data Fusionの活用シーン
購買履歴データ 広告接触データ
2012年9月9日日曜日
87
広告接触データでの購買有無購買データでの広告接触の有無
これらを予測・補完できれば、重要な示唆が得られる
Data Fusionの活用シーン
ある広告を見たユーザーのうち、ある商品はどれだけ購入されたかどのような広告媒体にどのような情報を載せれば、より購入されるか
・・・
購買履歴データ 広告接触データ
2012年9月9日日曜日
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
広告媒体への接触やある特性を有する商品の購入はユーザーの属性に偏りが存在する
類似度からのアプローチ
広告A 商品A 広告B 商品B
属性は似てない属性が似ている
2012年9月9日日曜日
87
属性が似ているユーザーは接触する広告媒体や購入する商品が似ている
類似度からのアプローチ
広告A 商品A 広告B 商品B
属性は似てない属性が似ている
属性は似てない
2012年9月9日日曜日
購買履歴データと広告接触データで属性が似ている人でペアを作り、同一ユーザーと見なす
Matching法
購買履歴データ 広告接触データ商品A
買った
広告A
見た
商品A
買った広告A
見た
2012年9月9日日曜日
87
MatchingパッケージのMatch関数でペアを抽出し擬似的なシングルソースデータを作成する
Rでの実行方法
割当変数 共変量 データAのindex
データBのindex
2012年9月9日日曜日
87
Matchingの問題点
2012年9月9日日曜日
87
測定誤差などによりバイアスが生じてしまい推定精度があまり高くない
Matchingの問題点
2012年9月9日日曜日
87
測定誤差などによりバイアスが生じてしまい推定精度があまり高くない
Matchingの問題点
マッチングに利用しない対象者のデータが無駄になるため、非常に非効率
2012年9月9日日曜日
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
87
購買有無・広告接触有無・属性3つの変数の背後に共通の因子を仮定して予測を行う
因子分析モデル
共通因子
共変量購買有無 広告有無
共通因子
共変量購買有無 広告有無
共通因子
共変量購買有無 広告有無
2012年9月9日日曜日
消費者市場のセグメンテーションと同じ概念各潜在クラス内では広告接触や購入する商品が似ている
潜在クラスモデル
購買履歴データ 広告接触データ
潜在クラスA 潜在クラスA
広告Aが2/3
広告Bが1/3
商品Aが2/3
商品Bが1/3
潜在クラスA
広告A
広告A
広告B
商品A
商品B
商品A
2012年9月9日日曜日
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
87
属性データを用いて直接購買の有無をモデリングする2値変数の場合ロジスティック回帰が使われる
回帰モデルによる融合
2012年9月9日日曜日
87
一般化線形モデルの関数glmを使ってロジスティック回帰分析を実行して予測する
Rでの実行方法
2012年9月9日日曜日
87
データセットlalondeを2分割してマルチソースデータを作成NSW受講者の78年賃金有りの割合を予測する
Rでの実行例: 使うデータ
2012年9月9日日曜日
87
Matchingとロジスティック回帰によるData Fusionの関数を定義
Rでの実行例: Data Fusionによる予測
2012年9月9日日曜日
87
Matchingとロジスティック回帰の2つの手法で予測するサンプリングして100回実行
Rでの実行例: Data Fusionによる予測
2012年9月9日日曜日
87
Rによる実行結果
どちらも手法も値が希薄化が起きているバラツキは回帰モデルの方が小さい
NSW受講者の78年賃金有りの比率の推定結果
2012年9月9日日曜日
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
購買履歴データと広告接触データは他方のデータが欠測しているシングルソースデータ
欠測データとしてのData Fusion
購買履歴
広告接触
共変量
購買履歴データ 欠測
広告接触データ 欠測
共通で得られている属性データ
購買履歴データ 市場調査データ
欠測データとしてのData Fusion
2012年9月9日日曜日
87
広告接触データで欠測している購買データの予測分布を考える
欠測しているデータの予測分布
2012年9月9日日曜日
87
商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る
Data Fusionの前提条件① : ランダムな欠測
購買と広告接触データへの割当は依存していないので除外出来る
2012年9月9日日曜日
87
商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る
Data Fusionの前提条件① : ランダムな欠測
購買と広告接触データへの割当は依存していないので除外出来る
2012年9月9日日曜日
87
商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る
Data Fusionの前提条件① : ランダムな欠測
購買と広告接触データへの割当は依存していないので除外出来る
2012年9月9日日曜日
87
商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る
Data Fusionの前提条件① : ランダムな欠測
購買と広告接触データへの割当は依存していないので除外出来る
2012年9月9日日曜日
87
ある属性を条件付けた時の購買有無と広告接触の同時分布が分かれば
ある広告に接触した人がどれくらい購買しているかが分かる
欠測しているデータの予測分布
2012年9月9日日曜日
87
Data Fusionの前提条件② : 条件付き独立性
属性が似ていれば広告接触も似ていると仮定すると属性を条件づけた購買履歴は広告に依存しない
2012年9月9日日曜日
87
Data Fusionの前提条件② : 条件付き独立性
属性が似ていれば広告接触も似ていると仮定すると属性を条件づけた購買履歴は広告に依存しない
2012年9月9日日曜日
87
Data Fusionの前提条件② : 条件付き独立性
属性が似ていれば広告接触も似ていると仮定すると属性を条件づけた購買履歴は広告に依存しない
2012年9月9日日曜日
87
条件付き独立性の仮定が成り立つためには属性による購買有無の予測力が十分高い必要がある
Data Fusionの前提条件が成り立つためには
2012年9月9日日曜日
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
87
通常の回帰モデルでは説明力が低い混合モデルを利用することで説明力を上げる
混合モデルで説明力を上げる
図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf
混合回帰モデルのイメージ
2012年9月9日日曜日
87
混合モデルにおいて要素数を事前に決めるのは難しいディリクレ過程混合モデルは、要素数をデータから決定する
ディリクレ過程混合モデル
図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf
混合回帰モデルとディリクレ過程混合モデル
2012年9月9日日曜日
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
参考資料■調査観察データの統計科学
■IBIS 2008 企画セッション 「ノンパラメトリックベイズ」
■data fusion についてのメモ - BOD
■A Direct Approach to Data Fusion
http://d.hatena.ne.jp/dichika/20110907/1315359207
http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf
http://www.chicagobooth.edu/research/workshops/marketing/archive/WorkshopPapers/Rossi.pdf
http://www.amazon.co.jp/dp/4000069721
2012年9月9日日曜日
AGENDA
■ Data Fusionとは■ 自己紹介
■ Data Fusionの仕組み
■ 参考資料
■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル
■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル
2012年9月9日日曜日
87
次回以降の発表者を募集しています!
導入セッション・初心者セッションも絶賛募集中です!
2012年9月9日日曜日