tokyor26 data fusion

54
R言語で学ぶ Data Fusion入門 @yokkuns: 里 洋平 [email protected] 2012.09.08 TokyoR26 201299日日曜日

Upload: yohei-sato

Post on 13-Nov-2014

3.542 views

Category:

Documents


4 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Tokyor26 data fusion

R言語で学ぶData Fusion入門

@yokkuns: 里 洋平[email protected] TokyoR26

2012年9月9日日曜日

Page 2: Tokyor26 data fusion

AGENDA

■ Data Fusionとは■ 自己紹介

■ Data Fusionの仕組み

■ 参考資料

■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル

■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル

2012年9月9日日曜日

Page 3: Tokyor26 data fusion

AGENDA

■ Data Fusionとは■ 自己紹介

■ Data Fusionの仕組み

■ 参考資料

■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル

■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル

2012年9月9日日曜日

Page 4: Tokyor26 data fusion

◆ 名前: 里 洋平

◆ 職業: データサイエンティスト

◆ ID : yokkuns

◆ 時系列解析や異常検知など 各種方法論を実ビジネスに適用

自己紹介

2012年9月9日日曜日

Page 5: Tokyor26 data fusion

Tokyo.R主催

パッケージ本執筆しました!

活動例: 勉強会の主催・執筆

2012年9月9日日曜日

Page 6: Tokyor26 data fusion

閲覧されている動画の情報を用いておすすめ動画を表示する

活動例: 動画レコメンド

2012年9月9日日曜日

Page 7: Tokyor26 data fusion

Web上の情報から市場予測

活動例: 市場予測

2012年9月9日日曜日

Page 8: Tokyor26 data fusion

異常な振る舞い

複数時系列の異常検知

時系列A

時系列B 時系列C

ケースA

ケースB

ケースC

例2:CM効果のノイズ除去

異常な振る舞いの時系列を検出

異常な振る舞いをしているケースを除外して、CMの効果を算出する

CM効果トラフィックA

トラフィックB

トラフィックC

例1:トラフィック異常検知

異常な振る舞いをしているトラフィックの原因を調査する

調査

AB

C

時系列のモデリング

時系列A

時系列B

時系列C

Anomaly detection複数時系列から異常な振る舞いを検知する

85

活動例: 異常検知

2012年9月9日日曜日

Page 9: Tokyor26 data fusion

87

CM時系列

各KPIの時系列

CM

新規登録

ARPU

ARPPU

継続率

ケース

イベント

その他外部要因

TV Commercial Effects時系列的な振る舞いの特徴から各KPIへのCMの影響度を算出

活動例: 時系列解析と影響分析

2012年9月9日日曜日

Page 10: Tokyor26 data fusion

AGENDA

■ Data Fusionとは■ 自己紹介

■ Data Fusionの仕組み

■ 参考資料

■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル

■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル

2012年9月9日日曜日

Page 11: Tokyor26 data fusion

87

Data Fusionとは

2012年9月9日日曜日

Page 12: Tokyor26 data fusion

87

異なる複数のデータを単一のデータに統合することで

Data Fusionとは

2012年9月9日日曜日

Page 13: Tokyor26 data fusion

87

異なる複数のデータを単一のデータに統合することで

Data Fusionとは

個別のデータからは得られない複合的な情報を抽出し

2012年9月9日日曜日

Page 14: Tokyor26 data fusion

87

異なる複数のデータを単一のデータに統合することで

Data Fusionとは

個別のデータからは得られない複合的な情報を抽出し

予測や意思決定を支援する方法論

2012年9月9日日曜日

Page 15: Tokyor26 data fusion

87

異なる複数のデータを単一のデータに統合し個別のデータからは得られない、複合的な情報を抽出する

Data Fusionとは

データAとデータBの相関関係データBで特定の値だったユーザのデータAの値の予測・補完

データA データB

2012年9月9日日曜日

Page 16: Tokyor26 data fusion

広告接触のデータと購買履歴のデータ異なる対象者によるデータである事が多い

Data Fusionの活用シーン

購買履歴データ 広告接触データ

2012年9月9日日曜日

Page 17: Tokyor26 data fusion

87

広告接触データでの購買有無購買データでの広告接触の有無

これらを予測・補完できれば、重要な示唆が得られる

Data Fusionの活用シーン

ある広告を見たユーザーのうち、ある商品はどれだけ購入されたかどのような広告媒体にどのような情報を載せれば、より購入されるか

・・・

購買履歴データ 広告接触データ

2012年9月9日日曜日

Page 18: Tokyor26 data fusion

AGENDA

■ Data Fusionとは■ 自己紹介

■ Data Fusionの仕組み

■ 参考資料

■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル

■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル

2012年9月9日日曜日

Page 19: Tokyor26 data fusion

広告媒体への接触やある特性を有する商品の購入はユーザーの属性に偏りが存在する

類似度からのアプローチ

広告A 商品A 広告B 商品B

属性は似てない属性が似ている

2012年9月9日日曜日

Page 20: Tokyor26 data fusion

87

属性が似ているユーザーは接触する広告媒体や購入する商品が似ている

類似度からのアプローチ

広告A 商品A 広告B 商品B

属性は似てない属性が似ている

属性は似てない

2012年9月9日日曜日

Page 21: Tokyor26 data fusion

購買履歴データと広告接触データで属性が似ている人でペアを作り、同一ユーザーと見なす

Matching法

購買履歴データ 広告接触データ商品A

買った

広告A

見た

商品A

買った広告A

見た

2012年9月9日日曜日

Page 22: Tokyor26 data fusion

87

MatchingパッケージのMatch関数でペアを抽出し擬似的なシングルソースデータを作成する

Rでの実行方法

割当変数 共変量 データAのindex

データBのindex

2012年9月9日日曜日

Page 23: Tokyor26 data fusion

87

Matchingの問題点

2012年9月9日日曜日

Page 24: Tokyor26 data fusion

87

測定誤差などによりバイアスが生じてしまい推定精度があまり高くない

Matchingの問題点

2012年9月9日日曜日

Page 25: Tokyor26 data fusion

87

測定誤差などによりバイアスが生じてしまい推定精度があまり高くない

Matchingの問題点

マッチングに利用しない対象者のデータが無駄になるため、非常に非効率

2012年9月9日日曜日

Page 26: Tokyor26 data fusion

AGENDA

■ Data Fusionとは■ 自己紹介

■ Data Fusionの仕組み

■ 参考資料

■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル

■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル

2012年9月9日日曜日

Page 27: Tokyor26 data fusion

87

購買有無・広告接触有無・属性3つの変数の背後に共通の因子を仮定して予測を行う

因子分析モデル

共通因子

共変量購買有無 広告有無

共通因子

共変量購買有無 広告有無

共通因子

共変量購買有無 広告有無

2012年9月9日日曜日

Page 28: Tokyor26 data fusion

消費者市場のセグメンテーションと同じ概念各潜在クラス内では広告接触や購入する商品が似ている

潜在クラスモデル

購買履歴データ 広告接触データ

潜在クラスA 潜在クラスA

広告Aが2/3

広告Bが1/3

商品Aが2/3

商品Bが1/3

潜在クラスA

広告A

広告A

広告B

商品A

商品B

商品A

2012年9月9日日曜日

Page 29: Tokyor26 data fusion

AGENDA

■ Data Fusionとは■ 自己紹介

■ Data Fusionの仕組み

■ 参考資料

■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル

■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル

2012年9月9日日曜日

Page 30: Tokyor26 data fusion

87

属性データを用いて直接購買の有無をモデリングする2値変数の場合ロジスティック回帰が使われる

回帰モデルによる融合

2012年9月9日日曜日

Page 31: Tokyor26 data fusion

87

一般化線形モデルの関数glmを使ってロジスティック回帰分析を実行して予測する

Rでの実行方法

2012年9月9日日曜日

Page 32: Tokyor26 data fusion

87

データセットlalondeを2分割してマルチソースデータを作成NSW受講者の78年賃金有りの割合を予測する

Rでの実行例: 使うデータ

2012年9月9日日曜日

Page 33: Tokyor26 data fusion

87

Matchingとロジスティック回帰によるData Fusionの関数を定義

Rでの実行例: Data Fusionによる予測

2012年9月9日日曜日

Page 34: Tokyor26 data fusion

87

Matchingとロジスティック回帰の2つの手法で予測するサンプリングして100回実行

Rでの実行例: Data Fusionによる予測

2012年9月9日日曜日

Page 35: Tokyor26 data fusion

87

Rによる実行結果

どちらも手法も値が希薄化が起きているバラツキは回帰モデルの方が小さい

NSW受講者の78年賃金有りの比率の推定結果

2012年9月9日日曜日

Page 36: Tokyor26 data fusion

AGENDA

■ Data Fusionとは■ 自己紹介

■ Data Fusionの仕組み

■ 参考資料

■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル

■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル

2012年9月9日日曜日

Page 37: Tokyor26 data fusion

購買履歴データと広告接触データは他方のデータが欠測しているシングルソースデータ

欠測データとしてのData Fusion

購買履歴

広告接触

共変量

購買履歴データ  欠測 

広告接触データ 欠測 

共通で得られている属性データ 

購買履歴データ 市場調査データ

欠測データとしてのData Fusion

2012年9月9日日曜日

Page 38: Tokyor26 data fusion

87

広告接触データで欠測している購買データの予測分布を考える

欠測しているデータの予測分布

2012年9月9日日曜日

Page 39: Tokyor26 data fusion

87

商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る

Data Fusionの前提条件① : ランダムな欠測

購買と広告接触データへの割当は依存していないので除外出来る

2012年9月9日日曜日

Page 40: Tokyor26 data fusion

87

商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る

Data Fusionの前提条件① : ランダムな欠測

購買と広告接触データへの割当は依存していないので除外出来る

2012年9月9日日曜日

Page 41: Tokyor26 data fusion

87

商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る

Data Fusionの前提条件① : ランダムな欠測

購買と広告接触データへの割当は依存していないので除外出来る

2012年9月9日日曜日

Page 42: Tokyor26 data fusion

87

商品の購入と広告接触データ割当は依存していない欠測はランダムに発生すると仮定出来る

Data Fusionの前提条件① : ランダムな欠測

購買と広告接触データへの割当は依存していないので除外出来る

2012年9月9日日曜日

Page 43: Tokyor26 data fusion

87

ある属性を条件付けた時の購買有無と広告接触の同時分布が分かれば

ある広告に接触した人がどれくらい購買しているかが分かる

欠測しているデータの予測分布

2012年9月9日日曜日

Page 44: Tokyor26 data fusion

87

Data Fusionの前提条件② : 条件付き独立性

属性が似ていれば広告接触も似ていると仮定すると属性を条件づけた購買履歴は広告に依存しない

2012年9月9日日曜日

Page 45: Tokyor26 data fusion

87

Data Fusionの前提条件② : 条件付き独立性

属性が似ていれば広告接触も似ていると仮定すると属性を条件づけた購買履歴は広告に依存しない

2012年9月9日日曜日

Page 46: Tokyor26 data fusion

87

Data Fusionの前提条件② : 条件付き独立性

属性が似ていれば広告接触も似ていると仮定すると属性を条件づけた購買履歴は広告に依存しない

2012年9月9日日曜日

Page 47: Tokyor26 data fusion

87

条件付き独立性の仮定が成り立つためには属性による購買有無の予測力が十分高い必要がある

Data Fusionの前提条件が成り立つためには

2012年9月9日日曜日

Page 48: Tokyor26 data fusion

AGENDA

■ Data Fusionとは■ 自己紹介

■ Data Fusionの仕組み

■ 参考資料

■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル

■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル

2012年9月9日日曜日

Page 49: Tokyor26 data fusion

87

通常の回帰モデルでは説明力が低い混合モデルを利用することで説明力を上げる

混合モデルで説明力を上げる

図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf

混合回帰モデルのイメージ

2012年9月9日日曜日

Page 50: Tokyor26 data fusion

87

混合モデルにおいて要素数を事前に決めるのは難しいディリクレ過程混合モデルは、要素数をデータから決定する

ディリクレ過程混合モデル

図: http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf

混合回帰モデルとディリクレ過程混合モデル

2012年9月9日日曜日

Page 51: Tokyor26 data fusion

AGENDA

■ Data Fusionとは■ 自己紹介

■ Data Fusionの仕組み

■ 参考資料

■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル

■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル

2012年9月9日日曜日

Page 52: Tokyor26 data fusion

参考資料■調査観察データの統計科学

■IBIS 2008 企画セッション 「ノンパラメトリックベイズ」

■data fusion についてのメモ - BOD

■A Direct Approach to Data Fusion

http://d.hatena.ne.jp/dichika/20110907/1315359207

http://chasen.org/~daiti-m/paper/ibis2008-npbayes-tutorial.pdf

http://www.chicagobooth.edu/research/workshops/marketing/archive/WorkshopPapers/Rossi.pdf

http://www.amazon.co.jp/dp/4000069721

2012年9月9日日曜日

Page 53: Tokyor26 data fusion

AGENDA

■ Data Fusionとは■ 自己紹介

■ Data Fusionの仕組み

■ 参考資料

■ セミパラメトリックモデルによる融合◆ ディリクレ過程混合モデル

■ よく使われるデータ融合手法◆ Matching◆ 潜在変数モデリング◆ 回帰モデル

2012年9月9日日曜日

Page 54: Tokyor26 data fusion

87

次回以降の発表者を募集しています!

導入セッション・初心者セッションも絶賛募集中です!

2012年9月9日日曜日