第10回情報ネットワーク科学 2017/10/17(火 機械学習...

65
1 機械学習の動向 〜表現学習x転移学習とその周辺〜 10回 情報ネットワーク科学(NetSci)研究会 2017/10/17() KDDI総合研究所 ⿊川 茂莉

Upload: trandan

Post on 28-Apr-2018

222 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

1

機械学習の動向〜表現学習x転移学習とその周辺〜

第10回情報ネットワーク科学(NetSci)研究会 2017/10/17(火)

KDDI総合研究所⿊川茂莉

Page 2: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

目次

2

表現学習x転移学習の概要

研究事例紹介KDD2017よりKDDI総合研究所の研究事例

Page 3: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

3

表現学習x転移学習の概要

Page 4: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

通常の機械学習(教師あり学習)学習データセットからデータからラベルを予測するモデルを学習し、

テストデータセットのデータからラベルを予測する

機械学習一般との対比

4

ラベルデータ

データ ラベル

学習

予測

学習データセット

テストデータセット

モデル

Page 5: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

本講演で想定するシチュエーション “何らかの理由”でソースとターゲットにデータが分かれてしまっているラベルはあったりなかったりする

機械学習一般との対比

5

ラベルデータ

学習データセット(ソース)

学習データセット(ターゲット)

ラベルデータ

モデル学習

予測

Page 6: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

イメージ〜どんな問題︖

6

正例負例

円の大きさ… の値

正例負例

円の大きさ… の値

ソース=A党の支持者 ターゲット=B党の支持者

ソースドメインのデータを利⽤してターゲットドメインの保守派を浮き彫りにする

Page 7: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

転移学習〜ドメインを跨いだ機械学習=ソースドメインのデータから得られた知識を、ターゲットドメインのデータに適応して、機械学習を⾏うこと

なぜ必要〜”何らかの理由“でソースとターゲットにデータが分かれてしまっているが、関連性がある以上は両方とも活用したい ~ “似ているんだけどちょっと違う“を使いたい~

データの取得方法が異なる よくある!

• 例えば、ソースはユーザが⼊⼒したログ、ターゲットは機械が検知したログデータの取得対象が異なる よくある!

• 例えば、ソースはECコンテンツのデータ、ターゲットは実店舗コンテンツのデータなど

転移学習の意義

7

Page 8: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

転移学習〜ドメインを跨いだ機械学習=ソースドメインのデータから得られた知識を、ターゲットドメインのデータに適応して、機械学習を⾏うこと

なにがうれしい︖〜使えるデータ、ラベルが増える片方のドメインの 特徴 が両ドメインの “共有知識” になる片方のドメインの ラベル が両ドメインの “共有知識” になる

転移学習の意義

8

Page 9: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

分析プロセスとして⾒ると・・・

9

通常の機械学習

データに表れる汎化可能な知識を抽出

帰納学習表現学習

Page 10: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

通常の機械学習分析プロセスとして⾒ると・・・

10

データ固有の知識を抽出 データに表れる汎化可能な知識を抽出

ガクの⻑さ ガクの⻑さ

花弁の⻑さ 花弁の⻑さ

Page 11: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

分析プロセスとして⾒ると・・・

11

通常の機械学習以下がすべて⾃動化できたら全て解決︖

データに表れる汎化可能な知識を抽出

帰納学習表現学習

Page 12: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

ドメインを跨いだ機械学習分析プロセスとして⾒ると・・・

12

データ固有の知識を抽出

データに表れる汎化可能な知識を

抽出ドメイン間で知識

を共有

ドメイン間での知識を共有するための変換が必要になる

Page 13: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

ドメインを跨いだ機械学習分析プロセスとして⾒ると・・・

13

データ固有の知識を抽出

データに表れる汎化可能な知識を

抽出ドメイン間で知識

を共有

転移学習表現学習

Page 14: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

ドメインを跨いだ機械学習分析プロセスとして⾒ると・・・

14

データ固有の知識を抽出

データに表れる汎化可能な知識を

抽出ドメイン間で知識

を共有

”転移可能”表現学習 帰納学習

Page 15: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

データを抽象化し、データの各要素について特徴を表すベクトル表現を付与すること

表現学習とは

15

“情報”

“ネットワーク”

10010010000101000

10010001001001000

各ビットは学習データセット内に現れる特徴を表現

情報ネットワークは、私たちの生活や社会を支える最重要技術として目覚しい発展を遂げてきました。特に最近では、…

Page 16: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

データ構造に応じてアルゴリズムが異なる表現学習とは

16

0 1 2 30 1 0 0 0

1 1 1 1 0

2 0 1 1 0

<⾏列> <テキスト>

BoW, tf-idf, n-gram, nnlmWord2Vec(CBoW, SkipGram)

LSA/LSI pLSA/LSI LDA

BoW, tf-idf, n-gram, nnlmWord2Vec(CBoW, SkipGram)

LSA/LSI pLSA/LSI LDANMFSVDNMFSVD

<グラフ>

0

23

1

4Node2Vec, LINE, DeepWalkLaplacian Eigenmaps, Graph Convolution

Node2Vec, LINE, DeepWalkLaplacian Eigenmaps, Graph Convolution

TXTTXT

Page 17: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

表現学習の操作(1)〜次元を上げ下げする

17

線形分離不能➡次元を上げる サンプル数不⾜➡次元を下げる

“埋め込み”や”次元削減”という言葉を使っている場合は暗にこちらを意図していることが多い

Page 18: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

表現学習の操作(2)〜シングルインスタンス⇔マルチインスタンス

18

局所的な関係が意味を持つ➡マルチインスタンス

(周囲のインスタンス等)で評価

全域的な位置が意味を持つ

➡シングルインスタンスで評価

Page 19: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

表現学習の操作(2)〜シングルインスタンス⇔マルチインスタンス (イメージ)

19

局所的な関係が意味を持つ➡マルチインスタンス

(周囲のインスタンス等)で評価

全域的な位置が意味を持つ

➡シングルインスタンスで評価

地球は⻘かった(巨視的)

隣の花は赤い(微視的)

Page 20: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

表現学習の操作(2)〜シングルインスタンス⇔マルチインスタンス

20

全域的な位置が意味を持つ

➡シングルインスタンスで評価

局所的な関係が意味を持つ➡マルチインスタンス

(周囲のインスタンス等)で評価

マルチインスタンスの手法は、周囲のインスタンスで演算が規定されるため、アウトオブサンプルに対応できない手法が多い。

➡その場合、最終的にはシングルインスタンスでの評価が可能な演算に変換する必要がある

Page 21: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

表現学習のチャート

21

グラフ構造を持っている

ランダムウォークでノードシーケンスを抽出

ラプラシアン行列(Graph Laplacian)

…Skip-Gramの発想でサンプリング

行列分解

取り上げている手法はごく一部です

局所/全域構造に着目したい

Laplacian Eigenmaps

Node2Vec

Yes No(省略)

局所 全域

局所構造の取り出し

Grover, A., & Leskovec, J. (2016, August). node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 855-864). ACM.

Belkin, M., & Niyogi, P. (2002). Laplacian eigenmaps and spectral techniques for embedding and clustering. In Advances in neural information processing systems (pp. 585-591).

Page 22: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

ドメインを跨ぐ機械学習=転移学習“似ているんだけどちょっと違う”を使いたい

ドメイン適応を含めた表現学習= ”転移可能”表現学習というアプローチも考えられる

表現学習には次元を上げ下げする操作「地球は⻘かった」というような巨視的な⾒方と

「隣の花は⾚い」というような微視的な⾒方による操作以上2つがある

ブレイク(1/2)︓ここまでのまとめ

22

Page 23: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

<解くべき課題>手間のかかるデータ統合をしない転移

学習の場合、いかによい表現を学習して共通化するかという問題に帰着する

よい表現とは解きたい分析課題に対して、情報損失ができる限り小さいアウトオブサンプル(学習データセット外のサンプル)に対応できる

※☆は次ページ以降で説明

<前提>6つの前提の組み合わせに落ちる

表現学習 x 転移学習の問題

23

ソース ターゲットデータの定義域データの分布ラベルの定義域ラベルの分布ラベルの個数 ≠≠ ≠≠= 0 = 0

<前提1> <前提2>

<前提3> <前提4>

<前提5> <前提6>

Page 24: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

よい表現とは解きたい分析課題に対して、情報損失ができる限り小さいアウトオブサンプルに対応できる

イメージしやすい例

よい表現の基準〜情報損失って何︖

24

左記線分上に射影した点を出⼒とした場合

➡垂直⼆等分線の距離の和(=⼆乗誤差)が情報損失となる

※もちろんこれだけではありません課題によっても異なります

Page 25: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

よい表現の基準〜アウトオブサンプルって何︖

25

よい表現とは解きたい分析課題に対して、情報損失ができる限り小さい アウトオブサンプル(学習データセット外のサンプル)に対応できる

イメージしやすい例(アウトオブサンプルに対応できる場合)

左記線分上に射影した点を出⼒とした場合

➡アウトオブサンプルに簡単に対応できる

Page 26: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

よい表現の基準〜アウトオブサンプルって何︖

26

よい表現とは解きたい分析課題に対して、情報損失ができる限り小さい アウトオブサンプル(学習データセット外のサンプル)に対応できる

イメージしやすい例(そのままではアウトオブサンプルに対応できない場合)

各点について最近傍の点とつなぎ、接続された点の平均を出⼒とした場合

➡学習データセットを参照して、グラフを再構築しないといけない

Page 27: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

前提の分岐チャート

27

データの状態 ラベルの状態

定義域が同じ

分布が同じ

ラベル有無

定義域が同じ

分布が同じ≠<前提1>

≠<前提2>

前提なし

≠<前提3>

≠= 0

<前提4>

<前提5>

前提なし

Yes No

Yes No

Yes No

Yes No

ともに有ソース無

自己教示

(一種の)マルチタスク

Class Imbalance

共変量シフト

= 0<前提6>

ターゲット無

トランスダクティブ

Page 28: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

前提による問題の難易度

28

ソースとターゲットで定義域が異なる

ソースとターゲットで分布が異なる>

≠≠<前提1>

<前提3>

≠≠<前提2>

<前提4>

Page 29: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

イメージ〜どんな問題︖(再)

29

正例負例

円の大きさ… の値

正例負例

円の大きさ… の値

ソース=A党の支持者 ターゲット=B党の支持者

ソースドメインのデータを利⽤してターゲットドメインの保守派を浮き彫りにする

Page 30: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

<解くべき課題>手間のかかるデータ統合をしない転移

学習の場合、いかによい表現を学習して共通化するかという問題に帰着する

<前提>以下の前提1~6の組み合わせに落ちる

ブレイク(2/2)︓表現学習 x 転移学習の問題(再)

30

ソース ターゲットデータの定義域

データの分布

ラベルの定義域

ラベルの分布

ラベルの個数 ≠≠ ≠≠= 0 = 0<前提1> <前提2>

<前提3> <前提4>

<前提5> <前提6>

よい表現とは解きたい分析課題に対して、情報損失

ができる限り小さいアウトオブサンプルに対応できる

Page 31: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

次の話の前提は…

31

データの状態 ラベルの状態

定義域が同じ

分布が同じ

ラベル有無

定義域が同じ

分布が同じ

≠<前提1>

≠<前提2>

前提なし

≠<前提3>

≠= 0

<前提4>

<前提5>

前提なし

Yes No

Yes No

Yes No

Yes No

ともに有ソース無

自己教示

(一種の)マルチタスク

Class Imbalance

共変量シフト

= 0<前提6>

ターゲット無

トランスダクティブ

Page 32: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

確率密度比によるドメイン適応前提 ≠

• データの周辺分布はソースとターゲットで異なる | = |

• データを既知としたラベルの条件付き分布はソースとターゲットで同一解法パラメータの推定量の期待値がターゲットの値からずれる(バイアス)

➡損失関数を密度比を重みづけして評価することにより、バイアスを解消するここでは多く触れませんが、密度比推定⾃体が研究分野で手法多数あり︕

<前提1>に対する解

32

=共変量シフト

= , , ;, ∈ ×≈ ,, , ;, ∈ ×

実はこの仮定が付け加わっている

Page 33: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

確率密度比によるドメイン適応前提 ≠

• <前提1>データの周辺分布はソースとターゲットで異なる | = |

• データを既知としたラベルの条件付き分布はソースとターゲットで同一帰結共変量シフト下では確率密度比はソースとターゲットのデータの確率分布の比

➡推定法としてKLIEPが有名

<前提1>に対する解

33

,, = ||=

実はこの仮定が付け加わっている

=共変量シフト

Sugiyama, M., Suzuki, T., Nakajima, S., Kashima, H., von Bünau, P. & Kawanabe, M. Direct importance estimation for covariate shift adaptation. Annals of the Institute of Statistical Mathematics, vol.60, no.4, pp.699-746, 2008.

Page 34: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

次の話の前提は…

34

データの状態 ラベルの状態

定義域が同じ

分布が同じ

ラベル有無

定義域が同じ

分布が同じ

≠<前提1>

≠<前提2>

前提なし

<前提3>

≠= 0

<前提4>

<前提5> = 0<前提6>

前提なし

Yes No

Yes No

Yes No

Yes No

ともに有 ソース無ターゲット無

トランスダクティブ自己教示

(一種の)マルチタスク

Class Imbalance

共変量シフト

Page 35: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

<前提3>に対する解

確率密度比によるドメイン適応 前提 ≠

• <前提3 >ラベルの周辺分布はソースとターゲットで異なる | = |

• ラベルを既知としたデータの条件付き分布はソースとターゲットで同一 帰結確率密度比はソースとターゲットの目的変数の確率分布の比 (Lin et al., 2002)

,, = ||=35

Page 36: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

次の話の前提は…

36

データの状態 ラベルの状態

定義域が同じ

分布が同じ

ラベル有無

定義域が同じ

分布が同じ

≠<前提1>

≠<前提2>

前提なし

<前提3>

≠= 0

<前提4>

<前提5> = 0<前提6>

前提なし

Yes No

Yes No

Yes No

Yes No

ともに有 ソース無ターゲット無

トランスダクティブ自己教示

(一種の)マルチタスク

Class Imbalance

共変量シフト

Page 37: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

事例選択によるドメイン適応(HEGS)前提 ≠ ︓<前提1>データの周辺分布はソースとターゲットで異なる ≠ ︓<前提3>ラベルの周辺分布はソースとターゲットで異なる

解法

<前提1>かつ<前提3>に対する解

37

Shi, X., Liu, Q., Fan, W., Yang, Q. & Philip, S. Y. Predictive Modeling with Heterogeneous Sources. Sdm 3, 814–825 (2010).

[Step1] 両ドメインのサンプルを重ね合わせて、KLダイバージェンスを規準にクラスタリング➡外れ値を除去

[Step2] ソース→ターゲットの出⼒ラベルの回帰モデルを作り、出⼒ラベルを射影

Page 38: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

次の話の前提は…

38

データの状態 ラベルの状態

定義域が同じ

分布が同じ

ラベル有無

定義域が同じ

分布が同じ

≠<前提1>

≠<前提2>

前提なし

≠<前提3>

≠= 0

<前提4>

<前提5>

前提なし

Yes No

Yes No

Yes No

Yes No

ともに有ソース無

自己教示

(一種の)マルチタスク

Class Imbalance

共変量シフト

= 0<前提6>

ターゲット無

トランスダクティブ

Page 39: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

⾏列分解によるドメイン適応(HeMap)前提 ≠ ︓<前提2>データの定義域はソースとターゲットで異なる

解法⾏列分解において、ソースとターゲットの距離が近くなるよう制約をかける

<前提2>に対する解

39

Shi, X., Liu, Q., Fan, W., Yu, P. S. & Zhu, R. Transfer learning on heterogenous feature spaces via spectral transformation. Proc. - IEEE Int. Conf. Data Mining, ICDM 1049–1054 (2010).

S

T

ソースの⾏列

ターゲットの⾏列

BS

BT

PT

PS〜

BT

BS

PT

PS⼊れ替えて距離を計測

インスタンス

特徴

インスタンス数は等しくなるよう事前に調整

通常の目的関数 制約をかける正則化

Page 40: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

次の話の前提は…

40

データの状態 ラベルの状態

定義域が同じ

分布が同じ

ラベル有無

定義域が同じ

分布が同じ

≠<前提1>

≠<前提2>

前提なし

≠<前提3>

≠= 0

<前提4>

<前提5>

前提なし

Yes No

Yes No

Yes No

Yes No

ともに有ソース無

自己教示

(一種の)マルチタスク

Class Imbalance

共変量シフト

= 0<前提6>ターゲット無

トランスダクティブ

Page 41: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

ピボット特徴を用いたドメイン適応(SCL)前提 ≠ ︓<前提2>データの定義域はソースとターゲットで異なる = 0︓<前提6>トランスダクティブ

解法ピボット特徴と非ピボット特徴の共起パターンを、⾏列分解により得る

• ※ピボット特徴は、両ドメインに出現し、推定に寄与する特徴。テキストの名詞推定の場合、前置詞などをピボットとして選べる

⾏列分解により得られた成分を両ドメイン共通の特徴として追加

<前提2>かつ<前提6>に対する解

41

Blitzer, J., et al. "Domain adaptation with structural correspondence learning." Proc. of the 2006 conference on empirical methods in natural language processing. Association for Computational Linguistics, 2006.

生体医学での”Signal”は名詞︖形容詞︖

Page 42: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

次の話の前提は…

42

データの状態 ラベルの状態

定義域が同じ

分布が同じ

ラベル有無

定義域が同じ

分布が同じ

≠<前提1>

≠<前提2>

前提なし

≠<前提3>

≠= 0

<前提4>

<前提5> = 0<前提6>

前提なし

Yes No

Yes No

Yes No

Yes No

ともに有ソース無 ターゲット無

トランスダクティブ自己教示

(一種の)マルチタスク

Class Imbalance

共変量シフト

Page 43: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

共通潜在空間によるドメイン適応(MMDE)前提 ≠

• <前提1>データの分布はソースとターゲットで異なる

= 0• <前提6>トランスダクティブ

解法 MMDという分布間の距離尺度を導⼊し、両ドメインが近くなるよう空間を張る

空間からの射影をとる(テクニカルには、カーネル⾏列を推定後、主成分分析で射影をとる)

<前提1>かつ<前提6>に対する解

43

Pan, S., Kwok, J. & Yang, Q. Transfer Learning via Dimensionality Reduction. AAAI Conf. Artif. Intell. 677–682 (2008).

Page 44: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

関連研究〜KDD2017より〜

44

Page 45: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

トピックモデルに単語の類似度を反映させる。A Practical Algorithm for Solving the Incoherence Problem of Topic Models In Industrial ApplicationsAmr Ahmed (Google Research), James Long (Google Research), Daniel Silva (Google Research), Yuan Wang (Google Research)単語の類似度グラフによりトピックのサンプリングをゆがめて類似度を反映させる。

⾃動で相関が高い特徴をグルーピングする。Groups-Keeping Solution Path Algorithm for Sparse Regression with Automatic Feature Grouping Bin Gu (University of Texas at Arlington), Guodong Liu (University of Texas at Arlington), Heng Huang (University of Texas at Arlington)高次元データで相関が高い特徴があることがある。さらに相関が高い特徴のグループを組んでいることがある。既存としてはラッソ、グループラッソがあるが、ラッソはひとつの相関が高い特徴に寄りがちで、グループラッソはグループを前もって与えないといけなかった。OSCARはグループ検出と選択ができる手法だが、これのチューニングをできるようにした。

45

KDD2017より: 表現学習、1次加工

Page 46: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

テキストのオートエンコーダのスパースネスへの対処。KATE: K-Competitive Autoencoder for TextYu Chen (Rensselaer Polytechnic Institute), Mohammed J Zaki (Rensselaer Polytechnic Institute)

オートエンコーダは単語の表現学習に使えるが、高次元でスパースという状況下では、よく出てくる単語が多くのトピックを支配してしまうということがしばしば起こる。“競争は違いを生む”という考えを使い、中間層のなかでPosはよりPosにNegはよりNegになるように強め合うという作⽤をして、k個のPosとNegのニューロンに絞り込む。これによりtrivialな特徴が多くを支配してしまう状況を抑制できた。

ショートテキストのロングテキストと関連付け(アテンション)によるモデリング。End-to-end Learning for Short Text ExpansionJian Tang (University of Michigan), Yue Wang (University of Michigan), Kai Zheng (University of California, Irvine), Qiaozhu Mei (University of Michigan)

ショートテキストを⼊⼒として、ロングテキストの表現の中から近いものにアテンションをかけてロングテキストの情報も取り込む。これを多段にしてモデル化。

46

KDD2017より: オートエンコーダ / アテンション関連

Page 47: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

カーネルをよい線形化を得る方法。Linearized GMM Kernels and Normalized Random Fourier Features Ping Li (Rutgers University)

RBF(最も有名なカーネルのひとつ)はRFFで線形化できるが、分散が大きい。正規化してNRFFにすると少し改善する。GMM(Generalized Min-Max。カーネルのひとつ)はGCWSで線形化できる。実験の結果、分類精度としてGCWSのほうがよい。類似度が非常に高い領域を除けばGCWSのほうが分散が小さくてよいからとのこと。

カーネルからデータの射影を得る(多様な解像度に対応した射影を作る)Randomized Feature Engineering as a Fast and Accurate Alternative to Kernel Methods Suhang Wang (Arizona State University), Charu Aggarwal (IBM T. J. Watson Research Center), Huan Liu (Arizona State University)

Kernel trickは高次元にデータ点を持って⾏って識別しやすくすることだが、陽な表現(射影)を得ないし、領域ごとに解像度を柔軟に変えられない。アンカー点をランダムサンプリングして、ボロノイ分割を作って、特徴を作るという操作を繰り返すと、解像度の異なる特徴が得られる。カーネル法よりも時間コストが小さく、ノイズにも強いという結果。

47

KDD2017より︓ 距離、カーネル、その他のモデル

Page 48: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

協調フィルタの要素と、オートコンテンツの特徴を配合する。Collaborative Variational Autoencoder for Recommender Systems Xiaopeng Li (Hong Kong University of Science and Technology), James She (Hong Kong University of Science and Technology)

協調フィルタの要素と、コンテンツの特徴を配合する。コンテンツの表現はオートエンコーダで獲得する。

Yelp!のリッチ情報を統合した推薦。Meta-Graph Based Recommendation Fusion over Heterogeneous Information NetworksHuan Zhao (Hong Kong University of Science and Technology), Quanming Yao (Hong Kong University of Science and Technology), Jianda Li (Hong Kong University of Science and Technology), Yangqiu Song (Hong Kong University of Science and Technology), Dik Lun Lee (Hong Kong University of Science and Technology)

Yelp!でプロダクト情報、レビュー情報などリッチな情報を統合して推薦する問題。情報をHeterogeneous Information Networksとして表現し、類似度を測る。メタグラフという類似度の取り出し方を採⽤。

48

KDD2017より︓レコメンデーション

Page 49: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

KDDI研の研究事例より

49

Page 50: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

企業におけるパーソナルデータ活用

50

学習器

企業A

ある商品カテゴリの広告クリック有無

性別、年代、各社の記事へのアクセス

特徴量 ラベル

例︓ユーザ毎の特徴量から広告クリックを予測

⇒ユーザの関心を捉えやすい

手持ちのデータで⼗分な精度が得られた

データ活用してよかった︕

Page 51: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

企業におけるパーソナルデータ活用

51

学習器

企業B

事業内容により得られる属性が異なるため機械学習モデルの精度に差が出る⇒データ連携が求められる

性別、年代、⾃社の記事へのアクセス

ある商品カテゴリの広告クリック有無

例︓ユーザ毎の特徴量から広告クリックを予測

⇒ユーザの関心を捉えにくい

手持ちのデータでは⼗分な精度が得られな

かったデータ活用は無意味︕

Page 52: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

データ連携

52

Pros精密な分析が可能

Cons準備コストが大きい利⽤規約の整備が必要例︓データ、目的、企業名

利⽤許諾の取得が必要システム整備コスト⇒初動が遅い

ユーザID 属性1 属性2

ユーザID 属性3 属性4

ID連携

ID連携された生データの共同利⽤

融通

企業A

企業Bjoin

Page 53: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

データ連携

53

共通属性のある統計処理データを⽤いた属性値推定

Pros 準備コストが小さい⇒初動が早い

Cons 精密な分析が不可能

属性1 属性2 属性3 属性4

融通

企業A

企業B

属性1 属性2 属性5 属性6

共通属性

統計処理

属性値推定

属性3,4の推定値

昨今は事業環境の変化が激しい⇒属性値推定が有効と考える

知識

Page 54: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

データ連携

54

共通属性のある統計処理データを⽤いた属性値推定

属性1 属性2 属性3 属性4

企業A

企業B

属性1 属性2 属性5 属性6

共通属性元ドメイン︓知識の融通元

ドメインひとまとまりのデータが得られる領域(企業など)

目標ドメイン︓知識の融通先

融通

統計処理

属性値推定

属性3,4の推定値

知識

Page 55: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

つまり、この話の前提は…

55

データの状態 ラベルの状態

定義域が同じ

分布が同じ

≠<前提1>

≠<前提2>

前提なし

Yes No

Yes Noラベル有無

定義域が同じ

分布が同じ

≠<前提3>≠

= 0<前提4>

<前提5> = 0<前提6>

前提なし

Yes No

Yes No

ともに有ソース無 ターゲット無

トランスダクティブ自己教示

(一種の)マルチタスク

Class Imbalance

共変量シフト

➡ラベルに関しては、ソース=半教師有、ターゲット=教師有とい

うやや特殊な状況を想定

Page 56: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

問題設定

56

統計処理

目標ドメイン︓データ

知識表現

学習器

元ドメイン︓データ

属性値推定

生データを連携できない2者間で「知識表現」を融通し学習器の精度を向上させる

Page 57: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

統計処理

目標ドメイン︓データ

知識表現

学習器

元ドメイン︓データ

属性値推定

前提

57

元ドメインと目標ドメインに共通属性を想定

共通属性あり

一部サンプルにラベルあり

ラベルあり

属性の包含関係︓元ドメイン⊃目標ドメイン

Page 58: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

問題設定

58

共通属性 目標ドメインの未知属性ユーザID 属性1 属性2 属性3 属性4 属性5 属性6 属性7

AAA 3 1 2

BBB 1 3 2 1 2

CCC 1 2 1

共通属性ユーザID 属性1 属性2 属性3

DDD 1 1

EEE 1 1

FFF 1

未知属性属性4 属性5 属性6 属性7

? ? ? ?

? ? ? ?

? ? ? ?

知識表現

・目標ドメインのデータ

知識表現

・元ドメインのデータ 属性の包含関係

統計処理

属性値推定

予測モデル

Page 59: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

データ 属性︓広告配信プラットフォームの Webアクセスログ3ヶ月分 ラベル︓アンケートによる引越の有無の0/1フラグ

前処理 Webアクセスログ

• ユーザと属性(URLカテゴリ)をそれぞれ文書と単語と⾒なしたBag of Words表現で⾏列化• ⾏列の各要素は 3 ヶ月間のアクセス数の合計

ドメインの模擬• ラベルなしユーザ(約10,000)→元ドメイン• ラベルありユーザ(約4,000)を2分割→元ドメインと目標ドメイン• 属性(約1,000)を2分割→共通属性と未知属性

評価条件

59

推定対象

ラベルなしユーザ

ラベルありユーザ

共通属性 未知属性

目標ドメイン

元ドメイン

Page 60: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

評価対象︓統計処理と損失関数の組合せ 統計処理

• uNMF_L: ラベルありユーザを⽤いた教師なしNMF(A)• uNMF_S: 全ユーザを⽤いた教師なしNMF(A+B)• sNMF: ラベルありユーザを⽤いた教師ありNMF(A+C)• ssNMF: 全ユーザを⽤いた半教師ありNMF(A+B+C)

損失関数• L1: 絶対損失• L2: ⼆乗損失• Huber: Huber損失

評価方法︓目標ドメインで3-fold Cross Validation 100回 学習器︓XGBoost(勾配ブースティング木) 特徴量︓共通属性(既知)と未知属性(推定値)を⼆値化(アクセス有無を⽰す) 精度指標︓AUC平均,F1-score平均 (0.5以上をPositive)

評価条件

60

推定値(⼆値)既知(⼆値) XGBoostラベル

B

C

ラベルなしユーザ

ラベルありユーザ

ラベルA

全属性

Page 61: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

結果︓AUCの比較

61

共通属性のみを⽤いた場合︓AUC = 0.6392

統計処理を固定︓Huber損失が最善⇒データの分布の偏りに対してロバスト損失が有効

統計処理

Page 62: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

データの分布

62

全体の約80%がアクセス数10以下(アクセス数0は除外)

Page 63: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

結果︓AUCの比較

63

損失関数を固定︓L1,L2では教師なしが最善. Huberでは半教師ありが最善⇒評価不⼗分の可能性︓NMF/NNLSの初期値依存性,パラメタチューニング

統計処理

共通属性のみを⽤いた場合︓AUC = 0.6392

Page 64: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

結果︓F1-scoreの比較

64

共通属性のみを⽤いた場合︓F1- score = 0.0854

統計処理

半教師有り+Huber損失で1.25倍改善⇒実⽤的な観点から有益

Page 65: 第10回情報ネットワーク科学 2017/10/17(火 機械学習 …netsci/wp-content/uploads/2017/10/201710...1 機械学習の動向 〜表現学習x転移学習とその周辺〜

ご清聴ありがとうございました

65