semi-supervised learning using gaussian fields and harmonic functions (icml2003)

20
Motivation Methods Evaluation Conclusion Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003) パターン認識と機械学習の勉強会 #8 上田 隼也 (筑波大学) 情報数理研究室 修士 1 October 30, 2015 1 / 20

Category:

Science


3 download

TRANSCRIPT

Page 1: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

Semi-Supervised Learning UsingGaussian Fields and HarmonicFunctions (ICML2003)

パターン認識と機械学習の勉強会 #8

上田 隼也 (筑波大学)情報数理研究室 修士 1 年

October 30, 2015

1 / 20

Page 2: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

1 Motivation

2 Methods

3 Evaluation

4 Conclusion

2 / 20

Page 3: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

概要・著者何を解決・解明したいのか?

概要

ガウス確率分布を元にした半教師付き機械学習(Semi-Supervised-Learning :SSL)の提案類似度からなる重み付きグラフがあり、各ノードにはラベリング・非ラベリングデータが混在ガウス確率分布のクラス分類アルゴリズムはNearest-Neighbor(NN)と見なすことができる。(酔歩(Random-Walk)でグラフを試行した際に計算された物がNNだと考える)

3 / 20

Page 4: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

概要・著者何を解決・解明したいのか?

提案手法のイメージ

図 1: 画像のピクセル間のユークリッド距離でのラベル伝搬 1

1Semi-Supervised Learning Tutorial(ICML2007)4 / 20

Page 5: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

概要・著者何を解決・解明したいのか?

著者

1 Xiaojin Jerry Zhu(ウィスコンシン大学助教)• Semi-supervised learning literature survey(2005)

2 Zoubin Ghahramani(ケンブリッジ大学教授)• An introduction to variational methods for graphicalmodels(1999)

• Learning from labeled and unlabeled data with labelpropagation(2002)

3 J Lafferty(シカゴ大学教授)• Conditional random fields: Probabilistic models forsegmenting and labeling sequence data(2001)

• Diffusion kernels on graphs and other discretestructures(2002)

5 / 20

Page 6: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

概要・著者何を解決・解明したいのか?

教師あり学習の問題点と仮説

教師あり学習

事前に与えられたデータをいわば「例題(=先生からの助言)」とみなして、それをガイドに学習(=データへの何らかのフィッティング)2

データに対してアノテーションを付けるには高いコストと熟練したテクニックが必要

半教師付き機械学習 (SSL)

ラベリングデータと非ラベリングデータの両方を使って精度を向上させる

2教師あり学習 — Wikipedia6 / 20

Page 7: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

既存手法提案手法

半教師付き学習

半教師付き機械学習 (SSL)

ラベリングデータと非ラベリングデータの両方を使って精度を向上させる

Graph based SSLSSLはモデルを仮定することが最も重要 3

3半教師あり学習のモデル仮定 — でっかいチーズをベーグルする7 / 20

Page 8: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

既存手法提案手法

Notation

• ラベリングデータ : l個 (x1, y1), . . . (xl, yl)

• 非ラベリングデータ : u個 xl+1, . . . , xl+u

• l << u

• データ総数 n個 : n = l + u

• ラベルは2値 y ∈ {0, 1}• グラフ G = (V,E)

• node L = {1, . . . , l}• node U = {l + 1, . . . , l + u}

データの重み付け関数wij: Gaussian Kernel.

8 / 20

Page 9: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

既存手法提案手法

仮説データの構造から手法の仮説を立てる

図 2: 手書き文字の重み付き類似度グラフ

9 / 20

Page 10: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

既存手法提案手法

提案手法

実数関数 f : V → R (ノードから実数へ写像する関数)

• なぜ離散値から連続値へ拡張するのか?• 離散値から連続値へ緩和することで多くの利点

• 仮説 直感的に非ラベリングのノードがある時、近いノードは同じラベルを持つ

E(f) =1

2

∑i,j

wij(f(i)− f(j))2 (2)

f = argminf |L=flE(f)

f()は ‘Harmonic Function‘(調和関数),∆f = 0,∆ = D −W

10 / 20

Page 11: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

既存手法提案手法

ラベル推定

非ラベリングデータをラベリングデータから推定する

f(j) =1

dj

∑i−j

wijf(i), j ∈ U (3)

f を f = fP, P = D−1W と定義しなおすことで、調和関数が最大化される原理を得る

11 / 20

Page 12: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

既存手法提案手法

ラベル推定

調和関数を計算するために、まず行列W を4つのブロックに分割

W =

[Wll Wlu

Wul Wuu

](4)

f =

[flfu

]を定義、fuは非ラベリングデータである

flを満たす∆f = 0は以下の式から与えられる。

fu = (Duu −Wuu)−1Wul

fl = (I − Puu)−1Pulfl (5)

Matlab Demo

12 / 20

Page 13: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

既存手法提案手法

調和関数のデモ

• 左側:データ数 181個,l = 3, u = 178, σ = 0.22

• 右側:データ数 186個,l = 2, u = 184, σ = 0.43

13 / 20

Page 14: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

既存手法提案手法

グラフの酔歩

• グラフGを正規化することで、確率遷移行列 P へ• グラフ上の酔歩 (Random Walk)を考える• 非ラベリングのノードから酔歩を初め、ラベリングされたノードに到着するまで酔歩を継続

14 / 20

Page 15: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

既存手法提案手法

CMN

CMN(Class Mass Normalization)

クラス分布を事前知識に適応させる

Class 1 = q, Other Class = 1− q, qの値はラベルの値から推定ポイント iは以下の条件が成り立つときに 1となる

qfu(j)∑i fu(i)

> (1− q)1− fu(i)∑i(1− fu(i))

(9)

確率として考えると以下の式になる

f(i) =q(u−

∑j fu(j))fu(i)

q(u−∑

j fu(j))fu(i) + (1− q)∑

j(1− fu(j))fu(j)(15)

15 / 20

Page 16: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

評価考察

評価• 手書き画像を 16×16にダウンサンプリング、ガウシアンフィルタで平滑化

• 各ピクセルは 0-255の特徴量があり、画像データは 256次元のベクトルと考える

図 3: 手書き数字の分類精度比較

16 / 20

Page 17: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

評価考察

評価

図 4: ニュース記事の分類精度 tf.idfによるグラフ作成

17 / 20

Page 18: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

評価考察

エントロピーの関係性

図 5: σの影響とエントロピー

H(bits) CMN theres

start 0.6931 97.25 ± 0.73% 94.70 ± 1.19%end 0.6542 98.56 ± 0.43% 98.02 ± 1.19%

18 / 20

Page 19: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

評価考察

エントロピーの関係性

図 6: 画像のピクセル間のユークリッド距離でのラベル伝搬イメージ 4

図 7: σの変化 (σ:エントロピーのパラメータ)

4Semi-Supervised Learning Tutorial(ICML2007)19 / 20

Page 20: Semi-Supervised Learning Using Gaussian Fields and Harmonic Functions (ICML2003)

MotivationMethods

EvaluationConclusion

まとめ

結論・貢献結論

1 調和関数とガウス確率分布を用いた Graph Based SSLの提案

2 SSLは仮説が大事3 Graph Based SSL: ラベルは伝搬する。

図 8: 画像のピクセル間のユークリッド距離でのラベル伝搬イメージ 5

5Semi-Supervised Learning Tutorial(ICML2007)20 / 20