semi-supervised active learning survey

Semi-Supervised Active Learning

Survey

Presenter: Yo Ehara

@niam

http://yoehara.com/

1

Semi-supervised active learning 半教師あり能動学習

能動学習：

学習器の性能（精度）が良くなるようなデータ点（ラベルなし）をある基準に従って選ぶ

– 例：SVMの識別平面に近い方（基準）から…

• 半教師あり能動学習 surveyed in [Wang+, TIST 2011]

– 2タイプに分けられる（たぶん）

1. 学習器が半教師あり学習器の場合．

– （ラベル伝搬＋能動学習）

2. 「基準」に（学習器とデータ点の関係に加えて）データ点間の関係が含まれている場合．

– （Experimental Design）

2

1. 学習器が半教師あり学習器の場合

ラベル伝搬＋能動学習

• GRF+active learning [Xiaojin Zhu+, ICML workshop 2003]

– ラベル伝搬法GRF(Gaussian random fields) [Zhu+, ICML2003]の拡張

– 基準：期待汎化誤差

– 応用：[Hoi+, CVPR2005], 類似手法：[Bao+, MM2009]

• [江原+,NLP2012]もラベル伝搬＋能動学習の１つ

と見なせる（本会議初日，3月14日(水) 9:00～，F1-1)

– ただ，主旨は「他の方法（ブートストラッピング法）に対する能動学習のフレームワークの提案」

で，その結果がラベル伝搬＋能動学習と見なせる

手法に帰着したという話なので，直接の比較は

していない． 3

2.「基準」にデータ点間の関係が

含まれている場合．

• TED(transductive experiment design) [Kai Yu+, ICML 2006]

– 統計のExperimental Designを機械学習に持ち込む

– 基準：重みベクトルの共分散行列

•（結果的に）ラベルを見ない手法になっている

– NP-hard．

• non-convexだがsuboptimalな解は早く求まる連続緩和

• convexな連続緩和：[Yu+, SIGIR 2008]

– 改良：Active subspace learning [He+, ICCV2009]

• → Locally Linear Reconstruction [Zhang+, PAMI 2011]

– ラベルを見る形に改良：SED [Zhen+, SIGIR2010]

•→ハッシュに応用：Active hashing [Zhen+, DMKD 2012]

このスライドの話． 4

下線はジャーナル

Experimental Design

5

y：ラベル

V= 全データサンプル

Active Learning = 統計ではExperimental Design

共分散行列：

ラベルｙの情報が消えてる！

Experimental Designの基準

• A-experimental Design トレースを見る

• mj:全データV中でvjが選ばれる回数

• D-experimental Design

– minimizes log (det Cw)

• E-experimental Design

– minimizes ||Cw||2＝ Cwの最大固有値 6

行列Aの2-norm:

これはSDP

[Boyd+, 2004]

TED (transductive experiment

design) [Yu+, ICML 2006]

wの共分散行列が見たいんじゃなくて

のfの共分散行列が見たいんじゃないの？

SDPも嫌だし…

7

これの共分散行列

←こっちを見よう

TED: 結局，最適化問題は…

8

定数

V:全データ

X:サンプル

TED: 最適化問題の書き換え

この最適化問題と以下の最適化問題は等価．

9

全データVを線形和で上手く近似できるように，

Vのm個のサンプルXと係数ベクトルaiを上手く

選んでやる問題．NP-hard

凸な連続緩和 [Yu+, SIGIR2008]

• [Yu+, ICML2006]では非凸な連続緩和で解いている．ここでは同著者によるconvexな連続緩和を紹介．

10

記法変更

V（全データ）→XP

X（サンプル）→XA

XC：候補集合

凸な連続緩和 [Yu+, SIGIR2008]

11

βj=0の時，∀i;, ai,j=0

βjが，j番目のデータを採用するかを表す

スイッチになっている．これはβとαに関して凸

更新式の導出 [Yu+, SIGIR2008]

相加平均と相乗平均の関係（懐かしい…）

12

等号成立：

βを止めれば(7)は解析的に解けるから…

交互に

繰り返す

Convex TED [Yu+, SIGIR2008]

13

実験結果 [Yu+, SIGIR2008]

14

Simple

Margin:

SVM+

least Margin

タスク：

文書分類

SED [Zhen+, SIGIR2010]

• Convex TEDには，結局，ラベルyの情報は入っていない→入れてみよう

15

Convex TED:

f:現在の訓練集合で例えばSVMを回して求めた

各データの不確実性（？）解き方はConvex TEDと同じ．

SED実験結果 [Zhen+, SIGIR2010]

タスク：文書分類

16

Sequential TED [Yu+, SIGIR2008]

17

SED実験結果

18

まとめと考察

• Experiment Designとしての能動学習を[Yu+,

ICML2006]から[Zhen+, SIGIR2010]まで紹介．

考察：

• 本質的にILPぽいがILPは使われてない

• なぜ共分散からラベルの情報が消える？

– 各ラベルごとの分散を考えていないから

– 線形＆ガウスノイズだから．

• SEDでは，この計算がO(N3)と書いてあったけどスパース性仮定すればもっと早くなるんじゃ．

19

文献リスト

• [Yu+, ICML2006] TEDの最初の論文

• [Yu+, SIGIR2008] Convex TED

• [Zhen+, SIGIR2010] SED

• [Zhang+, PAMI2011] 既存研究のまとめとして良い

• [Wang+, TIST2011] 能動学習サーベイ

おまけ：

[Gao+, KDD2011] – ラベル伝搬を統一的にまとめ，さらに，Map-Reduceに乗るようにした論文．ラベル伝搬の必読論文（[Zhou+,

ICML2005]など）を多くたどれる．

20

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.68.3905&rep=rep1&type=pdf



http://www.cs.ust.hk/~dyyeung/paper/pdf/yeung.sigir2010.pdf

http://www.cs.ust.hk/~dyyeung/paper/pdf/yeung.sigir2010.pdf

http://people.ee.duke.edu/~lcarin/Active.pdf

http://dl.acm.org/citation.cfm?id=1899414

http://dl.acm.org/citation.cfm?id=1899414

http://research.microsoft.com/pubs/146769/20110413.pdf



ご清聴ありがとうございました

21

semi-supervised active learning survey

Documents