semi-supervised active learning survey
TRANSCRIPT
Semi-Supervised Active Learning
Survey
Presenter: Yo Ehara
@niam
http://yoehara.com/
1
Semi-supervised active learning 半教師あり能動学習
能動学習:
学習器の性能(精度)が良くなるようなデータ点(ラベルなし)をある基準に従って選ぶ
– 例:SVMの識別平面に近い方(基準)から…
• 半教師あり能動学習 surveyed in [Wang+, TIST 2011]
– 2タイプに分けられる(たぶん)
1. 学習器が半教師あり学習器の場合.
– (ラベル伝搬+能動学習)
2. 「基準」に(学習器とデータ点の関係に加えて)データ点間の関係が含まれている場合.
– (Experimental Design)
2
1. 学習器が半教師あり学習器の場合
ラベル伝搬+能動学習
• GRF+active learning [Xiaojin Zhu+, ICML workshop 2003]
– ラベル伝搬法GRF(Gaussian random fields) [Zhu+, ICML2003]の拡張
– 基準:期待汎化誤差
– 応用:[Hoi+, CVPR2005], 類似手法:[Bao+, MM2009]
• [江原+,NLP2012]もラベル伝搬+能動学習の1つ
と見なせる(本会議初日,3月14日(水) 9:00~,F1-1)
– ただ,主旨は「他の方法(ブートストラッピング法)に対する能動学習のフレームワークの提案」
で,その結果がラベル伝搬+能動学習と見なせる
手法に帰着したという話なので,直接の比較は
していない. 3
2.「基準」にデータ点間の関係が
含まれている場合.
• TED(transductive experiment design) [Kai Yu+, ICML 2006]
– 統計のExperimental Designを機械学習に持ち込む
– 基準:重みベクトルの共分散行列
•(結果的に)ラベルを見ない手法になっている
– NP-hard.
• non-convexだがsuboptimalな解は早く求まる連続緩和
• convexな連続緩和:[Yu+, SIGIR 2008]
– 改良:Active subspace learning [He+, ICCV2009]
• → Locally Linear Reconstruction [Zhang+, PAMI 2011]
– ラベルを見る形に改良:SED [Zhen+, SIGIR2010]
•→ハッシュに応用:Active hashing [Zhen+, DMKD 2012]
このスライドの話. 4
下線はジャーナル
Experimental Design
5
y:ラベル
V= 全データ サンプル
Active Learning = 統計ではExperimental Design
共分散行列:
ラベルyの情報が消えてる!
Experimental Designの基準
• A-experimental Design トレースを見る
• mj:全データV中でvjが選ばれる回数
• D-experimental Design
– minimizes log (det Cw)
• E-experimental Design
– minimizes ||Cw||2= Cwの最大固有値 6
行列Aの2-norm:
これはSDP
[Boyd+, 2004]
TED (transductive experiment
design) [Yu+, ICML 2006]
wの共分散行列が見たいんじゃなくて
のfの共分散行列が見たいんじゃないの?
SDPも嫌だし…
7
これの共分散行列
←こっちを見よう
TED: 結局,最適化問題は…
8
定数
V:全データ
X:サンプル
TED: 最適化問題の書き換え
この最適化問題と以下の最適化問題は等価.
9
全データVを線形和で上手く近似できるように,
Vのm個のサンプルXと係数ベクトルaiを上手く
選んでやる問題.NP-hard
凸な連続緩和 [Yu+, SIGIR2008]
• [Yu+, ICML2006]では非凸な連続緩和で解いている.ここでは同著者によるconvexな連続緩和を紹介.
10
記法変更
V(全データ)→XP
X(サンプル)→XA
XC:候補集合
凸な連続緩和 [Yu+, SIGIR2008]
11
βj=0の時,∀i;, ai,j=0
βjが,j番目のデータを採用するかを表す
スイッチになっている.これはβとαに関して凸
更新式の導出 [Yu+, SIGIR2008]
相加平均と相乗平均の関係(懐かしい…)
12
等号成立:
βを止めれば(7)は解析的に解けるから…
交互に
繰り返す
Convex TED [Yu+, SIGIR2008]
13
実験結果 [Yu+, SIGIR2008]
14
Simple
Margin:
SVM+
least Margin
タスク:
文書分類
SED [Zhen+, SIGIR2010]
• Convex TEDには,結局,ラベルyの情報は入っていない→入れてみよう
15
Convex TED:
f:現在の訓練集合で例えばSVMを回して求めた
各データの不確実性(?)解き方はConvex TEDと同じ.
SED実験結果 [Zhen+, SIGIR2010]
タスク:文書分類
16
Sequential TED [Yu+, SIGIR2008]
17
SED実験結果
18
まとめと考察
• Experiment Designとしての能動学習を[Yu+,
ICML2006]から[Zhen+, SIGIR2010]まで紹介.
考察:
• 本質的にILPぽいがILPは使われてない
• なぜ共分散からラベルの情報が消える?
– 各ラベルごとの分散を考えていないから
– 線形&ガウスノイズだから.
• SEDでは,この計算がO(N3)と書いてあったけどスパース性仮定すればもっと早くなるんじゃ.
19
文献リスト
• [Yu+, ICML2006] TEDの最初の論文
• [Yu+, SIGIR2008] Convex TED
• [Zhen+, SIGIR2010] SED
• [Zhang+, PAMI2011] 既存研究のまとめとして良い
• [Wang+, TIST2011] 能動学習サーベイ
おまけ:
[Gao+, KDD2011] – ラベル伝搬を統一的にまとめ,さらに,Map-Reduceに乗るようにした論文.ラベル伝搬の必読論文([Zhou+,
ICML2005]など)を多くたどれる.
20
ご清聴ありがとうございました
21