arow
DESCRIPTION
AROWの論文紹介。TRANSCRIPT
Adaptive Regularization of Weight VectorsKoby Crammer, Alex Kulesza, Mark Dredze(NIPS 2009)
機械学習勉強会 2010/07/01
東大中川研 M1 大岩秀和
Introduction NLP などの特徴次元数が大きい2値分類問題で高い性能を示
す Online 学習手法として、 Confidence Weighted Linear Classification (以下、 CW )と呼ばれるアルゴリズムが提案されている
しかし、 CW は Label noise に対して脆弱 Label noise: 分類が間違っている教師データ
今回紹介する論文では、訓練例を正しく分類することを最重要としていた CW の問題点を改良したアルゴリズムを提案 Adaptive regularization of Weight Vectors(AROW)
Label noise による訓練例の急な変化にも頑健 state-of-the-art な Algorithm と遜色ない性能
特に Label noise が存在する場合には、既存手法より非常に高い性能を示した
目次 Confidence Weighted Linear Classification(CW)
既存手法の問題点 CW algorithm
Adaptive Regularization of Weight Vectors(AROW) CW の問題点 Algorithm Analysis Experiment Summary
目次 Confidence Weighted Linear Classification(CW)
既存手法の問題点 CW algorithm
Adaptive Regularization of Weight Vectors(AROW) CW の問題点 Algorithm Analysis Experiment Summary
Online Learning (オンライン学習) Batch Learning (バッチ学習)
全ての訓練例を受け取ってから、 weighted vector を更新 結果の精度は高いが、収束するまで時間がかかり、実装も複雑
Online Learning (オンライン学習) 訓練例を1つ観測した時点で、 weighted vector を更新 収束が早く、実装も単純、メモリもあまり必要としない
Online Learning の既存手法 Perceptron (Rosenblatt[1958]) Passive-aggressive (Crammer et al.[2006])
既存手法の問題点 NLP などの分類問題では、特徴次元が非常に大きくなる さらに、多くの特徴が極一部の訓練例にしか出現しない
このような特徴が分類問題において、大きな役割を果すことも多い
既存手法では、訓練例に特徴 A が出現した時に、特徴 Aに対応する重みパラメータが更新される 頻繁に出現する特徴は、対応するパラメータも頻繁に更新される 一方、余り出現しない特徴はあまり更新されない
しかし、多くの既存手法では、パラメータ更新の際に頻出する単語と稀にしか現れない単語を区別していない
既存手法の問題点( Ex : Passive Aggressive )
xi の出現頻度とは関係なく wi が更新される
スカラー
スカラー
Confidence-Weighted Algorithm(CW) 重みベクトル上にガウス分布を導入 訓練例を受け取るごとに、重みベクトルの平均・共分散を更
新
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 10
0.2
0.4
0.6
0.8
1
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 10
0.5
1
1.5
2
2.5
0
0.4
0.8
1.2
0
0.4
0.8
1.2
既存手法
CW
Confidence-Weighted Algorithm(CW) 分散の大きい(更新回数の少ない)重みパラメータは大
きく更新し、分散の小さいパラメータは小さく更新するアルゴリズムを実現
Ex. ある本の評価
liked に対応する重みパラメータは上昇
dull は rare な特徴。 like は frequent な特徴。 dull に対応するパラメータは減少するが、 liked に対応するパラ
メータは減少しない。
I ilked this author, but found the book dull.
I ilked this author.
Confidence-Weighted Algorithm(CW)
しきい値正解ラベル
重みベクトル重みベクトルの共分散
重みベクトルの分散
重みベクトルの平均
:特徴ベクトル
:]1,5.0(
:1,1
:),(~
:
:
:
y
N
dd
d
d
d
μw
R
Rσ
Rμ
Rx
数式の準備
Classification特徴ベクトル xi から重みベクトル wi を用いて、 yi を予測
したい
この時、 xi が正しく分類される確率は、
10)(
10)(
iii
iii
ysign
ysign
wx
wx
]0)([Pr]0[Pr
)),((~
),(~),(~
iiNN
iiTiiii
yM
yNM
iiiixw
xxxμ
μwμw
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 10
0.5
1
1.5
2
2.5
Update(Constraint function)
]0)([Pr..
)),(),((min),(
),(~
11
iiN
iiKLii
yts
NND
iixw
μμμ
μw
1Pr]0Pr[
M
M
M
MMM
以下の式で、最適化を行う
まず、制約式を変形する
標準正規分布に従う確率変数
)()1( 11
M
M
)(
以前の多変量ガウス分布に最も近いガウス分布を選択する
誤識別率が 1-η 以下となるガウス分布の中で
:標準正規分布の累積密度関数
Update(Constraint function)
iTiii
M
M
y xxxμ
)()(
)(
1
1
iiTiM
iiiM
iiTiiii
y
yNM
xx
xμ
xxxμ
)(
)),((~ より、
]0)([Pr..
)),(),((min),(
),(~
11
iiN
iiKLii
yts
NND
iixw
μμμ
μw
Update(Constraint function)
上の形のままでは、 Σ について凸ではない根号を取り除く
iTiiiy xxxμ )()( 1
]0)([Pr..
)),(),((min),(
),(~
11
iiN
iiKLii
yts
NND
iixw
μμμ
μw
))(()( 1i
Tiiiy xxxμ
一方、 Exact-CW(Dredze et al.[2008]) では、根号の形を維持したままで、
凸性を持つ解析的な形で上式が解ける事を示している
Update(Objective function)
次に、目的関数の変形を行う
]0)([Pr..
)),(),((min),(
),(~
11
iiN
iiKLii
yts
NND
iixw
μμμ
μw
)(1)(2
112
1
det
detlog2
1min
)),(),((min)1
,1
(
μμμμ
μμμ
iiT
iiTri
iiNN
KLD
ii
))(()(..
)(1)(2
112
1
det
detlog2
1min
1i
Tiiiyts
iiT
iiTri
xxxμ
μμμμ
KKT-condition で解析的に解くことが出来る
Algorithm
対角成分のみ
目次 Confidence Weighted Linear Classification(CW)
既存手法の問題点 CW algorithm
Adaptive Regularization of Weight Vectors(AROW) CW の問題点 Algorithm Analysis Experical Evaluation Summary
CW の問題点 CW の Update は非常に Aggressive
必ず、 となるように更新 ⇒ より、 μ が正しく分類され
るように更新 したがって、 Label noise に弱く、過学習を起こしやすい
CW では教師データが線形分離可能な状態を仮定 CW(Exact-CW) の Mistake Bound は、線形分離可能な場合しか
保証されない しかし、 CW の形を維持したままでは、線形分離不可能な場合に
も対応できるように制約条件を緩めるのが困難
]0)([Pr ),(~ iiN yii
xwμw
iTiiiy xxxμ )()( 1
AROW の特徴 Online 学習での各既存手法の特徴をいいとこ取り
Large margin training Non-mistake の場合でも Update
Confidence weighting 更新回数の少ない重みベクトルをより大きく更新
Handling non-separable data 線形分離不可能なデータに対しても、精度があまり落ちない
最適化関数 Label noise にも頑健 教師データの線形分離性を仮定せずに、 mistake bound を導出
Algorithm(AROW)
tTttthttKL yNNDC xxxμμμμ 2111 ),()),(),((),( 2
etershyperparam
y
N
dd
d
d
d
:,
:]1,5.0(
:1,1
:),(~
:
:
:
21 しきい値
正解ラベル
重みベクトル重みベクトルの共分散
重みベクトルの分散
重みベクトルの平均
:特徴ベクトル
μw
R
Rσ
Rμ
Rx
2)})(1,0(max{),(2 tttthyy xμxμ
第一項 -- 以前のパラメータから大きく更新しな
い 第二項 --
損失関数を最小にする Hinge-loss 以外の損失関数でも良い
第三項 -- 学習するにつれ、∑を小さくする
tTt xx
),(2 tthy xμ
)),(),(( 11 ttKL NND μμ
Update
μ,∑それぞれ独立に、 argmin を求めればよい
tTtt xxxμ
μμμμμ
ry
r
dTTrC
th
ttttt
2
1),(
2
1
2)()(
2
1
2
1
det
detlog2
1),(
2
1111
11
1
μ,∑ は分離可能)
2
1( 21 r
第一項の KL-divergence を分解
1. μt を更新
2. μt≠ μt-1 のとき、∑を更新
),(minarg μμμ
t C
),(minarg
μt C
Update(μ)
両辺で xt との内積を取り、 μ ・ xt を求めて、上式に代入
)(
)0)(1())(1(2
0),(2
1)(),(
1
11
111 2
otherwise
yyr
y
zyzr
C
t
tttt
t
zthtt
μμ
xμxxμμμ
xμμμμ
ttt
txμ t
txxx
μxμμ tt
ttTt
tTtt
t yr
y1
1
11
))(1,0max(
Update(∑)
tTt
Ttt
Ttt
Ttt
xx
xx
xxxx
1
111
1
1
111
11
t
ttt
tttt
r
r
Woodbury identity を適用する
r
rC
t
t
Ttt
Ttt
xx
xxμ
11
1
11
1
2
1
2
1
2
1),(
対角項に着目すると、∑の固有値は単調減少していることが分
かる
Algorithm
Analysis (Representer Theorem)
μ,∑ は、それぞれ入力ベクトルの線形和・入力ベクトル同士の外積の線形和で表現することが出来る
線形和の係数は、入力ベクトル同士の内積にのみ依存する
Proof sketch
とおいて、帰納法により確認することが出来る
1
)(i
pp
ipt v xμ aI
i
qp
Tqp
iqpt
1
1,
)(, xx
Theorem 2(Mistake Bound) Mistake bound
UM
]1)(0[:
]0)([:
1UU
1ΜM
UM
UM
y
y
ttti
Tii
ttti
Tii
A
xμxxX
xμxxX
XXX
Mistake
Not mistake but update
Theorem 2(Mistake Bound)
r は最適な bound の調節に用いることが考えられる r は左の根号式を単調増加、右の根号式を単調減少させる ただし、 XA などの項も r に影響を受けるため直接評価することは
不可能
の場合、 second-order perceptron と同じ boundで押さえることが可能
U
Experical Evaluation 人工データによる実験
20次元の実数ベクトル ある 2 つの次元は、 45°傾けた分散 1 のガウス分布 ラベルは、上の楕円の長軸より上か下かで決める 他の 18 次元は、それぞれ平均 0, 分散 2 の独立したガウス分布 データに Label noise を加える
実データによる実験 Amazon(category classification) 20 Newsgroups(newsgroups classification) Reuters(news category classification) Sentiment(positive/negative) ECML/PKDD Challenge(spam/ham) OCR[MNIST/USPS](Digit recognition) 全てのデータセットに対して Label noise を加える
Experical Evaluation 実験結果
Noise level 別の平均順位
Experical Evaluation CW vs AROW
text
OCR
10% 30%0%
Experical Evaluation Algorithm property review
Summary AROW は、 SOP や CW の長所を利用したアルゴリズム
SOP は、 mistake の場合しか更新を行わない CW の制約条件を緩和 (non-separable)
Hazan[2008] でも、勾配降下法に対して、 Confidence に近い概念を利用して対数リグレットを示している AROW では、勾配降下法などをせずに直接最適化問題を解いている AROW では、 Loss Bound を直接求めている Hazan[2008] では、重みベクトルの更新をした後に、重みベクトルの
正規化を行っている
今後の課題 AROW の multi-classへの適用 回帰問題への適用 (RLS と同じアルゴリズムとなる ) 第3項 の変形
tTt xx
補足 ( 多変量ガウス分布の KL-divergence)
補足 (Lenma1 Proof)
補足 (Theorem2 Proof)
補足 (Theorem2 Proof)
補足 (Theorem2 Proof)
補足 (Second-Order perceptron) Perceptron の拡張 (Nicol´o Cesa-Bianchi et al. [2005])
与えられた入力ベクトルのみではなく、以前の入力ベクトルと与えられた入力ベクトルの外積も考慮して、重みベクトルを更新する