arow

Adaptive Regularization of Weight VectorsKoby Crammer, Alex Kulesza, Mark Dredze(NIPS 2009)

機械学習勉強会 2010/07/01

東大中川研 M1 　大岩秀和

Introduction NLP などの特徴次元数が大きい２値分類問題で高い性能を示

す Online 学習手法として、 Confidence Weighted Linear Classification （以下、 CW ）と呼ばれるアルゴリズムが提案されている

しかし、 CW は Label noise に対して脆弱 Label noise: 分類が間違っている教師データ

今回紹介する論文では、訓練例を正しく分類することを最重要としていた CW の問題点を改良したアルゴリズムを提案 Adaptive regularization of Weight Vectors(AROW)

Label noise による訓練例の急な変化にも頑健 state-of-the-art な Algorithm と遜色ない性能

特に Label noise が存在する場合には、既存手法より非常に高い性能を示した

目次 Confidence Weighted Linear Classification(CW)

既存手法の問題点 CW algorithm

Adaptive Regularization of Weight Vectors(AROW) CW の問題点 Algorithm Analysis Experiment Summary

Online Learning （オンライン学習） Batch Learning （バッチ学習）

全ての訓練例を受け取ってから、 weighted vector を更新結果の精度は高いが、収束するまで時間がかかり、実装も複雑

Online Learning （オンライン学習）訓練例を１つ観測した時点で、 weighted vector を更新収束が早く、実装も単純、メモリもあまり必要としない

Online Learning の既存手法 Perceptron (Rosenblatt[1958]) Passive-aggressive (Crammer et al.[2006])

既存手法の問題点 NLP などの分類問題では、特徴次元が非常に大きくなるさらに、多くの特徴が極一部の訓練例にしか出現しない

このような特徴が分類問題において、大きな役割を果すことも多い

既存手法では、訓練例に特徴 A が出現した時に、特徴 Aに対応する重みパラメータが更新される頻繁に出現する特徴は、対応するパラメータも頻繁に更新される一方、余り出現しない特徴はあまり更新されない

しかし、多くの既存手法では、パラメータ更新の際に頻出する単語と稀にしか現れない単語を区別していない

既存手法の問題点（ Ex : Passive Aggressive ）

xi の出現頻度とは関係なく wi が更新される

スカラー

スカラー

Confidence-Weighted Algorithm(CW) 重みベクトル上にガウス分布を導入訓練例を受け取るごとに、重みベクトルの平均・共分散を更

新

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 10

0.5

1

1.5

2

2.5

0

0.4

0.8

1.2

0

0.4

0.8

1.2

既存手法

CW

Confidence-Weighted Algorithm(CW) 分散の大きい（更新回数の少ない）重みパラメータは大

きく更新し、分散の小さいパラメータは小さく更新するアルゴリズムを実現

Ex. ある本の評価

liked に対応する重みパラメータは上昇

dull は rare な特徴。 like は frequent な特徴。 dull に対応するパラメータは減少するが、 liked に対応するパラ

メータは減少しない。

I ilked this author, but found the book dull.

I ilked this author.

Confidence-Weighted Algorithm(CW)

しきい値正解ラベル

重みベクトル重みベクトルの共分散

重みベクトルの分散

重みベクトルの平均

：特徴ベクトル

:]1,5.0(

:1,1

:),(~

:

:

:

y

N

dd

d

d

d

μw

R

Rσ

Rμ

Rx

数式の準備

Classification特徴ベクトル xi から重みベクトル wi を用いて、 yi を予測

したい

この時、 xi が正しく分類される確率は、

10)(

10)(

iii

iii

ysign

ysign

wx

wx

]0)([Pr]0[Pr

)),((~

),(~),(~

iiNN

iiTiiii

yM

yNM

iiiixw

xxxμ

μwμw

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 10

0.5

1

1.5

2

2.5

Update(Constraint function)

]0)([Pr..

)),(),((min),(

),(~

11

iiN

iiKLii

yts

NND

iixw

μμμ

μw

1Pr]0Pr[

M

M

M

MMM

以下の式で、最適化を行う

まず、制約式を変形する

標準正規分布に従う確率変数

)()1( 11

M

M

)(

以前の多変量ガウス分布に最も近いガウス分布を選択する

誤識別率が 1-η 以下となるガウス分布の中で

：標準正規分布の累積密度関数


iTiii

M

M

y xxxμ

)()(

)(

1

1

iiTiM

iiiM

iiTiiii

y

yNM

xx

xμ

xxxμ

)(

)),((~ より、

]0)([Pr..

)),(),((min),(

),(~

11

iiN

iiKLii

yts

NND

iixw

μμμ

μw


上の形のままでは、 Σ について凸ではない根号を取り除く

iTiiiy xxxμ )()( 1

]0)([Pr..

)),(),((min),(

),(~

11

iiN

iiKLii

yts

NND

iixw

μμμ

μw

))(()( 1i

Tiiiy xxxμ

一方、 Exact-CW(Dredze et al.[2008]) では、根号の形を維持したままで、

凸性を持つ解析的な形で上式が解ける事を示している

Update(Objective function)

次に、目的関数の変形を行う

]0)([Pr..

)),(),((min),(

),(~

11

iiN

iiKLii

yts

NND

iixw

μμμ

μw

)(1)(2

112

1

det

detlog2

1min

)),(),((min)1

,1

(

μμμμ

μμμ

iiT

iiTri

iiNN

KLD

ii

))(()(..

)(1)(2

112

1

det

detlog2

1min

1i

Tiiiyts

iiT

iiTri

xxxμ

μμμμ

KKT-condition で解析的に解くことが出来る

Algorithm

対角成分のみ

目次 Confidence Weighted Linear Classification(CW)

既存手法の問題点 CW algorithm

Adaptive Regularization of Weight Vectors(AROW) CW の問題点 Algorithm Analysis Experical Evaluation Summary

CW の問題点 CW の Update は非常に Aggressive

必ず、となるように更新 ⇒ 　　　　　　　　　　　　　　　より、 μ が正しく分類され

るように更新したがって、 Label noise に弱く、過学習を起こしやすい

CW では教師データが線形分離可能な状態を仮定 CW(Exact-CW) の Mistake Bound は、線形分離可能な場合しか

保証されないしかし、 CW の形を維持したままでは、線形分離不可能な場合に

も対応できるように制約条件を緩めるのが困難

]0)([Pr ),(~ iiN yii

xwμw

iTiiiy xxxμ )()( 1

AROW の特徴 Online 学習での各既存手法の特徴をいいとこ取り

Large margin training Non-mistake の場合でも Update

Confidence weighting 更新回数の少ない重みベクトルをより大きく更新

Handling non-separable data 線形分離不可能なデータに対しても、精度があまり落ちない

最適化関数 Label noise にも頑健教師データの線形分離性を仮定せずに、 mistake bound を導出

Algorithm(AROW)

tTttthttKL yNNDC xxxμμμμ 2111 ),()),(),((),( 2

etershyperparam

y

N

dd

d

d

d

:,

:]1,5.0(

:1,1

:),(~

:

:

:

21 しきい値

正解ラベル

重みベクトル重みベクトルの共分散

重みベクトルの分散

重みベクトルの平均

：特徴ベクトル

μw

R

Rσ

Rμ

Rx

2)})(1,0(max{),(2 tttthyy xμxμ

第一項 -- 以前のパラメータから大きく更新しな

い第二項 --

損失関数を最小にする Hinge-loss 以外の損失関数でも良い

第三項 -- 学習するにつれ、∑を小さくする

tTt xx

),(2 tthy xμ

)),(),(( 11 ttKL NND μμ

Update

μ,∑それぞれ独立に、 argmin を求めればよい

tTtt xxxμ

μμμμμ

ry

r

dTTrC

th

ttttt

2

1),(

2

1

2)()(

2

1

2

1

det

detlog2

1),(

2

1111

11

1

μ,∑ は分離可能)

2

1( 21 r

第一項の KL-divergence を分解

1. μt を更新

2. μt≠ μt-1 のとき、∑を更新

),(minarg μμμ

t C

),(minarg

μt C

Update(μ)

両辺で xt との内積を取り、 μ ・ xt を求めて、上式に代入

)(

)0)(1())(1(2

0),(2

1)(),(

1

11

111 2

otherwise

yyr

y

zyzr

C

t

tttt

t

zthtt

μμ

xμxxμμμ

xμμμμ

ttt

txμ t

txxx

μxμμ tt

ttTt

tTtt

t yr

y1

1

11

))(1,0max(

Update(∑)

tTt

Ttt

Ttt

Ttt

xx

xx

xxxx

1

111

1

1

111

11

t

ttt

tttt

r

r

Woodbury identity を適用する

r

rC

t

t

Ttt

Ttt

xx

xxμ

11

1

11

1

2

1

2

1

2

1),(

対角項に着目すると、∑の固有値は単調減少していることが分

かる

Algorithm

Analysis (Representer Theorem)

μ,∑ は、それぞれ入力ベクトルの線形和・入力ベクトル同士の外積の線形和で表現することが出来る

線形和の係数は、入力ベクトル同士の内積にのみ依存する

Proof sketch

とおいて、帰納法により確認することが出来る

1

)(i

pp

ipt v xμ aI

i

qp

Tqp

iqpt

1

1,

)(, xx

Theorem 2(Mistake Bound) Mistake bound

UM

]1)(0[:

]0)([:

1UU

1ΜM

UM

UM

y

y

ttti

Tii

ttti

Tii

A

xμxxX

xμxxX

XXX

Mistake

Not mistake but update

Theorem 2(Mistake Bound)

r は最適な bound の調節に用いることが考えられる r は左の根号式を単調増加、右の根号式を単調減少させるただし、 XA などの項も r に影響を受けるため直接評価することは

不可能

の場合、 second-order perceptron と同じ boundで押さえることが可能

U

Experical Evaluation 人工データによる実験

２０次元の実数ベクトルある 2 つの次元は、 45°傾けた分散 1 のガウス分布ラベルは、上の楕円の長軸より上か下かで決める他の 18 次元は、それぞれ平均 0, 分散 2 の独立したガウス分布データに Label noise を加える

実データによる実験 Amazon(category classification) 20 Newsgroups(newsgroups classification) Reuters(news category classification) Sentiment(positive/negative) ECML/PKDD Challenge(spam/ham) OCR[MNIST/USPS](Digit recognition) 全てのデータセットに対して Label noise を加える

Experical Evaluation 実験結果

Noise level 別の平均順位

Experical Evaluation CW vs AROW

text

OCR

10% 30%0%

Experical Evaluation Algorithm property review

Summary AROW は、 SOP や CW の長所を利用したアルゴリズム

SOP は、 mistake の場合しか更新を行わない CW の制約条件を緩和 (non-separable)

Hazan[2008] でも、勾配降下法に対して、 Confidence に近い概念を利用して対数リグレットを示している AROW では、勾配降下法などをせずに直接最適化問題を解いている AROW では、 Loss Bound を直接求めている Hazan[2008] では、重みベクトルの更新をした後に、重みベクトルの

正規化を行っている

今後の課題 AROW の multi-classへの適用回帰問題への適用 (RLS と同じアルゴリズムとなる ) 第３項の変形

tTt xx

補足 ( 多変量ガウス分布の KL-divergence)

補足 (Lenma1 Proof)

補足 (Theorem2 Proof)

補足 (Second-Order perceptron) Perceptron の拡張 (Nicol´o Cesa-Bianchi et al. [2005])

与えられた入力ベクトルのみではなく、以前の入力ベクトルと与えられた入力ベクトルの外積も考慮して、重みベクトルを更新する

arow

Documents