arow

38
Adaptive Regularization of Weight Vectors Koby Crammer, Alex Kulesza, Mark Dredze(NIPS 2009) 機機機機機機機 2010/07/01 機機機機機 M1 機機機機

Upload: hidekazu-oiwa

Post on 15-Jan-2015

510 views

Category:

Documents


0 download

DESCRIPTION

AROWの論文紹介。

TRANSCRIPT

Page 1: Arow

Adaptive Regularization of Weight VectorsKoby Crammer, Alex Kulesza, Mark Dredze(NIPS 2009)

機械学習勉強会 2010/07/01

東大中川研 M1  大岩秀和

Page 2: Arow

Introduction NLP などの特徴次元数が大きい2値分類問題で高い性能を示

す Online 学習手法として、 Confidence Weighted Linear Classification (以下、 CW )と呼ばれるアルゴリズムが提案されている

しかし、 CW は Label noise に対して脆弱 Label noise: 分類が間違っている教師データ

今回紹介する論文では、訓練例を正しく分類することを最重要としていた CW の問題点を改良したアルゴリズムを提案 Adaptive regularization of Weight Vectors(AROW)

Label noise による訓練例の急な変化にも頑健 state-of-the-art な Algorithm と遜色ない性能

特に Label noise が存在する場合には、既存手法より非常に高い性能を示した

Page 3: Arow

目次 Confidence Weighted Linear Classification(CW)

既存手法の問題点 CW algorithm

Adaptive Regularization of Weight Vectors(AROW) CW の問題点 Algorithm Analysis Experiment Summary

Page 4: Arow

目次 Confidence Weighted Linear Classification(CW)

既存手法の問題点 CW algorithm

Adaptive Regularization of Weight Vectors(AROW) CW の問題点 Algorithm Analysis Experiment Summary

Page 5: Arow

Online Learning (オンライン学習) Batch Learning (バッチ学習)

全ての訓練例を受け取ってから、 weighted vector を更新 結果の精度は高いが、収束するまで時間がかかり、実装も複雑

Online Learning (オンライン学習) 訓練例を1つ観測した時点で、 weighted vector を更新 収束が早く、実装も単純、メモリもあまり必要としない

Online Learning の既存手法 Perceptron (Rosenblatt[1958]) Passive-aggressive (Crammer et al.[2006])

Page 6: Arow

既存手法の問題点 NLP などの分類問題では、特徴次元が非常に大きくなる さらに、多くの特徴が極一部の訓練例にしか出現しない

このような特徴が分類問題において、大きな役割を果すことも多い

既存手法では、訓練例に特徴 A が出現した時に、特徴 Aに対応する重みパラメータが更新される 頻繁に出現する特徴は、対応するパラメータも頻繁に更新される 一方、余り出現しない特徴はあまり更新されない

しかし、多くの既存手法では、パラメータ更新の際に頻出する単語と稀にしか現れない単語を区別していない

Page 7: Arow

既存手法の問題点( Ex : Passive Aggressive )

xi の出現頻度とは関係なく wi が更新される

スカラー

スカラー

Page 8: Arow

Confidence-Weighted Algorithm(CW) 重みベクトル上にガウス分布を導入 訓練例を受け取るごとに、重みベクトルの平均・共分散を更

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 10

0.5

1

1.5

2

2.5

0

0.4

0.8

1.2

0

0.4

0.8

1.2

既存手法

CW

Page 9: Arow

Confidence-Weighted Algorithm(CW) 分散の大きい(更新回数の少ない)重みパラメータは大

きく更新し、分散の小さいパラメータは小さく更新するアルゴリズムを実現

Ex. ある本の評価

liked に対応する重みパラメータは上昇

dull は rare な特徴。 like は frequent な特徴。 dull に対応するパラメータは減少するが、 liked に対応するパラ

メータは減少しない。

I ilked this author, but found the book dull.

I ilked this author.

Page 10: Arow

Confidence-Weighted Algorithm(CW)

しきい値正解ラベル

重みベクトル重みベクトルの共分散

重みベクトルの分散

重みベクトルの平均

:特徴ベクトル

:]1,5.0(

:1,1

:),(~

:

:

:

y

N

dd

d

d

d

μw

R

Rx

数式の準備

Page 11: Arow

Classification特徴ベクトル xi から重みベクトル wi を用いて、 yi を予測

したい

この時、 xi が正しく分類される確率は、

10)(

10)(

iii

iii

ysign

ysign

wx

wx

]0)([Pr]0[Pr

)),((~

),(~),(~

iiNN

iiTiiii

yM

yNM

iiiixw

xxxμ

μwμw

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 10

0.5

1

1.5

2

2.5

Page 12: Arow

Update(Constraint function)

]0)([Pr..

)),(),((min),(

),(~

11

iiN

iiKLii

yts

NND

iixw

μμμ

μw

1Pr]0Pr[

M

M

M

MMM

以下の式で、最適化を行う

まず、制約式を変形する

標準正規分布に従う確率変数

)()1( 11

M

M

)(

以前の多変量ガウス分布に最も近いガウス分布を選択する

誤識別率が 1-η 以下となるガウス分布の中で

:標準正規分布の累積密度関数

Page 13: Arow

Update(Constraint function)

iTiii

M

M

y xxxμ

)()(

)(

1

1

iiTiM

iiiM

iiTiiii

y

yNM

xx

xxxμ

)(

)),((~ より、

]0)([Pr..

)),(),((min),(

),(~

11

iiN

iiKLii

yts

NND

iixw

μμμ

μw

Page 14: Arow

Update(Constraint function)

上の形のままでは、 Σ について凸ではない根号を取り除く

iTiiiy xxxμ )()( 1

]0)([Pr..

)),(),((min),(

),(~

11

iiN

iiKLii

yts

NND

iixw

μμμ

μw

))(()( 1i

Tiiiy xxxμ

一方、 Exact-CW(Dredze et al.[2008]) では、根号の形を維持したままで、

凸性を持つ解析的な形で上式が解ける事を示している

Page 15: Arow

Update(Objective function)

次に、目的関数の変形を行う

]0)([Pr..

)),(),((min),(

),(~

11

iiN

iiKLii

yts

NND

iixw

μμμ

μw

)(1)(2

112

1

det

detlog2

1min

)),(),((min)1

,1

(

μμμμ

μμμ

iiT

iiTri

iiNN

KLD

ii

))(()(..

)(1)(2

112

1

det

detlog2

1min

1i

Tiiiyts

iiT

iiTri

xxxμ

μμμμ

KKT-condition で解析的に解くことが出来る

Page 16: Arow

Algorithm

対角成分のみ

Page 17: Arow

目次 Confidence Weighted Linear Classification(CW)

既存手法の問題点 CW algorithm

Adaptive Regularization of Weight Vectors(AROW) CW の問題点 Algorithm Analysis Experical Evaluation Summary

Page 18: Arow

CW の問題点 CW の Update は非常に Aggressive

必ず、 となるように更新 ⇒                 より、 μ が正しく分類され

るように更新 したがって、 Label noise に弱く、過学習を起こしやすい

CW では教師データが線形分離可能な状態を仮定 CW(Exact-CW) の Mistake Bound は、線形分離可能な場合しか

保証されない しかし、 CW の形を維持したままでは、線形分離不可能な場合に

も対応できるように制約条件を緩めるのが困難

]0)([Pr ),(~ iiN yii

xwμw

iTiiiy xxxμ )()( 1

Page 19: Arow

AROW の特徴 Online 学習での各既存手法の特徴をいいとこ取り

Large margin training Non-mistake の場合でも Update

Confidence weighting 更新回数の少ない重みベクトルをより大きく更新

Handling non-separable data 線形分離不可能なデータに対しても、精度があまり落ちない

最適化関数 Label noise にも頑健 教師データの線形分離性を仮定せずに、 mistake bound を導出

Page 20: Arow

Algorithm(AROW)

tTttthttKL yNNDC xxxμμμμ 2111 ),()),(),((),( 2

etershyperparam

y

N

dd

d

d

d

:,

:]1,5.0(

:1,1

:),(~

:

:

:

21 しきい値

正解ラベル

重みベクトル重みベクトルの共分散

重みベクトルの分散

重みベクトルの平均

:特徴ベクトル

μw

R

Rx

2)})(1,0(max{),(2 tttthyy xμxμ

第一項 -- 以前のパラメータから大きく更新しな

い 第二項 --

損失関数を最小にする Hinge-loss 以外の損失関数でも良い

第三項 -- 学習するにつれ、∑を小さくする

tTt xx

),(2 tthy xμ

)),(),(( 11 ttKL NND μμ

Page 21: Arow

Update

μ,∑それぞれ独立に、 argmin を求めればよい

tTtt xxxμ

μμμμμ

ry

r

dTTrC

th

ttttt

2

1),(

2

1

2)()(

2

1

2

1

det

detlog2

1),(

2

1111

11

1

μ,∑ は分離可能)

2

1( 21 r

第一項の KL-divergence を分解

1. μt を更新

2. μt≠ μt-1 のとき、∑を更新

),(minarg μμμ

t C

),(minarg

μt C

Page 22: Arow

Update(μ)

両辺で xt との内積を取り、 μ ・ xt を求めて、上式に代入

)(

)0)(1())(1(2

0),(2

1)(),(

1

11

111 2

otherwise

yyr

y

zyzr

C

t

tttt

t

zthtt

μμ

xμxxμμμ

xμμμμ

ttt

txμ t

txxx

μxμμ tt

ttTt

tTtt

t yr

y1

1

11

))(1,0max(

Page 23: Arow

Update(∑)

tTt

Ttt

Ttt

Ttt

xx

xx

xxxx

1

111

1

1

111

11

t

ttt

tttt

r

r

Woodbury identity を適用する

r

rC

t

t

Ttt

Ttt

xx

xxμ

11

1

11

1

2

1

2

1

2

1),(

対角項に着目すると、∑の固有値は単調減少していることが分

かる

Page 24: Arow

Algorithm

Page 25: Arow

Analysis (Representer Theorem)

μ,∑ は、それぞれ入力ベクトルの線形和・入力ベクトル同士の外積の線形和で表現することが出来る

線形和の係数は、入力ベクトル同士の内積にのみ依存する

Proof sketch

とおいて、帰納法により確認することが出来る

1

)(i

pp

ipt v xμ aI

i

qp

Tqp

iqpt

1

1,

)(, xx

Page 26: Arow

Theorem 2(Mistake Bound) Mistake bound

UM

]1)(0[:

]0)([:

1UU

1ΜM

UM

UM

y

y

ttti

Tii

ttti

Tii

A

xμxxX

xμxxX

XXX

Mistake

Not mistake but update

Page 27: Arow

Theorem 2(Mistake Bound)

r は最適な bound の調節に用いることが考えられる r は左の根号式を単調増加、右の根号式を単調減少させる ただし、 XA などの項も r に影響を受けるため直接評価することは

不可能

の場合、 second-order perceptron と同じ boundで押さえることが可能

U

Page 28: Arow

Experical Evaluation 人工データによる実験

20次元の実数ベクトル ある 2 つの次元は、 45°傾けた分散 1 のガウス分布 ラベルは、上の楕円の長軸より上か下かで決める 他の 18 次元は、それぞれ平均 0, 分散 2 の独立したガウス分布 データに Label noise を加える

実データによる実験 Amazon(category classification) 20 Newsgroups(newsgroups classification) Reuters(news category classification) Sentiment(positive/negative) ECML/PKDD Challenge(spam/ham) OCR[MNIST/USPS](Digit recognition) 全てのデータセットに対して Label noise を加える

Page 29: Arow

Experical Evaluation 実験結果

Noise level 別の平均順位

Page 30: Arow

Experical Evaluation CW vs AROW

text

OCR

10% 30%0%

Page 31: Arow

Experical Evaluation Algorithm property review

Page 32: Arow

Summary AROW は、 SOP や CW の長所を利用したアルゴリズム

SOP は、 mistake の場合しか更新を行わない CW の制約条件を緩和 (non-separable)

Hazan[2008] でも、勾配降下法に対して、 Confidence に近い概念を利用して対数リグレットを示している AROW では、勾配降下法などをせずに直接最適化問題を解いている AROW では、 Loss Bound を直接求めている Hazan[2008] では、重みベクトルの更新をした後に、重みベクトルの

正規化を行っている

今後の課題 AROW の multi-classへの適用 回帰問題への適用 (RLS と同じアルゴリズムとなる ) 第3項 の変形

tTt xx

Page 33: Arow

補足 ( 多変量ガウス分布の KL-divergence)

Page 34: Arow

補足 (Lenma1 Proof)

Page 35: Arow

補足 (Theorem2 Proof)

Page 36: Arow

補足 (Theorem2 Proof)

Page 37: Arow

補足 (Theorem2 Proof)

Page 38: Arow

補足 (Second-Order perceptron) Perceptron の拡張 (Nicol´o Cesa-Bianchi et al. [2005])

与えられた入力ベクトルのみではなく、以前の入力ベクトルと与えられた入力ベクトルの外積も考慮して、重みベクトルを更新する