正則化学習法における最適化手法 - 九州大...

42
正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科 数理情報学専攻 2013/2/18@九州大学伊都キャンパス 文部科学省委託事業数学協働プログラム 「最適化ワークショップ: 拡がっていく最適化」 1

Upload: others

Post on 10-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

正則化学習法における最適化手法

鈴木 大慈 東京大学

情報理工学系研究科

数理情報学専攻 2013/2/18@九州大学伊都キャンパス 文部科学省委託事業数学協働プログラム

「最適化ワークショップ: 拡がっていく最適化」

1

Page 2: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

高次元データ

スパース正則化学習法

最適化手法

proximal point algorithm

確率最適化手法

2

Page 3: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

問題設定 スパース正則化学習

3

Page 4: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

高次元線形判別

4

物体認識 音声認識

自然言語処理 バイオインフォマティクス

Page 5: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

5

DNAデータ

ベクトル化

特徴ベクトル

癌になりやすい 癌になりにくい

高次元

判別

Page 6: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

6

テキストデータ

ベクトル化

特徴ベクトル

何の話題か?

高次元

判別

Page 7: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

7

画像データ

ベクトル化

特徴ベクトル

顔か? 顔でないか?

高次元

判別

Page 8: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

線形判別

8

Page 9: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

9

1

1

-1

1

-1

-1

1

1

次元

サンプル数

: サンプル

次元 > サンプル数 → 余分な情報を落としたい

Page 10: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

10

1

1

-1

1

-1

-1

1

1

次元

サンプル数

: サンプル

次元 > サンプル数 → 余分な情報を落としたい

Page 11: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

スパース推定:L1正則化

11

間違いへのペナルティ 平面の「複雑さ」 L1ノルム→スパース

:ロス関数=間違いの度合いが

大きいほど大きな値

Page 12: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

12

イメージ

最適解

Page 13: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

13

L2正則化の場合

最適解:スパースでない

Page 14: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

スパース正則化の例

14

例1:Group Lasso

グループ構造

重複あり

Page 15: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

15

例2:低ランク行列推定

ユーザの趣向推定

DVD

顧客

低ランク

Page 16: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

16

例3:グラフ型正則化

1

2

3

4

5

Page 17: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

スパース正則化学習の最適化

17

proximal point algorithm[Rockafellar, 1976]

乗数法 [Hestenes, 1969; Powel 1969]

双対

Page 18: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

18

proximal point alg.:

乗数法:

乗数法

prox. point alg.

主問題

双対問題

FOBOS

FISTA

DAL (Dual Augmented

Lagrangian)

ADMM (Alternating Direction

Multiplier Method)

prox. point alg.

乗数法

(近似解法・近接勾配法)

(近似解法)

[Tomioka&Sugiyama,2009;

Tomioka,Suzuki&Sugiyama,2011]

[Duchi&Singer,2009]

[Beck&Teboulle,2009]

[Glowinski&Marrocco,75;Boyd et.al.,10]

SpicyMKL

Page 19: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

FOBOS (Forward Backward Splitting)

19

prox. point alg.

線形近似

:ステップ幅パラメータ

L1正則化での更新式 ( ) Soft threshold

Nesterov (2007), Duchi&Singer (2009), FISTA:Beck&Teboulle (2009)

最適化の途中でもスパースな解

Page 20: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

Proximal Operation

20

FOBOSは以下のproximal operationで更新

(射影の一般化)

FOBOS:

例:L1ノルムでのproximal operation ( )

• 各変数ごとの最適化に分離.変数間の絡みがない.

• 解析解の存在.

Soft threshold

Page 21: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

収束レート

21

• 一般の凸ロス関数

• 滑らかな凸ロス関数

• が正則で強凸かつ滑らかなロス関数

Page 22: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

22

proximal point alg.:

乗数法:

乗数法

prox. point alg.

主問題

双対問題

FOBOS

FISTA

DAL (Dual Augmented

Lagrangian)

ADMM (Alternating Direction

Multiplier Method)

prox. point alg.

乗数法

(近似解法・近接勾配法)

(近似解法)

[Tomioka&Sugiyama,2009;

Tomioka,Suzuki&Sugiyama,2011]

[Duchi&Singer,2009]

[Beck&Teboulle,2009]

[Glowinski&Marrocco,75;Boyd et.al.,10]

Page 23: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

Dual Augmented Lagrangian

(DAL)

23

: Moreau’s envelope

L*が滑らかな場合,

ρに関するNewton法

[Tomioka&Sugiyama,2009;

Tomioka,Suzuki&Sugiyama,2011]

Page 24: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

DALの性質

24

• の微分をスキップできる

→ スパース性を利用した高速化

• (超)一次収束

最適解が一意である必要はない

なら

Page 25: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

25

SpicyMKL

Multiple Kernel Learning (MKL) [Lanckriet et al. 2004]

グループ正則化の各グループを無限次元の再生核ヒルベルト空間

とした方法.

沢山のカーネル関数とそれに付随した再生核ヒルベルト空間

Lasso

Group Lasso

Multiple Kernel Learning (MKL)

グループ化

カーネル化

Sparse learning

[Suzuki&Tomioka, 2011]

DALのMKLへの拡張

Page 26: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

ソフトウェアの公開

26

http://www.simplex.t.u-tokyo.ac.jp/~s-taiji/software/SpicyMKL/

Matlabコード

http://www.ibis.t.u-tokyo.ac.jp/ryotat/dal/

Page 27: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

27

SpicyMKL

CPU time v.s. # of kernels

•カーネルの数に対し良くスケールする

Ringnorm Splice

IDA data set, L1 regularization.

数値実験

Page 28: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

28

SpicyMKL

• サンプル数に対しては既存手法とほぼ同じスケール

Ringnorm Splice

CPU time v.s. # of samples

IDA data set, L1 regularization.

Page 29: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

29

proximal point alg.:

乗数法:

乗数法

prox. point alg.

主問題

双対問題

FOBOS

FISTA

DAL (Dual Augmented

Lagrangian)

ADMM (Alternating Direction

Multiplier Method)

prox. point alg.

乗数法

(近似解法・近接勾配法)

(近似解法)

[Tomioka&Sugiyama,2009;

Tomioka,Suzuki&Sugiyama,2011]

[Duchi&Singer,2009]

[Beck&Teboulle,2009]

[Glowinski&Marrocco,75;Boyd et.al.,10]

Page 30: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

•各正則化関数に応じた賢い方法で解く [Yuan et al. 2011]

•変数を増やして問題を簡単にする (汎用的)

を満たし が計算しやすい

prox. op.が計算しにくい例

• 重複ありグループ正則化

30

重複あり

変数間に絡み

• 解決策

を利用する.

idea:

Page 31: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

31 分離凸

Page 32: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

ADMM

• Splitting Technique

32

(Alternating Direction Multiplier Method)

wとyの最適化を分離

• 乗数法: wとyを同時最適化

ADMM

Page 33: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

ADMMの収束レート

33

• リプシッツ連続凸ロス関数

• が正則で強凸かつ滑らかなロス関数

Page 34: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

34

確率的最適化 (オンライン学習)

Page 35: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

35

近年のデータ

twitter 2億ツイート/日(2011/6/30)

トルストイ「戦争と平和」8163冊分

次世代シーケンサ 60億本 x100塩基

Flickr 100万枚/日

ARISTA 20億画像

多量

全データをメモリに保持できない

Page 36: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

確率的最適化

• FOBOS (Forward Backward Splitting)

36

• RDA (Regularized Dual Averaging)

prox. point alg.

一つのサンプル・線形近似

全データを保持するのではなく,

一つサンプルを見たらwを更新してサンプルを捨てる方法

双対変数(勾配)の平均で過去の情報を保持

[Xiao,09; Nesterov,09]

[Duchi&Singer,2009]

Page 37: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

確率的ADMM

• FOBOS型ADMM

37

• RDA型ADMM

ADMM + 確率的最適化

実装が簡単!

[Suzuki, ICML2013]

Page 38: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

収束レート

38

条件

データ:

• 一般の凸ロス関数

• 強凸正則化関数

•データはi.i.d.系列

•ロスと正則化項はLipschitz連続

•wのドメインは有界

Page 39: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

数値実験:確率的ADMM

39

人工データ 実データ(Adult, a9a

@LIVSVM data sets)

1,024次元

512サンプル

重複ありグループ正則化

15,252次元

32,561サンプル

重複ありグループ正則化+ L1正則化

最適値との差

テストデータでの判別誤差

提案手法

Page 40: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

40

バッチデータに対する確率的最適化

Page 41: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

Stochastic Dual Coordinate Ascent

41

1. をランダムに選択

2.次元i方向に最適化

3. 上の1,2を繰り返す.

が強凸で が滑らかな時,

双対ギャップの期待値

[Shalev-Shwartz&Zhang,2012]

Page 42: 正則化学習法における最適化手法 - 九州大 …waki/ws2013/slide/suzuki.pdf正則化学習法における最適化手法 鈴木 大慈 東京大学 情報理工学系研究科

まとめ

• 正則化学習の最適化法

proximal point algorithm ⇔ 乗数法

42

双対の関係

42

乗数法

prox. point alg.

FOBOS

DAL

ADMM prox. point alg.

乗数法

(近似解法・近接勾配法) (近似解法)

• 確率的最適化法

- FOBOS・RDA

-確率的ADMM

←最近のトレンド