prml上巻勉強会 at 東京大学 資料 第1章後半

34
PRML 1.4-1.6 2013/11/21 東京大学大学院 工学系研究科 航空宇宙工学専攻 修士課程1年 櫻田 麻由 1

Upload: shohei-ohsawa

Post on 30-Jun-2015

1.679 views

Category:

Technology


4 download

DESCRIPTION

PRML上巻勉強会 at 東京大学の資料です 詳細:https://www.facebook.com/PRML.Tokyo

TRANSCRIPT

Page 1: PRML上巻勉強会 at 東京大学 資料 第1章後半

PRML 1.4-1.6

2013/11/21 東京大学大学院 工学系研究科 航空宇宙工学専攻 修士課程1年

櫻田 麻由

1

Page 2: PRML上巻勉強会 at 東京大学 資料 第1章後半

1.4 次元の呪い

2

次元の呪い 決定理論 情報理論

Page 3: PRML上巻勉強会 at 東京大学 資料 第1章後半

次元の呪いとは

• 次元とは、入力変数の数のこと(ここからはDで表す)

• 次元Dが大きくなると、計算コストが増える

• 対策:次元が大きい時どうするか?

–冗長な次元を削減して、低次元に落とす

• 分類と回帰で例を見ていきます→

3

次元の呪い 決定理論 情報理論

Page 4: PRML上巻勉強会 at 東京大学 資料 第1章後半

分類:マス目の中で多数決(1/2)

• 例)入力変数が縦軸と横軸の二つ(二次元)

新たなデータ (ラベルを予測したい)

訓練データ100個。点の色がラベル(属するクラス)を表す

マス目内の多数決より赤と決定

4

次元の呪い 決定理論 情報理論

Page 5: PRML上巻勉強会 at 東京大学 資料 第1章後半

分類:マス目の中で多数決(2/2)

• 二次元ぐらいならうまく分類できそう?

• 入力変数の次元Dが大きくなると、

• マス目の数が次元Dに対して指数的に増加

• マス目内に訓練データがないと多数決できない

5

次元の呪い 決定理論 情報理論

Page 6: PRML上巻勉強会 at 東京大学 資料 第1章後半

回帰:多項式曲線フィッティング

• M次の多項式 –入力変数が1個(1次元)

–入力変数がD個(D次元)

• DMの係数を決定しなければならない

・・・

6

次元の呪い 決定理論 情報理論

Page 7: PRML上巻勉強会 at 東京大学 資料 第1章後半

1.5 決定理論 (DECISION THEORY)

7

次元の呪い 決定理論 情報理論

Page 8: PRML上巻勉強会 at 東京大学 資料 第1章後半

決定理論と確率論

• 問題設定の確認

–入力ベクトルXと対応する目標変数tに対するデータを基に新たなXに対するtを予測することが目標

–回帰問題の場合tは連続変数

クラス分類の場合tはクラスラベル

• 推論(inference)と決定(decision)

–確率的な記述を得る=推論 例:この患者が癌である確率は40%、そうでない確率は60%

p(t=0|X)=0.4 p(t=1|X)=0.6

–その確率からtを決める=決定 例:この患者は癌である t=1

8

次元の呪い 決定理論 情報理論

Page 9: PRML上巻勉強会 at 東京大学 資料 第1章後半

よい決定をしたい

• 入力空間を各クラスに1つずつ対応する決定領域と呼ばれる領域Rkに分割しRk上の点にはすべてクラスCkを割り当てる

• 決定領域同士の境界=決定境界、決定表面

• 各決定領域は連続とは限らず、いくつかの領域に分かれていることもあり得る

• よい決定を選ぶ方法 1. 誤識別率を最小化 2. 期待損失を最小化 3. 棄却オプション

9

次元の呪い 決定理論 情報理論

Page 10: PRML上巻勉強会 at 東京大学 資料 第1章後半

誤識別率の最小化

• 誤識別率

10

21

),(),(

),(),()(

12

1221

RRdxCxpdxCxp

CRxpCRxpp

    

誤り

誤識別を最小化する決定境界xはx0

クラスC1に属する入力ベクトルをC2に割り当ててしまう確率(青と赤)

クラスC2に属する入力ベクトルをC1に割り当ててしまう確率(緑と赤)

次元の呪い 決定理論 情報理論

Page 11: PRML上巻勉強会 at 東京大学 資料 第1章後半

損失関数の最小化(1/2)

• 同じ誤識別でも、 – 正常な患者を癌と診断すると→念のため精密検査を受け、結果陰性とわかる

– 癌の患者を正常と診断すると→大きな病気を見逃してしまう

• 後者の方が重大な誤り

→単純に誤識別を最小化するだけでなく両者を区別したい

→損失関数(loss function)

コスト関数(cost function)を導入

11

次元の呪い 決定理論 情報理論

Page 12: PRML上巻勉強会 at 東京大学 資料 第1章後半

損失関数の最小化(2/2)

12

k j

Rkkj

j

dxCxpLL ),(][E

01

10000L

癌 正常

正常

j=0 j=1

k=0

k=1

• 損失関数

損失行列

k j

Rkkj

j

dxCxpLp ),()(誤り

01

10L

癌 正常

正常

j=0 j=1

k=0

k=1

(誤識別率と比較すると)

次元の呪い 決定理論 情報理論

Page 13: PRML上巻勉強会 at 東京大学 資料 第1章後半

棄却オプション

• すべてクラス分けするのが良いとも限らない

• 正確に分類できるところだけ自動的に分類し、曖昧なところ(確率がθ以下になる領域)

は分類を棄却し、人(専門家)に任せるという方法

13

次元の呪い 決定理論 情報理論

Page 14: PRML上巻勉強会 at 東京大学 資料 第1章後半

生成モデル・識別モデル・識別関数

1. 生成モデルで推論→決定

をモデル化

ベイズの定理 を使う

2. 識別モデル推論→決定

を直接モデル化

3. 推論と決定を同時に行う

=識別関数(discriminant function)

14

次元の呪い 決定理論 情報理論

Page 15: PRML上巻勉強会 at 東京大学 資料 第1章後半

1.6 情報理論

15

次元の呪い 決定理論 情報理論

Page 16: PRML上巻勉強会 at 東京大学 資料 第1章後半

情報量とは

• 情報の量は、事象xの値を得た際の驚き度h(x)

「まじで?」 ←h(x)高い

「あっそう」 ←h(x)低い

→h(x)は確率p(x)に関して単調減尐な関数

また、事象xと事象yが無関係なら

、 が成立

)()(),( yhxhyxh

)(log)( 2 xpxh

)()(),( ypxpyxp

単位:[bit]

16

次元の呪い 決定理論 情報理論

Page 17: PRML上巻勉強会 at 東京大学 資料 第1章後半

エントロピーとは(1/2)

• 情報量に確率をかけて足したもの

=情報量の平均(=期待値)をとったもの

• エントロピーは情報の乱雑さ、無秩序さ、あいまいさ、不確実さを表す尺度

• 事象の発生確率がすべて同じとき、つまり何が起こるか予測がつかないときに最大で、 発生確率の偏りが大きいとエントロピーは小さい

17

次元の呪い 決定理論 情報理論

Page 18: PRML上巻勉強会 at 東京大学 資料 第1章後半

エントロピーとは(2/2)

例) 8個の取り得る変数{a, b, c, d, e, f, g, h}の中から変数の値を1つ伝える時のエントロピー

case1 それぞれの確率{1/8, 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 , 1/8 }

→エントロピーは

case2 それぞれの確率{1/2, 1/4 , 1/8 , 1/16 , 1/64 , 1/64 , 1/64 , 1/64}

→エントロピーは

38

1log

8

18][ 2 xH

264

1log

64

1

16

1log

16

1

8

1log

8

1

4

1log

4

1

2

1log

2

1][ 22222 xH

発生確率全て同じ =何が起こるかわからない

発生確率偏りあり =だいたいaかbだろうと予想つく

18

次元の呪い 決定理論 情報理論

Page 19: PRML上巻勉強会 at 東京大学 資料 第1章後半

19

)(log)( 2 xpxh 単位:[bit]

)(ln)( xpxh

単位:[nat]

次元の呪い 決定理論 情報理論

Page 20: PRML上巻勉強会 at 東京大学 資料 第1章後半

多重度とエントロピー(1/3)

• N個の物体を、i番目の箱にni個入れるように

していくつかの箱に入れるとき、何通りの入れ方があるか=多重度

• 例)N=8個の物体を4個の箱に入れる場合

5040!2!2!2!2

!8W

336!1!1!5!1

!8W

n1 = n2 = n3 = n4 = 2

n1 = n3 = n4 = 1 n2=5

20

※物体同士は区別なし、箱同士は区別あり

次元の呪い 決定理論 情報理論

Page 21: PRML上巻勉強会 at 東京大学 資料 第1章後半

多重度とエントロピー(2/3)

• エントロピーは多重度Wの対数を適当に定数倍(1/N倍)したもの

• ni/Nを一定に保ったまま、N→∞という極限を考え、近似式(1.96)

を用いると教科書(1.97) が導出できる

21

i

inN

NN

WN

H !ln1

!ln1

ln1

NNNN ln!ln

i

iiN

i

i

i

i

i

i

ii

i

ii

i

ii

i

ii

i

i

i

ii

i

iii

i

i

ppN

n

N

n

NN

nn

N

n

NnN

n

nnN

N

nnNNN

nnnNNNN

nnnNNNN

nN

NN

WN

H

lnln

lnln

lnln

ln1

ln

lnln1

ln)ln(1

)ln()ln(1

!ln1

!ln1

ln1

  

  

  

  

  

  

  

i

iiN

i

i

i ppN

n

N

nH lnln

次元の呪い 決定理論 情報理論

Page 22: PRML上巻勉強会 at 東京大学 資料 第1章後半

多重度とエントロピー(3/3)

• 確率変数Xのエントロピーが定義できる

22

i

ii xpxppH )(ln)(][

ii pxXp )(

i

ii ppH ln

(30個の箱うち)xi番目の箱に割り当てられる確率p(xi)の分布

分布が広いほどエントロピー大

次元の呪い 決定理論 情報理論

Page 23: PRML上巻勉強会 at 東京大学 資料 第1章後半

エントロピー最大となる分布は?

• 問題設定の確認

制約

のもと、 を最大化

• ラグランジュの未定乗数法を使う

• 一様分布 のときにエントロピー最大

23

Mxp i

1)(

i

ii xpxppH )(ln)(][

1)( i

ixp 01)( i

ixp

1)()(ln)(

~

i

i

i

ii xpxpxpH 0

~

)(

~

H

xp

H

i

離散変数ver.

次元の呪い 決定理論 情報理論

Page 24: PRML上巻勉強会 at 東京大学 資料 第1章後半

離散変数から連続変数へ(1/2)

• xを等間隔の区間Δに分ける

• p(x)が連続なら平均値の定理より

となるxiが必ず存在

• i番目の区間に入る任意の値xに値xiを割り当て量子化→xiの値を観測する確率は

• エントロピーは

24

)()(

1

i

i

ixpdxxp

Δ

ln)(ln)(

))(ln()(

i

ii

i

ii

xpxp

xpxpH

  Δ

p(x)

p(xi)

(i+1)Δ iΔ

p(xi)Δ

i番目の区間

)( ixp

1)( i

ixp※

次元の呪い 決定理論 情報理論

Page 25: PRML上巻勉強会 at 東京大学 資料 第1章後半

離散変数から連続変数へ(2/2)

• 連続変数にするにはΔ→0とすればよい

• 離散と連続の場合のエントロピーはln Δだけ異なりこの値はΔ→0で発散

• これは連続変数を厳密に規定するのに無限のビット数が必要なことを反映している

25

ln)(ln)(i

ii xpxpH

dxxpxp )(ln)( 発散

Δ→0 Δ→0 微分エントロピー

次元の呪い 決定理論 情報理論

Page 26: PRML上巻勉強会 at 東京大学 資料 第1章後半

エントロピー最大となる分布は?

• 問題設定の確認

制約

のもと、 を最大化

• ラグランジュの未定乗数法を使う

• 正規分布のときエントロピー最大

26

22 )()()(1)(

dxxpxdxxxpdxxp     

22

32

1

)()()(

1)()(ln)(

dxxpxdxxxp

dxxpdxxpxpF

   

連続変数ver.

dxxpxp )(ln)(

2

2

2/12 2

)(exp

)2(

1)(

xxp

次元の呪い 決定理論 情報理論

Page 27: PRML上巻勉強会 at 東京大学 資料 第1章後半

相対エントロピーと相互情報量

• 未知の分布p(x)があり、これを近似的にq(x)でモデル化したとする

• 真の分布p(x)の代わりにq(x)を使うとxの値を特定するのに必要な追加情報量の平均は

(分布p(x)とq(x)の間の)

相対エントロピー=KLダイバージェンス

27

dxxp

xqxp

dxxpxpdxxqxpqpKL

)(

)(ln)(

)(ln)()(ln)()||(

     

カルバック・ライブラー

)||()||( pqKLqpKL ※

次元の呪い 決定理論 情報理論

Page 28: PRML上巻勉強会 at 東京大学 資料 第1章後半

• 関数f(x)はすべての弦が関数に乗っているか,それよりも上にあるとき凸であるという

• 逆の関係のとき、

凹(concave)である

(f(x)が凸関数なら、

-f(x)は凹関数)

• 凸関数では以下が成立

凸関数(convex function)

28

)()1()())1(( bfafbaf

λ 1-λ

λa+(1-λ)b

次元の呪い 決定理論 情報理論

Page 29: PRML上巻勉強会 at 東京大学 資料 第1章後半

KLダイバージェンス≧0

• 凸関数はイェンセンの不等式を満たす

• λi=p(xi)と見ると

• KLダイバージェンスに適用すると

29

M

i

ii

M

i

ii xfxf11

)(][ xfxf E

0)(ln)(

)(ln)()||( dxxqdx

xp

xqxpqpKL

dxxpxfdxxxpf )()()(

1)( dxxq※※q(x)=p(x)のとき0

次元の呪い 決定理論 情報理論

Page 30: PRML上巻勉強会 at 東京大学 資料 第1章後半

未知の確率分布のモデル化(1/2)

• KLダイバージェンスは0以上であり、0となるのはp(x)=q(x)のときのみ

→KLダイバージェンスは2つの分布p(x)とq(x)の間の隔たりを表す尺度。

• データの分布p(x)(未知)をパラメトリックな分布q(x|θ) でモデル化してみる

• p(x)とq(x|θ)の間KLダイバージェンスをθについて最小化すれば、pに最も近いqができる

30

次元の呪い 決定理論 情報理論

Page 31: PRML上巻勉強会 at 東京大学 資料 第1章後半

未知の確率分布のモデル化(2/2)

• 完全なp(x)の分布はわからないがp(x)から得られた有限個の訓練点xn{n=1,…..,N}が使える

• p(x)に関する期待値はそれらの点での有限和で近似できる

• KLダイバージェンス最小化=尤度最大化

31

N

n

nn xpxqN

dxxpxpdxxqxpqpKL

1

)(ln)|(ln1

)(ln)()(ln)()||(

     

θとは無関係

次元の呪い 決定理論 情報理論

N

n

nxfN

dxxfxp1

)(1

)()(※ (1.35)

Page 32: PRML上巻勉強会 at 東京大学 資料 第1章後半

相互情報量(1/2)

• 変数集合xとyの同時分布p(x, y)を考える

• 変数の集合が独立であれば同時分布は周辺分布の積 p(x, y)=p(x)p(y)

• 変数が独立でなければ、独立に近いかどうかを知るために、同時分布と周辺分布の積の間のKLダイバージェンスを考えることができる

=相互情報量

32

dxdyyxp

ypxpyxp

ypxpyxpKLyxI

),(

)()(ln),(

))()(||),((],[

   

次元の呪い 決定理論 情報理論

Page 33: PRML上巻勉強会 at 東京大学 資料 第1章後半

相互情報量(2/2)

• 相互情報量はyの値を知ることによってxに関する不確実性がどれだけ減尐するかを表す.

• ベイズ的に言えばp(x)をxの事前分布、p(x|y)は新たなデータyを観測した後の事後分布と考えられる。したがって、新たにyを観測した結果として、xに関する不確実性が減尐した度合いを表している

33

]|[][]|[][],[ xyHyHyxHxHyxI

次元の呪い 決定理論 情報理論