prml2.3.8~2.5 slides in charge

PRML 2.3.8~2.5

東京工業大学大学院情報理工学研究科

計算工学専攻佐伯研 M1 松田淳平

1

自己紹介 •  松田淳平(@fat_daruuuuma) •  東工大佐伯研 M1

•  専門 •  Mining repository

•  Analysis operation-based history •  SIGSE SES2014とか

•  Detect and avoid conflicts •  Alcohol-driven development

2

やること •  2.3

•  2.3.8 周期変数 •  2.3.9 混合ガウス分布

•  2.4 指数型分布族 •  2.4.1 最尤推定と十分統計量 •  2.4.2 共役事前分布 •  2.4.3 無情報事前分布

•  2.5 ノンパラメトリック法 •  2.5.1 カーネル密度推定法 •  2.5.2 最近傍法

3

やること •  2.3

•  2.3.8 周期変数 •  2.3.9 混合ガウス分布



4

2.3.8 周期変数 •  ガウス分布でのモデル化

•  万能ではないんだよ

•  今まで •  直交座標系という前提

•  今回 •  周期変数を含んでもやりたい

5

ガウス分布は不適切 •  平均と分散が原点に依存する場合

•  ここでは周期変数が関わる分布 •  風向き考慮，年周期などなど

•  特別な措置が必要 •  直行座標系から極座標系への変換 •  原点に依存しない平均と分散の算出方法

6

極座標への変換 •  ある周期θ[rad]に対する観測値を表現したい

→ 観測値 x を x = (Rcosθ, Rsinθ)に変換さらに R = 1と見なして単位円に配置

7

観測値平均及び周期平均 •  周期θn (n = 1...N) •  観測値 xn=(cosθn ,sinθn), ||xn|| = 1 •  観測値平均 x

•  周期平均 θ

参考

8

フォン・ミーゼス分布 (1変数) •  条件付き2次元ガウス分布として導出可 •  確率密度p(θ)は以下を満たす

•  非負であること •  総和が1 •  周期性

•  わちゃわちゃすると

9

わちゃわちゃ1 •  2次元(x1,x2)ガウス分布, μ=(μ1,μ2), Σ=σ2I

•  極座標(r,θ)変換 •  x = (x1,x2) = (rcosθ, rsinθ) •  μ1= r0cosθ0, μ2=r0sinθ0

•  上記ガウス分布に代入

10

わちゃわちゃ2 •  単位円上，原点は(0,0)で考えたい・・・

•  青円から赤円(単位円)へ

11

わちゃわちゃ2 •  単位円上，原点は(0,0)で考えたい・・・

•  r=1で条件付け && θ依存項を考える

これがθ依存の指数部となる

•  m = r0/σ2 , 正規化係数I0(m)を用いて

12

m, I0(m) •  mは集中度パラメータ

•  逆分散(精度)と類似 •  m→∞ のとき，ガウス分布に近似可

•  I0(m)は0次の第1種変形ベッセル関数 •  半径rと周期変数θに対して変数分離をしたため，

その相関を取るための関数 •  今回rを定数固定なので0次

13

m, I0(m) •  mは集中度パラメータ

•  逆分散(精度)と類似 •  m→∞ のとき，ガウス分布に近似可

•  mが充分に大きいとき，近似式において逆分散

∵cos x =1− 1x2−O(x4 )

exp{mcos(θ −θ 0)}

≅ exp{m− m(θ −θ 0)2

2}

= exp(m)exp{−m(θ −θ 0)2

2}

14

フォン(ry のプロット •  左が直交座標，右が極座標

•  mが大きくなると尖ることが直感的に分かる

15

フォン(ry の対数尤度関数 •  θ0について最大化を考える．

•  θ0の導関数=0を使って以下を得る

•  これは最初に出た分布平均と同じ 16

•  mについても最大化を考える •  非常に複雑なので以下の定義を使ってしまう

フォン(ry の対数尤度関数

17

•  M

フォン(ry の対数尤度関数

18

•  単峰に限る •  多峰については次節

•  おまけ(他のアプローチ) •  ヒストグラム法 •  周辺化によるアプローチ •  巻き込み分布

制約とおまけ

19

やること •  2.3

•  2.3.8 周期変数 •  2.3.9 混合ガウス分布



20

2.3.9 混合ガウス分布 •  ガウス分布による今までのモデル化

•  多峰データ集合には特別な解釈がいる

•  今まで •  単峰を前提

•  今回 •  多峰なデータ分布も扱いたい

21

Old Faithful data •  左: 従来の考え方 •  右: 分布の合わせを考慮

22 噴出持続時間[分]

噴出間隔[

分]

混合ガウス分布の考え方 •  複数のガウス分布を線形結合

•  結合時の係数を調整　　→ 多彩な密度関数への近似が可能

23

混合ガウス分布 (K個) •  確率密度関数

•  混合要素(各ガウス分布)

•  混合係数

24

周辺密度関数の導出

25

事前確率: kを選択する確率

条件付き確率密度

事後確率: 負担率詳細は9章

混合ガウス分布の形 •  パラメータπ，μ，Σで決まる •  最尤推定法が使用可能だけど・・・

•  単純なガウス分布よりっらぃ •  繰り返し系の最適化手法で解を出す必要がある

•  EMアルゴリズムっていうっょぃのもある •  あとで出ます

26

やること •  2.3

•  2.3.8 周期変数 •  2.3.9 混合ガウス分布



27

2.4 指数型分布族

•  xは離散だろうと連続だろうと何でもよい •  h(x)もxの関数ならなんでもよい

•  ηは分布の自然パラメータ(正規化にどうぞ)

•  xが離散なら積分→総和に置き換え 28

ベルヌーイ分布は？

とおけば

が導出できて，

29

ロジスティックシグモイド関数

多項分布(2.2.6)も可

,

30

•  M-1項がわかればラスト1項が算出可

•  展開し直し

μkに着目した多項分布の変換

31

として対応させる •  わちゃわちゃすれば以下が出る

•  ソフトマックス関数と呼ばれる

μkに着目した多項分布の変換(続)

32

1.  指数を取る

2.  1~M-1まで総和を取る

3.  変形して　　について解く

4.  　　　の形にする

μkの導出のわちゃわちゃ

33

µk

1− µ jj

M−1

∑= exp(ηk )

µk

1− µ jj

M−1

∑k

M−1

∑ = exp(ηk )k

M−1

∑

µkk

M−1

∑µk

k

M−1

∑ =exp(ηk )

k

M−1

∑

1+ exp(ηk )k

M−1

∑

1− µkk

M−1

∑ =1

1+ exp(ηk )k

M−1

∑1− µk

k

M−1

∑

μkに着(ry の指数型分布族表現

34

•  1変数なら以下(演習をちょっと)

ガウス分布さん

35

=12π

1σexp −

µ 2

2σ 2

"

#$

%

&'exp

µ /σ 2

−1/ 2σ 2

"

#$$

%

&''

T

xx2

"

#$$

%

&''

(

)*

+*

,

-*

.*

h(x) g(η) η =η1η2

!

"#

$

%& u(x) = x

x2

!

"#

$

%&

　左記からηのみでg(η)を表現可

ガウス分布さんのg(η)

36

=12π

1σexp −

µ 2

2σ 2

"

#$

%

&'exp

µ /σ 2

−1/ 2σ 2

"

#$$

%

&''

T

xx2

"

#$$

%

&''

(

)*

+*

,

-*

.*

h(x) g(η) η =η1η2

!

"#

$

%& u(x) = x

x2

!

"#

$

%&

η2 =−12σ 2

1σ= −2η2

µ =η1σ2 = −

η12η2

やること •  2.3

•  2.3.8 周期変数 •  2.3.9 混合ガウス分布



37

ηの値を最尤推定する •  正規化条件から

•  ηについて，両辺の勾配を求める

•  u(x)のn次モーメント = g(η)のn回微分 38

•  独立に同分布に従うデータ X={x1, x2, ..., xN}

•  両辺の対数を取り，勾配=0として

•  上式からηMLが得られ，変数依存が分かる →　のことをp(X|η)の十分統計量と呼ぶ

十分統計量の算出

39

•  データ集合全体を保持する必要がない

•  ベルヌーイ分布 u(x) = x •  {xn}の総和を保持

•  ガウス分布 u(x) = (x, x2)T •  {xn}と{xn2}，それぞれの総和を保持

•  十分統計量が活きる事例は8章で

十分統計量　

40

やること •  2.3

•  2.3.8 周期変数 •  2.3.9 混合ガウス分布



41

共役事前分布 •  事後分布ととある関係性を持っている

•  事前分布と事後分布と同じ関数形になる •  自身 ∝ 自身 * 尤度関数

•  指数型分布族の共役事前分布

•  事後分布の形

42

やること •  2.3

•  2.3.8 周期変数 •  2.3.9 混合ガウス分布



43

無情報事前分布　 •  事後分布に出来る限り影響を与えない事前分布

•  事前分布に知見がない場合に有効

•  分布p(x|λ)に対する事前分布p(λ)=const? •  λがK状態を取る離散変数なら？

•  各状態確率1/Kに •  λが連続変数なら？

•  ・・・あかん

44

λが連続 → constはダメ •  λの定義域が有界じゃないときどうなる？

•  積分が発散してしまうので正規化できない •  変則事前分布と呼ばれる

•  非線形な変数変換のときは？ •  密度関数が定数として, λ=η2とすると

•  定数にならない・・・ •  事後分布が正規化されているときはおk

45

λが連続 → constはダメ •  λの定義域が有界じゃないときどうなる？

•  積分が発散してしまうので正規化できない •  変則事前分布と呼ばれる

•  非線形な変数変換のときは？ •  密度関数が定数として, λ=η2とすると

•  定数にならない・・・ •  事後分布が正規化されているときはおk

46

最尤推定では問題ない •  尤度関数p(x|λ)はλについて単純な形

•  この記述が正直よくわからなかった・・・ので以下の形で自己解釈

•  事後確率最大化解と最尤推定解が同じ •  このとき(最尤推定時)に限り，事後確率への事

前分布による影響がない(気がする

47

最尤推定では問題ない(追加11/30) •  尤度関数p(x|λ)はλについて単純な形

•  PRMLでいうところの複雑さ(仮説) •  パラメータ間の依存による導出の困難さ

•  λについてパラメータ間の依存はないため，導出は”比較的”容易である

•  変数変換は右記 •  実例は下記

•  最尤解導出に影響はない

48

無情報事前分布の例(1 of 2) •  確率密度

•  μは位置パラメータ •  この族は平行移動不変性を持つ

•  移動不変性 = 下記の2区間に入る確率は等しい

つまりさらに一般化して

49

要は定数

無情報事前分布の例(2 of 2) •  確率密度 (σ > 0)

•  σは尺度パラメータ •  変則事前分布になる •  この族は尺度不変性を持つ

•  同様に考え，2区間に入る確率が等しく

となり， , 　を得る

50

ガウス様 •  位置パラメータの例はガウス様の平均μ

•  共役事前分布で → ∞の極限を取る

•  尺度パラメータの例はガウス様のσ •  位置パラメータμを考慮済である必要

51

σ 20

ガウス様 •  位置サイド

　　μN=μML

•  尺度サイド

•  事前分布は事後条件に影響を与えていない 52

やること •  2.3

•  2.3.8 周期変数 •  2.3.9 混合ガウス分布



53

パラメトリックとノンp(ry •  パラメトリックなアプローチ

•  分布の形状 •  少数のパラメータに依存 •  形状自体を仮定する

•  ノンパラメトリックなアプローチ •  分布の形状

•  データに依存 •  仮定が少ない

54

ノンパラメトリックの一例 •  ヒストグラム密度推定法

•  確率密度

•  区間を平滑パラメータと呼ぶ

ぼこぼこ

峰を捉えてない

55

ヒストグラムの特徴 •  美味しい部分

•  ヒストグラムを求めてしまえば元データは破棄可 •  大規模データにおいしい(ときがある)

•  データ点が逐次的に与えられても適用が容易 •  美味しくない部分

•  分布に関係なく，区間の縁で密度が不連続 •  区間数の観点から次元の呪いがヤバい

•  低次元データの可視化なら良い 56

やること •  2.3

•  2.3.8 周期変数 •  2.3.9 混合ガウス分布



57

カーネル密度推定法の基本方針 •  あるD次元のユークリッド空間中の未知の確率

密度関数p(x)を推定したい •  前提: p(x)由来の観測値(N個)の集合を得ている

•  xを含む小さな領域Rを考慮していく •  2種類の推定法が存在

•  カーネル推定法 •  K近傍密度推定法

•  2.5.2の最近傍法

58

領域Rの性質 •  xを含む小さな領域R

•  領域R中にある点の総数Kが2項分布へ従う

•  平均割合 •  平均周辺の分散

•  Nが大きくなる → 分散が0 59

領域Rの性質(続) •  Rが十分に小さい && 確率密度p(x)が一定と近

似可ならば，Rの体積Vを用いて以下が成立

•  さらに　を使うと密度推定量が導出可

60

密度推定量の制約 •  トレードオフな2つの仮定の元に存在

1.  Rが十分小さい = 考慮する領域が小さい

2.  Kが十分に大きい = 領域内の点(N)が大きい

•  K固定 → K近傍法，V固定 → カーネル推定法

N→∞ の極限を取ると真の確率密度に収束 61

•  D次元における超立方体 •  等長辺, 頂点の数は2D, 辺の数は2(D-1)n個 •  点，線分，正方形，立方体・・・

•  D次元のユークリッド空間RDにおいて，辺の長さγにおける超立方体の性質 •  体積(超体積) : γD

•  表面積(超表面積) : 2Dγ(D-1)

カーネル推定法の前に

62

•  次元Dのアレ, 辺長hの超立方体を領域Rとする •  点の存在の是非 (カーネル関数, Parzen窓)

•  領域内の点Kと密度関数p(x)

カーネル推定法

63

※ バイナリ表現


各成分の絶対値が1/2以下 => 点(0,0)辺の長さ1の超立方体の内部存在条件

カーネル推定法 (追加11/30)

64




65


xを中心とする超立方体




66


　　　　　　　　　　より




67


xnを中心とする超立方体とも言える

•  カーネル推定法でも超立方体の縁で不連続 •  カーネル関数選択次第ではなめらか～

•  以下を満たす任意の関数

•  例えばガウスカーネル

•  hも平滑化パラメータ

カーネル推定法とヒストグラム法

68

•  左のカーネルならちゃんと取れ・・・・・・・ •  結論: やっぱりパラメータは大事です

カーネr(ry とヒスt(ry 法の比較

69

•  訓練段階でのコストの低さ •  計算がいらない

•  密度の評価にかかる計算コストが高い •  データ集合の大きさに比例してしまうため

カーネル推定法の利点/欠点

70

やること •  2.3

•  2.3.8 周期変数 •  2.3.9 混合ガウス分布



71

最近傍法の目的 •  カーネル密度推定法の制約の打破

•  制約 : パラメータhが全カーネルで一定 •  h次第で取りこぼし，ノイズが発生するかも

•  つまりhを変えて考えていく

72

K近傍法 •  Kを固定して良いVを求める

•  カーネル → 超立方体V中のKを数える •  K近傍 → V中にK個入るまで球(半径)を広げる

•  生成モデルは正規化不可 •  クラス分類に拡張可

73

K近傍法によるクラス分類 •  各クラスごとにK近傍法を使用後，ベイズの定

理を適用 •  クラスCkにあるときの密度 p(x|Ck)を考える

•  前提 •  クラスCk中にNk個の点が存在．点の総数はN

•  新しいxに対する基本的な考え •  xを中心としてクラスを無視してK個拾う •  そのときの体積Vに含まれるCk及びKkを考える •  各事後確率を計算し，最大化するクラスに分類

74

K近傍法によるクラス分類 •  クラス条件有り密度

•  クラス条件無し密度

•  事前分布

•  事後確率

75

K近傍法によるクラス分類 •  クラス条件有り密度

•  クラス条件無し密度

•  事前分布

•  事後確率

76

誤分類を最小 → 事後確率の最大化同順位となるクラスが存在 →ランダム選択

K近傍法によるクラス分類の例 •  Kの値によってクラス分類の分布が違う

•  Kが小さい → 細かい •  Kが大きい → 粗い

77

K=1|K近傍法 •  K = 1のとき，最近傍則と呼ぶ（図b）

•  N → ∞ の極限をとると，誤分類率が最大でも最適分類器の2倍で収まる

78

ノンパラメトリックアプローチ •  データ集合を保持する必要がある

•  頭のいい探査アルゴリズムがあれば少しは減る •  ノンパラメトリック法の制限は非常に強い

•  けどパラメトリックにも制限はある •  結局のところどうするの？

•  頭よく密度モデルを見つけましょう •  後々．

79

prml2.3.8~2.5 slides in charge

Education