prml2.3.8~2.5 slides in charge
TRANSCRIPT
PRML 2.3.8~2.5
東京工業大学 大学院情報理工学研究科
計算工学専攻 佐伯研 M1 松田 淳平
1
自己紹介 • 松田 淳平(@fat_daruuuuma) • 東工大 佐伯研 M1
• 専門 • Mining repository
• Analysis operation-based history • SIGSE SES2014とか
• Detect and avoid conflicts • Alcohol-driven development
2
やること • 2.3
• 2.3.8 周期変数 • 2.3.9 混合ガウス分布
• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
3
やること • 2.3
• 2.3.8 周期変数 • 2.3.9 混合ガウス分布
• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
4
2.3.8 周期変数 • ガウス分布でのモデル化
• 万能ではないんだよ
• 今まで • 直交座標系という前提
• 今回 • 周期変数を含んでもやりたい
5
ガウス分布は不適切 • 平均と分散が原点に依存する場合
• ここでは周期変数が関わる分布 • 風向き考慮,年周期などなど
• 特別な措置が必要 • 直行座標系から極座標系への変換 • 原点に依存しない平均と分散の算出方法
6
極座標への変換 • ある周期θ[rad]に対する観測値を表現したい
→ 観測値 x を x = (Rcosθ, Rsinθ)に変換 さらに R = 1と見なして単位円に配置
7
観測値平均及び周期平均 • 周期θn (n = 1...N) • 観測値 xn=(cosθn ,sinθn), ||xn|| = 1 • 観測値平均 x
• 周期平均 θ
参考
8
フォン・ミーゼス分布 (1変数) • 条件付き2次元ガウス分布として導出可 • 確率密度p(θ)は以下を満たす
• 非負であること • 総和が1 • 周期性
• わちゃわちゃすると
9
わちゃわちゃ1 • 2次元(x1,x2)ガウス分布, μ=(μ1,μ2), Σ=σ2I
• 極座標(r,θ)変換 • x = (x1,x2) = (rcosθ, rsinθ) • μ1= r0cosθ0, μ2=r0sinθ0
• 上記ガウス分布に代入
10
わちゃわちゃ2 • 単位円上,原点は(0,0)で考えたい・・・
• 青円から赤円(単位円)へ
11
わちゃわちゃ2 • 単位円上,原点は(0,0)で考えたい・・・
• r=1で条件付け && θ依存項を考える
これがθ依存の指数部となる
• m = r0/σ2 , 正規化係数I0(m)を用いて
12
m, I0(m) • mは集中度パラメータ
• 逆分散(精度)と類似 • m→∞ のとき,ガウス分布に近似可
• I0(m)は0次の第1種変形ベッセル関数 • 半径rと周期変数θに対して変数分離をしたため,
その相関を取るための関数 • 今回rを定数固定なので0次
13
m, I0(m) • mは集中度パラメータ
• 逆分散(精度)と類似 • m→∞ のとき,ガウス分布に近似可
• mが充分に大きいとき,近似式において逆分散
∵cos x =1− 1x2−O(x4 )
exp{mcos(θ −θ 0)}
≅ exp{m− m(θ −θ 0)2
2}
= exp(m)exp{−m(θ −θ 0)2
2}
14
フォン(ry のプロット • 左が直交座標,右が極座標
• mが大きくなると尖ることが直感的に分かる
15
フォン(ry の対数尤度関数 • θ0について最大化を考える.
• θ0の導関数=0を使って以下を得る
• これは最初に出た分布平均と同じ 16
• mについても最大化を考える • 非常に複雑なので以下の定義を使ってしまう
フォン(ry の対数尤度関数
17
• M
フォン(ry の対数尤度関数
18
• 単峰に限る • 多峰については次節
• おまけ(他のアプローチ) • ヒストグラム法 • 周辺化によるアプローチ • 巻き込み分布
制約とおまけ
19
やること • 2.3
• 2.3.8 周期変数 • 2.3.9 混合ガウス分布
• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
20
2.3.9 混合ガウス分布 • ガウス分布による今までのモデル化
• 多峰データ集合には特別な解釈がいる
• 今まで • 単峰を前提
• 今回 • 多峰なデータ分布も扱いたい
21
Old Faithful data • 左: 従来の考え方 • 右: 分布の合わせを考慮
22 噴出持続時間[分]
噴出間隔[
分]
混合ガウス分布の考え方 • 複数のガウス分布を線形結合
• 結合時の係数を調整 → 多彩な密度関数への近似が可能
23
混合ガウス分布 (K個) • 確率密度関数
• 混合要素(各ガウス分布)
• 混合係数
24
周辺密度関数の導出
25
事前確率: kを選択する確率
条件付き確率密度
事後確率: 負担率 詳細は9章
混合ガウス分布の形 • パラメータπ,μ,Σで決まる • 最尤推定法が使用可能だけど・・・
• 単純なガウス分布よりっらぃ • 繰り返し系の最適化手法で解を出す必要がある
• EMアルゴリズムっていうっょぃのもある • あとで出ます
26
やること • 2.3
• 2.3.8 周期変数 • 2.3.9 混合ガウス分布
• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
27
2.4 指数型分布族
• xは離散だろうと連続だろうと何でもよい • h(x)もxの関数ならなんでもよい
• ηは分布の自然パラメータ(正規化にどうぞ)
• xが離散なら積分→総和に置き換え 28
ベルヌーイ分布は?
とおけば
が導出できて,
29
ロジスティック シグモイド関数
多項分布(2.2.6)も可
,
30
• M-1項がわかればラスト1項が算出可
• 展開し直し
μkに着目した多項分布の変換
31
として対応させる • わちゃわちゃすれば以下が出る
• ソフトマックス関数と呼ばれる
μkに着目した多項分布の変換(続)
32
1. 指数を取る
2. 1~M-1まで総和を取る
3. 変形して について解く
4. の形にする
μkの導出のわちゃわちゃ
33
µk
1− µ jj
M−1
∑= exp(ηk )
µk
1− µ jj
M−1
∑k
M−1
∑ = exp(ηk )k
M−1
∑
µkk
M−1
∑µk
k
M−1
∑ =exp(ηk )
k
M−1
∑
1+ exp(ηk )k
M−1
∑
1− µkk
M−1
∑ =1
1+ exp(ηk )k
M−1
∑1− µk
k
M−1
∑
μkに着(ry の指数型分布族表現
34
• 1変数なら以下(演習をちょっと)
ガウス分布さん
35
=12π
1σexp −
µ 2
2σ 2
"
#$
%
&'exp
µ /σ 2
−1/ 2σ 2
"
#$$
%
&''
T
xx2
"
#$$
%
&''
(
)*
+*
,
-*
.*
h(x) g(η) η =η1η2
!
"#
$
%& u(x) = x
x2
!
"#
$
%&
左記からηのみでg(η)を表現可
ガウス分布さんのg(η)
36
=12π
1σexp −
µ 2
2σ 2
"
#$
%
&'exp
µ /σ 2
−1/ 2σ 2
"
#$$
%
&''
T
xx2
"
#$$
%
&''
(
)*
+*
,
-*
.*
h(x) g(η) η =η1η2
!
"#
$
%& u(x) = x
x2
!
"#
$
%&
η2 =−12σ 2
1σ= −2η2
µ =η1σ2 = −
η12η2
やること • 2.3
• 2.3.8 周期変数 • 2.3.9 混合ガウス分布
• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
37
ηの値を最尤推定する • 正規化条件から
• ηについて,両辺の勾配を求める
• u(x)のn次モーメント = g(η)のn回微分 38
• 独立に同分布に従うデータ X={x1, x2, ..., xN}
• 両辺の対数を取り,勾配=0として
• 上式からηMLが得られ,変数依存が分かる → のことをp(X|η)の十分統計量と呼ぶ
十分統計量の算出
39
• データ集合全体を保持する必要がない
• ベルヌーイ分布 u(x) = x • {xn}の総和を保持
• ガウス分布 u(x) = (x, x2)T • {xn}と{xn2},それぞれの総和を保持
• 十分統計量が活きる事例は8章で
十分統計量
40
やること • 2.3
• 2.3.8 周期変数 • 2.3.9 混合ガウス分布
• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
41
共役事前分布 • 事後分布ととある関係性を持っている
• 事前分布と事後分布と同じ関数形になる • 自身 ∝ 自身 * 尤度関数
• 指数型分布族の共役事前分布
• 事後分布の形
42
やること • 2.3
• 2.3.8 周期変数 • 2.3.9 混合ガウス分布
• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
43
無情報事前分布 • 事後分布に出来る限り影響を与えない事前分布
• 事前分布に知見がない場合に有効
• 分布p(x|λ)に対する事前分布p(λ)=const? • λがK状態を取る離散変数なら?
• 各状態確率1/Kに • λが連続変数なら?
• ・・・あかん
44
λが連続 → constはダメ • λの定義域が有界じゃないときどうなる?
• 積分が発散してしまうので正規化できない • 変則事前分布と呼ばれる
• 非線形な変数変換のときは? • 密度関数 が定数として, λ=η2とすると
• 定数にならない・・・ • 事後分布が正規化されているときはおk
45
λが連続 → constはダメ • λの定義域が有界じゃないときどうなる?
• 積分が発散してしまうので正規化できない • 変則事前分布と呼ばれる
• 非線形な変数変換のときは? • 密度関数 が定数として, λ=η2とすると
• 定数にならない・・・ • 事後分布が正規化されているときはおk
46
最尤推定では問題ない • 尤度関数p(x|λ)はλについて単純な形
• この記述が正直よくわからなかった・・・ので以下の形で自己解釈
• 事後確率最大化解と最尤推定解が同じ • このとき(最尤推定時)に限り,事後確率への事
前分布による影響がない(気がする
47
最尤推定では問題ない(追加11/30) • 尤度関数p(x|λ)はλについて単純な形
• PRMLでいうところの複雑さ(仮説) • パラメータ間の依存による導出の困難さ
• λについてパラメータ間の依存はないため,導出は”比較的”容易である
• 変数変換は右記 • 実例は下記
• 最尤解導出に影響はない
48
無情報事前分布の例(1 of 2) • 確率密度
• μは位置パラメータ • この族は平行移動不変性を持つ
• 移動不変性 = 下記の2区間に入る確率は等しい
つまり さらに一般化して
49
要は定数
無情報事前分布の例(2 of 2) • 確率密度 (σ > 0)
• σは尺度パラメータ • 変則事前分布になる • この族は尺度不変性を持つ
• 同様に考え,2区間に入る確率が等しく
となり, , を得る
50
ガウス様 • 位置パラメータの例はガウス様の平均μ
• 共役事前分布で → ∞の極限を取る
• 尺度パラメータの例はガウス様のσ • 位置パラメータμを考慮済である必要
51
σ 20
ガウス様 • 位置サイド
μN=μML
• 尺度サイド
• 事前分布は事後条件に影響を与えていない 52
やること • 2.3
• 2.3.8 周期変数 • 2.3.9 混合ガウス分布
• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
53
パラメトリックとノンp(ry • パラメトリックなアプローチ
• 分布の形状 • 少数のパラメータに依存 • 形状自体を仮定する
• ノンパラメトリックなアプローチ • 分布の形状
• データに依存 • 仮定が少ない
54
ノンパラメトリックの一例 • ヒストグラム密度推定法
• 確率密度
• 区間を平滑パラメータと呼ぶ
ぼこぼこ
峰を捉えてない
55
ヒストグラムの特徴 • 美味しい部分
• ヒストグラムを求めてしまえば元データは破棄可 • 大規模データにおいしい(ときがある)
• データ点が逐次的に与えられても適用が容易 • 美味しくない部分
• 分布に関係なく,区間の縁で密度が不連続 • 区間数の観点から次元の呪いがヤバい
• 低次元データの可視化なら良い 56
やること • 2.3
• 2.3.8 周期変数 • 2.3.9 混合ガウス分布
• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
57
カーネル密度推定法の基本方針 • あるD次元のユークリッド空間中の未知の確率
密度関数p(x)を推定したい • 前提: p(x)由来の観測値(N個)の集合を得ている
• xを含む小さな領域Rを考慮していく • 2種類の推定法が存在
• カーネル推定法 • K近傍密度推定法
• 2.5.2の最近傍法
58
領域Rの性質 • xを含む小さな領域R
• 領域R中にある点の総数Kが2項分布へ従う
• 平均割合 • 平均周辺の分散
• Nが大きくなる → 分散が0 59
領域Rの性質(続) • Rが十分に小さい && 確率密度p(x)が一定と近
似可ならば,Rの体積Vを用いて以下が成立
• さらに を使うと密度推定量が導出可
60
密度推定量の制約 • トレードオフな2つの仮定の元に存在
1. Rが十分小さい = 考慮する領域が小さい
2. Kが十分に大きい = 領域内の点(N)が大きい
• K固定 → K近傍法,V固定 → カーネル推定法
N→∞ の極限を取ると真の確率密度に収束 61
• D次元における超立方体 • 等長辺, 頂点の数は2D, 辺の数は2(D-1)n個 • 点,線分,正方形,立方体・・・
• D次元のユークリッド空間RDにおいて,辺の長さγにおける超立方体の性質 • 体積(超体積) : γD
• 表面積(超表面積) : 2Dγ(D-1)
カーネル推定法の前に
62
• 次元Dのアレ, 辺長hの超立方体を領域Rとする • 点の存在の是非 (カーネル関数, Parzen窓)
• 領域内の点Kと密度関数p(x)
カーネル推定法
63
※ バイナリ表現
• 次元Dのアレ, 辺長hの超立方体を領域Rとする • 点の存在の是非 (カーネル関数, Parzen窓)
各成分の絶対値が1/2以下 => 点(0,0)辺の長さ1の超立方体の内部存在条件
カーネル推定法 (追加11/30)
64
• 次元Dのアレ, 辺長hの超立方体を領域Rとする • 点の存在の是非 (カーネル関数, Parzen窓)
• 領域内の点Kと密度関数p(x)
カーネル推定法
65
※ バイナリ表現
xを中心とする 超立方体
• 次元Dのアレ, 辺長hの超立方体を領域Rとする • 点の存在の是非 (カーネル関数, Parzen窓)
• 領域内の点Kと密度関数p(x)
カーネル推定法
66
※ バイナリ表現
より
• 次元Dのアレ, 辺長hの超立方体を領域Rとする • 点の存在の是非 (カーネル関数, Parzen窓)
• 領域内の点Kと密度関数p(x)
カーネル推定法
67
※ バイナリ表現
xnを中心とする 超立方体とも言える
• カーネル推定法でも超立方体の縁で不連続 • カーネル関数選択次第ではなめらか~
• 以下を満たす任意の関数
• 例えばガウスカーネル
• hも平滑化パラメータ
カーネル推定法とヒストグラム法
68
• 左のカーネルならちゃんと取れ・・・・・・・ • 結論: やっぱりパラメータは大事です
カーネr(ry とヒスt(ry 法の比較
69
• 訓練段階でのコストの低さ • 計算がいらない
• 密度の評価にかかる計算コストが高い • データ集合の大きさに比例してしまうため
カーネル推定法の利点/欠点
70
やること • 2.3
• 2.3.8 周期変数 • 2.3.9 混合ガウス分布
• 2.4 指数型分布族 • 2.4.1 最尤推定と十分統計量 • 2.4.2 共役事前分布 • 2.4.3 無情報事前分布
• 2.5 ノンパラメトリック法 • 2.5.1 カーネル密度推定法 • 2.5.2 最近傍法
71
最近傍法の目的 • カーネル密度推定法の制約の打破
• 制約 : パラメータhが全カーネルで一定 • h次第で取りこぼし,ノイズが発生するかも
• つまりhを変えて考えていく
72
K近傍法 • Kを固定して良いVを求める
• カーネル → 超立方体V中のKを数える • K近傍 → V中にK個入るまで球(半径)を広げる
• 生成モデルは正規化不可 • クラス分類に拡張可
73
K近傍法によるクラス分類 • 各クラスごとにK近傍法を使用後,ベイズの定
理を適用 • クラスCkにあるときの密度 p(x|Ck)を考える
• 前提 • クラスCk中にNk個の点が存在.点の総数はN
• 新しいxに対する基本的な考え • xを中心としてクラスを無視してK個拾う • そのときの体積Vに含まれるCk及びKkを考える • 各事後確率を計算し,最大化するクラスに分類
74
K近傍法によるクラス分類 • クラス条件有り密度
• クラス条件無し密度
• 事前分布
• 事後確率
75
K近傍法によるクラス分類 • クラス条件有り密度
• クラス条件無し密度
• 事前分布
• 事後確率
76
誤分類を最小 → 事後確率の最大化 同順位となるクラスが存在 →ランダム選択
K近傍法によるクラス分類の例 • Kの値によってクラス分類の分布が違う
• Kが小さい → 細かい • Kが大きい → 粗い
77
K=1|K近傍法 • K = 1のとき,最近傍則と呼ぶ(図b)
• N → ∞ の極限をとると,誤分類率が最大でも最適分類器の2倍で収まる
78
ノンパラメトリックアプローチ • データ集合を保持する必要がある
• 頭のいい探査アルゴリズムがあれば少しは減る • ノンパラメトリック法の制限は非常に強い
• けどパラメトリックにも制限はある • 結局のところどうするの?
• 頭よく密度モデルを見つけましょう • 後々.
79