Download - 情報幾何入門 - AIST · 例：正規分布 • だけ微小に動かしたときの変化は ⇒分散の小さいところは少し動かしただけで大きくずれる ⎟⎟

情報幾何入門

赤穂昭太郎

産業技術総合研究所

脳神経情報研究部門

情報幾何

情報処理を幾何的に（図で）理解する

世の中

モデル

データ

情報処理

結果

情報幾何から導かれる結論

• 多くのモデルは「平ら」である

• 多くのアルゴリズムは平らなモデルに「まっすぐ」射影を下ろしたものになっている

• ただし，「平ら」「まっすぐ」は普通と違って２種類ある（eとm：双対構造)

共通言語としての情報幾何

• 確率モデルやその周辺分野

– 統計学

– システム制御

– 符号理論

– 最適化理論

– 統計物理

それぞれ独自の理論・アルゴリズムがあるが関係がよくわからない

情報幾何で統一的に理解しよう

世の中＝確率モデル

• 情報幾何の出発点：確率モデル

• 座標系

);( ξxf ),,,( 21 nξξξξ L=

);( ξxf

1ξ2ξ

3ξ

例：離散分布

0

0.1

0 .2

0 .3

0 .4

0 .5

0 .6

x0 x1 x2

Pr[x=xi]

0q

1q

2q

)3.0,5.0,2.0(

例：正規分布

μ

σ

μ

σ

空間の構造

• ユークリッド空間ではダメ？

• ユークリッドではA-B と C-D の隔たりが同じになる

1σ

2σ

1μ 2μ

2μ1μ

A B

C D

μ

σ1σ

2σ

1μ 2μ

A B

C D

空間の構造

• 空間の構造は何で決まるか？– 点の近く：線形空間（計量）

– 空間全体：線形空間のつながり方を決める（接続）

• 設計方針

– 統計的に自然なもの

– パラメータの取り方によらない

1ξ

2ξ

点の近くの構造：線形空間

• 線形空間（接空間）

• 接空間の構造は基底の間の内積で決まる（リーマン計量）

1ξ

2ξ

1e

2e

p

ξjiij eeg ,=

情報幾何での計量

• 統計的不変性⇒フィッシャー情報行列

)],(log),(log[E)( ξξξ ξ xpxpg jiij ∂∂=

ii ξ∂

∂=∂

∫= dxxpxfxf );()()]([E ξξ

なぜフィッシャー情報量か？

• クラメール・ラオの不等式N個のサンプルからのの推定量の分

散の下限

• がのまわりでの散らばり具合を表す

⇔ が大きいところはきめが粗い

ξ ξ̂

( )ξξ 11]ˆVar[ −≥ GN

1−G ξ

1−G

例：正規分布

• だけ微小に動かしたときの変化は

⇒分散の小さいところは少し動かしただけで大きくずれる

⎟⎟⎠

⎞⎜⎜⎝

⎛−

−−= 2

2

2

2log21

2)(exp),;( πσ

σμσμ xxp

⎟⎟⎠

⎞⎜⎜⎝

⎛=

20011

2σG

σμ dd ,222 )2( σσμ dd +

計量と座標変換

• 計量は（一般に非線形な）座標変換に対して線形に変換される（テンソル）

i

aaiJ

ξθ

∂∂

=

∑=ba

abbj

aiij gJJg

,

( ) ( )ai θθξξ == a

1ξ

2ξ

1θ

2θ

p

ユークリッド空間をつなぐ

• 各点ごとにバラバラの接空間

⇒接空間をつなぐ（接続）

• 接ベクトルの平行移動

• を（アファイン）接続係数と呼ぶ

jξ

je~

p~

jξ

jep

jd eεΠ

εd kik

ij ed ~εΓ

je[ ] ∑Γ−=Π

kik

ikijjjd edee

,

~~ εε

εξξ dpp += )()~(

kijΓ

測地線：まっすぐな線

• ある接ベクトルの方向の自分自身への

平行移動をつなげたものを測地線という（直線の概念の一般化）

[ ]ξξ ddΠξd

ξd

ξξ ξdd dΠ=′

ξξ ξ ′Π=′′ ′dd d

接続をどう決めるか？

• 二つの接ベクトルを平行移動したとき，普通（物理等）はその間の内積を保存したい

• これを満たす接続は計量から一意的に決まってしまう⇒レビ・チビタ接続

• ところが情報幾何ではそれ以外の接続も考える

[ ] [ ] 2121 ,, ξξξξ εε dddd dd =ΠΠ

α接続

• 統計的な不変性⇒パラメータαをもつ接続係数に限られる

• 特にα＝０のときがレビ・チビタ接続

• 情報幾何ではα＝±１のときが最重要！

⎥⎦

⎤⎢⎣

⎡∂⎟

⎠⎞

⎜⎝⎛ ∂∂

−+∂∂=Γ llll kjijikij 2

1E)()(,

αξ ξα

);(log ξξ

xpli

i ∂∂

=∂ ∑Γ=Γh

hkhijkij g,

平坦な空間

• 接続はテンソルではない（座標系に依存）

• 逆に言えば，うまく座標系を取れば，Γ=0にできる(まっすぐな空間)

• このような座標系がもし存在するときαアファイン座標系といい，その座標系についてα平坦であるという．

• 平坦な座標系の測地線（α測地線）はαアファイン座標系での直線になっている．

10)1( ξξξ tt +−=

重要な分布族

• α＝±１は特別な意味がある：

確率分布の分布族で，α平坦になるのは「指数分布族(exponential family)」と「混合分布族(mixture family)」の

二つだけで，それぞれα＝±１に対応する

指数分布族

• 情報幾何で最も基本的な分布族

• 指数分布族は θ をアファイン座標系として1-平坦

• 指数分布族は特別なので1-平坦や1-接続のことをe-平坦とかe-接続という(e=exponential)

⎟⎠

⎞⎜⎝

⎛+−= ∑

=

)()()(exp);(1

xCxFxpn

ii

i θψθξ

混合分布族

• 確率分布の線形和

• パラメータθをアファイン座標系として－１平坦

• 混合分布族は特別なのでー１平坦，－１接続のことをm平坦，m接続という(m:mixture)

)()();( 00

1xFxFxp

n

ii

i θθξ += ∑=

∑=

−=n

i

i

1

0 1 θθ

離散分布は混合かつ指数

• 混合分布族としては

• 指数分布族としては

)()();( 01

xqixqxpn

ii δδξ +−= ∑

=

⎟⎠

⎞⎜⎝

⎛−−= ∑

=

)()(exp);(1

rixrxpn

ii ψδξ

0loglog qqr ii −= 0log)( qr −=ψ

正規分布は指数分布族

xxF =)(1

⎟⎟⎠

⎞⎜⎜⎝

⎛−

−−= 2

2

2

2log21

2)(exp),;( πσ

σμσμ xxp

⎟⎠

⎞⎜⎝

⎛+−= ∑

=

)()()(exp);(1

xCxFxpn

ii

i θψθξ

21

σμθ =

( )22 )( xxF = 2

2

21

σθ −=

22

2

2log21

2)( πσ

σμθψ += 0)( =xC

双対平坦と双対座標

• 実はα平坦なら，別の座標系が存在してーα平坦になる

• α平坦な座標系：θ，－α平坦な座標系：η

• ルジャンドル変換：ポテンシャル関数，

∑ =−+i

ii 0)()( ηθηϕθψ

ηθθψ

=∂

∂ )(θ

ηηϕ

=∂

∂ )(

ϕψ

• θに対する計量： ηに対する計量：

• 計量が座標変換のヤコビ行列になっている

• θ座標での基底： η座標での基底：

双対直交：

双対性

ji

ji ee δ=,

je

ijji g=

∂∂θη

ie

ij

j

i

g=∂∂ηθ

ijg ijg

指数分布族の場合

• θ座標系は1平坦

• 双対座標は

• ポテンシャルはψそのもの

• 混合分布族も双対平坦だが双対座標が単純な形で書けないので，結局指数分布族が唯一重要な分布族

⎟⎠

⎞⎜⎝

⎛+−= ∑

=

)()()(exp);(1

xCxFxpn

ii

i θψθξ

[ ])(E xFii θη =

離散分布の場合

• e座標系

確率値の対数の線形空間

• m座標系

確率値の線形空間

⎟⎠

⎞⎜⎝

⎛−−= ∑

=

)()(exp);(1

rixrxpn

ii ψδξ

0loglog qqr iii −==θ

ii qixE =−= )]([δη θ

例：正規分布

1θ

A B

C D

2θ

[ ] 2222 E σμη θ +== x

[ ] μη θ == xE121

σμθ =

( )22

21

σθ −=1σ

2σ

1μ 2μ

2μ1μ

A B

C D

μ

σ1σ

2σ

1μ 2μ

A B

C D

1η

A

B

C

D

2η

部分空間と射影

• 情報幾何的世界観

モデル

データ

情報処理

結果

世の中

部分空間M

十分統計量η

射影

指数分布族S

平坦な部分空間

• α平坦な線形部分空間：双対平坦な空間Sのα座標系での線形部分空間

• 注意：α平坦な部分空間はーα平坦な部分空間とは限らない c.f. S自身はどちらも平坦

α座標系

双対平坦空間S

α平坦な部分空間M

ダイバージェンス

• 射影を導入する前に．．．

• αダイバージェンス

c.f. ルジャンドル変換

• 対称律以外は距離の性質を満たす

• p≒q なら距離に一致する

• 双対性

∑−+=i

ii qpqpqpD )()())(())(()||()( ηθηϕθψα

∑ =−+i

ii 0)()( ηθηϕθψ

)||()||( )()( pqDqpD αα −=

指数分布族の場合

• α＝１（e接続）でのダイバージェンスは

カルバックダイバージェンスに一致する

• α＝－１（ｍ接続）でのダイバージェンスは

∫= dxxgxfxfgfKL)()(log)()||(

)||( fgKL

距離の分解

• ユークリッド空間で部分空間への射影を取るのがなぜ簡単か？

• ある点から部分空間への距離が直交成分と水平成分に簡単に分解できるから（ピタゴラスの定理）

222 )()()( ⊥⊥ −+−=− yyyxyx

拡張ピタゴラスの定理

双対平坦空間S

q

)||()||()||( )()()( rqDqpDrpD ααα +=

p

r

α測地線

ーα測地線

射影定理

• α測地線で引いた直交射影はαダイバージェンスの停留点

• 特にMがーα平坦なら

双対平坦空間S

α測地線

α射影

q

p

部分空間M

)||()( qpD α

)||(min )( qpDq

α

混合座標系：全部まっすぐに見える

• α射影とーα部分空間の組み合わせが一番単純

←双対性から

• Mの中と外とでα座標系とーα座標系を分けて使えばまっすぐな図が描け，射影も陽に表現できる

ji

ji ee δ=,

IIη

IθIIη̂ )ˆ;( II

Iq ηθ=

);( IIIp ηθ=

M

統計的推定

• データは空間のどの点に配置するか？

• なので，N個のデータの十分統

計量をη座標とすればよい

指数分布族Sm射影

θ̂

r=η

モデルM

[ ])(E xFii θη =

∑=

=N

j

jii xF

Nr

1

)( )(1

統計的推定（つづき）

• 最尤推定

• 最尤推定はm射影と等価

• モデルが平らなときは推定が易しい．推定の質についてはモデルの曲がり具合（曲率）に関係⇒統計的漸近理論

);,(max )()1( θθ

Nxxp L

Mdx

xpxqxqxpxqKL

∈→= ∫ θθ

θ min);(

)(log)());(||)((

∑=∈

⇔N

j

j

Mxp

1

)( );(logmax θθ

線形システム

• 線形システム

伝達関数パワースペクトラム

• システムの例：ARモデル，MAモデル,ARMAモデルなど

• 最小位相推移→HとSが１対１に対応

)()()()(0

tzHithtxi

i εε∑∞

=

=−=

∑∞

=

=0

)(i

ii zhzH

)(tx)1,0()( Nt ≈ε

2|)(|)( ωω ieHS =

)(zH

線形システム（つづき）

• 確率モデル：信号x(t)の周波数成分X(ω)

• 実はすべてのαについてα平坦になる

線形ステム全体S（α平坦）

ARMAモデルMAモデル（m平坦）

ARモデル(e平坦)

⎟⎟⎠

⎞⎜⎜⎝

⎛−−= ∫ )(

)(|)(|

21exp);(

2

SS

XSXp ψωω

潜在変数モデル

• x だけが観測される例：隠れマルコフモデル(HMM)

);,( ξzxp

)|( tt zxp

tz)|( 1 tt zzp +

tx

1+tz

1+tx

1−tz

1−tx

em アルゴリズム

• em (exponential and mixture)

• 実はこれがEMアルゴリズム(Expectation-Maximization/Baum-Welch) とほぼ等価

Sm射影

観測データの空間（m平坦が多い）

モデルM (e平坦が多い)

e射影

集団学習

• 三人寄れば文殊の知恵？

• バギング・ブースティング

)(1 xh )(2 xh )(3 xh

y

x

多数決

1θ2θ 3θ

集団学習（つづき）

拡張空間

経験分布p

モデルM(拡張指数分布族：e平坦)

S~

m射影

拡張空間

初期解

モデルQ(モーメント制約：m平坦)

S~

e射影

Mq ∈0

双対問題

グラフィカルモデルとベイズ推定

• 変数間の依存関係をグラフであらわす

• HMM, カルマンフィルタもその一種

1X

2X 3X

4X 5X

)|(),|()|()|(

)()(

35324

1312

1

XXpXXXpXXpXXp

XpXp =

ベイズ推定

• 一部が観測されたときに残りの変数を推定事後分布

• ノード数が増えると総和計算（or 積分）が大変！（特に木でないとき）

• ⇒近似計算（平均場近似・変分ベイズ）（マルコフ連鎖モンテカルロ・パーティクルフィルタ）

1X

2X 3X

4X 5X

∑==

321 ,,54

54321 )()(

),()(),|,,(

XXXXp

XpXXp

XpXXXXXp

平均場近似・変分ベイズ法

)()()(),|,,( 33221154321 XqXqXqXXXXXp ≅

真の分布p

モデルM(e平坦)

Se射影

初期解

[ ]),|,,(||)()()(min 54321332211 XXXXXpXqXqXqKL

モデルM(e平坦)

e射影

1X

2X 3X

4X 5X

マルコフ連鎖モンテカルロ

• 乱数発生により事後分布からのサンプルを生成する

• ギブスサンプラー

• どのような初期値から始めても，に分布収束する

),;,|( 54)(

3)(

2)1(

1 XXXXXp ttt+

),|,,( 54321 XXXXXp

),;,|( 54)1(

1)(

3)1(

2 XXXXXp ttt ++

),;,|( 54)1(

2)1(

1)1(

3 XXXXXp ttt +++

1X

2X 3X

4X 5X

ギブスサンプラーの幾何

• １ステップに一つの変数を更新するマルコフ連鎖モンテカルロを考える．

目的の定常分布

現在の状態分布

１ステップに一つの変数を更新して動ける範囲（m平坦）

ギブスサンプラー（e射影)

さらなる発展

• 有限次元のパラメータ空間から無限次元の空間の幾何へ（セミパラメトリック幾何）

• 特異点の問題（ニューラルネットなどの階層的なモデル：代数幾何の高みへ）

• 新たな情報処理へ．．．

参考文献

• 赤穂：情報幾何と機械学習（「計測と制御」２００５年５月号）

• 甘利：情報幾何とその応用（「システム・制御・情報」連載

２００４年６月～）

• 公文：推定と検定への幾何学的アプローチ，（「統計科学のフロンティア２統計学の基礎II」，岩波書店）

Download - 情報幾何入門 - AIST · 例：正規分布 • だけ微小に動かしたときの変化は ⇒分散の小さいところは少し動かしただけで 大きくずれる ⎟⎟

Top Related

Download - 情報幾何入門 - AIST · 例：正規分布 • だけ微小に動かしたときの変化は ⇒分散の小さいところは少し動かしただけで大きくずれる ⎟⎟