ai dictionary-part 2

確率分布モデルーーパターン認識とベイズ推定

(人工知能辞典chapter14-2)

song

outline

• 単結合Bayesian Networkによる確率計算(5)

• 複結合Bayesian Networkによる確率計算(7)

• Bayesian Networkの学習(1)

• 独立成分分析(3)

• Neural Network アーキテクチャ(3)

• 単純・多層Perceptron(2)

単結合Bayesian Networkによる確率計算

• Bayesian Networkの定義：

– まずは非循環有向graph

)y)X(|xX(p

)xX,...,xX(p

ssss

N

1sdef

NN11

=π=Π=

==

=

)4x,3x|5x(p)2x|4x(p)2x,1x|3x(p)2x(p)1x(p

)5x,4x,3x,2x,1x(p

=

例：


• Inference in BN

– 観測可能な点Eの観測値(証拠と呼ぶ)eが与えられたときに、確率変数の事後分布p(x|e)を計算する。• 一般的に計算はNP困難

– 計算を可能化するにはモデルを簡単化する必要がある：単結合BN。


• Belief propagation (Pearl 1988)

Kevin B. Korb etc. Bayesian Artificial Intelligence (figure 3.1 )


• Belief propagation (Pearl 1988)


• BPの実行

–各点においては非同期的に値が収束されるので、受け取ったmessageを使って右辺の値を

計算し、左辺に代入することを繰り返せばよい

– BPの計算量はグラフのサイズに比例する。

複結合Bayesian Networkによる確率計算

• Junction Tree アルゴリズム

– 無向グラフでしたとき、loopが含めた場合においては普通のBPは適用できないー＞Junction tree algorithm。

複結合Bayesian

Network

による確率計算

Junction

Tree

algorithm



– 注意点：グラフ変換した後に、無向グラフになるので、そのままBPを使えない。

– 無向グラフにおいての確率計算ーポテンシャルを使って定義できる。Cliqueとは内部の任意二つ変数が結ん

でいる。

)x,x|x(p)x,x|x(p)x()x( 423213ccc

3 =φΠ=ϕ



– gJ の各ノードについてポテンシャルを定義する。

–任意のノードをRとして、Rをrootとして新しいgJ’を作る。

– gJ’の葉からRへmessage passingを行う。



– gJ’の葉から根Rへのmessage passingを行う

vu\vdef

vum ϕΣ= 0u

ui

K

1i0u

def

0u m' =Πϕ=ϕ

ｖが葉の時： u0は葉で

はない時：



– gJ’の根Rから葉へのmessage passingを行う

• Rのポテンシャルを使って更新する。

• ノードu0については、u0はuiへmessage

を送り、u0とuiを結ぶ辺のポテンシャルをからに更新する。またuiはポテンシャルから

変更する。

ju

L

1jR

def

R m'' =Πϕ=ϕ

0i uui0u0u\ui

defu0u m/)''(m ϕΣ=

0uuim iu

0umui'ϕ

uiu0u

def

ui 'm'' i ϕ=ϕ


• P(x1,x2,…,xN)の計算

– 最新のポテンシャルはvの周辺分布pvと一致している。

– 辺eの最新ポテンシャルをmeとするとmeはeの周辺分

布peと一致している。

– さらに

によって計算できる。

v'ϕ

e)J'g(Ee

)J'g(V

N1

p

p)x,...,x(p

∈

ν∈ν

Π

Π=


• Junction Tree algorithmの欠点

– Treewidthを最大のcliqueのノードの数とする

と：• Treewidthは大きな時junction tree algorithmが応用

できない

• 最悪な場合、junction tree algorithmの計算量はtreewidth のexponetial次元で増大する。

（PRML）


• まとめ：–有効グラフを無方向グラフに変換して(junction

tree )ー＞Run BP

• 計算量は非常に大きい

–他の近似アルゴリズムが必要となる• Monte carlo methods( e.g. Gibbs sampling )

• Variational Inference(Mean-field) approach

• Loopy BP

Bayesian Networkの学習

• 条件つき確率表CPT

• MDL（minimum description length principle ）情報量基準（model selectionする時

に根拠となる判断基準、他にはAIC,BICなどがある）

• 事前に親ノードになれる候補を制限するなど方法ーK2 アルゴリズム。

G = Grass wet, S = Sprinkler,

and R = Rain と標示すると

Wikipedia.org (bayesian network)からの一つCPTに関する例：

)R,S|G(P)R|S(P)R(P)G,S,R(P = (1)

式(1)

独立成分分析（ICA）

• ICAは1980年代から研究された多変量解

析手法である。

• ICAはPCA, projection pursuit（射影追跡法） ,factor analysisなどと関連が深い。

• 90年代後半に理論的な基礎が確立した手

法。


• ICAの問題(定義)

– 信号源はお互いに独立である(no-Gaussian)：

– 観測値と信号源の間では線形関係（Aはm*nの行列）

– ならばn*mの行列Wが存在する：

により各成分が独立な信号を再構築できる。

))t(S(p))t(S(p

))t(S),...,t(S()t(S

ii

T

n1

Π=

=

)t(AS)t(X

))t(X),...,t(X()t(XT

m1

=

=

mn ≤

)t(WX)t(Y =


• ICAの解法– 代表的なのはWを繰り返し演算によって更新し、収束したWtを分離のための行列とするものである。

– についてはtanhなどの非線形関数がよい。

• ICAの応用– 音声信号の分離…

– http://visl.technion.ac.il/demos/bss/

T

n1

t

tT

t1t

))y(),...,y(()Y(

XWY

W)Y)Y(I(WW

ϕϕ=ϕ

=

ϕ−η+=+

(.)ϕ

Neural Network アーキテクチャ

• ニューロンの情報処理方式、ニューロンの結合方式(結合の仕方)、ニューロン(あるいは結合)の学習方式。以上の三つをneural network アーキテクチャという。

• ニューロンの情報処理方式

シグモイド型ニューロン。その以外球形基底関数(RBF),非単調

関数、高次元ニューロン、確率的に動作するニューロンモデル,etc。

)x(fy iii

j ωΣ=From

wikipedia


• ニューロンの結合形式：– 階層的network ー相互結合型network

Multilayer perceptron Hopfield net


• Neural networkの学習(次の部分に詳しく説明する) – Hebbian 学習則

– Error Back-propagation （主にMLPの学習）

• Neural networkのmodel selection

– 異なるnetworkを比較するにはAIC,MDLのような情報量基準やcross-validationなどの手法を用いることができる。

– 基本的にNeural networkはに非線形、そして係数が多いため、学習が難しい点がある。

単純・多層Perceptron

)axa(f)(fz 0ii

I

1i+Σ=η=

=

2

pp

P

1pemp2 )zu( −Σ=ε

=

単純perceptron:

評価基準を望みの出力とnetworkの出力との差の2乗和とする。

これを最小にする結合重みを求めるには：最急降下法。そしてこれをWidrow-Hoff学習則ともいう。

に正であるは学習係数という、常α

=−Σα+⇐ pipp

P

1pii x)zu(aa

単純・多層Perceptron

• Multilayer perceptron(中間層1層) Error back-propagation

アルゴリズム：

Reference

• Wikipedia

• Kevin B. KorbAnn, E. Nicholson : Bayesian

Artificial Intelligence

• PRML

ai dictionary-part 2

Documents