ai dictionary-part 2

26
確率分布モデルーーパターン認識 とベイズ推定 (人工知能辞典chapter14-2) song

Upload: shj

Post on 16-Nov-2014

218 views

Category:

Documents


0 download

DESCRIPTION

Bayesian NetwoksBelief propagationJunction TreeICANeural NetworkPerceptron

TRANSCRIPT

Page 1: AI dictionary-Part 2

確率分布モデルーーパターン認識とベイズ推定

(人工知能辞典chapter14-2)

song

Page 2: AI dictionary-Part 2

outline

• 単結合Bayesian Networkによる確率計算(5)

• 複結合Bayesian Networkによる確率計算(7)

• Bayesian Networkの学習(1)

• 独立成分分析(3)

• Neural Network アーキテクチャ(3)

• 単純・多層Perceptron(2)

Page 3: AI dictionary-Part 2

単結合Bayesian Networkによる確率計算

• Bayesian Networkの定義:

– まずは非循環有向graph

)y)X(|xX(p

)xX,...,xX(p

ssss

N

1sdef

NN11

=π=Π=

==

=

)4x,3x|5x(p)2x|4x(p)2x,1x|3x(p)2x(p)1x(p

)5x,4x,3x,2x,1x(p

=

例:

Page 4: AI dictionary-Part 2

単結合Bayesian Networkによる確率計算

• Inference in BN

– 観測可能な点Eの観測値(証拠と呼ぶ)eが与えられたときに、確率変数の事後分布p(x|e)を計算する。• 一般的に計算はNP困難

– 計算を可能化するにはモデルを簡単化する必要がある:単結合BN。

Page 5: AI dictionary-Part 2

単結合Bayesian Networkによる確率計算

• Belief propagation (Pearl 1988)

Kevin B. Korb etc. Bayesian Artificial Intelligence (figure 3.1 )

Page 6: AI dictionary-Part 2

単結合Bayesian Networkによる確率計算

• Belief propagation (Pearl 1988)

Page 7: AI dictionary-Part 2

単結合Bayesian Networkによる確率計算

• BPの実行

–各点においては非同期的に値が収束されるので、受け取ったmessageを使って右辺の値を

計算し、左辺に代入することを繰り返せばよい

– BPの計算量はグラフのサイズに比例する。

Page 8: AI dictionary-Part 2

複結合Bayesian Networkによる確率計算

• Junction Tree アルゴリズム

– 無向グラフでしたとき、loopが含めた場合においては普通のBPは適用できないー>Junction tree algorithm。

Page 9: AI dictionary-Part 2

複結合Bayesian

Network

による確率計算

Junction

Tree

algorithm

Page 10: AI dictionary-Part 2

複結合Bayesian Networkによる確率計算

• Junction Tree アルゴリズム

– 注意点:グラフ変換した後に、無向グラフになるので、そのままBPを使えない。

– 無向グラフにおいての確率計算ーポテンシャルを使って定義できる。Cliqueとは内部の任意二つ変数が結ん

でいる。

)x,x|x(p)x,x|x(p)x()x( 423213ccc

3 =φΠ=ϕ

Page 11: AI dictionary-Part 2

複結合Bayesian Networkによる確率計算

• Junction Tree アルゴリズム

– gJ の各ノードについてポテンシャルを定義する。

–任意のノードをRとして、Rをrootとして新しいgJ’を作る。

– gJ’の葉からRへmessage passingを行う。

Page 12: AI dictionary-Part 2

複結合Bayesian Networkによる確率計算

• Junction Tree アルゴリズム

– gJ’の葉から根Rへのmessage passingを行う

vu\vdef

vum ϕΣ= 0u

ui

K

1i0u

def

0u m' =Πϕ=ϕ

vが葉の時: u0は葉で

はない時:

Page 13: AI dictionary-Part 2

複結合Bayesian Networkによる確率計算

• Junction Tree アルゴリズム

– gJ’の根Rから葉へのmessage passingを行う

• Rのポテンシャルを 使って更新する。

• ノードu0については、u0はuiへmessage

を送り、u0とuiを結ぶ辺のポテンシャルを から に更新する。またuiはポテンシャル から

変更する。

ju

L

1jR

def

R m'' =Πϕ=ϕ

0i uui0u0u\ui

defu0u m/)''(m ϕΣ=

0uuim iu

0umui'ϕ

uiu0u

def

ui 'm'' i ϕ=ϕ

Page 14: AI dictionary-Part 2

複結合Bayesian Networkによる確率計算

• P(x1,x2,…,xN)の計算

– 最新のポテンシャル はvの周辺分布pvと一致している。

– 辺eの最新ポテンシャルをmeとするとmeはeの周辺分

布peと一致している。

– さらに

によって計算できる。

v'ϕ

e)J'g(Ee

)J'g(V

N1

p

p)x,...,x(p

ν∈ν

Π

Π=

Page 15: AI dictionary-Part 2

複結合Bayesian Networkによる確率計算

• Junction Tree algorithmの欠点

– Treewidthを最大のcliqueのノードの数とする

と:• Treewidthは大きな時junction tree algorithmが応用

できない

• 最悪な場合、junction tree algorithmの計算量はtreewidth のexponetial次元で増大する。

(PRML)

Page 16: AI dictionary-Part 2

複結合Bayesian Networkによる確率計算

• まとめ:–有効グラフを無方向グラフに変換して(junction

tree )ー>Run BP

• 計算量は非常に大きい

–他の近似アルゴリズムが必要となる• Monte carlo methods( e.g. Gibbs sampling )

• Variational Inference(Mean-field) approach

• Loopy BP

Page 17: AI dictionary-Part 2

Bayesian Networkの学習

• 条件つき確率表CPT

• MDL(minimum description length principle )情報量基準(model selectionする時

に根拠となる判断基準、他にはAIC,BICなどがある)

• 事前に親ノードになれる候補を制限するなど方法ーK2 アルゴリズム。

G = Grass wet, S = Sprinkler,

and R = Rain と標示すると

Wikipedia.org (bayesian network)からの一つCPTに関する例:

)R,S|G(P)R|S(P)R(P)G,S,R(P = (1)

式(1)

Page 18: AI dictionary-Part 2

独立成分分析(ICA)

• ICAは1980年代から研究された多変量解

析手法である。

• ICAはPCA, projection pursuit(射影追跡法) ,factor analysisなどと関連が深い。

• 90年代後半に理論的な基礎が確立した手

法。

Page 19: AI dictionary-Part 2

独立成分分析(ICA)

• ICAの問題(定義)

– 信号源はお互いに独立である(no-Gaussian):

– 観測値と信号源の間では線形関係(Aはm*nの行列)

– ならばn*mの行列Wが存在する:

により各成分が独立な信号を再構築できる。

))t(S(p))t(S(p

))t(S),...,t(S()t(S

ii

T

n1

Π=

=

)t(AS)t(X

))t(X),...,t(X()t(XT

m1

=

=

mn ≤

)t(WX)t(Y =

Page 20: AI dictionary-Part 2

独立成分分析(ICA)

• ICAの解法– 代表的なのはWを繰り返し演算によって更新し、収束したWtを分離のための行列とするものである。

– についてはtanhなどの非線形関数がよい。

• ICAの応用– 音声信号の分離…

– http://visl.technion.ac.il/demos/bss/

T

n1

t

tT

t1t

))y(),...,y(()Y(

XWY

W)Y)Y(I(WW

ϕϕ=ϕ

=

ϕ−η+=+

(.)ϕ

Page 21: AI dictionary-Part 2

Neural Network アーキテクチャ

• ニューロンの情報処理方式、ニューロンの結合方式(結合の仕方)、ニューロン(あるいは結合)の学習方式。以上の三つをneural network アーキテクチャという。

• ニューロンの情報処理方式

シグモイド型ニューロン。その以外球形基底関数(RBF),非単調

関数、高次元ニューロン、確率的に動作するニューロンモデル,etc。

)x(fy iii

j ωΣ=From

wikipedia

Page 22: AI dictionary-Part 2

Neural Network アーキテクチャ

• ニューロンの結合形式:– 階層的network ー相互結合型network

Multilayer perceptron Hopfield net

Page 23: AI dictionary-Part 2

Neural Network アーキテクチャ

• Neural networkの学習(次の部分に詳しく説明する) – Hebbian 学習則

– Error Back-propagation (主にMLPの学習)

• Neural networkのmodel selection

– 異なるnetworkを比較するにはAIC,MDLのような情報量基準やcross-validationなどの手法を用いることができる。

– 基本的にNeural networkはに非線形、そして係数が多いため、学習が難しい点がある。

Page 24: AI dictionary-Part 2

単純・多層Perceptron

)axa(f)(fz 0ii

I

1i+Σ=η=

=

2

pp

P

1pemp2 )zu( −Σ=ε

=

単純perceptron:

評価基準を望みの出力とnetworkの出力との差の2乗和とする。

これを最小にする結合重みを求めるには:最急降下法。そしてこれをWidrow-Hoff学習則ともいう。

に正であるは学習係数という、常α

=−Σα+⇐ pipp

P

1pii x)zu(aa

Page 25: AI dictionary-Part 2

単純・多層Perceptron

• Multilayer perceptron(中間層1層) Error back-propagation

アルゴリズム:

Page 26: AI dictionary-Part 2

Reference

• Wikipedia

• Kevin B. KorbAnn, E. Nicholson : Bayesian

Artificial Intelligence

• PRML