ai dictionary-part 2
DESCRIPTION
Bayesian NetwoksBelief propagationJunction TreeICANeural NetworkPerceptronTRANSCRIPT
確率分布モデルーーパターン認識とベイズ推定
(人工知能辞典chapter14-2)
song
outline
• 単結合Bayesian Networkによる確率計算(5)
• 複結合Bayesian Networkによる確率計算(7)
• Bayesian Networkの学習(1)
• 独立成分分析(3)
• Neural Network アーキテクチャ(3)
• 単純・多層Perceptron(2)
単結合Bayesian Networkによる確率計算
• Bayesian Networkの定義:
– まずは非循環有向graph
)y)X(|xX(p
)xX,...,xX(p
ssss
N
1sdef
NN11
=π=Π=
==
=
)4x,3x|5x(p)2x|4x(p)2x,1x|3x(p)2x(p)1x(p
)5x,4x,3x,2x,1x(p
=
例:
単結合Bayesian Networkによる確率計算
• Inference in BN
– 観測可能な点Eの観測値(証拠と呼ぶ)eが与えられたときに、確率変数の事後分布p(x|e)を計算する。• 一般的に計算はNP困難
– 計算を可能化するにはモデルを簡単化する必要がある:単結合BN。
単結合Bayesian Networkによる確率計算
• Belief propagation (Pearl 1988)
Kevin B. Korb etc. Bayesian Artificial Intelligence (figure 3.1 )
単結合Bayesian Networkによる確率計算
• Belief propagation (Pearl 1988)
単結合Bayesian Networkによる確率計算
• BPの実行
–各点においては非同期的に値が収束されるので、受け取ったmessageを使って右辺の値を
計算し、左辺に代入することを繰り返せばよい
– BPの計算量はグラフのサイズに比例する。
複結合Bayesian Networkによる確率計算
• Junction Tree アルゴリズム
– 無向グラフでしたとき、loopが含めた場合においては普通のBPは適用できないー>Junction tree algorithm。
複結合Bayesian
Network
による確率計算
Junction
Tree
algorithm
複結合Bayesian Networkによる確率計算
• Junction Tree アルゴリズム
– 注意点:グラフ変換した後に、無向グラフになるので、そのままBPを使えない。
– 無向グラフにおいての確率計算ーポテンシャルを使って定義できる。Cliqueとは内部の任意二つ変数が結ん
でいる。
)x,x|x(p)x,x|x(p)x()x( 423213ccc
3 =φΠ=ϕ
複結合Bayesian Networkによる確率計算
• Junction Tree アルゴリズム
– gJ の各ノードについてポテンシャルを定義する。
–任意のノードをRとして、Rをrootとして新しいgJ’を作る。
– gJ’の葉からRへmessage passingを行う。
複結合Bayesian Networkによる確率計算
• Junction Tree アルゴリズム
– gJ’の葉から根Rへのmessage passingを行う
vu\vdef
vum ϕΣ= 0u
ui
K
1i0u
def
0u m' =Πϕ=ϕ
vが葉の時: u0は葉で
はない時:
複結合Bayesian Networkによる確率計算
• Junction Tree アルゴリズム
– gJ’の根Rから葉へのmessage passingを行う
• Rのポテンシャルを 使って更新する。
• ノードu0については、u0はuiへmessage
を送り、u0とuiを結ぶ辺のポテンシャルを から に更新する。またuiはポテンシャル から
変更する。
ju
L
1jR
def
R m'' =Πϕ=ϕ
0i uui0u0u\ui
defu0u m/)''(m ϕΣ=
0uuim iu
0umui'ϕ
uiu0u
def
ui 'm'' i ϕ=ϕ
複結合Bayesian Networkによる確率計算
• P(x1,x2,…,xN)の計算
– 最新のポテンシャル はvの周辺分布pvと一致している。
– 辺eの最新ポテンシャルをmeとするとmeはeの周辺分
布peと一致している。
– さらに
によって計算できる。
v'ϕ
e)J'g(Ee
)J'g(V
N1
p
p)x,...,x(p
∈
ν∈ν
Π
Π=
複結合Bayesian Networkによる確率計算
• Junction Tree algorithmの欠点
– Treewidthを最大のcliqueのノードの数とする
と:• Treewidthは大きな時junction tree algorithmが応用
できない
• 最悪な場合、junction tree algorithmの計算量はtreewidth のexponetial次元で増大する。
(PRML)
複結合Bayesian Networkによる確率計算
• まとめ:–有効グラフを無方向グラフに変換して(junction
tree )ー>Run BP
• 計算量は非常に大きい
–他の近似アルゴリズムが必要となる• Monte carlo methods( e.g. Gibbs sampling )
• Variational Inference(Mean-field) approach
• Loopy BP
Bayesian Networkの学習
• 条件つき確率表CPT
• MDL(minimum description length principle )情報量基準(model selectionする時
に根拠となる判断基準、他にはAIC,BICなどがある)
• 事前に親ノードになれる候補を制限するなど方法ーK2 アルゴリズム。
G = Grass wet, S = Sprinkler,
and R = Rain と標示すると
Wikipedia.org (bayesian network)からの一つCPTに関する例:
)R,S|G(P)R|S(P)R(P)G,S,R(P = (1)
式(1)
独立成分分析(ICA)
• ICAは1980年代から研究された多変量解
析手法である。
• ICAはPCA, projection pursuit(射影追跡法) ,factor analysisなどと関連が深い。
• 90年代後半に理論的な基礎が確立した手
法。
独立成分分析(ICA)
• ICAの問題(定義)
– 信号源はお互いに独立である(no-Gaussian):
– 観測値と信号源の間では線形関係(Aはm*nの行列)
– ならばn*mの行列Wが存在する:
により各成分が独立な信号を再構築できる。
))t(S(p))t(S(p
))t(S),...,t(S()t(S
ii
T
n1
Π=
=
)t(AS)t(X
))t(X),...,t(X()t(XT
m1
=
=
mn ≤
)t(WX)t(Y =
独立成分分析(ICA)
• ICAの解法– 代表的なのはWを繰り返し演算によって更新し、収束したWtを分離のための行列とするものである。
– についてはtanhなどの非線形関数がよい。
• ICAの応用– 音声信号の分離…
– http://visl.technion.ac.il/demos/bss/
T
n1
t
tT
t1t
))y(),...,y(()Y(
XWY
W)Y)Y(I(WW
ϕϕ=ϕ
=
ϕ−η+=+
(.)ϕ
Neural Network アーキテクチャ
• ニューロンの情報処理方式、ニューロンの結合方式(結合の仕方)、ニューロン(あるいは結合)の学習方式。以上の三つをneural network アーキテクチャという。
• ニューロンの情報処理方式
シグモイド型ニューロン。その以外球形基底関数(RBF),非単調
関数、高次元ニューロン、確率的に動作するニューロンモデル,etc。
)x(fy iii
j ωΣ=From
wikipedia
Neural Network アーキテクチャ
• ニューロンの結合形式:– 階層的network ー相互結合型network
Multilayer perceptron Hopfield net
Neural Network アーキテクチャ
• Neural networkの学習(次の部分に詳しく説明する) – Hebbian 学習則
– Error Back-propagation (主にMLPの学習)
• Neural networkのmodel selection
– 異なるnetworkを比較するにはAIC,MDLのような情報量基準やcross-validationなどの手法を用いることができる。
– 基本的にNeural networkはに非線形、そして係数が多いため、学習が難しい点がある。
単純・多層Perceptron
)axa(f)(fz 0ii
I
1i+Σ=η=
=
2
pp
P
1pemp2 )zu( −Σ=ε
=
単純perceptron:
評価基準を望みの出力とnetworkの出力との差の2乗和とする。
これを最小にする結合重みを求めるには:最急降下法。そしてこれをWidrow-Hoff学習則ともいう。
に正であるは学習係数という、常α
=−Σα+⇐ pipp
P
1pii x)zu(aa
単純・多層Perceptron
• Multilayer perceptron(中間層1層) Error back-propagation
アルゴリズム:
Reference
• Wikipedia
• Kevin B. KorbAnn, E. Nicholson : Bayesian
Artificial Intelligence
• PRML