probabilistic graphical models 輪読会 chapter 4.1 - 4.4

79
Probablistic Graphical Models Section 4.1 - Section 4.4 藤藤藤藤

Upload: yoshinari-fujinuma

Post on 07-Feb-2017

370 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Page 1: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Probablistic Graphical Models Section 4.1 - Section 4.4

藤沼祥成

Page 2: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

自己紹介• 藤沼祥成 @akkikiki• 経歴– 国際基督教大学 (ICU) 学士– 東京大学大学院 情報理工学系研究科 CS 専攻 修士– 検索のソフトウェア開発エンジニア

Page 3: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

用語集 ( 翻訳集 )

• Maximal clique– 極大クリーク– 資料によっては「最大クリーク」とも

• complete subgraph– クリークと同義– 完全部分グラフとも同義

• induced by, associated with– 本プレゼンでは「導出される、付随する」とします

• Canonical Parameterization– 正準パラメタ化 ( MLaPP の輪講スライドより)

Page 4: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Chapter 4 前半の概要 ( 話の流れ )• Chapter 3 の有向グラフに対する定義を無向グラフに対しても定義• マルコフネットワークの :– Gibbs 分布との関係性– 独立性と因子分解– パラメタ化の粒度に関して

• 以下は ( 次回に? ) 飛ばします:– Box 4.C, 4.D

Page 5: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.1 Misconception Example ( 宿題の誤解モデル )

• Page 83, Example 3.8, Section 3.4.2• 4 人の生徒がペアを作り、宿題に取り組む。– ただし授業中、教授が間違ったことを言っていた– そのため生徒間で正しい共通認識がない– 各生徒が授業での内容とは別に、独自に答えにたどり着いた– (Alice, Bob), (Bob, Charles), (Charles, Debbie),

(Debbie, Alice) の間でしか口をきかない– ある二人の生徒間で misconception( 誤解 ) があるかどうかをグラフィカルモデルでモデル化

Page 6: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

宿題の誤解モデル(マルコフネットワーク)• ノード:確率変数• エッジ:確率変数間の相互作用

Page 7: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def 4.1 Factor ( 因子 )• 「確率変数間の相互作用」をきちんと定義• D: 確率変数の集合• Factor φ: Val(D) -> R なる関数• D は” factor のスコープ”と呼ばれる• factor の全ての entry が非負であるとき、 Factor が非負である、という• (p. 58) Val(D): 確率変数 D がとりうる値の集合

– 宿題の誤解モデルだと 0 か 1• φ ( A, B ) , φ(A, B, C) といった形ででてくる• 最初の方は |D| = 2 で話が進む

Page 8: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

宿題の誤解モデルにおける Factor 例

• 宿題の答えが 0 か 1 のどちらかしかない• (0, 0) もしくは (1, 1) の値が大きいほど、同じ答えに到達している• 上の表を「 Factor をテーブルで表現する」と本プレゼンでは呼ぶ

Page 9: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.2 Parametrization (P. 106)

• グラフ構造自体をパラメタ化し、確率分布を表現したい– ちなみに Factor は直接、確率や条件付き確率に対応している訳ではない

Page 10: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def. 4.2 Factor Product

• X, Y, Z は互いに疎 (disjoint) な確率変数• Factor:• Factor product ψ(X, Y, Z) を以下に定義:

Page 11: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

宿題の誤解モデルでの factor product 例• 先ほどのテーブルを確率分布として正規化した例

Page 12: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def 4.3 (p.108) Gibbs 分布• Factor 集合 Φ によってパラメタ化される• Factor の積をとる• 正規化項 Z は全てのとりうる割当の和をとる• Z を用いて正規化し Gibbs 分布 P_φ を定義

Page 13: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Gibbs 分布から Markov network を導出(Coursera Week 2)

Page 14: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def 4.4 (Page 109) マルコフネットワーク H での因子分解• 分布• が H の完全部分グラフであるとき、 P_Φ は H 上で因子分解される (P_Φ

factorize over H) という• ちなみに完全部分グラフは ( 極大 ) クリークの部分集合なのでクリークで定義してもよい• ただし、グラフの over parameterization が問題– Section 4.4.1.1 (Factor Graph) にて詳しく解説

Page 15: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.3 (Page 114)Independency in Markov Network- 独立性と因子分解との関連性

Page 16: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

そもそも Independency とは何か?• Def 3.2 (p. 60) に分布 P に対する Independency の定義あり

– Independency associated with P• Page 4 より• H: 宿題の誤解モデル

– (マルコフネットワーク)Independencies {induced by, associated with} Markov Network H- まとめて I(H) と表す

Page 17: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

導入 : Separation (分離性?) in Markov Network

• MN 上の独立性をきちんと定義するための導入

Page 18: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Thm 4.1 (p. 115, Coursera week 2)

• I(H): グラフ H から導出された独立性– 教科書では Global independency とも

Page 19: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def 3.3 I-map (p. 60) をもう一度復習• 注意: I-map と I(H) は別物– MN では I(H) は separation によって定義されている

• K: グラフ(無向、有向、問わず)• I(K): a set of independencies associated with K• I: a set of independencies

• If I(K) ⊆ I, then K は I の I-map 、という• 「 K は I(P) の I-map 」ならば、「 K は分布 P の I-

map 」と呼ぶ• I の部分集合であればいいのがポイント– (p. 61) 分布 P はグラフ K にない独立性を含む場合あり– i.e. 分布 P はグラフ K にある独立性を含む必要あり

Page 20: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Thm 4.1, I-Map の例• P:

• H: • P は H 上で factorize• =>Thm4.1 より H は Pの I-map• Z = {D, B} が given の時、– A と C は separated

Page 21: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Thm 4.1, I-Map の例P に付随している独立性とは?

• P:

• P は H 上で factorize

• Exercise 2.5 で以下の同値条件を示した– iff

Page 22: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Thm 4.1, I-Map の例H が P の I-map であることの確認

• P は H 上で factorize

• Exercise 2.5 で以下の同値条件を示した– iff

Z = B Z = D

• H の二つの独立性が P にも付随していることが確認できる

Page 23: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Thm 4.2 (page 116)Hammersley-Clifford theorem

• Independent => Factorization

• P: positive distribution• If H is an I-map for P, then P factorizes over H

• グラフ上で separated であれば因子分解可能• Example 4.4, page 109• Ex. 4.1 は positive distribution でない場合、成立しない例を挙げ、確認する

Page 24: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Exercise 4.1 (p. 116): Thm 4.2 におけるpositive distribution の重要性

• positive distribution でない場合、成立しない例を挙げ、確認する• • 以下の割当全てに対して 1/8 の確率、他の割当に対し0の確率とする確率分布 P がある。• P は H 上で facorize しないことを示せ

Page 25: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Exercise 4.1 の続き• P は H 上で facorize すると仮定• 分布 P は P ( 1,0,1,0 ) = 0• Factorize するので、定義から 4つの完全部分グラフ

(X_1, X_2), (X_2, X_3), (X_3, X_4), (X_4, X_1) に対する因子の集合 Φ に対してP_Φ(X) = φ(X_1, X_2) * φ(X_2, X_3) * φ(X_3, X_4) * φ(X_4, X_1)

• φ(X_1, X_2), φ(X_2, X_3), φ(X_3, X_4), φ(X_4, X_1)のいずれかはゼロ

Page 26: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

ここまでの Summary (Coursera より )

• Factorization: H allows P to be represented• I-Map: Independencies encoded by H hold in P

• 正値分布 P に埋め込まれている独立性と、マルコフネットワーク H に埋め込まれている独立性は一致している• ちなみにここでいう H 上での独立性とは

global independency のこと– 正値分布に対しては local independency と global

independency が一致することをこれから示す

Page 27: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

• ここまでが 6/18 にて発表した内容

Page 28: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.2.3 (p.110)Reduced Markov Network

• C = c^1 として、 Markov Network を単純化する• Figure 4.3 (p. 107) と Figure 4.5 p. (111)• E.g. φ[c^1](a^1, b^1) = φ(a^1, b^1)*φ(b^1, c^1)

Page 29: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def 4.5 (p.111) Factor reduction (Φ[u] の定義 )

• Y: 確率変数の集合• U = u: 確率変数の集合に対する割当 , U ⊆ Y• Y’: Y – U• y’: Y’ に含まれる各確率変数に対する割当• Φ(Y): factor• Φ[u](Y): factor over Y’ such that

• 前スライドにある例は u=c^1, y’ = {a, b}

Page 30: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def 4.6 (p.111) Reduced Gibbs Distribution

• u: context ( 確率変数 U に割り当てる値 )• φ[u]: U=u として reduce された factor•                   : factorの集合• P_Φ[u]: reduce された factor 集合 Φ によって定義されるギブス分布

• Reduce後は確率分布の和が 1 になるよう、再度正規化が必要

Page 31: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def 4.7 (p.111) Reduced Markov Network

• H: reduce されていない Markov Network• U = u: H の context• H[u] : U=u として reduce された Markov

Network

• Reduced Markov Network は– W = X – U をノードとする–任意の二点 X, Y∈W 間に対し、 reduce されていない H 上でエッジが存在する時のみ、 X, Y 間にエッジが存在する

Page 32: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Example 4.3 (p.112)生徒の成績モデル

• Reduce なし • Context– Grade=g

• Context– Grade=g – SAT=s

Page 33: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Minimal I-map (p. 102)• 動機: I-map のみでは不十分。なぜか?• クリークは特に独立性をエンコードしていないので、任意の分布 P の I-map である– I-map の定義は部分集合であったことを思い出す!

• グラフ G は分布 P の Minimal I-map であるとは [8] :– 定義、以下の二点を満たす:

• G は P の I-map• G’ G ⊂ ならば G’ は P の I-map でない

– G に含まれる任意の辺を一つ取り除いた時、 P になかった独立性が G に含まれるようになる

Page 34: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.3.2 (p. 120) Minimal I-map の構築方法

• 二つのローカルな独立性を定義:– Pairwise Independency– Local Independency• Def. Markov Blanket

• 以上が Positive distribution では同値• Global な独立性はグラフの separation による定義

Page 35: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def. 4.10 (p. 118)Pairwise Independency

• H 上のノード X, Y 以外が given なとき、 Xと Y の間にエッジがない時、 X と Y はpairwise independent である、と定義する

• i.e. 全てのノードのペア X, Y に対し、条件付き独立でないノードのペアをエッジで結んでいく

Page 36: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def. 4.11 Markov Blanket (MB)(Def 4.12 でも定義されている )

• MB(X): X に隣接したノードの集合– ただしこの定義はグラフを用いて定義している– 分布 P からグラフを構築する際にこの定義だけどと「どのノードを X に隣接させるか」が断定できない

http://homepages.inf.ed.ac.uk/rbf/CVonline/LOCAL_COPIES/AV0809/ORCHARD/

Page 37: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def 4.11, 4.12 Local Independency

• Local independency associated with Markov network H を以下のように定義

• なお、分布 P の独立性を用いて、 MB を定義する:– 以下の性質を満たす最小の集合 U は MB と定義する– 結果としてノード X に隣接したノードの集合となる

• i.e. 全てのノード X に対して MB(X) をとり、 MB(X) に含まれる全てのノードに対し、 X とエッジで結ぶ

Page 38: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.3.2.2 (p.118) マルコフ性との関係性• {Global, pairwise, local} independency をまとめて「マルコフ性」と呼んでいる– Koller 本ではセクションのタイトルのみだが、 ML プロフェッショナルシリーズでは定義として出てくる–名前の由来はおそらく「局所的」な独立性

• 命題 4.3:• 命題 4.4: • Pairwise independency は local と比較して、” given なノードが多い”定義

Page 39: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

命題 4.3 の図解

Page 40: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Thm 4.4 (p.119)正値分布での 3種類の独立の同値性• P: 正値分布

証明:• I(H) = {(X \indep Y |Z ) : Sep_H(X;Y|Z)} (∵定義より )• 互いに全ての素な確率変数の集合X, Y, Z χ⊆ に対し、 Sep_H(X;Y|

Z)=>P|= (X \indep Y |Z) を示せばよい• |Z| に対する帰納法で示す。 X ∈ X, Y∈Y• |Z| = n – 2 の時、 Z = χ – {X, Y}, X = {X}, Y = {Y}

– I_p(H) = { (X \indep Y | χ – {X, Y}) : X, Y 間にエッジなし } (∵定義より )– ∴P |= Sep_H(X;Y|Z) => P |= (X \indep Y |Z )

• i.e. 全ての Z’ s.t. |Z’| = k に対し、 Sep_H(X;Y|Z’) => P|= (X \indep Y | Z’) を仮定。 – 任意の Z s.t. |Z| = k -1 に対しても Sep_H(X;Y|Z) => P|= (X \indep Y | Z) が成立することを示す

Page 41: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Thm 4.4 の証明の続き• X Y Z = χ∪ ∪ の時、• Y’ = Y – {A} を考える• Sep(X;Y|Z)

1. => Sep_H(X;Y’|Z) & Sep_H(X;A|Z)2. => Sep_H(X;Y’|Z {A}∪ ) & Sep_H(X;A|Z Y’∪ )

• |Z {A}| = k, |Z Y’| =k, ∪ ∪ より帰納法の仮定が成立• ∴ P|= (X \indep Y’ | Z {A}), (X \indpep {A}|Z Y’)∪ ∪

• P.25, (2.11) より (X \indep Y’ {A}|Z) = (X \indep Y|Z) ∪• Exercise 4.9 で X Y Z ≠ χ∪ ∪ の場合を考える

Page 42: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Cororally 4.1 (p. 119)

• i.e. 正値分布 P に対しては global independency, local independency, pairwise independency は全て同値である。

• 以下が同値である

Page 43: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.3.3 (p. 120)分布 P の Minimal I-map の構築方法• (Thm 4.5) Pairwise independency => unique minimal

I-map• (Thm 4.6) local independency => unique minimal I-

map– 証明は Exercise 4.11

• ただし P が正値分布である必要があることに注意– Example 4.7 は正値分布でない場合に成立しない例を挙げている

Page 44: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

p.121 Example 4.7 Thm 4.5, 4.6 における正値分布の重要性• 以下の分布 P を考える:– P(a^1, b^1, c^1, d^1) = 0.5– P(a^0, b^0, c^0, d^0) = 0.5– 以上以外の割当では 0

• 以上の分布は である– e.g., P(A | B) = P(A, C | B) より (A \indep C | B)

• Local independency を用いて I-map 構築を試みる• MB の定義 4.12 で U={B} とすると、 MB(A) = B

Page 45: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

p. 121 Example 4.7, Thm 4.6 でもしP が正値分布でない場合

• 同様に (C \indep A, B | D) より MB(C) = D• (D \indep A, B | C) より MB(D) = C• 以下のグラフ K が構築される• しかし K は P の I-map でない– P で埋め込まれていない独立性が K にある– E.g. 分布 P は (A \indep D) ではないが、グラフ K は A, D 間にエッジがないため、 (A \indep D) であるため

Page 46: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Minimal I-map が分布 P の独立性を全て網羅しているとは限らない (Coursera Week2 より )

• Perfect map: I(H) = I(P)– H は分布 P の独立性を完全に encode している

• ただし、 perfect map が存在するとは限らない• 例: 左の BN から導出される分布 P を考える– G が given な時

• BN では (D \indep I | G) ではない• 上の MN では indpendent になるので、 P の I-map でない

Page 47: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Minimal I-map が分布 P の独立性を全て網羅しているとは限らない (Coursera week 2 より )

• Perfect map: I(H) = I(P)– H は分布 P の独立性を完全に encode している

• ただし、 perfect map が存在するとは限らない• 例: 左の BN から導出される分布 P を考える– G が given な時

• BN では (D \indep I | G) ではない• 上の MN では indpendent になるので、 P の I-map になる

Page 48: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.4.1.1 (p. 123)Factor Graph

• 同じ分布を表している (Exercise 4.6)が、 Factorization が異なることを陽に示している

Markov NetworkFactor Graph 2Factor Graph 1

Page 49: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def. 4.13 (p. 123)Factor Graph

• MN との大きな違い:ノードの種類を増やす– 確率変数に対応するノード– Factor に対応するノード

• Factor Graph F: factor 集合によってパラメタ化されており、各 factor node V_φ は一つのfactor Φ に紐付けられている。– この factor Φ の scope は factor ノードに隣接した確率変数のノードである

Page 50: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Log linear model ( 対数線形モデル ) の導入• Factor graph はまだ factor をテーブルとして表現するのでパラメタ数が多くなる• テーブルではなく、分布をよりコンパクトに表現するために energy function を導入する• その後 feature を定義し、 log-linear model を定義する

Page 51: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

P.124 Energy function

• Factor を対数空間上に変換する

• i.e. log φ(D) = -ε(D)• すると分布 P が以下のように表される:

Page 52: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Example 4.10 (p.125)

• A_1, A_2 のとりうる値が l( エル )個あるとする• A_1 = A_2 である場合が好ましい分布を表現したい、とする– 通常では l^2個の値を設定する必要あり

• 以上のケースに関して以下の energy function を設定すれば l^2個の値を扱う必要なし

Page 53: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def 4.14 (p. 125) Feature

• D: 確率変数の部分集合• Feature f(D) とは Val(D) -> Rへの関数である、と定義する• ようするに factor から「非負であること」の要件がなくなったもの (p.125 より )

Page 54: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Def. 4.15 (p.125) Log linear model

• 下記を満たす確率分布 P は Markov Network(MN) H の対数線形モデルという:• D_i: H のクリーク• Feature 集合 : • Weight 集合 :  {w_i}

• Box 4.E にあるとおり、変数の値の範囲が大きいときにこのようなコンパクトな表現は有効

Page 55: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.4.1.3 Discussion (Page 125)

• Markov Network の表現方法は 3つ• Fine-grained (= 表現がコンパクトである順 )

1. Log linear model2. Factor graph3. Markov Network

• E.g. Box 4.E での CRF の表現がコンパクト (=少ないパラメタで確率分布の表現が可能 ) になる• ただし、いつも対数線形モデルを使えばいいとは限らない– 独立性に着目したい時は Markov Network– Factor graph は推論する時に有用

Page 56: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.4.2 (p. 128) Overparametrization

• Fine-grained factor を用いても一般的にはパラメタ数が余剰である• Example 4.11 (Page 128), Exercise 4.2 : energy

function は一意でない– E(A, B): P(A, B), P(A), P(B) に関する情報を含んでいるため

• → canonical parameterization 、もしくはEliminating Redundancy によって対処する

Page 57: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.4.2.1 Canonical Parameterization (CP)

• H 上のギブス分布の CP は H に含まれる全てのクリーク D を用いて定義• 割当 ξ に対して l(ξ) = log P(ξ) とする• ξ* は fixed な割当• Z: クリーク D の部分集合• : と同じ。確率変数の集合 Z に含まれない確率変数に対する fixed な割当• D に対する Canonical Energy Function を以下のように定義 :

Page 58: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Canonical Energy Function(CEF) をより詳しく• 割当の scope 内にある部分集合全てに対して包除原理 (inclusion-exclusion principle) を適用していく

D の全ての部分集合 Z に対する和(空集合を含む )

包除原理適用時に用いる

Scope 内の割当Scope外の割当

Page 59: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

p.130 Example 4.12 宿題の誤解モデルにおける CEF の算出例

D= {A, B} のScope

=ln(1.4 * 10^-6) = -13.48 (?)

ln(1.4 * 10^-5) = -11.18ln(6.9 * 10^-5) = -9.58ln(0.04) = -3.2188... (?)

ξ* = (a^0, b^0, c^0, d^0)

Page 60: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

p.130 宿題の誤解モデルにおける CEF の算出結果• 理解を深めるためにも ε*(a^1, b^0), ε*(a^0), ε*(a^1),

ε*(c^0, d^0) も算出

Page 61: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Figure 4.11 の ε*(a^1, b^0) の計算• D = {A, B}, d: D に対する割当• Z = {A, B}, d_Z = {a^1, b^0} の時、– |D - Z| = 0, ξ*_-Z = {c^0, d^0}

Z = φd_Z = {b^0}

d_Z = {a^1}d_Z = {a^1, b^0}

Page 62: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Figure 4.11 の ε*(a^0) の計算• ε*(a^0) = 0, D = {A}

Page 63: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Figure 4.11 の ε*(a^1) の計算• ε*(a^1) = -8.01, D = {A}

Page 64: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Thm 4.7(p.130) Canonical parameterization は元の分布と一致• P: 正値ギブス分布• D_i: クリーク• : クリーク D_i に対する CEF

• 証明は Chapter 4 の後半で。 H が一つのクリークしか含まない場合は exercise 4.4 で。

Page 65: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Thm 4.8 (p. 131) Hammersly-Cliford Theorem

• H が P の I-map => P は H 上のギブス分布証明:• Canonical parameterization を用いて証明する• Gibbs 分布がマルコフ性を満たすことを示す。• 1. 全ての確率変数の部分集合 D に対し、 energy

function を定義• P. 130 Thm 4.7 の証明と同様• D: クリーク ( 確率変数の集合 )• W :ある確率変数の部分集合

– W D – {X, Y}⊆– X, Y W∈

Page 66: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Thm4.8 の証明の続き• Canonical Energy function によって定義される分布がギブス分布であることを示せばよい。

Page 67: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Section 4.4.2.2 (p. 131) 冗長性の排除 (Eliminating Redundancy)

• Feature 間の線形独立性を用いて排除する• 任意の割当 ξ に対し、以下の式を満たす全て 0 でない定数 a_0, …, a_k が存在する時、

f_1, …, f_k は線形独立でない (linearly dependent) 、という

Page 68: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

命題 4.5 (p.133)• 線形独立でないと、分布 P を表現しうる対数線形モデルが複数存在する• F: 分布 P を表す feature の集合• w: 分布 P を表す weight の集合• 任意の割当 ξ に対し、以下の式を満たす全て 0 でない定数 a_0, …, a_kが存在する時、

• weight 集合 w’ = {w_1 + a_1, …, w_k + a_k} も分布 P を表す• 互いに線形独立でない feature は redundant である、という

Page 69: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

命題 4.5 の証明

Page 70: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

命題 4.6(p.133) non-redundant feature なら分布 P に対する weight は一意• f: non-redundant feature• w, w’ R^k∈

Page 71: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

(p.133) example 4.15 Misconception exampleの Nonredundant feature set

• 16 * 16 matrix: 16 features, 16通りの割当– “four factors with four features each”– four factors とは φ(A, B), φ(B, C), φ(C, D), φ(D, A)– Indicator feature を example 4.13 で設定– 以下の行列は rank 9 より non-redundant feature set は 8つ

Page 72: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

16*16 の行列の全容:八木さんのスクリプト実行結果

Page 73: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Nonredundant feature set の一例• Figure 4.11 を参考にすると以下の 8 features が一例

– f{a^1, b^1}, f{b^1, c^1}, f{c^1, d^1}, f{d^1, a^1}.– f_{a^1}, f_{b^1}, f_{c^1}, f_{d^1}

Page 74: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

ε*{c^1}, ε*{d^1} が 0 であるのは偶然:Figure 4.11 の ε*(c^1) の計算

• ε*(c^1) = 0, D = {C}

ln(0.04) = -3.2188... (?)

0

Page 75: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

(再掲 )Figure 4.11 の ε*(a^0) の計算• ε*(a^0) = 0, Z = { {a^0}, φ}• Misconception example で、全てゼロの割当の CEF は factor の値がなんであろうと必ずゼロになっている

Page 76: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

Example 4.15 p.133 Nonredundant feature set

• f{a^1, b^1} 、 f_{a^1} の 2つの feature に f_{a^1, b^0} を加えると linearly dependent であることを見てみる1. A = a^1 B=b^1 の時、

– f_{a^1, b^0} = 0, f{a^1, b^1} = 1, f_{a^1} = 1 より上の式は = 02. A = a^1 B=b^0 の時、

– f_{a^1, b^0} = 1, f{a^1, b^1} = 0, f_{a^1} = 1 より上の式は = 03. A = a^0 B=b^1 の時、

– f_{a^1, b^0} = 0, f{a^1, b^1} = 0, f_{a^1} = 0 より上の式は = 0 4. A = a^0 B=b^0 の時、

– f_{a^1, b^0} = 0, f{a^1, b^1} = 0, f_{a^1} = 0 より上の式は = 0

Page 77: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

今日 (約 1時間 ) 発表した内容(=重要なポイント)• Reduced Markov Network (10 分 )• {local, pairwise} independency (10 分 )• Markov Network のパラメタ化 (30 分 )– Factor graph– Log-linear model– Canonical Energy Function の算出例 (Figure 4.11)

Page 78: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

発表で飛ばしたところ• Thm 4.4(p.119) の証明• Thm 4.8(p.131) の証明

Page 79: Probabilistic Graphical Models 輪読会 Chapter 4.1 - 4.4

参考文献一覧(リンク)1. Koller 本 ( 教科書 )2. Coursera の Week 2 “Fundamentals of Markov Network”3. CMU の授業プリント

http://www.cs.cmu.edu/~16831-f14/notes/F11/16831_lecture07_bneuman.pdf

4. CMU の授業スライド http://www.cs.cmu.edu/~guestrin/Class/10708-F06/Slides/undirected-variational-annotated.pdf5. 機械学習プロフェッショナルシリーズ「グラフィカルモデル」

6. Buffalow 大学の授業スライド http://www.cedar.buffalo.edu/~srihari/CSE574/Chap8/Ch8-PGM-Undirected/9.3-ConstructingMNs.pdf

7. Northwestern 大学の授業スライド http://www.cs.northwestern.edu/~ddowney/courses/395_Winter2010/mnets.pdf

8. UC Santa Cruz の授業スライド https://classes.soe.ucsc.edu/cmps290c/Winter06/paps/nir2.pdf