ユニバーサルなベイズ測度について

21
ロードマップ 問題 確率密度関数 一般的な確率密度関数 ベイズ的な解 まとめ ユニバーサルなベイズ測度について Joe Suzuki Osaka University 電子情報通信学会 IBIS-ML 研究会 早稲田大学理工学部 2013 7 18 1 / 21 ユニバーサルなベイズ測度について

Upload: joe-suzuki

Post on 26-May-2015

230 views

Category:

Documents


2 download

DESCRIPTION

IBIS-ML研究会 2013年7月18日 早稲田大学理工学部

TRANSCRIPT

Page 1: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

ユニバーサルなベイズ測度について

Joe Suzuki

Osaka University

電子情報通信学会 IBIS-ML研究会早稲田大学理工学部

2013年 7月 18日

.

.

.

.

1 / 21

.

ユニバーサルなベイズ測度について

Page 2: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

ロードマップ

.

.. 1 問題

.

..

2 確率密度関数

.

..

3 一般的な確率密度関数

.

..

4 ベイズ的な解

.

..

5 まとめ

.

.

.

.

2 / 21

.

ユニバーサルなベイズ測度について

.

Page 3: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

n個の例から、X ,Y が独立かどうか検定したい

(x1, y1), · · · , (xn, yn) ∼ (X ,Y ) ∈ 0, 1 × 0, 1

p: X ,Y が独立である事前確率w : θの重みxn := (x1, · · · , xn), yn := (y1, · · · , yn)

.

pQn(xn)Qn(yn) ≥ (1− p)Qn(xn, yn) ⇐⇒ X ,Y が独立

.

.

.

. ..

.

.

Qn(xn) :=

∫P(xn|θ)w(θ)dθ , Qn(yn) :=

∫P(yn|θ)w(θ)dθ

Qn(xn, yn) :=

∫P(xn, yn|θ)w(θ)dθ

.

.

.

.

3 / 21

.

ユニバーサルなベイズ測度について

.

Page 4: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

X ,Y で、離散や連続を仮定しないとどうなるか ?

離散:  Aを有限集合として、P1(X = a), a ∈ A

連続:  x1, x2 ∈ R, x1 < x2 として、P2(x1 ≤ X ≤ x2) =

∫ x2

x1

f (x)dx

離散でも連続でもない: 例えば、

P3(x1 ≤ X ≤ x2) =1

2

∑x1≤x≤x2,x∈A

P1(X = x) +1

2P2(x1 ≤ X ≤ x2)

.

.

.

.

4 / 21

.

ユニバーサルなベイズ測度について

.

Page 5: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

確率変数の定義

(Ω,F ,P): 確率空間 (標本空間、事象の集合、確率) 

.

定義: X が確率変数

.

.

.

. ..

. .

X : Ω → R が F-可測

任意の Borel集合 D について、 ω ∈ Ω|X (ω) ∈ Dが事象 

Borel集合の例:1, 2, [−1, 0.5], [2,

√7), [6, 9.2] ∪ (10.2, 20.5) ∪ 30,Q

.

.

.

.

5 / 21

.

ユニバーサルなベイズ測度について

.

Page 6: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

どんなQnが、Pnの代わりになりうるのか?

.

真の θ = θ∗は、使えない

.

.

.

. ..

.

.

Pn(xn) = P(xn|θ∗),Pn(yn) = P(yn|θ∗)Pn(xn, yn) = Pn(xn, yn|θ∗)

Qn(xn) :=

∫Pn(xn|θ)w(θ)dθ , Qn(yn) :=

∫Pn(yn|θ)w(θ)dθ

Qn(xn, yn) :=

∫Pn(xn, yn|θ)w(θ)dθ

.

.

.

.

6 / 21

.

ユニバーサルなベイズ測度について

.

Page 7: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

例: Bayes符号

c: xnにおける 1の頻度θ: 1の確率

P(xn|θ) = θc(1− θ)n−c

a, b > 0

w(θ) ∝ 1

θa(1− θ)b

 

各 xn = (x1, · · · , xn) ∈ 0, 1nについて、

Qn(xn) :=

∫P(xn|θ)w(θ)dθ =

∏c−1j=0 (j + a) ·

∏n−c−1k=0 (k + b)∏n−1

i=0 (i + a+ b)

.

.

.

.

7 / 21

.

ユニバーサルなベイズ測度について

.

Page 8: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

Krichevsky-Trofimov: a = b = 1/2

ユニバーサル性: どのような P についても

−1

nlogQn(xn) → H :=

∑x∈A

−θ log θ − (1− θ) log(1− θ)

Shannon McMillian Breiman: どのような P についても

−1

nlogPn(xn|θ) = 1

nlogθc(1− θ)n−c → E [− logP(xi )] = H

.

.

.

.

8 / 21

.

ユニバーサルなベイズ測度について

.

Page 9: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

nが大きいと、どうして PnをQnにしてよいのか?

Pn(xn|θ)を Pn(xn)と書くと、どのような P についても

1

nlog

Pn(xn)

Qn(xn)→ 0 (1)

.

Qnは Aについてのユニバーサルな測度

.

.

.

. ..

.

.

Qnや (1)は、一般的な状況ではどのように一般化されるか?

.

.

.

.

9 / 21

.

ユニバーサルなベイズ測度について

.

Page 10: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

X の確率密度関数 f が存在するとき

A: X の取りうる値の集合

A0 := A

Aj+1 は、Aj を細分化したもの

例 1: A = [0, 1)であれば、A0 = [0, 1)A1 = [0, 1/2), [1/2, 1)A2 = [0, 1/4), [1/4, 1/2), [1/2, 3/4), [3/4, 1). . .

Aj = [0, 2−(j−1)), [2−(j−1), 2 · 2−(j−1)), · · · , [(2j−1 − 1)2−(j−1), 1). . .

sj : A → Aj (量子化, x ∈ a ∈ Aj =⇒ sj(x) = a)λ : R → B (Lebesgue測度, a = [b, c) =⇒ λ(a) = c − b)Qn

j : Aj についてのユニバーサルな測度

.

.

.

.

10 / 21

.

ユニバーサルなベイズ測度について

.

Page 11: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

(sj(x1), · · · , sj(xn)) = (a1, · · · , an)であれば、

gnj (x

n) :=Qn

j (a1, · · · , an)λ(a1) · · ·λ(an)

f nj (xn) := fj(x1) · · · fj(xn) =

Pj(a1) · · ·Pj(an)

λ(a1) . . . λ(an)∑ωj = 1, ωj > 0なる ωj∞j=1を用いて、gn(xn) :=

∞∑j=1

ωjgnj (x

n)

j → ∞で h(fj) → h(f )となる f と Ajについて、確率 1で

1

nlog

f n(xn)

gn(xn)→ 0 (2)

B. Ryabko. IEEE Trans. on Inform. Theory, 55, 9, 2009.

.

.

.

.

11 / 21

.

ユニバーサルなベイズ測度について

.

Page 12: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

どのような形に一般化されるのか

.

..

1 確率変数が有限個の値をとるとき: どのような P についても

1

nlog

Pn(xn)

Qn(xn)→ 0 (1)

.

.

.

2 確率密度関数が存在するとき:j → ∞で h(fj) → h(f )となるどのような f と Ajについても

1

nlog

f n(xn)

gn(xn)→ 0 (2)

.

.

.

.

12 / 21

.

ユニバーサルなベイズ測度について

.

Page 13: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

確率密度関数が存在するための必要十分条件は?

B: Rの Borel集合全体µ(D): D ∈ Bの確率

.

以下の 2条件 (絶対連続)は同値 (µ ≪ λ)

.

.

.

. ..

. .

各 D ∈ Bについて、λ(D) = 0 =⇒ µ(D) = 0

µ(D) =

∫D

f (t)dλ(t)となる B-可測な dµ

dλ:= f が存在

f は、(λについての)確率密度関数

.

.

.

.

13 / 21

.

ユニバーサルなベイズ測度について

.

Page 14: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

一般的な意味での確率密度関数

.

以下の 2条件 (絶対連続)は同値 (Radon-Nikodum, µ ≪ η)

.

.

.

. ..

.

.

各 D ∈ Bについて、η(D) = 0 =⇒ µ(D) = 0

µ(D) =

∫D

fη(t)dη(t)となる B-可測な dµ

dη:= fη が存在

fη は、ηについての確率密度関数 

例 2: µ(h) > 0, η(h) := 1

h(h + 1), h ∈ B := 1, 2, · · ·

µ ≪ η

µ(D) =∑

h∈D∩Bfη(h)η(h)

dη(h) = fη(h) =

µ(h)η(h)

= h(h + 1)µ(h)

.

.

.

.

14 / 21

.

ユニバーサルなベイズ測度について

.

Page 15: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

B1 := 1, 2, 3, · · · B2 := 1, 2, 3, 4, · · · . . .Bk := 1, 2, · · · , k, k + 1, k + 2, · · · . . .

tk : B → Bk (量子化, y ∈ b ∈ Bk =⇒ tk(y) = b)(tk(y1), · · · , tk(yn)) = (b1, · · · , bn)であれば、

gnη,k(y

n) :=Qn

k (b1, · · · , bn)η(b1) · · · η(bn)

, gnη (y

n) :=∞∑k=1

ωkgnη,k(y

n)

h(fη,k) → h(fη)となるどのような fη と Bkについても

1

nlog

f nη (yn)

gnη (y

n)→ 0 (3)

gn(yn)∏n

i=1 ηn(yi)が、P(yn) = f nη (y

n)∏n

i=1 ηn(yi)を推定

.

.

.

.

15 / 21

.

ユニバーサルなベイズ測度について

.

Page 16: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

一般的な場合

µn(Dn) :=

∫Df nη (y

n)dηn(yn)

νn(Dn) :=

∫Dgnη (y

n)dηn(yn)

f nη (yn)

gnη (y

n)=

dµn

dηn(yn)/

dνn

dηn(yn) =

dµn

dνn(yn)

D(µ||ν) :=∫

dµ logdµ

h(fη) := limn→∞

1

n

∫−f nη (y

n) log f nη (yn)dη(yn)

= − limn→∞

1

n

∫dµ

dη(yn) log

dη(yn) · dη(yn) = −D(µ||η)

.

.

.

.

16 / 21

.

ユニバーサルなベイズ測度について .

Page 17: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

主定理

.

定理

.

.

.

. ..

.

.

k → ∞で D(µk ||η) → D(µ||η)となる定常エルゴードな µとBkについて、n → ∞のとき、確率 1で

1

nlog

dµn

dνn(yn) → 0

.

.

.

.

17 / 21

.

ユニバーサルなベイズ測度について .

Page 18: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

周辺確率密度関数

例 3: A× B (例 1,2に基づく)µ ≪ ληA0 × B0 = A × B = [0, 1) × 1, 2, · · · A1 × B1

A2 × B2

. . .Aj × Bk

. . .(sj , tk) : A× B → Aj × Bk

 

fλη,jk → fλη を満足するどのような Aj × Bkと fλη についても

1

nlog

f nλη(xn, yn)

gnλη(x

n, yn)→ 0 (4)

となる gλη を構成できる

.

.

.

.

18 / 21

.

ユニバーサルなベイズ測度について .

Page 19: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

問題の解

f nX (xn), f nY (y

n), f nXY (xn, yn)を gn

X (xn), gn

Y (yn), gn

XY (xn, yn)で推定

 

.

The Bayesian answer

.

.

.

. ..

.

.

pgnX (x

n)gnY (y

n) ≤ (1− p)gXY (xn, yn) ⇐⇒ X ,Y are independent

.

.

.

.

19 / 21

.

ユニバーサルなベイズ測度について .

Page 20: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

一般的なBayes情報量基準 (BIC)

n個の例 znとm = 1, 2, · · · に関する事前確率 pmから、各 m = 1, 2, · · · について、gn(zn|m)を計算

pmg(zn|m)を最大にする mを見出す

.

.

.

.

20 / 21

.

ユニバーサルなベイズ測度について .

Page 21: ユニバーサルなベイズ測度について

.

.

ロードマップ

.

.

問題

.

.

確率密度関数

.

.

一般的な確率密度関数

.

.

ベイズ的な解

.

.

まとめ

まとめと課題

ベイズ測度:

離散や連続を仮定しないユニバーサル性の一般化

Bayes情報量基準 (BIC)の一般化

応用事例:

Bayesianネットワークの構造推定の一般化 (DCC 2012)

Bayesian Chow-Liuアルゴリズム (PGM 2012)

Xiが連続である場合のMarkovの次数推定

課題:

k → ∞で、D(µk ||η) → D(µ||η)という Bkの仮定をはずす。

本講演を含む

最近のスライド

http://www.slideshare.net/prof-joe/

.

.

.

.

21 / 21

.

ユニバーサルなベイズ測度について .