ユニバーサルなベイズ測度について
DESCRIPTION
IBIS-ML研究会 2013年7月18日 早稲田大学理工学部TRANSCRIPT
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
ユニバーサルなベイズ測度について
Joe Suzuki
Osaka University
電子情報通信学会 IBIS-ML研究会早稲田大学理工学部
2013年 7月 18日
.
.
.
.
1 / 21
.
ユニバーサルなベイズ測度について
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
ロードマップ
.
.. 1 問題
.
..
2 確率密度関数
.
..
3 一般的な確率密度関数
.
..
4 ベイズ的な解
.
..
5 まとめ
.
.
.
.
2 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
n個の例から、X ,Y が独立かどうか検定したい
(x1, y1), · · · , (xn, yn) ∼ (X ,Y ) ∈ 0, 1 × 0, 1
p: X ,Y が独立である事前確率w : θの重みxn := (x1, · · · , xn), yn := (y1, · · · , yn)
.
pQn(xn)Qn(yn) ≥ (1− p)Qn(xn, yn) ⇐⇒ X ,Y が独立
.
.
.
. ..
.
.
Qn(xn) :=
∫P(xn|θ)w(θ)dθ , Qn(yn) :=
∫P(yn|θ)w(θ)dθ
Qn(xn, yn) :=
∫P(xn, yn|θ)w(θ)dθ
.
.
.
.
3 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
X ,Y で、離散や連続を仮定しないとどうなるか ?
離散: Aを有限集合として、P1(X = a), a ∈ A
連続: x1, x2 ∈ R, x1 < x2 として、P2(x1 ≤ X ≤ x2) =
∫ x2
x1
f (x)dx
離散でも連続でもない: 例えば、
P3(x1 ≤ X ≤ x2) =1
2
∑x1≤x≤x2,x∈A
P1(X = x) +1
2P2(x1 ≤ X ≤ x2)
.
.
.
.
4 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
確率変数の定義
(Ω,F ,P): 確率空間 (標本空間、事象の集合、確率)
.
定義: X が確率変数
.
.
.
. ..
. .
X : Ω → R が F-可測
任意の Borel集合 D について、 ω ∈ Ω|X (ω) ∈ Dが事象
Borel集合の例:1, 2, [−1, 0.5], [2,
√7), [6, 9.2] ∪ (10.2, 20.5) ∪ 30,Q
.
.
.
.
5 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
どんなQnが、Pnの代わりになりうるのか?
.
真の θ = θ∗は、使えない
.
.
.
. ..
.
.
Pn(xn) = P(xn|θ∗),Pn(yn) = P(yn|θ∗)Pn(xn, yn) = Pn(xn, yn|θ∗)
Qn(xn) :=
∫Pn(xn|θ)w(θ)dθ , Qn(yn) :=
∫Pn(yn|θ)w(θ)dθ
Qn(xn, yn) :=
∫Pn(xn, yn|θ)w(θ)dθ
.
.
.
.
6 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
例: Bayes符号
c: xnにおける 1の頻度θ: 1の確率
P(xn|θ) = θc(1− θ)n−c
a, b > 0
w(θ) ∝ 1
θa(1− θ)b
各 xn = (x1, · · · , xn) ∈ 0, 1nについて、
Qn(xn) :=
∫P(xn|θ)w(θ)dθ =
∏c−1j=0 (j + a) ·
∏n−c−1k=0 (k + b)∏n−1
i=0 (i + a+ b)
.
.
.
.
7 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
Krichevsky-Trofimov: a = b = 1/2
ユニバーサル性: どのような P についても
−1
nlogQn(xn) → H :=
∑x∈A
−θ log θ − (1− θ) log(1− θ)
Shannon McMillian Breiman: どのような P についても
−1
nlogPn(xn|θ) = 1
nlogθc(1− θ)n−c → E [− logP(xi )] = H
.
.
.
.
8 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
nが大きいと、どうして PnをQnにしてよいのか?
Pn(xn|θ)を Pn(xn)と書くと、どのような P についても
1
nlog
Pn(xn)
Qn(xn)→ 0 (1)
.
Qnは Aについてのユニバーサルな測度
.
.
.
. ..
.
.
Qnや (1)は、一般的な状況ではどのように一般化されるか?
.
.
.
.
9 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
X の確率密度関数 f が存在するとき
A: X の取りうる値の集合
A0 := A
Aj+1 は、Aj を細分化したもの
例 1: A = [0, 1)であれば、A0 = [0, 1)A1 = [0, 1/2), [1/2, 1)A2 = [0, 1/4), [1/4, 1/2), [1/2, 3/4), [3/4, 1). . .
Aj = [0, 2−(j−1)), [2−(j−1), 2 · 2−(j−1)), · · · , [(2j−1 − 1)2−(j−1), 1). . .
sj : A → Aj (量子化, x ∈ a ∈ Aj =⇒ sj(x) = a)λ : R → B (Lebesgue測度, a = [b, c) =⇒ λ(a) = c − b)Qn
j : Aj についてのユニバーサルな測度
.
.
.
.
10 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
(sj(x1), · · · , sj(xn)) = (a1, · · · , an)であれば、
gnj (x
n) :=Qn
j (a1, · · · , an)λ(a1) · · ·λ(an)
f nj (xn) := fj(x1) · · · fj(xn) =
Pj(a1) · · ·Pj(an)
λ(a1) . . . λ(an)∑ωj = 1, ωj > 0なる ωj∞j=1を用いて、gn(xn) :=
∞∑j=1
ωjgnj (x
n)
j → ∞で h(fj) → h(f )となる f と Ajについて、確率 1で
1
nlog
f n(xn)
gn(xn)→ 0 (2)
B. Ryabko. IEEE Trans. on Inform. Theory, 55, 9, 2009.
.
.
.
.
11 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
どのような形に一般化されるのか
.
..
1 確率変数が有限個の値をとるとき: どのような P についても
1
nlog
Pn(xn)
Qn(xn)→ 0 (1)
.
.
.
2 確率密度関数が存在するとき:j → ∞で h(fj) → h(f )となるどのような f と Ajについても
1
nlog
f n(xn)
gn(xn)→ 0 (2)
.
.
.
.
12 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
確率密度関数が存在するための必要十分条件は?
B: Rの Borel集合全体µ(D): D ∈ Bの確率
.
以下の 2条件 (絶対連続)は同値 (µ ≪ λ)
.
.
.
. ..
. .
各 D ∈ Bについて、λ(D) = 0 =⇒ µ(D) = 0
µ(D) =
∫D
f (t)dλ(t)となる B-可測な dµ
dλ:= f が存在
f は、(λについての)確率密度関数
.
.
.
.
13 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
一般的な意味での確率密度関数
.
以下の 2条件 (絶対連続)は同値 (Radon-Nikodum, µ ≪ η)
.
.
.
. ..
.
.
各 D ∈ Bについて、η(D) = 0 =⇒ µ(D) = 0
µ(D) =
∫D
fη(t)dη(t)となる B-可測な dµ
dη:= fη が存在
fη は、ηについての確率密度関数
例 2: µ(h) > 0, η(h) := 1
h(h + 1), h ∈ B := 1, 2, · · ·
µ ≪ η
µ(D) =∑
h∈D∩Bfη(h)η(h)
dµ
dη(h) = fη(h) =
µ(h)η(h)
= h(h + 1)µ(h)
.
.
.
.
14 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
B1 := 1, 2, 3, · · · B2 := 1, 2, 3, 4, · · · . . .Bk := 1, 2, · · · , k, k + 1, k + 2, · · · . . .
tk : B → Bk (量子化, y ∈ b ∈ Bk =⇒ tk(y) = b)(tk(y1), · · · , tk(yn)) = (b1, · · · , bn)であれば、
gnη,k(y
n) :=Qn
k (b1, · · · , bn)η(b1) · · · η(bn)
, gnη (y
n) :=∞∑k=1
ωkgnη,k(y
n)
h(fη,k) → h(fη)となるどのような fη と Bkについても
1
nlog
f nη (yn)
gnη (y
n)→ 0 (3)
gn(yn)∏n
i=1 ηn(yi)が、P(yn) = f nη (y
n)∏n
i=1 ηn(yi)を推定
.
.
.
.
15 / 21
.
ユニバーサルなベイズ測度について
.
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
一般的な場合
µn(Dn) :=
∫Df nη (y
n)dηn(yn)
νn(Dn) :=
∫Dgnη (y
n)dηn(yn)
f nη (yn)
gnη (y
n)=
dµn
dηn(yn)/
dνn
dηn(yn) =
dµn
dνn(yn)
D(µ||ν) :=∫
dµ logdµ
dν
h(fη) := limn→∞
1
n
∫−f nη (y
n) log f nη (yn)dη(yn)
= − limn→∞
1
n
∫dµ
dη(yn) log
dµ
dη(yn) · dη(yn) = −D(µ||η)
.
.
.
.
16 / 21
.
ユニバーサルなベイズ測度について .
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
主定理
.
定理
.
.
.
. ..
.
.
k → ∞で D(µk ||η) → D(µ||η)となる定常エルゴードな µとBkについて、n → ∞のとき、確率 1で
1
nlog
dµn
dνn(yn) → 0
.
.
.
.
17 / 21
.
ユニバーサルなベイズ測度について .
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
周辺確率密度関数
例 3: A× B (例 1,2に基づく)µ ≪ ληA0 × B0 = A × B = [0, 1) × 1, 2, · · · A1 × B1
A2 × B2
. . .Aj × Bk
. . .(sj , tk) : A× B → Aj × Bk
fλη,jk → fλη を満足するどのような Aj × Bkと fλη についても
1
nlog
f nλη(xn, yn)
gnλη(x
n, yn)→ 0 (4)
となる gλη を構成できる
.
.
.
.
18 / 21
.
ユニバーサルなベイズ測度について .
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
問題の解
f nX (xn), f nY (y
n), f nXY (xn, yn)を gn
X (xn), gn
Y (yn), gn
XY (xn, yn)で推定
.
The Bayesian answer
.
.
.
. ..
.
.
pgnX (x
n)gnY (y
n) ≤ (1− p)gXY (xn, yn) ⇐⇒ X ,Y are independent
.
.
.
.
19 / 21
.
ユニバーサルなベイズ測度について .
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
一般的なBayes情報量基準 (BIC)
n個の例 znとm = 1, 2, · · · に関する事前確率 pmから、各 m = 1, 2, · · · について、gn(zn|m)を計算
pmg(zn|m)を最大にする mを見出す
.
.
.
.
20 / 21
.
ユニバーサルなベイズ測度について .
.
.
ロードマップ
.
.
問題
.
.
確率密度関数
.
.
一般的な確率密度関数
.
.
ベイズ的な解
.
.
まとめ
まとめと課題
ベイズ測度:
離散や連続を仮定しないユニバーサル性の一般化
Bayes情報量基準 (BIC)の一般化
応用事例:
Bayesianネットワークの構造推定の一般化 (DCC 2012)
Bayesian Chow-Liuアルゴリズム (PGM 2012)
Xiが連続である場合のMarkovの次数推定
課題:
k → ∞で、D(µk ||η) → D(µ||η)という Bkの仮定をはずす。
本講演を含む
最近のスライド
http://www.slideshare.net/prof-joe/
.
.
.
.
21 / 21
.
ユニバーサルなベイズ測度について .