prml exercise 2.52 exercise 3.16 exercise 4.3 exercise 4.5
TRANSCRIPT
Problems in PRML
目 次
1 PRML Chapter2’s Exercise 2.52 1
2 PRML Chapter3’s Figure 3.4 5
3 PRML Chapter3’s Figure 3.7 6
4 PRML Chapter3’s Figure 3.8 9
5 PRML Chapter3’s Figure 3.10 10
6 PRML Chapter3’s Exercise 3.16 13
7 PRML Chapter4’s Exercise 4.3 14
8 PRML Chapter4’s Exercise 4.5 14
1 PRML Chapter2’s Exercise 2.52
問題
mは大きくなることにつれて、von Mises 分布は正規分布になることを証明せよ。
p(θ|θ0,m) =1
2πI0(m)exp{m cos(θ − θ0)} (2.179)
その中に I0(m)はゼロ次の Bessel 関数である。
I0(m) =1
2π
∫ 2π
0
exp{m cos θ} dθ (2.180)
回答
まず問題を解決するとき、式 (2.179)から expの部分を問題の hintを利用して変形する。ここでは省略する。この問題の難しいさは正規化数の部分にあると考えている。つまり ξに関係ない部分を expの外に出して、計算した結果は正規分布の正規化数 1√
2π(この問題では σ = 1)になること
を検証しなければいけない。
1
Von Mises分布を変形した結果は以下のようになっている。
p(ξ|θ, m) =1
2πI0(m)exp(m) exp(−ξ2
2) (1)
証明したいことはm → ∞の場合以下の式が成り立つ。1
2πI0(m)exp(m) =
1√2π
(2)
上の式を変形して、つまり以下の式がm → ∞のとき成り立つことが必要となる。
I0(m) =exp(m)√
2πm(3)
Wikipedia の Bessel fuction の Asymptotic forms 部分を参照してください。そこに Iα(x)に関する近似式が存在する。以下のようになっている。
Iα(x) → 1√2πx
exp(x) (4)
上の式は x >> |α2 − 1/4|に成り立つ。つまり x → ∞の近似でもあると考えられる。当然この近似式については Abramowitz, Milton; Stegun, Irene A., eds. (1965) の式 (9.7.1)でもあげられている。Bessel Functions 分野において一つ基本的な近似式となっていることが考えられる。式 (4)
は一般的な式であるが、私たちが証明したいのは I0 の場合となる。式 (3)を証明することはそれほど簡単ではない。その前に、まず Bessel 関数についてすこし紹
介する。
Bessel functions:J, Y,H
Bessel関数 Jα(x)は一つ非常に重要な特殊関数である。一般的には以下の微分方程式の特異解として知られている。
x2 d2y
dx2+ x
dy
dx+ (x2 − α2)y = 0
式の中 α は Bessel関数の次数となって、一般的に α が整数の場合広く研究されている。そしてα,−αの場合上の方程式が同じであることも注意すべきである。微分方程式の解としては線形結合によっていろんな variationが考えられる。少なくとも上の Bessel 微分方程式において以下の三つの種類の関数解が持っている。
第一種Bessel 関数:J
J の具体的な式の定義については summation形式と積分形式がある。積分形式定義は以下のようになっている。
Jn(x) =1
π
∫ π
0
cos(nθ − x sin θ) dθ (5)
式の中に nは前の αと同じ役割、ただ自然数の場合を指していることで nと書き換えられた。
第二種Bessel 関数:Y
Y は Neumann function とも呼ばれる。自然数次数の場合の定義は以下のようになる。
Yn(x) =1
π
∫ π
0
sin(x sin θ − nθ) dθ − 1
π
∫ ∞
0
[
ent − (−1)ne−nt]
e−x sin t dt (6)
2
第三種Bessel 関数:H
H はHankel function とも呼ぶ。J を real、Y を imaginary部分とする虚数である。式は以下のようになっている。
H(1)n (x) = Jn(x) + iYn(x)
H(2)n (x) = Jn(x) − iYn(x)
(7)
Modified Bessel functions:I,K
ここではいよいよ I の登場となる。I, K は実は以下のような微分方程式の解である。
x2 d2y
dx2+ x
dy
dx− (x2 + α2)y = 0
Bessel関数を解とする微分方程式と微妙に違うが、関係が強い。具体的では以下のようになっている。
Iα(x) = i−αJα(ix)
Kα(x) =π
2
I−α(x) − Iα(x)
sin(απ)
=π
2iα+1H(1)
α (ix)
(8)
Bessel関数の表現形式
以下は Jn(x)を例として、その定義の三つの形式について説明する。In(x)についても同じような形式が存在する。summation形式、これは微分方程式を解くとき一番最初に得られた式である。
Jn(x) =
∞∑
r=0
(−1)r 1
r!Γ(n + r + 1)
(
x
2
)2r+n
(9)
三角関数に関する積分形式:
Jn(x) =1
π
∫ π
0
cos(nθ − x sin θ) dθ (10)
一般の積分形式:
Jn(x) =1√
πΓ(n + 12 )
(
x
2
)n ∫ 1
−1
(1 − t2)n− 1
2 eixt dt (n > −1
2) (11)
式 (9),(10),(11)の等価性についての証明はW. W. Bell.(2004)4.3節を参照してください。当然ほかの表現形式もある、Abramowitz, Milton; Stegun, Irene A., eds. (1965)の第 9章を参照してください。
3
PROOF of 式 (3)
W. W. Bell.(2004)の p127-p130を参照してください。証明の出発は In(x)の一般の積分形式[Abramowitz, Milton; Stegun, Irene A., eds. (1965),p376:式9.6.18][W. W. Bell.(2004),p116:Theorem
4.17]からとする。
In(x) =1√
πΓ(n + 12 )
(
x
2
)n ∫ 1
−1
e−xt(1 − t2)n− 1
2 dt (n > −1
2) (12)
この式に t = −1 + ux としておく、この場合積分範囲は [0, 2x]になる。式 (12)に代入すると以下
のようになる。
In(x) =1√
πΓ(n + 12 )
(
x
2
)n ∫ 2x
0
ex−u(2u
x− u2
x2)n− 1
2
1
xdu
=1√
πΓ(n + 12 )
(
x
2
)n
ex
(
2
x
)n− 1
2 1
x
∫ 2x
0
e−u(1 − u
2x)un− 1
2 du
=1√
πΓ(n + 12 )
(
x
2
)n
ex
(
2
x
)n− 1
2 1
x
∫ 2x
0
e−u(1 − u
2x)n− 1
2 un− 1
2 du
(13)
上の式の中に (1 − u2x )n− 1
2 は x → ∞の場合 1になる。これで上の式は以下のように変形できる。
In(x) =1√
πΓ(n + 12 )
(
x
2
)n
ex
(
2
x
)n− 1
2 1
x
∫ ∞
0
e−uun− 1
2 du
=1√
πΓ(n + 12 )
(
x
2
)n
ex
(
2
x
)n− 1
2 1
xΓ(n +
1
2)
=ex
√2πx
(14)
その中に Γ関数の計算式を利用した。これで式 (3)が証明できた。In(x)の三角関数に関する積分形式は一般の積分形式等価性についてはここでは一般的な In(x)の場合を証明するじゃなくて、I0(x)の場合のみ証明する。同じく一般の積分形式から出発する。
I0(x) =1√
πΓ( 12 )
∫ 1
−1
e−xt(1 − t2)−1
2 dt (15)
t = cos θとおいて上の式に代入する。
I0(x) =1√
πΓ( 12 )
∫ 0
π
e−x cos θ 1
sin θ(− sin θ) dθ
=1√
πΓ( 12 )
∫ π
0
e−x cos θ dθ
=1
π
∫ π
0
ex cos θ dθ
(16)
これは式 (2.180)と一致している。以上をまとめて、問題 2.52を証明できると考えられる。PS.PRMLの p109の figure 2.20の I0(m)
図は間違い、m = 0の場合 I0(m)は 1になるはず (たて軸のスケールが大きすぎかもしれない)。
4
2 PRML Chapter3’s Figure 3.4
問題
Figure 3.4の中になぜ青い線の部分は円になるかについて解釈せよ。
w1
w2
w⋆
Figure 3.4 青い線:正規化されていない error関数の等高線。赤い線:正規化項の等高線。正規化されていない error関数:
ED(w) =1
2
N∑
n=1
{tn − wTΦ(xn)}2 (3.26)
正規化項:EW (w) =
1
2wTw (3.24)
回答
ED(w) =1
2
N∑
n=1
{tn − wTΦ(xn)}2
=1
2
N∑
n=1
{
(tn − wTΦ(xn))(tn − wTΦ(xn))}
=1
2
N∑
n=1
{
t2n − 2 tnwTΦ(xn) + wTΦ(xn)wTΦ(xn)}
=1
2
N∑
n=1
{
t2n − 2 tnwTΦ(xn) + wTΦ(xn)Φ(xn)Tw}
=1
2
N∑
n=1
{
t2n − 2 tnwTΦ(xn) + wTΦ(xn)w}
=1
2
{
tTt − 2tTΦ(X)w + wTΦ(X)w
}
where Φ(X) = (Φ(x1), . . . ,Φ(xN ))、t = (t1, . . . , tN )T。
5
Φ(X) =∑N
n=1 Φ(xn) =∑N
n=1 Φ(xn)Φ(xn)T = Tr{
Φ(X)TΦ(X)}
。Φ(X),Φ(xn)ともに対称行列となっている。ここでは Φ(X) =
(
1 1
1 2
)
,t = (1, 2)T,Φ(X) =
(
3 2
2 5
)
と具体化する。プロットした等高線は
図 2ようになる。
-100 -50 0 50 100-100
-50
0
50
100
0 20000 40000 60000 80000 100000 120000 140000
1.2e+0051.1e+005 1e+005 9e+004 8e+004 7e+004 6e+004 5e+004 4e+004 3e+004 2e+004 1e+004
X
Y
図 1: 2ED(w)の等高線のひとつ例。
まとめ
実際の正規化されていない error関数の等高線は図 3.4に示す円形じゃなく、正確に言えば図 2
に示すような楕円形になるはず。
3 PRML Chapter3’s Figure 3.7
問題
Figure 3.7の中になぜ likelihoodの図形はあのようになることを説明せよ。
6
Figure 3.7
回答
The definition of likelihood here:
p(t|x,w, β) = N (t|wT φ(x), β−1) (3.10)
3.3.1節においては、wT φ(x) = w0 + w1x, β = 25と設定しているため、式 (3.10)に代入すると以下のようになる。
f(w0, w1) = const ∗ exp{
− 25
2(t − w0 − w1x)2
}
(17)
ここで今回プロットするため、t = 0.5, x = 0.5の点が観測された場合の尤度関数 f(w0, w1)について図 2で示す。
f(w0, w1) = exp{
− 25
2(0.5 − w0 − 0.5w1)
2}
(18)
7
-1-0.5
0 0.5
1
-1
-0.5
0
0.5
1
0
0.2
0.4
0.6
0.8
1
exp(-12.5*(0.5-x-0.5*y)*(0.5-x-0.5*y))
w_0
w_1
(a) 3次元の図形
-1-0.5 0 0.5 1 -1-0.5 0 0.5 1
0
0.2
0.4
0.6
0.8
1
exp(-12.5*(0.5-x-0.5*y)*(0.5-x-0.5*y))
w_0 w_1
(b) w0, w1平面上の直線 0.5−w0 − 0.5w1 = 0の方向に見る場合の図形。
-1-0.5 0 0.5 1
-1
-0.5
0
0.5
1 0 0.2 0.4 0.6 0.8 1
exp(-12.5*(0.5-x-0.5*y)*(0.5-x-0.5*y)) 1
0.8 0.6 0.4 0.2
w0
w1
(c) 3次元の図形の等高線を w0, w1 平面へ投影した結果。
図 2: Figure 3.7問題回答図8
4 PRML Chapter3’s Figure 3.8
問題
Figure 3.8の中にピンクの領域の変化について説明せよ。
x
t
0 1
−1
0
1
Figure 3.8a
回答
図 3.8aの中のピンクの領域は predictive distribution の分散に相当している。分散の計算式は以下のようになっている。
σ2N (x) =
1
β+ φ(x)TSNφ(x) (3.59)
3.3.2節においては xは 1次元のデータであるため、xと書き換える。また今回基底関数として、9個の Gaussian基底関数 (式 3.4)を用いた。
φj(x) = exp{
− (x − µj)2
2s2
}
(3.4)
そして、φ(x)を基底関数で以下のようにかける。
φ(x) = (φ0(x), . . . , φ8(x))T (19)
まず式 (3.54)を用いて、学習データから SN を計算して、そして式 (3.59)に代入する。最後に式 (3.58)を使って、x, tが変動する場合の p(t|x, t, α, β)の曲面の等高線を描いて、それは図 3.8a
と一致するかを確認する。S−1
N = αI + βΦTΦ (3.54)
p(t|x, t, α, β) = N (t|mTNφ(x), σ2
N (x)) (3.58)
問題設定:まずはGaussian基底関数の µj , s与える必要がある。そして簡単化するためパラメータを初期設定すこし変える。係数 wの次元を 8から 2に減らす。そして w事前確率の平均を 0、分散を Iにする。そして尤度関数のところの β を 1に設定する。
9
x = 0.5, t = 0点が観測された時、以上の初期設定値を用いて、Φを計算する。
Φ = (φ0(0.5), φ1(0.5)) = (exp{
− (0.5 − 1)2
2 ∗ 22
}
, exp{
− (0.5 − 0)2
2 ∗ 12
}
)
= (0.969233, 0.882497)
(20)
wの事後分布の平均と分散を式 (3.53),(3.54)で計算すると以下のようになる。
S−1N = 1 ∗
(
1 0
0 1
)
+ (0.969233, 0.882497)T(0.969233, 0.882497)
=
(
1.9394126 0.8553452
0.8553452 1.7788010
)
SN =
(
0.6544007 −0.3146718
−0.3146718 0.7134879
)
mN = (0, 0)T
(21)
以上の結果を式 (3.59)に代入する。
σ2N (x) = 1+(exp
{
− (x − 1)2
8
}
, exp{
−x2
2
}
)
(
0.6544007 −0.3146718
−0.3146718 0.7134879
)
(exp{
− (x − 1)2
8
}
, exp{
−x2
2
}
)T
(22)
mTNφ(x) = 0 (23)
以上の 2つ式を式 (3.58)に代入して、図形をプロットする。でも以上の設定ではうまくいかないようだ。
5 PRML Chapter3’s Figure 3.10
問題
Figure 3.10はどうやって作ったかを説明せよ。
Figure 3.10
10
回答
Kernelの定義式は以下の式の通りになっている。
k(x,x′) = βφ(x)TSNφ(x′) (3.62)
この式に SN は学習データから、特に (X) から計算できた対称行列である。具体の計算式は式(3.16)、式 (3.54)の通りである。
S−1N = αI + βΦTΦ (3.54)
その中Φは以下のように定義されている。
Φ = (φ(x1), . . . ,φ(x200))T
(x1, . . . , x200)は (−1, 1)空間でおいての均等な値である。今回は c + +と gnuplot,Rを利用して実験した。Gaussian Kernel の設定は以下の 3つにした:
• GaussianKernel(0.0,1)
• GaussianKernel(-2.0,4)
• GaussianKernel(0.6,2)
そして学習データの xは前で述べた方法で 200個生成した。SN の計算結果は以下のようになった。
0.6774663 −0.1929062 −0.2822659 −0.2708864
−0.1929062 0.6575137 −0.1841954 −0.2150034
−0.2822659 −0.1841954 0.6859057 −0.1594748
−0.2708864 −0.2150034 −0.1594748 0.6601707
そして式 (3.62)を利用して、x, x′ → kの関数を以下の3次図 3で表す。そこで x, x′の値を [−1, 1]
間均等の 50個値とした。
11
-1 -0.5 0 0.5 1-1
-0.5
0
0.5
1
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
0.11
’C:\Documents and Settings\song\My Documents\rinko\codes\figure3.10\kernel\debug\data.txt’ using 1:2:3 0.1
0.08 0.06 0.04
(a) Kernelの 3次元図形
-1 -0.5 0 0.5 1-1
-0.5
0
0.5
1 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11
0.1 0.08 0.06 0.04
(b) Contours
図 3: Figure 3.10問題回答図
12
6 PRML Chapter3’s Exercise 3.16
問題
式 (2.115)の結果を利用して、式 (3.77)が式 (3.86)になっていることを証明せよ。
p(t|α, β) =
∫
p(t|w, β)p(w|α) dw (3.77)
p(t|α, β) = αM/2( β
2π
)N/2 1
|A|1/2exp
{
− 1
2(β||t − ΦmN ||2 + αmT
nmN )
}
(3.86′)
回答
式 (3.77)の中に:
p(t|w, β) =
N∏
n=1
N (tn|wT φ(xn), β−1) = N (t|Φw, β−1I) (24)
式 (24)、そして式 (3.52)を式 (3.77)に代入すると以下になる。
p(t|α, β) =
∫
N (t|Φw, β−1I)N (w|0, α−1I) dw
= N (t|0, β−1I + α−1ΦΦT )
=1
(2π)N/2
1
|β−1I + α−1ΦΦT |1/2exp
{
− 1
2tT (β−1I + α−1ΦΦT )−1t
}
(25)
式 (25)と式 (3.86’)の等価性について証明する。まず expの部分について証明する。
β
2(t − ΦmN )T (t − ΦmN ) +
α
2mT
NmN =β
2(tT t − 2ΦmNt + mT
NΦT ΦmN ) +α
2mT
NmN
=β
2(tT t − 2tT βΦA−1ΦT t) +
1
2β2(A−1ΦT t)T AA−1ΦT t
=β
2tT t − 1
2β2tT ΦA−1ΦT t
= −1
2tT
{
− βI + βIΦ(αI + βΦT Φ)−1ΦT βI
}
t
= −1
2tT
{
− β−1I − Φα−1IΦT
}−1
t
=1
2tT
{
β−1I + α−1ΦΦT
}−1
t
(26)
下から三番目の等式成立する理由は式 (C.7)。以上は expの部分を証明できる。係数の部分について証明していきたい。
|α−1I(M∗M)||β−1I(N∗N)||A| = |α−1I(M∗M)||β−1I(N∗N)||αI(M∗M) + βΦT Φ|= |β−1I(N∗N)||I(M∗M) + α−1βΦT Φ|= |β−1I(N∗N)||I(N∗N) + α−1βΦΦT |= |β−1I(N∗N) + α−1ΦΦT |
(27)
下から二番目の等式成立する理由は式 (C.14)。そして全体では式 (C.12)を利用した。
13
7 PRML Chapter4’s Exercise 4.3
問題
問題 4.2の結果を拡張し、そしてもしターゲットベクトルが同時に多数の線形拘束を満足できた場合、線形モデルの最小二乗推定は同じ拘束を満たすことを示す。
回答
M 個の線形拘束条件を式 (28)ようにまとめる。
Atn + b = 0 (28)
その中に、A =
aT1
...
aTM
、b =
b1
...
bM
と定義している。
ここからは基本的に問題 4.2のやり方、後半のところを更改するだけで、問題 4.3について証明していきたい。式 (28)に t̄の計算式を代入すると式 (29)になる。
At̄ =1
NATT1 = −b (29)
式 (28)に式 (116)を代入すると式 (30)になる。
Ay(x⋆) = At̄ + AT̂T(
X̂†)T
(x⋆ − x̄)
= At̄ = −b(30)
変形の中に以下の結果を利用した。
AT̂T = A(T − T̄)T = b(1 − 1)T = 0T (31)
8 PRML Chapter4’s Exercise 4.5
問題
式 (4.20),(4.23),(4.24)を利用して、フィシャーの基準 (式 (4.25))は式 (4.26)になることを示せ。
14
回答
J(w) =(m2 − m1)
2
s21 + s2
2
=(m2 − m1)(m2 − m1)
T
∑
n∈C1
(yn − m1)(yn − m1)T +
∑
n∈C2
(yn − m1)(yn − m2)T
=wT (m2 − m1)(m2 − m1)
T w∑
n∈C1
wT (xn − m1)(xn − m1)T w +
∑
n∈C2
wT (xn − m2)(xn − m2)T w
=wT (m2 − m1)(m2 − m1)
T w
wT{
∑
n∈C1
(xn − m1)(xn − m1)T +
∑
n∈C2
(xn − m2)(xn − m2)T}
w
=wT SBw
wT SW w
(32)
15
Reference
Abramowitz, Milton; Stegun, Irene A., eds. (1965), ”Chapter 9”, Handbook of Mathematical
Functions with Formulas, Graphs, and Mathematical Tables, New York: Dover, ISBN 0-486-
61272-4.
W. W. Bell.(2004), Special Functions for Scientists and Engineers (Dover Books on Mathe-
matics).
Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. J. Royal. Statist. Soc
B., Vol. 58, No. 1, pages 267-288.
16