bernoulli distribution and multinomial distribution (ベルヌーイ分布と多項分布)
DESCRIPTION
Describes the Bernoulli and multinomial distribution.TRANSCRIPT
ベルヌーイ分布と多項分布
手塚 太郎
1
文書と言語と確率分布 今、世界には大量の電子文書が蓄積されてい
る。World Wide Web, E-mail, デジタルライブラリ…
…
大量の文書から単語の頻度や使われ方など、統計的なデータを集めることで、人間による「単語の理解」に近いことを計算機に行わせたい。
人間もたくさんの会話を聞くことによって言語を習得している。それに近いことを行わせたい。 2
→ 「統計的言語モデル」と呼ばれ、近年盛んになっている。
統計的言語モデルの応用例
形態素解析機械翻訳情報検索自然言語理解文書要約テキストマイニング
3
各文書において各単語が現れる確率を条件付き確率で表現
「文書 m において単語 t が現れる」を確率的現象として捉える。つまり以下の確率を考える。
4
単語も文書も離散変数なので、離散分布が使われることになる。
)|( mdtwp ii コーパスにおける位置 i の単語 wi が t 、文書 di
が m ということを表す。
文書 m1 文書 m2 文書 m3
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14
t3 t4t5 t1 t3t2 t3 t9t4 t1 t2t3 t9 t3
i
離散変数の確率分布 ベルヌーイ分布 二項分布 多項分布 負の二項分布 ポアソン分布
しばらく離散変数の確率分布に関する基礎理論を説明します。
5
ベルヌーイ分布
6
コインの確率分布 観測される事象は表か裏。 表が出る確率は必ずしも 1/2 とは限らない。 表が出る確率が決まれば裏が出る確率も決ま
る。 パラメータとして「表が出る確率」を使う。
「裏が出る確率」をパラメータにしてもよい。
これは異なる変数をパラメータに使っても同一の分布を表せることの一例。
7
表と裏の表現
表が出ることを (1,0)T というベクトル、裏が出ることを (0,1)T というベクトルで表す。
8
表が出るということ:
0
1
2
1
x
xx
裏が出るということ:
1
0
2
1
x
xx
確率のベクトル表現
表が出る確率を μ1 、裏が出る確率を μ2 で表す。二つをまとめてベクトル μ で表す。
9
2
1
μ
ただし以下の条件が満たされなくてはならない。 表が出る確率と裏が出る確率の和は 1 でなく
てはならない。121
パラメータベクトルの数値の例 表が出る確率が 0.51 、裏が出る確率が 0.49 で
ある場合、パラメータは以下のようになる。
10
49.0
51.0μ
49.0
51.0
2
1
すなわち
ベルヌーイ分布 ベルヌーイ分布は観測変数が二値(たとえば表と
裏)である場合の確率分布。
11
表が出る確率: 裏が出る確率:
1)|0
1(
μxp 2)|
1
0(
μxp
ベルヌーイ分布を関数で表す ベルヌーイ分布を x, μ の簡単な関数で表した
い。つまり以下のような確率の値の表ではな
く、ひとつの関数ですべての情報を表現したい。
12
表が出る確率: 裏が出る確率:
どのような関数が考えられるだろうか? ベクトルではなくその成分を使った式でも
OK 。
1)|0
1(
μxp 2)|
1
0(
μxp
ベルヌーイ分布の関数表現 ベルヌーイ分布は以下の関数で表せる。
13
21
21
2
1
)|( xx
k
xk
kp
μx
ただし以下の条件が満たされる必要がある。
12
1
k
k
ベルヌーイ分布の値 右辺に x = (1,0)T や (0,1)T を代入すると正し
いことが分かる。
14
表が出る確率:
裏が出る確率:
21
21)|( xxp μx
10
21
1)|0
1(
μxp
21
20
1)|1
0(
μxp
ベルヌーイ分布の例
「♥と♠だけから 1 枚引いた時にどちらが出るか」はベルヌーイ分布で表せる。
15
♥ が出るということ:
0
1
2
1
x
xx
♠ が出るということ:
1
0
2
1
x
xx
ベルヌーイ分布の例 以前は「♥の枚数 θ 」をパラメータとして使った
が、今度は「♥の割合 μ1 」をパラメータとして使う。異なる変数をパラメータに選んでも同じ分布を表
せることはよくある。
16
4
1
4
3
4
101
02
11
♥ が出る確率( x1 が 1 ): ♠ が出る確率( x2 が 1 ):
4
3
4
3
4
110
12
01
21
21)|( xxp μx ♥ の枚数が 1 (つまり θ=1 )の場合を試してみる
と、 μ1 = 1/4 となり、実際に確率が正しく求められている。
ベルヌーイ分布の同時分布 ある特定の順序が出る確率を求めるにはベル
ヌーイ分布を掛け合わせればよい。
「♥ , ♠, ♥ が得られる確率」を計算した時にすでに行っている。
17
N
i
xxN
iipp1
2112,1,|,...,)|( μxxX
ベルヌーイ分布の同時分布の例
18
43
41|
0
1,
1
0,
0
1
1|HS,, H
μX
X
P
P
θ=1 (つまり♥が 1 枚、 ♠が 3 枚)の時に♥ , ♠, ♥ が得られる確率は以下のように表される。
θ の代わりに μ をパラメータとして使い、現れたスート(マーク)もベクトルで表現する。
ベルヌーイ分布の同時分布の例
19
♥, ♠, ♥ がそれぞれ μ のもとで条件付き独立で生じたとみなし、以下のように計算できる。
64
3
4
1
4
3
4
1
4
3
4
1
4
3
4
1
4
3
4
1011001
02
11
12
01
02
11
321 )|0
1()|
1
0()|
0
1(
μxμxμx PPP
ベルヌーイ分布のもうひとつの表現
教科書によってはベルヌーイ分布を以下のように表現するので注意。
20
ここでは x はスカラーであり、 1 か 0 の値を取る。 例: 表が出ることを 1 、裏が出ることを 0
で表す。
μ もスカラーであり、 μ1 が μ に、 μ2 が 1-μ に置き換えられている。 これも異なるパラメータを使っても同一の
分布を表せることの一例。
xxμxp 11)|(
多項分布
21
多項分布
サイコロの目が出る確率の分布は多項分布という分布で表せる。それぞれの目が出る確率は異なっていてもよい。( 1/6 でなくてもよい)
1 が出る確率を μ1 、 2 が出る確率を μ2 、… 6 が出る確率を μ6 で表す。ただし μk の和は 1 でなくてはならない。
22
トランプを引く操作で、♥ と ♠ だけでなく、すべてのスート( 4 種)が入っている場合も多項分布になる。
11
K
kk
ベルヌーイ分布と多項分布 ベルヌーイ分布では x1 (表)が出る確率が
μ1 、 x2 (裏)が出る確率が μ2 。
多項分布では x1 が出る確率が μ1 、 x2 が出る確率が μ2…… 、 xK が出る確率が μK 。
ベルヌーイ分布は K=2 の多項分布とみなせる。
23
1-of-K 表現 K 種類の離散値を取る確率変数の表現手法
24
0
1
0
0
x
成分のひとつだけが 1 、残りがすべて 0 となるK 次元ベクトルで表現する
パラメータも K 次元ベクトルであるので、計算上の見通しが良くなる。(特にベイズ推定を行う場合)。
ハートに対応する 1-of-K表現 クラブに対応する 1-of-K表現
0
0
0
1
x
0
0
0
1
4
3
2
1
x
x
x
x
すなわち
0
1
0
0
4
3
2
1
x
x
x
x
すなわち
パラメータのベクトル表現 多項分布のパラメータは K 次元のベクトルで表
現できる。
25
パラメータベクトルの数値の例
2.0
3.0
1.0
4.0
μ
2.0
3.0
1.0
4.0
4
3
2
1
すなわち
多項分布を関数で表す 多項分布を x, μ の(簡単な)関数で表したい。
つまり以下のような確率の値の表ではなく、ひとつの関数ですべての情報を表現したい。
26
i が出る確率:
どのような関数が考えられるだろうか? ベクトルではなくその成分を使った式でも OK 。
iixp )|1( μ
多項分布の関数表現
多項分布は以下の関数で表せる。
27
K
k
xkkp
1
)|( μx
ベルヌーイ分布の関数表現の一般化になっている。
K=2 を代入する(つまり二次元のベクトルを考える)とベルヌーイ分布の関数になる。
ベクトル μ がパラメータになっている。
K
kk
1
1ただし
多項分布の本来の範囲 多項分布は本来は「 M回試行を行った時、各 k
について xk が nk回起きる確率の分布」であり、二項分布の一般化である。
28
K
k
nkK
kk
k
n
Mp
1
1
!
!)|( μn
ここで扱っているのは「 M=1 の多項分布」のみである。そのため多項係数(括弧の中の部分)は1 であり、 nk は 0 か 1 にしかならない。
分布の間の関係
29
ベルヌーイ分布 値の数 K を増やすK=2, M=1
M=1 の多項分布
多項分布二項分布
ガウス分布
試行数 M を増やす
試行数 M を無限にし、回数 n ではなく割合 x を変数にする
K>2, M=1
K>2, M>1K=2, M>1
K=2, M=∞
試行数 M を増やす
K
k
xkkp
1
)|( μx
K
k
nkK
kk
k
n
Mp
1
1
!
!)|( μn
2121)|( xxp μx
2
12
1
!
!)|(
k
nk
kk
k
n
Mp μn
指数分布族ガウス分布、指数分布、ベルヌーイ分布、多項
分布はいずれも観測変数 x が確率密度関数の指数部分に現れているという共通点がある。
30
このような分布を指数分布族と呼ぶ。指数分布族に対する最尤法では尤度関数ではな
くその対数が最大化されることが多い。
2121)|( xxp μx
xexp )|(
2
2
22
2
1),|(
x
exp
K
k
nkK
kk
k
n
Mp
1
1
!
!)|( μn
多項分布のパラメータの最尤推定
31
多項分布のパラメータの最尤推定 観測データ X から M=1 の多項分布のパラ
メータ μ を推定したい。
最尤推定を使う。
ベルヌーイ分布も K=2 の場合の多項分布であるので、同じ方法で推定できる。
32
離散パラメータと連続パラメータ 離散値パラメータの取り得る値が有限個の場合、
すべての組み合わせの尤度を計算して比較すればよい。トランプから引く例では ♥ の枚数 θ が有限個の種
類しか取れないので、すべて比較すれば良かった。
連続値パラメータではそれができない。そのために微分を使って極値を求めることになる。コインの表裏やサイコロの目が出る確率 μ は 0 と
1 の間の好きな値(連続値)を取ることができる。無限種類の値があるので、すべてを比較して最大
値を見つけるということができない!33
トランプのスートを当てる問題との違い
トランプを引き、 ♥ が現れた回数から ♥ の枚数を推定する問題は多項分布(のひとつであるベルヌーイ分布)のパラメータに対する最尤推定だった。
しかし ♥ の枚数( θ の取り得る値)が有限種類しか無いため、 μ の取り得る値も有限種類しかなく、すべての θ について尤度 p(x|θ) の大きさを比べれば良かった。
たとえば無限枚のトランプの中から引く操作を考えると、 θ の取り得る値は無限種類あり、すべての θ について p(x|θ) を比べることができなくなる。
34
連続値パラメータに対する最尤法尤度関数を微分し、 0 とおいて解く。
または、 ラグランジュ未定乗数法を使って最大化する。
指数分布族に属する確率分布の場合、尤度ではなく対数尤度を最大化することが多い。対数尤度を使った方が計算が容易になる場合に使
う。対数関数は単調増加のため、 log p(x) が最大値を
とる x は p(x) についても最大値を与える。多項分布も指数分布族に属す。
35
多項分布のパラメータの最尤推定量
結論から言うと、 μk の最尤推定量は観測データにおいて xk が現れた回数 Nk の相対的な割合になる。
36
N
Nkk ̂
例: コインを 1万回振って、 6000回表が出たのなら表が出る確率は 0.6 。
例: トランプを 100回引いて、♥ が 70回出たのなら ♥ が占める割合は 0.7 。
直観的には良さそうだが、最尤推定でもこの値が得られることを確認する。
ただし N は試行の総数である。
K
kkNN
1
独立事象の分布訓練データでは多数の事象が観測されるが、そ
れぞれは確率的に独立に生じるとみなす。
独立な事象の同時確率は各事象の確率の積になる。(むしろそれが独立性の定義)。例: 偏りのないコインを 3回投げて 3回とも表
が出る確率はどう計算するか? → 1/2 を 3回掛ければよい。
37
N
iin zpzzp
11 )(),...,(
多項分布のパラメータの最尤推定 観測データが複数( N個)の場合、以下のよう
に定義される尤度関数を最大化すればよい
38
パラメータは以下の制約を満たさなくてはならない。
K
kk
1
1
N
i
K
k
xkkip
1 1
,)|( μX
Xは 1-of-K 表現 xi を成分として持つベクトルであり、 xi,k は i番目の 1-of-K 表現の第 k 成分を表す。(つまり Xは K 行 N列の行列と考えてもよい)
多項分布のパラメータの対数尤度
xi,k が 0 か 1 しか取らないことを利用して、 kの出現回数 Nk に置き換えられる。
39
K
kkk
N
i
K
kkki
N
i
K
k
xk
Nx
p ki
11 1,
1 1
loglog
log)|(log ,
μX
ラグランジュ未定乗数法 以下を満たす μk を求めると、それが制約条件
gj(μ)=0 のもとで f(μ) を最大化する μk になっている。
40
J
jjjgfL
1
)()(),( μμλμ
0
k
L
f は目的関数と呼ばれる。 J は制約条件の個
数。 λj は新たに追加される未知数。未知数が増えているが、方程式の数も増えてい
るので解くことができる。
0
i
L
2 次元でのラグランジュ未定乗数法
μ が 2 次元の時、制約条件の個数は最大 1 つであり、 J=1 となる。
ゆえに λj をスカラー λ で表す。
41
)()(),( μμμ gfL
0
k
L
0
L
ラグランジュ未定乗数法のイメージ
μ が 2 次元で制約条件がひとつの場合、制約条件を満たす最大値はある線上で f(μ) の最大値を求めることを意味する。
赤い曲線で制約条件 g(μ)=0 を満たす点の集合、青い線で目的関数 f(μ) の値の等高線を表す。
42
ラグランジュ未定乗数法のイメージ曲線 g(μ)=0 の線上で f(μ) が最大値を取る点では
g(μ)=0 と等高線の向きが一致している。 これは g(μ)=0 の法線ベクトルと f(μ) の勾配 ∂ f/∂μ が同じ方向(黒い矢印)を向いていることを意味する。
43
g(μ)=0 の法線ベクトルの向きは勾配 ∂ g/∂μ である。なぜなら法線は g(μ)が最も大きく変化する方向であり、それは勾配と等しい。
逆に g(μ)=0 に沿ってはg(μ) の大きさが変化しないが、これは勾配と直交する。
ラグランジュ未定乗数法の導出 f(μ) の勾配 ∂ f/∂μ と g(μ)=0 の法線ベクトル ∂ g/∂μ が同じ方向を向いているためには、定数倍の関係になくてはならない。この係数を λ で表す。
44
0μ
μ
μ
μ
μ
μ
)()()( gfL
μ
μ
μ
μ
)()( gf
)()()( μμμ gfL L は以下のように定義されていた。
この時、以下が成り立つことが分かる。
ラグランジュ未定乗数法の導出
つまり以下を満たす μ を求めれば、それが「制約条件 g(μ)=0 を満たす中で f(μ) を最大化するμ 」になっている。
45
0μ
μ
)(L
多項分布のパラメータの最尤解
46
K
kk
K
kkkNL
11
1log)( μ
0)(
k
k
k
NL μ
目的関数 f(μ) と制約条件 g(μ) を代入すると、L が以下のように定義される。
kkN
11
11
K
kk
K
kkN
K
kk
1
1
この時、ラグランジュ未定乗数法より以下が得られる。
以下は μ が満たす制約条件
多項分布のパラメータの最尤解
47
最尤解(最尤推定で得られるパラメータの推定値)として相対頻度を使えばよいことが分かる。
11
1
K
kkN
11
N
N
kkN
N
Nkk
以下は前スライドで得られた条件
ふたたび ♥ の枚数の推定との関係
♥ の枚数を推定する問題では θ を推定した。 θ の最尤解をカードの枚数で割ると μ の最尤解に
なる。
例: 4 枚のカードから 3回引き、 2回 ♥ が出たとする。θ の最尤解は 3 、ゆえに μ の最尤解は 3 / 4 。仮に μ が連続値を取れるとした場合の μ の最尤推
定量は ♥ の相対出現頻度であり、 2 / 3 。
48
♥ の枚数が整数しか取れないため、相対出現頻度は μ の最尤推定量として使えない。
まとめ 離散分布の代表的なものとしてベルヌーイ分布や
多項分布がある。
多項分布における μk の最尤推定量は観測データにおける xk の相対出現頻度 Nk / N になる。
49