数理統計学 ( 第六回) 最尤推定とは?
DESCRIPTION
数理統計学 ( 第六回) 最尤推定とは?. 浜田知久馬. ダーウィンの例 母数推定の前提. 自家受精群と他家受精群 に別々の正規分布をあてはめ n個(n=15)の確率変数Y i が互いに独立に同一の正規分布にしたがう Y 1 , Y 2 , Y 3 , ・・・,Y n ~N (μ,σ 2 ) i.i.d. ( independent identically distributed ). 正規分布の確率密度関数. σ 2 は既知 n個Y 1 ,・・・,Y n のn個のデータの得られる確率f - PowerPoint PPT PresentationTRANSCRIPT
数理統計学第6回 1
数理統計学 ( 第六回)最尤推定とは?
浜田知久馬
数理統計学第6回 2
数理統計学第6回 3
数理統計学第6回 4
数理統計学第6回 5
ダーウィンの例 母数推定の前提
自家受精群と他家受精群 に別々の正規分布をあてはめ
n個(n=15)の確率変数Yiが互いに独立に同一の正規分布にしたがう
Y1 , Y2 , Y3 , ・・・,Yn ~N (μ,σ 2 )
i.i.d. ( independent identically distributed )
数理統計学第6回 6
正規分布の確率密度関数
σ 2は既知n個Y1 ,・・・,Yn のn個のデータの得られる確率f
f =f (y 1 ) ・f (y2) ・・・f (y n ) = Π f (yi)
2
2
2 2exp
2
1)(
y
yf
n
i
i
n
n
i
i
y
yf
12
2
2
12
2
2
2exp
2
1
2exp
2
1
数理統計学第6回 7
対数尤度 (log likelihood)
2
2
12
2
12
2
12
2
12
2
12
22
12
2
2
22
222
2)2log(
2
2exp
2
1loglog
ynyy
yyyy
yn
yfl
n
i
i
n
i
n
i
in
i
i
n
i
i
n
i
i
数理統計学第6回 8
対数尤度 (log likelihood)
2
2
2
yn
l
L は μ についての 2 次関数尤度fの最大化⇒ 対数尤度 L の最
大化 ⇒ d L/ d μ = 0 となる μ を探す .
数理統計学第6回 9
スコア統計量Raoの有効スコア統計量( efficiency score function )対数尤度をパラメータで微分した統計量
自家受精群: 17.708 ,他家受精群: 20.192
yU
yn
d
LdU
)(
log)(
2
数理統計学第6回 10
尤度の計算プログラムdata mle;set mle;do m=15 to 25 by 0.1;s=3;f=1/(2*3.141728*s**2)**.5*exp(-(y1-m)**2/s**2/2);l=log(f);output;end;proc sort;by m;proc summary data=mle ;var l;output out=out sum=;by m;
data out;set out;f=exp(l);proc gplot;plot (f l)*m/href=17.708;symbol1 i=spline;run;
数理統計学第6回 11
尤度関数 ( 自家受精群)
数理統計学第6回 12
対数尤度関数 ( 自家受精群)
2
2
2
yn
Cl
数理統計学第6回 13
スコア統計量の性質を導くために利用すること
E[U]=0 , V [U]=E[U2]= E[-U']=I =1/V[θ]1) 確率密度関数の和は1 ∫f ( y ,θ) dy =
12) 3) 微分と積分の交換可能性4) (f・g) ' = f ' ・g + f・g ' 5) (f / g) ' = ( f ' ・g - f・g ')/ g
2
6) V[X] = E[X2] - E[X]2
^
d
yfdyf
d
ydf
d
ydf
yfd
yfd ),(log),(
),(),(
),(
1),(log
数理統計学第6回 14
スコア統計量の性質f(y; θ ):確率変数 Y の確率密度関
数L ( θ ;y)= log f(y; θ ):対数
尤度関数
dyd
ydf
dyyfd
ydLUE
d
ydf
yf
d
yfd
d
ydLU
);(
);();(
][
:);(
);(
1
);(log);(
スコア関数
数理統計学第6回 15
スコア統計量の性質E[U]=0 , V [U]=E[U2]= E[-U’]=I
傾きの期待値は0
で微分両辺を
確率の和は1
0][
0);();(
:1);(
UE
dyd
ydf
d
dyyfd
dyyf
数理統計学第6回 16
Uボートで尤度の 山を一周したら
数理統計学第6回 17
スコア統計量の性質
dyd
ydf
d
ydLdyyf
d
yLd
d
dyyfd
ydLd
d
UdE
UE
);();(
);();(
0);(
);(][
0][
2
2
なので
数理統計学第6回 18
スコア統計量の性質
]'[);(');();(
2
2
UEdyyfUdyyfd
yLd
][);(
);();();();();(
22 UEdyyfU
dyyfd
ydL
d
ydLdy
d
ydf
d
ydL
E [U’] + E [U 2 ] = 0
V [U] = E[U2]‐ E[U] 2 = E[U2] = E[-U’] :情報量
数理統計学第6回 19
どちらの対数尤度の山の方が登りやすいだろうか?
情報量が小さい場合 情報量が
大きい場合
数理統計学第6回 20
2 項分布の場合
0)1(
][
)1(][
)1(1
))1log()(log(log
)1log()(logloglog
)1(
nyEnyEUE
nyynyd
ynyd
d
LdU
ynyCL
CL
yn
ynyyn
数理統計学第6回 21
2 項分布の場合
][
1
)1(
)1(
)1(
)1(
][
)1(
])[(
)1(][
][][
2222
22
22
2
2
V
n
nyV
nyEnyEUE
UEIUV
数理統計学第6回 22
2 項分布の場合
22
2
22
22
22
22
)1(
2
)1(
22
)1(
)21)(()1(
)1(
)'1()()1()'('
)1(
yyn
nynynn
nyn
nynyU
nyU
数理統計学第6回 23
2 項分布の場合
IUEUV
nnn
nnn
yynEUE
][][
)1(
)1(
)1(
)1(
2
)1(
2]'[
2
2222
2
22
22
22
2
数理統計学第6回 24
V[θ] 1≒ / I[θ]^ ^
中心極限定理と大数の法則が適用できる.
分散は1/ 情報量
II
I
I
UVV
I
UEE
I
U
IUUU
U
axafaxafafxf
1)]([][
0)]([
][,)(
)(
)())((')()(
)(
2
))(())(()()(
22
2
≒
≒≒
≒
して一次近似の周りでテーラー展開を
≒
数理統計学第6回 25
平均値の法則
大数の法則平均値はnを大きくすると,真の値に収束する .平均値→ E(X) = μ (n→∞)limP ( | 平均値- μ| ε≧ )= 0n→∞
中心極限定理nを大きくすると,平均値の分布は正規分布にな
る .
d
fd
d
fdU ii loglog
][
数理統計学第6回 26
まとめ スコア統計量と MLE の性質
も漸近的に正規分布も
≒
U
IVE
IU
IUEUEUV
UEd
fdU
/1][,][
)()(
]'[][][
0][,log
][
2
数理統計学第6回 27
MLE の性質1)nが大きくなれば, MLE は真値に近づく ( 一致性) ← 大数の法則
2)最尤推定量の分布は,漸近的に正規分布にしたがう ( 漸近正規性)
← 中心極限定理3)最尤推定量の分散は,漸近的に Fisherの情報量の逆数となり ,Cramer-Rao の下限を達成する(有効性)
数理統計学第6回 28
ダイオキシン ベトナム戦争時に使用された枯葉剤(2,4,5-T)に、不純物として含まれていた毒性物質として有名。ベトナムにおける流産や先天異常児の多発、ベトナム帰還米兵のガンの多発などは、この影響であると指摘されている。 ダイオキシンは廃棄物焼却や金属精錬の際に発生したり、農薬等各種の化学物質を製造する際に副生するなどの例が知られているが、中でも廃棄物焼却が最大の原因であると言われている。ところが、最近になって、これまで知られていた発ガン性を示すレベルの量よりも更に微量のダイオキシンが、子宮内膜症とそれに伴う不妊症の原因ではないかと疑われるようになり、社会的な関心が一層高まっている。
数理統計学第6回 29
ベトナム戦争で散布された枯葉剤により枯れたマングローブの林
数理統計学第6回 30
4塩化物以上に毒性が強い 2,3,7,8 -TCDDの毒性が最も強い水に難溶性。脂肪に溶けやすい極めて安定 700℃でも分解しない副産物として生成される 除草剤、殺菌剤の製造過程、焼却、 漂白、自動車の排ガス等
ダイオキシン類の特徴
数理統計学第6回 31
2,3,7,8-Tetrachlorodibenzo-p-dioxin (2,3,7,8-TCDD) の構造塩素のつく数と位置による同族体と異性体が多数あり、このうち毒性発現から7種、またポリ塩化ジベンゾフラン 10種、 PCB12 種に対して毒性等価係数が付与されている)
数理統計学第6回 32
測定単位• mg ( =千分の1 )ミリグラム グラム
μg ( =百万分の1 )マイクロリグラム グラムng ( =十億分の1ナノグラム グラム )pg ( =一兆分の1 )ピコグラム グラム
• 1g 中に 1 μg → ppm 1g 中に 1 ng → ppb 1g 中に 1 pg → ppt
(100m×100m×100m の水槽に1g)
数理統計学第6回 33
毒性 症 状 実験動物 NOAEL*
発ガン性
肝細胞への影響肝臓ガン発生
ラットラット
1 ng/1kg 体重 /1日
10ng/1kg 体重 /1日
免疫毒性
感染防御機能低下 マウス 5 ng /1kg 体重 /
1 日
催奇形性
口蓋裂、腎盂拡張 マウス 100ng /1kg 体
重 /1日
その他の慢性毒性
体重増加抑制等 ラット 1 ng/1kg 体重 /1日
ダイオキシンの毒性
数理統計学第6回 34
Fig1 Yearly Trend of Ratios in J apan
104.0
104.5
105.0
105.5
106.0
106.5
107.0
107.5
108.0
1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995
Year
Sex R
ati
o
Sex Ratio
Moving Average
性比の経年変化 男 /女
数理統計学第6回 35
問題の背景1) ダイオキシンの人間に対する毒性用量は
判明している .
2 )ダイオキシン濃度がある濃度を越えた個体の割合を推定したい .
3)1998 年については個別データがあるが,後の年については,平均値しかわからない
4 )ダイオキシン濃度の分布は対数正規分布 にしたがうことが経験的に判明している.
数理統計学第6回 36
セベソ事件セベソ事件とは,北イタリア,ミラノの北約
20 Km のところにある農薬工場が, 2,4,5-トリクロロフェノール製造中に爆発事故を起こし,セベソを中心とする周辺地域をダイオキシンを含む大量の化学物質が汚染した.
・ 1976 年 7 月 10 日爆発事故発生・最終的に,20万人以上の住民が被害を受け
る .
・性比を 1%減らす濃度 (129 pg/g ) 5%(146) 10%(160)
数理統計学第6回 37
モーメント法による対数正規分布の母数推定
N=467 (単位: pg/g fat)平均値: 25.5SD : 14.5 変動係数: 14.5/25.5 = 56.9 %対数正規分布のパラメータμ,σ
数理統計学第6回 38
対数正規分布対数変換すると正規分布にしたがう .
x= log( y ) ⇒ dx= 1/ ydyf ( y ) =dF ( y ) / dy=dF ( y ) / dx × dx /
dy
μ,σを推定したい
2
2
2 2exp
2
1)(
y
yf
2
2
2 2
logexp
2
1)(
y
yyf
数理統計学第6回 39
対数正規分布
E[y]= exp(σ 2/2+ μ)V[y]= E[y]2 ( exp(σ 2)- 1)SD = E[y] ( exp(σ 2)- 1)0.5
CV= SD/E[y]= ( exp(σ 2)-1)0.5
変動係数は μに関係なく一定
数理統計学第6回 40
モーメント法による推定
E[y]= exp(σ 2 /2 + μ) =標本平均V[y]= E[y]2 ( exp(σ 2 ) - 1) =標本分散
になるように, σ と μ を推定標本平均: 25.5 標本 SD : 14.5 exp(σ 2 ) - 1 = 14.5 2 /25.5 2⇒ σ=0.5293exp(σ 2 /2 + μ) = 25.5 ⇒ μ = 3.0986
数理統計学第6回 41
推定された対数正規分布の確率密度関数
数理統計学第6回 42
対数正規乱数の発生data data;cv=0.5686;mean=25.5;s=(log(1+cv**2))**.5;m=log(mean)-s**2/2;do i=1 to 10000; x=exp(m+s*rannor(4989));y=log(x);output;end;proc means;var x y;proc gchart;vbar x/space=0;
数理統計学第6回 43
正規乱数のヒストグラム
数理統計学第6回 44
対数正規分布の%点log( y ) が正規分布するのを利用してα %点:e xp(μ+ Z ασ)
Z α:正規分布の α%点
Z 50: 0
Z 25: -0.6745 Z 75: 0.6745
数理統計学第6回 45
%点の比較 実測値 対数正規分布25%点 15.2 15.550%点 21.7 22.275%点 31.3 31.7%点からは対数正規分布がよくあてはまっ
ていると考えられる .変動係数が一定になるように各年度のSD
を推定
数理統計学第6回 46
カットオフ値を越える確率(単位: pg/g ) year 平均 σ μ 推定 SD BMD1% BMD5% BMD10% ( 129) ( 146) ( 160) 1973 57.1 0.5293 3.90472 32.4687 0.035582 0.020759 0.013507 1974 66.2 0.5293 4.05260 37.6433 0.063623 0.039294 0.026684 1975 58.2 0.5293 3.92381 33.0942 0.038498 0.022628 0.014805 1976 48.9 0.5293 3.74970 27.8060 0.017982 0.009871 0.006136 1977 48.7 0.5293 3.74560 27.6923 0.017643 0.009669 0.006003 1978 51.9 0.5293 3.80924 29.5119 0.023581 0.013253 0.008385 1979 46.6 0.5293 3.70152 26.4981 0.014322 0.007713 0.004726 1980 40.0 0.5293 3.54880 22.7452 0.006627 0.003356 0.001965 1981 38.1 0.5293 3.50014 21.6648 0.005102 0.002534 0.001462 1982 38.6 0.5293 3.51317 21.9491 0.005477 0.002734 0.001583 1983 40.6 0.5293 3.56369 23.0864 0.007168 0.003652 0.002148
数理統計学第6回 47
カットオフ値を越える確率 (単位: pg/g ) year 平均 σ μ 推定 SD BMD1% BMD5% BMD10% ( 129) ( 146) ( 160) 1984 37.3 0.5293 3.47891 21.2099 0.004541 0.002236 0.001282 1985 32.4 0.5293 3.33808 18.4236 0.002020 0.000939 0.000516 1986 30.5 0.5293 3.27765 17.3432 0.001399 0.000634 0.000342 1988 34.4 0.5293 3.39798 19.5609 0.002874 0.001369 0.000766 1989 33.0 0.5293 3.35643 18.7648 0.002253 0.001055 0.000583 1990 31.9 0.5293 3.32253 18.1393 0.001840 0.000850 0.000464 1991 29.2 0.5293 3.23409 16.6040 0.001065 0.000474 0.000252 1992 26.2 0.5293 3.12568 14.8981 0.000526 0.000224 0.000115 1993 26.5 0.5293 3.13707 15.0687 0.000567 0.000243 0.000125 1994 27.1 0.5293 3.15945 15.4099 0.000658 0.000284 0.000148 1995 23.5 0.5293 3.01692 13.3628 0.000249 0.000101 0.000050 1996 24.1 0.5293 3.04213 13.7040 0.000297 0.000122 0.000061
数理統計学第6回 48
問題ある大学で, 100 人の学生の血液型について,調べた結果, A型 41 人, B型 22 人, O型 27人, AB型 10 人となった.血液型の人数の分布は次のように確率 L が示される多項分布に
したがうと考えられる.
XA, ・・・ ,XAB :各血液型の人数である.XA+XB+XO+XAB = N
XABAB
XOO
XBB
XAAXABXOXBXA
XABXOXBXAL
!!!!
)!(
数理統計学第6回 49
問題L を母数 , πA , πB , πO , πAB の関数を考えて
L が最大になるようにパラメータを推定したい.ただし πA+πB +πO + πAB=1
という制約が存在する.1) 対数尤度を示すこと.2) 対数尤度を πA で微分すること.
3) πA , πB , πO , πAB の最尤推定値を計算すること
数理統計学第6回 50
Lagrange の未定乗数法
• p 次元ベクトル x について,等式制約:g(x) = 0 の下で,ある目的関数: f(x) の最大(小)値を求める問題の一つの解法に,ラグランジュの未定乗数法がある.
0;,...2,1,0
)()(
d
dQpi
dx
dQ
xgxfQ
i
とおき,連立方程式
を解くと,この連立方程式の解の中に求める解がある.