数理統計学 ( 第六回) 最尤推定とは?

50
数数数数数数 1 数数数数数 ( 数数数数数数数数数数数数数数

Upload: lel

Post on 06-Jan-2016

135 views

Category:

Documents


1 download

DESCRIPTION

数理統計学 ( 第六回) 最尤推定とは?. 浜田知久馬. ダーウィンの例 母数推定の前提. 自家受精群と他家受精群 に別々の正規分布をあてはめ n個(n=15)の確率変数Y i が互いに独立に同一の正規分布にしたがう Y 1 , Y 2 , Y 3 , ・・・,Y n ~N (μ,σ 2 ) i.i.d. ( independent identically distributed ). 正規分布の確率密度関数. σ 2 は既知 n個Y 1 ,・・・,Y n のn個のデータの得られる確率f - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 1

数理統計学 ( 第六回)最尤推定とは?

浜田知久馬

Page 2: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 2

Page 3: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 3

Page 4: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 4

Page 5: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 5

ダーウィンの例 母数推定の前提

自家受精群と他家受精群 に別々の正規分布をあてはめ

n個(n=15)の確率変数Yiが互いに独立に同一の正規分布にしたがう

Y1 , Y2 , Y3 , ・・・,Yn ~N (μ,σ 2 )

i.i.d. ( independent identically distributed )

Page 6: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 6

正規分布の確率密度関数

σ 2は既知n個Y1 ,・・・,Yn のn個のデータの得られる確率f

f =f (y 1 ) ・f (y2) ・・・f (y n ) = Π f (yi)

2

2

2 2exp

2

1)(

y

yf

n

i

i

n

n

i

i

y

yf

12

2

2

12

2

2

2exp

2

1

2exp

2

1

Page 7: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 7

対数尤度 (log likelihood)

2

2

12

2

12

2

12

2

12

2

12

22

12

2

2

22

222

2)2log(

2

2exp

2

1loglog

ynyy

yyyy

yn

yfl

n

i

i

n

i

n

i

in

i

i

n

i

i

n

i

i

Page 8: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 8

対数尤度 (log likelihood)

2

2

2

yn

l

L は μ についての 2 次関数尤度fの最大化⇒ 対数尤度 L の最

大化 ⇒ d L/ d μ = 0 となる μ を探す .

Page 9: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 9

スコア統計量Raoの有効スコア統計量( efficiency score function )対数尤度をパラメータで微分した統計量

自家受精群: 17.708 ,他家受精群: 20.192

yU

yn

d

LdU

)(

log)(

2

Page 10: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 10

尤度の計算プログラムdata mle;set mle;do m=15 to 25 by 0.1;s=3;f=1/(2*3.141728*s**2)**.5*exp(-(y1-m)**2/s**2/2);l=log(f);output;end;proc sort;by m;proc summary data=mle ;var l;output out=out sum=;by m;

data out;set out;f=exp(l);proc gplot;plot (f l)*m/href=17.708;symbol1 i=spline;run;

Page 11: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 11

尤度関数 ( 自家受精群)

Page 12: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 12

対数尤度関数 ( 自家受精群)

2

2

2

yn

Cl

Page 13: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 13

スコア統計量の性質を導くために利用すること

E[U]=0 , V [U]=E[U2]= E[-U']=I =1/V[θ]1) 確率密度関数の和は1 ∫f ( y ,θ) dy =

12)   3) 微分と積分の交換可能性4) (f・g) ' = f ' ・g + f・g ' 5) (f / g) ' = ( f ' ・g - f・g ')/ g

2

6)  V[X] = E[X2] - E[X]2  

d

yfdyf

d

ydf

d

ydf

yfd

yfd ),(log),(

),(),(

),(

1),(log

Page 14: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 14

スコア統計量の性質f(y; θ ):確率変数 Y の確率密度関

数L ( θ ;y)= log f(y; θ ):対数

尤度関数

dyd

ydf

dyyfd

ydLUE

d

ydf

yf

d

yfd

d

ydLU

);(

);();(

][

:);(

);(

1

);(log);(

スコア関数

Page 15: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 15

スコア統計量の性質E[U]=0 , V [U]=E[U2]= E[-U’]=I

    傾きの期待値は0

で微分両辺を

確率の和は1

0][

0);();(

:1);(

UE

dyd

ydf

d

dyyfd

dyyf

Page 16: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 16

Uボートで尤度の      山を一周したら

Page 17: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 17

スコア統計量の性質

dyd

ydf

d

ydLdyyf

d

yLd

d

dyyfd

ydLd

d

UdE

UE

);();(

);();(

0);(

);(][

0][

2

2

なので

Page 18: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 18

スコア統計量の性質

]'[);(');();(

2

2

UEdyyfUdyyfd

yLd

][);(

);();();();();(

22 UEdyyfU

dyyfd

ydL

d

ydLdy

d

ydf

d

ydL

E [U’] + E [U 2 ] = 0

V [U] = E[U2]‐ E[U] 2 = E[U2] = E[-U’] :情報量

Page 19: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 19

どちらの対数尤度の山の方が登りやすいだろうか?

情報量が小さい場合 情報量が

大きい場合

Page 20: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 20

2 項分布の場合

0)1(

][

)1(][

)1(1

))1log()(log(log

)1log()(logloglog

)1(

nyEnyEUE

nyynyd

ynyd

d

LdU

ynyCL

CL

yn

ynyyn

Page 21: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 21

2 項分布の場合

][

1

)1(

)1(

)1(

)1(

][

)1(

])[(

)1(][

][][

2222

22

22

2

2

V

n

nyV

nyEnyEUE

UEIUV

Page 22: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 22

2 項分布の場合

22

2

22

22

22

22

)1(

2

)1(

22

)1(

)21)(()1(

)1(

)'1()()1()'('

)1(

yyn

nynynn

nyn

nynyU

nyU

Page 23: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 23

2 項分布の場合

IUEUV

nnn

nnn

yynEUE

][][

)1(

)1(

)1(

)1(

2

)1(

2]'[

2

2222

2

22

22

22

2

Page 24: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 24

V[θ] 1≒ / I[θ]^ ^

中心極限定理と大数の法則が適用できる.

分散は1/ 情報量

II

I

I

UVV

I

UEE

I

U

IUUU

U

axafaxafafxf

1)]([][

0)]([

][,)(

)(

)())((')()(

)(

2

))(())(()()(

22

2

≒≒

して一次近似の周りでテーラー展開を

Page 25: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 25

平均値の法則  

大数の法則平均値はnを大きくすると,真の値に収束する .平均値→ E(X) = μ  (n→∞)limP ( | 平均値- μ| ε≧ )= 0n→∞

中心極限定理nを大きくすると,平均値の分布は正規分布にな

る .

d

fd

d

fdU ii loglog

][

Page 26: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 26

まとめ スコア統計量と MLE の性質

も漸近的に正規分布も

U

IVE

IU

IUEUEUV

UEd

fdU

/1][,][

)()(

]'[][][

0][,log

][

2

Page 27: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 27

MLE の性質1)nが大きくなれば, MLE は真値に近づく ( 一致性) ← 大数の法則

2)最尤推定量の分布は,漸近的に正規分布にしたがう ( 漸近正規性)

        ← 中心極限定理3)最尤推定量の分散は,漸近的に Fisherの情報量の逆数となり ,Cramer-Rao の下限を達成する(有効性)

Page 28: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 28

ダイオキシン   ベトナム戦争時に使用された枯葉剤(2,4,5-T)に、不純物として含まれていた毒性物質として有名。ベトナムにおける流産や先天異常児の多発、ベトナム帰還米兵のガンの多発などは、この影響であると指摘されている。 ダイオキシンは廃棄物焼却や金属精錬の際に発生したり、農薬等各種の化学物質を製造する際に副生するなどの例が知られているが、中でも廃棄物焼却が最大の原因であると言われている。ところが、最近になって、これまで知られていた発ガン性を示すレベルの量よりも更に微量のダイオキシンが、子宮内膜症とそれに伴う不妊症の原因ではないかと疑われるようになり、社会的な関心が一層高まっている。

Page 29: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 29

ベトナム戦争で散布された枯葉剤により枯れたマングローブの林

Page 30: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 30

4塩化物以上に毒性が強い    2,3,7,8 -TCDDの毒性が最も強い水に難溶性。脂肪に溶けやすい極めて安定 700℃でも分解しない副産物として生成される   除草剤、殺菌剤の製造過程、焼却、   漂白、自動車の排ガス等

ダイオキシン類の特徴

Page 31: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 31

2,3,7,8-Tetrachlorodibenzo-p-dioxin (2,3,7,8-TCDD) の構造塩素のつく数と位置による同族体と異性体が多数あり、このうち毒性発現から7種、またポリ塩化ジベンゾフラン 10種、 PCB12 種に対して毒性等価係数が付与されている)

Page 32: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 32

測定単位• mg (  =千分の1 )ミリグラム グラム

μg ( =百万分の1 )マイクロリグラム グラムng ( =十億分の1ナノグラム グラム )pg ( =一兆分の1 )ピコグラム グラム

•   1g 中に 1 μg →  ppm  1g 中に 1 ng →  ppb  1g 中に 1 pg →  ppt

   (100m×100m×100m の水槽に1g)

Page 33: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 33

毒性 症   状 実験動物 NOAEL*

発ガン性

肝細胞への影響肝臓ガン発生

ラットラット

1 ng/1kg 体重 /1日

10ng/1kg 体重 /1日

免疫毒性

感染防御機能低下 マウス 5 ng /1kg 体重 /

1 日

催奇形性

口蓋裂、腎盂拡張 マウス 100ng /1kg 体

重 /1日

その他の慢性毒性

体重増加抑制等 ラット 1 ng/1kg 体重 /1日

ダイオキシンの毒性

Page 34: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 34

Fig1 Yearly Trend of Ratios in J apan

104.0

104.5

105.0

105.5

106.0

106.5

107.0

107.5

108.0

1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995

Year

Sex R

ati

o

Sex Ratio

Moving Average

性比の経年変化 男 /女

Page 35: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 35

問題の背景1) ダイオキシンの人間に対する毒性用量は

判明している .

2 )ダイオキシン濃度がある濃度を越えた個体の割合を推定したい .

3)1998 年については個別データがあるが,後の年については,平均値しかわからない

4 )ダイオキシン濃度の分布は対数正規分布 にしたがうことが経験的に判明している.

Page 36: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 36

セベソ事件セベソ事件とは,北イタリア,ミラノの北約

20 Km のところにある農薬工場が, 2,4,5-トリクロロフェノール製造中に爆発事故を起こし,セベソを中心とする周辺地域をダイオキシンを含む大量の化学物質が汚染した.

・ 1976 年 7 月 10 日爆発事故発生・最終的に,20万人以上の住民が被害を受け

る .

・性比を 1%減らす濃度 (129 pg/g ) 5%(146) 10%(160)

Page 37: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 37

モーメント法による対数正規分布の母数推定

N=467  (単位: pg/g   fat)平均値: 25.5SD : 14.5  変動係数: 14.5/25.5 = 56.9 %対数正規分布のパラメータμ,σ

Page 38: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 38

対数正規分布対数変換すると正規分布にしたがう .

 x= log( y )  ⇒ dx= 1/ ydyf ( y ) =dF ( y ) / dy=dF ( y ) / dx  × dx /

dy 

μ,σを推定したい

2

2

2 2exp

2

1)(

y

yf

2

2

2 2

logexp

2

1)(

y

yyf

Page 39: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 39

対数正規分布

E[y]= exp(σ 2/2+ μ)V[y]= E[y]2 ( exp(σ 2)- 1)SD = E[y] ( exp(σ 2)- 1)0.5   

CV= SD/E[y]= ( exp(σ 2)-1)0.5

  変動係数は μに関係なく一定

Page 40: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 40

モーメント法による推定

E[y]= exp(σ 2 /2 + μ) =標本平均V[y]= E[y]2 ( exp(σ 2 ) - 1) =標本分散

になるように, σ と μ を推定標本平均: 25.5  標本 SD : 14.5   exp(σ 2 ) - 1 = 14.5 2 /25.5 2⇒ σ=0.5293exp(σ 2 /2 + μ) = 25.5  ⇒ μ = 3.0986

Page 41: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 41

推定された対数正規分布の確率密度関数

Page 42: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 42

対数正規乱数の発生data data;cv=0.5686;mean=25.5;s=(log(1+cv**2))**.5;m=log(mean)-s**2/2;do i=1 to 10000; x=exp(m+s*rannor(4989));y=log(x);output;end;proc means;var x y;proc gchart;vbar x/space=0;

Page 43: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 43

正規乱数のヒストグラム

Page 44: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 44

対数正規分布の%点log( y ) が正規分布するのを利用してα %点:e xp(μ+ Z ασ)

Z α:正規分布の α%点

   Z 50: 0

   Z 25: -0.6745  Z 75: 0.6745

Page 45: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 45

%点の比較      実測値   対数正規分布25%点   15.2 15.550%点   21.7 22.275%点   31.3 31.7%点からは対数正規分布がよくあてはまっ

ていると考えられる .変動係数が一定になるように各年度のSD

を推定

Page 46: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 46

カットオフ値を越える確率(単位: pg/g )    year  平均 σ μ 推定 SD BMD1%   BMD5%   BMD10%                   ( 129) ( 146) ( 160)  1973 57.1 0.5293 3.90472 32.4687 0.035582 0.020759 0.013507 1974 66.2 0.5293 4.05260 37.6433 0.063623 0.039294 0.026684 1975 58.2 0.5293 3.92381 33.0942 0.038498 0.022628 0.014805 1976 48.9 0.5293 3.74970 27.8060 0.017982 0.009871 0.006136 1977 48.7 0.5293 3.74560 27.6923 0.017643 0.009669 0.006003 1978 51.9 0.5293 3.80924 29.5119 0.023581 0.013253 0.008385 1979 46.6 0.5293 3.70152 26.4981 0.014322 0.007713 0.004726 1980 40.0 0.5293 3.54880 22.7452 0.006627 0.003356 0.001965 1981 38.1 0.5293 3.50014 21.6648 0.005102 0.002534 0.001462 1982 38.6 0.5293 3.51317 21.9491 0.005477 0.002734 0.001583 1983 40.6 0.5293 3.56369 23.0864 0.007168 0.003652 0.002148

Page 47: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 47

カットオフ値を越える確率  (単位: pg/g )  year  平均 σ μ 推定 SD BMD1%   BMD5%   BMD10%                   ( 129) ( 146) ( 160)  1984 37.3 0.5293 3.47891 21.2099 0.004541 0.002236 0.001282 1985 32.4 0.5293 3.33808 18.4236 0.002020 0.000939 0.000516 1986 30.5 0.5293 3.27765 17.3432 0.001399 0.000634 0.000342 1988 34.4 0.5293 3.39798 19.5609 0.002874 0.001369 0.000766 1989 33.0 0.5293 3.35643 18.7648 0.002253 0.001055 0.000583 1990 31.9 0.5293 3.32253 18.1393 0.001840 0.000850 0.000464 1991 29.2 0.5293 3.23409 16.6040 0.001065 0.000474 0.000252 1992 26.2 0.5293 3.12568 14.8981 0.000526 0.000224 0.000115 1993 26.5 0.5293 3.13707 15.0687 0.000567 0.000243 0.000125 1994 27.1 0.5293 3.15945 15.4099 0.000658 0.000284 0.000148 1995 23.5 0.5293 3.01692 13.3628 0.000249 0.000101 0.000050 1996 24.1 0.5293 3.04213 13.7040 0.000297 0.000122 0.000061

Page 48: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 48

問題ある大学で, 100 人の学生の血液型について,調べた結果, A型 41 人, B型 22 人, O型 27人, AB型 10 人となった.血液型の人数の分布は次のように確率 L が示される多項分布に

 したがうと考えられる.

XA, ・・・ ,XAB :各血液型の人数である.XA+XB+XO+XAB = N

XABAB

XOO

XBB

XAAXABXOXBXA

XABXOXBXAL

!!!!

)!(

Page 49: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 49

問題L を母数 , πA , πB , πO , πAB の関数を考えて

L が最大になるようにパラメータを推定したい.ただし πA+πB +πO + πAB=1

という制約が存在する.1) 対数尤度を示すこと.2) 対数尤度を πA で微分すること.

3) πA , πB , πO , πAB の最尤推定値を計算すること

Page 50: 数理統計学 ( 第六回) 最尤推定とは?

数理統計学第6回 50

Lagrange の未定乗数法

• p 次元ベクトル x について,等式制約:g(x) = 0 の下で,ある目的関数: f(x) の最大(小)値を求める問題の一つの解法に,ラグランジュの未定乗数法がある.

0;,...2,1,0

)()(

d

dQpi

dx

dQ

xgxfQ

i

とおき,連立方程式

を解くと,この連立方程式の解の中に求める解がある.