赤池情報量規準 - matsuishi laboratory, hokkaido...

53
1 赤池情報量規準 Akaike’s Information Criterion AIC 北海道大学大学院水産科学研究院 松石

Upload: doanngoc

Post on 29-Jun-2019

219 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

1

赤池情報量規準 Akaike’s Information Criterion

AIC

北海道大学大学院水産科学研究院

松石 隆

Page 2: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

2

理論曲線のあてはめ Curve Fitting

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 3: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

3

手順 curve fitting procedure

1. モデルを決める / decide a model 2.初期値を決める / set initial parameters

2cxbxay ++=

23.02.06 xxy ++=

Page 4: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

4

手順 curve fitting procedure

3 残差平方和の計算 sum of square residuals

ここここここここここここここここここ

( )2

1

2

3.02.06ˆ

ˆ

iii

n

iii

xxy

yySS

++=

−=∑=

Residual

Page 5: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

5

手順 Curve fitting procedure

4 残差平方和が最少になるパラメータを探す Find the parameters that minimize the SS 微分 differential equations

非線形最適化法 NL optimization method

SOLVER addin (MS EXCEL) etc

0,0,0 =∂∂

=∂∂

=∂∂

cSS

bSS

aSS

Page 6: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

6

225.043.07.10ˆ xxy +−=

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 7: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

7

最尤推定量 Maximum Likelihood Estimator

Page 8: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

8

( )の確率密度分布21,0N

このデータ■はN(0,12)に従う母集団から取られた標本のデータだという。尤もらしいか?

Page 9: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

9

( )の確率密度分布25.0,2N

このデータ■はN(2,0.52)に従う母集団から取られた標本のデータだという。尤もらしいか?

Page 10: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

10

何が尤もらしいのか

←山が低いところにデータが沢山ある

←山が高いところにデータが沢山ある

Page 11: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

11

x

f(x)

( )

−−= 2

2

2exp

21)(

σµ

σπxxf

確率密度分布関数の値が,そのデータが出てくる確率(尤もらしさ)を表している

Page 12: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

12

データxが生じる確率はf(x)に比例する。 これを尤度と呼ぶ。 データx1,x2 が同時に生じる確率はf(x1)f(x2)と積に比例するので,その時の尤度をf(x1)f(x2)とする。

尤もらしさはf(x)を決定するパラメータ(ここではμとσ2)によって変化する

Page 13: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

13

尤度

もっともらしさ 「パラメータθをもつ確率密度関数に従う確率分布からデータxが出た」もっともらしさはf(x;θ)で表す

「パラメータθをもつ確率密度関数に従う確率分布からデータxi,i=1,nが出た」もっともらしさはf(x1,..xn;θ)で表す

Page 14: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

14

これを尤度という

xiが互いに独立の場合

( ) ( )( ) ( ) ( )

( )θ

θθθ

θθ

;

;;;;...,,...,;

1

21

,11

i

n

i

n

nn

xf

xfxfxfxxfxxl

=Π=

⋅⋅=

=

( ) ( )θθ ;,...,; 1,...,1 nn xxfxxl =

Page 15: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

15

最尤推定量

最も尤度が高くなる時のパラメータを以て,推定値とする方法

と表記する 尤度が最大になるとき対数尤度

も最大になることから,対数尤度を用いて,最尤推定量を計算するともある。

( )nXX ,...,ˆ 1θ

( )nxxl ,...,;log 1θ

Page 16: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

16

例:正規分布 Example Normal Distribution

ここここここここここここここここここ

( ) ( )

( ) ( ) ( )

( ) ( ) ( )∑ ∑= =

−−−==

−−−=

−=

n

i

n

iii xnxfLL

xxf

xxf

1 1

22

22

22

22

2

2

2

2

212ln

2,|ln

212ln

21,|ln

2exp

21,|

µσ

πσσµ

µσ

πσσµ

σµ

πσσµ

データ数とパラメー タが与えられると 決まる値

μからの 残差平方和

Page 17: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

17

ではどうやってモデルを決めるのか? How do you decide the model?

Page 18: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

18

候補となるモデル candidate polinomials

∑=

=

++++=

+++=

++=

+==

m

i

ii xcy

xcxcxcxccyxcxcxccy

xcxccyxccy

cy

0

44

33

2210

33

2210

2210

10

0

ˆ

ˆ

ˆ

ˆ

ˆˆ

Page 19: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

19

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

0ˆ cy =

Page 20: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

20

xccy 10ˆ +=

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 21: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

21

2210ˆ xcxccy ++=

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 22: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

22

33

2210ˆ xcxcxccy +++=

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 23: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

23

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

44

33

2210ˆ xcxcxcxccy ++++=

Page 24: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

24

∑=

=10

0

ˆi

ii xcy

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 25: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

25

残差平方和 SS

0

100

200

300

400

500

600

0 1 2 3 4 10

次数/degree

Page 26: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

26

当てはまりと次数 Fitting and degree of polynomials

次数が高いほど残差平方和は小さい The higher the degree is, the smaller the SS is

次数がデータ数と等しくなると完璧にデータに当てはめる事が可能 Theoretically, when the degree is equal to the number of data, the curve is perfectly fit the data.

( )∑=

−=n

iii yySS

1

( )xxxcy i

n

i

n

i

ii −∏==

==∑

11

ˆ

Page 27: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

27

次数は多ければ多いほど良いのか Really the more the better?

Page 28: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

28

別の乱数を振る Make other data from the same liner equation

0

5

10

15

20

25

30

0 2 4 6 8 10

Page 29: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

29

先ほど推定したモデルは 新しいデータを予測できているか? Does the estimated models predict the new data?

Page 30: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

30

0ˆ cy =

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 31: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

31

xccy 10ˆ +=

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 32: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

32

2210ˆ xcxccy ++=

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 33: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

33

33

2210ˆ xcxcxccy +++=

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 34: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

34

44

33

2210ˆ xcxcxcxccy ++++=

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 35: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

35

∑=

=10

0

ˆi

ii xcy

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

0

5

10

15

20

25

30

35

40

0 2 4 6 8 10

Page 36: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

36

残差平方和 SS

0

100

200

300

400

500

600

0 1 2 3 4 10

次数

0

100

200

300

400

500

600

700

0 1 2 3 4 10

次数

Page 37: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

37

正しい次数のモデルは 未知のデータにも当てはまりが良い The model with true degree fit to unknown data.

Page 38: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

38

手持ちのデータから正しいモデルを選択する方法 How to select the best model only from the observed data

Page 39: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

39

モデル選択の指標 Criterion for model selection

次数が高すぎるモデル high degree →当てはまりが良くなる good fit →未知のデータに当てはまらない bad forecast

次数が低すぎるモデル low degree →当てはまりが悪くなる bad fit →未知のデータに当てはまる good forecast

当てはまりの指標とモデルの単純さの指標の 組み合わせ Combination of fitting and model simplicity index

Page 40: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

40

AIC 赤池情報量規準 Akaike’s Information Criterion

( ) ( ) kMMLLMAIC ×+×−= 22

M: モデル model

MLL: 最大対数尤度 maximum log likelihood

k: パラメータ数 number of parameters

Page 41: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

41

正規分布の場合 Example of Normal Distribution

( ) ( ) kMMLLMAIC ×+×−= 22

( ) ( )∑=

−−−=n

iixnMLL

1

2**2

*2

212ln

σπσ

( ) ( )22ln2ln ++++= mnn

SSnnAIC π

Page 42: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

42

利用例

アワビの成長曲線について

Growth Curve of Abalone 松石 隆・斉藤和敬・菅野泰次

北大水産彙報 46: 53-62, 1995

Page 43: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

43

アワビの年齢成長データを 成長曲線に当てはめた

Page 44: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

44

Page 45: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

45

結果

Page 46: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

46

数値例

Page 47: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

47

n=10,200

0

5

10

15

20

25

30

0 2 4 6 8 10

Yo

Y0

Y1

Y2

Y3

Y4

0

5

10

15

20

25

30

0 2 4 6 8 10

Yo

Y0

Y1

Y2

Y3

Y4

Page 48: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

48

様々なデータ数におけるAIC

Degree 0 1 2 3 4

n=10 63.5 43.9 43.5 44.3 45.4

20 131.9 106.2 100.4 101.0 103.0

50 331.1 264.3 262.7 264.3 266.0

100 661.9 513.6 514.0 515.9 517.7

200 1,314.0 1,040.8 1,042.3 1,044.2 1,046.1

Page 49: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

49

様々な情報量規準 AIC

c-AIC (有限項補正)

BIC(ベイズ統計)

pLLAIC 22 +−=

232 pLLAICc +−=−

( )npLLBIC ln2 +−=

Page 50: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

50

選択された次数 TRUE AIC c-AIC BIC

n=10 1 2 2 2

20 1 2 2 2

50 1 2 2 1

100 1 1 2 1

200 1 1 1 1

Page 51: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

51

まとめ

パラメータ数の多いモデルほど、当てはまりが良い

当てはまりが良いモデルが良い予測をする訳ではない。

よい予測をするモデルを選択するためにAICが有用

AICは相対的な大小のみが意味がある データ数がある程度大きい必要がある

Page 52: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

52

Conclusion

Higher degree model fit to data well. Good fit model does not always forecast well. AIC is a good tool to choose a better

forecasting model. Only the relative scale of AIC has mean. AIC does not work for small sample.

Page 53: 赤池情報量規準 - Matsuishi Laboratory, Hokkaido …matuisi.main.jp/wp-content/uploads/2013/05/AIC.pdf8 N(0,12)の確率密度分布 このデータ はN(0,12)に従う母集団から取られ

53

参考図書

赤池弘次/室田一雄著『赤池情報量規準AIC

モデリング・予測・知識発見』 共立出版(2007)[詳細]

鈴木義一郎『情報量規準による統計解析入門』 講談社(1995)[詳細]

坂元慶行ほか『情報量統計学』 共立出版(1983)[詳細]