統計的データ解析 2010 -...

15
統計的データ解析 2010 2010.2.08 林田 清 (大阪大学大学院理学研究科)

Upload: others

Post on 11-Mar-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

統計的データ解析 2010

2010.12.08

林田 清

(大阪大学大学院理学研究科)

Page 2: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

データのモデル化、あてはめ(Fit)、回帰

ばらつきのある測定値に適当なモデル(直線や曲線)であてはめること

モデル

直線の場合。。。線形回帰

多項式の場合

一般の関数の場合

データの誤差

各点共通の場合

各点で重みが異なる場合

モデル点のまわりのばらつき

正規分布の場合

それ以外の場合

0

5

10

15

0 2 4 6 8 10

X

-1

0

1

2

3

4

5

0 2 4 6 8 10

X

Page 3: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

最小二乗フィット(例:直線モデル) 1

0 0

0 0 0

0

( )

,

,

( )

( )

i i

i i i

x y x y

y x ax b

a b

a b

y x a x b

y y x

測定値の組( , )があり、独立変数と従属変数 の間の関係を

 

で近似するとき 、 に関する最も確からしい推定値は

どうやって決められるか?

母集団における係数を とし、”真”の関係式を

さらに測定値 は平均値 、標準偏差 の

正規分布に従うと仮定する。

0

5

10

15

0 2 4 6 8 10

X

正規分布に従う母集団から標本を1個採ってくるのが測定

Page 4: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

最小二乗フィット(例:直線モデル) 2

2

0

2

00 0

11 1

( )1 1exp

22

( )1 1( , ) exp

22

,

( ,

i i

i ii

ii

i

n n ni i

i

ii i ii

i

y P

y y xP

n y

y y xP a b P

a b y

P a b

を観測する確率(密度) は

個の観測値 の組を得る確率(密度)は

同様に任意の係数推定値 に従うときに観測値 の組を得る確率(密度)は

2

11

0 0

0 0

( )1 1) exp

22

( , )

( , ) ( , ) ( , )

n ni i

ii ii

y y x

P a b

P a b a b a b

観測は母集団 から採取する操作。 

の最大値を与えるような が の最尤推定値。

最尤法の考え方

Page 5: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

最小二乗フィット(例:直線モデル) 3

2 2

2

2 2 2 2

2

2 2 2

2 2

2

2

2 2

2

1 1

2

2

0, 0

,

1 1

1

1

( )

( , )

i i i i

i i i i

n ni i i

i i i i i

i i i i

i i

i i i

i

i ii i

a b

x y x ya

x y x x

y y

y

x y ax b

P a b

b

x x

a b

から を最小

を最大にする

にす

= を最小にす

とし

ただ

る て

2

二乗の和を最小にするので最小二乗フィットと呼ぶ。

2フィットともいう。

2

2

2

1

2

2

1, )

,

, ) ( )

1

,

1

n

i i

i i i

i

i i

i i

i

i i i i i

i i

y ax b a b

x y

x

a n x y x y

b x y x x y

n x

b

x

ax a b

2

各点の誤差が同一のとき

を最小にする( を

求めることは、各測定点 とモデル点

( の距離のニ乗和を最小にする

を求める

ただ

ことと等

Page 6: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

あてはめの良さ(Goodness of Fit)

2 2

2

1 1

2 2 2

( )

( ,

-

,

( / )

n ni i i i

i ii i

y y x y ax b

n m m a b

n m

a b

(直線モデルの場合 )

は自由度 はパラメータの数、直線の場合 で2)

の に従う。 期待値は 。

これがあてはめの良さ(仮定したモデル関数の妥当性、

パラメータ が適当であること、測定誤差が正しく評価

されていること)の基準になる。

を自

カイ自乗分布

由度 で割った reduced chi-squareを という。

( )i i

i

i

y y xt

は中心0,標準偏差1の正規分布に従う

gnuplotのfitでは自由度はdegrees of freedom (ndf) : として

reduced 2はvariance of residuals (reduced chisquare) = WSSR/ndf : として表示されている

Page 7: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

2分布

2

2 2

2 2

2 2 / 2 1 / 2 / 2

2 2

2

2

2

2

0 1

( ) {( ) }/ 2 ( / 2)

( ) ( ) 2

( )

i

i

x x

n

e

E V

xn

n

n

i=1

n

i=1

平均値 ,標準偏差 の正規分布に従う変数 の自乗和 の従う

分布を自由度 の 分布と呼ぶ。  一般に自由度 の 分布は

f

期待値  分散  

自由度 の (カ

均値 ,標準偏差 の正規分布に従う  も自由度 の

イ二乗)分布

分布

2

2

2

( )1ix x

n

n

i=1

、 

はしかし自由度 の 分布

Page 8: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

カイ二乗分布の確率分布の積分

あてはめの良さの検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

• 最小二乗フィットによりモデルパラメータを最適化した際のχ2値を求める

• 上記のχ2値(以上の値)を得る確率を表から調べる。

• 確率があまりにも小さければ何か間違っている。(例えばモデルが適当でない)

reduced-χ2の値の表(対応するχ2の値を超える確率Pと自由度の関数として表示されている)

Page 9: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

• http://cluster.f7.ems.okayama-u.ac.jp/~yan/jscscd/table/chi.htmlにも同様の表(但しreduced chi-squaredではなくchi-squaredの値)が掲載されている。

• ExcelならCHIDIST,CHIINV

Page 10: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

パラメータの推定誤差

2 2

21

22 2

21

1 1

1

n

a i

i i i

ni

b i

i i i

a

y

xb

y

最適化したパラメータはあくまでもパラメータの真の値の推定値。 必ず推定誤差がある。

直線モデルの場合、誤差伝播側より計算できる

参考

Page 11: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

任意関数の最小二乗(カイ二乗)フィット

2

2

1

2 2

2 2

2min

2

2min 2min

( )

( )

1

ni i

i i

y x

y y x

m n m

a

a a a a a

a

任意の関数形 をモデルに採用した場合でも

を最小にするようパラメータを決定する。

パラメータの数を として は自由度 = の 分布に従うことが期待される。

パラメータの誤差の推定:

を最小にするパラメータ値 に対して、 を1だけ増加させる

( ) の値、 、 を探す。

の誤差範囲(1パ 2min 2mina a a a ラメータ68%信頼水準)は から 。

Page 12: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

カイ二乗フィットのパラメータ誤差推定

(パラメータの数による信頼区間の違い)

Numerical Recipes in C,

技術評論社より転載。 上の表で自由度とは(注目する)パラメータの数。

パラメータa1,a2それぞれのの68%信頼区間はΔχ2=1であるが、(a1,a2)の組の68%信頼区間はΔχ2=2.3の楕円で囲まれた領域になる。

参考

Page 13: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

グラフの書き方練習

gnuplot

“端末”で gnuplotとうつと起動する

簡単関数やファイルに書き込んだデータをプロットできる

使い方は help というコマンドで参照できる

インターネットで参照できる日本語のマニュアルもあり http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot-

intro/

http://lagendra.s.kanazawa-u.ac.jp/ogurisu/manuals/gnuplot/

Page 14: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

gnuplotの練習

データファイル

(例えば)xye.datを用意する。

1.0 2.2 0.2

2.0 2.9 0.1

3.0 4.3 0.3

4.0 5.0 0.1

5.0 5.8 0.3

端末でgnuplotとうつと起動する。続いて以下の操作を試してみる。

plot "xye.dat" using 1:2:3 with yerrorbars

set xrange[0.0:7.0]

set yrange[0.0:7.0]

f(x)=a*x+b

fit f(x) "xye.dat" using 1:2:3 via a,b

(ここで表示されるフィット結果を理解せよ)

replot f(x)

次に、各点の誤差を無視した(重みづけなしの)フィットを比較のためやってみると

g(x)=c*x+d

fit g(x) "xye.dat" using 1:2 via c,d

replot f(x),g(x)

Page 15: 統計的データ解析 2010 - 大阪大学hayasida/Class/Class2010/...カイ二乗フィットのパラメータ誤差推定 (パラメータの数による信頼区間の違い)

宿題 二つの集団の平均値が等しいか否かを統計的検定をする。具体的な例(例えばASICのchain0とchain3で起こるSEUイベントの数)を使って説明せよ。

デルタカイ2乗=1がパラメータの推定誤差になることをy(x)=bのモデルの例で示せ。

xにも誤差がある場合どのように扱うべきか?x,yが独立で、それぞれ正規分布に従う誤差をもっているとして、直線モデルの場合を例にとって考えよ。(ヒント:下の式)

2 2

2 2

2 2

2 2

ˆ ˆ1 1ˆ( , ; , , , ) exp exp

2 22 2

ˆ ˆ ˆ ˆ,

ˆ ˆ1ˆ( , ; , , , ) exp exp

2 2 2

i i

i i xi yi

xi yixi yi

i i i i

i i xi yi

xi yi xi yi

x x y yP a b x y dx

x y y ax b

x x y ax b y axP a b x y dx

ただし は であらわされる直線モデル上の点

 

2

2 2 22 xi yi

b

a