統計的データ解析 2013
2013.11.11林田 清
(大阪大学大学院理学研究科)
フィットのよさに関するカイ二乗検定 [問題例] 7組の測定データ(xi ,yi) (i=1,..,7)で、Xの誤差は無視できるほど小さく、yiの誤差はσiとする。これをy=ax+bの直線モデルを仮定し、a,bをフリーパラメータとしてカイ二乗フィットする。 自由度は7-2=5。 χ2
minの値によって、どのような判断をするか? 例えば、χ2
min=15.1を得た場合 自由度5のχ2分布で15.1以上の値を得る確率は0.99% 結論例1: “危険率1%(以上)でこのモデルは棄却される” 結論例2: “危険率0.5%ではこのモデルは棄却されない”
χ2min=6.0を得た場合
自由度5のχ2分布で6.0以上の値を得る確率は31% 結論例: “(危険率10%では)このモデルは棄却されない”
χ2min=0.55を得た場合
自由度5のχ2分布で0.55以下の値を得る確率は1% 結論例: “χ2
minの値が小さすぎる(と危険率1%で結論できる)。誤差の評価が不適当である可能性が大きい。”
確率の期待値はExcelではCHIDIST,CHIINVで計算できる
いろいろな検定
母平均の検定:正規分布
母集団の分散σ2が既知でない場合->t分布
母平均の差の検定->t分布
母分散の検定:χ2分布
母分散の比の検定:F分布
相関の有無の検定:相関係数の表
区間推定
) /
- ( / 2) ( / 2)
x
z
z x z
x z x z
µ σ
µ σ
µ
αα µ σ α
α σ µ α σ
≤ − ≤
≤ ≤ +
例)
平均値 、標準偏差 の正規分布に従う母集団
から、1回の測定で測定値 を採取する操作を
考える。 の真の値は知らず、 は何らかの方法で
推定できていたとする(例えば測定誤差に等しい
など)。 の存在する範囲はどのように推定できるか?
を平均0、標準偏差1の正規分布に従う変数だとして、
確率1- となる区間は
- ( /2) ( ( /2)
変形して
100 (1- )α µ×が %信頼係 での数 の信頼区間
1-α
α/2
( / 2)z α+- ( / 2)z α
信頼区間=confidence interval、信頼係数=confidence level
z
( )p z
信頼区間の推定
正規分布の場合
-σ<x-µ<σにくる確率68.3% -2σ<x-µ<2σにくる確率95.5% -3σ<x-µ<3σにくる確率99.7% -1.96σ<x-µ<1.96σにくる確率95% -2.58σ<x-µ<2.58σにくる確率99% -1.64σ<x-µ<1.64σにくる確率90%
ExcelではNORMDIST,NORMINVで計算できる
パラメータの推定誤差
2 22
1
22 2
21
1 1
1
n
a ii i i
ni
b ii i i
ay
xby
σ σσ
σ σσ
=
=
∂= = ∂ ∆
∂= = ∂ ∆
∑ ∑
∑ ∑
最適化したパラメータはあくまでもパラメータの真の値の推定値。 必ず推定誤差がある。
直線モデルの場合、誤差伝播側より計算できる
2 2
2
2 2 2 2
2
2 2 2
2 2
2
2
2 2
2
1 1
2
2
0, 0
,
1 1
1
1
( )
( , )
i i i i
i i i i
n ni i i
i i i i i
i i i i
i i
i i i
i
i ii i
a b
x y x ya
x y x x
y y
y
x y ax b
P a b
b
x x
χ χ
χ
σ σ σ σ
σ σ σ
χσ σ
σ
σ σ σ
χ= =
∂ ∂= =
∂ ∂
= − ∆
= − ∆
∆ = −
− − −≡ =
∑ ∑ ∑ ∑
∑ ∑ ∑
∑ ∑
∑
∑
a b
から を最小
を最大にする
にす
= を最小にす
とし
ただ
る
る て
し
2
∑ ∑
任意関数の最小二乗(カイ二乗)フィット
22
1
2 2
2 22min
22min 2min
( )
( )
1
ni i
i i
y x
y y x
m n m
a
a a a a a
a
χ
χ χ
χσ
χ ν χ
χ χ
χ
=
+ −
−≡
−
∆ = + ∆ − ∆
∑
任意の関数形 をモデルに採用した場合でも
を最小にするようパラメータを決定する。
パラメータの数を として は自由度 = の 分布に従うことが期待される。
パラメータの誤差の推定:
を最小にするパラメータ値 に対して、 を1だけ増加させる
( ) の値、 、 を探す。
の誤差範囲(1パ 2min 2mina a a aχ χ− +− ∆ + ∆ラメータ68%信頼水準)は から 。
カイ二乗フィットのパラメータ推定誤差11 1 , 1
1
1
( , ),...., ( ) ,....,
,...,( ; ,..., )
( ,..., )
n n n
n
p
p
x y x y y y
f x a a
a a
σ σ1
n回の測定でデータの組 が得られたとし、 の測定誤差
(ただし正規分布するランダム誤差)を とする。これらのデータ点は、
p個のパラメータで指定されるモデル に、正規分布に従う誤差が
付加されたデータで構成される母集団から採取されたと仮定する。
パラメータの真の値(これは不可知)を と仮定
( )2
; 11 2
1
2; 12 2 2
1
1 1
( ,..., )1( ,..., ) exp22
( ,..., )exp
ˆ ˆ( ,..., ) ( ,..., )
ni i p
pi ii
ni i p
i i
p p
y f x a aP a a
y f x a an
P a a a a
σσ π
χ χ χσ
=
=
− = −
− ≡
∏
∑
すると尤度
(データ点の組が得られる確率は)は
の中身を と定義する。 は自由度 の 分布に従う。
一方 を最大にするようなパラメータの組(=最適パラメータ)を と
す
2; 12 2
min1
2min
2
ˆ ˆ( ,..., )
-
ni i p
i i
y f x a a
pn p
χ χσ
χ
χ
=
− =
∑るとこれは の最小値 を与える。
はp個のパラメータによって調整して最小化を行ったので自由度が 減って、
自由度 の 分布に従う。
カイ二乗フィットのパラメータ推定誤差2
( )
( )( ) ( )( ) ( )
2; 1 1 1
2 2
2; 1 ; 122
1 1
2
1 1
ˆ ˆ,..., ,..., ( ,..., )
ˆ ˆ,..., ,...,ˆ
1
1( ,..., ) ( ,..., )2
i p p p
pn i i p i i pj j j
i ji
j j
p pj j
f x a a a a a a
y f x a a y f x a aA a a
a A
P a a F a a
χ
χσ
χ δ
δ π
= =
=
− − −∆ = −
∂∆=
∂
= ×
∑ ∑
j
が の線形関数の場合、 が の最小値を与えることに
注意すると
という形にかけるはず( =0)。 とすると
を含まない関数( )
( )
2
21
2 2 2 2min
; 1 1
2 2 2 2min
ˆexp
2
,..., ,...,
pj j
j
i p p
a a
f x a a a a
δ
χ χ χ χ
χ χ χ χ
− −
∆ ≡ −
∆ ≡ −
∏
これから は自由度pの 分布に従うことがわかる。
が の線形関数でない場合は、このような形にはかけないが
は自由度pの 分布で近似する。
カイ二乗フィットのパラメータ誤差推定(パラメータの数による信頼区間の違い)
Numerical Recipes in C, 技術評論社より転載。上の表で自由度とは(注目する)パラメータの数。
パラメータa1,a2それぞれのの68%信頼区間はΔχ2=1であるが、(a1,a2)の組の68%信頼区間はΔχ2=2.3の楕円で囲まれた領域になる。
最小二乗(カイ二乗)フィットのまとめ
最尤法が根拠。 ただし、測定値yのモデル点からのばらつきが正規分布で近似できる場合に限定。
χ2を最小にするパラメータが最良推定値。
あてはめの良さ、モデルの妥当性はχ2の値が自由度n-mに近いかどうかで評価できる。
パラメータの誤差(信頼区間)は∆ χ2から推定できる。
相関が0でない例 ラインスペクトルをガウシアンモデルでフィットする。
( )2
2
2 22 2 2
( ) exp2
, , ,, ,
,
2
(
A B C
I A B
x CF x A
B
A B CA B C
I A B
I IA B
G x
σ σ σ
π
σ σ σ
− = −
= × ×
∂ ∂ = + ∂ ∂
モデルとして次の形式のガウシアン関数を仮定
して をフィッティングにより求める。
フィッティングプログラムは の最適値と
その誤差 , を出力してくれる。
このラインの積分強度は
共分散を無視して と計算すると、
誤差を過大評価する恐れがある。
( )2
2) exp22
x CIBBπ
− = −
というモデル式を使えば、このような問題は回避できる
宿題B 次回11/26まで1. Gaussian Fitで二通りのモデル(2ページ前を参照のこと)で積分強
度とその誤差を求め比較せよ。(片多)2. デルタカイ2乗=1がパラメータの推定誤差になることをy(x)=bの
モデルの例で示せ。(吉田)3. xspecのフィッティングの出力結果に関して、具体的な例を使い、ど
のような定義の値がかかれているか説明せよ。(内田)4. xspec(エラーコマンド),qdp,gnuplotの各種パラメータ誤差は何%信
頼限界か? また、この資料p10のパラメータの数による誤差の違いに関して説明せよ(井上2)
5. xにも誤差がある場合どのように扱うべきか?x,yが独立で、それぞれ正規分布に従う誤差をもっているとして、直線モデルの場合を例にとって考えよ。(ヒント:下の式) (吉永)
( ) ( )
( )
( ) ( )
2 2
2 2
2 2
2 2
ˆ ˆ1 1ˆ( , ; , , , ) exp exp2 22 2
ˆ ˆ ˆ ˆ,
ˆ ˆ1ˆ( , ; , , , ) exp exp2 2 2
i ii i xi yi
xi yixi yi
i i i ii i xi yi
xi yi xi yi
x x y yP a b x y dx
x y y ax b
x x y ax b y axP a b x y dx
σ σσ σπσ πσ
σ σπσ σ σ σ
− − = − −
= +
− − − − − = − − ∝ −
∫
∫
ただし は であらわされる直線モデル上の点
( )( )
2
2 2 22 xi yi
ba σ σ
+