統計的データ解析(m1m2ゼミ用)vtec.ess.sci.osaka-u.ac.jp/~hayasida/class/class2001/dataanalysis_… ·...
TRANSCRIPT
統計的データ解析(M1M2ゼミ用)
林田 清(大阪大学大学院)
2001/7/19
項目
平均値、分散、標準偏差
誤差の意味、誤差伝播、平均値の誤差
ガウス分布、ポアッソン分布、χ2乗分布
統計的検定(平均値、分散、相関。。。)、区間推定
相関係数
モデルフィット(最小二乗法、最尤法)
誤差(Error):真の値からのずれ
測定誤差
物差しが曲がっていた
測定する対象が室温が低いため縮んでいた
1gの単位までしかデジタル表示されない計りで1g以下計りの目盛りを読み取る角度によって値が異なる
統計誤差
放射線源を検出器で測定したときの計数率
テレビの視聴率
偶然誤差(Random Error)と系統誤差(Systematic Error)
測定値xの分布
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7 8 9 10x
頻度
測定値の分布
n個の測定値 x1, x2, …, xnの分布
例えば1本の棒の長さをn人の人が同じものさしを使って測定する
(同じ設計で製作した)n本の棒の長さ1個の放射線源について1分間あたりの放射線の検出個数をn回測定するある振り子の振動周期をn回測定する
分布の広がりが誤差を表す
母集団と標本
母集団同じ条件で無限回の測定を繰り返したときの測定値の分布(極限頻度分布)実際には無限回の測定は不可能
極限頻度分布は存在すると仮定する
測定は母集団から標本を採取する操作
採集された標本から母集団の分布を推定するのが統計的解析真の値は不可知
平均値、標準偏差
1 2
1
2 2
1
1
2 2
1
n , ,....,1
1 ( )1
1lim
1lim ( )
nn
ii
n
ii
n
in in
in i
x x x
x xn
s x xn
xn
xn
σ
µ
σ µ
=
=
→∞=
→∞=
≡
≡ −−
=
= −
∑
∑
∑
∑
2
回の(独立な)測定 各々の誤差は
標本の平均値
標本の分散(=標準偏差 )
母集団の平均
母集団の分散
その他、中央値、最頻値
標本の分散(標準偏差2) (なぜ n-1で割るのか?)
( ) ( )
( )
12 2
2
2 2
2 2
22 2
1 1( )
1
1
2 2
1 1 ( ) ( )2 21 ( ) ( ) 2( )( )2
1( 1)
1 1 ( )( 1) 2
n
ii
i j i jij i j
i j i j
i j i j
n n
ij n iji j
i j
n
ii
x xn
x x x xx x
x x x x x x
x x x x x x x x
sn n
x xn n
=
= =≠
=
≡
+ + ∆ ≡ − + −
= − = − − −
= − + − − − −
∆ = ∆−
= −−
∑
∑ ∑
∑
平均
二項間の分散の和
の平均
( )
( ) ( )
2 2
1
2
1 1 1
2
1
( ) 2( )( )
1( )( 1) ( 1)1 ( )
( 1)
n
j i jj
n n n
i i ji i j
n
ii
x x x x x x
n x x x x x xn n n n
x xn
=
= = =
=
+ − − − −
= − − − −− −
= −−
∑
∑ ∑ ∑
∑
(不偏)分散sn2
標準偏差sn
誤差伝播12 2
1
22
1
2 22 2
( , ,...)1lim ( )
( ) ( )
1lim ( ) ( )
1lim ( ) ( ) 2( )(
n
x in i
i i i
n
x i in i
i i i in
x f u v
x xn
x xx x u u v vu v
x xu u v vn u v
x xu u v v u u v vn u v
σ
σ
→∞=
→∞=
→∞
=
= − ∂ ∂ − − + − + ∂ ∂
∂ ∂ − + − + ∂ ∂
∂ ∂ − + − + − − ∂ ∂
∑
∑
[ ]
1
2 2 2 2
1 1
2
1
2 22 2 2 2
)
1 1lim ( ) , lim ( )
1lim ( )( ) (covariance)
n
i
n n
u i v in ni i
n
uv i in i
x u v uv
x xu v
u u v vn n
u u v vn
x xu v
σ σ
σ
σ σ σ σ
=
→∞ →∞= =
→∞=
∂ ∂ + ∂ ∂ = − = − ≡ − −
∂ ∂ ∂ + + + ∂ ∂
∑
∑ ∑
∑
x xu v
∂ + ∂ ∂
誤差伝播2
[ ]2
1
2 22 2 2 2
1lim ( )( )n
uv i in i
x u v uv
u u v vn
x x x xu v u v
σ
σ σ σ σ
→∞=
≡ − −
∂ ∂ ∂ ∂ + + + + ∂ ∂ ∂ ∂
∑
uとvが独立のとき(相関がないとき)、共分散σuvはゼロ
2 22 2 2x u v
x xu v
σ σ σ∂ ∂ + + ∂ ∂
誤差伝播3
足し算、引き算 。。。誤差は同じ
バックグランドの引き算で誤差が大きくなる
かけ算
相対誤差の大きい成分が全体の誤差を決める
2 2 2x u v
x u v x u vσ σ σ
= + = −
= +
あるいは
2 22 2 2 2 2 2 2
2 2u v
x u v
x uv
v u u vu vσ σσ σ σ
=
= + = +
平均値の誤差(Error)、不確かさ(Uncertainty)
測定をN回繰り返して平均を取ることで、(偶然)誤差を1/√nに小さくできる
1 2
1
2 2 22
1
n , ,....,1
1 1
nn
ii
n
x xi
x x x
x xn
n n
σ
σ σ σ σ
=
=
≡
= =
∑
∑
回の(独立な)測定 各々の誤差は
標本平均値
標本平均値の誤差 は
二項分布、ポアッソン分布
2
!( ; , ) (1 )( )! !
(1 ) (1 )
x n xB
nP x n p p pn x x
x pnnp p pσ µ
−= −−
=
= − = −
二項分布
0
0.1
0.2
0.3
0.4
0 5 10 15
Pois s o n Dis tributio n
1234510
x
µ=
2
1
( ; )!
x
peP xx
x
µµµ
µ
σ µ
−
<<
=
=
=
ポアッソン分布
二項分布で の極限
ポアッソン分布の導出その1
2
1/
0 0
(1 ) (1 )
! (for )( )!(1 ) 1
1(1 ) (1 )lim lim
x
x
n p
p p
np p pp
n n x nn x
p px
p p ee
µµ µ
σ µµ
−
−
→ →
= − = −
<<
≈ <<−
− ≈ +
− = − = =
において を一定に保ったまま、 1の極限を考える
xµ0
! 1 !( ; , ) (1 ) (1 ) (1 )( )! ! ! ( )!
( ;lim
x n x x x nB
Bp
n nP x n p p p p p pn x x x n x
pn
P x
µ
− −
→
= − = − −− −
=
二項分布
, ) ( ; )!pn p P x e
xµµ −= ≡
ポアッソン分布の導出その2
/0
1 2/
1
( ; , )(0; , )
( ; , )!
t
t xx i
i
P x t xP t Pex dt dt
dted P x tx
t x
τ
τ
ττ τ
τ
ττ
−
−
=
=
= ∏
は平均のイベント間隔、 は時間tの間に イベント観測される確率
イベントを時間tの間の , ,...に観測する確率は
時間の間に イベント起こる確率はそれぞれの
/
0
( ; , )!
ixt
x
t t
e tP x tx
t t
τ
ττ
µτ
µ
− =
=
を からまで積分して
は時間の間に起こるイベント数の平均値
(0; , ) (0; , ) dtdt dP t P tτ τ= −
ある時間の間にイベントの起こる数の分布
イベントの平均 の間にイベントの起こらない確率
( ; )!pP x e
xµµ −≡ポアッソン分布は
ポアッソン分布
ポアッソン分布の例放射線源の1秒あたりの崩壊数
放射線源の測定で1時間当たりの検出カウント数
1000人の集団の中で今日が誕生日の人の数
ポアッソン分布の統計誤差平均値の平方根(複数回の測定ができないとき)1回の測定値の平方根で置き換えるときもある
ポアッソン分布と正規分布平均値µが大きいとき(例えば20以上)ではポアッソン分布は平均値µ、分散σ2 =µの正規分布で近似できる。
0
0.1
0.2
0.3
0.4
0 5 10 15
Pois s o n Dis tributio n
1234510
x
µ=
正規分布
Bevington&Robinson
t分布
2
2( ) / /1
0
x nx s
t x s nn
t
n
µ σ
µφ
φ
= −
= −
平均値 ,標準偏差 の正規分布に従う変数 から 個を
抜き出して、その平均値を 、標本分散を とする
は自由度 のt分布に従う
が大きいとき標準正規分布(平均値 、標準偏差1)で
近似できる
平均値の検定、母平均の区間推定、平均値の差の検定などに
使用する(正規分布で近似してしまう場
自
合
由度 の 分布
も多い)
χ2分布
2
2 2
2 2
2 2 / 2 1 / 2 / 2
2 2
22
2
2
0 1
( ) {( ) }/ 2 ( / 2)
( ) ( ) 2( )
i
i
x x
n
eE V
xn
n
ν χ νν
χ
χ ν χ
χ χ ν
χ ν χ ν
µµ σ χ
χ
σ
− −
=
= Γ
= =
−
∑
∑
n
i=1
n
i=1
平均値 ,標準偏差 の正規分布に従う変数 の自乗和 の従う
分布を自由度 の 分布と呼ぶ。 一般に自由度 の 分布は
f
期待値 分散
平
自由度 の (カ
均値 ,標準偏差 の正規分布に従う も自由度 の
イ二乗)分布
分布
22
2
( )1ix x n χ
σ−
−∑n
i=1
、
はしかし自由度 の 分布
統計的検定
例)xの10回の測定平均値が0.40、標準偏差が0.05仮説H:(例)母集団での平均値は0.5である本当は対立仮説H':”母集団での平均値は0.5でない”を示したいので、Hを帰無仮説という。 H':”母集団での平均値は0.5より小さい(大きい)”の場合も有り得る。 両側検定、片側検定。
平均値0.5標準偏差0.05の母集団から10個の標本をサンプルした場合に平均値が0.4以下になる(あるいは0.4以下、0.6以上になる)確率Pは?Pが定められた危険率(有意水準)aより小さい:仮説は誤り。 正しい可能性棄てる危険性aを伴って。大きい:仮説は否定できない。
いろいろな検定
母平均の検定:正規分布母集団の分散σ2が既知でない場合->t分布母平均の差の検定->t分布母分散の検定:χ2分布母分散の比の検定:F分布相関の有無の検定:相関係数の表
区間推定
2
2
2 2
) / / 1
) / /
/ /
x
x s n nt
x s n
x s n x s n
µ σ
µ σ µ φα
α µ α
α µ α
− = −
≤ − ≤
≤ ≤ +
2
2
N-1 N-1
N-1 N-1
例)n回の測定の平均値が と求まったとき
母平均の存在する範囲はどのように推定できるか?
母集団の分布は正規分布( , )と仮定すると、標本平均は
正規分布( , /n)に従う。 ( は自由度 の
分布に従う。 確率1- となる区間は
-t ( /2) ( t ( /2)
変形して
-t ( /2) t ( /2)
が
2 2
100 (1- )
/ /x s n x s n
α µ
α µ α
×
≤ ≤ +
%での母平均 の
nが大きいときにはt分布のかわりに正規分布を使い
-z( /2) z( /2)
で近似
信頼係数 信頼
すると
区間
きもある
f(t)
t
1-α
α/2
αN-1+t ( /2)αN-1-t ( /2)
信頼区間の推定
正規分布の場合-σ<x-µ<σにくる確率68.3%-2σ<x-µ<2σにくる確率95.5%-3σ<x-µ<3σにくる確率99.7%-1.96σ<x-µ<1.96σにくる確率95%-2.58σ<x-µ<2.58σにくる確率99%
相関係数
二つの測定量x,yの間に(線形)相関があるかどうか
1なら正の相関、-1なら負の相関、ゼロなら相関なし
( ) ( )1/2 1/22 22 2
i i i i
i i i i
N x y x yr
N x x N y y
−≡ − −
∑ ∑ ∑∑ ∑ ∑ ∑
相関係数の検定
Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より