統計的データ解析(m1m2ゼミ用）vtec.ess.sci.osaka-u.ac.jp/~hayasida/class/class2001/dataanalysis_… ·...

統計的データ解析(M1M2ゼミ用）

林田　清（大阪大学大学院）

２００１/7/19

項目

平均値、分散、標準偏差

誤差の意味、誤差伝播、平均値の誤差

ガウス分布、ポアッソン分布、χ２乗分布

統計的検定（平均値、分散、相関。。。）、区間推定

相関係数

モデルフィット（最小二乗法、最尤法）

誤差(Error)：真の値からのずれ

測定誤差

物差しが曲がっていた

測定する対象が室温が低いため縮んでいた

1gの単位までしかデジタル表示されない計りで1g以下計りの目盛りを読み取る角度によって値が異なる

統計誤差

放射線源を検出器で測定したときの計数率

テレビの視聴率

偶然誤差(Random Error)と系統誤差(Systematic Error)

測定値ｘの分布

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7 8 9 10ｘ

頻度

測定値の分布

n個の測定値 x1, x2, …, xnの分布

例えば1本の棒の長さをn人の人が同じものさしを使って測定する

（同じ設計で製作した）n本の棒の長さ1個の放射線源について１分間あたりの放射線の検出個数をn回測定するある振り子の振動周期をn回測定する

分布の広がりが誤差を表す

母集団と標本

母集団同じ条件で無限回の測定を繰り返したときの測定値の分布(極限頻度分布）実際には無限回の測定は不可能

極限頻度分布は存在すると仮定する

測定は母集団から標本を採取する操作

採集された標本から母集団の分布を推定するのが統計的解析真の値は不可知

平均値、標準偏差

1 2

1

2 2

1

1

2 2

1

n , ,....,1

1 ( )1

1lim

1lim ( )

nn

ii

n

ii

n

in in

in i

x x x

x xn

s x xn

xn

xn

σ

µ

σ µ

=

=

→∞=

→∞=

≡

≡ −−

=

= −

∑

∑

∑

∑

２

回の（独立な）測定各々の誤差は

標本の平均値

標本の分散（=標準偏差）　

母集団の平均　

母集団の分散

その他、中央値、最頻値

標本の分散（標準偏差2）（なぜ n-1で割るのか？）

( ) ( )

( )

12 2

2

2 2

2 2

22 2

1 1( )

1

1

2 2

1 1 ( ) ( )2 21 ( ) ( ) 2( )( )2

1( 1)

1 1 ( )( 1) 2

n

ii

i j i jij i j

i j i j

i j i j

n n

ij n iji j

i j

n

ii

x xn

x x x xx x

x x x x x x

x x x x x x x x

sn n

x xn n

=

= =≠

=

≡

+ + ∆ ≡ − + −

= − = − − −

= − + − − − −

∆ = ∆−

= −−

∑

∑ ∑

∑

平均　　　　　　　

二項間の分散の和　

の平均　　　　　

( )

( ) ( )

2 2

1

2

1 1 1

2

1

( ) 2( )( )

1( )( 1) ( 1)1 ( )

( 1)

n

j i jj

n n n

i i ji i j

n

ii

x x x x x x

n x x x x x xn n n n

x xn

=

= = =

=

+ − − − −

= − − − −− −

= −−

∑

∑ ∑ ∑

∑

（不偏）分散sn2

標準偏差sn

誤差伝播１2 2

1

22

1

2 22 2

( , ,...)1lim ( )

( ) ( )

1lim ( ) ( )

1lim ( ) ( ) 2( )(

n

x in i

i i i

n

x i in i

i i i in

x f u v

x xn

x xx x u u v vu v

x xu u v vn u v

x xu u v v u u v vn u v

σ

σ

→∞=

→∞=

→∞

=

= − ∂ ∂ − − + − + ∂ ∂

∂ ∂ − + − + ∂ ∂

∂ ∂ − + − + − − ∂ ∂

∑

∑

[ ]

1

2 2 2 2

1 1

2

1

2 22 2 2 2

)

1 1lim ( ) , lim ( )

1lim ( )( ) (covariance)

n

i

n n

u i v in ni i

n

uv i in i

x u v uv

x xu v

u u v vn n

u u v vn

x xu v

σ σ

σ

σ σ σ σ

=

→∞ →∞= =

→∞=

∂ ∂ + ∂ ∂ = − = − ≡ − −

∂ ∂ ∂ + + + ∂ ∂

∑

∑ ∑

∑

x xu v

∂ + ∂ ∂

誤差伝播２

[ ]2

1

2 22 2 2 2

1lim ( )( )n

uv i in i

x u v uv

u u v vn

x x x xu v u v

σ

σ σ σ σ

→∞=

≡ − −

∂ ∂ ∂ ∂ + + + + ∂ ∂ ∂ ∂

∑

uとｖが独立のとき（相関がないとき）、共分散σuvはゼロ

2 22 2 2x u v

x xu v

σ σ σ∂ ∂ + + ∂ ∂

誤差伝播３

足し算、引き算　。。。誤差は同じ

バックグランドの引き算で誤差が大きくなる

かけ算

相対誤差の大きい成分が全体の誤差を決める

2 2 2x u v

x u v x u vσ σ σ

= + = −

= +

　あるいは　　　

2 22 2 2 2 2 2 2

2 2u v

x u v

x uv

v u u vu vσ σσ σ σ

=

= + = +

　

平均値の誤差(Error)、不確かさ(Uncertainty)

測定をN回繰り返して平均を取ることで、（偶然）誤差を１/√nに小さくできる

1 2

1

2 2 22

1

n , ,....,1

1 1

nn

ii

n

x xi

x x x

x xn

n n

σ

σ σ σ σ

=

=

≡

= =

∑

∑

回の（独立な）測定各々の誤差は

標本平均値

標本平均値の誤差は

二項分布、ポアッソン分布

2

!( ; , ) (1 )( )! !

(1 ) (1 )

x n xB

nP x n p p pn x x

x pnnp p pσ µ

−= −−

=

= − = −

二項分布

0

0.1

0.2

0.3

0.4

0 5 10 15

Pois s o n Dis tributio n

1234510

x

µ=

2

1

( ; )!

x

peP xx

x

µµµ

µ

σ µ

−

<<

=

=

=

ポアッソン分布

二項分布での極限

ポアッソン分布の導出その１

2

1/

0 0

(1 ) (1 )

! (for )( )!(1 ) 1

1(1 ) (1 )lim lim

x

x

n p

p p

np p pp

n n x nn x

p px

p p ee

µµ µ

σ µµ

−

−

→ →

= − = −

<<

≈ <<−

− ≈ +

− = − = =

においてを一定に保ったまま、１の極限を考える

xµ0

! 1 !( ; , ) (1 ) (1 ) (1 )( )! ! ! ( )!

( ;lim

x n x x x nB

Bp

n nP x n p p p p p pn x x x n x

pn

P x

µ

− −

→

= − = − −− −

=

二項分布

, ) ( ; )!pn p P x e

xµµ −= ≡

ポアッソン分布の導出その２

/0

1 2/

1

( ; , )(0; , )

( ; , )!

t

t xx i

i

P x t xP t Pex dt dt

dted P x tx

t x

τ

τ

ττ τ

τ

ττ

−

−

=

=

= ∏

は平均のイベント間隔、は時間tの間にイベント観測される確率

イベントを時間tの間の , ,...に観測する確率は

時間の間にイベント起こる確率はそれぞれの

/

0

( ; , )!

ixt

x

t t

e tP x tx

t t

τ

ττ

µτ

µ

− =

=

をからまで積分して

は時間の間に起こるイベント数の平均値

(0; , ) (0; , ) dtdt dP t P tτ τ= −

ある時間の間にイベントの起こる数の分布

イベントの平均の間にイベントの起こらない確率

( ; )!pP x e

xµµ −≡ポアッソン分布は

ポアッソン分布

ポアッソン分布の例放射線源の１秒あたりの崩壊数

放射線源の測定で１時間当たりの検出カウント数

１０００人の集団の中で今日が誕生日の人の数

ポアッソン分布の統計誤差平均値の平方根（複数回の測定ができないとき）１回の測定値の平方根で置き換えるときもある

ポアッソン分布と正規分布平均値µが大きいとき（例えば20以上）ではポアッソン分布は平均値µ、分散σ2 =µの正規分布で近似できる。

0

0.1

0.2

0.3

0.4

0 5 10 15

Pois s o n Dis tributio n

1234510

x

µ=

正規分布

Bevington&Robinson

t分布

2

2( ) / /1

0

x nx s

t x s nn

t

n

µ σ

µφ

φ

= −

= −

平均値 ,標準偏差の正規分布に従う変数から個を

抜き出して、その平均値を、標本分散をとする

は自由度のt分布に従う

が大きいとき標準正規分布(平均値、標準偏差１）で

近似できる

平均値の検定、母平均の区間推定、平均値の差の検定などに

使用する（正規分布で近似してしまう場

自

合

由度の分布

も多い）

χ2分布

2

2 2

2 2

2 2 / 2 1 / 2 / 2

2 2

22

2

2

0 1

( ) {( ) }/ 2 ( / 2)

( ) ( ) 2( )

i

i

x x

n

eE V

xn

n

ν χ νν

χ

χ ν χ

χ χ ν

χ ν χ ν

µµ σ χ

χ

σ

− −

=

= Γ

= =

−

∑

∑

n

i=1

n

i=1

平均値 ,標準偏差の正規分布に従う変数の自乗和の従う

分布を自由度の分布と呼ぶ。　一般に自由度の分布は

f

期待値　分散　　

平

自由度の（カ

均値 ,標準偏差の正規分布に従う　も自由度の

イ二乗）分布

分布

22

2

( )1ix x n χ

σ−

−∑n

i=1

、　

はしかし自由度の分布

統計的検定

例）xの10回の測定平均値が0.40、標準偏差が0.05仮説H：(例）母集団での平均値は0.5である本当は対立仮説H'：”母集団での平均値は0.5でない”を示したいので、Hを帰無仮説という。　H'：”母集団での平均値は0.5より小さい（大きい）”の場合も有り得る。　両側検定、片側検定。

平均値0.5標準偏差0.05の母集団から10個の標本をサンプルした場合に平均値が0.4以下になる（あるいは0.4以下、0.6以上になる）確率Pは？Pが定められた危険率(有意水準）aより小さい：仮説は誤り。　正しい可能性棄てる危険性aを伴って。大きい：仮説は否定できない。

いろいろな検定

母平均の検定：正規分布母集団の分散σ2が既知でない場合->t分布母平均の差の検定->t分布母分散の検定：χ2分布母分散の比の検定：F分布相関の有無の検定：相関係数の表

区間推定

2

2

2 2

) / / 1

) / /

/ /

x

x s n nt

x s n

x s n x s n

µ σ

µ σ µ φα

α µ α

α µ α

− = −

≤ − ≤

≤ ≤ +

2

2

N-1 N-1

N-1 N-1

例）n回の測定の平均値がと求まったとき

母平均の存在する範囲はどのように推定できるか？　　

母集団の分布は正規分布( , ）と仮定すると、標本平均は

正規分布( , /n）に従う。　 ( は自由度の

分布に従う。確率1- となる区間は

-t ( /2) ( t ( /2)

変形して

-t ( /2) t ( /2)

が

2 2

100 (1- )

/ /x s n x s n

α µ

α µ α

×

≤ ≤ +

%での母平均の

nが大きいときにはt分布のかわりに正規分布を使い

-z( /2) z( /2)

で近似

信頼係数信頼

すると

区間

きもある

f(t)

t

1-α

α/2

αN-1+t ( /2)αN-1-t ( /2)

信頼区間の推定

正規分布の場合-σ<x-µ<σにくる確率68.3%-2σ<x-µ<2σにくる確率95.5%-3σ<x-µ<3σにくる確率99.7%-1.96σ<x-µ<1.96σにくる確率95%-2.58σ<x-µ<2.58σにくる確率99%

相関係数

二つの測定量x,yの間に（線形）相関があるかどうか

１なら正の相関、－１なら負の相関、ゼロなら相関なし

( ) ( )1/2 1/22 22 2

i i i i

i i i i

N x y x yr

N x x N y y

−≡ − −

∑ ∑ ∑∑ ∑ ∑ ∑

相関係数の検定

Data Reduction and Error Analysis for the Physical Sciences, Bevington & Robinson より

統計的データ解析(m1m2ゼミ用）vtec.ess.sci.osaka-u.ac.jp/~hayasida/class/class2001/dataanalysis_… ·...

Documents