コンポジット(合成図)解析climbsd.lowtem.hokudai.ac.jp/.../tc/datan2008/num3.pdfコンポジット解析とは何か?...
TRANSCRIPT
-
コンポジット(合成図)解析
• 3.0 コンポジット解析とは?
Composite analysis?
• 3.1 母集団と標本
Population and sample
• 3.2 統計的検定
Statistical test– 3.2.1 母平均の検定
Test of the mean
• パラメトリック(Student’s t)検定• ノンパラメトリック検定• 母平均の区間推定
Confidence interval for means
– 3.2.2 母平均の差の検定 The difference of means test
• 3.3 コンポジット解析の実例
Applications
• 3.4 第一種の過誤と第二種の過誤
Type I / II error
-
コンポジット解析とは何か?
(その1)
海洋の立場か
らみると、雲で海面水温が正しく捉えられない。
=欠測
3.0
穴埋め
-
人工衛星からもとめた雲量の分布
奇数年
偶数年
武田2005:雨の科学
コンポジット解析とは何か?
(その2)
年をもとに抽出→状態間で差がある
多雨
少雨
-
コンポジット解析とは何か?
(その3)
状態間で有意な差状態の区別→力学的な説明
ここの裏づけ
ENSO中は暖冬
3.0
インデックスをもとに抽出→状態間で差がある
-
(parent) population / sample
sampling
estimation統計的推定
samplepopulation
母集団と標本
3.1
-
無作為抽出
作為的抽出
標本平均から母平均を推定Estimation of the mean
一般的(例えば工業製品)には、母集団と標本に差が無いことがのぞましい。
大気・海洋データの場合は、母集団と標本に差があることを調べて、そのメカニズムを探る。
コンポジット解析
母集団と標本
どのような論理をもって有意に差があるとするか?
→
それが統計的検定
Random sampling
Nonrandom sampling
3.1
ある基準に基づいてとりだす
-
コンポジット
• あるインデックスzの集合Θをつくり、その 条件の下でのvの期待値VΘ
を求める。
• E[VΘ
]=1/k・∑vi
• zとvの間には特定の関連を設けない。• この操作は「典型的な状態」を求めるもので
あるが、 vの変動が大きすぎると代表性が悪 くなる場合がある。
• 代表性を調べるために帰無仮説を用いる。
k
i=1
-
統計的検定の手順
test of hypothesis
(平均なら「標本平均は母平均と有意な差がない」)
3.2
統計的検定
(平均なら「t値」を求める)
(平均なら「t分布表」を参照)
(平均なら「t分布表」の値よりt値が大きければH0を棄却。つまり有意に差がある。)
-
母平均の検定
• パラメトリック– 母分散が既知
正規分布
– 母分散が未知
t分布
→
t-検定
• ノンパラメトリック– モンテカルロ法
-
1901-2000 ave. -2.25degCEl Nino years ave. -1.47degC
s 1.44degCn=18 t= ?自由度17の上側5%点は
?
帰無仮説を
?
する。なので差は
? である。
例題
El NinoEl Ninoの冬、札幌は暖冬なのか?の冬、札幌は暖冬なのか?
http://www.cdc.noaa.gov/people/cathy.smith/best/table33.txt
El Nino年の定義は下記を参照した。
パラメトリック検定
t - test
札幌気温12月月平均
Degree of freedom
母分散が未知
1900 1920 1940 1960 1980 2000
-6
-4
-2
0
2
year
tem
pera
ture
monthly mean temperature in Sapporo (December)
1900 1920 1940 1960 1980 2000
-6
-4
-2
0
2
year
tem
pera
ture
monthly mean temperature in Sapporo (December)
-
ノンパラメトリック検定
nonparametric testENSO年の平均値
Monte-Carlo法CDFを横倒しにした図シミュレーション回数
n=100 n=200
n=500 n=1000
-
-1.4125degC
-1.47degC
-
母平均の区間推定
例題
pHの母平均値• ある溶液のpHを測定したところ、次の
値を得た。
• 母平均の99%信頼区間は?
7.86 7.89 7.84 7.90 7.82
Confidence interval
3.2
-
7.86+7.89+7.84+7.90+7.82=7.86X =
5
s2=(7.86-7.86)2+(7.89-7.86)2+・・・
+(7.82-7.86)2
5-1
=0.0011=0.032
自由度4でα=両側1%をとるtは?
-
t分布表からt4 (0.005)=4.604
7.86-4.604・ < μ
< 7.86-4.604・
7.798 < μ < 7.922
0.03√5
0.03√5
-
1901-2000 ave. -2.25degCEl Nino years ave. -1.47degCLa Nina years ave. -2.08degCn=18+12-2 t= 1.16自由度28の上側5%点は
?
帰無仮説H0は ?。なので差は
?
である。
例題
札幌の札幌のEl NinoEl Nino冬は冬は
La NinaLa Nina冬より暖かいのか?冬より暖かいのか?パラメトリック検定
t - test
差の検定The differenceOf the means test
3.2.2
母分散が未知
1900 1920 1940 1960 1980 2000
-6
-4
-2
0
2
year
tem
pera
ture
monthly mean temperature in Sapporo (December)
1900 1920 1940 1960 1980 2000
-6
-4
-2
0
2
year
tem
pera
ture
monthly mean temperature in Sapporo (December)
-
おまけ
用語の誤用
正確には同じような区間推定を100回やると95回は正しいという意味
ConfidenceLevel は区間推定に用い検定ではない
危険率有意水準
信頼区間
-
El Nino > high SST eastward > more heating (atm) > strong PNA pattern > northward westerly of Aleutian Low>weaker monsoon burst over Japan > warmer SST (less heat loss)
(Low monsoon)
3.3
コンポジット解析の実例
-
Yasuda and Hanawa (1999)
MOI=SLP(Nemuro)-SLP(Irkutsk)
Cold (warm) winter >Southward (northward) westerly >Monsoon strengthen (weaken) =H-MOI (L-MOI)
コンポジット解析の実例
差の検定を土台に
負正
Low SST~H-MOI
角格子点上の時系列に対してtテスト
-
本当は有意ではないのに帰無仮説を棄却してしまう-第一種の過誤本当は有意なのに帰無仮説を棄却しない-第二種の過誤
μ0 =μμ0 =μ
μ0 =μ μ0 =μ
第一種の過誤と第二種の過誤
3.4
-
第一種の過誤
第二種の過誤
差の違い具合に依存する
-
まとめ
• コンポジット解析とはデータをある基準にて らして平均する操作である。
• 抽出したデータの平均値が母集団の平均値と 有意に異なるかどうかを判断するには、統計 的検定を行う。検定にはパラメトリックな手 法とノンパラメトリックな手法がある。
• パラメトリックな手法では、母分散が未知の 場合、母平均値の検定にはt検定を用いる。
• 2つの異なる平均的状態の差の有意性を議論 したいときには母平均の差の検定を行う。こ こでも母分散が未知の場合、t検定を用いる。
コンポジット(合成図)解析スライド番号 2スライド番号 3スライド番号 4母集団と標本スライド番号 6コンポジット統計的検定母平均の検定スライド番号 10スライド番号 11スライド番号 12スライド番号 13母平均の区間推定スライド番号 15スライド番号 16スライド番号 17スライド番号 18スライド番号 19スライド番号 20コンポジット解析の実例スライド番号 22第一種の過誤と第二種の過誤スライド番号 24まとめ