4. 相関・回帰...
TRANSCRIPT
4. 相関・回帰 (correlation/regression)
• 4.0 相関関係とは?
• 4.1 相関係数
correlation coefficient
• 4.2 自己相関
auto-correlation
• 4.3 相互相関
cross-correlation
• 4.4 相関解析の実例
applications
• 4.5 相関の有意性
significance of correlation
–
相関係数の検定
test of correlation coefficient
–
等価自由度
effective degree of freedom
• 4.6 回帰
regressions
–
回帰係数
–
回帰係数の区間推定
• 4.7 回帰分析の実例
applications
1
4.1 相関係数 Correlation coefficient
共分散covariance分散variance
4.1
相関関数は、-1 ≤ r ≤ 1の値を取る。
2
相関係数と散布図
3
x
y,z
例1:
4
例2:
相関係数がゼロだからといって、2つの変数の間に何も関係が無い訳ではない。 相関係数は2つの変数の間の線形関係(1次式)の強さを表している。
xとyの平均はそれぞれ 3と5だから、相関係数rの分子は、
(2-3)(2-5)+(5-3)(5-5)+(0-3)(10-5)+(4-3)(2-5)+(1-3)(5-5)+(6-3)(10-5)+(3-3)(1-5)
= 3-15-3+15 = 0 r = 0
石村 (1989) より抜粋
5
4.2 自己相関関数
(auto-correlation function)
アンサンブル平均
定常確率過程ではアンサンブル平均による自己相関関数が時間平均によるもので置き換えることができて(x(t) の平均値が
t によらず一定、
自己相関も
t によらず τ のみに依存)
時間平均
R(τ): R(τ)= R(-τ) τ= 0 について左右対称
|R(τ)| ≤
1「メモリーの持続特性」を表す。
4.2
τ:lag
Covariance function
Autocorrelation function
ラグ相関
関数
自己共分散関数
6
ずらす
ずらして
かけあわせる
x(t-τ)
日野 (1977) より一部修正 7
代表的な時系列関数と自己相関関数の形
日野 (1977) 8
日野 (1977) 9
white noise
Cf.イサカの例
日野 (1977)
22
2
ある時点での結果が前の時点での結果に依存しないランダムな過程で生成されるもの
微小ラグ隔たるとき前の性質をある割合で保存
10
x(t)=asin(2πft+θ)+r(t)
日野 (1977)
3
11
自己相関関数の例:ニューヨーク州イサカの自己相関関数の例:ニューヨーク州イサカの19871987年年11月の日最高気温(華氏)月の日最高気温(華氏)
Wilks(2006)
上段:xi+τ下段:xi
12
自己相関関数の例:ニューヨーク州イサカの自己相関関数の例:ニューヨーク州イサカの19871987年年11月の日最高気温(華氏)月の日最高気温(華氏)
(自己相関関数)= (ラグ自己共分散)/ (分散)
rxx(3): 平均からかなりずれた値が端にあると良くない。
rxx(2): 分母と分子の計算に異なるデータ範囲を使っているので、誤差が大きくなる
可能性がある。分子の計算に使われていない部分で、平均からのずれが小さいと、極端な場合には相関係数の絶対値が>1となることさえあり得る。
13
4.3 相互相関関数
(cross-correlation function)
異なる変数間でのラグ相関を求める
Rxy(0)=1にはならない。
左右対称にはならない。
4.3
相互相関関数
相互相関係数
14
相互相関関数の計算式
伊藤・見延 (2010)15
図C
ダーウィンと世界各地の年平均海面
気圧偏差の相関係数(x10)。
係数が正の値のところはダーウィンの気圧が通常より高いときにその場所の気圧も通常より高い傾向にあり、係数が負の値のところはダーウィンの気圧が通常より高いとき、逆に通常より低い傾向にある。数字の大きさがその傾向の程度を示す。(Trenberth and Shea,1987)
4.4
相関解析の実例
季節変化を除去して考えている
南方振動の発見
4.4
一点相関図(同時相関)
タヒチ
16
17
Mawson Davis Casey Vernadskyoriginal 0.669 0.679 0.648 0.699 high-passed 0.685 0.638 0.634 0.611 high ln tide 0 618 0 564 0 557 0 548
Original time series High-passed time series相関解析の実例:南極の水位の変動
18
自己相関関数・相互相関関数
0 10 20 30 40 50 600
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Lag (day)
Cor
rela
tion
coef
ficie
nt
Syowa-Syowa
Syowa-Mawson昭和での位相が進んでいる
19
自己相関関数・相互相関関数
-60 -40 -20 0 20 40 600
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Lag (day)
Cor
rela
tion
coef
ficie
nt
Syowa-Syowa
Syowa-Mawson
Syowa leadMawson lead20
相関解析の例
その2
AAOと海洋応答Antarctic Oscillation
10-day bins
気圧のパターンAAO Index
気圧パターン変動の時係数
21
AAO index HIGH AAO index LOW
L L H H
L H
L HWesterly anomaly
EasterlyAnomalyNorthward
Ekman driftSouthwardEkman drift
Sea level LOW Sea level HIGHNegatively-correlated!
22
23
4.5 相関の有意性4.5.1 相関係数の検定
(test of correlation coefficient)
無相関の検定 母相関係数 ρ=0 のときは、標本数 n の相関係数 r は次の
T について、(近似的に)自由度 n-2 の t 分布に従うことが 知られている。
母相関係数に関する検定は一般に母相関係数 ρ=0 という 帰無仮説を検定する。したがって、上の式の
T を求めて
t
検定すればよい。(面倒な計算をしなくてもよいように検定の表がある。)
4.5
T
24
無相関の検定の例:
標本数 n が14で、相関係数 r が
0.361 のデータを考える。
T
この式から T を計算すると、1.438 となる。
この1.438という値は 左図の棄却域には
入っていないので、検定の結果として、有意水準1%では、
相関があるとは言えない。
25
26
両側検定
(two-sided test) Emery and Thomson (2001)
有意水準
27
サンプル数
n(自由度 ν = n-2)のときに標本の相関係数が 表の値よりも大きければ、母相関係数
ρ= 0 という帰無仮説
が棄却され、有意な相関があるといえる。
注意)
相関係数の検定はあくまでも母相関係数が
0 でな い(すなわち相関が弱いとしてもある)ことを判断するだけ
で、帰無仮説が棄却されたからといって「相関が強い」わけ ではない。 相関係数が 0.5 未満では余り意味がない。
例:n=7 で r=0.70:n=12で r=0.65:n=17で r=0.65:
どちらの有意水準でも有意な相関なし
有意水準 5% でのみ有意な相関あり
どちらの有意水準でも有意な相関あり
28
相関係数の例
その3
NAOの持続性
冬のNAOが夏の大気 循環に影響する!
Icelandic LowAzores High
Ogi et al.(2003)
Color:Confidence level
29
Low SST
High Sea ice cover
冬季の北大西洋振動
(NAO) インデックスと海面水温(コンター)海氷分布(ハッチ)、積雪との相関係数3-4月
5-7月
Ogi et al.(2003)
30
•
以上はサンプリングがランダムになさ れている(自由度が保証されている)場合
に適用される。
•
実際には、すべてのデータが独立とは 限らない。
31
4.5.2 有効自由度
(effective degrees of freedom)
•
大気海洋データは、時・空間的に相関をもっている ため
「ν(自由度)=
N(データ数)」にはならない。
•
時系列がランダムである場合は自由度 ν =
N でよ いが、特定の狭帯域波や長周期波が含まれている場 合には自由度は著しく下がる。
松山・谷本 (2005)・気温の季節変化を表すにはおおよそ1ヶ月に1個のサンプリングで12個のデータ
もあれば明確な季節変化を表現できる。仮に1時間に1回のデータを持っていたと
しても365×24個のデータから季節変化を表現することにあまり意味はない。むし
ろ、春夏秋冬に1個ずつであっても、ある程度季節変化を表現することはできる。・毎時の気温365日間のデータについて季節変化を対象とした場合、自由度は2か
ら多くても10以下と言える。逆に、日々の変化を対象にした場合は自由度は数百
程度あると考えてよい。
32
b. 三角関数成分+ノイズ
三角関数は振幅と位相で決まるので、自由度は
2 しかない。
有効自由度=6
高い係数
でも有意で はない
a. ノイズのみ
Chelton (1982)
有効自由度=50
低い係数
でも有意
青矢印は90%の信頼限界
Daily-sampled time series
Seasonal signal
33
有効自由度
(effective degrees of freedom) の推定
実効的に独立な標本間の時間(有効無相関時間)と 呼ばれる Te で、データのサンプル数 N を割って、
有効自由度(有効標本数)Ne を求める。Ne=N/Te
自己相関関数からIntegral time scaleを求める。
Emery and Thomson(1999)
34
比較的簡便な方法は、自己相関関数がはじめて0.2~0.3程度になるラグ時間を特徴的な時間スケール
と定め、時系列全体の長さをこの時間スケールで割ることである(松山・谷本, 2005)。
また、自己相関関数が初めてゼロとなるラグ時間を目安とすることもある。
35
無相関時間(したがって有効自由度)は、現象に内在する 量ではなく、標本の長さにも、またどの統計解析を行うか にも依存する。
詳細については、伊藤・見延 (2010)を参照
36
相関係数についての注意点
はずれ値の影響が大きい。散布図でのチェックが重要。
r = 0.806
r = 0.960 r = -0.503
下の2つの場合は、上の場合に、はずれ値のデータを1つ加えただけ
37
相関係数についての注意点
相関は2つの量(AとBとする)の関係を示すもので、相関が
高いからと言って直接に因果関係を表すものではない。
例えば、AとBの相関が高い場合、Aが原因でBが結果という
場合もあり得るが、その他にも以下のような場合がある。擬似関係(因果関係にない)
1. 他の量Cが両者の原因となって(C AとC B)、AとBに相関
が生じる。2. Aにおける違いが、媒介するDに違いを生みだし、それが原
因となってBを生成するので、AとBに相関が生じる。 A D Bと書けるが、AとBの間には因果関係はない。
3. AとBにはともにトレンドがある。
伊藤・見延 (2010) を参照。
38
1の例:2月の水蒸気量とサクラの
開花日の高い負の相関C=2月の気温A=サクラの開花日B=2月の水蒸気量
擬似相関の例伊藤・見延 (2010) より
2の例:昼間の日射 気温 湿度
という関係D=気温A=昼間の日射B=湿度
39
4.6 回帰4.6
左図のような2つのデータ xi と yi がある時、説明変数 x から目的変数 y を最も良く表す直線を引くには、yi と a+bxi の残差の二乗和
が最小となるようにすれば良い。
相関:2つの変数に関係があるかどうか。
回帰:ある変数によって、もう一つの変数を説明できるか。
40
41
決定係数 (correlation of determination)
y
x
}}{
r が 0.5, 0.6, 0.7 であれば、説明出来る割合は各々約 1/4, 1/3, 1/2となる。よって、r > 0.7 の場合は
支配的と言える。
42
回帰係数の区間推定
43
4.7 回帰分析の実例
その1
von Storch and Zwiers (1999)
赤道西太平洋の水温と南方振動指数(1933年から84年までの624個の月平均)
(SO Index) = -0.09 + 0.15 * (SST Index)
r = 0.67 r2 = 0.455
4.7
44
回帰係数の区間推定の例:
(SO Index) = -0.09 + 0.15 * (SST Index)
45
46
回帰分析の実例
その2
海水面の上昇
Antonov et al. (2002)
説明変数:時間目的変数:トレンド(増加率)
回帰係数決定係数}⇒
47
まとめ
•
相関係数は変数同士の関連の強さを示す指標。
•
変数の周期性を調べたい場合、相関関数を用 いることがある。(→
スペクトル解析)
•
無相関の検定は
t 検定により行うことができ る。
•
相関関係と因果関係は別物である。 →
擬似相関
spurious correlation
•
回帰係数は目的変数を直線であてはめたとき の傾きを示す。