地球惑星物理学演習: データ解析tozuka/enshu/lecture/regcor...6月 4日(月):3,...
TRANSCRIPT
東塚 知己
地球惑星物理学演習: データ解析
~線形回帰解析/相関解析~
日程:5月24日~6月7日(計7回) 5月24日(木):3限前半=講義、残り=演習(課題1) 5月28日(月):3, 4限=演習(課題1続き) 5月30日(水):3, 4限=演習(課題2) 5月31日(木):3限前半=講義、残り=演習(課題3) 6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月 7日(木):3, 4限=演習(課題6)
本演習の日程
内容 最小二乗法を用いた線形回帰解析(2回) 2次元データの相関解析(1回) 自己相関解析(1回) スペクトル解析(3回)
本演習の内容
課題
課題問題に沿ってプログラムを作成し、図と考察とともに電子メールで提出(レポートは、TeXで整形し、図もそれに取り込み、PDFファイルに変換。プログラムは、メール本文に貼付ける)。 提出期限:各課題に明記。 E-mailのタイトル:以下の例に従って、学生番号、氏名、課題問題番号を明記すること。 (例)s12345-T.Todai-1 次回の演習までに、レポートに対するコメントを送ります。
時系列に含まれるトレンド
(℃)
??
気象庁が作成した1880年から現在までの世界の年平均地上気温の平年差(1970年から2000年までの平均気温からの差)
トレンドを検出する手法
線形回帰 より広く用いられてきた。 時系列の始まりや終わり付近に周囲から大きく外れた値があると、これらの影響を受けやすい。
Mann-Kendall Rank Statistic
最小二乗法(1)
二変量X, Yの間には、
が成り立つことが多い。 複数の測定データ(xi, yi)から線形関係のパラメータa, bを求めたい。 測定データ(xi, yi)のできるだけ近くを通過する直線(回帰直線)を最小二乗法によって求めることにする。
Y = aX + b
最小二乗法(2)
仮定: 測定値 yi は、回帰直線上の点を中心にして、ランダムに正規分
布に従って分布する。正規分布の分散値は未定とする。 測定値 xi の分散は、小さく、無視できるとする。
X),0( 2σN
�
Y = aX + b
�
xi
�
yi
�
yi∗ = axi + b
iε
Y
最小二乗法(3)
この時、測定値の実現確率
が最大となるa,bを定める。つまり、測定値と回帰直線の誤差の二乗和
が最小となるa,bを決める。=最小二乗法
P a,b( )∝ exp − 12σ 2 yi − axi − b( )2⎛
⎝⎜⎞⎠⎟i=1
n
∏ = exp − 12σ 2 yi − axi − b( )2
i=1
n
∑⎛⎝⎜
⎞⎠⎟
L a,b( ) = yi − axi − b( )2i=1
n
∑
誤差の二乗和L(a, b)を最小にするa, bは、一次の偏微分を0とおいた2つの方程式
を解くことによって求めることができ、
最小二乗法(4)
回帰直線の傾き:
回帰直線の切片:
∂L∂a
= −2 xi yi − axi − b( )i=1
n
∑ = 0
∂L∂b
= −2 yi − axi − b( )i=1
n
∑ = 0
a = XY − X ⋅Y
X 2 − X( )2
b = X 2 ⋅Y − X ⋅XY
X 2 − X( )2= Y − aX
測定データyiの回帰値Yからのずれ
は、Xで説明されずに残った分であり、回帰残差と呼ばれる。 この誤差項の分散σ2は、回帰直線の当てはまりの良さを表し、この分散の不偏推定量は、
で推定される。 回帰残差の平方和を(n-2)で割るのは、a, bを決める際に2つの拘束条件を課したため、自由度が2失われたから。
回帰直線のパラメータの信頼区間(1)
Sy2 = 1
n − 2yi − axi − b( )2
i=1
n
∑
ei = yi − axi − b
回帰直線のパラメータa, bの分散の不偏推定量は、
回帰直線のパラメータa, bの信頼度1-αの信頼区間は、
回帰直線のパラメータの信頼区間(2)
Sa2 =
Sy2
n X 2 − X( )2( ) Sb2 =
X 2 ⋅Sy2
n X 2 − X( )2( )
a − t n − 2,α( )Sa , a + t n − 2,α( )Sa( )b − t n − 2,α( )Sb , b + t n − 2,α( )Sb( )
線形トレンドの有意性
有意な線形トレンドが存在するかどうか調べる時の傾きaに関する仮説検定は、 仮説H: a=0, 対立仮説K: a≠0 を考え、
の時に有意水準αで仮説Hを棄却すれば良い。
tao =aSa
> t n − 2,α( )
t分布表
注意点:同一の直線が当てはまる例
適用例:太平洋赤道域の年平均東風応力(1)
適用例:太平洋赤道域の年平均東風応力(2)
回帰直線の傾きと切片は、
aとbの分散の不偏推定量は、
X = 159
xi = 1977.0i=1
59
∑ , Y = 159
yi = 0.317i=1
59
∑
X 2 = 159
xi2 = 3.908 ×106
i=1
59
∑ , XY = 159
xi yi = 62.53i=1
59
∑
a = XY − X ⋅Y
X 2 − X( )2= −2.659 ×10−4
b = X 2 ⋅Y − X ⋅XY
X 2 − X( )2= Y − aX = 0.557
Sa2 =
Sy2
n X 2 − X( )2( ) = 2.298 ×10−9 Sb
2 =X 2 ⋅Sy
2
n X 2 − X( )2( ) = 0.0898
0.0317
適用例:太平洋赤道域の年平均東風応力(3)
aの95%信頼区間:-3.634x10-4 < a < -1.683x10-4 bの95%信頼区間: 0.364 < b < 0.75
適用例:太平洋赤道域の年平均東風応力(4)
y=-2.659 x 10-4 x + 0.557
a − t n − 2,α( )Sa , a + t n − 2,α( )Sa( )b − t n − 2,α( )Sb , b + t n − 2,α( )Sb( )
適用例:太平洋赤道域の年平均東風応力(5)
仮説H: a=0, 対立仮説K: a≠0を考えると、
であるので、有意水準5%で太平洋赤道域の東風は弱まる傾向にあると言える。
tao = 2.659 ×10−4
2.298 ×10−9= 5.55 > t 59 − 2,0.05( ) = 2.00
気象庁では、人工衛星に搭載されたマイクロ波放射計により観測された輝度温度データを用いて、1978年10月25日以降の半旬毎の北極域と南極域の海氷面積データを作成している。
課題問題1
1) この半旬毎のデータから、1979年から2016年までの北極域の年平均海氷面積を計算せよ。
2) 1)の年平均海氷面積のデータに最小二乗法を適用することによって、回帰直線を求めよ。また、年平均海氷面積データと回帰直線を重ねて、グラフにプロットせよ。
3) 回帰直線の傾き(=面積の変化率)の95%信頼区間を求めよ。また、面積の変化傾向が、有意か検証せよ。
4) 南極域の海氷面積データについても同様の解析を行い、北極域のデータ解析の結果と比較せよ。
課題問題1
北極域: /home2/tozuka/LR/arctic_alldata.dat
南極域: /home2/tozuka/LR/antarctic_alldata.dat
課題問題1:データの場所
相関係数
r =xi − x( ) yi − y( ) n
i=1
n
∑
xi − x( )2 ni=1
n
∑ yi − y( )2 ni=1
n
∑=
xi − x( ) yi − y( )i=1
n
∑
xi − x( )2i=1
n
∑ yi − y( )2i=1
n
∑
相関係数は、一般的に2つの変量 と との相互の関連の度合いを示す指標のことであり、
で定義される。
もし、 と が無相関であれば、r=0であり、 と がα倍の違いで完全に一致すれば、r=1となる。
xi yi
xi yi xi yi