地球惑星物理学演習: データ解析tozuka/enshu/lecture/regcor...6月 4日(月):3,...

24
東塚 知己 地球惑星物理学演習: データ解析 ~線形回帰解析/相関解析~

Upload: others

Post on 25-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

東塚 知己

地球惑星物理学演習: データ解析

~線形回帰解析/相関解析~

Page 2: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

日程:5月24日~6月7日(計7回) 5月24日(木):3限前半=講義、残り=演習(課題1) 5月28日(月):3, 4限=演習(課題1続き) 5月30日(水):3, 4限=演習(課題2) 5月31日(木):3限前半=講義、残り=演習(課題3) 6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月 7日(木):3, 4限=演習(課題6)

本演習の日程

Page 3: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

内容 最小二乗法を用いた線形回帰解析(2回) 2次元データの相関解析(1回) 自己相関解析(1回) スペクトル解析(3回)

本演習の内容

Page 4: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

課題

課題問題に沿ってプログラムを作成し、図と考察とともに電子メールで提出(レポートは、TeXで整形し、図もそれに取り込み、PDFファイルに変換。プログラムは、メール本文に貼付ける)。 提出期限:各課題に明記。 E-mailのタイトル:以下の例に従って、学生番号、氏名、課題問題番号を明記すること。 (例)s12345-T.Todai-1 次回の演習までに、レポートに対するコメントを送ります。

Page 5: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

時系列に含まれるトレンド

(℃)

??

気象庁が作成した1880年から現在までの世界の年平均地上気温の平年差(1970年から2000年までの平均気温からの差)

Page 6: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

トレンドを検出する手法

線形回帰 より広く用いられてきた。 時系列の始まりや終わり付近に周囲から大きく外れた値があると、これらの影響を受けやすい。

Mann-Kendall Rank Statistic

Page 7: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

最小二乗法(1)

二変量X, Yの間には、

が成り立つことが多い。 複数の測定データ(xi, yi)から線形関係のパラメータa, bを求めたい。 測定データ(xi, yi)のできるだけ近くを通過する直線(回帰直線)を最小二乗法によって求めることにする。

Y = aX + b

Page 8: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

最小二乗法(2)

仮定: 測定値 yi は、回帰直線上の点を中心にして、ランダムに正規分

布に従って分布する。正規分布の分散値は未定とする。 測定値 xi の分散は、小さく、無視できるとする。

X),0( 2σN

Y = aX + b

xi

yi

yi∗ = axi + b

Y

Page 9: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

最小二乗法(3)

この時、測定値の実現確率

が最大となるa,bを定める。つまり、測定値と回帰直線の誤差の二乗和

が最小となるa,bを決める。=最小二乗法

P a,b( )∝ exp − 12σ 2 yi − axi − b( )2⎛

⎝⎜⎞⎠⎟i=1

n

∏ = exp − 12σ 2 yi − axi − b( )2

i=1

n

∑⎛⎝⎜

⎞⎠⎟

L a,b( ) = yi − axi − b( )2i=1

n

Page 10: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

誤差の二乗和L(a, b)を最小にするa, bは、一次の偏微分を0とおいた2つの方程式

を解くことによって求めることができ、

最小二乗法(4)

回帰直線の傾き:

回帰直線の切片:

∂L∂a

= −2 xi yi − axi − b( )i=1

n

∑ = 0

∂L∂b

= −2 yi − axi − b( )i=1

n

∑ = 0

a = XY − X ⋅Y

X 2 − X( )2

b = X 2 ⋅Y − X ⋅XY

X 2 − X( )2= Y − aX

Page 11: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

測定データyiの回帰値Yからのずれ

は、Xで説明されずに残った分であり、回帰残差と呼ばれる。 この誤差項の分散σ2は、回帰直線の当てはまりの良さを表し、この分散の不偏推定量は、

で推定される。 回帰残差の平方和を(n-2)で割るのは、a, bを決める際に2つの拘束条件を課したため、自由度が2失われたから。

回帰直線のパラメータの信頼区間(1)

Sy2 = 1

n − 2yi − axi − b( )2

i=1

n

ei = yi − axi − b

Page 12: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

回帰直線のパラメータa, bの分散の不偏推定量は、

回帰直線のパラメータa, bの信頼度1-αの信頼区間は、

回帰直線のパラメータの信頼区間(2)

Sa2 =

Sy2

n X 2 − X( )2( ) Sb2 =

X 2 ⋅Sy2

n X 2 − X( )2( )

a − t n − 2,α( )Sa , a + t n − 2,α( )Sa( )b − t n − 2,α( )Sb , b + t n − 2,α( )Sb( )

Page 13: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

線形トレンドの有意性

有意な線形トレンドが存在するかどうか調べる時の傾きaに関する仮説検定は、 仮説H: a=0, 対立仮説K: a≠0 を考え、

の時に有意水準αで仮説Hを棄却すれば良い。

tao =aSa

> t n − 2,α( )

Page 14: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

t分布表

Page 15: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

注意点:同一の直線が当てはまる例

Page 16: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

適用例:太平洋赤道域の年平均東風応力(1)

Page 17: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

適用例:太平洋赤道域の年平均東風応力(2)

回帰直線の傾きと切片は、

aとbの分散の不偏推定量は、

X = 159

xi = 1977.0i=1

59

∑ , Y = 159

yi = 0.317i=1

59

X 2 = 159

xi2 = 3.908 ×106

i=1

59

∑ , XY = 159

xi yi = 62.53i=1

59

a = XY − X ⋅Y

X 2 − X( )2= −2.659 ×10−4

b = X 2 ⋅Y − X ⋅XY

X 2 − X( )2= Y − aX = 0.557

Sa2 =

Sy2

n X 2 − X( )2( ) = 2.298 ×10−9 Sb

2 =X 2 ⋅Sy

2

n X 2 − X( )2( ) = 0.0898

0.0317

Page 18: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

適用例:太平洋赤道域の年平均東風応力(3)

Page 19: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

aの95%信頼区間:-3.634x10-4 < a < -1.683x10-4 bの95%信頼区間: 0.364 < b < 0.75

適用例:太平洋赤道域の年平均東風応力(4)

y=-2.659 x 10-4 x + 0.557

a − t n − 2,α( )Sa , a + t n − 2,α( )Sa( )b − t n − 2,α( )Sb , b + t n − 2,α( )Sb( )

Page 20: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

適用例:太平洋赤道域の年平均東風応力(5)

仮説H: a=0, 対立仮説K: a≠0を考えると、

であるので、有意水準5%で太平洋赤道域の東風は弱まる傾向にあると言える。

tao = 2.659 ×10−4

2.298 ×10−9= 5.55 > t 59 − 2,0.05( ) = 2.00

Page 21: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

気象庁では、人工衛星に搭載されたマイクロ波放射計により観測された輝度温度データを用いて、1978年10月25日以降の半旬毎の北極域と南極域の海氷面積データを作成している。

課題問題1

Page 22: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

1) この半旬毎のデータから、1979年から2016年までの北極域の年平均海氷面積を計算せよ。

2) 1)の年平均海氷面積のデータに最小二乗法を適用することによって、回帰直線を求めよ。また、年平均海氷面積データと回帰直線を重ねて、グラフにプロットせよ。

3) 回帰直線の傾き(=面積の変化率)の95%信頼区間を求めよ。また、面積の変化傾向が、有意か検証せよ。

4) 南極域の海氷面積データについても同様の解析を行い、北極域のデータ解析の結果と比較せよ。

課題問題1

Page 23: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

北極域: /home2/tozuka/LR/arctic_alldata.dat

南極域: /home2/tozuka/LR/antarctic_alldata.dat

課題問題1:データの場所

Page 24: 地球惑星物理学演習: データ解析tozuka/ENSHU/Lecture/regcor...6月 4日(月):3, 4限=演習(課題4) 6月 6日(水):3, 4限=演習(課題5) 6月

相関係数

r =xi − x( ) yi − y( ) n

i=1

n

xi − x( )2 ni=1

n

∑ yi − y( )2 ni=1

n

∑=

xi − x( ) yi − y( )i=1

n

xi − x( )2i=1

n

∑ yi − y( )2i=1

n

相関係数は、一般的に2つの変量 と との相互の関連の度合いを示す指標のことであり、

で定義される。

もし、 と が無相関であれば、r=0であり、 と がα倍の違いで完全に一致すれば、r=1となる。

xi yi

xi yi xi yi