単回帰分析 - kansai u · 2011-07-07 · 1 最小2乗法と回帰直線...

Post on 06-Jun-2020

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

単回帰分析

2つ以上の変数についての関係を見る。

1つの(目的、被説明)変数を、その他の(説明)変数を使って、予測しようというものである。

因果関係とは限らない。

1

ここで勉強すること

最小2乗法と回帰直線

決定係数とは何か?

2

1 最小2乗法と回帰直線

これまで、2変数の間の関係の深さについて考えてきた(相関係数)。

ここでは、変数に役割を与え、一方の(説明)変数を用いて他方の(目的、被説明)変数を説明することを考える(回帰分析)

この関係は、必ずしも、因果関係でなくてもよい。

3

直近のデータを利用して予測する

時間的に先行する測定値から、遅れて観察される他の測定値を予測する。

例1)前日のニューヨーク市場の指数をもとに、東京市場の変動を予測する。

例2)人体の中で最も成長の早い部位で、かつ身長と相関の深い量を測定して、最終的な身長を予測する(怪しい説である)。

収益率の相関係数行列2009年

5

6

7

収益率の相関係数行列2008年

8

9

収益率の相関係数行列2007年

10

調査困難な量を推測する

調査するのに膨大な時間と経費のかかる量を、代替物の測定値をもとに推測する(精密調査法の代わりに、簡易検査法を用いる)。

例1)体脂肪率を測定する。

家庭にある体脂肪計を用いる。

例2)アルツハイマー病の診断

脳の中を調べる代わりに、脳脊髄を調べる。

体脂肪率測定の場合

正確な測定(被説明変数・目的変数)

体をスキャンして計算する.

水中体重測定法(空気置換法)により体の容積を測定する。

生体インピーダンスを測定する(説明変数)。

予測式を立てる

身長、体重、年齢、性別なども考慮に入れる。

アルツハイマー病の診断法2010/10/25日経朝刊より

脳内にタンパク質断片(ペプチド)の1種「アミロイドβ」が蓄積して発病する。

病気の進行程度を目的(被説明)変数とし、

脳脊髄の「AL1β」の濃度を説明変数とする。

13

直線 y=α+βx とは?

14

xy

直線 y=α+βx とは?

15

1

xy

点(0、 α) を通る傾き β の直線

直線 y=b+c(x-a) とは?

16

)( axcby

直線 y=b+c(x-a) とは?

a

c

17

1

)( axcby

b

点(a ,b)を通る傾きcの直線

直線 y=α+βx を回帰直線と考えるとき

18

xi

xy

直線 y=α+βx を回帰直線と考えるとき

19

(xi ,yi )

xi

yi xy

ii xy *}

i

iiiii xyy *

観測値には誤差が加わっている

直線 y=α+βx を回帰直線と考えるときの観測値の得られ方

3x20

xy

1x2x

直線 y=α+βx を回帰直線と考えるときの観測値の得られ方

3x

3

21

),( 11 yx

2yxy

1

1x

1y

2x

),( 22 yx

2

回帰直線 y=α+βx は未知である

22

xy

回帰直線 y=α+βx は未知である

xbay

23

xy

データから推定するしかない。

直線であるという保証もない。

直線 y=α+βx の推定法

上の式を最小にするように、αとβを決める。

最小2乗法により決めるとも言う。

24

2

11

2 )(11

)5.1(

n

i

ii

n

i i xynn

2

11

2 )()6.1(

n

i

ii

n

i i xySSE

上の Sum of Squared Errors を最少化するとも考えられる。

回帰直線 y=α+βx の推定法(図解)

xbay

2x 251x

2

1

)(

n

i

ii xbay

回帰直線 y=α+βx の推定法(図解)

xbay

2x

11 xbay

261x

1y

1xba

22 xbay

赤線の長さの2乗和を最小にする a、 b を求めよう。

2y

2xba

2

1

)(

n

i

ii xbay

最小2乗推定値の公式結果を先に示す

27

xx

xy

n

i i

n

i ii

s

s

xx

yyxxb

1

2

1

)(

))(()7.1(

xbya )8.1(

sxy 1

n(xi x )(yi y ), sxx

1

n(xi x )2

i1

n

i1

n

ここで、

回帰直線とは

28x

y

xx

xy

i

ii

s

s

xx

xxyyb

2)(

)()(

xbya

回帰直線とは

29x

y

xx

xy

i

ii

s

s

xx

xxyyb

2)(

)()(

)( xxbyy

xbya bxay

の直線傾き

を通る

b

yx ),(

回帰分析の実習

30

散布図を描く

31

散布図(相関図)を完成させよう

データ点に、番号をつける。

12 3

32

平均と平均からの偏差を求める

172167 5648

172172 5654

33

分散、共分散の計算

68

25)5( 2 64)8( 2 40)8()5(

002 4)2( 2 0)2(0

6.13190

38

92

4.18

34

回帰直線の切片と傾き

35

352.168

92

6.13

4.18

7.176176352.156

相関係数81.0386.13

4.18

回帰直線を描き込む。

12 3

36x

y

10

5.13

)172(352.156 xy

残差とは? 実際の観測値と推定値との差を残差と呼ぶ。

37

xi

yi

x

y

)( xxby

xbay

)(ˆiiiii xbayyye

残差とは? 実際の観測値と推定値との差を残差と呼ぶ。

)()(

)}({

)(

xxbyy

xxbyy

xbaye

ii

ii

iii

38

(xi ,yi )

xi

yi

ie

ii xbay ˆ

x

y

)( xxby

xbay

残差プロット

y 軸に残差をとったものを残差プロットと呼ぶ。

39

xbay

残差プロット

y 軸に残差をとったものを残差プロットと呼ぶ。

40

(xi ,yi )

xbay

yi

ie

ii xbay ˆ

ix

ie

-6.00

-4.00

-2.00

0.00

2.00

4.00

6.00

165 170 175 180

残差の計算と残差プロット

41

-6.00

-4.00

-2.00

0.00

2.00

4.00

6.00

165 170 175 180

残差の計算と残差プロット

42

56 0

残差の和と残差の平方和

残差の総和は0である。

43

)(11

i

n

i

i

n

i

i xbaye

2

1

22

1

)(1

)(1

i

n

i

ii

n

i

iee xbayn

eeen

s

e 0

当然のことだが、残差の平均も0である。

残差の分散は、下のように表される。

n

i

i

n

i

i xxbyy11

)()( 0

xbya

残差について考える

この場合は、身長の影響を取り除いた体重と考えてよい。

残差がプラスの場合、身長の割に重いと言える。

残差は、身長以外の他の要素で説明されるかもしれない。

44

残差分散

)(ˆ xxbyybay iii

yyxx

xy

yyss

ss

2

1

2

1

)(1

xxbyyn

i

n

i

i

xx

xy

s

sb

45

n

i

iiee yyn

s1

2)ˆ(1

222 )(1

))((1

2)(1

xxn

bxxyyn

byyn

iiii

xx

xx

xy

xy

xx

xy

yy ss

ss

s

ss

2

2

残差平方和と相関係数の関係

46

相関係数:xyr

相関係数が1に近いほど、残差平方和は小さくなる。つまり、推定精度が高い。

回帰の決定係数という:2

xyr

)1( 2

xyyyee rss

と書く。あるいはあるいは 222 Rrrxy

残差平方和の計算

47

)81.01(38)1( 22 xyyyee rss

62.311.13 ees16.638 yys

3 決定係数

決定係数は相関係数を2乗したものであるが、その他にもさまざまな方法で性格づけができる。

48

相関係数:xyr

回帰の決定係数という:2

xyr

x

y

決定係数の意味(小さな相関)図を書いてみる

y

x

)1( 2

xyyyee rss

49

22 )(

11iiiee xbay

ne

ns

xbay

n

i

iyy yyn

S1

2)(1

決定係数の意味(小さな相関)図を書いてみる

y

x

)1( 2

xyyyee rss

50

22 )(

11iiiee xbay

ne

ns

ie

xbay

x

y

1e

2e

n

i

iyy yyn

S1

2)(1

相関係数が小さければ、残差分散は小さくならない

決定係数の意味(大きな相関)図を書いてみる

y

x

)1( 2

xyyyee rss

51

22 )(

11iiiee xbay

ne

ns

x

xbay

y

n

i

iyy yyn

S1

2)(1

決定係数の意味(大きな相関)図を書いてみる

y

x

)1( 2

xyyyee rss

52

22 )(

11iiiee xbay

ne

ns

x

xbay

y

n

i

iyy yyn

S1

2)(1

相関係数が大きければ、残差分散は小さくなる

以上が第一回目

第二回目は、身長体重データ(102名)を使って復習する。

決定係数の意味を説明する

決定係数とは、回帰直線により説明できた割合を言う。

53

y の変動の分解と決定係数)ˆ()ˆ( yyyyyy iiii

54

(xi ,yi )

xi

yi

xbay

ˆ y i

x

y

y の変動の分解と決定係数)ˆ()ˆ( yyyyyy iiii

55

(xi ,yi )

xi

yi

xbay

ˆ y i

x

y

yyi

平均からの偏差

残差: 回帰直線では説明しきれない部分

回帰直線で説明できる部分

yyi ˆ

iii yye ˆ

y の全変動(平均からの変動)

56

(xi ,yi )

xi

yi

xbay

x

y

yyi

2

1

)(

n

i

i yy

y の全変動(平均からの変動)

57

(xi ,yi )

xi

yi

xbay

x

y

yyi

平均からの偏差

2

1

)(

n

i

i yy

回帰で説明されない変動(残差)

58

(xi ,yi )

xi

yi

xbay

x

y

ii yy ˆ

n

i

i

n

i

ii eyy1

22

1

)ˆ(

ˆ y i

iii yye ˆ

回帰で説明されない変動(残差)

59

(xi ,yi )

xi

yi

xbay

x

y

ii yy ˆ

残差

n

i

i

n

i

ii eyy1

22

1

)ˆ(

ˆ y i

iii yye ˆ

回帰で説明される変動

60

(xi ,yi )

xbay

x

y

yyi ˆ

2

1

)ˆ(

n

i

i yy

ˆ y i

回帰で説明される変動

61

(xi ,yi )

xbay

x

y

yyi ˆ

説明できた部分

2

1

)ˆ(

n

i

i yy

ˆ y i

決定係数のもう一つの意味

2)ˆ( ii yy 2)ˆ( yyi

62

2)( yyi

2)( yyi 2)( yyi

2)ˆ( ii yy 2)ˆ( yyi

両辺を で割ると、 2)( yyi

2)( yyi

2)( yyi

決定係数のもう一つの意味

2)ˆ( ii yy 2)ˆ( yyi

63

2)( yyi

と呼ぶ.この部分を 2R

2)( yyi 2)( yyi

2)ˆ( ii yy 2)ˆ( yyi

計算すれば、この等式が成り立つことが分かる。

両辺を で割ると、 2)( yyi

2)( yyi

2)( yyi

1

決定係数の意味(さらに)

64

12R

2)( yyi

2)ˆ( ii yy

2)( yyi 2)( yyi

2)ˆ( ii yy 2)ˆ( yyi

2)( yyi

2)( yyi

1

2R

1 2)( yyi

2

ie

決定係数の意味(さらに)

65

12R

2)( yyi

2)ˆ( ii yy

2)( yyi 2)( yyi

2)ˆ( ii yy 2)ˆ( yyi

2)( yyi

2)( yyi

1

2R

1 2)( yyi

2

ie

決定係数のまとめ

66

)1( 2

xyyyee rss

22

xyrR 2)( yyi

2)ˆ( yyi

2R

2R 1 2)( yyi

2

ie

決定係数のまとめ

67

)1( 2

xyyyee rss

22

xyrR 2)( yyi

2)ˆ( yyi

2R

2R 1 2)( yyi

2

ie

決定係数は、全変動のうち回帰で説明できる割合である。

決定係数は、相関係数の2乗である。

決定係数は、全変動のから回帰で説明できなかった部分を除いた割合である。

68

プロ野球 J1

犯罪率と死亡率の関係

69

犯罪率が上がると、死亡率が下がると考えて良いのだろうか?

人口構成比の内、20‐34歳人口に注目してみる。

70

死亡率と犯罪率から、20‐34歳人口の影響を取り除いた残差の相関係数を求めてみる。

71

最小2乗推定値の求め方(1)難

72

2)}()(){( xbayxxbyy ii

n

i

ii xbay1

2)( 2)( xbxbxbayyy ii

})()(2

))((2))((2

)()()({ 2222

xxxbayb

yyxbayyyxxb

xbayxxbyy

i

iii

ii

最小2乗推定値の求め方(2)難

})()(2

))((2))((2

)()()({ 2222

xxxbay

yyxbaybyyxxb

xbayxxbyy

i

iii

ii

0 73

)()(2

)()(2)()(2

)()()( 2222

yyxbay

xxxbaybxxyyb

xbaynxxbyy

i

iii

ii

最小2乗推定値の求め方(3)難

になる.のとき0xbya 74

2

222

1

2

)()()(2

)()()(

xbaynxxyyb

xxbyyxbay

ii

ii

n

i

ii

1。この部分を最小にするように b を決める

22

2

22

)()(

)(

)()(2)(

yyxbayn

bxx

xxyybxx

i

i

ii

i

最小2乗推定値の求め方(4)難

2

2

2

2)

)(

)()(()

)(

)()((

xx

xxyy

xx

xxyyb

i

ii

i

ii

2)(

)()(

xx

xxyyb

i

ii のとき最小となる。

75

bxx

xxyyb

i

ii

2

2

)(

)()(2

決定係数とは(2)難

)(ˆ xxbyy ii

2)(

))((

xx

yyxx

s

sb

i

ii

xx

xy

76

(yi y i1

n

)2 {(yi ˆ y i ) ( ˆ y i y )}2

(yi ˆ y i )2 ( ˆ y i y )2 2 (yi ˆ y i )( ˆ y i y )

0)())((

)}()}{({)ˆ)(ˆ(

22

xxbxxyyb

xxbxxbyyyyyy

iii

iiiiii

なぜなら、

決定係数とは(3) 難

2

1

2

2

1

2

)(

)ˆ(

)(

)ˆ(1

n

i

i

i

n

i

i

ii

yy

yy

yy

yy

77

222

1

)ˆ()ˆ()( yyyyyy iii

n

i

i

決定係数:R2

全変動のうち、回帰による変動の占める割

( ˆ y i y )2

(yi y i1

n

)2

{b(xi x )}2

(yi y i1

n

)2

b21

n(xi x )2

1

n(yi y

i1

n

)2

sxy

2

sxx syy

回帰からの変動

全変動 回帰による変動

決定係数とは(4)難

78

2

1

2

2

1

2

2

1

2

2

)(

1

)(

)ˆ(1

)(

)ˆ(

n

i

i

i

n

i

i

ii

n

i

i

i

yy

e

yy

yy

yy

yyR

R2 ( ˆ y i y )2

(yi y i1

n

)2

sxy

2

sxx syy

相関係数の2乗

この表現が後に重要になる

top related