単回帰分析 - kansai u · 2011-07-07 · 1 最小2乗法と回帰直線...
TRANSCRIPT
単回帰分析
2つ以上の変数についての関係を見る。
1つの(目的、被説明)変数を、その他の(説明)変数を使って、予測しようというものである。
因果関係とは限らない。
1
ここで勉強すること
最小2乗法と回帰直線
決定係数とは何か?
2
1 最小2乗法と回帰直線
これまで、2変数の間の関係の深さについて考えてきた(相関係数)。
ここでは、変数に役割を与え、一方の(説明)変数を用いて他方の(目的、被説明)変数を説明することを考える(回帰分析)
この関係は、必ずしも、因果関係でなくてもよい。
3
直近のデータを利用して予測する
時間的に先行する測定値から、遅れて観察される他の測定値を予測する。
例1)前日のニューヨーク市場の指数をもとに、東京市場の変動を予測する。
例2)人体の中で最も成長の早い部位で、かつ身長と相関の深い量を測定して、最終的な身長を予測する(怪しい説である)。
収益率の相関係数行列2009年
5
6
7
収益率の相関係数行列2008年
8
9
収益率の相関係数行列2007年
10
調査困難な量を推測する
調査するのに膨大な時間と経費のかかる量を、代替物の測定値をもとに推測する(精密調査法の代わりに、簡易検査法を用いる)。
例1)体脂肪率を測定する。
家庭にある体脂肪計を用いる。
例2)アルツハイマー病の診断
脳の中を調べる代わりに、脳脊髄を調べる。
体脂肪率測定の場合
正確な測定(被説明変数・目的変数)
体をスキャンして計算する.
水中体重測定法(空気置換法)により体の容積を測定する。
生体インピーダンスを測定する(説明変数)。
予測式を立てる
身長、体重、年齢、性別なども考慮に入れる。
アルツハイマー病の診断法2010/10/25日経朝刊より
脳内にタンパク質断片(ペプチド)の1種「アミロイドβ」が蓄積して発病する。
病気の進行程度を目的(被説明)変数とし、
脳脊髄の「AL1β」の濃度を説明変数とする。
13
直線 y=α+βx とは?
14
xy
直線 y=α+βx とは?
15
1
xy
点(0、 α) を通る傾き β の直線
直線 y=b+c(x-a) とは?
16
)( axcby
直線 y=b+c(x-a) とは?
a
c
17
1
)( axcby
b
点(a ,b)を通る傾きcの直線
直線 y=α+βx を回帰直線と考えるとき
18
xi
xy
直線 y=α+βx を回帰直線と考えるとき
19
(xi ,yi )
xi
yi xy
ii xy *}
i
iiiii xyy *
観測値には誤差が加わっている
直線 y=α+βx を回帰直線と考えるときの観測値の得られ方
3x20
xy
1x2x
直線 y=α+βx を回帰直線と考えるときの観測値の得られ方
3x
3
21
),( 11 yx
2yxy
1
1x
1y
2x
),( 22 yx
2
回帰直線 y=α+βx は未知である
22
xy
回帰直線 y=α+βx は未知である
xbay
23
xy
データから推定するしかない。
直線であるという保証もない。
直線 y=α+βx の推定法
上の式を最小にするように、αとβを決める。
最小2乗法により決めるとも言う。
24
2
11
2 )(11
)5.1(
n
i
ii
n
i i xynn
2
11
2 )()6.1(
n
i
ii
n
i i xySSE
上の Sum of Squared Errors を最少化するとも考えられる。
回帰直線 y=α+βx の推定法(図解)
xbay
2x 251x
2
1
)(
n
i
ii xbay
回帰直線 y=α+βx の推定法(図解)
xbay
2x
11 xbay
261x
1y
1xba
22 xbay
赤線の長さの2乗和を最小にする a、 b を求めよう。
2y
2xba
2
1
)(
n
i
ii xbay
最小2乗推定値の公式結果を先に示す
27
xx
xy
n
i i
n
i ii
s
s
xx
yyxxb
1
2
1
)(
))(()7.1(
xbya )8.1(
sxy 1
n(xi x )(yi y ), sxx
1
n(xi x )2
i1
n
i1
n
ここで、
回帰直線とは
28x
y
xx
xy
i
ii
s
s
xx
xxyyb
2)(
)()(
xbya
回帰直線とは
29x
y
xx
xy
i
ii
s
s
xx
xxyyb
2)(
)()(
)( xxbyy
xbya bxay
の直線傾き
を通る
b
yx ),(
回帰分析の実習
30
散布図を描く
1
31
散布図(相関図)を完成させよう
データ点に、番号をつける。
12 3
4
5
32
平均と平均からの偏差を求める
172167 5648
172172 5654
33
分散、共分散の計算
68
25)5( 2 64)8( 2 40)8()5(
002 4)2( 2 0)2(0
6.13190
38
92
4.18
34
回帰直線の切片と傾き
35
352.168
92
6.13
4.18
7.176176352.156
相関係数81.0386.13
4.18
回帰直線を描き込む。
12 3
4
5
36x
y
10
5.13
)172(352.156 xy
残差とは? 実際の観測値と推定値との差を残差と呼ぶ。
37
xi
yi
x
y
)( xxby
xbay
)(ˆiiiii xbayyye
残差とは? 実際の観測値と推定値との差を残差と呼ぶ。
)()(
)}({
)(
xxbyy
xxbyy
xbaye
ii
ii
iii
38
(xi ,yi )
xi
yi
ie
ii xbay ˆ
x
y
)( xxby
xbay
残差プロット
y 軸に残差をとったものを残差プロットと呼ぶ。
39
xbay
残差プロット
y 軸に残差をとったものを残差プロットと呼ぶ。
40
(xi ,yi )
xbay
yi
ie
ii xbay ˆ
ix
ie
-6.00
-4.00
-2.00
0.00
2.00
4.00
6.00
165 170 175 180
残差の計算と残差プロット
41
-6.00
-4.00
-2.00
0.00
2.00
4.00
6.00
165 170 175 180
残差の計算と残差プロット
42
56 0
残差の和と残差の平方和
残差の総和は0である。
43
)(11
i
n
i
i
n
i
i xbaye
2
1
22
1
)(1
)(1
i
n
i
ii
n
i
iee xbayn
eeen
s
e 0
当然のことだが、残差の平均も0である。
残差の分散は、下のように表される。
n
i
i
n
i
i xxbyy11
)()( 0
xbya
残差について考える
この場合は、身長の影響を取り除いた体重と考えてよい。
残差がプラスの場合、身長の割に重いと言える。
残差は、身長以外の他の要素で説明されるかもしれない。
44
残差分散
)(ˆ xxbyybay iii
yyxx
xy
yyss
ss
2
1
2
1
)(1
xxbyyn
i
n
i
i
xx
xy
s
sb
45
n
i
iiee yyn
s1
2)ˆ(1
222 )(1
))((1
2)(1
xxn
bxxyyn
byyn
iiii
xx
xx
xy
xy
xx
xy
yy ss
ss
s
ss
2
2
残差平方和と相関係数の関係
46
相関係数:xyr
相関係数が1に近いほど、残差平方和は小さくなる。つまり、推定精度が高い。
回帰の決定係数という:2
xyr
)1( 2
xyyyee rss
と書く。あるいはあるいは 222 Rrrxy
残差平方和の計算
47
)81.01(38)1( 22 xyyyee rss
62.311.13 ees16.638 yys
3 決定係数
決定係数は相関係数を2乗したものであるが、その他にもさまざまな方法で性格づけができる。
48
相関係数:xyr
回帰の決定係数という:2
xyr
x
y
決定係数の意味(小さな相関)図を書いてみる
y
x
)1( 2
xyyyee rss
49
22 )(
11iiiee xbay
ne
ns
xbay
n
i
iyy yyn
S1
2)(1
決定係数の意味(小さな相関)図を書いてみる
y
x
)1( 2
xyyyee rss
50
22 )(
11iiiee xbay
ne
ns
ie
xbay
x
y
1e
2e
n
i
iyy yyn
S1
2)(1
相関係数が小さければ、残差分散は小さくならない
決定係数の意味(大きな相関)図を書いてみる
y
x
)1( 2
xyyyee rss
51
22 )(
11iiiee xbay
ne
ns
x
xbay
y
n
i
iyy yyn
S1
2)(1
決定係数の意味(大きな相関)図を書いてみる
y
x
)1( 2
xyyyee rss
52
22 )(
11iiiee xbay
ne
ns
x
xbay
y
n
i
iyy yyn
S1
2)(1
相関係数が大きければ、残差分散は小さくなる
以上が第一回目
第二回目は、身長体重データ(102名)を使って復習する。
決定係数の意味を説明する
決定係数とは、回帰直線により説明できた割合を言う。
53
y の変動の分解と決定係数)ˆ()ˆ( yyyyyy iiii
54
(xi ,yi )
xi
yi
xbay
ˆ y i
x
y
y の変動の分解と決定係数)ˆ()ˆ( yyyyyy iiii
55
(xi ,yi )
xi
yi
xbay
ˆ y i
x
y
yyi
平均からの偏差
残差: 回帰直線では説明しきれない部分
回帰直線で説明できる部分
yyi ˆ
iii yye ˆ
y の全変動(平均からの変動)
56
(xi ,yi )
xi
yi
xbay
x
y
yyi
2
1
)(
n
i
i yy
y の全変動(平均からの変動)
57
(xi ,yi )
xi
yi
xbay
x
y
yyi
平均からの偏差
2
1
)(
n
i
i yy
回帰で説明されない変動(残差)
58
(xi ,yi )
xi
yi
xbay
x
y
ii yy ˆ
n
i
i
n
i
ii eyy1
22
1
)ˆ(
ˆ y i
iii yye ˆ
回帰で説明されない変動(残差)
59
(xi ,yi )
xi
yi
xbay
x
y
ii yy ˆ
残差
n
i
i
n
i
ii eyy1
22
1
)ˆ(
ˆ y i
iii yye ˆ
回帰で説明される変動
60
(xi ,yi )
xbay
x
y
yyi ˆ
2
1
)ˆ(
n
i
i yy
ˆ y i
回帰で説明される変動
61
(xi ,yi )
xbay
x
y
yyi ˆ
説明できた部分
2
1
)ˆ(
n
i
i yy
ˆ y i
決定係数のもう一つの意味
2)ˆ( ii yy 2)ˆ( yyi
62
2)( yyi
2)( yyi 2)( yyi
2)ˆ( ii yy 2)ˆ( yyi
両辺を で割ると、 2)( yyi
2)( yyi
2)( yyi
決定係数のもう一つの意味
2)ˆ( ii yy 2)ˆ( yyi
63
2)( yyi
と呼ぶ.この部分を 2R
2)( yyi 2)( yyi
2)ˆ( ii yy 2)ˆ( yyi
計算すれば、この等式が成り立つことが分かる。
両辺を で割ると、 2)( yyi
2)( yyi
2)( yyi
1
決定係数の意味(さらに)
64
12R
2)( yyi
2)ˆ( ii yy
2)( yyi 2)( yyi
2)ˆ( ii yy 2)ˆ( yyi
2)( yyi
2)( yyi
1
2R
1 2)( yyi
2
ie
決定係数の意味(さらに)
65
12R
2)( yyi
2)ˆ( ii yy
2)( yyi 2)( yyi
2)ˆ( ii yy 2)ˆ( yyi
2)( yyi
2)( yyi
1
2R
1 2)( yyi
2
ie
決定係数のまとめ
66
)1( 2
xyyyee rss
22
xyrR 2)( yyi
2)ˆ( yyi
2R
2R 1 2)( yyi
2
ie
。
決定係数のまとめ
67
)1( 2
xyyyee rss
22
xyrR 2)( yyi
2)ˆ( yyi
2R
2R 1 2)( yyi
2
ie
決定係数は、全変動のうち回帰で説明できる割合である。
決定係数は、相関係数の2乗である。
決定係数は、全変動のから回帰で説明できなかった部分を除いた割合である。
68
プロ野球 J1
犯罪率と死亡率の関係
69
犯罪率が上がると、死亡率が下がると考えて良いのだろうか?
人口構成比の内、20‐34歳人口に注目してみる。
70
死亡率と犯罪率から、20‐34歳人口の影響を取り除いた残差の相関係数を求めてみる。
71
最小2乗推定値の求め方(1)難
72
2)}()(){( xbayxxbyy ii
n
i
ii xbay1
2)( 2)( xbxbxbayyy ii
})()(2
))((2))((2
)()()({ 2222
xxxbayb
yyxbayyyxxb
xbayxxbyy
i
iii
ii
最小2乗推定値の求め方(2)難
})()(2
))((2))((2
)()()({ 2222
xxxbay
yyxbaybyyxxb
xbayxxbyy
i
iii
ii
0 73
)()(2
)()(2)()(2
)()()( 2222
yyxbay
xxxbaybxxyyb
xbaynxxbyy
i
iii
ii
最小2乗推定値の求め方(3)難
になる.のとき0xbya 74
2
222
1
2
)()()(2
)()()(
xbaynxxyyb
xxbyyxbay
ii
ii
n
i
ii
1。この部分を最小にするように b を決める
22
2
22
)()(
)(
)()(2)(
yyxbayn
bxx
xxyybxx
i
i
ii
i
最小2乗推定値の求め方(4)難
2
2
2
2)
)(
)()(()
)(
)()((
xx
xxyy
xx
xxyyb
i
ii
i
ii
2)(
)()(
xx
xxyyb
i
ii のとき最小となる。
75
bxx
xxyyb
i
ii
2
2
)(
)()(2
決定係数とは(2)難
)(ˆ xxbyy ii
2)(
))((
xx
yyxx
s
sb
i
ii
xx
xy
76
(yi y i1
n
)2 {(yi ˆ y i ) ( ˆ y i y )}2
(yi ˆ y i )2 ( ˆ y i y )2 2 (yi ˆ y i )( ˆ y i y )
0)())((
)}()}{({)ˆ)(ˆ(
22
xxbxxyyb
xxbxxbyyyyyy
iii
iiiiii
0
なぜなら、
決定係数とは(3) 難
2
1
2
2
1
2
)(
)ˆ(
)(
)ˆ(1
n
i
i
i
n
i
i
ii
yy
yy
yy
yy
77
222
1
)ˆ()ˆ()( yyyyyy iii
n
i
i
決定係数:R2
全変動のうち、回帰による変動の占める割
合
( ˆ y i y )2
(yi y i1
n
)2
{b(xi x )}2
(yi y i1
n
)2
b21
n(xi x )2
1
n(yi y
i1
n
)2
sxy
2
sxx syy
回帰からの変動
全変動 回帰による変動
決定係数とは(4)難
78
2
1
2
2
1
2
2
1
2
2
)(
1
)(
)ˆ(1
)(
)ˆ(
n
i
i
i
n
i
i
ii
n
i
i
i
yy
e
yy
yy
yy
yyR
R2 ( ˆ y i y )2
(yi y i1
n
)2
sxy
2
sxx syy
相関係数の2乗
この表現が後に重要になる