section 2.3 least-squares regression 最小平方迴歸. 迴歸直線 (regression line)...

25
Section 2.3 Least-Squares Regress ion 最最最最最最

Post on 19-Dec-2015

252 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

Section 2.3

Least-Squares Regression

最小平方迴歸

Page 2: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

迴歸直線 (Regression Line)

• 迴歸直線是用來描述反應變數 y 與解釋變數 x 線性關係的直線,在給定 x 之下通常使用迴歸直線的公式來預測 y 。

• 平均日加溫度數 (heating degree-days) 為20 度時,根據下圖的迴歸直線可算出月平均瓦斯消耗量約為 490 cu. ft 。

Page 3: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

迴歸直線實例24 6.3

51 10.9

43 8.9

33 7.5

26 5.3

13 4

4 1.7

0 1.2

0 1.2

1 1.2

0

2

4

6

8

10

12

0 10 20 30 40 50 60Average number of heating degree-days per day

Ave

rage

am

ount

of ga

s co

nsum

edpe

r da

y in

hun

dred

s of

cub

ic fee

t

(20, 5)

Page 4: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

預測誤差• 迴歸直線的選擇直接影響預測值 y 的準確性。

• 我們以 y 之觀察值 y 之預測值 稱為誤差, 或稱為垂直距離。

error= observed y – predicted y

– 平均日加溫度數為 20 度時,若實際月平均瓦斯消耗量為 510 cu. ft ,則誤差 = 510 490 = 20 。

yye ˆ

Page 5: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

預測誤差圖示24 6.351 10.943 8.933 7.526 5.313 44 1.70 1.20 1.21 1.26 2.1

12 3.130 6.432 7.252 1130 6.9

4.5

5

5.5

6

6.5

7

20 22 24 26 28 30 32

average number heating degree-days per day

aver

age

amou

nt o

f gas

con

sum

ed p

er d

ay in

hund

reds

of c

ubic

feet

預測值

觀察值 y

誤差y

yy ˆ

Page 6: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

最小平方迴歸直線• 依據誤差平方和最小的原則求得的迴歸直線,稱為最小平方迴歸直線 (least squares regression line) 。– 改變迴歸直線的截距與斜率,選擇使誤差平方和最小的直線。

Page 7: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

最小平方迴歸直線方程式• 若直線方程式為 y = a + bx ,則在 xi 之下 yi 的預測值為 ,則誤差平方和即為

• 依據微積分的方法可求得使誤差平方和最小的 a, b 值分別為

• 最小平方迴歸直線即為

i iii ii bxayyy 22 ))(()ˆ(

ii bxay ˆ

xbya ˆˆ x

y

s

srb ˆ

xbay ˆˆˆ

Page 8: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

最小平方迴歸直線實例• 統計資料

• 最小平方迴歸直線即為

0892.131.22189.0306.5ˆ a

189.074.17

368.3995.0ˆ b

xy 189.00892.1ˆ

mean St. Dev. Correlation r

Deg-day x 22.31 17.74 0.995

gas used y 5.306 3.368

Page 9: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

最小平方迴歸直線 -minitabThe regression equation is

gas used = 1.09 + 0.189 deg-day

Predictor Coef Stdev t-ratio p

Constant 1.0892 0.1389 7.84 0.000

deg-day 0.188999 0.004934 38.31 0.000

s = 0.3389 R-sq = 99.1% R-sq(adj) = 99.0%

Analysis of Variance

SOURCE DF SS MS F p

Regression 1 168.58 168.58 1467.55 0.000

Error 14 1.61 0.11

Total 15 170.19

Page 10: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

最小平方迴歸直線 -minitab 圖

50403020100

10

5

0

deg-day

gas

used

Page 11: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

“Regression toward the mean”

• To “regress” means to go backward.• Why the name?• Sir Francis Galton (1822-1911) found that:• Heights of children vs. heights of their parents• The taller-than-average parents tended to have chil

dren who were taller than average, but not as tall as their parents.

• Galton called this fact “regression toward the mean”.

Page 12: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

最小平方迴歸的性質• 最小平方迴歸直線中反應變數 y 與解釋變數 x 的角色是不相同的。– 反應變數 y 與解釋變數 x 互換會得到不同的迴歸直線。

• 迴歸直線的斜率與相關係數關係密切。 b = r (sy/sx)

Page 13: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

兩條迴歸直線 (例 2.10 擴散中的宇宙 )

210

1000

500

0

distance

velo

city

Page 14: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

最小平方迴歸的性質 ( 續 )

• 迴歸直線一定通過 點。– 迴歸直線方程式 中, 以 代入可得

即表示點 在迴歸直線上。

),( yx

yxbxbyxbay ˆ)ˆ(ˆˆˆ

xbay ˆˆˆ xx

),( yx

Page 15: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

最小平方迴歸的性質 ( 再續 )

• 相關係數描述了迴歸直線的強度。– 相關係數平方即為反應變數 y 的變異中,被對變數 x 作迴歸所解釋的部分 ( 比例 ) 。

Page 16: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

餘差 (Residuals)( 殘差 )

• 觀察值 y 與預測值 的差稱為餘差,又稱殘差。

• 餘差總和必為零 iy

Page 17: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

餘 ( 殘 ) 差圖 (Residuals Plot)

• 餘差與對應的解釋變數的散佈圖,稱為餘差圖。

• 餘差圖有助於瞭解迴歸直線的適合性。– 餘差圖為非線性。

– 餘差的散佈隨著 x 值的增加而散開或縮小。

Page 18: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

標準餘差圖

x

Page 19: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

曲線型餘差圖

x

Page 20: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

發散型餘差圖

x

Page 21: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

餘差圖中的特殊點(Unusual Points)

• 離群點 (outliers) :餘差特別大 ( 不論正負 ) 的點,偏離整體餘差的分佈。– Child 19

• 干擾點 (influential observations) :該點的移除對於迴歸直線的計算結果有重大的影響,稱為干擾點。– x 值特出 ( 大或小 ) 的點 (x 方向的離群點 ) ,多為干擾點。

– 干擾點的餘差通常不大,因為它們會把迴歸線拉向自己。

– Child 18

Page 22: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

餘差圖實例• 小孩說第一句話的時間與日後 Gesell 能力測驗成績的迴歸關係。– 迴歸直線如後– 餘差如下,餘差圖如後

Page 23: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

迴歸直線圖

40302010

125

115

105

95

85

75

65

55

age

scor

e

Child 19

Child 18

Page 24: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

迴歸餘差圖

40302010

30

20

10

0

-10

-20

age

RES

I1

Child 18

Child 19

Child 19

Page 25: Section 2.3 Least-Squares Regression 最小平方迴歸. 迴歸直線 (Regression Line) 迴歸直線是用來描述反應變數 y 與解釋 變數 x 線性關係的直線,在給定

干擾點對迴歸直線的影響

40302010

125

115

105

95

85

75

65

55

age

scor

e

Child 18

Child 19