第四章 進階迴歸分析

31
Quan_reg2 1 常常常常常常常常常常常 • 常常常常常常常常常常常常常常常 常常常常常常常常常 (heteroskedastici ty 常 常常常 • 常常常常常常常常常常常常 常常常常常常常常常 (autocorrelation) 常常 常常常常常常常常常常常常 • 常常常常常常常常常常常常常常常常常常常 常常常常常常常常 • 常常常常常常常常常常常 WLS 常常常常常常常常常常常 AR(1) 常常 常常常 常常常常常常

Upload: haviva-ross

Post on 01-Jan-2016

229 views

Category:

Documents


1 download

DESCRIPTION

第四章 進階迴歸分析. 常見涉及誤差變異之問題 若誤差項不符合變異數相同的假說,則可能產生異值變異 (heteroskedasticity )的問題 若誤差項不符合獨立的假設,則可能產生自我相關 (autocorrelation) 的問題,即誤差項與前期的誤差相關 如何發現上述問題? 最快的方法是觀察殘差圖,再以統計檢定確定 如何修正? 對異值變異採用 WLS 法,對自我相關資料採用 AR(1) 模式. 殘差圖. 以殘差或 t 化殘差為縱軸的分散圖,或殘差的分佈圖,稱為 殘差圖 。. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 第四章  進階迴歸分析

Quan_reg2 1

常見涉及誤差變異之問題• 若誤差項不符合變異數相同的假說,則可能產生異值變異 (het

eroskedasticity )的問題• 若誤差項不符合獨立的假設,則可能產生自我相關 (autocorrela

tion) 的問題,即誤差項與前期的誤差相關• 如何發現上述問題? 最快的方法是觀察殘差圖,再以統計檢定確定• 如何修正? 對異值變異採用 WLS 法,對自我相關資料採用 AR(1) 模式

第四章 進階迴歸分析

Page 2: 第四章  進階迴歸分析

Quan_reg2 2

殘差圖種類 :

• t 化殘差的順序圖 , 盒形圖 , 及常態機率圖 。• 對 Y 、對 X 的殘差圖。

以殘差或 t 化殘差為縱軸的分散圖,或殘差的分佈圖,稱為殘差圖。

MSE

ee ii *t 化殘差:

t- 化殘差 ( Student residual) :以√ MSE 為標準差,將 ei 標準化得到的值,在常態情況下其值應介於 -3 與 3 之間

ˆe iii yy 殘差:

殘差圖

Page 3: 第四章  進階迴歸分析

Quan_reg2 3

社區相館例之殘差常態機率圖 ( 符合迴歸假設 )

社區相館例之殘差圖 :

95%在此範圍

Page 4: 第四章  進階迴歸分析

Quan_reg2 4

1. 非直線模式 對 X 殘差圖呈曲線

2. 變異數非固定值 對 X 殘差圖呈梯形

3. 離群值存在 對 X 殘差圖 , 及殘差盒 形圖出現離群值

殘差圖分析

偏離情況 殘差圖形狀 範例

5. 誤差項非常態性 殘差的常態機率圖 偏離直線

4. 誤差項的不獨立 殘差順序圖分群呈現 ( 如:時間序列資料 ) fig4

fig3

fig2

fig1

fig5

Page 5: 第四章  進階迴歸分析

Quan_reg2 5

fig1

fig2

資料散佈圖 殘差圖ei = 0

Page 6: 第四章  進階迴歸分析

Quan_reg2 6

fig4

fig3殘差圖資料散佈圖

Page 7: 第四章  進階迴歸分析

Quan_reg2 7

殘差圖

殘差機率圖

fig5

資料散佈圖

Page 8: 第四章  進階迴歸分析

Quan_reg2 8

第一節 GLS 與 OLS• Yt = β0+ β1X 1t +…….+ βkX kt +εt

εt ~ NID( 0, σ2)

• 廣義的變異數矩陣:

NN

N

N

.........

............

...

...

)var( 22212

11211

• 根據上列變異數矩陣得到的最小平方估計量稱為廣義最小平方法 (generalized least square method), 簡稱為 GLS

Cov(εi, εj)

Var(εi)

Page 9: 第四章  進階迴歸分析

Quan_reg2 9

• 獨立時變異數矩陣: σij =0, for i ≠ j

• 同值時變異數: σii2 = σ2

• 假設誤差項是獨立且同變異數時,

Iσ)var( 2

• 之前在假設 ε是獨立且同變異數之下的最小平方估計量稱為一般最小平方法 (ordirnary least square method), 簡稱為 OLS

Page 10: 第四章  進階迴歸分析

Quan_reg2 10

第二節 異值變異• 迴歸分析時,資料違背同變異性,稱為異值變異 (Heteroskedasticity)

• 觀察對 x 之殘差圖呈現喇叭形時,可能有異值變異,即標準差與 x 相關

• 也可以由下列三種檢定法檢定資料是否存在異值變異:– White test

– Breusch-Pagan/Godfrey test

– Goldfeld-Quandt test

Page 11: 第四章  進階迴歸分析

Quan_reg2 11

White test

• 原理說明:– 誤差項可能會跟 X 或 X 平方相關– 所以利用誤差項變異數和以上相關的變數進行迴歸分析,若判定係數 (R2) 很高時,表示具有異值變異。

• White 證明 nR2 服從自由度 q 的卡方分配,q=(k-1)(k+2)/2

• 以卡方檢定執行

Page 12: 第四章  進階迴歸分析

Quan_reg2 12

Test of First and SecondMoment Specification

DF Chi-Square Pr > ChiSq

5 4.87 0.4316

SAS tipSAS tipAnalysis → Regression → Linear

Statistics → Diagnostics → ˇHeteroscedasticity test

社區相館例之 White test 報表 :

Test of First and SecondMoment Specification

DF Chi-Square Pr > ChiSq2 11.99 0.0025

年齡血壓關係例之 White test 報表 :

未違背同值變異

違背同值變異

Page 13: 第四章  進階迴歸分析

Quan_reg2 13

異值變異迴歸式的估計方法

• 加權最小平方法( WLS )• 說明: Yt = β0+ β1X 1t +εt , var(εt)= Ztσ2

Zt是 Xt,或是 Xt 的函數• 變異數與 Zt成正比,則以 1/Zt為權重

註:權重的觀念是:對變化小的個案,加權重,對變化大的個案,加權輕,這將使迴歸式的估計較精確。

Page 14: 第四章  進階迴歸分析

Quan_reg2 14

原理 :求得βi ,使下式達到最小的方法稱為加權最小平方法 (WLS)

21,1110 )....( ptptttw XXYwQ

矩陣解 :

Normal Equation: (X’WX) bw = X’WY

估計量 : bw = (X’WX)-1 X’WY

共變異矩陣 : σ{bw} = (X’WX)-1 X’WY

Nw

w

w

...00

............

0...0

0...0

2

1

W

Page 15: 第四章  進階迴歸分析

Quan_reg2 15

實作 :

1. 先以不加權最小平方配適迴歸模式。2. 由殘差圖判斷誤差變異數隨何變數正變,可能是下列情況 之一。然後決定 wt 值。

/1 ,

/1 ,

/1 ,

1122

21

21

22

1122

tttt

tttt

tttt

XwX

XwX

XwX

也可能是分段增加或減少3. 以 wt 加權得到 WLS 迴歸模式。4. 進一步測試模式適合性及其它。

喇叭形梯形狹形

SAS tipSAS tip 將 wt 資料輸入為 relative weight 變數

Page 16: 第四章  進階迴歸分析

Quan_reg2 16

Root MSE 0.18918 R-Square

0.5005

Dependent Mean

74.87714

Adj R-Sq 0.4908

Coeff Var 0.25266   Parameter Estimates

Variable

Label

DF ParameterEstimate

StandardError

t Value

Pr > |t|

Intercept

Intercept

1 55.83104

2.78093

20.08

<.0001

age age 1 0.58883

0.08158

7.22 <.0001Test of First and Second

Moment Specification

DF Chi-Square Pr > ChiSq2 2.52 0.2838

Root MSE 8.14575 R-Square

0.4077

Dependent Mean

79.11111

Adj R-Sq 0.3963

Coeff Var 10.29659

  Parameter Estimates

Variable

Label DF ParameterEstimate

StandardError

t Value

Pr > |t|

Intercept

Intercept

1 56.15693

3.99367

14.06 <.0001

age age 1 0.58003 0.09695

5.98 <.0001

Test of First and SecondMoment Specification

DF Chi-Square

Pr > ChiSq

2 11.99 0.0025

(OLS 法 報表 ) (WLS 法 報表 , X-2 為加權 )

Page 17: 第四章  進階迴歸分析

Quan_reg2 17

第三節 自我相關• 探討誤差項之間的相關性不為零的情形 σij ≠ 0, for i ≠ j

• 就是變異數矩陣中,非對角線元素不為零的狀況

NN

N

N

.........

............

...

...

)var( 22212

11211

Page 18: 第四章  進階迴歸分析

Quan_reg2 18

使用迴歸來分析時間序列資料時,誤差項可能依時間先後有相關性,此稱為自相關現象 (autocorrelation) ,此種資料違背獨立性的情況,會表現在殘差圖上,需修正模式。

【例】 X :產品年銷售量 (salec) , Y :某公司的年銷售量

R2=0.999

( 此圖顯示殘差明顯違背獨立性假設 )

Page 19: 第四章  進階迴歸分析

Quan_reg2 19

Lag 為 s 之自相關係數• 迴歸模式的自我相關 (autocorrelation) 是指誤差項前後期彼此相關

• 定義:– 自相關共變異數:

– s 階自相關係數:

),cov(s stt

0s )var(

),cov(),(

s

t

sttsttcor

注意: ss ρρ

Page 20: 第四章  進階迴歸分析

Quan_reg2 20

資料的自相關現象對迴歸分析結果產生下列現象:1. 係數的估計量仍為不偏,但無法達到最小變異數。2. MSE 低估真實的誤差變異數。3. s.e.{bk} 低估係數之標準差。

4. t-test , F-test ,及 confidence interval 無法再直接應用。

Page 21: 第四章  進階迴歸分析

Quan_reg2 21

一階自相關• first-order autocorrelation :連續二資料間的相關性, 即

εt 與 εt-1 間之相關性• 與位置無關, ρ1 = cor(εt , εt-1 ) for all t

• 如何檢測出一階自相關? 1. 觀察殘差圖 2. Durbin-Watson 檢定 (εt 與 εt-1 間相關,將反應在 et 與 et-1 間 )

Page 22: 第四章  進階迴歸分析

Quan_reg2 22

2

1

2

21)(

D

t

n

t

n

ttt

e

ee

ttt YYe ˆ

Durbin-Watson 統計量:

自相關的檢定 -- Durbin-Watson Test

註: 1 、 D 2(1-r≒ 1) , 0 D 4≦ ≦

2 、 SAS 之 regression / linear 或 Time series/

Reg. w. Autoregressive error 提供 D-W

值 3 、檢定法則:依據 n, p, α 查出 dL,α 及 dU,α

Page 23: 第四章  進階迴歸分析

Quan_reg2 23

ρ1>0 ρ1=0 ρ1<0

不確定區

正的自相關檢定 H0 : ρ1= 0 , H1 : ρ1> 0

決策

1. D < dL,α 時,拒絕 H0

2. D > dU,α 時,不拒絕 H0

3. dL,α <D < dU,α 時,無法定論, ( 需要更多資料 )

n 15 20 25 30 35 40 45 50 60

dL.05 1.08 1.2 1.29 1.35 1.4 1.44 1.48 1.5 1.55

dU.05 1.36 1.41 1.45 1.49 1.52 1.54 1.57 1.59 1.62

0 dL dU 2 4-dU 4-dL 4

臨界值

Page 24: 第四章  進階迴歸分析

Quan_reg2 24

負的自相關檢定 H0 : ρ1= 0 , H1 : ρ1<0

1. (4-D) < dL,α 時,拒絕 H0

2. (4-D) > dU,α 時,不拒絕 H0

3. dL,α < (4-D) < dU,α 時,無法定論, ( 需要更多資料 )

決策

注意: r1 >0 , 0< D < 2 , r1 < 0 , 2< D < 4

r1 =ρ1-hat

Page 25: 第四章  進階迴歸分析

Quan_reg2 25

【例】 X :產品年銷售量 (salec) Y :某公司的年銷售量 (salei)

殘差圖X-Y 分散圖

Page 26: 第四章  進階迴歸分析

Quan_reg2 26

SAS/EG / regression/ linear 報表

Durbin-Watson D 3.050

Number of Observations 20

1st Order Autocorrelation -0.531

Parameter Estimates

Variable Label DF ParameterEstimate

StandardError

t Value Pr > |t|

Intercept Intercept 1 8.42066 1.14606 7.35 <.0001

saleC saleC 1 5.66585 0.04643 122.02 <.0001

Root MSE 0.48788 R-Square 0.9988

Dependent Mean 147.62500 Adj R-Sq 0.9987

Coeff Var 0.33048    

D=3.05 > 4-dL, 有負自相關現象,雖然 R2 值很高,得到的迴歸訊息是不正確的,需要修正模式。

(dL=1.2. dU=1.36)

Page 27: 第四章  進階迴歸分析

Quan_reg2 27

ρ 為一階自相關係數,代表自相關程度之大小。

AR(1) Model :Yt = β0 + β1 xt + εt , t= 1,2,…, n

εt = ρ εt-1 + u t , |ρ|<1, u t ~NID(0,σ2)

Analyze → Time series → Reg. w Autoregressive Errors

如何修正含自相關現象的迴歸模式?有多種方法,最常用的是 AR(1) errors model, 即,假設迴歸式中的誤差項是一 AR(1) model.

SAS tipSAS tip

First-order autocorrelative reg. model

Page 28: 第四章  進階迴歸分析

Quan_reg2 28

共變異矩陣:

2

2

1

2

1

121

2

2 where ,

...

............

..

......

}{

n

n

nnn

註 : 1 、期望值 =0

2 、 ρ愈大,影響愈遠。

3 、若設 εt = ρ1εt-1 + ρ2εt-2 + u t , 視為二階自相關模式

AR(2) model

),ρ(}ε,{ε ,}{εσ

0,}E{ε

2

2

2

2

ρ1σ

1ttρ1σ

t2

t

Page 29: 第四章  進階迴歸分析

Quan_reg2 29

Ordinary Least Squares Estimates

SSE 4.28442909 DFE 18

MSE 0.23802 Root MSE 0.48788

SBC 31.9341066 AIC 29.942642

Regress R-Square 0.9988 Total R-Square 0.9988

Durbin-Watson 3.0689  

Variable DF Estimate

Standard Error

t Value ApproxPr > |t|

Variable Label

Intercept 1 8.4207 1.1461 7.35 <.0001  

saleC 1 5.6659 0.0464 122.02 <.0001 saleC

【例】 X :產品年銷售量 (saleC) Y :某公司的年銷售量 (salei)

執行 Time series / Reg. w Autoregressive Errors 報表

Page 30: 第四章  進階迴歸分析

Quan_reg2 30

Preliminary MSE 0.1514

Yule-Walker Estimates

SSE 2.9310717 DFE 17

MSE 0.17242 Root MSE 0.41523

SBC 27.6847347 AIC 24.6975379

Regress R-Square 0.9994 Total R-Square 0.9992

Durbin-Watson 2.2424    

以 OLS 分析結果標準誤 AIC R2 D-W

0.488 29.9 0.9988 3.069

以 AR(1) 模式分析結果.415 24.7 .9994 2.24

Page 31: 第四章  進階迴歸分析

Quan_reg2 31

AR(1) 迴歸估計式: yt = 8.974 + 5.643 xt + εt , εt = -0.542 εt-1

Variable DF Estimate Standard Error t Value ApproxPr > |t|

Intercept 1 8.9739 0.8424 10.65 <.0001

saleC 1 5.6431 0.0342 164.96 <.0001

Estimates of Autoregressive Parameters

Lag Coefficient Standard Error t Value

1 0.541657 0.203875 2.66