quan_model1 在建立迴歸模式時,需要先選出對因變數有影響...

34
Quan_model 1 在在在在在在在在 在在在在在在在在在在在在在在 在在在在在在在在在在 ,一 (explanatory var.) 在在在 在在在在 在在在在在 ,,一 在在在在在 在在在在• 在在在在在 • 在在在在在在在在在 • 在在在在在在在在在在 在在在 在在在在在在

Post on 21-Dec-2015

269 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 1

在建立迴歸模式時,需要先選出對因變數有影響的一些自變數作為解釋變數 (explanatory va

r.) ,其次,要選擇一適當的數學式作為模式本章主題:• 共線性現象• 選擇適當的解釋變數• 利用虛擬變數建立模式

第五章 建立迴歸模式

Page 2: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 2

在建立迴歸模式時,需要先選出對因變數有影響的一些自變數作為解釋變數 (explanatory var.).

• 如何選出適當數量的自變數建立模式?• 愈多的自變數,會得到愈高的 R2值,模式的解釋度愈

高,但並不代表模式愈佳• 因為,若自變數間有高度相關的時候,可能產生共線

性( multicollineariity)

• 如何發現共線性?又如何修飾迴歸模式?

5.1 共線性 (multicollinearity)

Page 3: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 3

Pearson Correlation Coefficients, N = 20X1 X2 X3 Y

X1表皮厚度 1.00000 0.92384 0.45778 0.84327

X2大腿周長 0.92384 1.00000 0.08467 0.87809

X3上臂粗 0.45778 0.08467 1.00000 0.14244

Y脂肪量 0.84327 0.87809 0.14244 1.00000

例:尋求解釋人體脂肪成因之迴歸式Correlation Matrix :

注意 : X1 與 X2 高度相關

Multicollinearity

當預測變數間高度相關時,對迴歸式的估計可能造成誤判,則稱此現象為多元共線性現象。

Page 4: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 4

模式中含 MSE b1( p值) (s.e.) b2( p值) (s.e.) b3( p值) (s.e.)X1 7.95 .86(.0001) (0.13)X2 .86(.0001) (0.11)X3 .20(.55)(0.33)X1,X2 6.47 .22(.47) .65(.04)X1,X3 1.0(.0001) -0.43(.02)X2,X3 .85(.0001) .10(.56)X1,X2,X3 6.15 4.3(.17) (1.60) -2.9(.28) (3.02) -2.2(0.19) (2.58)

注意: 1. 加入 X1 至 X2 模式,顯著 p 值 明顯改變 2. 加入 X1 至 (X2 ,X3) 模式,係數與 p 值有明顯改變 3. 加入 X2 至 (X1, X3) 模式,係數與 p 值有明顯改變 4. s.e. 代表估計的誤差

各模式的係數及顯著性表皮厚度 大腿周長 上臂粗

Page 5: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 5

多元共線性存在的影響 :

1. 增加或刪除一解釋變數,原係數將有明顯改變。 2. 導致各係數不顯著。 3. 單一係數對反應變數的意義不正確。 4. 係數估計之標準誤較大。

選擇合適的解釋變數,才能得到合適的迴歸式

Page 6: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 6

H0: βk=0 ( 其它 βi≠0) , H1: βk≠0.

1.-p-nd.f. ,}.{.

* k

k

bes

bt

解釋變數顯著性之檢定

檢定 Xk 是否可自模式中剔除的方法:

當 p- 值 > 0.05 ,檢定結果為不顯著,意指當模式含有其它 Xi 時, Xk 對 Y 的影響不顯著

5.2 選擇自變數

Page 7: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 7

目的:假設有 P 個與 Y相關的潛在自變數,希望由其中選取最少量個解釋變數,得到一足以解釋 Y 變量的迴歸式

選擇預測變數

對於模式適合度,有一些如判定係數的測值可做為參考指標

我們可以將所有可能的模式得到的測值拿來做比較,選出一最適合的

如何決定那些自變數是要放在模式內的?

SAS tipSAS tip

Analysis → Regression → Linear Model → selection method → Adjusted R-square selection

ˇ AIC ˇ SBC

Page 8: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 8

AIC, SBC criterion

AICp = n ln(SSEp) – n ln(n) + 2p

SBCp = n ln(SSEp) – n ln(n) + ln(n) p

﹡ AIC: Akaike’s information criterion

SBC: Schwarz infromation criterion

AIC, SBC 常用於時間序列建模,值較低者,模式預測能力較佳

評估迴歸模式常用的測值有 : Ra2, Cp, AIC, SBC, PRESS 。

Page 9: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 9

Number inModel

AdjustedR-Square

R-Square AIC SBC Variables in Model

3 0.7641 0.8014 39.8672 43.85009 skin thigh midarm

2 0.7610 0.7862 39.3417 42.32891 skin midarm

1 0.7583 0.7710 38.7080 40.69942 thigh

2 0.7519 0.7781 40.0860 43.07321 skin thigh

2 0.7493 0.7757 40.2957 43.28293 thigh midarm

1 0.6950 0.7111 43.3590 45.35045 skin

1 -.0341 0.0203 67.7823 69.77373 midarm

以下為 Adjusted R-square selection ˇ AIC ˇ SBC 步驟之一範例。

Page 10: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 10

逐步迴歸 (Stepwise regession)

依據 partial F-test 加入潛在預測變數中對 Y 有顯著影響者,在加入的同時,以 partial F-test 剔除已加入者對 Y 影響不顯著者;直到模式中每一預測變數對 Y 的邊際影響顯著,模式外每一預測變數對 Y邊際影響不顯著為止。

我們也可以讓電腦依據自變數的顯著程度自動找出最適合的迴歸式

自動搜尋程序有:前進選擇法,後退選擇法,逐步迴歸法 (stepwise regression)

前進選擇法由一自變數開始,只考慮增加 X 變數,不考慮剔除 X 變數。

後退選擇法由所有自變數開始,只考慮剔除 X 變數,不考慮增加 X 變數。

Page 11: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 11

Summary of Stepwise Procedure for Dependent Variable Y

Variable Number Partial Model

Step Entered Removed In R**2 R**2 C(p) F Prob>F

1 X4 1 0.5274 0.5274 787.9471 58.0214 0.0001

2 X3 2 0.1591 0.6865 507.8069 25.8888 0.0001

3 X2 3 0.1964 0.8829 161.6520 83.8313 0.0001

4 X1 4 0.0895 0.9724 5.0000 158.652 0.0001

5 X4 3 0.0000 0.9723 3.0390 0.039 0.8442

以下為 stepwise regression 步驟之一範例。

SAS tipSAS tip Analysis → Regression → Linear Model → selection method → stepwise selection

Page 12: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 12

一些特殊曲線模式

• 多項式迴歸 ; 如 : E(Y) =β0+β1X1+ β2 X12 。

• 轉換變數 ; 如 : E(log(Y)) =β0+β1X1+β2 X2 。• 含交互作用項 ; 如 : E(Y) =β0+β1X1+β2 X2 + β3X 1 X2 。• 二次完全迴歸式 ;

如 : E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X2

2 + β5X 1 X2

5.3 各類模式

自變數為分類變數的模式 E(Y) =β0+β1X1+β2 X2 , X1 = 0 ( 第一類 ) ,

= 1 ( 第二類 ) 。

Page 13: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 13

1 、 Linear Trend model : Yt =β0+β1 t+ εt

時間序列模式 ( 以 t 為自變數 )

3 、 Exponential model :

可利用 ln 轉換為線性

2 、 Quadratic Trend model : Yt =β0+β1 t + β2 t2 + εt

bt taY ˆ

)(lnlnˆln tbaYt

( 將資料 Y, t 轉換為 ln(Y), ln(t) ,再執行迴歸分析 )

4 、 S-Shaped Model

logistic function

利用轉換可為線性模式

limitupper a is L ,))( exp(1 1 t

t t

LY

tt

tY

L )()1ln( 1

Page 14: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 14

y shape-S ) b exp(a11

x函數,

Page 15: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 15

例: The data below gives per capita consumption of malt beverages in the United States in gallons over the period 1950 - 1980. Fit a polynomial model for the data. Which one is a better fit?

Year 1950 1951 …….. 1980

Consump. 17.2 16.8 …….. 23.2

Page 16: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 16

先後執行直線,二次,三次及四次迴歸式直線,二次,三次的殘差圖:

Parameter Estimates

Variable LabelDF

ParameterEstimate

StandardError t Value Pr > |t| Type I SS

Intercept Intercept 1 17.4 0.308 56.53 <.0001 9743

time 時間 1 -0.157 0.129 -1.22 0.2339 136

tsq 平方 1 -0.0338 0.016 -2.11 0.0448 67.1

tcu 三次方 1 0.00327 0.000747 4.37 0.0002 2.40

t4 四次方 1 -0.00005882 0.00001159 -5.07 <.0001 2.01

四次的參數估計及顯著性檢定:

Page 17: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 17

以二次式預估時,對 t 的殘差圖,明顯可見仍殘留曲線關係。若以四次式預估,得對一次的 F檢定是不顯著的,且三次式的殘差圖並無曲線趨勢,由二次到四次, R2 的增加率都不明顯,故以三次式預估年需求量是較適當的。

直線,二次,三次及四次迴歸的判定係數

多項式 一次 二次 三次 四次R2 .6496 .9693 .9807 .9903

Ra2 .6376 .9671 .9786 .9888

Page 18: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 18

Parameter Estimates

Variable LabelDF

ParameterEstimate

StandardError t Value Pr > |t|

Intercept Intercept 1 18.5 0.315 58.67 <.0001

time 時間 1 -0.735 0.0840 -8.76 <.0001

tsq 平方 1 0.0445 0.00605 7.36 <.0001

tcu 三次方 1 -0.000497 0.000124 -4.00 0.0004

迴歸式為:

Y =18.5 – 0.735X + 0.0445 X2 – 0.000497 X3 , R2 = 0.9807

配適圖:

Page 19: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 19

在迴歸分析中,自變數必需是一數量變數,遇到質性變數的解釋變數時,必需將它們數量化,以 0或 1的指標變數表示之。

註 : 指標變數 ( Indicator variable ) 是以 0 或 1 識別一質性變數的各組,又稱為虛擬變數 ( Dummy variable)

數量變數 Quantitative :所得、年齡、溫度、資產、…等。質性變數 Qualitative :性別、購買狀態、職業分類、…等,屬於分類變數。

重要原則:一個具 c 項分組的質性變數可用 c-1 個指標變數表示,每一指標變數均取值 0 或 1 。

5.4 虛擬變數的應用

Page 20: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 20

例:檢定市場模型是否有結構性改變,資料如下圖 1997: Rt = α1+β1RMt +εt

1998: Rt = α2+β2RMt +εt

欲檢定二直線的截距與係數是否相同

Page 21: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 21

建立一模式包含二直線: Rt = α1+β1RMt +β2D+β3D RMt +εt

where D=0 for 1997, D=1 for 1998 D 是一虛擬變數 檢定 H0: β3=0 ,就是檢定二線平行

檢定 H0: β2=0 ,就是檢定二線截距相同

SAS tipSAS tip

執行 linear regression 之前先插入變數 D 及變數 DRM

Page 22: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 22

Parameter Estimates

Variable

Label DF ParameterEstimate

StandardError

t Value

Pr > |t|

Intercept

Intercept

1 -10.36389

3.53269 -2.93 0.0060

RM RM 1 0.40815 0.08222 4.96 <.0001

D 1 -0.73528 4.59232 -0.16 0.8737

DRM 1 -0.13713 0.08951 -1.53 0.1347

含解釋變數 RM , D 及 DRM 之結果

含解釋變數 RM ,及 DRM 之結果Parameter Estimates

Variable

Label DF ParameterEstimate

StandardError

t Value

Pr > |t|

Intercept

Intercept

1 -10.79900

2.22552 -4.85 <.0001

RM RM 1 0.41781 0.05508 7.59 <.0001

DRM 1 -0.15024 0.03577 -4.20 0.0002結論: 1997 與 1998 的市場模型有顯著的結構性改變,最適迴歸式如下:

1998year for 268.08.10R

1997year for 418.08.10R

t

t

t

t

RM

RM

參 數 不 顯 著 ,

二 線 截 距 相

參 數 顯 著 ,

二 線 斜 率 不

相 同

Page 23: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 23

季別時間序列與虛擬變數

• 如果我們要分析的資料是季節性的資料,通常季節也是一影響因素,應將季節視為一類別變數,利用虛擬變數來建模

• 如此可以檢定季節性效果,如:討論季節的不同,是否會對股票市場產生不同的報酬。

• 首先,我們把一年分成四季,分別計算出每一季的平均季報酬,再利用虛擬變數的方式,檢定哪一季的季報酬率有明顯較高或哪一季的季報酬率較低。

Page 24: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 24

• 檢定第一季指數報酬是否異於其他三季–虛無假說: H0: E(Rt|t 第一季 ) = E(Rt|t 非第一季 )–假設其它三季的平均報酬相同 ,迴歸模型如下:

– 第一季: E(Rt) =α+β, 其它季: E(Rt) =α,

– 所以 β 是衡量前三季的季平均報酬與第一季的差異;因此檢定 β 是否異於 0 ,便可知第一季的指數報酬是否異於其它三季。

報酬為其它三季時,當報酬為第一季時

0

,1D , R ttt tD

Page 25: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 25

分析結果

台股季別報酬率資料圖:

Parameter Estimates

Variable

Label DF ParameterEstimate

StandardError

t Value

Pr > |t|

Intercept

Intercept

1 -0.00949 0.03352 -0.28 0.7786

D D 1 0.11370 0.06704 1.70 0.0981

參 數 不 顯 著 ,

第 一 季 與 其 它

三 季 無 顯 著 差

截距 項的部分為四季的平均報酬。 D 的 參 數 為 第 一 季

和 其 他 三 季 的 差 異 。

Page 26: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 26

對四季報酬率 (Rt) 的迴歸模式• 需要三個指標變數 ( 或虛擬變數 ) ,定義 : S2 = 1 ,若為第二季, S2 = 0 ,非第一季 S3 = 1 ,若為第三季, S3 = 0 ,非第二季 S4 = 1 ,若為第四季, S4 = 0 ,非第四季• 模式 : Rt = α+β1S2t +β2S3t +β3S4t +εt

若為第二季, E(Rt )= α+β1

若為第三季, E(Rt )= α+β2

若為第四季, E(Rt )= α+β3

若為第一季, E(Rt )= α

Page 27: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 27

• 此模式是以第一季為基準, β1 為第二季的效力,β2 為第三季的效力, β3 為第四季的效力。若 β

的估計值為正,它的報酬率會比第一季高,若 β

的估計值為負,它的報酬率會比第一季低。

• 檢定 βt=0 ,若為顯著,則第 t 季與第一季有顯著差異。

• 檢定 βi=βj ,若為顯著,則第 i 季與第 j 季有顯著差異。

Page 28: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 28

Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

Intercept 1 0.08249 0.07534 1.09 0.2818

s2 1 -0.12872 0.10655 -1.21 0.2359

s3 1 -0.18199 0.10655 -1.71 0.0973

s4 1 0.04419 0.10655 0.41 0.6811 Test 1 Results for Dependent Variable RETURN

Mean

Source DF Square F Value Pr > F

Numerator 3 0.10165 1.99 0.1353

Denominator 32 0.05109

四季報酬率無顯著差異

參 數 不 顯 著 ,

三 季 與 第 一 季

無 顯 著 差 異

Page 29: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 29

例 : 季別銷貨量 (Y) 對季別廣告支出 (X1) 建立一迴歸模式。 需要三個指標變數,定義 :

X2 = 1 ,若為第一季, X2 = 0 ,其他。 X3 = 1 ,若為第二季, X3 = 0 ,其他。 X4 = 1 ,若為第三季, X4 = 0 ,其他。

:

443322110 iiiiii XXXXY 模式

含自變數的季資料迴歸模式

Page 30: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 30

第三節 星期效應分析

• 前面我們比較四季的報酬是否有明顯的不同,除了以四季來比較之外,我們還可以檢定股市是否有星期效應

• 也就是檢定一週內是否有某天的報酬較高或較低

• 一般理論認為,通常星期一的報酬會低於其他天的報酬。造成此現象的原因,可能是因為公司或政府會選一週內最後交易日之收盤後發布利空消息。

Page 31: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 31

– 虛無假說如下: – 迴歸模型如下: – 虛擬變數 Dt={0 當報酬為星期一時 {1 當報酬為其他時 因此

0 1 1: | |t tH E R t W E R t W

t t tR D

1|tE R t W

1|tE R t W

Page 32: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 32

Dependent Variable: return

Analysis of Variance

Sum of Mean

Source DF Squares Square F Value Pr > F

Model 1 0.00070857 0.00070857 1.87 0.1717 Error 2607 0.98842 0.00037914 Corrected Total 2608 0.98913

Root MSE 0.01947 R-Square 0.0007

Dependent Mean 0.00005291 Adj R-Sq 0.0003 Coeff Var 36798 Parameter Estimates

Parameter Standard

Variable DF Estimate Error t Value Pr > |t|

Intercept 1 0.00028538 0.00041742 0.68 0.4942 w 1 -0.00140 0.00102 -1.37

0.1717

星期一的報酬率與其它並無顯著差異

Page 33: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 33

–上列的參數估計,截距 項的參數是 週二到週五的平均報酬, W的參數則是 週一和其他報酬的差異,即週一的平均報酬為 0.0003-0.0014=-0.0011 ,而 P 值為 0.1717 表示檢定的結果是週一的報酬沒有明顯較低。

Page 34: Quan_model1 在建立迴歸模式時,需要先選出對因變數有影響 的一些自變數作為解釋變數 (explanatory var.) , 其次,要選擇一適當的數學式作為模式

Quan_model 34

–從敘述統計的觀點來看,星期五的平均報酬較高,平均而言,一星期中後三日的平均報酬為正,前三日的平均報酬為負。

–接下來,利用逐一比較的結果檢定之,結果為接受星期五、星期四之平均報酬相同的假設,同時過去九年的星期五之平均報酬明顯高於星期二的平均報酬。