quan_model1 在建立迴歸模式時,需要先選出對因變數有影響...
Post on 21-Dec-2015
269 views
TRANSCRIPT
Quan_model 1
在建立迴歸模式時,需要先選出對因變數有影響的一些自變數作為解釋變數 (explanatory va
r.) ,其次,要選擇一適當的數學式作為模式本章主題:• 共線性現象• 選擇適當的解釋變數• 利用虛擬變數建立模式
第五章 建立迴歸模式
Quan_model 2
在建立迴歸模式時,需要先選出對因變數有影響的一些自變數作為解釋變數 (explanatory var.).
• 如何選出適當數量的自變數建立模式?• 愈多的自變數,會得到愈高的 R2值,模式的解釋度愈
高,但並不代表模式愈佳• 因為,若自變數間有高度相關的時候,可能產生共線
性( multicollineariity)
• 如何發現共線性?又如何修飾迴歸模式?
5.1 共線性 (multicollinearity)
Quan_model 3
Pearson Correlation Coefficients, N = 20X1 X2 X3 Y
X1表皮厚度 1.00000 0.92384 0.45778 0.84327
X2大腿周長 0.92384 1.00000 0.08467 0.87809
X3上臂粗 0.45778 0.08467 1.00000 0.14244
Y脂肪量 0.84327 0.87809 0.14244 1.00000
例:尋求解釋人體脂肪成因之迴歸式Correlation Matrix :
注意 : X1 與 X2 高度相關
Multicollinearity
當預測變數間高度相關時,對迴歸式的估計可能造成誤判,則稱此現象為多元共線性現象。
Quan_model 4
模式中含 MSE b1( p值) (s.e.) b2( p值) (s.e.) b3( p值) (s.e.)X1 7.95 .86(.0001) (0.13)X2 .86(.0001) (0.11)X3 .20(.55)(0.33)X1,X2 6.47 .22(.47) .65(.04)X1,X3 1.0(.0001) -0.43(.02)X2,X3 .85(.0001) .10(.56)X1,X2,X3 6.15 4.3(.17) (1.60) -2.9(.28) (3.02) -2.2(0.19) (2.58)
注意: 1. 加入 X1 至 X2 模式,顯著 p 值 明顯改變 2. 加入 X1 至 (X2 ,X3) 模式,係數與 p 值有明顯改變 3. 加入 X2 至 (X1, X3) 模式,係數與 p 值有明顯改變 4. s.e. 代表估計的誤差
各模式的係數及顯著性表皮厚度 大腿周長 上臂粗
Quan_model 5
多元共線性存在的影響 :
1. 增加或刪除一解釋變數,原係數將有明顯改變。 2. 導致各係數不顯著。 3. 單一係數對反應變數的意義不正確。 4. 係數估計之標準誤較大。
選擇合適的解釋變數,才能得到合適的迴歸式
Quan_model 6
H0: βk=0 ( 其它 βi≠0) , H1: βk≠0.
1.-p-nd.f. ,}.{.
* k
k
bes
bt
解釋變數顯著性之檢定
檢定 Xk 是否可自模式中剔除的方法:
當 p- 值 > 0.05 ,檢定結果為不顯著,意指當模式含有其它 Xi 時, Xk 對 Y 的影響不顯著
5.2 選擇自變數
Quan_model 7
目的:假設有 P 個與 Y相關的潛在自變數,希望由其中選取最少量個解釋變數,得到一足以解釋 Y 變量的迴歸式
選擇預測變數
對於模式適合度,有一些如判定係數的測值可做為參考指標
我們可以將所有可能的模式得到的測值拿來做比較,選出一最適合的
如何決定那些自變數是要放在模式內的?
SAS tipSAS tip
Analysis → Regression → Linear Model → selection method → Adjusted R-square selection
ˇ AIC ˇ SBC
Quan_model 8
AIC, SBC criterion
AICp = n ln(SSEp) – n ln(n) + 2p
SBCp = n ln(SSEp) – n ln(n) + ln(n) p
﹡ AIC: Akaike’s information criterion
SBC: Schwarz infromation criterion
AIC, SBC 常用於時間序列建模,值較低者,模式預測能力較佳
評估迴歸模式常用的測值有 : Ra2, Cp, AIC, SBC, PRESS 。
Quan_model 9
Number inModel
AdjustedR-Square
R-Square AIC SBC Variables in Model
3 0.7641 0.8014 39.8672 43.85009 skin thigh midarm
2 0.7610 0.7862 39.3417 42.32891 skin midarm
1 0.7583 0.7710 38.7080 40.69942 thigh
2 0.7519 0.7781 40.0860 43.07321 skin thigh
2 0.7493 0.7757 40.2957 43.28293 thigh midarm
1 0.6950 0.7111 43.3590 45.35045 skin
1 -.0341 0.0203 67.7823 69.77373 midarm
以下為 Adjusted R-square selection ˇ AIC ˇ SBC 步驟之一範例。
Quan_model 10
逐步迴歸 (Stepwise regession)
依據 partial F-test 加入潛在預測變數中對 Y 有顯著影響者,在加入的同時,以 partial F-test 剔除已加入者對 Y 影響不顯著者;直到模式中每一預測變數對 Y 的邊際影響顯著,模式外每一預測變數對 Y邊際影響不顯著為止。
我們也可以讓電腦依據自變數的顯著程度自動找出最適合的迴歸式
自動搜尋程序有:前進選擇法,後退選擇法,逐步迴歸法 (stepwise regression)
前進選擇法由一自變數開始,只考慮增加 X 變數,不考慮剔除 X 變數。
後退選擇法由所有自變數開始,只考慮剔除 X 變數,不考慮增加 X 變數。
Quan_model 11
Summary of Stepwise Procedure for Dependent Variable Y
Variable Number Partial Model
Step Entered Removed In R**2 R**2 C(p) F Prob>F
1 X4 1 0.5274 0.5274 787.9471 58.0214 0.0001
2 X3 2 0.1591 0.6865 507.8069 25.8888 0.0001
3 X2 3 0.1964 0.8829 161.6520 83.8313 0.0001
4 X1 4 0.0895 0.9724 5.0000 158.652 0.0001
5 X4 3 0.0000 0.9723 3.0390 0.039 0.8442
以下為 stepwise regression 步驟之一範例。
SAS tipSAS tip Analysis → Regression → Linear Model → selection method → stepwise selection
Quan_model 12
一些特殊曲線模式
• 多項式迴歸 ; 如 : E(Y) =β0+β1X1+ β2 X12 。
• 轉換變數 ; 如 : E(log(Y)) =β0+β1X1+β2 X2 。• 含交互作用項 ; 如 : E(Y) =β0+β1X1+β2 X2 + β3X 1 X2 。• 二次完全迴歸式 ;
如 : E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X2
2 + β5X 1 X2
5.3 各類模式
自變數為分類變數的模式 E(Y) =β0+β1X1+β2 X2 , X1 = 0 ( 第一類 ) ,
= 1 ( 第二類 ) 。
Quan_model 13
1 、 Linear Trend model : Yt =β0+β1 t+ εt
時間序列模式 ( 以 t 為自變數 )
3 、 Exponential model :
可利用 ln 轉換為線性
2 、 Quadratic Trend model : Yt =β0+β1 t + β2 t2 + εt
bt taY ˆ
)(lnlnˆln tbaYt
( 將資料 Y, t 轉換為 ln(Y), ln(t) ,再執行迴歸分析 )
4 、 S-Shaped Model
logistic function
利用轉換可為線性模式
limitupper a is L ,))( exp(1 1 t
t t
LY
tt
tY
L )()1ln( 1
Quan_model 14
y shape-S ) b exp(a11
x函數,
Quan_model 15
例: The data below gives per capita consumption of malt beverages in the United States in gallons over the period 1950 - 1980. Fit a polynomial model for the data. Which one is a better fit?
Year 1950 1951 …….. 1980
Consump. 17.2 16.8 …….. 23.2
Quan_model 16
先後執行直線,二次,三次及四次迴歸式直線,二次,三次的殘差圖:
Parameter Estimates
Variable LabelDF
ParameterEstimate
StandardError t Value Pr > |t| Type I SS
Intercept Intercept 1 17.4 0.308 56.53 <.0001 9743
time 時間 1 -0.157 0.129 -1.22 0.2339 136
tsq 平方 1 -0.0338 0.016 -2.11 0.0448 67.1
tcu 三次方 1 0.00327 0.000747 4.37 0.0002 2.40
t4 四次方 1 -0.00005882 0.00001159 -5.07 <.0001 2.01
四次的參數估計及顯著性檢定:
Quan_model 17
以二次式預估時,對 t 的殘差圖,明顯可見仍殘留曲線關係。若以四次式預估,得對一次的 F檢定是不顯著的,且三次式的殘差圖並無曲線趨勢,由二次到四次, R2 的增加率都不明顯,故以三次式預估年需求量是較適當的。
直線,二次,三次及四次迴歸的判定係數
多項式 一次 二次 三次 四次R2 .6496 .9693 .9807 .9903
Ra2 .6376 .9671 .9786 .9888
Quan_model 18
Parameter Estimates
Variable LabelDF
ParameterEstimate
StandardError t Value Pr > |t|
Intercept Intercept 1 18.5 0.315 58.67 <.0001
time 時間 1 -0.735 0.0840 -8.76 <.0001
tsq 平方 1 0.0445 0.00605 7.36 <.0001
tcu 三次方 1 -0.000497 0.000124 -4.00 0.0004
迴歸式為:
Y =18.5 – 0.735X + 0.0445 X2 – 0.000497 X3 , R2 = 0.9807
配適圖:
Quan_model 19
在迴歸分析中,自變數必需是一數量變數,遇到質性變數的解釋變數時,必需將它們數量化,以 0或 1的指標變數表示之。
註 : 指標變數 ( Indicator variable ) 是以 0 或 1 識別一質性變數的各組,又稱為虛擬變數 ( Dummy variable)
數量變數 Quantitative :所得、年齡、溫度、資產、…等。質性變數 Qualitative :性別、購買狀態、職業分類、…等,屬於分類變數。
重要原則:一個具 c 項分組的質性變數可用 c-1 個指標變數表示,每一指標變數均取值 0 或 1 。
5.4 虛擬變數的應用
Quan_model 20
例:檢定市場模型是否有結構性改變,資料如下圖 1997: Rt = α1+β1RMt +εt
1998: Rt = α2+β2RMt +εt
欲檢定二直線的截距與係數是否相同
Quan_model 21
建立一模式包含二直線: Rt = α1+β1RMt +β2D+β3D RMt +εt
where D=0 for 1997, D=1 for 1998 D 是一虛擬變數 檢定 H0: β3=0 ,就是檢定二線平行
檢定 H0: β2=0 ,就是檢定二線截距相同
SAS tipSAS tip
執行 linear regression 之前先插入變數 D 及變數 DRM
Quan_model 22
Parameter Estimates
Variable
Label DF ParameterEstimate
StandardError
t Value
Pr > |t|
Intercept
Intercept
1 -10.36389
3.53269 -2.93 0.0060
RM RM 1 0.40815 0.08222 4.96 <.0001
D 1 -0.73528 4.59232 -0.16 0.8737
DRM 1 -0.13713 0.08951 -1.53 0.1347
含解釋變數 RM , D 及 DRM 之結果
含解釋變數 RM ,及 DRM 之結果Parameter Estimates
Variable
Label DF ParameterEstimate
StandardError
t Value
Pr > |t|
Intercept
Intercept
1 -10.79900
2.22552 -4.85 <.0001
RM RM 1 0.41781 0.05508 7.59 <.0001
DRM 1 -0.15024 0.03577 -4.20 0.0002結論: 1997 與 1998 的市場模型有顯著的結構性改變,最適迴歸式如下:
1998year for 268.08.10R
1997year for 418.08.10R
t
t
t
t
RM
RM
參 數 不 顯 著 ,
二 線 截 距 相
同
參 數 顯 著 ,
二 線 斜 率 不
相 同
Quan_model 23
季別時間序列與虛擬變數
• 如果我們要分析的資料是季節性的資料,通常季節也是一影響因素,應將季節視為一類別變數,利用虛擬變數來建模
• 如此可以檢定季節性效果,如:討論季節的不同,是否會對股票市場產生不同的報酬。
• 首先,我們把一年分成四季,分別計算出每一季的平均季報酬,再利用虛擬變數的方式,檢定哪一季的季報酬率有明顯較高或哪一季的季報酬率較低。
Quan_model 24
• 檢定第一季指數報酬是否異於其他三季–虛無假說: H0: E(Rt|t 第一季 ) = E(Rt|t 非第一季 )–假設其它三季的平均報酬相同 ,迴歸模型如下:
– 第一季: E(Rt) =α+β, 其它季: E(Rt) =α,
– 所以 β 是衡量前三季的季平均報酬與第一季的差異;因此檢定 β 是否異於 0 ,便可知第一季的指數報酬是否異於其它三季。
報酬為其它三季時,當報酬為第一季時
0
,1D , R ttt tD
Quan_model 25
分析結果
台股季別報酬率資料圖:
Parameter Estimates
Variable
Label DF ParameterEstimate
StandardError
t Value
Pr > |t|
Intercept
Intercept
1 -0.00949 0.03352 -0.28 0.7786
D D 1 0.11370 0.06704 1.70 0.0981
參 數 不 顯 著 ,
第 一 季 與 其 它
三 季 無 顯 著 差
異
截距 項的部分為四季的平均報酬。 D 的 參 數 為 第 一 季
和 其 他 三 季 的 差 異 。
Quan_model 26
對四季報酬率 (Rt) 的迴歸模式• 需要三個指標變數 ( 或虛擬變數 ) ,定義 : S2 = 1 ,若為第二季, S2 = 0 ,非第一季 S3 = 1 ,若為第三季, S3 = 0 ,非第二季 S4 = 1 ,若為第四季, S4 = 0 ,非第四季• 模式 : Rt = α+β1S2t +β2S3t +β3S4t +εt
若為第二季, E(Rt )= α+β1
若為第三季, E(Rt )= α+β2
若為第四季, E(Rt )= α+β3
若為第一季, E(Rt )= α
Quan_model 27
• 此模式是以第一季為基準, β1 為第二季的效力,β2 為第三季的效力, β3 為第四季的效力。若 β
的估計值為正,它的報酬率會比第一季高,若 β
的估計值為負,它的報酬率會比第一季低。
• 檢定 βt=0 ,若為顯著,則第 t 季與第一季有顯著差異。
• 檢定 βi=βj ,若為顯著,則第 i 季與第 j 季有顯著差異。
Quan_model 28
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 0.08249 0.07534 1.09 0.2818
s2 1 -0.12872 0.10655 -1.21 0.2359
s3 1 -0.18199 0.10655 -1.71 0.0973
s4 1 0.04419 0.10655 0.41 0.6811 Test 1 Results for Dependent Variable RETURN
Mean
Source DF Square F Value Pr > F
Numerator 3 0.10165 1.99 0.1353
Denominator 32 0.05109
四季報酬率無顯著差異
參 數 不 顯 著 ,
三 季 與 第 一 季
無 顯 著 差 異
Quan_model 29
例 : 季別銷貨量 (Y) 對季別廣告支出 (X1) 建立一迴歸模式。 需要三個指標變數,定義 :
X2 = 1 ,若為第一季, X2 = 0 ,其他。 X3 = 1 ,若為第二季, X3 = 0 ,其他。 X4 = 1 ,若為第三季, X4 = 0 ,其他。
:
443322110 iiiiii XXXXY 模式
含自變數的季資料迴歸模式
Quan_model 30
第三節 星期效應分析
• 前面我們比較四季的報酬是否有明顯的不同,除了以四季來比較之外,我們還可以檢定股市是否有星期效應
• 也就是檢定一週內是否有某天的報酬較高或較低
• 一般理論認為,通常星期一的報酬會低於其他天的報酬。造成此現象的原因,可能是因為公司或政府會選一週內最後交易日之收盤後發布利空消息。
Quan_model 31
– 虛無假說如下: – 迴歸模型如下: – 虛擬變數 Dt={0 當報酬為星期一時 {1 當報酬為其他時 因此
0 1 1: | |t tH E R t W E R t W
t t tR D
1|tE R t W
1|tE R t W
Quan_model 32
Dependent Variable: return
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 0.00070857 0.00070857 1.87 0.1717 Error 2607 0.98842 0.00037914 Corrected Total 2608 0.98913
Root MSE 0.01947 R-Square 0.0007
Dependent Mean 0.00005291 Adj R-Sq 0.0003 Coeff Var 36798 Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 0.00028538 0.00041742 0.68 0.4942 w 1 -0.00140 0.00102 -1.37
0.1717
星期一的報酬率與其它並無顯著差異
Quan_model 33
–上列的參數估計,截距 項的參數是 週二到週五的平均報酬, W的參數則是 週一和其他報酬的差異,即週一的平均報酬為 0.0003-0.0014=-0.0011 ,而 P 值為 0.1717 表示檢定的結果是週一的報酬沒有明顯較低。
Quan_model 34
–從敘述統計的觀點來看,星期五的平均報酬較高,平均而言,一星期中後三日的平均報酬為正,前三日的平均報酬為負。
–接下來,利用逐一比較的結果檢定之,結果為接受星期五、星期四之平均報酬相同的假設,同時過去九年的星期五之平均報酬明顯高於星期二的平均報酬。