data analysis time series model in error 1....

10
Data Analysis Sehyug Kwon, Dept. of Statistics, Hannam University 99-12-05 [1] Time Series Model in ERROR 1. Introduction 1) Econometrics ( 계량 경제학) 회귀 분석이므로 변수들간의 인과 관계의 유의성, 회귀 추정을 통하여 설명변수의 값들이 주어졌을 경우 종속 변수의 예측치를 구한다. (1) 모형: t pt p t t t e X b X b X b a Y = ... 2 2 2 1 , t=1, 2, … ,n ( 시간), ) , 0 ( ~ 2 s N iid e t (2) 선형 회귀 모형의 유의성 L F-검정 (3) 회귀계수의 유의성 L b 1 , b 2 , .., b p 유의성 L 설명변수 X 1 , X 2 , … , X p 종속변 (Y) 설명하고 있는가? L t-검정 (4) 회귀계수 추정 L pt p t t t X b X b X b a Y ) ) ) ) = ... 2 2 2 1 : Ordinary Least Square 2) 일반 회귀 모형과 다른 점이 있다면 계량 경제의 자료는 시계열 자료로 시간 종속 (time dependent) 자료라는 것이다. 회귀모형에서 설명변수는 deterministic 이므로 () 확률변수가 아니므로 오차항의 분포는 Y 분포와 같다. 3) 시계열 자료의 특징은 시점 t 종속변수 값은 시점 t 설명변수 영향 이외에 시점 (t-1), (t-2), … 등의 영향이 있다. 이런 자료의 경우 오차항의 독립성이 (independent) 유지되지 못하는 경우가 많다. 4) 오차항의 독립성은 회귀모형을 추정한 구해지는 잔차(residual)의해 검정한다. 5) 오차항은 이전 오차항의 영향이 있는지를 알기 위해서는 잔차가 시계열 자료모형이 있는지 검정하게 된다. 2. SCATTER PLOT in ECONOMETRICS 1) 이론이나 경험에 의해 설정한 설명변수가 종속변수에 선형적 영향을 미치는지 있다. 이차 형태를 나타내는 설명변수에는 2 차항 (X 2 )모형에 삽입한다. 2) 설명변수 간에 상관관계가 있는지를 있고 다중공선성 문제를 미리 예상. 3. Time Series 1) 시계열 자료 분석은 자료의 과거치 만으로 미래의 값을 예측하는 것이다. 예측: .... , , ) 2 ( ) 1 ( ) ( ) 1 ( - - t t t t Y Y Y Y 2) 시계열 자료는 Y = C(cycle) + T(trend) + S(seasonality) + I(irregularity) 3) 미래 값을 예측하는 시계열 자료 분석 방법은 다음과 같다. (1) Exponential Smoothing 방법: 자료의 과거 값들의 가중평균으로 미래의 값을 예측 § Simple: 1 ) 1 ( - - = t t t S w wX S § Double: ] 2 [ 1 ] 2 [ ) 1 ( - - = t t t S w wS S § Triple: ] 3 [ 1 ] 2 [ ] 3 [ ) 1 ( - - = t t t S w wS S

Upload: others

Post on 02-Feb-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Data Analysis

Sehyug Kwon, Dept. of Statistics, Hannam University

99-12-05 [1]

Time Series Model in ERROR

1. Introduction

1) Econometrics (계량 경제학) 회귀 분석이므로 변수들간의 인과 관계의 유의성, 회귀 모

형 추정을 통하여 설명변수의 값들이 주어졌을 경우 종속 변수의 예측치를 구한다.

(1) 모형: tptpttt eXbXbXbaY +++++= ...2221 , t=1, 2, … ,n (시간), ),0(~

2σNiid

et

(2) 선형 회귀 모형의 유의성 è F-검정

(3) 회귀계수의 유의성 è b1, b2, .., bp의 유의성 è 각 설명변수 X1, X2, … , Xp 가 종속변

수(Y)를 잘 설명하고 있는가? è t-검정

(4) 회귀계수 추정 è ptpttt XbXbXbaY)))) ++++= ...2221 : Ordinary Least Square

2) 일반 회귀 모형과 다른 점이 있다면 계량 경제의 자료는 시계열 자료로 시간 종속

(time dependent) 자료라는 것이다. 회귀모형에서 설명변수는 deterministic 이므로 (결

정) 확률변수가 아니므로 오차항의 분포는 Y 의 분포와 같다.

3) 시계열 자료의 특징은 시점 t 의 종속변수 값은 시점 t 의 설명변수 영향 이외에 시점

(t-1), (t-2), … 등의 영향이 있다. 이런 자료의 경우 오차항의 독립성이 (independent)

유지되지 못하는 경우가 많다.

4) 오차항의 독립성은 회귀모형을 추정한 후 구해지는 잔차(residual)에 의해 검정한다.

5) 오차항은 이전 오차항의 영향이 있는지를 알기 위해서는 잔차가 시계열 자료모형이

있는지 검정하게 된다.

2. SCATTER PLOT in ECONOMETRICS

1) 이론이나 경험에 의해 설정한 설명변수가 종속변수에 선형적 영향을 미치는지 알 수

있다. 이차 형태를 나타내는 설명변수에는 2 차항 (X2)을 모형에 삽입한다.

2) 설명변수 간에 상관관계가 있는지를 알 수 있고 다중공선성 문제를 미리 예상.

3. Time Series

1) 시계열 자료 분석은 자료의 과거치 만으로 미래의 값을 예측하는 것이다.

예측: ....,, )2()1()()1( −−+ ⇐ tttt YYYY

2) 시계열 자료는 Y = C(cycle) + T(trend) + S(seasonality) + I(irregularity)

3) 미래 값을 예측하는 시계열 자료 분석 방법은 다음과 같다.

(1) Exponential Smoothing 방법: 자료의 과거 값들의 가중평균으로 미래의 값을 예측

§ Simple: 1)1( −−+= ttt SwwXS

§ Double: ]2[1

]2[ )1( −−+= ttt SwwSS

§ Triple: ]3[1

]2[]3[ )1( −−+= ttt SwwSS

Data Analysis

Sehyug Kwon, Dept. of Statistics, Hannam University

99-12-05 [2]

§ WINSTERS: Seasonality 가 있는 시계열 자료

tt etsaX += )()( (constant tend)

tt etsbtaX ++= )()( (linear trend)

tt etsctbtaX +++= )()( 2 (quadratic trend)

(2) ARMA 모형: 과거의 값들에 의해 자료를 모형화 하여 예측

§ AR(p) 모형: tptpttt eYaYaYauY +++++= −−− )()2(2)1(1)( ...

§ MA(q) 모형: tqtqttt eebebebuY +++++= −−− )()2(2)1(1)( ...

§ ARMA(p, q) 모형:

tqtqttptpttt eebebebYaYaYauY +++++++++= −−−−−− )()2(2)1(1)()2(2)1(1)( ......

Time Plot Exponential Smooth

ARMA

Simple

PROC FORECAST METHOD=EXPO TREND=1 W=?

Double

PROC FORECAST METHOD=EXPO TREND=2 W=?

Triple

PROC FORECAST METHOD=EXPO TREND=3 W=?

PROC ARIMA

Identify INDENTIFY VAR=Y (TREND) INDENTIFY VAR=Y(1)

Estimate ESTIMATE P=? Q=?

Forecast FORECAST LEAD=12

WINSTERS

PROC FORECAST METHOD=EXPO TREND=1 (2 / 3) W=?

(계절성 주기가 12) INDENTIFY VAR=Y(12)

time

time

time

time

Data Analysis

Sehyug Kwon, Dept. of Statistics, Hannam University

99-12-05 [3]

[모형 인식 방법] AR(p) MA(q) ARMA(p, q) White Noise

ACF T D(q) T 0 PACF D(p) T T 0 IACF D(p) T T 0

*) T: Tail off exponentially

*) D(p): Drop off to 0 after lag p

[회귀계수의 유의성]

§ T-Ratio 값에 의한 검정 è 2보다 클 경우 유의

[Chi-Square Check of Residuals] è 모형의 유의성

§ 시계열 자료가 white noise (Y t=et) 자료일 경우 Auto correlation의 근사

분포는 Chi-square 분포를 따른다.

§ Ljung modified Box-Pierce Q statistic ∑=

+k

1j)2(nn γ(j)/(n-j)

§ Q-검정통계량은 원래 시계열 자료가 white noise (N(0,1) 자료인가를

검정하는데 사용하기도 하지만 모형 설정이 잘 되었는지를 알아보고자 할

때 사용 è 모형 설정이 제대로 되었다면 잔차는 white noise여야 할

것이다. 그러므로 잔차가 et 모형을 따르면 모형 설정이 올바르게 된

것이다.

4. 잔차 분석

1) 방법

(1) F-검정(모형의 유의성), t-검정(설명변수 유의성), 변수선택, 다중공선성, 이상치와 영

향치 판별 후 적절한 회귀모형을 추정하고 잔차를 예측치를 구한다.

PROC REG;

MODEL Y=X1 X2 … Xp;

OUTPUT OUT=OUT1 P=PRED R=RES;

RUN;

(2) 잔차와 예측치 값의 scatter plot 을 그린다.

§ 등분산성 가정 검정

§ 중요한 설명변수가 모형 설정에서 제외된 경우

PROC PLOT DATA=OUT1;

PLOT RES*PRED=’*’;

RUN;

이분산

주요 변수

Data Analysis

Sehyug Kwon, Dept. of Statistics, Hannam University

99-12-05 [4]

(3) 정규성 검정 è W 통계량 및 BOX-PLOT (STEM-LEAF PLOT)

PROC UNIVARIATE DATA=OUT1;

VAR RES;

RUN;

(4) 독립성 검정 è RES 변수에 대한 AR 모형 적합성 여부 검토, 잔차가 모형이 없이

white noise가 되어야 한다.

PROC ARIMA DATA=OUT1;

IDENTIFY VAR=RES;

ESTIMATE P=1 혹은 P=2;

RUN;

2) 해결방법

(1) 주요 변수가 빠진 경우

§ 모형에 새로운 변수를 삽입한다.

(2) 등분산성 가정이 무너진 경우

§ WLS (Weight Least Square) è 22211

2i ))(s/1(min ppi XbXbXbaY −−−−∑ K

DATA TWO;

SET OUT1;

W=1/(PRED*PRED);

RUN:

PROC REG DATA=TWO;

WEIGHT W;

MODEL Y=X1 X2 … XP;

RUN;

(3) 정규성 가정이 무너진 경우

§ Y 를 Log 변환 è 등분산성 가정도 만족하게 된다.

§ 문제는 설명변수와 종속 변수의 선형관계가 무너지는 경우가 발생한다.

5. 오차항 독립성 검정

1) 오차항의 독립성을 검정하는 2 가지 방법

(1) Durbin Watson 검정방법

§ 귀무가설: ρ=0 (오차항간 1 차 상관계수는 0 이다) /

§ 대립가설: ρ>0 è 일반적으로 계량 경제 자료에서는 오차항은 양의 상관 관계를

가지고 있으므로

§ 검정통계량: ∑ ∑= =

−−=n

t

n

tttt errD

2 2

221 /)(

§ D>Du è 귀무가설 채택 / D<DL è 대립가설 채택 / DL≤D≤Du è 결정 보류

Data Analysis

Sehyug Kwon, Dept. of Statistics, Hannam University

99-12-05 [5]

(2) AR 모형에 의한 검정

§ 잔차에 대한 ARMA 모형의 변수 Identify 를 실시하여 ACF, PACF, IACF 를 살펴

보고 Autocorrelation Check for white noise 검정을 한다. (white noise 가 되어야 오

차항의 독립성이 만족되는 것이다)

§ 오차항이 white noise가 아닌 경우는 잔차를 AR 모형에 적합한 후 시켜 본다.

§ 오차항에 적절한 AR(p) 모형에 근거하여 분석 방법을 재설정한다. (후에 논의)

Data Analysis

Sehyug Kwon, Dept. of Statistics, Hannam University

99-12-05 [6]

2) 예제 자료를 통한 오차항 독립성 검정

(1) Carnegie Mellon 대학 자료 [highway 자료]

§ 변수: Year, New Mexico 주 사망률, US 사망률(단위: 백만 mile 당)

(2) SAS 프로그램

(3) 결과 해석

§ 미국 전체 교통 사망률에 New Mexico 교통 사망률이 양의 영향 (0.6485)을 미친

다. NM 교통 사망률이 한 명 증가하면 미국 교통 사망률은 0.64 만큼 증가한다.

§ Durbin Watson 방법 결과 오차항은 1 차 상관관계가 존재한다. COV(et, et-1)≠0

PROC REG DATA=HIGHWAY;

MODEL US=NM /DW;

PLOT R.*P. ='*' /HPLOTS= VPLOTS=2;

OUTPUT OUT=OUT1 R=RES P=PRED;

RUN;

PROC ARIMA DATA=OUT1;

IDENTIFY VAR=RES;

RUN;

Data Analysis

Sehyug Kwon, Dept. of Statistics, Hannam University

99-12-05 [7]

§ ACF, PACF, IACF 결과 AR(1) 모형으로 적합할 수 있음.

잔차 산점도 분석 결과

이상치 혹은 영향치가 존재한다.

자료 산점도 살펴본 결과

영향치일 가능성이 높음

Data Analysis

Sehyug Kwon, Dept. of Statistics, Hannam University

99-12-05 [8]

§ 잔차가 white noise를 따르지 않는다.

6. 잔차의 모형화

잔차가 시계열 모형을 가지면 AR(1), AR(2), AR(3) … 모형으로 적합하면 된다.

AR(2) 모형: tttt vrbrbr ++= −− 2211 : 절편 없는 모형 (NOCONSTANT)

1) 예제 è 잔차를 AR(2) 모형으로 적합한 경우

§ AR(2) 모형에서 b2는 유의하지 못하다. (t-값=0.99<2) è AR(1) 모형으로

2) 예제 è 잔차를 AR(1) 모형으로 적합한 경우

§ AR(1) 모형에서 b1는 유의하다. (t-값=2.95) è AR(1) 모형 적합

§ AR(1) 모형으로 적합하고 남은 잔차는 더 이상 모형을 가져서는 안 된다. 그러

므로 autocorrelation check of residuals

§ 최종 추정 모형 è ttttt veeveB +=⇒=− −144218.0)42715.01(

Data Analysis

Sehyug Kwon, Dept. of Statistics, Hannam University

99-12-05 [9]

7. 잔차가 모형 가진 경우 해결책

잔차가 자기 상관 모형을 (Autoregressive) 가지면 OLS 방법은 더 이상 좋은 추정 방법이

아니다. (Not Best)

1) 해결방법 è Generalized Difference 방법 이용

(1) ttt vee += −1? 경우 AR(1)

§ 변수변환: 1* ?Y −−= ttt YY / 1

* ?X −−= ttt XX

§ 초기치: --- (1) 12*

1 ?1 YY −= / 12*

1 ?1 XX −=

§ Y*와 X*와 회귀분석을 실시한다. (Generalized Least Square 방법)

§ 식 (1)의 변환을 하지 않으면 GLS 는 OLS 방법보다 못하다.

2) Highway 교통 사망률 예제 è ttt vee += −144218.0

DATA TWO; SET HIGHWAY; IF (_N_=1) THEN DO; UST=SQRT(1-0.44218**2)*US; NMT=SQRT(1-0.44218**2)*NM; END; UST=US-0.44218*LAG(US); NMT=NM-0.44218*LAG(NM); RUN; PROC REG DATA=TWO; MODEL UST= NMT /DW; OUTPUT OUT=OUT2 R=RES; RUN; PROC ARIMA DATA=OUT2; IDENTIFY VAR=RES; RUN;

Data Analysis

Sehyug Kwon, Dept. of Statistics, Hannam University

99-12-05 [10]

최종 회귀 모형: )44218.0(52.057695.0)44218.0( 11 −− −+=− tttt XXYY

11 2299.052.044218.057695.0 −− −++= tttt XXYY

8. Comment

(1) 종속변수가 1 차 자기 상관 모형을 따르는 경우가 발생한다면,

tptptttt eXbXbXbYaY ++++++= − ...? 22121

(2) KOYCK Distributed Lag: Yt 가 설명변수의 현재값과 과거값에 모두 영향을 받을 경우

ttttt ebbbaY +++++= −− ...XXX 22110 è j0?bb j = (exponentially decrease over time)

ttttt ebbbaY +++++= −− ...X??XX 22

0100 where ttt vee += −1?