8. 시계열 자료 분석기법의 1 장의 1 절부터 6 절에 대한 내용을 요약하고 ,...

8. 시계열 자료 분석기법의 1 장의 1 절부터 6 절에 대한 내용을 요약하고 , 예제 및 표에 대한 문제를 Excel

을 이용하여 풀어서 제출하라 .

환경공학과20041469

임건섭

1. 시계열 자료 분석 - 1.1 예측

어떤 자료에 대해 장래의 값을 예측한다는 것은 간단한 일이 아니고 , 또 정확히 예측을 하기도 어렵다 . 그러나 , 현재까지의 자료를 가지고 합리적인 근거에 따른 예측의 필요성은 여러 분야에서 요구되고 있는 실정이다 . 판매량 , 재고량 , 인력 또는 중요한 경제 및 경영 자료들에 대해 예측함으로써 사업의 전망에 대한 의사결정을 할 수 있기 때문이다 .

예측의 방법은 여러 가지가 있을 수 있겠지만 여기서는 과거의 시점들에서 관찰된 값들 ( 시계열 ) 로써 예측하는 기법 ( 시계열 분석 ) 을 중심으로 예측의 방법들을 설명해 나가고자 한다 .

1.2 시계열 자료 분석

시계열 자료를 분석한다는 것은 어떤 자료가 과거 관찰값들의 변화패턴과 비슷하게 현재 시점이후에도 변화될 것이라는 전제하에서 향후 시점의 값을 예측하는 기법이다 . 정확한 예측을 위하여 보다 중요한 것은 시계열 자료의 성격과 특징을 파악하고 , 그 자료와 관련된 주변 환경 변수들은 어떤 것들이 있는지 , 그 자료 자체를 분석할 것인지 변환 또는 조정이 필요한지 등을 고려해 보아야만 할 것이다 . 여기서 , 주변 환경 변수들이란 인구통계변수 , 경제지표변수 , 경쟁관계변수 , 정부정책 , 기술변화 등을 말한다 .

시계열 자료는 크게 두 가지로 나눌 수 있다 . 정상적시계열과 비정상적시계열이 그 두 가지인데 우리들이 접하게 되는 시계열은 대부분 비정상적시계열이지만 정상적시계열로부터 시계열의 모습을 파악하는 것이 필요하다 .

정상적 시계열과 비정상적 시계열 어떤 시계열 자료의 변화 패턴이 일정한 평균값을 중심으로

일정한 변동폭을 갖는 시계열일 때 그 자료를 정상적 ( 비이동적 , stationary) 시계열 자료라고 하며 , 그 외의 시계열 자료들은 비정상적 ( 이동적 , non-stationary) 이라고 부른다 . 우리 주변의 많은 시계열 자료들이 비정상적임은 물론이다 .

< 그림 1.2-1> 은 정상적 시계열이며 < 그림 1.2-2> 에는 여러 가지 비정상적 시계열의 예들이 있다 .

< 그림 1.2-1> 정상적시계열

< 그림 1.2-2> 비정상적시계열

1.3 예측의 정확도 측정

시계열자료를 표현하는 방법은 로서 는 시점을 나타내고 는 그 시계열자료를 나타내는 변수이다 . 즉 , 등으로 시계열자료를 표현한다면 은 시점 1 에서의 값 , 는 시점 2 에서의 값을 나타내는 것이다 .

예측은 과거 시점들에서 얻어진 시계열자료들을 이용하여 장래시점에서의 그 시계열 변수 값들을 알아내는 것인데 , 그 예측값들이 얼마나 정확하다고 할 수 있는가를 측정해야만 할 것이다 .

더욱이 , 앞으로 설명하겠지만 , 어느 시계열자료에 대해 예측을 하는 방법으로 여러 가지 방법들이 가능한 데 어느 방법으로 예측한 결과가 가장 적당한가를 알기 위해서는 예측값들의 정확도를 측정하여 비교해 볼 수 있을 것이다 . 먼저 , 현재 시점 (t) 에서 n 개의 시계열자료를 갖고 있다고 하자 . 현재 시점의 자료를 라고 표현하면 이 자료들을 다음과 같이 표현할 수 있을 것이다 .

그러면 , 의 시계열자료들을 가지고 예측을 수행하게 된다는 것이다 . 그리고 n 개의 시계열자료들로써 어떤 예측모형을 사용하여 향후 m 개 시점들에 대한 예측값들을 얻는다면 , 그 예측값들은 으로 표현될 것이다 .

또한 이 예측모형에 의하여 현시점부터 과거 n 개의 자료들이 계산될 수 있는데 그 값들은 로 표현한다 . 즉 ,

이다 . 따라서 , 현재 얻어진 시계열자료 와 예측모형을 통하여

계산된 시계열 값들 , 간의 차이는 ( 예측모형에 의하여 얻어지는 ) 오차들이 되는데 , 이 오차들로써 그 예측모형이 적절한 예측 방법인가를 판단하는 기준을 얻어야 할 것이다 .

즉 , 들을 오차라고 부르며 , 이들 오차들을 가지고 예측 방법의 정확도를 측정해야

할 것이다 . 또한 , 향후 m 시점에 걸쳐 시계열의 관찰치 , 가 얻어진다면

도 계산될 수 있을 것이고 ,

이 값들을 예측오차라고 부른다 . 위에서 설명한 오차들로써 예측방법의 정확도를 측정하는 방법들은 다음과 같다 .

1) Mean Error : ( 오차평균 )

2) Mean Absolute Error : ( 절대평균오차 )

3) Mean Squared Error : ( 자승오차의 평균 )

4) Standard Deviation of Errors : ( 오차의 표준편차 )

5) Percentage Error : ( 오차의 백분율 )

6) Mean percentage Error : ( 오차백분율의 평균 ) 7) Mean Absolute Percentage Error : ( 오차백분율 절대값의 평균 ) 8) Theil's U-Statistic (Theil 의 U 통계량 )

여기서 , ( 예측된 변화비율 ) ( 관찰된 변화비율 ) 9) Durbin-Watson Statistic (Durbin-Watson 의 통계량 )

1.4 평활법 (Smoothing Method)

평활법 (Smoothing Method) 이란 시계열의 들쭉날쭉함을 어떻게 부드럽게 조정하여 예측할 수 있느냐 하는 문제이다 .

다시 말하면 , 어떤 부드러운 곡선을 기준으로 임의로 (Random) 이탈하여 시계열자료 값들이 얻어진 것이라는 전제하에서 그 부드러운 곡선의 패턴을 찾아내자는 방법이다 .

따라서 , Smoothing 방법은 과거 시계열자료들에 어떤 방법으로 가중치를 부여하여 예측하느냐에 따라 크게 이동평균 (Moving Average)방법과 지수평활법 (Exponential Smoothing) 방법의 두 가지로 나누어 생각할 수 있다 .

1.4.1 이동평균방법

이동평균방법이란 어느 시계열 자료가 일정한 주기를 갖고 비슷한 패턴으로 움직이고 있을 경우에 적용시킬 수 있는 방법이다 . 주기가 길어질수록 직선에 가까운 부드러운 선이 얻어질 것임을 쉽게 알 수 있다 .

1) 평균 (Average) 평균을 사용하여 예측을 한다는 것은 매우 직관적인 방법이다 . 왜냐하

면 , 평균이란 누구나 알고 있는 개념이어서 쉽고 간단하게 사용할 수 있기 때문이다 .

시계열 자료 , 가 있다고 하자 .

그러면 (T+1) 시점에서의 예측값 을 로 하자는 것이다 . 만일 (T+1) 시점의 실제 시계열 값이 얻어진다면

예측오차는 로 계산되어 진다 . 마찬가지로 시점 (T+2) 에서의 예측값 , 는 로 계산될 것이다 .

평균을 예측의 방법으로 적용시킬 수 있는 시계열자료는 추세 (Trend) 도 없고 계절성 (Seasonality) 도 없는 시계열자료이다 . 이러한 시계열자료에 대해서라면 평균에 사용되는 자료의 수가 많으면 많을수록 안정적 (Stable) 인 평균값이 얻어지기 때문에 평균을 이용할 경우 좋은 예측값이 될 것이다 . 그러나 , 시계열자료가 추세나 계절성이 있을 경우 , 또는 어느 시점에서 급격히 변화하는 모습을 나타낸다면 평균의 방법으로 좋은 예측값을 기대할 수는 없을 것이다 .

2) 단순이동평균 (Simple Moving Average) 시계열자료가 충분히 확보되어 있을 경우 , 평균의 방법을 개선하여

일정한 개수의 자료들을 평균하여 예측값으로 사용하는 방법이다 . 예측하고자 하는 시점 (T) 를 기준으로 과거 몇 개의 자료로써 평균을

얻을 것인가 하는 주기 (N) 가 결정되면 , 다음과 같은 방법으로 이동평균 (moving average) 을 얻을 수 있다 . 시계열 자료 , 가 있다고 하자 . 그리고 주기를 N이라고 하면 , < 표 1.4.1-2> 와 같이 시점 (T+1, T+2, T+3) 에서의 예측값 , 을 얻는다 .

예측시점 이동평균 (MA(N)) 예측값

T

T+1

T+2

< 표 1.4.1-2> 단순이동평균방법에 있어서의 예측시점별 예측값

그러나 , 단순 이동평균방법은 시계열자료가 추세를 갖고 있을 경우에는 부적절하다 .

이동평균방법을 사용함에 있어서 주기 (N) 를 얼마로 해야 하는가 하는 문제가 있는데

(a) MA(1) 은 현재 시점 (T) 의 시계열 값으로 다음 시점 (T+1) 의 시계열자료를 예측한다는 것이다 .

(b) MA(4) 는 분기별 자료에 대해 사용할 수 있는 데 , 4 개의 자료들 평균을 얻으면 계절 효과를 제거하는 데 도움이 되지만 , 그 평균값을 다음 시점의 예측값으로 한다는 것은 추세나 계절효과를 나타내기에 바람직하지 않다 . 다음에 설명되겠지만 , 4 개의 자료들 평균을 4 개 자료들의 가운데 위치시킨다면 시계열자료들의 요소들을 파악하는데 도움이 될 것이다 .

(c) 이동평균방법에서 주기를 크게 하면 할수록 시계열자료를 부드럽게 하는 효과는 있다 . 왜냐하면 많은 자료들의 평균을 내어서 예측값으로 사용한다는 것은 그 기간내의 들쭉날쭉 함을 고려하지 않는다는 것이기 때문이다 .

3) 선형이동평균방법 (Linear Moving Average Method) 앞에서 설명한 평균이나 이동평균의 방법은 시계열자료가 어떤 추세를

보이고 있을 경우 적당한 예측방법이 될 수가 없다 . 추세가 있는 시계열자료에 대해서는 단순히 이동평균방법을 사용할

경우 , 체계적 오차가 발생하기 때문에 선형 이동평균방법 (linear moving average method) 를 소개한다 .

선형 이동평균방법은 이동평균 값들을 다시 이동평균하여 얻어진 값들을 이용하여 예측하는 방법이다 . 주기가 N인 이동평균을 주기 N으로 반복 이동평균한 결과를 MA(NxN) 으로 표현하기로 하자 .

선형이동평균방법에서는 단순 이동평균방법에서와는 달리 MA(3) 의 값을 t=3에 위치시킨다 . 그리고 반복이동평균값인 MA(3x3) 도 3개의 이동평균값들 (4, 6, 8) 로부터 얻은 후 , 단순 이동평균값을 [MA(3) - MA(3x3)]만큼 조정하고 시점간의 추세를 반영하여 예측하는 방법이다 .

이제 , 이동평균과 반복이동평균을 정리하여 선형이동평균방법에 의한 예측값을 일반화시켜보기로 하자 . 단순이동평균은 으로 반복이동평균은 으로 표현하면

이 되고 , : MA(3) + (MA(3)-MA(3*3)) (1.4.1-1) : 추세 (Trend) (1.4.1-2) 으로 할 때 선형이동평균방법으로 시점 (T+m) 의 예측값을 얻으면 (1.4.1-3)

이다 . 물론 시점 (T+1) 에서의 예측값은 이다 .

1.5 시계열 요소 분해법

식 (1.4-1) 는 단순이동평균으로 얻어진 값을 만큼 조정한 결과를 나타내고 , 식 (1.4-2) 은 단위기간 동안의 추세 추정치를 나타낸다 . 식(1.4-2) 의 2/(N-1) 은 뒤에서도 나오는 값이므로 여기서 간단히 설명하고 넘어가기로 하자 .

먼저 , 주기 N의 이동평균은 기간 동안의 시계열 값들 평균이기 때문에 시점 (N+1)/2 에 위치시키는 것이 원칙이다 . 그러나 , 주기 N의 이동평균값을 시점 N에 위치시키기 때문에 N-(N+1)/2=(N-1)/2 기간의 차이가 나게 된다 .

반복이동평균의 값도 이와 마찬가지로 (N-1)/2 기간의 차이가 나며 이 기간동안의 추세 변동폭은 이기 때문에 단위 기간 ( 시점과 시점간의 기간 ) 에 대한 추세는 을 (N-1)/2 로 나눈 , 식 (1.4-2) 과 같이 된다 .

1.5.1 시계열요소 (The Component of Time Series Data)

시계열자료를 구성하고 있는 세 가지 변동을 설명해 보면 다음과 같다 .

1) 추세 (Trend) 추세란 자료가 장기적으로 변화해 가는 큰 흐름을 나타내는 것이다 .

자료가 장기적으로 (Long-run) 커지는지 , 작아지는지 , 변화가 없는지를 나타내 주는 요소를 추세라고 한다 . 보다 구체적으로는 장기적으로 커지는 모습일 때 그것이 선형인지 , 지수적으로 (Exponentially) 증가하는 것인지를 함수관계로 나타내 줄 수도 있을

2) 순환변동 (Cyclical Movement) 순환변동은 경제전반의 또는 특정 산업의 부침 (Ups and Downs) 를 나타내

주는 것을 말한다 . 예를 들면 , GNP( 국민총생산 ), 산업생산지수 , 주택수요 , 자동차 판매대수 , 주식가격 , 통화공급량 , 이자율 등도 순환변동

3) 계절변동 (Seasonal Fluctuation) 계절변동은 일정한 주기를 갖고 반복적으로 같은 패턴으로 변화하는 것을

말한다 . 예를 들면 , 온도 (1 일 주기 ), 강우량 (1 년 주기 ), 전력소비량 (1일 주기 ) 등

순환변동과 계절변동의 차이점은 계절변동은 주기가 일정 (1 년 , 1 달 , 1 주 등 ) 하게 정해진 반면 순환변동은 정해지지 않은 기간 동안에 사이클 (Cycle)을 보여주는 것이라 할 수 있다 .

이상과 같이 시계열자료는 세 가지 변동을 내포하면서 불규칙하게 변화하는 것이므로 시계열자료 ( ) 는

로 표현할 수 있다 . 여기서 오차 (Error/Randomness) 란 불규칙

변동으로 설명되는 항인데 실제 시계열자료 값과 추세 , 순환 , 계절 변동의 조합에 따른 패턴 , 간의 차이라고 보면 된다 .

그러므로 , 시계열자료는 실제로 위에서 설명한 네 가지 요소가 뒤섞여 있는 것으로 간주하여

(1.5.1-1) 로 표현한다 . 여기서 , 는 시점에서의 시계열 값 , 는

시점에서의 추세요소 , 는 순환요소 , 는 계절요소 , 는 불규칙요소를 나타낸다 .

그리고 대체로 다음과 같은 과정을 거쳐 요소들을 분해하게 된다 . (1) 계절변동 주기 (N) 를 파악한 후 N기의 이동평균을 구하여

계절성과 불규칙성 ( 임의성 ) 을 제거시킬 수 있다 . 즉 계절변동의 주기 (N) 가 12 개월이든 , 4 분기든 , 7 일이든 간에 시계열 자료의 N기 이동평균을 얻으면 계절성으로 인한 높은 값과 낮은 값들을 평균하는 것이 되어 계절성이 제거되고 , 또 평균값을 얻음으로써 임의의 어떤 이유 때문에 생기는 작은 변동인 불규칙 변동도 제거하는 효과를 얻을 수 있다 .

(2) 시계열자료 ( ) 로 부터 (1) 에서 구한 이동평균 값들은 분리시키게 되면 추세변동과 순환변동만 남게 된다 .

(3) 그러면 시계열자료의 추세가 어떤 형태로 이루어져 있는지를 알 수 있게 되고 , 그 추세의 형태 ( ) 를 구할 수 있다 .

(4) (2) 에서 얻어진 추세변동과 순환변동만 남아 있는 시계열에서 (3) 에서 구한 추세변동을 제거하면 순환변동 ( ) 이 얻어지고

(5) 위의 과정에서 얻어진 , , 를 모두 제거할 때 남는 것이 불규칙변동 ( ) 이다 .

1.5.2 추세변동

시계열자료가 장기적으로 (Log-run) 어떤 경향을 나타내고 있는가를 추세 (Trend) 라고 한다 . 시계열자료가 증가하는 경향이 있는지 또는 감소하는 경향이 있는지를 알아보고 , 증가나 감소의 경향이 선형 (Linear) 인지 어떤 함수관계로 나타낼 수 있는지를 찾는 것이다 . 시계열자료가 갖는 추세는 일반적으로 < 그림 1.5-2> 와 같다 .

< 그림 1.5.2-1> 시계열 자료의 일반적 추세

먼저 < 그림 1.5.2-1>(a) 는 시간의 변화에 따라 직선으로 증가하는 시계열의 형태이다 . 이와 같은 , 선형의 관계는 가장 단순한 추세를 나타내는 것으로서

의 관계식을 찾으면 될 것이다 . < 그림 1.5.2-1>(b) 는 의 관계를 나타내는 것으로서 시계열의 값들이 초기에는 급격히 작아지다가 차차 점진적으로 작아지는 형태를 나타낸다 . 비록 그 관계가 비선형 (Non-linear) 이지만 , 대수를 취하여

로부터 과 을 구할 수 있다 .

< 그림 1.5.2-1> (c) 와 (d) 는 각각 의 관계를 나타낸 것이다 .

그리고 < 그림 1.5.2-1> (e) 는 성장곡선을 나타내는 그래프로서 초기에는 서서히 증가하다가 , 일정 시점 이후에는 성장의 속도가 빠르게 되고 또 성장의 둔화하는 모습을 나타내는 시계열에 적합하다 . 이와 같은 성장곡선은

로 관계식이 얻어지게 된다 . 위의 관계식을 로 바꾸어 a 와 b 를 구할 수 있게 된다 .

(1) 선형추세의 예 시간의 흐름에 따라 일정한 비율로 증가하는 시계열자료의 패턴을 와

t 가 의 관계에 있음을 뜻한다 . 실제로 ( ,t) 에 대한 자료가 n 개 있을 경우 회귀분석의 최소자승법에 따라 기울기 b 와 절편 a 의 값을 구할 수 있다 . 예를 들어 , < 표 1.5.2-1> 와 같은 판매액 자료가 있을 때 물가지수를 반영한 판매액 ( ) 시계열 자료에 대한 a 와 b 의 값들은 각각 , a=3.823.7 이고 선형의 추세선은 b=166.0

이다 .

< 표 1.5.2-1> 실제 판매액과 물가지수를 반영한 판매액 ( 단위 :백만원 )

이 자료에 대한 흩어진 정도 (scatter plot) 과 추세선은 < 그림 1.5.2-2>과 같다 .

< 그림 1.5.2-2> 자료의 흩어진 정도와 추세선

(2) 비선형추세의 형태 시계열자료 ( ) 가 시점에 따라 직선의 관계에 있지 않고 < 그림 1.5-2> 의

(b), (c), (d) 와 같이 비선형의 관계에 있을 경우는

등의 관계로 표현될 수 있는데 , 이모형들은 대수 (Logarithm) 를 취함으로써 선형의 관계로 바뀌어 진다 .

시계열 자료의 Scatter Plot 을 얻어 그림 상에 나타난 추세를 적당한 모형식에 적용시키는 것이 가장 기본적인 방법일 것이다 . 그러나 , 보다 객관적인 근거를 얻기 위해서는 시계열 자료를 차분 (Differencing)시키거나 , 시계열 자료의 자기상관 (Autocorrelation) 을 얻어 볼 필요가 있다 .

시계열을 차분한다는 것은 을 구하는 것을 의미하는 데 , 이 차분들이 대체로 일정한 (Constant)

값으로 얻어진다면 선형의 추세를 갖는다는 판단을 할 수 있을 것이다 . 만약 , 차분된 것을 다시 차분했을 때에야 비로써 일정한 값들을 보인다면 그 시계열 자료는 2 차식의 추세를 갖는다고 판단할 수 있을 것이다 .

즉 , 으로 2 차 차분한 결과가 대체로 일정한 값을 갖으며 2 차식의 추세를

보이는 시계열 자료이다 . 또 , 어떤 시계열은 대수를 취한 값들 ( ) 의 1차 차분이 일정한 값을 갖는 경우도 있는데 , 이런 경우는 성장곡선의 패턴을 갖는 시계열이라고 판단할 수 있다 .

시계열의 추세를 찾아낸 후에는 원 시계열에서 추세를 제거시킴으로써 추세가 없는 (Detrending) 시계열의 형태를 얻게 되는 데 , 그 형태는 정상적시계열 (Stationary Time-series) 이 될 것이고 이 정상적시계열에 나타나는 다른 변동 요소들을 찾는 일이 남게 된다 .

1.5.3 순환변동

순환변동 (Cyclical Fluctuation) 은 추세변동을 제거시킨 시계열로부터 찾아낼 수 있는데 비교적 장기간의 시계열일 경우 , 일정한 기간을 갖지는 않더라도 침체기와 활황기가 반복적으로 나타나는 일정의 경기변동을 말한다 .

1.5.4 계절변동

계절변동 (Seasonal Variation) 이란 1년 이내의 주기를 갖고 반복적으로 나타나는 변동을 말한다 . 주기는 1 일 , 1 주 , 1년 등이 될 수 있으며 , 시계열 자료가 한 주기 내에서 반복적으로 비슷한 형태의 패턴을 보일 경우 계절변동을 찾을 수 있다 . 예측에 있어서 계절변동을 찾는 것이 중요한 이유는 다음과 같다 . 첫째 , 많은 시계열자료에서 추세변동 다음으로 뚜렷하게 나타나는 것이 계절변동인데 , 예측을 함에 있어 이 계절성을 고려해야만 보다 정확한 예측이 가능하다 . 즉 , 계절변동을 찾아내 원 시계열자료에서 계절성을 제거할 때 예측모형의 틀이 짜여 지고 정확한 예측을 할 수 있는 것이다 . 계절변동을 찾아야 되는 이유는 또한 장기간의 계획을 수립함에 있어 계절적 변동을 파악해야만 생산량과 재고량을 조절하여 수급을 원할히 할 수 있기 때문이다 .

1.6 Box-Jenkins 모형

소위 ARIMA(Auto Regressive Integrated Moving Average) 모형으로 일컬어지는 Box-Jenkis 모형은 시계열자료의 예측에 널리 사용되고 있다 . Box-Jenkins 모형에 의하여 시계열자료를 다루고자 할 때는 다음의 세 가지 단계 , 즉 ,

(1) 모형식별 (model identification) (2) 식별된 모형의 파라미터 추정 및 진단 (testing) (3) 예측 (forecasting) 를 거치게 된다 .

1.6.1 Box-Jenkins 모형

일단 시계열자료가 정상적인 경우 , Box-Jenkins 모형은 다음의 세 가지로 나누어진다 . 즉 ,

(1) 자기회귀모형 (2) 이동평균모형 (3) 자기회귀이동평균모형

(1) 자기회귀모형 (Autoregressive Model) 자기회귀모형이란 시계열자료 ( ) 가 과거 값들로써 설명된다는

모형이다 . 다시 말하면 , 회귀모형과 같이 (1.6.1-1) 라고 할 때 , 현재 (t) 시점의 시계열 값 ( ) 은 바로 전기 (t-1) 값으로부터

만큼 , 2 기전 (t-2) 의 값으로부터 만큼 등으로 영향을 받는다고 할 수 있을 것이다 .

그러므로 과거 p 까지의 값들이 에 영향을 준다고 할 경우의 식 (1.6.1-1) 을 p 차 자기회귀모형이라고 부르며 AR(p) 라고 표현한다 . 물론 , 바로 전기의 값이 현재의 값에 중요하게 영향을 주는 경우 , AR(1) 모형이 되며

(1.6.1-2) 으로 표현된다 . 여기서 는 오차를 나타내며 시점에

관계없이 독립적이고 정규분포 한다는 가정을 하게 된다 . 즉 ,

이다 .

(2) 이동평균모형 (Moving Average Model) 이동평균모형이란 시계열자료가 연속적인 오차항 들의 영향을 받는다는

것으로서 (1.6.1-3) 으로 표현되는데 식 (6-3) 을 q차 이동평균모형이라고 부르며 , MA(q) 로

나타낸다 . 물론 , 바로 이전 시점 (t-1) 의 오차항만이 포함되는 경우라면 1 차 이동평균모형이 되며 ,

(1.6.1-4) 으로 표현된다 .

(3) 자기회귀이동평균모형 (Autoregressive Moving Average Model) 앞에서의 두 가지 모형은 시계열자료가 과거의 시계열자료 값들로

표현될 수 있다는 것과 과거의 오차값들로 표현될 수 있다는 것을 나타내고 있는데 , 경우에 따라서는 과거의 시계열자료 값들과 과거의 오차값들 모두의 영향을 받는다고 할 수도 있을 것이다 . 그러므로 AR과 MA 가 혼합된 자기회귀이동평균모형을 다음과 같이 나타낼 수 있다 . 즉 ,

(1.6.1-5) 이다 .

이러한 자기회귀이동평균모형은 ARMA(p,q) 로 표현될 수 있다 . 가장 단순한 ARMA 모형은

(1.6.1-6) 으로서 ARMA(1,1) 으로 표현하면 된다 . ARMA 모형은 AR 모형과 MA 모형의 혼합모형으로서 , AR 이나 MA

모형을 ARMA 모형 표현방법으로 나타내기도 한다 . 즉 , 예를 들면 , AR(1) 은 ARMA(1,0) 으로 MA(1) 은 ARMA(0,1) 등으로 표현해도 무방하다 .

시계열자료 ( ) 의 평균을 나타내는 방법은 예를 들면 , 식 (1.6.1-2) 는 를 에 회귀시킨 회귀모형인데 와 의 평균이 모두 로 같기 때문에 ( 정상적시계열 ), AR(1) 모형은 원칙적으로

(1.6.1-7) 로 표현되는 것이 타당하다 . 그리고 식 (1.6.1-7) 을 약간 수정하면 (1.6.1-8) 가 된다 . 또 , 식 (1.6.1-4) 의 MA(1) 모형은 의 평균이 일 때 , 원칙적으로

(1.6.1-9) 으로 표현되어야 할 것이다 . 그러나 , 대부분의 경우 편의를 위하여

의 평균을 0으로 간주하고 모형들을 설명하게 된다 .

1.6.2 모형의 규명

정상적시계열에 대한 AR, MA, ARMA 모형은 세 가지가 있다는 설명을 하였다 . 물론 차수 (order) 를 고려할 때 그 종류는 훨씬 많아지는 것을 알 수 있다 . 그러면 , 주어진 시계열을 어떤 모형에 적합시키는 것이 바람직한가를 찾아야 하는데 이를 규명 (identification) 이라고 한다 . 즉 , 주어진 시계열자료로 부터 얻어지는 정보를 수단으로 하여 주어진 시계열은 어떤 모형일 것이라는 규명을 하게 되는데 , 규명의 중요 수단으로 자기상관계수 (autocorrelation : AC) 와 부분자기상관계수 (partial autocorrelation : PAC) 가 있다 .

Box-Jenkins 모형을 규명하는 수단으로 자기상관계수 (AC) 와 부분자기상관계수 (PAC) 가 사용되는데 자기회귀모형 (AR), 이동평균모형(MA), 자기회귀이동평균모형 (ARMA) 의 자기상관계수와 부분자기상관계수의 형태를 몇 가지로 정리함으로써 모형 규명의 가이드라인을 얻을 수 있다 .

O MA 모형 AC 가 돌출적인 값들을 갖고 PAC 는 순차적으로 작아지는 모습을

나타내는데 , 유의적인 AC 의 돌출부의 수로 차수를 결정한다 . O AR 모형 PAC 가 돌출적인 값들을 갖고 , AC 는 순차적으로 작아지는 모습을 나타낼

경우 모형으로 판단되며 유의적인 PAC 의 돌출부의 수로 차수를 결정한다 . O ARMA 모형 AC 와 PAC 모두 순차적으로 작아지는 경우 모형으로 식별되며 차수는 를

넘지 않는다 .

1.6.3 MA 모형 , AR 모형 , ARMA 모형의 AC 와 PAC

여기서는 앞에서 설명한 기본 모형들 (MA, AR, ARMA) 에 대해 자기상관계수와 부분자기상관계수가 어떻게 얻어지는가를 이론적으로 살펴봄으로써 모형을 식별하는 데에 도움이 되도록 한다 .

1) MA 모형 먼저 MA(1) 모형 , 에 대한 자기상관계수 (AC) 는 다음과 같이 계산된다 . 즉 , 시차 (lag) 1 의

자기상관계수는

(1.6.3-1) 이다 . 시차 2 이상에서는 분자가 0 이 되므로 (1.6.3-2) 이다 .

그러므로 , MA(1) 모형은 시차 1 의 AC 만이 유효하며 2 이상의 시차에서는 AC 값들이 0 이 되고 PAC 는 점진적으로 소멸되어 가는 형태를 갖게 된다 . <그림 1.6.3-1> 에서는 MA(1) 의 여러 가지 AC 와 PAC 그래프를 보여주고 있다 .

< 그림 1.6.3-1> MA(1) 의 AC 와 PAC 형태

MA(2) 모형에 대한 자기상관계수는 다음과 같이 얻어진다 . 즉 , MA(2) 모형은 이므로 , 시차 1 의 자기상관계수

(1.6.3-3) 이고 , 시차 2 의 자기상관계수는 (1.6.3-4) 으로 얻어지며 , 시차 3이상에서는 0이다 .

따라서 , MA(2) 모형에 대한 AC 와 PAC 그래프는 < 그림

1.6.3-2> 와 같이 얻어진다 .

< 그림 1.6.3-2> MA(2) 의 AC 와 PAC 의 형태

이제 모형을 좀 더 간결하고 효과적으로 표현하기 위하여 후방연산자 (backward operator) "B"를 소개하기로 하자 . 즉 , B는

(1.6.3-5) 로 정의하기로 하면 MA(1) 모형은 (1.6.3-6) 로 , MA(2) 모형은 (1.6.3-7) 로 표현할 수 있다는 것이다 . 이러한 표현은 앞으로 계절성과

비정상적시계열을 나타내는 데에 필요하고 시계열분석에서의 파라미터 값 제약조건을 나타내는 데도 필요하기 때문이다 .

2) AR 모형 먼저 , 가장 단순한 AR(1) 모형에 대한 자기상관계수 (AC) 는 다음과 같이

구해진다 . 에 대한 (1.6.3-8) 그러므로 AC 는 시차 k 가 커질수록 점진적으로 감소하는 모양을 갖게 된다 . < 그림 1.6.3-3> 은 AR(1) 모형의 AC 와 PAC 이다 .

< 그림 1.6.3-3> AR(1) 의 AC 와 PAC 형태

AR(2) 모형에 대해서는 (1.6.3-9)

으로 얻어지게 되고 , < 그림 1.6-3> 는 AR(2) 모형의 전형적인 AC, PAC가 나타나 있다 . 특히 , AR 모형에 대해서는 PAC가 일정한 값으로 얻어지게 되므로 PAC에서는 유의적인 값들이 얻어지고 , AC는 점차(빠르게 ) 작아지는 값들로 나타난다 .

< 그림 1.6.3-4> AR(2) 의 AC 와 PAC

3) ARMA 모형 AR 과 MA 모형의 혼합 형태인 ARMA 모형에 대해서는 자기상관계수 (AC)

나 부분자기상관계수 (PAC) 모두 점진적으로 작아지는 형태를 갖는다 . 이 경우에는 AC, PAC 모두 특별한 특징을 보이지 않기 때문에 AR 이 아니고 , MA 도 아닌 경우라고 판단될 때 ARMA 모형으로 식별할 수밖에 없다 . ARMA(1,1) 모형에 대한 몇 가지 AC 와 PAC 패턴을 소개하면 < 그림 1.6.3-5> 와 같다 .

< 그림 1.6.3-5> ARMA(1,1) 의 AC 와 PAC 형태

1.6.4 비정상적 시계열

앞에서도 언급한 바와 같이 대부분의 시계열자료는 비정상적시계열이다 . 비정상적시계열이라 함은 일정기간 동안의 시계열자료들의 평균이 같지 않거나 , 분산이 같지 않은 경우로서 비정상적시계열을 정상적시계열로 전환시켜 놓아야 모형을 식별할 수 있게 된다 . 비정상적시계열을 정상적시계열로 바꾸는 방법은 주로 차분 (differencing) 으로 해결한다 .

시계열 , { }가 있을 때 1 차 차분 (first difference) 은 으로 표현되는데 , 1 차 차분의 결과인 가 정상적시계열이 아니라면 를 다시 한번 차분하는 2 차 차분을 수행할 수 있다 . 즉 , 2 차 차분은 으로 표현된다 . 대개의 비정상적시계열은 2 차 차분으로 정상적시계열이 되는데 , 2 차

차분으로도 정상적시계열이 되지 않는 경우라면 , 를 변수 변환시켜 다른 함수로 바꾼 후에 차분을 하는 것이 필요하다 .

1.6.5 식별된 모형의 파라미터 추정과 진단

앞절 1.6.3에서는 간단한 MA 모형과 AR 모형 그리고 ARMA 모형의 AC와 PAC 형태를 살펴봄으로써 어떤 시계열자료가 주어졌을 때 , 이 자료의 AC와 PAC로써 그 자료는 어떤 모형으로 식별할 수 있는가를 알아보았다 . 물론 , 실제 시계열자료의 AC와 PAC 는 이론적으로 얻어진 AC와 PAC의 형태보다 훨씬 복잡하게 얻어질 것이다 .

이제 주어진 시계열자료의 AC와 PAC를 보고 어떤 모형이라고 식별한 후에는 그 모형의 파라미터 값들을 추정해야 한다 . 추정의 방법으로는

o 조건 최소자승법 o 비조건 최소자승법 o 최우추정법 등이 있는데 , 그 추정하는 이론적 계산식은 여기서 설명할 수가 없다 .

따라서 우리는 통계 패키지 (SAS, SPSS, RATS, Minitab 등 ) 로써 얻어진 결과만을 살펴보기로 하자 .

모형의 파라미터 값들이 추정되면 , 시계열자료가 그 모형에 얼마나 잘 적합되는지를 진단해야 하는데 , 그 적합도로서 AIC(Akaike Information Criterion) 또는 SBC(Schwartz Bayesian Criterion) 를 사용하는 것이 일반적이다 . 즉 , ARMA(p,q) 모형에 대해

로 정의되는바 , AIC( 또는 SBC) 값이 가장 작은 (p,q) 가 가장 근사한

모형이라고 판단할 수 있다 . 또한 , 시계열분석에서도 (회귀분석에서와 마찬가지로 ) 잔차들을 분석해야 하는데 잔차들은 아무런 패턴을 갖지 않고 임의로 퍼져있는 것이 바람직하다 .

Box-Pierce 통계량 잔차들이 서로 상관되어 있다면 그 모형으로는 시계열자료를 잘

적합시키지 못하고 있다는 것을 시사하는 것이다 . 잔차들의 자기상관 (autocorrelation of residuals) 을 검색하는 도구로 Box-Pierce(Portmanteu) Q통계량을 사용하는데 시차 (lag) 묶음별로 자기상관이 존재하는가를 검증할 수 있다 . 즉 , Q통계량은

로 정의되는데 , T 는 잔차의 수 ( 자료의 수 ), 는 번째 (lag) 시차의

자기상관계수 , m 은 시차 1 에서 시차 m 까지의 시차 묶음을 나타낸다 . 즉 ,

을 가설검증하기 위한 검증통계량으로 Q통계량을 사용하는데 M 을 6, 12, 18 등으로 하여 잔차들의 자기상관계수 묶음들에 대한 가설을 검증한다 .

추정된 파라미터들의 상관계수 파라미터의 수가 2 개 이상인 모형에 대해서 추정된 파라미터들

간의 상관계수를 살펴보아야 한다 . 만일 , 두 개의 파라미터들 간에 높은 상관관계가 존재한다면 둘 중 하나의 파라미터는 제외시켜 모형을 간결하게 하는 것이 바람직하기 때문이다 . 예를 들어 , 다음과 같이 파라미터들 간에 상관계수가 얻어졌다면 파라미터 3은 불필요하다고 간주할 수 있다 .

왜냐하면 , 파라미터 2 와 파라미터 3의 상관계수가 0.856 이어서 둘 중의 하나가 필요 없다고 한다면 , 파라미터 2 보다는 파라미터 3이 파라미터 1 과 높은 상관계수를 갖기 때문이다 . 그러면 , 파라미터 3이 없는 모형에 대해 추정을 다시하고 모형에 대한 적합성 검진을 해야 할 것이다 .

8. 시계열 자료 분석기법의 1 장의 1 절부터 6 절에 대한 내용을 요약하고 ,...

Documents