tendências e raízes unitárias*

Texto Didático

Tendências e Raízes Unitárias*

Rogério Silva de Mattos Universidade Federal de Juiz de Fora

Departamento de Economia

rogerio.mattos@ufjf.edu.br

Maio, 2018

* Este texto foi produzido para suporte ao ensino de econometria de séries temporais. O autor vem lecionando esta matéria ao longo dos últimos sete anos, na disciplina Econometria III do curso de graduação em economia da Universidade Federal de Juiz de Fora. O texto foi feito com o objetivo de contribuir para um melhor entendimento da matéria não só por alunos de graduação em economia, mas por todos aqueles interessados no assunto. Devido ao seu caráter introdutório, o texto evita abordar a teoria assintótica que é típica da teoria estatística subjacente à moderna econometria de séries temporais. A

grande motivação para escrever o documento veio da escassez de bons textos introdutórios, tanto em português como em outras línguas, que apresentem os conceitos de forma clara e ao mesmo tempo com boa dose de precisão. Quaisquer comentários são bem vindos.

Sumário

1. Introdução ............................................................................................................................. 1

2. Tendência Determinística ...................................................................................................... 2

3. Tendência Estocástica ........................................................................................................... 5

4. Processo Estacionário ............................................................................................................ 8

5. Processo Integrado .............................................................................................................. 10

6. Raíz Unitária ....................................................................................................................... 12

7. Decomposição de Beveridge & Nelson............................................................................... 14

8. Diferença Estacionária ........................................................................................................ 15

9. Média e Variância .............................................................................................................. 17

10. Passeio Aleatório ............................................................................................................... 18

11. Memória e Choques .......................................................................................................... 19

12. Os Quatro Processos.......................................................................................................... 20

13. Testes de Raiz Unitária ..................................................................................................... 21

13.1 Representação Geral .................................................................................................... 21

13.2 Teste de Dickey-Fuller ................................................................................................ 24

13.3 Teste de Phillips–Perron .............................................................................................. 36

13.4 Teste DF–GLS............................................................................................................. 40

13.5 Teste Ponto-Ótimo de ERS ......................................................................................... 45

13.6 Teste ADF com Sazonalidade ..................................................................................... 49

14. Comentários Finais ............................................................................................................ 54

Apêndice 1: Decomposição de Beveridge e Nelson ............................................................... 55

Apêndice 2: Relações entre Conceitos .................................................................................... 57

Referências .............................................................................................................................. 58

1. Introdução

Uma boa e adequada compreensão dos métodos da Econometria de Séries

Temporais (EST) pode ser obtida a partir das noções de tendência. Em estatística, o

termo “tendência” há muito tempo é visto como um padrão de crescimento ou

decrescimento persistente no comportamento de uma série temporal1 a longo prazo.

Atualmente, no âmbito da moderna EST, o conceito de tendência também tem a ver

com padrões especiais de não-estacionariedade do mecanismo real que gera uma série

temporal. Há duas noções básicas de tendência que estudaremos aqui: a tendência

determinística e a tendência estocástica2. Inicialmente, visando um bom entendimento

da primeira, usaremos a noção mais antiga de tendência, ao passo que, para entender a

segunda, precisaremos do conceito de não-estacionariedade em processos estocásticos.

As noções de tendência determinística e estocástica são muito importantes na

forma que os econometristas descrevem modernamente a não estacionariedade das

séries econômicas. O conceito central usado para isso é o de processo integrado e, em

particular, sua representação através de modelos lineares do tipo ARIMA(p,d,q). Dessa

última, vem o conceito de processos com raízes unitárias. O uso de processos integrados

em EST é motivado pelo fato de que suas realizações revelam comportamentos

semelhantes aos de muitas séries econômicas, inclusive no que respeita à presença típica

de tendências. Veremos que, dependo da forma como se usa a representação de

processo integrado, os dois tipos de tendência, determinística e estocástica, se

manifestam isoladamente ou em conjunto. Em particular, a presença da tendência

estocástica confere a uma série econômica um padrão de reação permanente a choques

exógenos que tem grande relevância para a análise de políticas econômicas. Assim, ser

capaz de distinguir nos dados temporais essas duas formas de tendência adquire

importância praticamente equivalente à verificação de não estacionariedade.

Essa verificação, por outro lado, também é fundamental como o primeiro estágio

da construção de modelos econométricos de ST. Ela é feita através dos chamados testes

de raíz unitária. Assim, além de discutir o conceito de tendência, este documento

também apresenta uma síntese de alguns testes de raíz unitária muito usados em EST.

Antes de apresentar os testes, faz–se uma breve discussão sobre a estrutura de teste

proposta inicialmente por Dickey e Fuller (1979 e 1981) e que depois veio a ser seguida

pela maioria dos econometristas, embora não todos, que desenvolveram testes de raíz

unitária. Feito isso, são então apresentados os testes de Dickey–Fuller aumentado, de

Phillips–Perron e os dois procedimentos de Elliot et all (1995; testes DF–GLS e Ponto

Ótimo). Todos esses testes são apresentados para análise de séries sem sazonalidade,

mas, ao final, o procedimento do teste ADF para séries com sazonalidade é abordado.

O texto pressupõe que o leitor possua noções de modelos clássicos de

decomposição de séries temporais (em componentes de tendência, ciclo e sazonalidade)

1 O termo “tendência”, na sua versão em inglês trend, aparece pela primeira vez no estudo de Hooker

(1901), que propôs uma forma de modelar os movimentos seculares de uma série temporal através de

médias móveis. 2 De ambas essas noções, derivam ainda outras interpretações do componente de tendência de uma série

temporal. Uma discussão instrutiva a esse respeito é feita por Phillips (2010).

e de modelos de regressão linear múltipla. Além disso, é importante que possua também

conhecimentos sobre a metodologia de Box e Jenkins para construção de modelos

ARIMA, uma vez que a moderna EST está bastante desenvolvida sobre conceitos

típicos dessa metodologia.

2. Tendência Determinística

Considere que Yt representa uma variável econômica qualquer, como o PIB ou o

nível de emprego. Agora, assuma que esta variável é gerada por um processo

estocástico simples, como segue:

onde a e b são constantes reais, t é a variável tempo e ut é um processo estocástico

estacionário com média nula. O componente de Yt dado por TDt = a+bt é chamado

usualmente de tendência determinística. Essa forma de denominar esse componente

decorre de dois aspectos. O primeiro é que, visualmente, no plano cartesiano t×Y, a

expressão TDt = a+bt representa uma linha reta que, quando b ≠ 0, possui uma

inclinação que pode ser positiva ou negativa. Neste caso, a inclinação indica que uma

parte de Yt cresce ou decresce persistentemente no tempo, daí representar uma

tendência. Será uma tendência de crescimento ou positiva se b > 0, e de decrescimento

ou negativa se b < 0. Observe as figuras 1.a) e 1.b).

a) Linear Positiva b) Linear Negativa

c) Quadrática Explosiva d) Quadrática Amortecida

Figura 1. Tipos de Tendência Determinística

O segundo aspecto decorre de que a tendência assim caracterizada, segundo uma

relação matemática exata, expressa um padrão fixo e previsível. Ou seja, um padrão

“determinístico”, porque esta palavra se refere a algo que se pode determinar ou prever

com certeza. De fato, TDt = a+bt significa que uma parte de Yt sofre um acréscimo fixo

e previsível de b unidades a cada período de tempo, isto é:

btbabtaTDt ))1(()( (2)

Juntando, então, a noção de persistência com a de padrão fixo e previsível, a expressão

TDt = a+bt representa um tendência determinística embutida na evolução temporal de

Yt. Além desses aspecto, essa expressão caracteriza um padrão linear, isto é, a tendência

determinística é uma função afim de t que, visualmente, corresponde a uma reta. Por

esse motivo, diz-se que ela representa uma tendência determinística linear.

Vale ressaltar, no entanto, que é possível falar-se de outros padrões de tendência

determinística. Suponha que, ao invés de (1), a seríe Yt evoluísse no tempo segundo:

2ctbtaTD

onde c é também uma constante real. Agora, a parte de Yt correspondente à TDt também

é um padrão determinístico de crescimento no tempo. A cada período, uma parte de Yt

cresce ou decresce em TDt = b+ct unidades, portanto, segundo um padrão previsível

também. Porém, esse crescimento se dá de forma variável, isto é, que depende de t.

Agora, a tendência determinística é uma função não–linear de t e sua visualização no

plano t×Y não é mais de uma linha reta, mas de uma linha em curva. Note também que

essa curva representará um padrão de crescimento explosivo, se c > 0, ou amortecido,

se c < 0. Observe as figuras 1.c) e 1.d). No caso aqui considerado, TDt = a+bt+ct2

representa uma tendência determinística quadrática (portanto, não-linear). É fácil

imaginar ainda vários outros padrões não lineares que podem ser representados, como

tendência determinística cúbica, tendência determinística exponencial, etc.

O modelo (1) para Yt é usualmente chamado na literatura de EST de tendência

estacionária. Esse nome vem do fato de que Yt possui uma parte representada pela

tendência determinística linear TDt = a+bt e outra parte representada pelo processo

estocástico estacionário ut. Assim, Yt representa um tipo de processo que oscila

aleatoriamente de forma estacionária em torno de uma tendência determinística linear. É

importante distinguir aqui essas duas partes da tendência estacionária. Usaremos as

figuras 2.a) e 2.b) como ilustração.

A figura 2.a) mostra um exemplo de série temporal que segue um processo

estocástico puramente estacionário. Esta série foi simulada artificialmente segundo um

processo AR(1), caracterizado como Yt = 0,6Yt–1 + t, onde t é um ruído branco normal.

Note que a série não apresenta qualquer tendência, isto é, qualquer padrão de

crescimento ou decrescimento persistente no tempo. Parece apenas que a série fica

oscilando em torno de uma constante próxima de zero ao longo do tempo.

Observe agora a figura 2.b). Ela mostra um exemplo de série temporal que segue

uma tendência estacionária propriamente dita. Repare que, nitidamente, a série parece

oscilar aleatoriamente em torno de um padrão de crescimento persistente que se

assemelha a uma tendência determinística linear, no caso crescente. De fato, esta série

foi simulada artificialmente segundo o modelo (1), onde tTDt 15,02 e

ttt uu 16,0 . Ou seja, a série foi simulada como a soma de uma tendência

determinística linear mais um processo estocástico estacionário, portanto exatamente

como a tendência estacionária do modelo (1).

a) Processo Estacionário

ttt YY 16,0

b) Tendência Estacionária

Figura 2. Processos estacionário e tendência estacionária. Dados simulados.

Naturalmente, a noção de tendência estacionária pode ser estendida ao modelo

em que Yt representa um processo estocástico que oscila de forma estacionária em torno

de uma tendência determinística quadrática. No entanto, ao longo deste texto, quando

falarmos de tendência estacionária, estaremos pensando usualmente naquele tipo

representado pelo modelo (1), que embute uma tendência determinística linear.

Há ainda dois aspectos interessantes a observar sobre a tendência determinística

linear do modelo (1). Neste texto, em geral estaremos assumindo que o instante t = 0

corresponde a um momento inicial em que o valor do processo estocástico é conhecido.

Assim, a constante a corresponde ao valor inicial da tendência determinística, de modo

que podemos dizer aTD 0 . Isso é importante porque podemos entender a tendência

determinística linear de um modo um pouco diferente. Observe que ela pode ser escrita

alternativamente como:

25 50 75 100 125 150 175 200

btTDbbbTDTDt

Ou seja, a tendência determinística linear é tal que, a cada instante de tempo a partir de

t = 1, um choque determinístico de magnitude b é aplicado sobre 0TD . O efeito de

cada choque persiste na dinâmica temporal de tTD de modo que os efeitos dos choques

vão se acumulando. Em um dado instante t, o termo bt corresponde à acumulação

desses choques determinísticos adicionados t vezes ao valor inicial 0TD .

Chamares aqui o termo bt de núcleo da tendência determinística linear.

Faremos assim porque na expressão btaTDt é ele que faz a tendência

determinística linear ser o que é. Se não houvesse ele, isto é, se fosse b = 0, então seria

simplesmente aTDt , mas neste caso não teríamos tendência alguma. Por outro lado, se

o termo constante é que fosse nulo, isto é a = 0, a tendência determinística seria igual

ao seu núcleo:

Neste caso, o valor inicial seria nulo, isto é, 00 aTD , mas continuaríamos tendo

uma tendência determinística linear.

Finalmente, vale observar que a representação de processo tipo tendência

estacionária para Yt em (1) fornece um princípio para remoção da tendência de uma

série temporal. Conhecido em inglês como detrending, este procedimento já foi muito

usado por estatísticos e econometristas interessados em estudar ciclos embutidos no

comportamento de séries econômicas. De acordo com o modelo em (1), remover a

tendência de Yt é simplesmente computar:

btaYTDYu tttt

Na prática, esse procedimento é implementado estimando-se antes os parâmetros a e b,

o que é feito normalmente usandose o método dos mínimos quadrados ordinários.

Computa-se tbaYu ttˆˆˆ , isto é, uma estimativa de Yt com a tendência removida e

então analisa-se para identificação de padrões cíclicos e/ou sazonais. O estudo de ciclos

é um tópico fascinante da análise de séries temporais, mas não iremos nos deter sobre

ele neste texto.

3. Tendência Estocástica

Há outro conceito muito importante em EST que é o de tendência estocástica.

Em geral, os econometristas entendem tendência estocástica como um crescimento

persistente no tempo que é aleatório, e não fixo como a constante b no caso da tendência

determinística linear em (1)-(2). Se designarmos a tendência estocástica por TEt, isso

significa que:

ttTE (4)

onde εt é uma variável aleatória. Em particular, os econometristas costumam assumir

que εt é um processo estocástico estacionário com média nula, variância constante e

descorrelatado no tempo3. Repare que, se reescrevermos a expressão (4) de outra forma,

subtraindo 1tTE de ambos os lados da equação, obtemos:

ttt TETE 1 (5)

Essa nova expressão (5) é que representa efetivamente a tendência estocástica porque

caracteriza a evolução no tempo para a variável em nível tTE . A figura 3.a) ilustra o

comportamento dinâmico de uma tendência estocástica através de uma série temporal

simulada segundo (5).

a) Tendência Estocástica

ttt TETE 1

b) Tendência Geral

ttt TETDTG

tTDt 25,0

Figura 3. Tendência estocástica e tendência geral. Dados simulados. Em ambos os

gráficos, Y0 = 0 e t é um ruído branco.

Os econometrias costumam chamar o termo de erro t de choque exógeno ou choque

aleatório. Assim como fizemos no caso da tendência determinística linear, podemos

trabalhar mais a expressão (5) e verificar que a tendência estocástica também pode ser

vista como uma acumulação de incrementos, ou melhor, de choques. Assumindo que o

valor inicial 0TE é conhecido (assim como fizemos com 0TD ) e realizando

substituições sucessivas da expressão (5) dentro dela mesma:

jjtt TETETE

10210 (6)

Ou seja, a tendência estocástica no período t corresponde ao valor inicial 0TE mais a

acumulação de todos os erros ou choques passados até t. Aqui, chamaremos o termo

1tj j de núcleo da tendência estocástica porque ele é que a caracteriza enquanto tal.

3 O termo “tendência estocástica” é bastante usado na literatura de EST, mas nunca é definido de um

modo explícito. Por isso, acontece de diferentes autores conceituálo de diferentes maneiras. Por

exemplo, Box e Jenkins (1970, p.92) definem “tendência estocástica” de modo genérico como E(∆dYt)=,

onde é uma constante não nula. Atualmente, parece haver certa unanimidade entre a maioria dos autores

de que tendência estocástica seria a definição que estamos usando aqui nas expressões (4) ou (5).

25 50 75 100 125 150 175 200

Se o valor inicial for nulo, isto é, 00 TE , então a tendência estocástica se torna idêntica

ao seu núcleo:

Agora, considere uma variável Yt que segue um processo estocástico simples

composto por uma tendência estocástica mais um erro, isto é:

onde ut é um erro aleatório com média nula e variância constante. Esse tipo de processo

estocástico veremos muitas vezes ao longo deste texto. Se quisermos remover a

tendência estocástica de Yt, procedemos de modo análogo ao que fizemos no caso da

tendência determinística, isto é:

ttt TEYu (9)

Basta, portanto, subtrair a tendência estocástica da variável Yt. Outro tipo de processo

estocástico que veremos também várias vezes embute ambas as formas de tendência:

uTETDY

Este caso também é de grande interesse porque muitas séries econômicas aparentam ter

esse comportamento, isto é, parecem apresentar um padrão de persistência que resulta

de um acréscimo fixo, como em (2), somado a um acréscimo aleatório, como em (4).

Este tipo de padrão dá origem à chamada tendência geral:

ttt TETDTG (11)

A figura 3.b) ilustra esse padrão de tendência geral. Ele engloba ambas as formas de

tendência determinística e estocástica juntas. O processo para Yt em (10), portanto, é

composto por uma tendência geral mais um erro estacionário. Note aqui que, para

remover a tendência deste tipo de processo, não basta subtrair TDt de ambos os lados,

porque permaneceria a tendência estocástica TEt. A remoção completa da tendência

envolveria expurgála da tendência geral, isto é:

ttt TGYu

A tendência estocástica tal como definida acima segue um tipo particular de

processo estocástico não estacionário conhecido como processo integrado de ordem um.

Esse conceito de processo integrado possui um papel central na moderna EST. No

intuito de compreender bem seu significado, vamos a seguir introduzir alguns conceitos

relevantes associados às noções de estacionariedade e não-estacionariedade de um

processo estocástico.

4. Processo Estacionário

Seja Yt um processo estocástico com as seguintes características:

)( tYE (12)

2)( tYVar (13)

sstt YYCov ),( (14)

Onde , 2 e s (s = 1,2,...) são constantes reais. Isso significa que Yt apresenta média e

variâncias constantes no tempo e autocovariâncias que dependem apenas da distância s

entre os períodos t e t – s. Ou seja, nem a média, nem a variância, nem as

autocovariâncias do processo Yt dependem do tempo t. Assim caracterizado, Yt é um

processo estacionário fraco. A propriedade “estacionariedade fraca” é uma forma

restrita do conceito mais amplo de “estacionariedade”. Na prática, os econometristas de

ST costumam trabalhar com essa forma “fraca” porque ela é mais operacional e atende

satisfatoriamente à caracterização de processos estocásticos para séries temporais. Por

isso, é esse conceito de estacionariedade que usaremos daqui em diante. Isso quer dizer

que sempre que nos referirmos a um processo estocástico como estacionário, será no

sentido “fraco” tal como caracterizado pelas condições (12), (13) e (14).

Dado esse esclarecimento, um tipo de processo estacionário muito conhecido é o

chamado processo ruído branco. Ele é muito usado em estatística e econometria para

representar os erros em modelos de regressão. Supondo que t seja um processo ruído

branco, isso significa que ele atende às características (12), (13) e (14) porque

apresenta:

média nula: 0)( tE

variância constante: 2)( tVar

autocorrelação nula: ,2,10),( sCov stt

Essas características do processo ruído branco estabelecem um tipo de variável

“puramente” aleatória evoluindo no tempo, porém de forma estacionária segundo a

caracterização dada pelas condições (12), (13) e (14). Repare que é um processo desse

tipo que usamos para caracterizar o termo de erro da tendência estocástica apresentada

na expressão (5).

Outro tipo de processo estacionário muito conhecido é o chamado modelo

ARMA(p,q), proposto por Box e Jenkins (1970) para se construir modelos estatísticos

de séries temporais. A sigla refere-se a “AutoRegressive Moving Average”, porque a

representação matemática é dada por:

1 1 1 1t t p t p t t q t q

Y Y Y (15)

onde , 1,..., p, 1,..., q são parâmetros. A parte indicada como AR é a parte

autorregressiva, onde se caracteriza a relação de Yt com seus valores passados até um

lag máximo p. De forma análoga, o termo indicado por MA é a parte média móvel dos

erros presente e passados, onde se caracteriza a relação de Yt com os esses erros até um

lag máximo q. Assume-se que esses erros seguem um processo ruído branco. Esse tipo

de modelo fez muito sucesso entre economistas e econometristas e é usado até hoje para

modelagem e previsão de várias séries econômicas.

O modelo ARMA(p,q) em (15) não necessariamente respeita as características

(12), (13) e (14) para que Yt seja estacionário. Por exemplo, se o parâmetro

autorregressivo 1 for maior do que um, com os demais parâmetros autorregressivos

2,3,...,p assumindo valores no intervalo (1,1), Yt apresentará um comportamento

explosivo. Então, sob que condições o modelo ARMA(p,q) é um processo estacionário

para Yt? Para estabelecer isso com precisão, Box e Jenkins usaram uma representação

mais compacta do modelo ARMA(p,q), como segue:

tt BYB )()( (16)

B é o operador de defasagens (i.e., mttm zzB ),

ppBBB 11)( é o polinômio autorregresivo ou AR,

qqBBB 11)( é o polinômio média móvel ou MA.

O que garante que o modelo ARMA(p,q) de fato represente um processo estacionário é

que o polinômio AR possua suas raízes fora do círculo unitário. É a chamada condição

de estacionariedade. O polinômio MA pode ter suas raízes em qualquer região do

plano complexo que isso não afeta a estacionariedade de Yt, segundo o modelo

ARMA(p,q). É, portanto, no polinômio AR que está ncrustada a condição de

estacionariedade.

No entanto, Box e Jenkins trabalham o tempo todo com a hipótese de que

também o polinômio MA possui raízes fora do círculo unitário e chamam essa

propriedade de invertibilidade. Fazem assim para garantir uma conveniência

matemática, qual seja, a de que a razão entre ambos os polinômios AR e MA resulte

num outro polinômio que, apesar de possuir infinitos termos, é convergente (isto é, a

razão é um número real). Isso garante que possamos escrever o modelo ARMA(p,q) de

duas formas alternativas:

)( (17)

( )t t

onde )1(/a . Resumindo, o importante é que os modelos ARMA(p,q) usados por

Box e Jenkins, e que formam a base para a moderna EST, são estacionários e

invertíveis. Esse tipo de processo vai ser importante em uma das definições de processo

integrado que apresentaremos a seguir.

5. Processo Integrado

Quando um processo estocástico viola pelo menos uma das condições (12), (13)

ou (14), ele apresenta a propriedade de ser não-estacionário. Portanto, a expressão

“não-estacionariedade” refere-se à violação da propriedade de uma série ou processo

estocástico ser estacionário. Se apenas a média de um processo estocástico variar com o

tempo, isto é, se acontecer ttYE )( com as demais condições (13) e (14) mantidas,

isso é suficiente para fazê-lo não-estacionário. Um exemplo seria quando a média de Yt

é uma tendência determinística linear, isto é: t = a+bt. De outra forma, se apenas a

variância estiver variando com o tempo, por exemplo segundo Var(Yt) = ct2 (com c

constante e positiva), então Yt seria também não estacionário. Neste caso, Yt apresentaria

um padrão heterocedástico. Em suma, basta que apenas uma das condições (12), (13) e

(14) seja violada para termos Yt seguindo um processo não estacionário.

Na verdade, existem muitos padrões de nãoestacionariedade. Por exemplo,

alguns processos estocásticos podem gerar séries explosivas que crescem

indefinidamente para + ou decrescem para . Outros geram séries que oscilam entre

um valor positivo e outro negativo, com amplitude crescente. Podem também embutir

padrões diferentes de tendência que se misturam com um ciclo de modo aditivo ou

multiplicativo. Neste texto, quando falarmos de processo nãoestacionário, vamos nos

limitar a um tipo particular conhecido como processo integrado. Dada a centralidade

que esse tipo de processo estocástico tem na moderna teoria de EST, é conveniente

precisarmos seu conceito. A seguir, apresentamos duas definições que aparecem na

literatura de EST, iniciando com uma que é mais geral ou ampla:

Processo Integrado (definição ampla): Um processo estocástico nãoestacionário para

uma variável 𝑌𝑡 é chamado processo integrado de ordem d, ou I(d), se é preciso

diferenciálo ao menos d vezes para se tornar um processo estacionário.

Segue desta definição ampla que se Yt seguir um processo não–estacionário

integrado de ordem 2, ou I(2), Yt seguirá também um processo não–estacionário e

somente 2Yt é que seguirá um processo estacionário. Ou seja, precisamos diferenciar

Yt, em ao menos duas vezes para obtermos um processo estacionário. Por sua vez, Yt

seguirá um processo integrado de ordem um, ou I(1), porque basta diferenciar uma vez,

para obtermos um processo estacionário. Segue ainda da definição que um processo

estacionário não precisa ser diferenciado, logo é um processo não–integrado. Usa–se a

terminologia processo integrado de ordem zero ou I(0) para representar um processo

estacionário.

O caso mais usual de processo integrado é o de ordem um, ou I(1). Ele nos

permite caracterizar o mecanismo gerador de muitas séries econômicas. Embora já

exista uma significativa literatura econométrica sobre processos I(2), falaremos neste

texto somente de processos I(1). Um aspecto importante de um processo I(1) é que ele

pode ser escrito como:

iit ZY (19)

onde Yt é um processo I(1) e Zt é um processo I(0). Ou seja, um processo I(1) é a soma

ou acumulação dinâmica de valores para um processo I(0). Isso nos permite entender

por que o termo “integrado” é usado. Ele é emprestado da área de cálculo em

matemática, onde uma integral representa uma “soma” de valores de uma função e a

operação inversa, a derivada, uma “diferença”. De fato, veja que Yt , tal como definido

em (19), atende à definição de processo integrado de ordem (1), ou I(1), porque sua

primeira diferença:

iittt ZZZYYY

1 (20)

segue um processo I(0). Observe que os fatos em (19) e (20) continuam valendo se

considerarmos um período inicial arbitrário t = 0 em que aZ 0 e a é uma constante

conhecida. Neste caso, basta trocar o símbolo “–” por a nas expressões (19) e (20).

O conceito de processo integrado de ordem d, ou I(d), vem da representação de

processos estocásticos como modelos lineares da classe ARIMA(p,d,q). De fato, o

parâmetro d de um modelo ARIMA(p,d,q) representa o número de vezes que se tem de

diferenciar o processo estocástico até ele se tornar estacionário. Por esse motivo, um

adequado entendimento dos conceitos e técnicas da moderna EST fica facilitado se

pensarmos processos integrados I(d) e modelos ARIMA(p,d,q) como sinônimos4. Isto

nos leva aqui a apresentar outra definição de processo integrado, apresentada por Engle

e Granger (1987), que é mais restrita do que a anterior:

Processo integrado (definição restrita de Engle e Granger (1987)): Um processo

estocástico nãoestacionário sem termos determinísticos para uma variável 𝑌𝑡 é

chamado processo integrado de ordem d, ou I(d), se é preciso diferenciálo ao menos d

vezes para se tornar um processo estacionário do tipo ARMA(p,q) invertível.

Note que esta definição é mais restrita porque exige que o processo estacionário I(0) que

resulta após diferenciarmos Yt por d vezes seja um modelo ARMA(p,q) estacionário e

também invertível, tal como explicamos anteriormente. Mais ainda, também exige que o

modelo ARIMA(p,d,q) para 𝑌𝑡 não possua termos determinísticos. Por exemplo,

considere os três processos estocásticos ARIMA(0,1,1) a seguir:

12 tttY

15,01 tttY

15,0 tttY

Esses três processos são estacionários para ∆Yt e não estacionários para Yt. Apesar de os

três serem estacionários para ∆Yt, somente o terceiro se enquadra na definição restrita de

processo integrado. Note que o primeiro não atende à condição de invertibilidade

porque o polinômio média móvel é igual a )21( B e, portanto, possui uma raiz B = 1/2

que fica dentro do círculo unitário. O segundo atende essa condição, mas apresenta uma

constante igual a 1, logo possui um termo determinístico. Só o terceiro se enquadra na

definição restrita, porque não tem constante (isto é, ela é igual a zero) e é invertível.

O leitor deve ser avisado, porém, que há processos estocásticos não estacionários mais gerais,

representados de forma não paramétrica, que podem ser caracterizados como integrados. A este respeito,

pode ser visto o trabalho de Stock (1994), mas avisamos desde já que tratase de texto avançado.

Muitos livrostexto e parte da literatura em geral sobre EST usa a definição

ampla. No restante deste documento, iremos seguir a definição restrita. Preferimos fazer

assim porque ela nos leva a apresentar a teoria de EST com menos inconsistências. Ela

nos permite identificar um processo integrado I(d) com um modelo ARIMA(p,d,q) tal

como na expressão (16), mas assumindo que a constante é nula ( = 0) e que o

polinômio média móvel é invertível. Mais ainda, a definição restrita implica uma

associação íntima entre processo integrado e a presença de raízes unitárias na parte AR

do modelo ARIMA(p,d,q). Este é o assunto da próxima seção.

6. Raíz Unitária

Vamos considerar agora o caso particular de um processo integrado escrito

como um modelo ARIMA(p,1,q) da seguinte forma:

tt BYB )()( (21)

onde (B) é o polinômio autorregressivo de grau p e (B) o polinômio médias móveis

de grau q, ambos definidos no operador de defasagens B, e t é um processo estacionário

de tipo ruído branco. Repare que estamos omitindo a constante do lado direito de (21),

ou seja, estamos assumindo que ela é nula. Vamos assumir que ambos os polinômios

(B) e (B) são tais que apresentam raízes fora do círculo unitário, logo o processo em

(21) respeita as condições de estacionariedade (para Yt ) e de invertibilidade.

Assim, o processo para a variável em nível Yt é não estacionário do tipo I(1), no

sentido de que precisa ser diferenciado uma vez para se tornar estacionário. Além disso,

ele admite uma representação ARMA(p,q) invertível e assim atende a definição restrita

de processo integrado que estamos usando. O termo em primeira diferença Yt do lado

esquerdo de (21) é, portanto, estacionário ou I(0). Uma outra forma de expressar tudo

isso é dizer que o processo para Yt possui uma raiz unitária. Este termo vem do fato

que o polinômio autorregressivo (B) multiplica = (1-B), constituindo assim o

polinômio expandido (B) = (B)(1-B), de grau p + 1. Claramente, esse polinômio

possui uma raiz unitária dada por B = 1. Por essa razão, em EST o processo para Yt em

(21) é chamado de processo de raiz unitária. Note que se refere a um processo com

apenas uma raiz unitária no polinômio autorregressivo expandido, ou na parte AR, e

sem nenhuma raiz unitária no polinômio MA, ou na parte MA5

. Observe que,

obviamente, ele representa um processo sem raiz unitária para a variável em primeiras

diferenças Yt.

Perceba agora que, uma vez que o polinômio autorregressivo (B) atende às

condições de estacionariedade, podemos invertê-lo e re-escrever (21) como:

)( . (22)

5 Estaremos chamando aqui de processo de raiz unitária (no singular) ao processo com uma única raiz

unitária na parte AR, tal como descrito em (21). Neste caso, ele equivale a um processo I(1) segundo

nossa definição definição de processo integrado. Quando houver mais de uma raiz unitária na parte AR,

estaremos chamando de processo de raízes unitárias, isto é, no plural. Observe também que a expressão

“raiz unitária” ao longo deste documento sempre dirá respeito à parte AR, a menos que especificado de

outra forma.

O termo no lado direito de (22) representa um processo estocástico estacionário, ou I(0),

e do tipo ARMA(p,q) invertível devido às hipóteses que estamos adotando. Visando

facilitar a exposição, vamos denominar esse termo como ut e re-escrever (22) de uma

forma ainda mais simples:

tt uY (23)

Observe que a expressão (23) na verdade representa um processo com uma raiz unitária

para Yt, porque foi desenvolvido a partir do modelo ARIMA(p,1,q) da equação (10).

Veja também que ela representa um processo estacionário ou I(0) para Yt (porque ut é

I(0)) e um processo não estacionário ou I(1) para Yt. Somando Yt-1 a ambos os lados de

(23), obtemos:

ttt uYY 1 (24)

A expressão (24), e não a expressão (23), é a forma mais usual de se representar um

processo integrado de ordem um ou I(1). Daqui para a frente, estaremos às vezes

chamando o processo I(1) em (24), que não apresenta constante ou nenhum termo

determinístico, de processo de raiz unitária. A figura 5.a) ilustra este tipo de processo,

apresentando uma série simulada segundo a expressão (24) com os erros seguindo um

processo MA(1), isto é, 15,0 tttu .

Assumindo que o processo para Yt começa em t = 0 com um valor conhecido Y0

e realizando substituições sucessivas da expressão (24) dentro dela mesma:

𝑌𝑡 = (𝑌𝑡−2 + 𝑢𝑡−1) + 𝑢𝑡= (𝑌𝑡−3 + 𝑢𝑡−2) + 𝑢𝑡−1+𝑢𝑡= ⋮

chegamos a:

𝑌𝑡 = 𝑌0 + 𝑢1 + 𝑢2 +⋯+ 𝑢𝑡−1+𝑢𝑡 = 𝑌0 + ∑ 𝑢𝑖

𝑡𝑖=1 (25)

Assim, um processo I(1) ou de raiz unitária também pode ser visto como a acumulação

de erros ou choques que seguem um processo estacionário ou I(0). Ele está representado

pelo termo iti u1 no lado direito de (28). De fato, como assumimos que Y0 é uma

constante dada, este termo é um processo I(1). Mas, a expressão (25) também nos

chama a atenção para outro aspecto. Os choques passados ut-1, ut-2,... repercutem sobre o

valor atual de Yt de forma persistente, isto é, sem decair de importância ao longo do

tempo. Ou seja, em processos I(1) ou de raiz unitária, os choques passados possuem

efeitos persistentes sobre Yt, caracterizando tais processos como de tipo memória longa

e contrastando com processos estacionários, que são do tipo memória curta. Falaremos

sobre esses conceitos de memória de processos em mais detalhe na seção 13.

É importante enfatizar aqui que um processo integrado, segundo a definição

restrita que estamos usando, está intimamente ligado à presença de raízes unitárias. Por

exemplo, o processo para Yt da equação (24) é I(1) devido à presença de uma raiz

unitária na parte AR do modelo ARIMA(p,1,q) da equação (21). Assim, sempre que

falarmos de processo integrado, estaremos falando de um processo não estacionário do

tipo ARIMA(p,d,q), isto é, que possui d raízes unitárias na parte AR. Observe também

que seria possível um modelo ARIMA(p,d,q) possuir raízes unitárias na parte MA, mas

neste caso ele seria nãoinvertível. Daqui em diante, a menos que indicado de outra

forma, quando falarmos em raízes unitárias estaremos nos referindo à parte AR porque a

parte MA estaremos assumindo sempre que não possui raízes unitárias.

7. Decomposição de Beveridge & Nelson

A figura 4.a) mostra um exemplo simulado de um processo de raiz unitária do

tipo ARIMA(0,1,1) sem constante como descrito nas expressões (21)-(25). Note que a

série se comporta de modo diferente de uma série estacionária. Ela não apresenta um

padrão de retornar para uma média constante. Ao contrário, mostra um padrão de

evolução sem destino, entrelaçando fases distintas de crescimento ou decrescimento

persistentes.

Além disso, note que a expressão (24) é muito parecida com a expressão (5) para

a tendência estocástica. A diferença entre ambas e que merece ser destacada é que:

ut é um processo ARMA(p,q) estacionário e invertível,

εt é um processo ruído branco.

Ou seja, a diferença está na maneira como se caracterizam os erros. Em ambas as

expressões, o erro é um processo I(0). Só que, no processo de raiz unitária ou I(1), o

erro é um processo ARMA(p,q) e, na tendência estocástica, o erro é um processo ruído

branco. Em outras palavras, a tendência estocástica é um caso particular de um processo

de raiz unitária ou I(1) em que o erro é um ruído branco.

No entanto, embora o processo de raiz unitária representado na expressão (24),

com erro I(0) do tipo ARMA(p,q), não seja idêntico à uma tendência estocástica,

Beveridge e Nelson (1981) mostraram que na verdade ele embute uma tendência

estocástica. Esses autores mostraram que todo modelo ARIMA(p,1,q) pode ser

decomposto em um componente de tendência estocástica mais um termo I(0). Este fato

é conhecido na literatura de EST como decomposição de Beveridge-Nelson (BN). Nós

falamos disso em mais detalhe no Apêndice 1, mas vale a pena aqui pelo menos

expressar formalmente essa idéia dizendo que o processo de raiz unitária na expressão

(24) pode ser transformado em:

ttt wTEY (26)

onde TEt representa uma tendência estocástica e wt é um processo ARMA(p,q),

portanto estacionário. Assim, a mensagem implícita da decomposição BN é que:

todo processo com uma raiz unitária pode ser decomposto em uma tendência

estocástica mais um processo estacionário.

Esse aspecto vai ser muito importante nas próximas seções deste documento e será

fundamental para um correto entendimento de como se aplicam os testes de raíz

unitária.

a) ARIMA(0,1,1):

11 5,0 tttt YY b) ARIMA(0,1,1) com constante:

11 5,05,0 tttt YY

c) ARIMA(0,1,1): 15,0 tttY d) ARIMA(0,1,1) com constante:

15,05,0 tttY

Figura 4. Processos com raíz unitária (i.e., que embutem tendência estocástica) e

primeiras diferenças. Dados simulados. Em ambos os gráficos Y0 = 0 e t é um ruído

branco.

8. Diferença Estacionária

Voltando ao processo integrado ou de raiz unitária descrito nas expressões (21)-

(25), note que ele representa uma forma de não estacionariedade puramente estocástica.

Isso é importante porque significa que não há uma tendência determinística envolvida,

apenas um mecanismo puramente estocástico que imprime ao processo Yt um padrão

não-estacionário. Vejamos agora o que acontece se admitirmos que o processo

ARIMA(p,1,q) em (21) possui uma constante ≠ 0 do lado direito:

tt BYB )()(

Podemos seguir os mesmos passos de antes e desenvolver uma nova versão da

expressão (24):

tt uaY (27)

Onde )1(/a é uma constante não nula e, como antes, ut é um processo

ARMA(p,q). Subtraindo Yt-1 de ambos os lados de (27):

ttt uYaY 1 (28)

25 50 75 100 125 150 175 200

Seguindo os mesmos passos que antes e realizando substituições sucessivas da

expressão (28) dentro dela mesma:

uuuYaaa

uuYaaY

chegamos a:

iit uatYY

A expressão (28) mostra que a simples presença de uma constante não nula num

processo ARIMA(p,1,q) introduz mudanças importantes. Primeiro, aparece uma

tendência determinística linear, devido à presença do termo at, junto com um processo

de raiz unitária (sem constante), representado pelo termo iti u1 . Segundo, de acordo

com a decomposição BN, este último termo pode ser decomposto em uma tendência

estocástica mais um processo estacionário, como vimos na expressão (26). Desse

segundo aspecto, decorre que o processo em (29) consiste de:

tendência determinística linear + tendência estocástica + termo I(0).

A importância deste fato, e por isso o destacamos acima, é que um processo de raiz

unitária puro como em (24) embute apenas tendência estocástica, mas a mera adição de

uma constante não nula em sua representação, como em (28), faz com que ele apresente

dois tipos de tendência: uma determinística e outra estocástica. A figura 4.b) mostra um

exemplo de série desse tipo, isto é, que embute tendências determinística e estocástica

juntas. Esta série foi simulada artificialmente como um processo ARIMA(0,1,1) com

constante, segundo a equação 11 5,05,0 tttt YY .

Note que, pela definição restrita de processo integrado, apenas o processo de raiz

unitária em (24) pode ser chamado de I(1). Porém, tanto este processo quanto aquele

apresentado em (28) se tornam estacionários se forem diferenciados, como nas

expressões (23) e (27), respectivamente. Reiteramos que o processo na expressão (24) é

o que chamamos aqui de processo de raiz unitária. Agora, observe que o processo na

expressão (28), ao ser reescrito de outra forma na expressão (29), é a soma de uma

tendência determinística linear mais um processo de raiz unitária (sem constante como

em (24)) ou I(1). Ao longo deste texto, vamos trabalhar com a noção de que ele é um

processo não estacionário que embute um processo de raíz unitária ou I(1), mas não se

identifica exatamente com o último.

Por esse motivo, estaremos usando um nome diferente de “raiz unitária” ou

“I(1)” para designar o processo da expressão (28). Vamos chamá-lo aqui de diferença

estacionária, uma denominação introduzida por Nelson e Plosser (1982) e que vem

sendo usada recorrentemente na literatura de EST. Ele recebe este nome porque, assim

como um processo I(1), se torna estacionário ao ser diferenciado uma vez (isto é, a

diferenciação elimina conjuntamente as tendências determinística e estocástica). As

figuras 4.c) e 4.d) ilustram essa característica, pois mostram as primeiras diferenças das

séries nas figuras 4.a) e 4.b), respectivamente. Note que para as duas séries geradas por

modelos ARIMA(0,1,1) sem e com constante, suas primeiras diferenças são séries

estacionárias (mas só a segunda é um processo de tipo diferença estacionária).

É interessante aqui comparar o processo de diferença estacionária segundo (28)

com aquele que chamamos anteriormente de tendência estacionária e que foi

representado na expressão (1). Note que ambos têm em comum o fato de que embutem

uma tendência determinística. De fato, a tendência estacionária, como vimos, é uma

tendência determinística mais um processo estocástico estacionário e está ilustrada na

figura 2.b). O processo de diferença estacionária, por sua vez, é uma tendência

determinística mais um processo I(1) - ou melhor, se considerarmos a decomposição

BN, uma tendência determinística mais uma tendência estocástica mais um processo

estacionário - e está ilustrado na figura 4.b). Note que a tendência determinística, que é

comum a ambos os processos, desempenha papéis diferentes em cada um. Na tendência

estacionária, ela funciona como uma espécie de “atrator” da série temporal. Ou seja, é

como se ela atraísse a série para andar junto com ela. Já no caso da diferença

estacionária, é como se a tendência determinística “empurrasse” persistentemente o

processo I(1) para cima. Como vimos antes, este último não é “atraído” para qualquer

lugar justamente porque é não-estacionário.

Quando temos, de forma geral, um processo ARIMA(p,d,q):

ttd BYB )()( (30)

então, de forma análoga, o polinômio expandido (B)d = (B)(1-B)

d é tal que possui d

raízes unitárias. Neste caso, podemos seguir os mesmos passos de antes e escrever:

ttd uaY (31)

onde, novamente, )1(/a e tt BBu ))(/)(( . Isso significa que podemos ter

padrões mais complexos de tendência estocástica e de tendência determinística. Por

exemplo, no caso d = 2 e deixamos como exercício para o leitor verificar que o processo

para Yt embute uma tendência determinística quadrática mais um processo I(2). Esse

caso forma uma área ativa de pesquisa atualmente na moderna EST. Dado o caráter

introdutório deste texto, iremos nos restringir aos casos em que d = 1 e isso já cobre um

amplo espectro de aplicações em séries econômicas.

9. Média e Variância

Considere o processo de raiz unitária representado segundo a expressão (24). É

fácil ver que 0)( tuE . Agora, considere o mesmo processo representado segundo

(25). Lembrando que se assume que o valor inicial Y0 é conhecido, segue que:

0)( YYE t (32)

2 )(2)(t

jjuut jttYVar (33)

Onde )(2tu uVar e ),(, jttju uuCov . Ou seja, um processo de raiz unitária possui

média constante mas uma variância que é função do tempo t, o que faz dele um

processo não estacionário porque viola a condição (6).

Considere, agora, o processo diferença estacionária da expressão (17) reescrito

conforme (18). Neste caso:

atYYE t 0)( (34)

2 )(2)(t

jjuut jttYVar (35)

Ou seja, assim como a variância, a média também é uma função do tempo, no caso

linear. Portanto, a diferença estacionária com constante também é não estacionária

porque também viola as condições (12) e (13).

10. Passeio Aleatório

Um caso particular de processo de raiz unitária é dado quando 1)(/)( BB .

Observe que, neste caso, a expressão (13) pode ser re–escrita da seguinte forma:

ttt YY 1 (36)

onde agora o termo de erro é dado apenas por t , que, lembramos, assumimos que é um

ruído branco normal. A equação (36), assim, é um caso particular de um processo não-

estacionário com uma raiz unitária e que é muito conhecido na literatura de EST como

passeio aleatório.

Por ser um processo estocástico com uma raiz unitária, o passeio aleatório puro

em (33) é idêntico a uma tendência estocástica. Além disso, ele é I(1), de modo que a

primeira diferença de Yt será um processo estacionário, isto é, sem raízes unitárias ou

ttY (37)

De forma análoga, é possível re–escrevermos a expressão (28) como:

ttt YaY 1 (38)

Quando a 0, o processo em (27) é chamado de passeio aleatório com deslocamento

(ou drift, em inglês). Este processo também possui uma raiz unitária e,

consequentemente, embute uma tendência estocástica. No entanto, a constante a sendo

não nula introduz adicionalmente na representação em (38) uma tendência

determinística, de modo que ela pode ser reescrita como:

iit atYY

10 (28)

Dado que Y0 é conhecido, então o termo Y0+at no lado direito de (39) é uma tendência

determinística. Por sua vez, o termo iti 1 corresponde a um processo I(1), proveniente

da acumulação de “t” valores passados de um processo I(0) dado por t . Se

diferenciarmos Yt na expressão (36), veremos que ele também se torna estacionário:

tt aY (40)

Fica claro, portanto, que o passeio aleatório puro é um caso particular de um

processo de raiz unitária ou I(1) e o passeio aleatório com deslocamento um caso

particular de um processo diferença estacionária.

O leitor já deve ter percebido que há uma vasta gama de conceitos que foram

introduzidos até aqui. Alguns são sinônimos um do outro, como processo I(1) e

processo de raiz unitária6. Outros são pequenas particularidades de um conceito mais

geral. Esta rica terminologia da EST tende a confundir o iniciante e com frequência

atrapalha o entendimento da matéria. No intuito de ajudar a memorizar as

especificidades dos vários conceitos, apresentamos um diagrama no apêndice 2. Neste

diagrama, procuramos estabelecer usando setas as relações entre os conceitos.

11. Memória e Choques

A importância do conceito de memória em processos estocásticos integrados

pode ficar mais clara através das figuras 4.a) e 4.b). Na figura 4.a), temos uma série

simulada segundo um processo estacionário ARMA(1,1). Na representação do processo,

incluímos uma variável independente CQt que representa um choque dado na série no

período t = 75. Esta variável é binária, valendo 15 em t = 75 e 0 nos demais períodos de

tempo. Observe que inicialmente a série oscila em torno de sua média, igual a 0. No

momento do choque, ela dá um salto discrepante para cima e poucos períodos depois

volta a oscilar em torno de sua média 0. Essa característica apresentada pela série da

figura 4.a) resulta do fato que o processo estocástico que a gera é estacionário. Esse tipo

de processo possui memória curta, isto é, se um choque é dado a ele, pouco depois ele

“esquece” esse choque. Dizse, neste caso, que o choque é transiente, porque tem

efeito temporário e dura pouco.

Na figura 4.b), temos também um série simulada, porém agora segundo um

processo não estacionário do tipo ARIMA(0,1,1). Aqui também, incluímos na

representação deste processo uma variável CQt representando um choque em t = 75 e

definida da mesma maneira que antes. Observe que, agora, a reação ao choque

apresentada pela série é diferente. Ela também dá um salto no momento do choque, mas

agora ela não volta logo depois a oscilar no mesmo patamar que antes do choque. Essa

característica da série da figura 4.b) resulta do fato que o processo é não estacionário, no

caso um processo integrado ou I(1). Esse tipo de processo possui memória longa, isto é,

se um choque é dado a ele, seu efeito persiste indefinidamente, ou seja, ele “não

esquece” o efeito do choque. Dizse, neste caso, que o choque é persistente, porque

repercute indefinidamente.

6 São sinônimos quando o processo de raiz unitário diz respeito à raiz unitária presente apenas na parte

a) ARMA(1,1):

11 5,07,0 ttttt CQYY

Memória Curta

b) ARIMA(0,1,1)

11 5,0 ttttt CQYY

Memória Longa

Figura 4. Tipos de memória em processos estocásticos. Dados simulados. A variável

CQt, representa um choque, valendo 15 em t = 70 e 0 nos demais períodos.

Essas características de memória curta ou memória longa para processos

estocásticos teve bastante relevância para o desenvolvimento da teoria macroeconomica

nos anos 1980 e 1990. Em um artigo de grande repercussão, Nelson e Plosser (1982)

verificaram que 13 séries macroeconômicas americanas apresentavam memória longa,

inclusive a série de PNB. Isso levouos a concluir que choques de política econômica

podiam não ser neutros, como defendido por vários macroeconomistas. Esta constatação

provocou tanto macroeconomistas como econometristas a tentar explicar os resultados

de Nelson e Plosser e dois tipos de resposta importantes aconteceram. Primeiro, dentro

da teoria macroeconômica, isso motivou o desenvolvimento da teoria dos ciclos reais de

negócio (Kidland e Prescott, 1982). Segundo, dentro da EST, isso motivou o

desenvolvimento de uma vasta literatura sobre testes de raiz unitária. Não iremos

discorrer sobre os efeitos na teria macroeconômica, por fugir aos objetivos deste texto

focado em conceitos de EST. No entanto, abordaremos mais à frente em detalhe, ainda

que num nível introdutório, alguns importantes testes de raiz unitária.

12. Os Quatro Processos

Em resumo, tendência estocástica é uma característica típica de um processo I(1) ou

com uma raíz unitária, tal como representado pelos modelos ARIMA(p,1,q). Ela pode

vir ou não acompanhada de uma tendência determinística linear, dependendo da

constante na representação ARIMA(p,1,q) ser nula, como na expressão (24), ou não

nula, como na expressão (28). No primeiro caso, temos um processo I(1) ou de raiz

unitária. No segundo, temos uma diferença estacionária. Podemos, então, sintetizar tudo

o que foi dito acima sobre processos estocásticos para representar séries temporais em

quatro casos:

Processo estacionário: ttt uYaY 1 ( 1|| )

Processo I(1): ttt uYY 1

Tendência estacionária: tt ubtaY

Diferença estacionária: ttt uYaY 1

25 50 75 100 125 150 175 200-10

25 50 75 100 125 150 175 200

Do ponto de vista das possibilidades de tendências, os quatro casos acima devem

ser interpretados da seguinte forma:

O processo estacionário não possui qualquer tipo de tendência.

O processo I(1) possui apenas tendência estocástica.

O processo tendência estacionária possui apenas tendência determinística

linear.

O processo diferença estacionária possui tendência determinística linear e

tendência estocástica.

Para uma melhor referência, essas situações estão esquematizadas no quadro 1.

13. Testes de Raiz Unitária

A discussão sobre os tipos de tendências que fizemos na seção anterior fornece

um importante alicerce para entendermos vários aspectos da EST. Um desses aspectos

diz respeito aos procedimentos para verificar se uma série temporal é ou não

estacionária. Esses procedimentos são conhecidos como testes de raiz unitária. Eles

recebem essa denominação porque são voltados para verificar se o processo gerador da

série apresenta ou não uma raiz unitária na parte AR. Ou seja, se é ou não um processo

integrado. Veremos esses testes logo a seguir, mas é válido desde já apontar que, apesar

disso, eles também podem ser vistos sob outros ângulos interessantes.

Primeiro, eles também são procedimentos para se detectar a presença ou não de

tendências estocásticas no processo gerador das séries. Segundo, como no processo de

diferença estacionária a tendência estocástica vem acompanhada de uma tendência

determinística, os testes normalmente usam uma representação geral de processo

estocástico que permite abarcar as quatro possibilidades apresentadas na seção anterior.

Ao testar restrições particulares impostas à esta representação geral, mais do que

verificar a presença ou não de uma raiz unitária (ou de uma tendência estocástica) no

processo gerador de uma série temporal, os testes de raiz unitária permitem também

distinguir qual dentro os quatro tipos de processos estocásticos considerados na seção

anterior está gerando a série7. Inicialmente, vamos desenvolver essa representação geral

para só depois apresentar os testes de raiz unitária propriamente ditos.

13.1 Representação Geral

Considere o seguinte processo estocástico:

7 Um erro que desavisados costumam cometer é pensar que um teste de raíz unitária sempre verifica se a

série é ou não estacionária. Como veremos, isso vai depender da opção escolhida para usar o teste. A

opção mais geral considera tanto na hipótese nula como na alternativa séries nãoestacionárias porque

ambas admitem a presença de uma tendência determinística. A forma mais precisa de se encarar um teste

de raiz unitária é como um procedimento para se verificar se há ou não um processo I(1) embutido no

mecanismo gerador da série.

onde 0 e 1 são constantes reais. Zt é um processo autorregressivo do tipo:

ttt uZZ 1 (42)

onde ut é um processo estacionário I(0) com média nula. Note aqui que o processo

estocástico para Yt em (41) representa a soma de uma tendência determinística linear

mais um processo AR(1) para Zt. Este pode ser estacionário se | | < 1 ou não

estacionário no sentido de possuir uma raiz unitária se = 1. No último caso, Zt embute

uma tendência estocástica mais um termo estacionário, segundo a decomposição BN

de que falamos em (26). Vamos descartar outras possibilidades, em que 1

ou >1. Assim, em princípio, a equação (41) pode representar um processo tendência

estacionária (Zt estacionário) ou um processo diferença estacionária (Zt segue um

processo I(1)), mas ainda há outras possibilidades como veremos a seguir. Para isso,

vamos re-escrever a expressão (41) como segue:

tYZ tt 10 (43)

Substituindo (43) em (42) e fazendo algumas manipulações algébricas, chegamos a:

ttt uYtY 1110 )1()1( (44)

Fazendo8:

10 )1( a (45)

)1(1 b (46)

Podemos re–escrever (44) como:

ttt uYbtaY 1 (47)

A equação9 (47) é uma representação geral para os quatro processos que analisamos

antes. Impondo restrições nos valores dos parâmetros 0, 1 e , note que é possível

usarmos esta equação para caracterizar os quatro tipos de processos estocásticos que

vimos antes. Por exemplo, observe que:

8 A expressão (44) aparece inicialmente no livro de Fuller(1976), mas não aparece explicitamente nos

artigos de Dickey e Fuller (1979, 1981). No entanto, em um artigo de divulgação, Dickey et al (1986)

deixam claro que é nesta expressão que se baseia o teste DF. 9 Muitos livros–texto de EST não apresentam a relação entre as expressões (44) e (47), isto é, que a

primeira restringe a segunda. Normalmente, apresentam só a expressão (47). A consequência disso é que

a formulação (44) admite apenas a presença de uma tendência determinística linear, porque não pode

acontecer b 0 com = 1. Se isso fosse possível, haveria uma tendência determinística quadrática junto

com a tendência estocástica. Assim, a expressão (44) admite apenas os quatro tipos de processos

estocásticos considerados até aqui. Além disso, a expressão (47), se apresentada de forma independente

sem as restrições dadas pela expressão (44), cria dificuldades para uma interpretação adequada da

estrutura do teste DF (ver, por exemplo, as críticas de Schmidt e Phillips, 1992). Isso tudo é muito

importante para um adequado entendimento das opções disponíveis nos testes de raízes unitária baseados

no procedimento de Dickey e Fuller. Cuidaremos de apontar todos esses aspectos ao falarmos dos testes

de raiz unitária mais adiante.

a = 0 se = 1;

a = 0 se 0 = 1 = 0;

b = 0 se 1 = 0;

b = 0 se = 1.

Assim, a equação (47) pode caracterizar as seguintes possibilidades:

Processo estacionário: ttt uYaY 11 1||,0

Processo I(1): ttt uYY 11 1,0

Tendência estacionária: ttt uYbtaY 11|| 10

Diferença estacionária: ttt uYaY 11

Essas possibilidades estão todas reunidas e sintetizadas no quadro 1. O leitor deve

ficar atento a esse quadro e retornar de vez em quando a ele sempre que tiver dúvidas

daqui para frente. O bom entendimento dos quatro processos estocásticos listados

acima, de suas representações particulares e em termos da representação geral, assim

como de suas relações particulares com os dois tipos de tendência, determinística e

estocástica, é muito importante para uma boa análise de EST.

Quadro 1. Processos estocásticos e tipos de tendências

Processo

Estocástico

Tipo de

Tendência

Embutida

Representação

Particular

Restrições da

Representação

Geral*

Processo

Estacionário Sem tendências ttt uYaY 1 1||,01

Processo I(1) Tendência

Estocástica ttt uYY 1 1,01

Tendência

Estacionária

Tendência

Determinística ttt uYbtaY 1 1||

Diferença

Estacionária

Tendência

Estocástica e

Tendência

Determinística

ttt uYaY 1 1

* A representação geral é dada pela equação (47) do texto, com as prédefinições dos parâmetros a e b

dadas pelas expressões (45) e (46).

O leitor deve ser alertado aqui que, nesta representação da tendência estacionária segundo a expressão

(47), o componente de tendência determinística a+bt é diferente de 0+1t e o termo restante Yt1+ut não

é estacionário (porque, embutindo uma tendência deterministica, Yt1 é não estacionário). Mas a

representação completa para Yt representa de fato uma tendência estacionária se lembrarmos que (47) foi

desenvolvida a partir de (41) e, portanto, a e b estão restringidos segundo as expressões (45) e (46).

13.2 Teste de Dickey-Fuller

O teste de Dickey-Fuller (DF) é o mais antigo e famoso método formal para

verificar se uma série temporal é ou não estacionária. Ele foi introduzido em uma versão

básica pelos trabalhos de Fuller (1976), Dickey(1976) e Dickey e Fuller (1979).

Posteriormente, foi objeto de uma generalização no trabalho de Dickey e Fuller (1981).

A versão generalizada é conhecida como teste de Dickey-Fuller Aumentado,

abreviadamente ADF, e constitui a modalidade deste teste que passou a ser usada desde

então. Nesta subseção, vamos primeiro falar em detalhe do teste DF, em que se assume

que na equação de teste o termo de erro segue um processo ruído branco. Ao final,

falaremos de sua versão generalizada, em que o termo de erro segue um processo I(0)

autocorrelacionado.

O desenvolvimento do teste DF foi motivado pela necessidade de verificar se

uma série precisa ser diferenciada para se tornar estacionária. Essa verificação é a

primeira etapa da metodologia proposta por Box Jenkins (1970) para construção de

modelos ARIMA para séries temporais. Esses autores recomendaram que, se o gráfico

da série temporal indicar que ela é não estacionária, então devemos diferenciála até

apresentar um padrão estacionário. Apesar da sofisticação da metodologia de Box

Jenkins, esse procedimento é limitado porque baseiase simplesmente numa análise

gráfica. A preocupação de DF foi propor um método estatístico formal para testar a

hipótese de não estacionariedade da série e, assim, terse uma indicação mais precisa

sobre se é preciso diferenciála ou não.

Veremos aqui que o teste de Dickey Fuller serve para isso, mas ele também

possui importantes versatilidades que permitem diferentes aplicações dependendo de

como interpretamos suas hipóteses nula e alternativa. Por exemplo, como dissemos no

início da seção anterior, ele também serve como um teste para a presença de uma

tendência estocástica, que pode ou não estar adicionada de uma tendência

determinística. Em última instância, ele serve para distinguir qual dentro os quatro tipos

de processos estocásticos considerados no quadro 1 deve estar gerando uma série

temporal. Essa forma de ver o teste tende a torná-lo mais intuitivo e facilita sua

compreensão.

No entanto, antes de apresentarmos o teste propriamente dito, é importante

chamar a atenção para alguns aspectos que tendem a confundir aqueles que estudam

pela primeira vez o teste DF:

primeiro, DF propuseram na verdade mais de um método para testar a não

estacionariedade de uma série. Por exemplo, desenvolveram testes baseados na

razão t e em outras estatísticas, como F e de DurbinWatson. O procedimento

mais usado atualmente é baseado na razão t e será apenas este que veremos

segundo, a equação de teste inicialmente deixava dúvidas conceituais na

interpretação dos parâmetros e essas dúvidas só foram esclarecidas num

trabalho posterior, de Dickey et al (1986). Nós já falamos disso, quando

apresentamos o desenvolvimento da equação geral para os quatro processos

considerados antes;

terceiro, as hipóteses do teste devem ser interpretadas como se fosse um teste

unilateral, mas nosso interesse envolve apenas uma parte da hipótese

alternativa. Este último aspecto veremos com cuidado logo adiante.

Por essas razões, o leitor desavisado poderá ficar confuso ao tentar entender e aplicar o

teste DF. Buscaremos aqui contribuir para minimizar potenciais confusões.

Nesse sentido, o primeiro aspecto a destacar sobre o teste DF é que ele procura

verificar se uma série é estacionária ou não testando se ela possui uma raiz unitária. A

maneira como fazemos isso é assumir que o modelo que gera a série é o mesmo da

equação (47). Para simplificar o entendimento desse ponto, consideremos uma versão

mais simples dessa equação, em que 010 , o que implica 0ba :

ttt uYY 1 (48)

Observe que, para este modelo, o processo estocástico será:

estacionário se 1|| ou

não estacionário se 1|| .

Entretanto, o procedimento do teste DF usa como enunciado:

O leitor pode perceber que este enunciado caracteriza um teste unilateral. Uma forma

imediata de testar a hipótese nula seria regredir a equação (36a), por exemplo usando

MQO, e computar a razão t . Então, comparandose o valor desta razão com um valor

crítico )(t , associado a um nível de significância α, decidiríamos não rejeitar H0 se

)(ˆ tt ou rejeitar H0 se )(ˆ tt . Veremos que é mais ou menos isso que está

envolvido, mas não poderemos usar um valor crítico associado a uma distribuição t de

Student.

Agora, vejamos com cuidado o enunciado do teste DF apresentado acima. A

hipótese nula diz que a série é não estacionária, no sentido de que possui uma raiz

unitária. De fato, vimos antes que, se 1 , então Yt segue um processo de raiz unitária.

Porém, note que, teoricamente, há outras possibilidades para a série ser não

estacionária: por exemplo, se 1 . O enunciado do teste descarta esta possibilidade

porque, neste caso, Yt seguiria um processo explosivo que cresce ou decresce

indefinidamente. Mas, a hipótese nula como definida acima considera uma

possibilidade específica de que a série possui uma raiz unitária (e apenas uma). Por

sua vez, a hipótese alternativa diz que a série é estacionária, se 1|| , ou não

estacionária, se 1 . Portanto, é preciso cuidado aqui porque a alternativa admite

duas possibilidades conflitantes: a série pode ser estacionária ou não sob essa hipótese.

Mas, note que as possibilidades da série ser não estacionária sob H1 são: a) se 1 , a

série vai apresentar um ciclo muito curto, com oscilações da série entre o positivo e

negativo e com amplitude errática; b) se 1 , a série vai exibir o mesmo ciclo curto

mas com amplitude explosiva.

Vemos, portanto, que o enunciado acima tanto na hipótese nula quanto na

alternativa admite várias formas de não estacionariedade. Porém, é exatamente esse o

enunciado do teste DF. Apesar disso, o teste DF nos permite chegar à conclusão de que

uma série é não estacionária, no sentido de possuir uma ou mais raízes unitárias, ou

estacionária. Na prática, fica mais fácil entendermos o procedimento do teste DF se

imaginarmos um enunciado que é um pouco diferente:

1|:|*1 H

A diferença está na hipótese alternativa. Pusemos a estrela nela, isto é, em *1H , para

destacar que esta é a hipótese alternativa de interesse. O enunciado reescrito desta

forma, nos coloca exatamente na situação que nos interessa mais. Testaremos a hipótese

nula de que a série possui uma raiz unitária, contra a alternativa de interesse de que a

série não possui raiz unitária, mas é estacionária. Assim, o leitor deve atentar para o

fato de que, no material que apresentamos a seguir, pensaremos sempre desta forma.

O teste DF está disponível em três opções, e cada versão se baseia na estimação

por MQO de uma variante de (47) para cômputo das estatísticas de teste. Nas três

opções, o procedimento é o mesmo e, como dissemos, pode ser melhor pensado como

H0 e H1*. Se H0 for verdadeira, então o processo estocástico gerador da série possui uma

raiz unitária e embute uma tendência estocástica. No entanto, se H0 for falsa, então o

processo é estacionário sem qualquer tendência (opções 1 e 2) ou é uma tendência

estacionária (versão 3).

O teste DF, no entanto, não usa diretamente a equação (47). Subtraindo Yt-1 de

ambos os lados dessa equação, obtemos:

ttt uYbtaY 1 (49)

onde = - 1 e a e b continuam definidos como em (45) e (46). Na versão original e

mais simples do teste, Dickey e Fuller (1979) assumem que o termo de erro ut é um

processo ruído branco normalmente distribuído. Na versão aumentada (ADF), Dickey e

Fuller (1981) assumem que ele segue um processo AR(p). A equação (49), com as

mesmas restrições dadas pela equação (44), é que é usada no teste DF para cômputo

das estatísticas de teste. Embora seja apenas uma representação alternativa do processo

gerador de tY na equação (44), a equação (46) também é chamada na literatura de

equação de teste. É importante observar que, conforme a equação (49), as hipóteses

nula e de interesse do teste passam a ser escritas como:

H0: = 0 (há uma raiz unitária)

H1*: 2 < < 0 (não há raiz unitária)

O teste é aplicado estimando-se por MQO a equação (49) e computando-se a razão t

para o parâmetro :

s (50)

Onde é o estimador de MQO de e

s o erro–padrão de . A razão em (50) é

denominada de estatística- porque segue uma distribuição de probabilidade diferente

da usual t de Student sob a hipótese nula de que 0 . A distribuição da estatística- é

conhecida como distribuição de Dickey e Fuller e seus valores críticos para diferentes

níveis de significância foram tabuladas em Fuller (1976, 1995), Dickey e Fuller (1981)

e em outros trabalhos, como McKinnon (1996). É interessante observar que as quatro

possibilidades de processos estocásticos consideradas na seção anterior passam a ser,

segundo a equação (49):

Processo estacionário: ttt uYaY 11 02,0

Processo I(1): tt uY 0,01

Tendência estacionária: ttt uYbtaY 102

Diferença estacionária: tt ubY 0

Essas diversas possibilidades podem ser tratadas no âmbito das três opções em que o

teste de Dickey Fuller está disponível. Apresentaremos a seguir essas três opções e

atentamos para que é muito importante saber quando se usa cada uma delas. Elas

diferem na maneira como se restringe para a presença ou não do intercepto a e do termo

de tendência bt na equação de teste. Usar a versão inadequada pode enviesar a

conclusão obtida com o teste ou então perder-se desnecessariamente poder do mesmo.

13.2.1 Opção 1: Sem intercepto e sem termo de tendência

Esta é a opção mais simples do teste DF. Ela assume 010 , o que, de

acordo com as expressões (45) e (46), faz com que a = b = 0 na equação (49). Isso

equivale a dizer que esta opção não considera a constante e nem o termo de tendência na

equação de teste. Assim, a hipótese H0: = 0 significa que a série segue um processo

não estacionário com uma raiz unitária mas sem constante tt uY . Ou seja, um

processo I(1). A hipótese H1, por sua vez, assume que o processo é ttt uYY 1 com

-2 < < 0. Note que isso equivale a um processo estacionário sem constante

ttt uYY 1 (i.e., com | | < 1). Ou seja, um processo I(0). Do ponto de vista das

tendências, H0: = 0 significa que o processo que gera a série embute uma tendência

estocástica, enquanto H1 significa que o processo não tem qualquer tendência. Em

suma, temos:

0:0 H tt uY Uma raíz unitária ou I(1); tendência

estocástica;

02:*1 H ttt uYY 1 Sem raiz unitária ou I(0); processo

estacionário sem tendência alguma

A equação de teste é estimada por MQO sem o intercepto a e sem o termo de tendência

bt, isto é:

ttt uYY ˆˆ1 (51)

e então computa-se a estatística de teste, que nesta opção é chamada simplesmente de

estatística- (tau):

s (52)

Uma tabulação de valores críticos para diferentes níveis de significância para a

estatística- está disponível em MacKinnon(1996). Se o valor de for menor do que o

valor crítico tabulado ao nível de significância escolhido, rejeita-se a hipótese nula de

presença de uma raíz unitária (ou de não estacionariedade).

13.2.2 Oção 2: Só com intercepto

Esta segunda opção é muito parecida com a primeira. Ela assume apenas 01 ,

o que, de acordo com as expressões (45) e (46), faz com que )1(0 a e apenas

0b na equação (49). Logo, esta opção considera a possibilidade de uma constante

não nula (mas ainda sem o termo de tendência determinística) na equação de teste.

Segue então que a hipótese H0: = 0 (ou 1 ) continua significando que o processo

gerador da série é tt uY , logo com uma raiz unitária e sem constante. Ou seja,

constinua sendo um processo I(1). O que muda é que a hipótese H1 agora é

ttt uYaY 1 com 02 , o que equivale a um processo estacionário com

constante ttt uYaY 1 (com 1|| ). Note que não há qualquer incoerência aqui.

A hipótese 0:0 H (ou 1 ) implica 0)1(0 a , mas 02:1 H não. A

interpretação de H1 continua a mesma: a série segue um processo I(0).

Em outras palavras, a comparação entre H0 e H1 nesta segunda versão é

essencialmente a mesma que a da opção 1, sendo no entanto mais geral porque admite

na hipótese alternativa que o processo estacionário possua constante não nula. Do ponto

de vista das tendências, também continua a mesma interpretação da opção 1. H0 assume

que o processo que gera a série é do tipo I(1) com tendência estocástica apenas e H1 que

o processo não tem qualquer tendência. Em suma, temos:

0:0 H tt uY Uma raiz unitária ou I(1); tendência

estocástica;

02:*1 H ttt uYaY 1 Sem raiz unitária ou I(0); processo

estacionário sem tendência alguma

Novamente, a equação de teste é estimada por MQO, mas agora com o

intercepto a e ainda sem o termo de tendência bt, isto é:

ttt uYaY ˆˆˆ1 (53)

Computa-se então a estatística de teste, que nesta segunda opção passa a ser chamada de

estatística- (tau-mi):

s (54)

Aqui também, uma tabulação de valores críticos para diferentes níveis de significância

para a estatística-u está disponível em McKinnon(1996). Se o valor de u for menor do

que o valor crítico tabulado ao nível de significância escolhido, rejeita-se a hipótese

nula de presença de uma raíz unitária (ou de não estacionariedade). Na prática, esta

segunda opção é preferível à primeira, devido à constante ser não nula na hipótese

alternativa de interesse. É a que deve ser usada, a menos que se trabalhe com poucas

observações ou se tenha forte convicção de que a constante na hipótese alternativa é

nula (situação muito rara na prática).

13.2.3 Opção 3: com intercepto e termo de tendência

Esta terceira opção é diferente das duas anteriores porque admite a presença de

uma tendência determinística linear no processo para Yt. Ela assume que 0 ≠ 0 e 1 ≠ 0,

de modo que, de acordo com as expressões (45) e (46) , 10 )1( a e )1(1 b .

Isso equivale a dizer que a equação de teste possui uma constante e um termo de

tendência. Então, a hipótese 0:0 H (ou = 1) implica 01 a mas 0b , de

forma que o processo gerador da série é tt uaY , ou seja, processo de diferença

estacionária. Lembre que tal processo é a soma de uma tendência determinística mais

um processo I(1). Por sua vez, a alternativa de interesse 02:*1 H (ou | | < 1)

implica 0a e 0b , de modo que o processo gerador da série é

ttt uYbtaY 1 com 02 , o que equivale a um processo sem raiz unitária

do tipo tendência estacionária ttt uYbtaY 1 (com 1|| ). Vimos antes que este

processo é a soma de uma tendência determinística mais um processo I(0).

É importante observar aqui um aspecto que frequentemente é negligenciado

pelos usuários do teste DF. Note que, nesta opção, tanto H0 quando H1 assumem que a

série segue um processo nãoestacionário, porque ambas consideram a presença de uma

tendência determinística. Portanto, aqui o teste DF não verifica se a série é estacionária

ou não. Ele verifica se o processo que gera a série embute um processo I(1), como diz

H0, ou não, como diz H1. Além disso, do ponto de vista das tendências, H0 significa que

o processo que gera a série é composto de uma tendência determinística linear mais uma

tendência estocástica, como vimos na expressão (29), e *1H que o processo é composto

de uma tendência determinística linear mais um processo estacionário. Em suma, temos:

0:0 H tt uaY Contém um processo de raíz

unitária ou I(1); tendência

determinística linear mais tendência

estocástica; diferença estacionária.

02:*1 H ttt uYbtaY 1 Sem processo de raiz unitária;

tendência determinística linear mais

erro estacionário ou I(0); Tendência

estacionária.

A equação de teste é estimada segundo a hipótese alternativa H1:

ttt uYtbaY ˆˆˆˆ1 (55)

Computa-se então a estatística de teste, que nesta terceira opção passa a ser chamada de

estatística- (tau-tau):

s (56)

Aqui também, uma tabulação de valores críticos para diferentes níveis de significância

para a estatística- está disponível em MacKinnon (1996). A decisão de rejeitar ou não

rejeitar H0 é tomada de forma análoga, pela comparação de com o valor crítico

tabulado ao nível de significância escolhido. Esta opção é a que deve ser usada sempre

que o gráfico da série indicar que ela possui uma tendência determinística. Se houver

dúvida quanto a isso ao se examinar o gráfico da série, também devese usar esta

terceira opção. Mesmo que não exista uma tendência determinística no processo gerador

da série, isto não traz problemas porque esta terceira opção engloba as duas anteriores.

O risco de se incorrer em erro surge quando se usa a primeira ou a segunda

opções, mas deveriase usar a terceira. Isto acontece quando há uma tendência

determinística no processo gerador da série, mas isso é ignorado pelo usuário. Como

dissemos acima, este é um erro cometido frequentemente. Neste caso, o uso da opção

incorreta pode levar a se concluir que uma série é gerada por um processo de raíz

unitária ou I(1) quando na verdade ela segue um processo de tendência estacionária.

Este erro traz duas importantes consequências: primeiro, ao induzir à conclusão errônea

de que a série possui memória longa, mas na verdade tem memória curta. Segundo, ao

induzir à conclusão também errônea de que a série pode ser cointegrada com outras

séries, quando isso não é possível porque um processo de tendência estacionária não

embute um processo integrado.

13.2.4 Teste Aumentado de Dickey-Fuller

A versão aumentada do teste DF, que chamamos antes de teste ADF, difere

apenas por considerar a existência de alguma estrutura de autocorrelação para os erros

da equação de teste. Se essa estrutura não for considerada, há perda de eficiência do

estimador de MQO para e, o que é mais sério, as estatísticas , e ficam

enviesadas. Na prática, isso é considerado usando uma versão aumentada da equação de

teste em que se permite termos defasados de Yt como variáveis adicionais no lado

direito da expressão (49):

t t j t j tj

Y a bt Y Y

onde j (j = 1,...,p) são parâmetros e t é um processo ruído branco. O objetivo desse

procedimento é eliminar uma possível existência de autocorrelação serial no termo de

erro ut. Assim, ao invés de estimar as equações (51), (53) e (55) de cada uma das três

opções do teste DF, estima-se as seguintes equações:

Opção 1: t

jjtjtt uYYY ˆˆˆ

Opção 2: t

jjtjtt uYYaY ˆˆˆˆ

Opção 3: t

jjtjtt uYYtbaY ˆˆˆˆˆ

Nas três opções, aplica-se o mesmo procedimento de testar H0 : = 0. E em cada uma

delas, H0 continua tendo as mesmas interpretações. Um problema novo que aparece,

porém, com esta versão aumentada é a necessidade de se determinar com antecedência o

lag máximo p dos termos defasados de Yt. Isto é feito estimando-se várias vezes a

equação de teste com números diferentes de termos defasados, isto é, para o valor de p.

Escolhese o valor de p que minimiza alguma estatística de critério de informação,

como a de Schwarz, por exemplo. Uma vez escolhido o lag máximo, implementa-se o

teste ADF propriamente dito.

13.2.5 Passos de implementação do teste ADF

1. Escolha da opção (1, 2, ou 3) do teste: examine o gráfico da série para verificar a

presença ou ausência aparente de uma tendência determinística. Se parecer não

haver uma tendência determinística, escolha a opção 1 (sem intercepto nem termo

de tendência determinística) ou a opção 2 (só intercepto), que assumem na hipótese

H0 que o processo de raiz unitária possui uma tendência estocástica apenas. No caso

de haver forte evidencia visual de uma tendência determinística na evolução da

série, escolha a opção 3 (intercepto mais termo de tendência). Havendo dúvida,

escolha a opção 3, porque é a mais geral e engloba as demais.

2. Lag máximo da equação de teste: uma vez escolhida a opção do teste, pode-se

determinar qual a especificação da equação de teste que será estimada. Isso envolve

antes determinar o lag máximo p dos termos defasados da variável dependente Yt

que serão usados na estimação da equação de teste. Para tanto, proceda da seguinte

forma: Estime a equação de teste sem nenhum termo defasado de Yt e registre o

critério de informação (Schwarz, por exemplo). Repita a estimação da equação de

teste com um termo defasado 1 tY e novamente registre o critério de informação.

Compare os dois critérios de informação: se o da última equação estimada for maior

do que o da anterior, pare e use a equação anterior para implementar o teste; se for

menor, continue. Estime então a equação de teste agora com dois termos defasados,

1 tY e 2 tY , e proceda à mesma comparação dos critérios de informação da equação

atual e da anterior. Pare ou então continue sucessivamente até o momento em que o

critério de Schwarz da equação atual aumentar em relação ao da equação anterior.

Isso significa que o valor de p da penúltima equação é o lag máximo.

3. Estatística de teste: Tendo determinado o lag máximo p, estime em definitivo a

equação de teste e compute a estatística–tau correspondente.

4. Decisão Final: Compare a estatística tau calculada com o valor crítico tabulado

segundo o nível de significância escolhido. O valor crítico pode ser encontrado, por

exemplo, na tabela apresentada por Mckinnon (1996). Se a estatística tau for maior

ou igual ao valor crítico, não rejeite H0, isto é, considere que a série é não

estacionária e possui uma raiz unitária. Se a estatística tau for menor, rejeite H0 e

conclua que a série não possui raiz unitária. Refine sua interpretação em termos da

presença/ausência de tendências determinística e estocástica em função da opção do

teste que você escolheu.

5. Reaplicando o teste: Se H0 não for rejeitada no passo 4, significa que o processo

gerador da série possui uma raiz unitária. Em princípio, isso significa que seu

processo gerador é, ou embute, um processo I(1). É possível, no entanto, que o

processo gerador da série possua mais raízes unitárias e assim seja, ou possua, um

processo integrado de ordem maior. Para verificar isso, diferencie a série uma vez e

repita todos os procedimentos anteriores do teste ADF para a série diferenciada. Se

H0 for rejeitada, é porque a série diferenciada não tem raiz unitária e, portanto, a

série original é I(1). De outro modo, se H0 não for rejeitada é porque a série

diferenciada possui uma raiz unitária. Neste caso, diferencie novamente a série e

aplique de novo o teste ADF. Proceda dessa maneira iterativamente até chegar a um

grau de diferenciação da série em que H0 é finalmente rejeitada. Isso significa que,

para esse grau de diferenciação, o processo que gera a série não possui raiz unitária

(i.e, é estacionário ou do tipo tendência estacionária)11

A seguir, apresentamos um conjunto de exemplos de aplicação do teste de

Dickey–Fueller na sua versão aumentada. Os exemplos usam as séries simuladas pelo

autor deste texto e que estão distribuídas pelas figuras 2, 3 e 4. Para facilitar a

apresentação e comparação desses exemplos, os resultados do teste ADF para cada série

analisada estão apresentados de forma agrupada na tabela 1. Por ora, há uma vantagem

de vermos esses exemplos com séries simuladas porque nesses casos conhecemos a

priori os processos estocásticos que geraram as séries. Isso nos permite entender mais

claramente como o teste ADF funciona. O leitor deve lembrar, porém, que na aplicação

do teste a séries reais só teremos os dados observados das séries e, portanto, seus

respectivos processos estocásticos geradores serão sempre desconhecidos. Mais adiante,

veremos um exemplo do teste ADF com uma série real.

Exemplo 1: Séries simuladas sem raiz unitária

Neste primeiro exemplo, aplicamos os passos do teste ADF delineados acima

para as duas séries da figura 2. Iniciaremos analisando a série da figura 2.a). O gráfico

desta série sugere que a mesma segue um processo estacionário, porque ela parece

oscilar em torno de uma média fixa. Diante disso, a opção do teste ADF a ser usada

deveria ser a 1 (sem constante) ou a 2 (com constante). Nós sabemos que, por ser uma

série simulada, ela foi gerada por um processo estacionário sem constante (indicado

logo abaixo da figura 2.a)), o que poderia nos levar aqui a escolher a opção 1. Porém, na

prática, não sabemos qual o processo estocástico que gerou uma série, normalmente

temos apenas os dados da mesma e o gráfico desses dados, como a figura 2.a). Por isso,

é mais adequado escolhermos a opção 2, pois esta assume na hipótese alternativa H1 a

presença de uma constante no processo estacionário gerador da série, inclusive uma

constante nula.

O resultado do teste ADF está apresentado na primeira linha, logo abaixo dos

títulos, da tabela 1. Repare que na primeira coluna a tabela indica a série testada (i.e., da

figura correspondente) e, no caso da série da figura 2.a) , fez–se o teste apenas para a

Há um outro procedimento na literatura para se determinar a ordem de integração, ou o número de

raízes unitárias, de uma série temporal, proposto por Dickey e Pantula (1987). Esse procedimento é mais

rigoroso para isso do que o teste ADF, mas optamos por não abordálo aqui devido ao caráter

introdutório deste texto.

variável em nível Yt. Na segunda coluna, a tabela reporta a opção do teste escolhida (no

caso, como dissemos, usamos a opção 2 que admite uma constante na equação de teste),

e na terceira coluna o lag–máximo, que corresponde ao número de lags da variável

dependente incluídos na equação de teste como variáveis explicativas. Lembre que a

determinação desse número de lags tem de ser feita antes de se aplicar o teste

propriamente dito, estimando–se diferentes opções da equação de teste (com diferentes

lags) e escolhendo aquela que minimiza o critério de Schwarz12

. Na quarta coluna, é

apresentada a estatística–tau associada e, nas três colunas seguintes, os valores críticos

para os níveis de significância de 1%, 5% e 10%, respectivamente. A tabela ainda

apresenta, na última coluna, o valor de prova associado ao valor da estatística–tau

calculado segundo um procedimento aproximado proposto por MacKinnon (1996).

Tabela 1. Teste ADF de raiz unitária para séries simuladas

Série Var. Teste Aumentado de DickeyFuller

Opção Lag-Máx Tau 1% 5% 10% V. Prova

Fig. 2a Yt cte 0 -7.65 -3.46 -2.88 -2.57 0.00

Fig. 2b Yt cte 3 -0.14 -3.46 -2.88 -2.57 0.94

Fig. 2b Yt cte+tend 0 -7.94 -4.01 -3.43 -3.14 0.00

Fig. 3a Yt cte 0 -1.46 -3.46 -2.88 -2.57 0.55

Fig. 3b Yt cte+tend 0 -1.95 -4.00 -3.43 -3.14 0.63

Fig. 4a Yt cte 2 -1.21 -3.46 -2.88 -2.57 0.67

Fig. 4c Yt cte 1 -8.80 -3.46 -2.88 -2.57 0.00

Fig. 4b Yt cte+tend 1 -2.33 -4.01 -3.43 -3.14 0.41

Fig. 4d Yt cte 0 -8.54 -3.46 -2.88 -2.57 0.00

Fonte: Cálculos feitos a partir de dados simulados pelo autor usando o software Eviews 7.0.

Notas: Var. = variável; cte = com constante; tend = com termo de tendência; Lag–Máx = defasagem

máxima da variável dependente na equação de teste. Tau = estatística–, u ou , dependendo da

versão utilizada. O cálculo dos valores de prova foram feitos por procedimento descrito em

McKinnon(1996).

Para a série da figura 2.a), repare que o valor da estatística tau foi de –7,65. Ele

se situa à esquerda de qualquer um dos valores críticos apresentados, mesmo o de 1%

que corresponde ao valor mais negativo dos três. Segundo a regra de decisão do teste

ADF, devemos rejeitar a hipótese nula H0, que assume a presença de uma raiz unitária.

Logo, concluímos que a série não apresenta raiz unitária. Dizendo de outra forma,

concluímos que a série não apresenta tendência estocástica. Pela característica visual do

gráfico da série, na prática, acabamos concluindo que ela não apresenta tendência

alguma, ou seja, que ela é um processo estacionário. Se usássemos a regra de decisão

pelo valor de prova, chegaríamos à mesma conclusão, porque este encontra–se abaixo

de 0,01, valor associado a um nível de significância de 1%.

O software Eviews 7.0 realiza a busca do lag–máximo automaticamente, podendo o usuário determinar

qual estatística de critério de informação deve ser usada, entre Akaike, Schwarz, HannanQuinn e suas

respectivas versões modificiadas.

Passemos, agora, à série da figura 2.b). Observando o gráfico desta série, vemos

que, nitidamente, ela apresenta um crescimento persistente sugerindo a presença de uma

tendência determinística linear. Neste caso, devemos usar então a opção 3 do teste ADF,

que considera uma constante mais uma tendência determinística linear na equação de

teste. Lembre que, nesta opção, a hipótese nula de raiz unitária é sinônimo de considerar

que a série embute uma tendência estocástica junto com uma tendência determinística

linear, ou seja, um processo diferença estacionária com deslocamento. E a hipótese

alternativa de ausência de raiz unitária é sinônimo de considerar que há só uma

tendência determinística acrescida de um processo estacionário, ou seja, um processo

tendência estacionária.

No entanto, observe na tabela 1 que fazemos o teste ADF duas vezes para esta

série da figura 2.b). Na primeira vez, usamos a opção incorreta, que é permitir só uma

constante na equação de teste, ou seja, a opção 2. Fizemos assim propositalmente para o

leitor perceber o tipo de erro que se pode incorrer quando se usa uma opção inadequada

do teste ADF. Na aplicação usando a opção 2 (só com constante), repare que a

estatística tau associada apresenta o valor –0,14. Considerando os valores críticos

reportados, a hipótese nula de presença de raiz unitária não é rejeitada nem mesmo a 5%

de significância. O valor de prova de 0,94, bem elevado, indica, da mesma forma, não

rejeição da hipótese nula. Ou seja, o teste admite que há uma tendência estocástica no

comportamento da série. No entanto, o gráfico da série sugere fortemente um processo

tendência estacionária (sabemos, inclusive, que a série foi gerada assim), que é um

processo estocástico com tendência determinística apenas. A inconsistência do resultado

do teste ADF aqui, usando–se a opção inadequada, se deve a que o teste possivelmente

está confundindo a tendência determinística presente na série com uma tendência

estocástica. Isso acontece porque a opção 2 do teste ADF não consegue identificar a

presença de uma tendência determinística, seja na hipótese nula ou na alternativa.

Agora, quando aplicamos novamente o teste ADF à mesma série da figura 2.b)

mas usando a opção 3 (constante mais termo de tendência), a estatística tau é de –7,94.

Este valor é menor (está mais à esquerda na linha dos números reais) do que o valor

crítico de 1%. Logo, neste caso, devemos rejeitar a hipótese nula de presença de raiz

unitária. Concluímos, então, que o processo estocástico que gerou a série é do tipo

tendência estacionária, o que significa que ele não apresenta tendência estocástica, só

tendência determinística (mais um processo estacionário). Assim, usando a opção 3, o

resultado fica mais consistente com o gráfico da série (e ainda com o fato de que

sabemos que a série foi simulada segundo um processo tendência estacionária).

Exemplo 2: Séries simuladas com raiz unitária

A série da figura 3.a) representa uma tendência estocástica, que é um caso particular de

um processo de raiz unitária ou I(1). A série da figura 3.b) representa uma tendência

geral, dada pela soma de uma tendência determinística mais uma tendência estocástica,

e é um caso particular de um processo de diferença estacionária. O gráfico da figura 3.a)

sugere que a série não é estacionária e que não parece ter uma tendência determinística

linear. Aplicamos então o teste ADF com a opção 2. A estatística–tau obtida é –1,46,

nos levando a não rejeitar a hipótese nula de raiz unitária nem mesmo a 10% de

significância. Por sua vez, o gráfico 3.b) sugere que a série possui uma tendência

determinística. Então, aplicamos o teste ADF com a opção 3. A estatística–tau obtida

foi de –1,95, nos levando a decidir pela nãorejeição da hipótese nula de raiz unitária

mesmo a 10% de significância.

As séries das figuras 4.a) e 4.b) foram ambas geradas como processos que

embutem raízes unitárias: a primeira como um processo de raiz unitária ou I(1) e a

segunda como um processo de diferença estacionária. O gráfico da figura 4.a) sugere

fortemente que a série não é estacionária, mas não indica, pelo menos de um modo

nítido, a presença de uma tendência determinística linear. Assim, aplicamos o teste ADF

para essa série usando a opção 2, só com constante, na equação de teste. O resultado,

apresentado na quarta linha da tabela 1 mostra uma estatística–tau no valor de –1,21.

Este valor está à direita do valor crítico de 10% de significância, levando, portanto, à

não rejeição da hipótese nula de raiz unitária. Indica, assim, a presença de uma

tendência estocástica sem tendência determinística. Mais uma vez, o teste ADF com a

opção adequada nos leva a concluir corretamente, em consonância com o modo como a

série foi gerada.

O teste ADF foi desenhado para detectar a presença de uma raiz unitária, mas a

série pode possuir outras raízes unitárias. Ou seja, o teste ADF aplicado à uma série não

permite detectar a ordem de integração da mesma. Para verificar isso, é preciso

diferenciar a série e repetir o teste ADF. Na linha seguinte da tabela 1, apresentamos o

resultado do teste para a série da figura 4.c), a qual consiste da primeira diferença da

série da figura 4.a). O gráfico da figura 4.c) indica fortemente que a série é estacionária,

portanto sem tendência alguma, e assim o teste foi aplicado usando–se a opção 2. O

valor da estatística–tau neste caso é de –8,8, situando–se à esquerda do valor crítico de

1%. Logo, rejeitamos a hipótese nula de raiz unitária. Com o gráfico e o teste indicando

ausência de tendências, não é necessário diferenciar–se mais uma vez a série. Podemos

parar aqui e concluir que a série original da figura 4.a) é um processo I(1).

A série da figura 4.b) foi gerada como uma diferença estacionária, logo como

uma tendência estocástica mais uma tendência determinística linear. Por isso, o gráfico

da série sugere nitidamente a presença de uma tendência determinística. Neste caso,

usamos a opção 3 para aplicar o teste ADF. O resultado é uma estatística–tau de –2,33,

logo à direita do nível de significância de 10%, nos levando à não–rejeição da hipótese

nula de raiz unitária. Consoante, portanto, com um processo com tendência estocástica

mais tendência determinística linear.

Novamente, o teste ADF não indica o grau de integração da série, apenas que a

mesma possui uma raiz unitária. Para verificar se há mais raízes unitárias, deve–se

diferenciar a série e repetir o teste. O gráfico da figura 4.d) mostra a série da figura 4.b)

diferenciada. Nítidamente, o gráfico sugere uma série estacionária, portanto aplicamos o

teste ADF com a opção 2. O resultado é uma estatística–tau de –8,54, situada à esquerda

do nível de significância de 1%, que nos indica a rejeição da hipótese nula de raiz

unitária. Com a rejeição da hipótese nula sob a opção 2 do teste ADF, somos levados a

concluir que a série é um processo estacionário sem tendência alguma e que não é

necessário diferenciar–se mais uma vez a série. Concluímos, então, que a série da figura

4.b) segue um processo I(1).

Exemplo 3: Exportações brasileiras (índice de quantum)

Agora, apresentamos a aplicação do teste ADF para uma série real. A figura 6.a)

apresenta a série anual do índice de quantum das exportações brasileiras no período que

vai de 1950 a 2007, compondo um total de 58 observações. É nítido o comportamento

fortemente ascendente da série a ponto de esta aparentar um comportamento explosivo.

Ao invés de trabalharmos diretamente com esta série13

, optamos por trabalhar com sua

versão em log neperiano, a qual é muito usada em estudos econométricos voltados para

estimação de elasticidades das exportações. A série em log está apresentada na figura

6.b). Ela manifesta um comportamento ascendente que aparenta ser produzido por uma

tendência determinística linear. Diante disso, o uso do teste ADF servirá para detectar se

a série possui adicionalmente uma tendência estocástica (diferença estacionária) ou

somente a tendência determinística linear mais um erro estacionário (tendência

estacionária).

a) Dados brutos Log neperiano

Figura 6 – Índice de quantum (base 2005=100) das exportações brasileiras 1950–2007.

Fonte: Série elaborada pelo IPEA com dados da Funcex (1973–2007) e do IBGE (1950–

1972).

O teste ADF foi aplicado sob a opção 3 de intercepto mais termo de tendência,

que é a adequada nesse caso. A busca pelo lag–máximo dos termos defasados da

variável dependente, a serem usados como variáveis explicativas na estimação da

equação de teste, indicou que nenhum lag seria preciso. O resultado obtido foi uma

estatística tau–tau de –3,727, que se localiza entre o valor crítico de –4,124,

correspondente a 1% de nível de significância, e o valor crítico de –3,489,

correspondente a 5%. Assim, rejeitamos a hipótese nula a 5% e concluímos que a série

segue um processo do tipo tendência estacionária. Neste caso, não se faz necessário

testar para a primeira diferença da série.

13.3 Teste de Phillips–Perron

Phillips(1987) e Phillips e Perron (1988) propuseram outro teste de raiz unitária

que generaliza o teste ADF para uma ampla classe de modelos em que os erros tu na

equação (49) são autocorrelacionados e heterogeneamente distribuídos. Ele é conhecido

Este comportamento explosivo da série original poderia decorrer da presença de mais de uma raiz

unitária: por exemplo, série poderia seguir um processo I(2). No entanto, o que ocorre de fato é um

aumento muito intenso da variância da série. O uso da série em log, neste caso, permite aproximar melhor

o comportamento de um processo diferença estacionária ou I(1), que no entanto acabou sendo rejeitado

no teste ADF em favor de uma tendência estacionária.

50 55 60 65 70 75 80 85 90 95 00 05

como teste de Phillips–Perron ou, abreviadamente, teste PP. Essencialmente, o

procedimento do teste PP é o mesmo que o do teste ADF e envolve a estimação da

equação (49) para cômputo das estatísticas de teste, introduzindo apenas uma

modificação nas últimas. Neste sentido, ele permite as mesmas três opções em que

testa–se 0:0 H (uma raiz unitária) contra a alternativa 02:1 H (sem raiz

unitária). Na primeira opção, considera–se um modelo para tY sem constante (i.e.,

constante nula), logo ttt uYY 1 ; na segunda, considera–se a possibilidade de uma

constante não nula, logo ttt uYaY 1 e na terceira admite–se também um termo

de tendência ttt uYbtaY 1 . Nos três casos, tanto a hipótese nula quanto a

alternativa são interpretadas da mesma maneira que antes no que concerne à presença

ou ausência de tendências determinística e estocástica, conforme descrito em detalhe na

seção 4.2.

Para permitir situações mais abrangentes para o termo de erro e também

desenvolver uma teoria assintótica de teste conveniente, o teste PP difere do teste ADF

em dois aspectos principais. O primeiro é que as fórmulas das estatísticas de teste em

cada situação são diferentes das fórmulas da estatística–tau do teste ADF. As expressões

para as estatísticas do teste PP são:

Opção 1: s

Opção 2: s

Opção 3: s

De forma análoga ao teste ADF, essas estatísticas são obtidas a partir da estimação por

MQO das equações de teste correspondentes a cada opção, mas sem os termos

defasados na variável dependente. Isto é, a partir da estimação de expressões como

(51), (52) e (54), respectivamente. Assim, no lado direito das expressões (61), (62) e

(63), as estatísticas , e foram obtidas como em (52), (54) e (56). O termo

s é o

erro–padrão do estimador de MQO para . O termo s2 é a variância residual da

regressão de teste e corresponde a um estimador consistente da variância do erro tu sob

a hipótese de que este segue um processo ruído branco.

O termo 2ˆTl é um estimador consistente da variância do erro tu sob a hipótese de que

este é estacionário fraco mas admitindo condições mais genéricas de autocorrelação e

heterogeneidade do processo estocástico que gera esses erros. Este termo é o único

componente que não é calculado diretamente das equações de teste estimadas e o

aspecto mais complexo das expressões (40), (50) e (51) envolve justamente o seu

cômputo. Phillips e Perron se baseiam no fato de que a variância assintótica neste caso

é dada por:

)0(22uTl f

Onde )0(uf é o valor do espectro de potência do erro tu na frequência zero14

. Dado

este fato, os autores sugerem o uso de procedimentos disponíveis na literatura de análise

de séries temporais para estimação consistente do espetro de potência e recomendam,

para os três casos, que se use a seguinte expressão:

ttTl uuwu

22 ˆˆ2ˆ1

Onde tu são os resíduos da regressão correspondente a cada opção. O termo wsl,

s = 1,...,l, referese a um conjunto de pesos que constitui a janela de defasagem (lag

window) usada para suavizar as estimativas do espectro. Phillips e Perron apontam que

há vários tipos de janelas (métodos para determinar os pesos) que podem ser usadas,

como as janelas triangular (ou de Bartlett), de Parzen e de Newey West. Nos softwares

computacionais, usualmente são dadas opções ao usuário de escolher a janela de

defasagem para estimação do espectro.

Note que cada estatística Z também é uma função da estatística–tau

correspondente. O procedimento que Phillips e Perron seguiram para obter as

estatísticas–Z das expressões (61), (62) e (63) consiste de uma correção não–

paramétrica das correspondentes estatísticas–tau e isso nos leva ao segundo aspecto

diferente. Como já foi dito, uma vantagem do teste PP é que as estatísticas de teste

foram desenvolvidas assumindo–se uma estrutura mais geral para os processos com raiz

unitária representados no âmbito das equações de teste. Assim, o teste PP admite que Yt

possa seguir uma classe mais ampla de processos estocásticos não estacionários

incluindo modelos ARIMA apresentando erros autocorrelacionados e distribuídos de

forma heterogênea. É por esse motivo (de que as estatísticas–Z já incorporam essas

possibilidades inclusive a autocorrelação dos erros) que a equação de teste pode ser

estimada sem os termos defasados em tY , o que era necessário antes no caso do teste

Há, no entanto, um aspecto comum a ambos os testes ADF e PP que é muito

vantajoso em termos práticos. Embora as estatísticas–Z de Phillips e Perron sejam

diferentes das correspondentes estatísticas–tau de Dickey e Fuller, elas apresentam a

mesma distribuição limite sob a hipótese nula de raiz unitária. Assim, o teste PP pode

ser aplicado de forma muito similar e até mesmo mais simples do que o teste ADF.

Podem ser seguidos os mesmos passos da seção 4.2.5, mas sem a necessidade de se

determinar um lag máximo para a equação de teste. Para cada opção do teste, estima-se

a equação de teste sem defasagens da variável dependente e simplesmente calcula–se a

estatística–Z correspondente, segundo as expressões (61), (62) e (63). No momento de

se decidir pela rejeição ou não da hipótese nula de raiz unitária, usa–se os mesmos

valores críticos da distribuição de Dickey e Fuller.

A tabela 2 apresenta os resultados da aplicação do teste PP para as mesmas

séries simuladas dos exemplos 1 e 2. Esta tabela está organizada de modo muito

parecido com a tabela 1 para facilitar a comparação dos resultados. A única diferença

entre ambas é que a tabela 2 não inclui a coluna de lag–máximo (pelas razões

Não cabe neste texto introdutório entramos em maiores detalhes sobre estimação de espectros de

potência. Recomendamos ao leitor interessado o livro de Chatfeld (1995), onde há uma boa exposição

introdutória sobre o assunto.

explicadas no parágrafo acima) e há uma coluna com o título “Est–Z”, contendo os

números obtidos para as estatísticas–Z do teste PP, no lugar da coluna com o título

“Tau”, contendo as estatísticas–tau do teste ADF, que havia na tabela 1. A tabela 2

também apresenta uma última coluna contendo os valores de prova associados às

estatísticas–Z e que também foram calculados com base no mesmo método descrito em

MacKinnon(1996).

Os resultados do teste PP aplicado às séries simuladas são muito similares aos do

teste ADF e levam às mesmas decisões no que concerne à rejeitar/não–rejeitar H0.

Observe os resultados para as séries das figuras 2.a) e 2.b), que foram simuladas

segundo um processo sem raiz unitária. O teste PP rejeita a nula de raiz unitária nos dois

casos, mas desde, obviamente, que a opção correta tenha sido escolhida. Assim, quando

se usa a opção 2 com constante na equação de teste, o teste PP rejeita a 1% de

significância a presença de raiz unitária na série da figura 2.a). O mesmo acontece

quando se usa a opção 3, com constante mais tendência determinística linear, para a

série da figura 2.b). Note que, no caso desta última série, o teste PP não rejeita a nula

nem mesmo a 10% de significância se usamos a opção 2 (incorreta).

No caso das séries das figuras 3.a), 3.b), 4.a) e 4.b), que foram simuladas

segundo processos com raiz unitária, o teste PP não rejeita a hipótese nula de raiz

unitária em todos os casos, nem mesmo a 10% de significância. As estatísticas–Z ficam

acima do valor crítico respectivo nesses casos, mas, novamente, salientamos que isso

acontece porque foram usadas as opções corretas do teste. No caso das figuras 3.a) e

4.a), que não possuem tendência determinística, usou–se a opção 2 do teste PP. No caso

das séries das figuras 3.b) e 4.b), que embutem uma tendência determinística, foi usada

a opção 3. Por último, observe que o teste PP rejeita a nula para as séries diferenciadas

dessas quatro figuras, isto é, que estão plotadas nas figuras 4.c) e 4.d), respectivamente.

Usando a opção 2 para todas essas séries, a hipótese nula de raiz unitária é rejeitada até

mesmo a 1% de significância. Consequentemente, para todas essas séries das figuras 3 e

4, valem as interpretações feitas antes sobre a presença ou não de termos de tendência

determinística linear e/ou estocástica.

O teste PP também corrobora as conclusões do teste ADF no caso da série real

da figura 6.b) e que corresponde ao log neperiano do índice de quantum das exportações

brasileiras. O valor da estatística–z, calculada segundo a opção 3 do teste, é de –3,91 e

situa–se entre o valor crítico de 1% e o de 5% de significância, replicando assim o

mesmo resultado do teste ADF. Portanto, também pelo teste PP, podemos decidir pela

rejeição da hipótese nula de raiz unitária a 5% de significância, concluindo que a série

representativa do quantum das exportações brasileiras (em log) foi gerada por um

processo do tipo tendência estacionária.

Tabela 2. Teste de raiz unitária de Phillips–Perron para séries simuladas

Série Var. Teste de Phillips–Perron

Opção Est–Z 1% 5% 10% V. Prova

Fig. 2a Yt cte –7,72 -3,46 -2,88 -2,57 0,00

Fig. 2b Yt cte –0,34 -3,46 -2,88 -2,57 0,92

Fig, 2b Yt cte+tend –7,94 -4,01 -3,43 -3,14 0,00

Fig. 3a Yt cte –1,56 -3,46 -2,88 -2,57 0,50

Fig. 3b Yt cte+tend –2,06 -4,00 -3,43 -3,14 0,57

Fig. 4a Yt cte –1,19 -3,46 -2,88 -2,57 0,68

Fig. 4c Yt cte –8,71 -3,46 -2,88 -2,57 0,00

Fig. 4b Yt cte+tend –2,00 -4,01 -3,43 -3,14 0,60

Fig. 4d Yt cte –8,66 -3,46 -2,88 -2,57 0,00

Notas: cte = com constante, tend = com termo de tendência. Est–Z = estatística Z() ou Z(), dependendo da opção utilizada (no cálculo dessas estatísticas foi usado o método de Bartlett

para estimação do espectro de potência com janela de defasagem de Newey–West). O cálculo

dos valores de prova foram feitos por procedimento descrito em McKinnon(1996).

13.4 Teste DF–GLS

Um importante critério pelo qual estatísticos e econometristas avaliam a

qualidade de um procedimento de teste estatístico de hipótese é o conceito de poder. O

poder de um teste refere–se à probabilidade de rejeitar H0 para um dado valor do

parâmetro de interesse. Por exemplo, quando testamos 1:0 H , o poder do teste

refere–se a probabilidade de rejeitar H0 dado que o verdadeiro valor de é um número

qualquer * R. Se esse número * for diferente de 1, o poder do teste neste caso é a

probabilidade de rejeitar 1:0 H dado que H0 é falsa. Nem sempre é possível

estabelecer com precisão o poder de um teste estatístico, mas quando é possível temos

uma base importante de comparação desse teste com outros feitos para testar a mesma

H0. O teste que apresentar maior poder, sob as mesmas condições, é considerado o

melhor, pois nos leva com mais segurança à decidir corretamente pela rejeição de H0

quando ela for falsa. Um problema dos testes ADF e PP é o baixo poder que os mesmos

apresentam e em particular quando o processo gerador da série é estacionário (portanto

quando H0 é falsa) mas está próximo de apresentar uma raiz unitária. Isso acontece

quando o parâmetro é menor do que 1 mas está próximo de 1, ou, de forma

equivalente, quando o parâmetro é menor do que 0 mas está próximo de 0. Nessa

situação, o processo gerador da série é dito quase–integrado (near integrated) e os testes

ADF e PP apresentam baixa probabilidade de rejeitar H0.

No trabalho de Elliot et all (1996), os pesquisadores Elliot, Rottemberg e Stock

(doravante chamados de ERS) introduzem dois testes de raiz unitária que apresentam

vantagens significativas em termos de poder se comparados aos testes ADF e PP.

Ambas as abordagens seguem a mesma estrutura do teste ADF, onde se assume a

hipótese nula de raiz unitária no âmbito da equação de teste (45) e de acordo com as

mesmas três opções. A primeira abordagem de ERS é baseada no uso das estatísticas de

Dickey–Fuller, porém calculadas de um modo diferente que envolve um procedimento

intermediário de estimação por mínimos quadrados generalizados (em inglês

generalized least squares – GLS). Por esse motivo, o procedimento desta primeira

abordagem é chamado de teste DF–GLS. A segunda abordagem é baseada na teoria de

testes ótimos em inferência estatística e sobre ela falaremos mais adiante na seção 4.5.

Processo para Yt

ERS assumem que o processo gerador da série é dado por:

ttt udY (65)

ttt vuu 1 (66)

onde Yt é a variável de interesse, dt é um termo determinístico, ut é um termo aleatório

que segue um processo AR(1) e vt é um processo I(0) com média nula. ERS assumem

na primeira abordagem que vt é normalmente distribuído e segue uma estrtura AR(p). O

termo determinístico admite três possibilidades:

Opção 1: 0td (67)

Opção 2: 0td (68)

Opção 3: tdt 10 (69)

Onde 0 e 1 são constantes e t é a variável tempo. O objetivo de ERS é testar a

hipótese nula 1:0 H , correspondente à presença de uma raiz unitária em Yt, contra a

alternativa 1|:|0 H , correspondente a Yt estacionário. Note que embora apareça

somente na equação (54) para tu , o modelo para Yt representado pelas equações (65)–

(69) é o mesmo que foi usado nos testes ADF e PP e que corresponde à equação (57).

Para ver isso, perceba que o processo para Yt descrito nas expressões (65) e (66) é o

mesmo usado para caracterizar tY e tZ nas equações (41) e (42), que deram origem à

representação geral da equação (44). Se procedermos de forma análoga agora, isto é, se

fizermos algumas manipulações algébricas, como resolver a equação (65) para tu e

depois substituir na equação (66), obteremos, para cada opção, as seguintes

representações do processo para tY :

Opção 1: ttt vYY 1 (70)

Opção 2: ttt vYY 10 )1( (71)

Opção 3: ttt vYtY 1110 )1()1( (72)

Ou seja, obtemos em cada opção um caso particular da equação (44) correspondente à

representação geral de processos com raiz unitária para Yt. Fica claro nas expressões

(70)–(72) que o processo para Yt apresentará uma raiz unitária se 1 e nenhuma raiz

unitária se 1|| . Indo um pouco mais além, se subtrairmos 1tY de cada uma das

expressões, obtemos:

Opção 1: ttt vYY 1 (73)

Opção 2: ttt vYaY 1 (74)

Opção 3: ttt vYbtaY 1 (75)

Onde 1 , )1(0 a , 10 )1( a e )1(1 b . Portanto, o

objetivo de ERS é equivalente a testar a hipótese nula 0::0 H contra a alternativa

02::0 H nas três opções. Isso deixa claro que o teste DF–GLS usa a mesma

estrutura do teste ADF, na medida em que admite que o processo estocástico para tY

descrito em (65)–(66) equivale à expressão (57) de forma que a equação de teste:

na opção 1, não possua constante nem termo de tendência;

na opção 2, possua só constante;

na opção 3, possua constante mais um termo de tendência determinística linear.

Assim, cada opção do teste DF–GLS também permite interpretar as hipóteses nula e

alternativa da mesma forma no que concerne à presença/ausência de tendências

determinísticas e estocásticas. Veja o quadro 1.

Porém, de forma diferente, o teste DF–GLS considera no lugar da variável tY

uma transformação da mesma que é livre das influências dos termos determinísticos

representados pela constante e o termo de tendência. Ao fazerem isso, na prática ERS

não alteram o procedimento do teste ADF para a opção 1 (sem constante e sem

tendência determinística linear), mas só para as opções 2 e 3. Assim, é importante

observar que é apenas sobre as duas últimas opções que incide o procedimento

alternativo proposto por ERS segundo o teste DF–GLS. Em ultima instância, esse

procedimento alternativo vai implicar num modo diferente de construção da estatística

de teste nessas duas últimas opções.

Estatística do teste DF–GLS

No intuito de construir a variável tY transformada e obter as estatísticas de

testes em cada opção, ERS seguem um conjunto de passos descritos a seguir. O

primeiro passo envolve computar por MQG, ao invés de MQO, uma das seguintes

regressões para a primeira equação do processo considerado para Yt:

Opção 2: tt vY ˆˆ*0

* (76)

Opção 3: tt vtY ˆˆˆ *1

* (77)

e )1(ˆˆ

O procedimento adotado aqui é do tipo MQG porque regride–se a diferença

generalizada de Yt, representada pela variável Yt*, contra uma constante (opção 2) ou

contra uma constante mais a diferença generalizada da variável t (opção 3), representada

por t*. O objetivo de realizar uma das regressões acima consiste em obter estimativas

eficientes de 0 e 1 . Na presença de erros autorregressivos de ordem 1, conforme a

equação (66), o estimador de MQO deixa de ser eficiente e neste caso pe vantajoso usar

o estimador de MQG15

. No caso de se usar a opção 1 do teste, em que 0td ,

obviamente não é necessário estimar qualquer parâmetro e portanto não se aplica

regredir a primeira equação por MQG. Há um detalhe importante, porém, na estimação

por MQG feita em (76) e (77) que é o fato de que algum valor precisa ser assumido para

, uma vez que é um parâmetro desconhecido. ERS assumem um valor que é

determinado segundo a expressão:

c1 (78)

onde c é uma constante pré-fixada. O valor desta constante é negativo e é escolhido de

forma que seja um valor menor mas não muito distante de 1 (daí ERS chamarem o

termo de “alternativa local ao ponto”, no caso, ao ponto 1 ) e vai ficando cada

vez mais próximo de 1 quanto maior for o tamanho T da série. ERS mostram que usar

os valores 7c para a opção 2 e 5,13c para a opção 3 promove máxima

vantagem em termos de poder do teste. Em suma, os valores de são determinados de

acordo com:

Opção 2: T

71 (79)

Opção 3: T

5,131 (80)

O segundo passo envolve usar os parâmetros 1*

00 )1(ˆˆ e 1 estimados

por MQG para “expurgar” de tY os efeitos do termo determinístico td . Isso é feito

computando–se:

Opção 2: 0 td

t YY (81)

Opção 3: tYY td

t 10ˆˆ (82)

O último passo consiste de substituir d

tY no lugar de tY na equação de teste, isto é:

dt YYY

11 (83)

Para então estimá–la por MQO e computar a razão:

Opção 2: ˆ

ˆ st (84)

O leitor pode encontrar boas explicações sobre o método de MQG (GLS) , por exemplo, em Johnston e

Dinardo (1997).

Opção 3: ˆ

ˆ st (85)

Onde representa o estimador de MQO para e

s o erro–padrão de . Note que não

se coloca na equação (83) nem o termo constante e nem o termo de tendência (i.e., tal

como esses aparecem no modelo (57)). Faz–se assim porque os efeitos desses termos

(dada a opção do teste escolhida) já foram removidos pelo procedimento de cômputo de d

tY , como descrito acima. Note também que, em decorrência disso, t e t possuírão

valores diferentes de ou porque foram construídas por procedimentos diferentes.

ERS apontam que, na opção 2 só com constante, a estatística t possui a mesma

distribuição limite que , isto é, a distribuição de Dickey-Fuller. No entanto, na opção

3 com constante e tendência determinística linear, a distribuição limite é diferente. Os

autores usam procedimentos de Monte Carlo e tabulam os valores críticos neste caso

(ver a tabela 1 do apêndice, reproduzida do artigo de Elliot e al, 1996).

A tabela 3 apresenta os resultados da aplicação do teste DF–GLS nas mesmas

séries simuladas das figuras 2, 3 e 4. Esta tabela está organizada da mesma forma que a

tabela 1 para o teste ADF, o que permite uma comparação fácil entre os resultados de

ambos os testes e também com os do teste PP. Nesse sentido, fica fácil perceber que as

conclusões obtidas em termos de rejeitar/não rejeitar a hipótese de raiz unitária no caso

do teste DF–GLS são as mesmas que as dos testes ADF e PP. Isso era esperado, dado

que os procedimentos usam uma mesma estrutura de teste com a mesma finalidade

(testar a presença de uma raiz unitária) e as séries foram simuladas de forma bem

comportada.

No entanto, vale tecer algumas observações quanto aos números na tabela 3. O

procedimento do teste DF–GLS, assim como o teste ADF, também envolve determinar

antes um lag–máximo para a estatística de teste. Os valores de lag–máximo da tabela 3

em geral são os mesmos obtidos no teste ADF. Em geral, os valores da estatística–tau

são mais próximos de zero se comparados aos correspondentes do teste ADF na tabela

1. Isso também vale para os valores críticos de 1%, 5% e 10%. Esse aspecto se justifica

por razões técnicas que fogem ao escopo deste texto e que decorrem da preocupação de

ERS em construir uma opção alternativa do teste ADF que apresentasse maior poder.

Não são apresentados na tabela 3 os valores de prova, porque o software utilizado para

produzir a tabela 3 não os computa. Mesmo assim, mantivemos a coluna de valor de

prova nessa tabela para salientar essa diferença em relação aos procedimentos

anteriores.

Tabela 3. Teste de raiz unitária DF–GLS para séries simuladas

Série Var. Teste DF–GLS

Opção Lag-Máx Tau 1% 5% 10% V. Prova

Fig. 2a Yt cte 0 -7.62 -2.58 -1.94 -1.62 –

Fig. 2b Yt cte 3 -2.71 -2.58 -1.94 -1.62 –

Fig. 2b Yt cte+tend 0 -7.96 -3.46 -2.93 -2.64 –

Fig. 3a Yt cte 0 -0.98 -2.58 -1.94 -1.62 –

Fig. 3b Yt cte+tend 0 -1.28 -3.46 -2.93 -2.64 –

Fig. 4a Yt cte 2 -0.26 -2.58 -1.94 -1.62 –

Fig. 4c Yt cte 1 -4.74 -2.58 -1.94 -1.62 –

Fig. 4b Yt cte+tend 1 -2.23 -3.46 -2.93 -2.64 –

Fig. 4d Yt cte 0 -7.50 -2.58 -1.94 -1.62 –

Notas: Var. = variável; cte = com constante; tend = com termo de tendência; Lag–Máx = defasagem

máxima da variável dependente na equação de teste. Tau = estatística–, u ou , dependendo da

opção utilizada.

13.5 Teste Ponto-Ótimo de ERS

No mesmo paper em que apresentam o teste DF–GLS, ERS propõem outro

procedimento para testar a presença de uma raiz unitária. Conhecido como teste ponto–

ótimo de ERS, esse outro procedimento segue usando a estrutura de três opções do

teste ADF, como fizeram os outros testes que vimos até aqui, mas tem a vantagem de

apresentar poder ainda maior do que o DF-GLS, inclusive sob circunstâncias em que a

serie testada é estacionária mas tem raiz próxima de um. Chamaremos este segundo

procedimento de teste ERS–PO e vejamos como ele funciona.

Inicialmente, ERS continuam assumindo que o processo gerador de Yt é dado por

(53)–(54) e segundo as três opções para o termo determinístico dt apresentadas em (55)–

(57). Assim, o teste ERS–PO vai continuar usando mesma a estrutura do teste ADF, de

forma que, em cada opção, as hipóteses nula e alternativa também são interpretadas da

mesma forma no que concerne à presença/ausência de tendências determinísticas e

estocásticas. Isso torna a aplicação do teste ERS–PO bem fácil, embora como dissemos

no caso do teste DF–GLS, aqui também há aspectos mais complexos, em particular na

construção da estatística de teste, cujo desenvolvimento de uma intuição adequada foge

ao nível pretendido para este texto. Por isso, nos limitaremos a seguir a apresentar os

passos essenciais envolvidos na contrução da estatística do teste ERS–PO. Ao final da

seção, um passo-a-passo de implementação do teste será apresentado.

Estatística do Teste ERS–PO

A principal diferença do procedimento de ERS–PO em relação aos anteriores

reside na forma de computar a estatística de teste. O primeiro passo é o mesmo que no

caso do teste DF-GLS, isto é, envolve computar por MQG uma das seguintes regressões

para a primeira equação do processo considerado para Yt, como em (64) e (65). No

entanto, o objetivo agora é diferente e consiste em obter duas sequências de resíduos tv ,

uma sob a hipótese e outra sob 1 . No caso de se usar a opção 1 do teste, em

que 0td , obviamente não é necessário estimar qualquer parâmetro e portanto não se

aplica regredir a primeira equação por MQG. No entanto, neste caso pode-se computar

os resíduos como 1ˆ

ttt YYv e 1ˆ

ttt YYv . O valor de é determinado

previamente ao cômputo das regressões, segundo as expressões (67) e (68):

Num segundo passo, ERS computam a seguinte estatística:

Opção 1:

)]1()(

Opção 2:

)]1()(

Opção 3:

)]1()(

Onde )(S e )1(S representam a soma dos quadrados dos resíduos tv de acordo com a

opção escolhida do teste e segundo cada hipótese e 1 , respectivamente. A

fim de facilitar a comparação com as estatísticas dos outros testes apresentados

anteriormente, pusemos os subscritos e nas opções 2 e 3 de TP .

O termo 2 que aparece no denominador das três estatísticas demanda outro

conjunto de procedimentos para ser calculado. Esse termo representa algum estimador

consistente da variância de longo prazo de tv , a qual também chamamos anteriormente

de “valor do espectro de potência na frequência zero”16

, quando estudamos o teste PP.

ERS sugerem dois modos de se calcular 2 : o primeiro é adequado quando se tem

conhecimento de uma estrutura AR(p) para vt:

ˆˆ (89)

Onde 2ˆ é a variância residual e ia ( pi ,,1,0 ) as estimativas de MQO dos

parâmetros da regressão:

tptptttt yayayayay 221110 (90)

Por esse motivo, esses estimadores são também chamados de estimadores espectrais.

Onde t é um termo de erro sem correlação serial.

O segundo modo de calcular 2 é adequado para hipóteses mais gerais para a

estrutura de vt (como modelos ARMA(p,q) ou mesmo GARCH) e consiste de uma soma

ponderada de autocovariâncias (que ERS chamam simplesmente de “soma de

covariâncias” - SC):

lmTSC mlmK

T)(ˆ)/(

1ˆ2 (91)

)(ˆmT

tmttee

Tm TT llm ,,0,, (92)

onde K(,) é a janela de defasagem de Parzen (que representa os pesos da soma) e )(ˆ m

é a autocovariância amostral de lag m dos resíduos te . O termo lT determina a “largura

de banda” da soma, isto é, o número de defasagens incluídas no cômputo de K(,).

Observe, porém, que o cálculo da covariância amostral )(ˆ m usa resíduos diferentes

dos resíduos tv , por isso são definidos com a letra “e” . Os resíduos te são obtidos a

partir da estimação por MQO de uma das seguintes regressões:

Opção 1: ttt eYY ˆˆ

1 (93)

Opção 2: ttt eYY ˆˆˆ10 (94)

Opção 3: ttt eYtY ˆˆˆˆ110 (95)

Note que essas regressões diferem ligeiramente das que foram usadas para gerar os

resíduos tv porque agora coloca-se o termo defasado 1tY como mais uma explicativa

nas equações e essas são estimadas por MQO ao invés de MQG. Portanto, não se faz

uso aqui das hipóteses e 1 , ao invés disso deixa-se o método estimar

livremente um valor de através do cômputo de .

Isso resume os procedimentos para cômputo da estatística de teste, segundo uma

das opções: TP , TP , ou TP , . Nos três casos, a estatística assume sempre valores

positivos e ERS mostram que, sob a condição de fixo e 1|| (ou seja, ut

estacionário) , elas convergem em probabilidade para 0 quando T tende a infinito.

Quanto maior o valor, mais evidência a favor da hipótese nula de raiz unitária. Quanto

menor, mais evidência a favor da hipótese alternativa de ausência de raiz unitária. A

decisão de se rejeitar ou não a hipótese nula de raiz unitária é feita pela comparação

com o valor crítico )(, TT pp , no caso das opções 1 e 2, ou )(, TT pp , no caso da

opção 3, onde é o nível de significância escolhido. Se TT pP , rejeita-se H0; do

contrário, não rejeita-se.

Passo a passo do teste ERS

Em termos práticos, o teste de ERS aplica-se de forma bem semelhante aos

testes de raiz unitária apresentados anteriormente, sendo importante no entanto atentar

para seus detalhes específicos. Os passos para implementação do teste são descritos a

seguir:

1. Análisar o gráfico da série e escolher a opção do teste (o que envolve também

determinar o valor de 7c ou 5,13c );

2. Computar a estatística de teste:

a. Executar a regressão correspondente por MQG, segundo (76) ou (77),

para obter sequências de resíduos tv sob hipóteses e 1 ;

b. Calcular )(S e )1(S ;

c. Escolher o método para computar 2 :

i. Se escolher 2ˆAR , então determinar um valor de p, estimar por

MQO a equação (90) para computar 2ˆ e ia ( pi ,,1,0 ) e na

sequência computar 2ˆAR , segundo (89);

ii. Se escolher 2ˆS C , regredir por MQO uma das equações (93), (94)

ou (95); depois escolher o lag máximo Tl e usar junto com te

para computar 2ˆS C , segundo (91) e (92);

d. Computar a estatística: TP , TP , ou TP , ;

3. Aplicar regra de decisão: Se TT pP , rejeita-se H0; do contrário, não rejeita-se.

A tabela 4 apresenta os resultados da aplicação do teste ERS–PO às séries simuladas.

Esta tabela está organizada como a tabela 2 do teste PP, isto é, sem a coluna de lag–

máximo e sem a coluna de valor de prova. Todos os resultados para a estatística PT

foram calculados assumindo–se a fórmula (95) de cálculo do denominador pela método

das somas de covariâncias com a janela de Parzen e com a seleção da largura de banda

pelo método de Newey–West (1987). Neste caso, o teste ERS–PO, assim como o teste

PP, não prescinde do cômputo de um lag–máximo para a equação de teste, que no caso

consiste de uma das expressões (73)–(75). O software utilizado não computa os valores

de prova para este teste.

Para todas as séries, o teste ERS–PO leva às mesmas conclusões no que

concerne à rejeição ou aceitação de H0 que os testes anteriores. Esse resultado era

naturalmente esperado, dado que as séries foram simuladas de maneira “bem

comportada” segundo padrões desejados. Repare que os valores das estatísticas de teste

reportadas são todos positivos, devido às características específicas da estatística de

teste desenvolvida por ERS para o teste ponto–ótimo. Valores muito próximos de zero

lervaram à rejeição da hipótese de uma raiz unitária e valores altos à não rejeição. foram

usadas apenas as opções 2 (constante) e 3 (constante+tendência) do teste, dependendo

da característica da séries de parecer não embutir ou embutir uma tendência

determinística, respectivamente. Os valores críticos reportados de 1%, 5% e 10% são

próprios para as estatísticas porque a estatística de teste TP , segue uma distribuição

diferente da de Dickey–Fuller.

Tabela 4: Teste ponto–ótimo de Elliot, Rotemberg e Stock

Série Variável Teste ponto–ótimo de ERS

Opção PT 1% 5% 10%

Fig. 2a Yt cte 0,50 1,91 3,17 4,33

Fig. 2b Yt cte 513,13 1,91 3,17 4,33

Fig. 2b Yt cte+tend 1,30 4,05 5,66 6,90

Fig. 3a Yt cte 12,25 1,91 3,17 4,33

Fig. 3b Yt cte+tend 23,14 4,05 5,66 6,90

Fig. 4a Yt cte 48,53 1,91 3,17 4,33

Fig. 4c ∆Yt cte 0,51 1,91 3,17 4,33

Fig. 4b Yt cte+tend 11,67 4,05 5,66 6,90

Fig. 4d ∆Yt cte 0,43 1,91 3,17 4,33 Fonte: Cálculos feitos a partir de dados simulados pelo autor usando o software Eviews

7.0. Notas: cte = com constante, tend = com termo de tendência. PT = estatística de teste

utilizada, podendo PT ou PT, dependendo da opção utilizada. O método de estimação

da variância de longo–prazo foi a fórmula do espectro de potência na frequência zero

suavizado com a Janela de Parzen. A largura de banda da janela seguiu o método de

Newey–West.

A aplicação do teste ERS–PO à série também nos leva à mesma conclusão que

os testes anteriores, isto é, que a mesma apresenta uma raiz unitária acompanhada de

uma tendência determinística. O valor obtido para a estatística PT foi 37,62, situando–

se à direita dos valores críticos 4,22 (1% de sig.), 5,71 (5% de sig.) e 6,77 (10% de sig.).

13.6 Teste ADF com Sazonalidade

Nesta sub-seção, voltamos a falar do teste ADF. Com muita frequência, os dados

para nossas séries econômicas de interesse estão disponíveis em forma intra-anual, quer

dizer, mensal, bimestral, trimestral, quadrimestral ou semestral. Nesses casos, é natural

que as séries econômicas apresentem sazonalidade. É preciso então que esse aspecto

seja incorporado num procedimento de teste de raiz unitária para que ele possa detectar

adequadamente a presença ou ausência da raiz unitária e o tipo de processo estocástico

que está gerando a série. No caso do teste ADF, é possível usá-lo de forma bem fácil

quando as séries econômicas de interesse apresentarem sazonalidade. O procedimento

do teste continua basicamente o mesmo, sendo preciso apenas introduzir variáveis

dummies sazonais na equação de teste aumentada (57) para modelar o componente de

sazonalidade. Dickey e Miller (1986) mostraram que esse procedimento não afeta a

distribuição limite das estatísticas-tau e, consequentemente, elas podem ser usadas da

mesma maneira que antes, assim como as tabelas de valores críticos para as mesmas.

Considere a equação geral de teste aumentada da expressão (57) re-escrita como

segue:

jjtjtst

sst uYYDcbtaY

Onde Dst representa a dummy sazonal do período s (mês, bimestre, etc.), valendo,

portanto, 1 nesse período e 0 nos demais. O termo S (em maiúsculas) representa o

comprimento do ciclo sazonal (12 meses, 6 bimestres, etc.). Todos os demais termos

que entram na expressão (58) continuam definidos como antes. Observe que, embora

possamos definir um total de S variáveis dummy, sempre colocamos uma a menos na

equação de regressão a ser estimada para evitar o problema de colinearidade perfeita

com a constante da equação.

Alguns autores, como Enders (....) e Johansen (....), recomendam que se use

variáveis dummy sazonais centradas no lugar das variáveis dummy usuais. Isso é útil

para que, além das estatísticas de teste preservarem suas distribuições limite, as

estimativas dos demais coeficientes da equação (96) - isto é, a, b e j (j = 1,...,p) -

também não sejam afetadas pela presença das dummies sazonais. Para isso, devemos

redefnir as variáveis dummy da dequação (96) como:

stSDCst

/11 s = 1,...,S (97)

Agora, DCst representa a variável dummy sazonal centrada do período sazonal s. Assim,

uma vez incorporadas as variáveis dummy sazonais (centradas), podemos seguir os

mesmos procedimentos descritos antes para implementar o teste ADF. Continuamos

tendo três opções para o teste, onde em cada opção continuamos testando 0:0 H

(uma raiz unitária) contra a alternativa 02:1 H (sem raiz unitária) e estimando

por MQO a equação de teste de acordo com:

Opção 1: t

jjtjtst

sst uYYDCcY ˆˆˆˆ

Opção 2: t

jjtjtst

sst uYYDCcaY ˆˆˆˆˆ

Opção 3: t

jjtjtst

sst uYYDCctbaY ˆˆˆˆˆˆ

Nas três opções, continuamos computando a estatística de teste como:

Onde e

s são computados de acordo com a equação de teste respectiva. A fim de

proporcionar uma melhor intuição do procedimento, vejamos um exemplo.

Exemplo 4. Comércio de Bens de Consumo na Região Metropolitana de São Paulo

a) Nível b) Primeiras Diferenças

Figura 7. Série Mensal de Comércio de Bens de Consumo na Região Metropolitana de

São Paulo, Janeiro de 1990 a Dezembro de 2013. Índice de Faturamento Real (Base

média de 1998=100) .Fonte: Federação de Comércio de São Paulo.

A figura 7.a) mostra o gráfico de uma série de dados mensais correspondente ao

faturamento real do comércio de bens de consumo na Região Metropolitana de São

Paulo. É nítido pelo gráfico a presença de um padrão sazonal com picos bem salientes

nos meses de dezembro de cada ano e vales nos meses de janeiro ou fevereiro. É nítido

também um padrão de crescimento persistente da média da série no longo prazo. Para

ajudar a visualizar o comportamento no tempo das variações sazonais, a figura 7.b)

mostra o gráfico da série em primeiras diferenças. É possível perceber nesse segundo

gráfico, que as oscilações sazonais se mantém relativamente estáveis, apresentando

apenas um suave aumento de amplitude sazonal nos anos mais para o fim, em particular

2000 e 2001. Diante disso, optamos por trabalhar com a série bruta, sem transformação

logarítimica por exemplo. Devido ao padrão crescente exibido pela média da série no

longo prazo, optamos pela opção 3 do teste ADF e computamos por MQO a equação

(100) considerando 11 variáveis dummy (uma para cada mês do ano, começando com

janeiro, mas sem a correspondente para o mês de dezembro). Como os dados são

mensais, segue que S = 12 e isso nos leva a definir as variáveis dummy sazonais

centradas como:

stDCst

)12/1(1

Os resultados estão apresentados na tabela 4, onde denominamos a variável Yt pela sigla

90 91 92 93 94 95 96 97 98 99 00 01 02 03-80

90 91 92 93 94 95 96 97 98 99 00 01 02 03

Tabela 4. Equação de Teste com Variáveis Dummy Sazonais

Variável Dependente: Comércio de Bens de Consumo (∆CBC) RMSP

Variável Explicat. Coef. Erro-padrão Razão-t Prob.

C 5,63 2,44 2,31 0,02

t 0,04 0,02 2,18 0,03

DC1 -68,04 3,52 -19,35 0,00

DC2 -50,99 4,17 -12,24 0,00

DC3 -37,63 4,34 -8,67 0,00

DC4 -36,98 1,99 -18,60 0,00

DC5 -31,94 1,90 -16,80 0,00

DC6 -42,44 1,93 -21,95 0,00

DC7 -36,61 1,93 -18,98 0,00

DC8 -34,36 2,01 -17,05 0,00

DC9 -38,20 1,90 -20,15 0,00

DC10 -34,60 1,88 -18,45 0,00

DC11 -37,16 1,92 -19,33 0,00

CBC(-1) -0,10 0,04 -2,31 0,02

∆(CBC(-1)) -0,32 0,08 -3,90 0,00

∆(CBC(-2)) -0,12 0,08 -1,57 0,12

R2 0,93

R2-ajustado 0,93

SIC 6,43

Estatíst. ADF -2,31 Valor crítico 1 % -4,02

Valor crítico 5 % -3,44

Valor crítico 10% -3,14

Antes de computarmos a equação apresentada na tabela 4, tivemos que

determinar o lag máximo dos termos defasados da variável dependente, que no caso foi

o lag 2. Esse procedimento envolveu estimar a equação algumas vezes, começando sem

qualquer lag e aumentando progressivamente o número de lags na equação até

minimizar o critério de informação de Schwarz (SIC na tabela 4). Agora, observe que a

variável CBC(-1), correspondente a Yt-1, está destacada em negrito. A razão t calculada

para essa variável é de -2,31. Na parte inferior da tabela 4, esse valor é copiado no item

referente à estatística ADF. Logo abaixo, vêm os valores críticos associados ao tamanho

de amostra usado, de T = 165 observações. O valor de = -2,31 portanto, situa-se à

direita do valor crítico de 10%, correspondente a -3,14. Decidimos, então, pela não

rejeição da hipótese nula e admitimos que a série apresenta uma raiz unitária. Como a

opção do teste foi a opção 3, concluímos ainda que a série apresenta uma tendência

estocástica mais uma tendência determinística, quando controlamos para as influências

do component sazonal.

Neste caso, é interessante verificar se a série apresenta mais alguma raiz unitária,

o que permitirá determinar a ordem de integração da mesma. A tabela 5 apresenta

resultados para a aplicação do teste ADF considerando sazonalidade para a primeira

diferença da série de faturamento mensal de bens de consumo na RMSP. Optamos pela

opção 2 aqui porque o gráfico da série apresentado na figura 6.b) sugere a ausência de

uma tendência determinística linear na série em primeiras diferenças. Repare também

que temos de adaptar a equação de teste em (96) para refletir o fato de que agora

estamos examinando a série em primeiras diferenças, escrevendo:

Opção 2: t

jjtjtst

sst uYYDCcaY ˆˆˆˆˆ

Ou seja, na equação (99) consideramos tY2 como variável dependente no lado

esquerdo e 1 tY como variável explicativa no lado direito. Novamente, apresentamos

em negrito a razão-t, no valor de -11,99, para a variável explicativa D(CBC(-1)),

correspondente à 1 tY na expressão (99). Na parte inferior da tabela, este valor é

copiado para o lado direito da estatística ADF (tau-mi). Este valor situa-se à esquerda

do valor crítico de 1%, o que nos leva à decidir pela rejeição da hipótese nula de raiz

unitária. Assim, quando controlamos para a presença de sazonalidade e consoante com o

gráfico da figura 6.b), concluímos que a série em primeiras diferença não apresenta

tendência alguma e constitui um processo estacionário; e mais, concluímos também que

a série em nível é I(1).

Tabela 5. Equação de teste para a primeira Diferença do Comércio de

Bens de Consumo (2CBC) da RMSP com variáveis dummy sazonais

Variável Explicat. Coef. Erro-padrão Razão-t Prob.

C 0,41 0,39 1,06 0,29

DC1 -69,83 3,47 -20,14 0,00

DC2 -51,69 4,20 -12,30 0,00

DC3 -38,10 4,38 -8,69 0,00

DC4 -36,46 2,00 -18,27 0,00

DC5 -31,44 1,91 -16,48 0,00

DC6 -42,33 1,95 -21,67 0,00

DC7 -36,31 1,95 -18,66 0,00

DC8 -34,15 2,03 -16,78 0,00

DC9 -37,99 1,91 -19,84 0,00

DC10 -34,45 1,90 -18,18 0,00

DC11 -37,18 1,94 -19,13 0,00

∆(CBC(-1)) -1,53 0,13 -11,99 0,00

∆2(CBC(-1)) 0,15 0,08 1,96 0,05

R2 0,98

R2-ajustado 0,97

SIC 6,40

Estatíst. ADF -11,99 Valor crítico 1 % -3,47

Valor crítico 5 % -2,88

Valor crítico 10% -2,58

14. Comentários Finais

Este texto foi produzido com o propósito didático de introduzir de forma mais

clara e precisa alguns tópicos que são centrais no entendimento da moderna EST. Esses

tópicos dizem respeito às noções de processo integrado e de raíz unitária, assim como

aos procedimentos de teste de raiz unitária baseados na estrutura de Dickey e Fuller.

Trabalhamos numa das abordagens disponíveis para esse teste, isto é, baseada no uso da

razão t (aqui chamada de estatística ). Apresentamos uma formulação em que alguns de

seus detalhes são ignorados em outros textos didáticos, inclusive alguns livros texto.

Esses aspectos ignorados podem implicar em interpretações e aplicações incorretas do

procedimento de Dickey Fuller, como a confusão entre tendência determinística e

processo de raiz unitária e as consequências nefastas de se ignorar a presença de

sazonalidade.

Atualmente, há uma variedade de outros testes de raíz unitária disponíveis. Esses

outros procedimentos de teste são adequados seja como alternativas aos quatro

procedimentos de teste que apresentamos aqui, seja como procedimentos para situações

específicas apresentadas pelas séries. No último caso, por exemplo, são muito usados

atualmente os testes de raiz unitária na presença de quebra estrutural da série. O bom

preparo como econometrista especialista em econometria de séries de tempo depende de

se investir em aprender esses outros procedimentos de teste de raíz unitária. Esperamos

que este texto tenha servido como um startup.

Apêndice 1: Decomposição de Beveridge e Nelson

Os econometristas que estudaram fenômenos como os ciclos econômicos sempre

buscaram extrair do comportamento dinâmico de uma série temporal o componente de

tendência, para que, assim, pudessem estudar o componente de ciclo. Para séries que

seguem o processo tendência estacionária, esta decomposição é trivial e envolve subtrair

da série o componente de tendência determinística linear.

No entanto, para séries que apresentam raiz unitária, como a série que segue o

processo diferença estacionária, esse procedimento não é suficiente. Eliminase a

tendência determinística linear do comportamento da série mas permanece o

componente de tendência estocástica. A idéia da decomposição de Beveridge e Nelson

(BN) é modelar uma série não estacionária como a soma de uma tendência estocástica,

também chamado componente secular, e um componente estacionário, também

chamado de componente cíclico.

Este apêndice explica, de forma sucinta, como se procede para decompor um

processo de raiz unitária em uma parte que é tendência estocástica e outra que é um

componente cíclico estacionário, ou I(0). Para tanto, partimos da representação de um

processo de raiz unitária como:

ttt uZZ 1 (A.1)

Onde Zt representa uma variável de interesse e ut é um termo de erro estacionário, ou

I(0), com média nula. Em particular, vamos assumir que ut segue um processo

ARMA(p,q) estacionário e invertível, que pode ser representado como:

tt Bu )( (A.2)

Onde t é um erro aleatório que segue um processo ruído branco e (B) é a razão entre

os polinômio média móvel e autorregressivo:

O polinômio (B) apresenta grau infinito mas corresponde a uma série infinita

convergente, devido ao fato que os polinômios finitos de grau p, representado por (B),

e de grau q, representado por (B), ambos apresentam todas as raízes fora do círculo

unitário por hipótese. Em outras palavras, o polinômio (B) permite representar ut

como uma média móvel infinita dos erros t em (A.2). Agora, vamos definir:

)1()()(*

onde (1) representa a soma dos coeficientes da média móvel infinita dos erros t em

(A.2). Esta soma é convergente, isto é, corresponde a um número real finito, em

consequência das hipóteses adotadas até aqui. Dados todos esses elementos, podemos

então aplicar a decomposição BN. Primeiro, lembremos que nosso objetivo é

reescrever o processo para Zt em (A.1) como:

ttt wTEZ (A.5)

onde TEt representa uma tendência estocástica, ou um passeio aleatório, e wt representa

um componente cíclico estacionário, ou I(0). Esses componentes, segundo a

decomposição BN, são obtidos como:

)1( (A.6)

tt Bw )(* (A.7)

Note que iti 1 é um passeio aleatório com média nula multiplicando uma constante

finita dada por (1), daí TEt ser um passeio aleatório também. O termo dado por wt

corresponde a uma média móvel infinita dos erros t onde o polinômio média móvel,

neste caso dado por *(B), é convergente fazendo com que wt seja estacionário ou I(0).

Portanto, a decomposição BN permite representar duas situações de interesse. O

caso em que o processo estocástico para a variável de interesse Yt é de tipo raiz unitária:

ttttt wTEuYY 1 (A.8)

Neste caso, Yt não possui tendência determinística, só tendência estocástica. E o caso

em que o processo para Yt é de tipo diferença estacionária:

ttt wTETDuZZ

ZTDYuYaY

1 (A.9)

Apêndice 2: Relações entre Conceitos

Figura A2.1 Fonte: Elaboração do autor usando conceitos e definições apresentados no texto. As relações foram estabelecidas com base

na definição restrita de Engle e Granger (1987) para processo integrado. Os termos ARMA(p,q) e ARIMA(p,d,q) se referem à

representação com constante e condição de invertibilidade. O conceito de processo com d raízes unitárias (na parte AR) não aparece na

figura, mas equivale ao de processo integrado ou I(d).

Referências

Beveridge, S. e Nelson, C. (1981). A new approach to decomposition of economic time

series into permanente and transitory componentes with particular attention to

measurement of the ‘Business Cycle’. Journal of Monetary Economics 7, 151–174.

Campbell, J. Y. e Perron, P. (1991). Pitfalls and opportunities: what macroeconomists

should know about unit roots. National Bureau of Economic Research Macroeconomics

Annual 1991, Volume 6. 141–220.

Chatfeld, C. (1995). The analysis of time series. 5th

Edition. Nova York: Chapman &

Hall/CRC.

Dickey, D. A., Bell, W. R. e Miller, R. B. (1986) Unit roots in time series models: tests

and implications. The American Statistician, 40 (1), 12–26.

Dickey, D.A. & W.A. Fuller (1979). Distribution of the Estimators for Autoregressive

Time Series with Unit Root. Journal of the American Statistical Association, 74, 427-

Dickey, D. A. e Fuller, W. A. (1981). Likelihood ratio statistics for autoregressive time

series with a unit root. Econometrica 49, 4, 1057–1072.

DICKEY, D.A.; PANTULA, S. Determining the Order of Differencing in

Autoregressive Processes. Journal of Business and Economic Statistics, n. 5, 455-461,

Enders, W. (2003) Applied Econometric Time Series. 2nd

. Edition. Nova York: Wiley.

Engle, R.F. e C.W.J. Granger (1987). Co-Integration and Error Correction:

Representation, Estimation and Testing. Econometrica, 55, 251-276.

Engle, R. F. e Granger, C. W. J. Introdução a Co-integração. Tradução do primeiro

capítulo (Introduction) de Long–Run Economic Relationships: Readings in

Cointegration. 1990.

Fuller, W.A. (1976). Introduction to Statistical Time Series. New York: John Wiley.

Fuller, W.A. (1995). Introduction to Statistical Time Series. 2nd

Edition. New York:

John Wiley.

Granger, C. e Newbold, P. (1974). Spurious regression in econometrics. Journal of

Econometrics 2, 111120.

Hamilton, J. (1994) Time series analysis. Princeton: Princeton University Press..

Harvey, A. (1985). Trends and cycles in macroeconomic time series. Journal of

Business & Economic Statistics 3, 3, 216–227.

Harvey, A, C., (1997), Trends, Cycles and Autoregression, The Economic Journal, 107:

pp.192-201.

Hooker, R. H. (1901). Correlation of the marriage–rate with trade. Journal of The Royal

Statistical Society 64, 485–492.

Johansen, S. (1991). Estimation and Hypothesis Testing of Cointegration Vectors in

Gaussian Vector Autoregressive Models. Econometrica, 59, 1551-1580.

Lütkepohl Autorregreção Vetorial. Tradução de Lütkepohl, H. (1999). Vector

Autoregressions, Discussion Paper 4, SFB 373, disponibilizado no site do National

Research Center / Quantification and Simulation of Economic Processes da Humbolt

Universität, Berlim (http://sfb.wiwi.hu-berlin.de/papers).

MacKinnon, J. G. (1996). Numerical Distribution Functions for Unit Root and

Cointegration Tests. Journal of Applied Econometrics, Vol. 11, No. 6 601-618

Maddala, G. S. e Kim, InMo (1999). Unit roots, cointegration, and structural change.

Cambridge, UN: Cambridge University Press.

Nelson, C e Plosser, C. (1982) Trends and random walks in macroeconomic time

series: some evidence and implications. Journal of Monetary Economics 10, 130162.

Newey, Whitney K; West, Kenneth D (1987). "A Simple, Positive Semi-definite,

Heteroskedasticity and Autocorrelation Consistent Covariance Matrix". Econometrica.

55 (3), 703–708.

Ogaki, M., Park, J.Y., (1997). A cointegration approach to estimating preference

parameters. Journal of Econometrics 82, 107-134.

Phillips, P.C.B. (1987). Time series regression with a unit root. Econometrica, 55, 277-

Phillips, P. C. B. (2010). The mysteries of trend. Macroeconomic Review. 82–89.

Phillips, P.C.B. e Perron, P.(1988), Testing for a unit root in time series regression.

Biometrika 75,2, 335–346.

Schimidth, P. e Phillips, P. C. B. (1992). LM testes for a unit root in the presence of

deterministic trend. Oxford Bulletin of Economics and Statistics. 54,3. 257–287.

Sims, C.A. (1980). Macroeconomics and Reality, Econometrica. 48, 1-48.

Stock, J. (1994). Unit roots, structural breaks, and trends. In Engle, R. e McFadden, D.

Handbook of Econometrics, Chapter 46. Nova York: Elsevier.

Stock, J. e Watson, M. (1988) Testing for common trends. Journal of The American

Statistical Association 83, 10971107.

tendências e raízes unitárias*

Documents

apostila de operações unitárias

operações unitárias 12

conteÚdo relativo e incremental do lucro e do...

operações unitárias gomide (46a106)

operações unitárias iii - psicrometria

operações unitárias i_aula01

operações unitárias iii - secagem

adsorcao totaoperaÇÕes unitÁrias: adsorÇÃol

testes hegy de raízes unitárias sazonais: efeitos de

operações unitárias - cristalização

4 operações físicas unitárias

a mulher na educaÇÃo superior: tendÊncias e...

trabalho operações unitárias

desafio operações unitárias

polÍticas pÚblicas de massificaÇÃo do acesso À banda...

operações unitárias i

operações unitárias - ciclones

operações unitárias: extração

problemas de operações unitárias

operações unitárias indústria alimentos