inferência para cadeias de markov
DESCRIPTION
Cadeias de Markov: processo Estocástico.Autora: Nancy L. Garcia1TRANSCRIPT
Inferência para Cadeias de Markov
Nancy L. Garcia1
1UNICAMP, Brasil
2o. Semestre de 2012
Inferência clássica
Seja uma amostra aleatória X0,X1,X2, . . . ,Xn:I X0,X1,X2, . . . ,Xn são i.i.d.I distribuição de probabilidade conjunta:
P(X0 ∈ A0, . . . ,Xn ∈ An) =n∏
i=0
P(Xi ∈ Ai) =n∏
i=0
P(X ∈ Ai),
onde X tem a mesma distribuição das Xi ’s.Considere a sequência de v.a’s Xi.j onde Xi,j = 1 se chove noi-ésimo dia do j-ésimo ano e Xi,j = 0 se não chove no i-ésimodia do j-ésimo ano.Faz sentido pensar que estas v.a’s são i.i.d.?
Processos Estocásticos
Um processo estocástico é uma coleção de v.a’s
{Xt , α ∈ T}
onde T é um conjunto de índices que pode ser discretocontínuo. Em geral, T = N ou [0,∞).Neste caso, sempre é possível escrever a distribuição conjuntade um número finito destas v.a.’s
P(Xt0 ∈ A0, . . . ,Xtn ∈ An) =
P(Xt0 ∈ A0)n∏
i=1
P(Xti ∈ Ai |Xt0 ∈ A0, . . . ,Xti−1 ∈ Ai−1).
A teoria de Processos Estocásticos estuda diversasespecificações para as probabilidades condicionais acima eobtém resultados similares aos clássicos:
I Lei dos Grandes Números (Teorema Ergódico);I Teorema Central do Limite;I Lei Assintótica;I Estimação de máxima verossimilhança;I Testes de hipóteses;I Estimação não paramétrica.
I Xt : número de terremotos com magnitude maior que 5 queocorrem na região de São Francisco no período de (0, t ],onde 0 é o início do registro, por exemplo, 0:00hs do dia01/01/1950. Processo a tempo contínuo com espaço deestados discreto.
I (Xk ,Yk ): número de nascimento e mortes,respectivamente, ocorridos no dia k em uma colônia devetores trnsmissores de doença de Chagas. Processo atempo discreto com espaço de estados discreto.
I Xy ,t : espessura da camada de ozônio na locação y notempo t . Aqui temos T = R2 × [0,∞). Processo a tempocontínuo com espaço de estados contínuo.
I Xt : número de terremotos com magnitude maior que 5 queocorrem na região de São Francisco no período de (0, t ],onde 0 é o início do registro, por exemplo, 0:00hs do dia01/01/1950. Processo a tempo contínuo com espaço deestados discreto.
I (Xk ,Yk ): número de nascimento e mortes,respectivamente, ocorridos no dia k em uma colônia devetores trnsmissores de doença de Chagas. Processo atempo discreto com espaço de estados discreto.
I Xy ,t : espessura da camada de ozônio na locação y notempo t . Aqui temos T = R2 × [0,∞). Processo a tempocontínuo com espaço de estados contínuo.
I Xt : número de terremotos com magnitude maior que 5 queocorrem na região de São Francisco no período de (0, t ],onde 0 é o início do registro, por exemplo, 0:00hs do dia01/01/1950. Processo a tempo contínuo com espaço deestados discreto.
I (Xk ,Yk ): número de nascimento e mortes,respectivamente, ocorridos no dia k em uma colônia devetores trnsmissores de doença de Chagas. Processo atempo discreto com espaço de estados discreto.
I Xy ,t : espessura da camada de ozônio na locação y notempo t . Aqui temos T = R2 × [0,∞). Processo a tempocontínuo com espaço de estados contínuo.
I Xt : a intensidade de um sinal a uma distância t da origem.Processo a tempo contínuo com espaço de estadoscontínuo. além disso, “tempo” é a distância.
I Clientes chegam a uma fila de supermercado de acordocom um processo de Poisson. Os clientes são atendidospor um caixa que atende cada cliente de acordo a umadistribuição exponencial de parâmetro 1. Seja Xt o númerode clientes na fila. Processo a tempo contínuo comespaço de estados discreto.
I Temos duas caixas com um total de d bolas numeradas de1 a d . Em cada experimento selecionamos uma bola aoacaso e a trocamos de caixa. Seja Xt o número de bolasna caixa 1 no instante t . Processo a tempo discreto comespaço de estados discreto.
I Xt : a intensidade de um sinal a uma distância t da origem.Processo a tempo contínuo com espaço de estadoscontínuo. além disso, “tempo” é a distância.
I Clientes chegam a uma fila de supermercado de acordocom um processo de Poisson. Os clientes são atendidospor um caixa que atende cada cliente de acordo a umadistribuição exponencial de parâmetro 1. Seja Xt o númerode clientes na fila. Processo a tempo contínuo comespaço de estados discreto.
I Temos duas caixas com um total de d bolas numeradas de1 a d . Em cada experimento selecionamos uma bola aoacaso e a trocamos de caixa. Seja Xt o número de bolasna caixa 1 no instante t . Processo a tempo discreto comespaço de estados discreto.
I Xt : a intensidade de um sinal a uma distância t da origem.Processo a tempo contínuo com espaço de estadoscontínuo. além disso, “tempo” é a distância.
I Clientes chegam a uma fila de supermercado de acordocom um processo de Poisson. Os clientes são atendidospor um caixa que atende cada cliente de acordo a umadistribuição exponencial de parâmetro 1. Seja Xt o númerode clientes na fila. Processo a tempo contínuo comespaço de estados discreto.
I Temos duas caixas com um total de d bolas numeradas de1 a d . Em cada experimento selecionamos uma bola aoacaso e a trocamos de caixa. Seja Xt o número de bolasna caixa 1 no instante t . Processo a tempo discreto comespaço de estados discreto.
Aplicações de Cadeias de Markov
I Física, química, biologia, ciências sociais, jogos, música,linguística, neurociência, bioinformática, reconhecimentode imagens, reconhecimento de assinaturas, etc.
I Por exemplo, o “PageRank” de uma página da web comousado pelo Google é completamente definido através deuma cadeia de Markov.
Propriedade de Markov
I Espaço de estados discreto e tempo discretoI X0,X1, . . . v.a.’s discretas com valores possíveis I
enumerável.
P(Xn = x |X0 = x0,X1 = x1, . . . ,Xn−1 = xn−1) =
P(Xn = x |Xn−1 = xn−1)
para todo n ≥ 1 e todos os valores de x , x0, x1, . . . , xn−1 ∈ I.
Exemplo 1: Sejam Y0,Y1, . . . v.a.’s discretas i.i.d.. Defina
Sn = Y0 + . . .+ Yn
Neste caso,
P(Sn = x |S0 = x0,S1 = x1, . . . ,Sn−1 = xn−1)
= P(Sn−1 + Yn = x |S0 = x0,S1 = x1, . . . ,Sn−1 = xn−1)
= P(xn−1 + Yn = x |S0 = x0,S1 = x1, . . . ,Sn−1 = xn−1)
= P(xn−1 + Yn = x) = P(Sn = x |Sn−1 = xn−1).
Propriedade de Markov
Definições equivalentes
P(Xn = x |Xn0 = x0,Xn1 = x1, . . . ,Xnk = xk ) = P(Xn = x |Xnk = xk )
para todo n ≥ 1 e n0 < n1 < . . . < nk ≤ n − 1.
P(Xn+m = x |X0 = x0,X1 = x1, . . . ,Xn = xn) = P(Xn = x |Xn = xn)
para todo n ≥ 1 e todos os valores de x , x0, x1, . . . , xn−1 ∈ I.
I Cadeia de Markov homogênea
P(Xn = j |Xn−1 = i) = P(X1 = j |X0 = i) := pij
para todo n ≥ 1 e todos os valores de i , j ∈ I.I Matriz de transição
P = (pij)
A matriz de transição é uma matriz estocástica, i.e.,
pij ≥ 0, ,∑
j
pij = 1.
I Matriz de transição em n-passos
Pn = (pij(n))
ondepij(n) = P(Xn = j |X0 = i)
Note que P1 = P, mais ainda
pij(2) = P(X2 = j |X0 = i)
=∑k∈I
P(X2 = j ,X1 = k |X0 = i)
=∑k∈I
P(X2 = j |X1 = k)P(X1 = k |X0 = i)
=∑k∈I
pkjpik .
Portanto, P2 = P2.
Equações de Chapman-Kolmogorov
pij(n + m) =∑
k pkj(n)pik (m)
Consequentemente, Pn+m = PnPm e Pn = Pn.
Distribuições marginais
Definaµ(n)i = P(Xn = i).
eµ(n) = (µ
(n)i , i ∈ I).
Note que
µ(1)i = P(X1 = i) =
∑k
P(X1 = i ,X0 = k)
=∑
k
P(X1 = i |X0 = k)P(X0 = k)
=∑
k
pkiµ(0)k
µ(2)i = P(X2 = i) =
∑j
P(X2 = i ,X1 = j)
=∑
j
P(X2 = i |X1 = j)P(X1 = j)
=∑
j
pjiµ(1)j =
∑j
pji∑
k
pkjµ(0)k
Em geral,
µ(n+m) = µ(m)Pn e µ(n) = µ(0)Pn
Exemplo: Snoqualmie FallsI dados diários para se choveu ou não, pelo menos, 0,01 cmI 36 anosI Janeiro para obter um sistema homogêneo e estacionário.I = {0,1} Matriz de transição
P =
[p00 p01p10 p11
]Será que os dados não são independentes?
Hoje0 1
0 186 (91) 123 (223) 309Ontem
1 128 (223) 643 (543) 771314 766 1080
Os valores entre parenteses são os valores esperados sob ahipótese de independência. X 2 = 202,89 e χ2
1;1% = 6,63.
Função de verossimilhança
L(P,x) = P(X0 = x0)n−1∏i=0
P(Xi+1 = xi+1|Xi = xi)
= P(X0 = x0)n−1∏i=0
pxi ,xi+1
= P(X0 = x0)∏
k ,l∈Ipnk,l
k ,l
onde nk ,l = número de vezes em que Xi = k ,Xi+1 = l .
No exemplo de Snoqualmie Falls,
L(P,x) =
36∏j=1
P(X0,j = x0,j)
p18600 p123
01 p12810 p643
11 .
Assuma que os x0,j são fixos e P(X0,j = x0,j) = 1, se não,podemos usar as 36 amostras para estimar esta probabilidade.• p00 + p01 = 1 e p10 + p11 = 1,
P1,0 = n1,0/(n0,0 + n1,0)
eP1,1 = n1,1/(n0,1 + n1,1)
As estimativas de MV são dadas por:
p1,0 = 123/309 = 0,398 p1,1 = 643/771 = 0,834
Exemplo - Ferrugem asiática:
I Doença que está atacando as culturas de soja causandomuito prejuízo aos produtores e demanda aplicações defungicida causando danos ao meio ambiente e excessivosgastos.
I Um dos fatores que influenciam para a ocorrência dadoença é o molhamento foliar superior a oito horas.
I Molhamento foliar – acúmulo de água líquida causado porprecipitação ou condensação da umidade atmosférica naforma de orvalho - superior a 8 horas.
Exemplo - Ferrugem asiática:
I Doença que está atacando as culturas de soja causandomuito prejuízo aos produtores e demanda aplicações defungicida causando danos ao meio ambiente e excessivosgastos.
I Um dos fatores que influenciam para a ocorrência dadoença é o molhamento foliar superior a oito horas.
I Molhamento foliar – acúmulo de água líquida causado porprecipitação ou condensação da umidade atmosférica naforma de orvalho - superior a 8 horas.
Exemplo - Ferrugem asiática:
I Doença que está atacando as culturas de soja causandomuito prejuízo aos produtores e demanda aplicações defungicida causando danos ao meio ambiente e excessivosgastos.
I Um dos fatores que influenciam para a ocorrência dadoença é o molhamento foliar superior a oito horas.
I Molhamento foliar – acúmulo de água líquida causado porprecipitação ou condensação da umidade atmosférica naforma de orvalho - superior a 8 horas.
As variáveis coletadas:1. molhamento foliar (codificada como 1 se há molhamento
superior a oito horas e 0 caso contrário),2. velocidade do vento em m/s,3. umidade relativa do ar,4. precipitação em mm e temperatura média em oC.
Quatro estações meteorológicas:I Lucas do Rio verde (MT),I Rio Verde (GO),I Passo Fundo (RS) eI Holambra (SP)
Dados enviados diariamente para o CEPAGRI - Unicamp(Centro de Pesquisas Meteorológicas e Climáticas Aplicadas àAgricultura).
Fonsechi (2006)
I Modelo de Regressão Logístico para variáveis bináriasI variáveis dependem do tempo anterior, por exemplo, se
choveu no tempo t − 1 influencia se haverá molhamentoou não no tempo t . Obviamente não podemos esperarindependência de um tempo para o outro.
Modelo
P(Y | X) =n∏
i=1
P(Yi | Y1, . . . ,Yi−1,X)
onde Y é a variável resposta e X é a matriz de covariáveis.
Pode-se definir o i-ésimo logito como:
θi = log[
P(Yi = 1|Y1, . . . ,Yi−1,Xi)
P(Yi = 0|Y1, . . . ,Yi−1,Xi)
]e assumir que θi é função linear de Y1, . . . ,Yi−1,Xi .
Temos, então, um problema de regressão no qual a resposta Yié binária, mas o conjunto de valores da variável explicativamuda de acordo com i .
Para introduzir dependência no modelo é necessário criarvariáveis auxiliares que são funções lineares dos Y ′i s:
Zi =
{2Yi − 1 se Yi = 0 ou 10 se Yi desconhecido
Definimos a regressão logística da seguinte forma:
θ1 = α + βX1
θi = α +i−1∑j=1
γjZj + βXi , i = 1, . . . ,n
em que α, β e γ′s são parâmetros que variam no intervalo(−∞,∞) e a dependência foi introduzida no modelo atravésdas variáveis Z ′i s presentes nos logitos.
Temos
P(Y|X) =n∏
i=1
eθi
(1 + eθi ).
Para (j < i)I Yj =1, a chance do dia i ter molhamento (Yi = 1) aumenta
em eγj ,I Yj desconhecido não muda a chance,I Yj=0 diminui a chance em eγj
I um aumento de uma unidade em Xi aumenta a chance dodia i ter molhamento em eβ.
O modelo na forma matricial fica:
θ = [θ1 . . . θn]′ ,
Z = [Z1 . . .Zn]′ ,
λ = [α γ1 γ2 . . . γn−1 β]′ ,
A =
1 0 0 . . . 0 X11 Z1 0 . . . 0 X21 Z1 Z2 . . . 0 X3...
......
......
...1 Z1 Z2 . . . Zn−1 Xn
.
Então o modelo torna-se:
θ = Aλ (1)
Estruturas Markovianas de Dependência
Com a estrutura de primeira ordem o modelo torna-se:
P(Y|X) = P(Y1|X )n∏
i=2
P(Yi |Yi−1,X ).
Com a estrutura de segunda ordem o modelo torna-se:
P(Y|X) = P(Y1|X)P(Y2|Y1,X)Pn∏
i=3
P(Yi |Yi−1,Yi−2,X).
Portanto, a probabilidade de ter molhamento foliar no dia i sódepende da resposta do dia imediatamente anterior (ou doisdias). Nesse caso, os logitos podem ser escritos como:
θi = α + γZi−1 + βXi .
Método de análise
I Foi utilizado o software livre R (www.r-project.org)I Para as quatro estações testou-se o modelo com estrutura
Markoviana de dependência de primeira e segunda ordemI Ajustou-se primeiramente um modelo com todas as
covariáveis (Modelo completo) e depois utilizou-sestepwise para selecior as covariáveis que realmente sãosignificativas ao modelo (Modelo reduzido). Critério AIC.
I Para verificar a adequação do modelo foi utilizado aestatística “deviance” (−2logL, sendo L a funcão deverossimilhança), essa estatística tem distribuição χ2
n−p−1,sendo n − p − 1 o graus de liberdade, n é o número deobservações e p é o número de parâmetros.
Passo Fundo - Estrutura Markoviana de 1a ordem
Tabela: Modelo Completo
Parâmetro Estimação teste-tIntercepto -13.80594 6.03e-06Z 0.68004 0.00104UR 0.15166 2.50e-08Temp média 0.0995 0.12957Velocidade Vento -0.24003 0.28894Chuva 0.05070 0.28251
Passo Fundo - Estrutura Markoviana de 1a ordem
Tabela: Modelo Reduzido
Parâmetro Estimação teste-tIntercepto -15.67279 5.97e-08Z 0.66143 0.00103UR 0.16491 4.24e-11Temp média 0.10751 0.09699
Para Passo Fundo, com estrutura markoviana comdependência de primeira ordem a deviance foi 161,1 e o valortabelado da χ2
223 é 189.43, ou seja, pelo teste de bondade deajuste esse modelo é adequado.
Passo Fundo - Estrutura Markoviana de segundaordem
Tabela: Modelo Completo
Parâmetro Estimação teste-tIntercepto -13.80594 8.99e-06Z1 0.52782 0.0197Z2 0.36670 0.0960UR 0.15069 4.24e-08Temp média 0.10047 0.1332Velocidade Vento -0.25198 0.2793Chuva 0.055070 0.2512
Tabela: Modelo Reduzido
Parâmetro Estimação teste-tIntercepto -15.79363 6.88e-08Z1 0.51292 0.0204Z2 0.34475 0.1150UR 0.16604 5.61e-11Temp média 0.10841 0.100
Apesar de ter utilizado o método stepwise para selecionar omelhor modelo ainda há variáveis não significativas no modeloao nível de significância de 10%, sendo ela a variável querepresenta a estrutura de dependência de segunda ordem, ouseja, o modelo para passo fundo, com dependência deprimeira ordem é o mais adequado para o conjunto de dadosde Passo Fundo.
Conclusão
I Verificou-se a eficiência da utilização do Modelo LogísticoRegressivo para a estimação de molhamento foliar nacultura da soja.
I Para as quatro estações testadas, o modelo que melhorajusta aos dados meteorológicos é o logístico regressivocom estrutura markoviana de primeira ordem, ou seja, omodelo que leva em consideração a dependência do diaanterior para a ocorrência de molhamento foliar.
I Com as previsões meteorológicas e o uso do modeloproposto será possível um melhor monitoramento dacultura da soja, acionando os produtores de soja paraalertá-los quando houver indícios da ocorrência demolhamento foliar superior a 8 horas, ajudando assim omomento certo para aplicação de fungicida.
Urna de Ehrenfest
I Modelo para troca de calor ou gases entre dois corposisolados.
I Temos duas caixas com um total de d bolas numeradas de1 a d .
I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.
I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.
I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.
Urna de Ehrenfest
I Modelo para troca de calor ou gases entre dois corposisolados.
I Temos duas caixas com um total de d bolas numeradas de1 a d .
I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.
I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.
I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.
Urna de Ehrenfest
I Modelo para troca de calor ou gases entre dois corposisolados.
I Temos duas caixas com um total de d bolas numeradas de1 a d .
I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.
I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.
I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.
Urna de Ehrenfest
I Modelo para troca de calor ou gases entre dois corposisolados.
I Temos duas caixas com um total de d bolas numeradas de1 a d .
I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.
I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.
I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.
Urna de Ehrenfest
I Modelo para troca de calor ou gases entre dois corposisolados.
I Temos duas caixas com um total de d bolas numeradas de1 a d .
I Inicialmente algumas destas bolas estão na caixa 1 e orestante na caixa 2.
I Em cada experimento selecionamos uma bola ao acaso(i.e, selecionamos ao acaso um número entre 1 e d) e atrocamos de caixa.
I Repita o procedimento sequencialmente. Seja Xn onúmero de bolas na caixa 1 no instante n.
Xn é uma cadeia de Markov com espaço de estados{0,1, . . . ,d} e matriz de transição
P(x , y) =
(x/d), y = x − 1,
1− (x/d), y = x + 1,0, caso contrário
Ruína do jogador
Definição: Um estado a de uma cadeia de Markov é dito serabsorvente se P(a, y) = 0, para y 6= a.
I Um jogador começa com um capital inicial de i reais e fazuma sequência de apostas de R$ 1,00.
I Assuma que ele tem probabilidade p de ganhar eprobabilidade 1− q de perder a cada apostaindependentemente das apostas anteriores.
I Se seu capital chegar a zero ele se arruinará e seu capitalcontinuará zero para sempre.
Ruína do jogador
Definição: Um estado a de uma cadeia de Markov é dito serabsorvente se P(a, y) = 0, para y 6= a.
I Um jogador começa com um capital inicial de i reais e fazuma sequência de apostas de R$ 1,00.
I Assuma que ele tem probabilidade p de ganhar eprobabilidade 1− q de perder a cada apostaindependentemente das apostas anteriores.
I Se seu capital chegar a zero ele se arruinará e seu capitalcontinuará zero para sempre.
Ruína do jogador
Definição: Um estado a de uma cadeia de Markov é dito serabsorvente se P(a, y) = 0, para y 6= a.
I Um jogador começa com um capital inicial de i reais e fazuma sequência de apostas de R$ 1,00.
I Assuma que ele tem probabilidade p de ganhar eprobabilidade 1− q de perder a cada apostaindependentemente das apostas anteriores.
I Se seu capital chegar a zero ele se arruinará e seu capitalcontinuará zero para sempre.
Esta é uma CM com espaço de estados {0,1, . . .}onde 0 é um estado absorvente e para x ≥ 1
P(x , y) =
1− p, y = x − 1,
p, y = x + 1,0, caso contrário
Se houver um adversário que inicia o jogo comd − i reais e o jogo termina quando o capital do1o. jogador atinge 0 ou d o espaço de estados é{0,1, . . .} onde 0 e d são estado absorventes epara 1 ≤ x ≤ d − 1
P(x , y) =
1− p, y = x − 1,
p, y = x + 1,0, caso contrário
Esta é uma CM com espaço de estados {0,1, . . .}onde 0 é um estado absorvente e para x ≥ 1
P(x , y) =
1− p, y = x − 1,
p, y = x + 1,0, caso contrário
Se houver um adversário que inicia o jogo comd − i reais e o jogo termina quando o capital do1o. jogador atinge 0 ou d o espaço de estados é{0,1, . . .} onde 0 e d são estado absorventes epara 1 ≤ x ≤ d − 1
P(x , y) =
1− p, y = x − 1,
p, y = x + 1,0, caso contrário
Cadeias de nascimento e morte
I Considere uma CM com espaço de estados I = {0,1, . . .}ou I = {0,1, . . . ,d}.
I Estando no estado x no próximo passo somente poderáestar em x , x + 1 ou x − 1.
I Considere que a matriez de transição seja:
P(x , y) =
qx , y = x − 1,px , y = x + 1,rx , y = x ,0, caso contrário
onde para cada x , px ,qx , rx ≥ 0, px + qx + rx = 1.
Classificação de estados:
Seja A um subconjunto do espaço de estados I. O tempo dechegada a A é definido como:
TA =
{min{n > 0; Xn ∈ A}, se Xn atinge A,
∞, caso contrário
Notaçao:A = {a} usamos a notação: Ta.Denotaremos por Px (·) as probabilidades dosdiversos eventos quando o estado inicial dacadeia for x . Assim,
Px (X1 = a,X2 = b) = P(X1 = a,X2 = b|X0 = x).
Uma identidade importante:
Pn(x , y) =∑n
m=1 Px (Ty = m)Pn−m(y , y), n ≥ 1
Se a é um estado absorvente então
Pn−m(a,a) = 1, para1 ≤ m ≤ n.
e
Pn(x ,a) =n∑
m=1
Px (Ta = m)Pn−m(a,a)
=n∑
m=1
Px (Ta = m) = Px (Ta ≤ n).
Observe que
Px (Ty = 1) = Px (X1 = y) = P(x , y)
e que
Px (Ty = 2) =∑z 6=y
Px (X1 = z,X2 = y) =∑z 6=y
P(x , z)P(z, y).
Em geral,
Px (Ty = n + 1) =∑
z 6=y P(x , z)Pz(Ty = n), n ≥ 1
Estados recorrentes e transientes
I ρxy = Px (Ty <∞) = probabilidade que uma CMcomeçando em x consiga atingir o estado y em tempofinito.
I ρyy = probabilidade que uma CM começando em y algumavez retorne a y .
I Um estado y é dito ser:1. recorrente se ρyy = 1;2. transiente se ρyy < 1.
I Se y é um estado absorvente, então Py (T1 = y) = 1 eρyy = 1 e y é recorrente.
Estados recorrentes e transientes
I ρxy = Px (Ty <∞) = probabilidade que uma CMcomeçando em x consiga atingir o estado y em tempofinito.
I ρyy = probabilidade que uma CM começando em y algumavez retorne a y .
I Um estado y é dito ser:1. recorrente se ρyy = 1;2. transiente se ρyy < 1.
I Se y é um estado absorvente, então Py (T1 = y) = 1 eρyy = 1 e y é recorrente.
Estados recorrentes e transientes
I ρxy = Px (Ty <∞) = probabilidade que uma CMcomeçando em x consiga atingir o estado y em tempofinito.
I ρyy = probabilidade que uma CM começando em y algumavez retorne a y .
I Um estado y é dito ser:1. recorrente se ρyy = 1;2. transiente se ρyy < 1.
I Se y é um estado absorvente, então Py (T1 = y) = 1 eρyy = 1 e y é recorrente.
Estados recorrentes e transientes
I ρxy = Px (Ty <∞) = probabilidade que uma CMcomeçando em x consiga atingir o estado y em tempofinito.
I ρyy = probabilidade que uma CM começando em y algumavez retorne a y .
I Um estado y é dito ser:1. recorrente se ρyy = 1;2. transiente se ρyy < 1.
I Se y é um estado absorvente, então Py (T1 = y) = 1 eρyy = 1 e y é recorrente.
Para cada estado y ∈ I defina a v.a.
N(y) =∞∑
n=1
1y (Xn)
o número de vezes que a CM visita o estado y .Note que:
Px (N(y) ≥ 1) = Px (Ty <∞) = ρxy .
É fácil ver que a propriedade de Markov diz que: aprobabilidade da cadeia começando em x visitar pela primeiravez y após m passos e retornar a y n passos depois é
Px (Ty = m)Py (Ty = n).
Portanto,
Px (N(y) ≥ 2) =∞∑
m=1
∞∑n=1
Px (Ty = m)Py (Ty = n)
=
( ∞∑m=1
Px (Ty = m)
)( ∞∑n=1
Py (Ty = n)
)= ρxyρyy .
Similarmente,
Px (N(y) ≥ m) = ρxyρm−1yy , m ≥ 1.
Usando o fato quePx (N(y) = m) = Px (N(y) ≥ m)− Px (N(y) ≥ m + 1).
Px (N(y) = m) = ρxyρm−1yy (1− ρyy ), m ≥ 1.
e
Px (N(y) = 0) = (1− ρxy ).
Observe que
Ex (N(y)) = Ex
( ∞∑n=1
1y (Xn)
)
=∞∑
n=1
Ex (1y (Xn))
=∞∑
n=1
Pn(x , y).
Defina
G(x , y) = Ex (N(y)) =∑∞
n=1 Pn(x , y).
O seguinte teorema descreve a diferença fundamental entreestados transientes e estados recorrentes:Teorema: (i) Seja y um estado transiente. Então:
Px (N(y) <∞) = 1
eG(x , y) =
ρxy
1− ρyy.
(ii) Seja y um estado recorrente. Então:
Py (N(y) =∞) = 1 e G(y , y) = 1.
Mais ainda,
Px (N(y) =∞) = Px (Ty <∞) = ρxy .
Se ρxy = 0 então G(x , y) = 0 enquanto que ρxy > 0 implicaque G(x , y) =∞.
Seja y um estado transiente. Como
∞∑n=1
Pn(x , y) = G(x , y) <∞ ⇒ limn
Pn(x , y) = 0.
Uma CM é dita ser transiente se todos os seus estados sãotransientes e recorrente se todos os seus estados sãorecorrentes.É fácil ver que toda CM finita precisa ter pelo menos um estadorecorrente, i.e. não pode ter todos os seus estados transientes:
0 =∑y∈I
limn
Pn(x , y)
CM finita = limn
∑y∈I
Pn(x , y)
= limn
Px (Xn ∈ I)
= 1.
Decomposição do espaço de estados:
Sejam x e y ∈ I
x → y , se ρxy > 0.
I x → y se, e somente se, Pn(x , y) > 0 para algum n.I x → y e y → z então x → z.I Teorema: Seja x um estado recorrente e suponha que
x → y . Então y é recorrente e ρxy = ρyx = 1.
I Um conjunto não vazio C ⊂ I é dito ser fechado senenhum estado de dentro de C leva a um estado fora deC, i.e., se
ρxy = 0, x ∈ C, y 6∈ C.
I Equivalentemente, C é fechado se, e somente se,
Pn(x , y) = 0, x ∈ C, y 6∈ C, para todo n ≥ 1.
I Se C é um conjunto fechado então uma CM começandoem C ficará em C com probabilidade 1.
I Se A é um estado absorvente, então {a} é fechado.
I Um conjunto fechado é dito ser irredutível se x → y paratodos x , y ∈ C.
I Segue do Teorema anterior que se C é uma classefechada e irredutível, então ou todo estado de C érecorrente, ou todo estado de C é recorrente.
I Seja C uma classe fechada irredutível de estadosrecorrentes. então ρxy = 1, Px (N(y) =∞) = 1 eG(x , y) =∞ para todas as escolhas de x , y ∈ C.
I Uma cadeia de Markov irredutível é uma cadeia cujoespaço de estados I é fechado e irredutível. Segue quetais cadeias ou são transientes ou são recorrentes.
Teorema: Seja C um conjunto finito de estados. Então todosos estados em C são recorrentes.
Considere uma CM com um número finito de estados.I Se a CM é irredutível, deve ser recorrente.I Se a CM não é irredutível verificamos quais são as classes
irredutíveis e quais estados são recorrentes e transientes.
Exemplo: I = {0,1,2,3,4,5}
1 0 0 0 0 014
12
14 0 0 0
0 15
25
15 0 1
50 0 0 1
613
12
0 0 0 12 0 1
20 0 0 1
4 0 34
Note que a matriz abaixo traz os valores + e 0 de acordo comx → y , i.e, ρxy > 0.
+ 0 0 0 0 0+ + + + + ++ + + + + +0 0 0 + + +0 0 0 + + +0 0 0 + + +
Obviamente, se P(x , y) > 0 então ρxy > 0, mas a recíprocanão é verdadeira pois P(2,0) = 0 e ρ20 > 0 pois
P2(2,0) = P(2,1)P(1,0) =15
14
=1
20> 0.
I 0 é um estado absorvente, portanto é recorrente.I Também vemos pela matriz acima que {3,4,5} é uma
classe finita, fechada e irredutível portanto todos os seusestados são recorrentes.
I 2→ 0 e 1→ 0 mas 0 6→ 2 e 0 6→ 1, sendo assim 1 e 2 temque ser estados transientes.
Sejam:IT o conjunto de estados transientes;IR o conjunto de estados recorrentes.
Neste exemplo, IT = {1,2} e IR = {0} ∪ {3,4,5}.Sempre é possível decompor IR numa união disjunta (finita ouenumerável) de classes irredutíveis.
Probabilidades de absorção
Seja C uma das classes fechadas irredutíveis de estadosrecorrentes e defina:
ρC(x) := Px (TC <∞)
a probabilidade de que a CM começando em x eventualmenteatinja C ( e permaneça em C para sempre). Claramente,
ρC(x) = 1, se x ∈ C ρC(x) = 0, se x é recorrente, mas x 6∈ C
Como calcular ρC(x) se x for transiente?
I Se temos somente um número finito de estadostransientes, em particular se I é finito, pode-se encontrarρC(x), x ∈ IT através de um sistema linear de equações.
I Observe que se x ∈ IT , uma cadeia somente pode serabsorvido em C se, (i) for absorvindo em C no instante 1;ou (ii) continuar em IT no instante 1 e ser absorvido em Cem um tempo futuro.
I O evento (i) tem probabilidade∑
y∈C P(x , y) e o evento (ii)tem probabilidade
∑y∈IT
P(x , y)ρC(y).
ρC(x) =∑
y∈C P(x , y) +∑
y∈ITP(x , y)ρC(y), x ∈ IT .
A equação acima pode ser resolvida se IT é finito. No caso deIT não é claro como resolver o sistema, nem mesmo garantirque o sistema tenha solução única.
Exemplo: Encontre ρ10 = ρ{0}(1) e ρ20 = ρ{0}(2). Montando osistema de equções temos,
ρ10 = 1/4 + (1/2)ρ10 + (1/4)ρ20
ρ20 = (1/5)ρ10 + (2/5)ρ20
A solução é: ρ10 = (3/5) e ρ20 = (1/5).Note que uma vez que uma CM começando em um estadotransiente x entra em uma classe fechada, irredutível deestados recorrentes, visita todos os estados de C comprobabilidade 1. Assim,
ρxy = ρC(x), para todo y ∈ C.
Portanto,ρ13 = ρ14 = ρ15 = 2/5,
ρ23 = ρ24 = ρ25 = 4/5.
Cadeias de nascimento e morte
I CM irredutível: ou todos os estados recorrentes, ou todosestados transientes.
I CM irredutível finita: todos os estados recorrentes.I O que fazer no caso I infinito?
I Considere uma CM com espaço de estados I = {0,1, . . .}ou I = {0,1, . . . ,d}.
I Estando no estado x no próximo passo somente poderáestar em x , x + 1 ou x − 1.
I Considere que a matriez de transição seja:
P(x , y) =
qx , y = x − 1,px , y = x + 1,rx , y = x ,0, caso contrário
onde para cada x , px ,qx , rx ≥ 0, px + qx + rx = 1. Noteque q0 = 0 e pd = 0 se d <∞.
I Assuma que px ,qx > 0 para 0 < x < d .
Para a < b ∈ I, seja
u(x) = Px (Ta < Tb), a < x < b
eu(a) = 1, u(b) = 0.
Portanto, é fácil ver que
u(y) = qyu(y − 1) + ryu(y) + pyu(y + 1), a < y < b.
Como ry = 1− py − qy temos
u(y + 1)− u(y) =qy
py(u(y)− u(y − 1)), a < y < b.
Defina γ0 = 1 e
γy =q1···qyp1···py
, 0 < y < d .
Temos,
u(x) =
∑b−1y=x γy∑b−1y=a γy
, a < x < b.
Portanto, da definição de u(x) temos
Px (Ta < Tb) =∑b−1
y=x γy∑b−1y=a γy
, a < x < b.
Px (Tb < Ta) =∑x−1
y=a γy∑b−1y=a γy
, a < x < b.
Exemplo:I Um jogador na roleta faz uma sequência de apostas de
$1.00.I Ele tem probabilidades 9/19 e 10/19 de ganhar e perder
respectivamente.I O jogador decide que ele pára de jogar se ele lucra $25.00
ou se ele perde $10.00.(a) Ache a probabilidade dele parar de jogar ganhando.(b) Ache sua perda esperada.
I Xn: capital do jogador no tempo n com X0 = 10.I Xn é uma cadeia de nascimento e morte comI = {0,1, . . . ,35}
I taxas px = 9/19,0 < x < 35 e qx = 10/19,0 < x < 35.I Os estados 0 e 35 são aobsorventes.
Aplicar a fórmula para a = 0, x = 10,b = 35. Portanto,
γy = (10/9)y , 0 ≤ y ≤ 34,
Probabilidade de ganhar:
P10(T35 < T0) =
∑9y=0(10/9)y∑34y=0(10/9)y
=(10/9)10 − 1(10/9)35 − 1
= 0.047.
Perda esperada: 10− 35× (0.047) = 8.36.
Distribuição estacionária
I Seja Xn,n ≥ 0 uma CM com espaço de estados I e matrizde transição P.
I Uma distribuição estacionária π(x), x ∈ I satisfaz:1. π(x) ≥ 0, x ∈ I;2.∑
x∈I π(x) = 1;3.
∑x∈I π(x)P(x , y) = π(y), y ∈ I.
Distribuição limite
I Suponha que temos
limn→∞
Pn(x , y) = π(y), y ∈ I.
I Neste capítulo queremos determinar quando temosdistribuição estacionária, quando temos distribuição limitee quando elas são iguais.
Propriedades de distribuições estacionáriasSeja π uma distribuição estacionária para P. Então:∑
x∈Iπ(x)P2(x , y) =
∑x∈I
π(x)∑
z
P(x , z)P(z, y)
=∑
z
(∑x
π(x)P(x , z)
)P(z, y)
=∑
z
π(z)P(z, y) = π(y).
Portanto, por indução, usando a fórmula
Pn+1(x , y) =∑
z
Pn(x , z)P(z, y),
temos ∑x∈I π(x)Pn(x , y) = π(y), y ∈ I.
I Se π0 = π temos que
P(Xn = y) = π(y), y ∈ I
e a distribuição de Xn é independente de n.I Suponha reciprocamente que πn não dependa de n, então
a distribuição de X0 e X1 são idênticas eπ0(y) = π1(y) =
∑x π0(x)P(x , y). Consequentemente,
π0 é distribuição estacionária.I A distribuição de Xn é independente de n se, e
somente se, π0 é estacionária.
Suponha que π é distribuição estacionária e
limn→∞
Pn(x , y) = π(y), y ∈ I.
então P(Xn = y) =∑
x π0(x)Pn(x , y), y ∈ I.Tirando o limite nos dois lados da equação e passando o limitedentro do somatório, temos
limn→∞
Pn(x , y) =∑
x
π0(x)π(y), y ∈ I.
Como∑
x π0(x) = 1 temos
limn→∞ Pn(x , y) = π(y), y ∈ I.
I Temos que se π é uma distribuição estacionária e
limn→∞
Pn(x , y) = π(y), y ∈ I
, a distribuição πn se aproxima de π independemtementeda distribuição inicial.
I Portanto, π é a única distribuição estacionária, senãousaríamos a outra distribuição para π0 e teríamos π = π0.
I Suponha que observamos nosso sistema por um tempolongo, digamos n0 passos e seja
Yn = Xn0+n,
As v.a.’s Yn formam uma CM com a mesma matriz detransição P. Se N0 for suficientemente grande, podemossupor que a distribuição marginal de Yn é a mesma dadistribuição estacionária π.
Exemplo 1:
P =
[1− p p
q 1− q
]Se p + q > 0 temos
π(0) =q
p + qπ(1) =
pp + q
.
Cadeias de nascimento e morte
Considere uma cadeia de nascimento e morte comI = {0,1, . . .}. Vamos assumir que a cadeia é irredutível i.e.,
px > 0, 0 ≤ x <∞
qx > 0, 0 < x <∞.
O sistema de equações∑x
π(x)P(x , y) = π(y)
será:r0π(0) + q1π(1) = π(0)
py−1π(y − 1) + ryπ(y) + qy+1π(y + 1) = π(y), y ≥ 1.
Como px + rx + q + x = 1, temos
(1− p0)π(0) + q1π(1) = π(0)
py−1π(y−1)+(1−py−qy )π(y)+qy+1π(y +1) = π(y), y ≥ 1.
Portanto,
qy+1π(y + 1)− pyπ(y) = qyπ(y)− py−1π(y − 1), y ≥ 1
e consequentemente, por indução
qy+1π(y + 1)− pyπ(y) = 0, y ≥ 0.
Neste caso, obtemos
π(y + 1) =py
qy+1π(y).
Usando novamente indução é fácil ver que:
π(x) =p0 · p1 · · · px−1
q1 · q2 · · · qxπ(0).
Finalmente, se chamamos
π0 = 1, , πx =p0 · p1 · · · px−1
q1 · q2 · · · qx, x ≥ 1,
temos
π(x) = πxπ(0), x ≥ 0.
Temos que verificar se as soluções de (1) satisfazem∑x π(x) = 1.
Caso 1:∑
x πx <∞.
1 =∑
x
π(x) =
(∑x
πx
)π(0)
Portanto,
π(0) = 1∑x πx
, π(x) = πx∑x πx
x ≥ 1.
Caso 2:∑
x πx =∞.
∑x
π(x) =
(∑x
πx
)π(0) =
{0, se π(0) = 0∞, se π(0) > 0
Portanto, não existe distribuição estacionária.Todas as deduções anteriores valem para o caso de cadeiasde nascimento e morte finitas, i.e. d <∞.
Urna de Ehrenfest
d = 3
P =
0 1 0 0
1/3 0 2/3 00 2/3 0 1/30 0 1 0
Esta é uma cadeia de nascimento e morte irredutível com
π0 = 1, π1 = 3, π2 = 3, π3 = 1.
Portanto, a única distribuição estacionária é dada por:
π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8.
Note que neste caso, Pn(x , y) = 0 para valores ímpares de n.Assim,
Pn(x , x) 6→ π(x).
Urna de Ehrenfest modificada: Suponha que temos omesmo esquema da urna de Ehrenfest, mas a cada trocajogamos independentemente uma moeda e se esta sair caradecidimos não mudar a bola de urna.
P =
1/2 1/ 0 01/6 1/2 2/6 00 2/ 1/2 1/60 0 1/2 1/2
Entretanto, π0 = 1, π1 = 3, π2 = 3, π3 = 1.Portanto, a única distribuição estacionária é dada por:
π(0) = 1/8, π(1) = 3/8, π(2) = 3/8, π(3) = 1/8.
Neste caso, veremos mais tarde,
Pn(x , y)→ π(y), para todo y, quando n→∞.
Condições de balanço detalhado
π(x)p(x , y) = π(y)p(y , x) ⇒ π(y) =∑
x
π(x)p(x , y)
pois∑
x p(y , x) = 1.
Estados recorrentes positivos e recorrentes nulos
Um estado é recorrente se
ρyy = Py (Ty < +∞) = 1
Se y é recorrente então:y é recorrente positivo se my = Ey (Ty ) < +∞;y é recorrente nulo se my = Ey (Ty ) = +∞;
Número médio de visitas a um estado recorrente:
Defina Nn(y) o número de visitas ao estado y nos instantes1,2, . . . ,n. Isto é, Nn(y) =
∑nm=1 1y (Xm).
Defina Gn(x , y) o número médio de visitas ao estado y dadoque X0 = x durante os instantes 1,2, . . . ,n
Gn(x , y) =n∑
m=1
Ex [1y (Xm)] =n∑
m=1
Pm(x , y).
1.- Seja y um estado transiente. então
limn
Nn(y) = N(y) <∞ com probabilidade 1,
elim
nGn(x , y) = G(x , y) < +∞.
Portanto,
limn
Nn(y)
n= 0 com probabilidade 1,
elim
n
Gn(x , y)
n= 0, x ∈ S.
Seja y um estado recorrente. Então:
limn
Nn(y)
n=
1Ty<∞
mycom probabilidade 1,
elim
n
Gn(x , y)
n=ρxy
my, x ∈ S.
Intuição: Uma vez que a cadeia chega ao estado y ela retornaa y , “em média uma vez a cada my unidades de tempo”.Assim, se y pode ser alcançado eventualmente e n é grande, aproporção de tempo que a cadeia gasta no estado y éaproximadamente 1/my .
Corolário: Seja C um conjunto fechado irredutível de estadosrecorrentes. Então,
limn
Gn(x , y)
n=
1my
, x , c ∈ C
e se P(X0 ∈ C) = 1,
limn
Nn(y)
n=
1my
com probabilidade 1.
Note que as fórmulas valem para my = +∞.
Teorema: Seja x um estado recorrente positivo e suponha quex → y . então y é recorrente positivo.Portanto, em uma classe de estados fechada, irredutível outodos os estados são transientes, ou todos os estados sãorecorrentes positivos ou todos os estados são recorrentesnulos.
I Se C é uma classe fechada e finita então C tem pelomenos um estado recorrente positivo.
I Se C é uma classe fechada, irredutível e finita de estadosentão todo estado é recorrente positivo.
I Uma cadeia de Markov irredutível com um número finitode estados é recorrente positiva.
I Uma cadeia de Markov tendo um número finito de estadosnão tem estados recorrentes nulos.Note que se y é um estado recorrente, então y estácontido numa classe fechada de estados recorrentes.Como esta classe é necessariamente finita, ela contémpelo menos um estado recorrente positivo e portanto todossão recorrentes positivos.
Existência e unicidade das distribuições estacionáriasTeorema: Seja π uma distribução estacionária. Se x étransiente ou recorrente nulo, então π(x) = 0.Prova: Se x é transiente ou recorrente nulo então
limn
Gn(z, x)
n= 0, z ∈ S.
Portanto, se pudermos trocar a ordem da soma e do limite:
π(x) limn
∑z
π(z) limn
Gn(z, x)
n= 0.
Teorema: Seja uma cadeia de Markov irredutível, recorrentepositiva então existe uma única distribuição estacionária πdada por:
π(y) =1
my, y ∈ S.
Consequências:Uma cadeia de Markov é positiva recorrente éirredutível se, e somente se tem uma únicadistribuição estacionária.Se uma cadeia de Markov tem um número finitode estados e é irredutível então ela tem uma únicadistribuição estacionária.Seja Xn,n ≥ 0 uma cadeia de Markov irredutível,recorrente positiva com distribuição estacionáriaπ. então com probabilidade 1,
minn
Nn(y)
n= π(y), y ∈ S.
Cadeia redutíveis:
Teorema: Seja C um conjunto irredutível fechado de estadosrecorrentes positivos. Então a cadeia de Markov tem umaúnica distribuição estacionária concentrada em C, isto é,π(x) = 0, se x 6∈ C e π(x) = 1/mx se x ∈ C.Suponha que a cadeia tenha dois conjuntos irredutíveisfechados de estados recorrentes positivos C0 e C1. então acadeia tem uma distribuição estacionária π0 concentrada emC0 e uma distribuição estacionária π1 concentrada em C1.Mais ainda, as distribuições
πα(x) = (1− α)π0(x) + απ1(x)
também são estacionárias para a CM.
Teorema Central do Limite
Referências: Doeblin (1938) e Kendall (1957)Considere uma cadeia de Markov X0,X1, . . . compossivelmente infinitos estados I = {1,2, . . .} ergódica. Assim,todos os tempos de retorno my são finitos.Seja f : I → R e defina
Sn =n∑
m=1
f (Xm).
Sejam as v.a’s T (1)y < T (2)
y < . . . os tempos de visita a y . Isto é,
T (k)y = min{n > T (k−1)
y ; Xn = y}
Teorema ergódico
Assim, as v.a’s
f (XT (k)
y +1) + · · ·+ f (X
T (k+1)y
), k = 1,2, . . .
são iid com esperança finita
µf ,y = E(
f (XT (k)
y +1) + · · ·+ f (X
T (k+1)y
)).
O Teorema ergódico diz que
Sn
n→
µy
myem probabilidade.
CLT - cont.
Agora escreva,
Zk =
T (k+1)y∑
m=T (k)y +1
f (Xm)−µy
my
(T (k+1)
y − T (k)y
).
Assim, Z1,Z2, . . . são iid E(Zi) = 0 e defina
σ2y = Var(Z1).
Teorema: Se µy existe e σy é finita e não nulas e os tempos derecorrencia T (k)
y tem segundo momento finito então
Sn − (µy/my )n√σ2
y n/my
⇒ N(0,1).
Teoria de verossimilhança para Cadeias de Markov
Função de verossimilhança
L(P,x) = P(X0 = x0)n−1∏i=0
P(Xi+1 = xi+1|Xi = xi)
= P(X0 = x0)n−1∏i=0
pxi ,xi+1
= P(X0 = x0)∏
k ,l∈IpNk,l (n)
k ,l
onde Nk ,l(n) = número de vezes em que Xi = k ,Xi+1 = l nosinstantes 1, . . . ,n.
Notação: Nij(n) = Nij e nij(n) = nij ,
L(π0,P,x) = π0(x0)n−1∏i=0
P(Xi+1 = xi+1|Xi = xi)
= π0(x0)n−1∏i=0
pxi ,xi+1 = π0(x0)∏
k ,l∈IpNk,l (n)
k ,l
= π0(x0)∏k∈I
Lk (P)
onde Lk (P) =∏
l∈I pNk,l (n)k ,l depende somente dos elementos
na k -ésima linha da matrix P.Seja l(π0,P,x) = log L(π0,P,x). Então temos as equações,
l(π0,P,x) = l0(π0, x0) +∑k∈I
lk (P,x).
Queremos maximizar l sujeita a condições que∑x
π0(x) = 1e que∑j∈I
P(k , j) = 1
para todo k ∈ I. Usando multiplicadores de Lagrange eescrevendo ni =
∑j∈I temos as estimativas de MV
pij =nij
niquando ni > 0 π0(i) = 1(i = x0).
Se ni = 0 colocamos pij = 0, j 6= i .Seja
I = {i ∈ I : ni > 0}
a porção observada do espaço de estados. Obviamente, I éfinito. Note que (pij , i , j ∈ I) é uma matriz estocástica sobre I.Denote esta matriz por P.
Teorema: Se (Xn) é uma cadeia de Markov ergódica(irredutível, recorrente positiva), então Pij → pij comprobabilidade 1 para todo i , j ∈ S independentemente dadistribuição inicial.Lembre-se que
1n
Nij(n)→ π(i)pij
e1n
Ni(n)→ π(i).
Teorema: Se (Xn) é uma cadeia de Markov ergódica, entãoindependentemente da distribuição inicial[√
Ni(n)(Pij(n)− pij)]
i,j∈I→ N(0,Σ)
onde
σij,kl =
pij(1− pij), (i .j) = (k , l)−pijpil , i = k , j 6= l
0, caso contrário.
Obs.: A covariância assintótica tem uma estrutura multinomialdentro das linhas e independência entre as linhas.
Aplicação a Snoqualmie FallsUsando o resultado do Teorema anterior vemos que P01 e P11são assintóticamente independentes. Mais ainda
P11 ≈ N(p11,p11(1− p11)/nπ(1))
onde π é a distribuição estacionária da CM.Podemos estimar a variância usando
P11 =N11
N1e π(1) =
N1
n
onde
N11 =36∑
i=1
N(i)11 , . . .
Como n11 = 643, n1 = 771, n01 = 123, n0 = 309 e n = 1080,intervalos de confiança assintóticos de 95%:
IC(p11,95%) = (0.808; 0.860) IC(p01,95%) = (0.343; .453).
Note que cada intervalo tem 95% de confiança, masconjuntamente, usando a independência assintótica,(.95)2 = .903. a fim de encontrar uma região de confiança com95% devemos usar intervalos individuais com 97.5%, obtendoo retângulo:
(.775; .893)× (.272; .524).
Algumas vezes, é natural parametrizar o modelo.
Eugen OneginO próprio Markov deu um exemplo de Cadeia de Markov em1924. Markov estudou um extrato de um poema de Puskinchamado Eugen Onegin e classificou 20.000 caracteresconsecutivos em vogais e consoantes.
Vogal seguinte Consoante seguinte TotalVogal 1106 7536 8638
Consoante 7533 3829 11362Total 8639 11361 20000
É bastante óbvio que a escolha de vogal e consoante para aletra seguinte não é independente da letra atual. Um modelomuito simples é assumir que a troca se faz de forma constante,isto é a matrix de transição é:
P =
[1− p p
p 1− p
]
Teoria assintóticaPor simplicidade no caso paramétrico vamos assumir espaçode estados finito. Assuma que as probabilidades de transiçãodependam somente de um parâmetro θ, tomando valores emum espaço paramétrico Θ ⊂ Rr . Vamos assumir as seguintescondições de regularidade:
1. D = {(i , j); pij > 0} não depende de θ.2. Cada pij(θ) é 3-vezes continuamente diferenciável.3. A matriz de dimensão d × r , ∂pij(θ)/∂θk , i , j ∈ D,
k = 1, . . . , r e d é a cardinalidade de D, tem posto r .4. Para cada θ existe somente uma classe ergódica e
nenhum estado transiente.
Podemos escrver a verossimilhança como
l(θ,x) =∑
D
nij log pij(θ).
Diferenciando esta expressão obtemos as equações deverossimilhança:
∂
∂θkln(θ) =
∑D
ni jpij(θ)
∂pij(θ)
∂θk= 0, k = 1, . . . , k .
Seja θ0 o verdadeiro valor do parâmtro.
Teorema: Assuma as condições de regularidade:(i) Existe uma solução θ das equações de verossimilhança queé consistente;(ii)√
n(θ − θ0)→ N(0, I−1(θ0)), onde I é a matriz deinformação:
Iuv (θ0) =∑
(i,j)∈D
π(i ,θ0)
pij(θ0)
∂pij(θ0)
∂θu
∂pij(θ0)
∂θv.
(iii) Var√
n(θ − θ0) pode ser estimada de forma consistentepelo inverso da informação observada[
−Nij
n∇2 log pij(θ)
]−1
.
Exemplo: Eugen Onegin Estimamos p pela equação:
l(p) = (n00 + n11) log(1− p) + (n01 + n10) log p,
onde 0 = vogal e 1 = consoante. O máximo é obtido em:
P =N01 + N10
ne p =
7532 + 753320000
= 0.753.
A segunda derivada da verossimilahnça é:
l ′′(p) = −n00 + n11
(1− p)2 +n01 + n10
p2
Portanto, o erro padrão assintótico estimado é(−l ′′(p))−1/2 = (p(1− p)/n)1/2 = (.753× .247/20000)1/2. Oque nos dá um IC de nível 95% como:
(.747; .759)
Note que nem p01 = .872 nem p10 = .663 pertence a esteintervalo, indicando que o modelo de um parmâmetro não éadequado.
Teorema: Assuma as condições de regularidade. Seja θ oEMV sob a hipótse paramétrica H0. Também, seja P o EMVnão paramétrico e θ0 o verdadeiro valor do parâmetro, quandoH0 é verdadeira. Então:(i) 2
(l(θ)− l(θ0)
)D→ χ2(r);
(ii) 2(
l(P)− l(θ))D→ χ2(d(d − 1)− r);
(iii) As estatísticas em (i) e (ii) são assintóticqamenteindependentes.
Teorema: Assuma as condições de regularidade. Sejam θ0 oEMV sob a hipótese paramétrica H0 : θ ∈ Θ0 e θ1 o EMV sob ahipótese θ ∈ Θ0 ∪Θ1. Então para se testar H0 : θ ∈ Θ0 vs.H1 : θ ∈ Θ1 a estatística do teste a ser utilizada é:
−2(
l(θ0)− l(θ1))D→ χ2(s)
onde s = dim(Θ1 ∪Θ0)− dim(Θ0).
Teste para independência: Suponha que queremos testar ahipótese de que a seqüência X1,X2, . . . tomando valores emI = {0,1, . . . ,K} é independente vs. a hipótese de quepertença a uma CM de ordem 1. Em termos de parametrizaçãosimplesmente colocamos: H0 : pij = θj para todo i , j ∈ I.Neste caso, precisamos calcular o máximo sob as duashipóteses (independência e CM de ordem 1).
CM de ordem 1: Pij = Nij/Ni .Sob a hipótese de independência temos uma distribuiçãomultinomial, com n.j =
∑i nij observações da categoria com
probabilidade θj . A verossimilhança é:
l(θ) =K−1∑j=0
n.jθj + n.K (1−K−1∑j=0
θj),
a qual é maximizada por θj = N.j/n. Portanto, a estatística darazão de verossimilhança é dada por:
2(
l(P)− l(θ))
= 2∑i,j
Nij logNij/Ni
N.j/n
a qual assintoticamente tem uma distribuição χ2 comK (K + 1)− K = K 2 graus de liberdade. No modelo deSnoqualmie Falls K = 1.
Em Inferência usamos o teste chi-quadrado de Pearson:
X =∑ (Nij − Nip0
ij )2
Nip0ij
Eugen Onegin Queremos testar a hipótese H0 : p01 = p10Os valores esperados para a estatística de Pearson sãocalculados multiplicando-se as somas das linhas(n0,n1) = (8.638; 11.362) pela matriz de transição estimadasob H0:
P =
(0.247 0.7530.753 0.247
)obtendo
(Eij) =
(2131.4 6506.68558.4 2803.6
)
A Estatística chiquadrado para testar a hipóteseuni-dimensional é:
χ2 =∑
ij
(nij − ni p0ij )
2
ni p0ij
= 1217.7.
O valor exato da estatística exata da verossimilhança é 1217.7.(Aproximação excelente!!!)