Universidade Federal do Rio de Janeiro
Departamento de Metodos Estatısticos
Curso de Pos-graduacao em Estatıstica
Viviana das Gracas Ribeiro Lobo
Bondade do ajuste, analise de resıduos bayesiana em modelos espaciais
Rio de Janeiro
2014
Viviana das Gracas Ribeiro Lobo
Bondade do ajuste, analise de resıduos bayesiana em modelos espaciais
Dissertacao apresentada ao Curso de Estatıstica da UFRJ,
como requisito para a obtencao do grau de MESTRE em
Estatıstica.
Orientadora: Thaıs Cristina Oliveira da Fonseca
PhD em Estatıstica
Rio de Janeiro
2014
Lobo, Viviana
Bondade do ajuste, analise de resıduos bayesiana em modelos espaciais / Vivi-
ana Lobo - 2014
xx.p
. I.Tıtulo.
CDU xxxx
Viviana das Gracas Ribeiro Lobo
Bondade do ajuste, analise de resıduos bayesiana em modelos espaciais
Dissertacao apresentada ao Curso de Estatıstica da UFRJ,
como requisito para a obtencao do grau de MESTRE em
Estatıstica.
Aprovado em, 8 de Maio de 2014
BANCA EXAMINADORA
Thaıs Cristina Oliveira da Fonseca
PhD em Estatıstica
Fernando Antonio da Silva Moura
PhD em Estatıstica
Marcia D’Elia Branco
DSc em Estatıstica
Resumo
Dados georeferenciados frequentemente apresentam observacoes atıpicas ou regioes com heterocedastici-
dade espacial. Modelos baseados na suposicao de gaussianidade nao sao os mais adequados para este
problema. Uma alternativa e a utilizacao de modelos com caudas mais pesadas, permitindo uma maior
flexibilidade no tratamento dessas observacoes. Neste trabalho, sao propostos metodos de diagnostico
para analise e deteccao de outliers, atraves de funcoes de influencia espacial, analise de resıduos baye-
sianos e p-valores bayesianos num contexto espacial. Outras ferramentas de diagnostico sao abordadas
para deteccao de outliers baseados na distribuicao preditiva, como a concordancia preditiva (PC) e a or-
denada preditiva condicional (CPO) e teste de Savage-Dickey. Alem desses, sao propostos neste trabalho
a probabilidade mais conservadora (McP) e o p-valor do CPO (CPOp). Num contexto de comparacao
de modelos, utilizou-se o fator de Bayes usual e fracionario, mostrando vantagens e desvantagens em sua
aplicabilidade quando ha presenca de outliers. Foram utilizados dados simulados segundo varios cenarios
de contaminacao por valores atıpicos. Tres modelos espaciais propostos na literatura sao ajustados e
comparados para os cenarios e metodos propostos.
Palavras-chaves: deteccao de outliers, analise de resıduos, p-valores bayesianos, estatıstica espacial
Abstract
Georeferenced data often present atypical observations or regions with spatial heterocedasticity. Models
based on the assumption of gaussianity are not optimal for this problem. An alternative is to use
models with heavier tails, allowing flexibility in the treatment of these observations. In this dissertation
we propose methods for detection and analyze of outliers, through spatial influence functions, bayesian
residual analysis and bayesian p-values in a spatial context. Other diagnostic tools are discuessed for
outlier detection based on the predictive distribution, as predictive concordance (PC) and the conditional
predictive ordinate (CPO) and Savage-Dickey test. In addition to these, are proposed in this work the
most conservative p-value (McP) and p-value of CPO (CPOp). In the context of model comparison, are
used the usual and fractional Bayes factor, showing advantages and disadvantages in its application when
there are presence of outliers. Three spatial models proposed in the literature are adjusted and compared
to the scenarios and proposed methods.
Keywords: outlier detection, bayesian residual analysis, bayesian pvalue, spatial statistics.
Agradecimentos
Agradeco a minha famılia, pelo apoio incondicional.
Aos meus amigos, em especial a Natalia S. Paiva companheira de guerra desde os tempos
de graduacao, Aniel Ojeda pela grande ajuda e contribuicao matematica ao longo do curso, Eduardo F.
Gomes pelas discussoes sobre a definicao da probabilidade mais conservadora e aos rapazes, Fernando G.
Aragao, Rafael Jorge Pereira e Rafael Barcellos.
Aos meus orientadores: de graduacao Dirley M. dos Santos, pelo incentivo, de mestrado
Thais C. O. Fonseca, pela colaboracao e conhecimentos repassados a mim, me dando a oportunidade de
aprender novos conceitos e metodos ao longo do trabalho.
Aos membros da banca, por terem disponibilizado seu tempo para contribuicao deste tra-
balho, Fernando A. S. Moura e Marcia D’Elia Branco.
Universidade Federal do Rio de Janeiro e a CAPES pelo apoio financeiro, do qual possibili-
taram a oportunidade de dar continuidade aos meus estudos.
Sumario
Lista de Tabelas 9
Lista de Figuras 11
1 Introducao 13
1.1 Estrutura e classificacao dos outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2 Exemplo de motivacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3 Delineamento da dissertacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Estatıstica espacial 18
2.1 Modelo Gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Modelo de Mistura Espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Classes de Covariancias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.1 Classe Matern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.2 Classe Cauchy Generalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Inferencia bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1 Distribuicao a Priori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4.2 Distribuicao a posteriori e distribuicao preditiva . . . . . . . . . . . . . . . . . . . 25
3 Exemplo simulado e contaminacao de dados 26
3.1 Estimacao dos parametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Modelo Gaussiano - Classe Matern . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Modelo T-Student multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.3 Modelo GLG - Classe Matern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2 Comportamento dos λ’s no modelo GLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4 Funcoes de influencia espaciais 37
4.1 Funcao de influencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Caso Espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.1 Caso Gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.2.2 Caso T-Student Multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2.3 Caso GLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Exemplo Simulado I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3.1 Caso Gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Exemplo Simulado II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5 Analise de resıduos e deteccao de outliers em modelos espaciais 52
5.1 Analise bayesiana de resıduos para deteccao de outliers . . . . . . . . . . . . . . . . . . . 53
5.1.1 Escolha do limiar t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2 Deteccao de outliers baseados na preditiva . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.1 Concordancia Preditiva (PC) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.2 Ordenada preditiva condicional (CPO) . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2.3 Probabilidade mais conservadora . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2.4 Razao de densidades de Savage-Dickey . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.3 Estudo Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
6 P-valor bayesiano 72
6.1 Medidas de discrepancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.2 Estudo Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7 Selecao de modelos 83
7.1 Fator de Bayes Usual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.2 Fator de Bayes fracionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
7.3 Regra de Decisao e Interpretacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
7.4 Estudo Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
8 Conclusoes e projetos futuros 93
A Condicionais Completas 95
A.1 Caso Gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
A.2 Caso T-Student Multivariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
A.3 Caso GLG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
7
A.4 Amostrador para os λ’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
B T-Student Multivariada 101
Lista de Tabelas
3.1 Simulacao dos dados (z) oriundos de uma distribuicao normal multivariada com seus res-
pectivos parametros (σ2,µ, φ, κ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.2 Contaminacao dos dados para cada cenario . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3 Mediana a posteriori e quantis de 2,5% e 97,5% para os parametros do modelo gaussiano
no Cenario 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.4 Mediana a posteriori e quantis de 2,5% e 97,5% para os parametros do modelo t student
multivariado para o Cenario 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.5 Mediana a posteriori e quantis de 2,5% e 97,5% para os parametros do modelo GLG para
o Cenario 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1 Parametros fixados para o calculo da curva de influencia para as duas funcoes de covariancia 45
4.2 Valores da curtose como uma funcao do parametro responsavel pelo comportamento da
cauda ν do modelo GLG e comparados com os graus de liberdade νts da T-student. . . . 47
5.1 Tabela dos resıduos padronizados com respectivas probabilidades a posteriori pi(|ri| >
t|z) no Cenario 1 para os tres modelos propostos. Probabilidades a posteriori grandes
representam presenca de outliers na amostra. . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.2 Tabela dos resıduos padronizados com respectivas probabilidades a posteriori pi(|ri| >
t|z) no Cenario 2 para os tres modelos propostos. Probabilidades a posteriori grandes
representam presenca de outliers na amostra. . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.3 Tabela dos resıduos padronizados com respectivas probabilidades a posteriori pi(|ri| >
t|z), no Cenario 3 para os tres modelos propostos. Probabilidades a posteriori grandes
representam presenca de outliers na amostra. . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.4 Variancia relativa a posteriori para algumas observacoes suspeitas como outliers no modelo
GLG. Observacoes classificadas como outliers, apresentam variancia relativa maiores que
as demais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.5 Tabela das probabilidades multiplas a posteriori pij = p(|ri| > t3 e |rj | > t3|z) e cor-
relacao a posteriori ρij entre ri e rj , para cada modelo no Cenario 2. Probabilidades
multipla residuais a posteriori grandes, representam outliers na amostra. . . . . . . . . . . 65
5.6 Tabela das probabilidades multiplas a posteriori pij = p(|ri| > t3 e |rj | > t3|z) e cor-
relacao a posteriori ρij entre ri e rj , para cada modelo no Cenario 3. Probabilidades
multipla residuais a posteriori grandes, representam outliers na amostra. . . . . . . . . . . 65
5.7 Calculo do pci,cpoi, CPOpi e McP para algumas observacoes - observacoes destacadas
em negrito representam observacoes contaminadas. Probabilidades proximas de zero sao
classificadas como outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.8 Densidade de Savage-Dickey para o modelo GLG no Cenario 2 e 3 em favor de λi para
algumas observacoes selecionadas. Observacoes em negrito representam observacoes con-
taminadas classificando-as como outliers. . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.1 P-valor preditivo a posteriori (ppp) para os tres modelos propostos em seus respectivos
cenarios de acordo com as discrepancias (A), (A∗), (B) e (F) propostas no estudo. Proba-
bilidades proximas de zero indicam a nao adequacao do modelo aos dados. . . . . . . . . . 77
7.1 Calibragem do fator de Bayes segundo Jeffreys [1961]. . . . . . . . . . . . . . . . . . . . . 87
7.2 Calibragem do fator de Bayes na escala logarıtmica segundo Kass and Raftery [1995]. . . 88
7.3 Conclusao final para escolha do modelo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
7.4 Proporcao do 2 log do fator de Bayes usual B(z) do modelo gaussiano versus modelo TS. 89
7.5 Proporcao do 2 log do fator de Bayes Usual B(z) do modelo gaussiano versus modelo GLG. 89
7.6 Contaminacao de uma unica observacao classificada como outlier para 2 Log do fator de
Bayes Usual - modelo gaussiano versus modelo GLG. . . . . . . . . . . . . . . . . . . . . . 90
7.7 Contaminacao de uma unica observacao classificada como outlier para 2 Log do fator de
Bayes fracionario - modelo gaussiano versus modelo GLG, utilizando as constantes b. . . . 91
7.8 Propocao do 2log do fator de Bayes fracionario Bb(z) do modelo G versus modelo GLG,
de acordo com a constante b utilizada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
10
Lista de Figuras
1.1 Densidade a posteriori de µ dado valores de z (i) Caso t-student com ν = 5 e (ii) Caso
Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.1 Funcoes de correlacao Matern com seus respectivos valores de κ e φ. . . . . . . . . . . . . 21
2.2 Realizacao de uma funcao aleatoria gaussiana para a funcao de covariancia Matern com
parametros θ = (φ, κ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3 Funcao de correlacao da classe Cauchy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.1 Localizacao espacial de cada observacao de acordo com respectivo cenario. Os pontos
fixados com ∗ na cor vermelha representam os dados contaminados. O grafico (i) representa
o Cenario 1, (ii) Cenario 2 e (iii) Cenario 3. . . . . . . . . . . . . . . . . . . . . . . . 27
3.2 Convergencia das cadeias, histograma, media e autocorrelacao para os respectivos para-
metros do modelo gaussiano. A reta tracejada de cor vermelha no histograma representa
o valor verdadeiro, e a reta completa de verde representa a media a posteriori. . . . . . . . 29
3.3 Convergencia das cadeias, histograma, media e autocorrelacao para os respectivos para-
metros do modelo t-student multivariado. A reta tracejada na cor verde no histograma
representa o valor verdadeiro, e a reta completa na cor vermelha representa a media a
posteriori. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4 Convergencia das cadeias, histograma, media e autocorrelacao para os respectivos para-
metros do modelo GLG. A reta tracejada na cor verde no histograma representa o valor
verdadeiro, e a reta completa na cor vermelha representa a media a posteriori. . . . . . . 35
3.5 Comportamento dos λ’s em cada cenario. Observacoes contaminadas sao destacadas em
verde e apresentam variancia relativa maior que as demais. . . . . . . . . . . . . . . . . . 36
4.1 (i) Funcoes de Densidade e (ii) Funcoes de Influencia para ν = 1 . . . . . . . . . . . . . . 38
4.2 Funcao de influencia da distribuicao t-student para respectivos graus de liberdade. A linha
tracejada na cor vermelha representa a funcao de influencia para distribuicao normal. . . 39
4.3 Funcao de Influencia univariada para o modelo gaussiano com z1 para funcao de covariancia
exponencial, para valores de φ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4 Funcoes de Influencia univariada para procesos gaussiano e respectivas funcoes de covariancia 46
4.5 Mapa de influencia para os processos Gaussiano, T-Student Multivariado (com νTS =
203 graus de liberdade) e GLG (ν = 0, 01 responsavel pelo comportamento da cauda),
alternando o valor do alcance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.6 Mapa de influencia para os processos Gaussiano, T-Student Multivariado (com νTS = 5
graus de liberdade) e GLG (ν = 1 responsavel pelo comportamento da cauda), alternando
o valor do alcance. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.1 Box-Plots das distribuicoes a posteriori dos resıduos para as 30 observacoes nos modelos
(i) Gaussiano, (ii) T-Student Multivariado e (iii)GLG. As linhas pontilhadas representam
o intervalo (-2,2) para o caso gaussiano e as caixas de cor verde (pontos acima ou abaixo
do intervalo) representam os pontos contaminados em cada cenario. . . . . . . . . . . . . 60
5.2 Densidades preditivas para cada observacao dos modelos propostos para o Cenario 2 onde
a linha tracejada representa o dado observado zobsi , de acordo com os resultados obtidos
de pci. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.3 Densidades preditivas para cada observacao dos modelos propostos para o Cenario 3 onde
a linha tracejada representa o dado observado zobsi , de acordo com os resultados obtidos
de pci. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.1 Proporcao dos pontos acima da reta para atraves do calculo do p-valor baseado na medida
de discrepancia (A) na primeira linha e (A∗) segunda linha para o modelo gaussiano e
respectivos cenarios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.2 Histograma e grafico de dispersao para a medida de discrepancia (A) para os modelos
propostos em seus respectivos cenarios. A reta vermelha em cada histograma representa o
valor observado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.3 Histograma e grafico de dispersao para a medida de discrepancia (A∗) para os modelos
propostos em seus respectivos cenarios. A reta vermelha em cada histograma representa o
valor observado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
6.4 Histograma e grafico de dispersao para a medida de discrepancia (B) para os modelos
propostos em seus respectivos cenarios. A reta vermelha em cada histograma representa o
valor observado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
6.5 Histograma e grafico de dispersao para a medida de discrepancia (F ) para os modelos
propostos em seus respectivos cenarios. A reta vermelha em cada histograma representa o
valor observado. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
7.1 Densidades para os modelos G, T-Student e GLG,para observacoes nao contaminadas, tal
que `max − `t ∼ Gamma(α, 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.2 Graficos do 2log(FBU) em favor do modelo gaussiano versus modelo GLG , utilizando o
estimador Shifted Gamma, quando observacao 15 e nao contaminada e contaminada. . . . 91
12
13
1 Introducao
Dados utilizados na analise estatıstica comumente apresentam algum tipo de referencia espaco-temporal.
Quando incorporado a dimensao espaco-temporal, e frequente a presenca de observacoes atıpicas, o que
pode causar algum tipo de vies na modelagem dos dados.
Considere interesse em modelar algum fenomeno no espaco como um processo estocastico
{Z(s) : s ∈ D} (1.1)
onde s varia continuamente em D e D representa o conjunto de todas as localizacoes s permitindo previsao
para qualquer ponto no espaco, tal que D ⊆ <d. Para qualquer colecao de localizacoes s1, . . . , sn com
cada si ∈ <2 e assumido que a distribuicao de Z = {Z(s1), . . . , Z(sn)} e uma Normal Multivariada
com media µ = (µ(s1), . . . , µ(sn)) e matriz de covariancia Σ com elementos Σij = Cov {Z(si);Z(sj)}.
Usualmente considera-se localizacao espacial s de dimensao dois, ou seja, utiliza-se latitude e longitude.
A estrutura de covariancia utilizada para os modelos propostos no presente estudo sao validas
em <d e sua validade depende da escolha da funcao de covariancia adotada. Adotaremos tres funcoes de
covariancia, da classe Matern, a Exponencial (como um caso especial da Matern) e a Cauchy Generalizada.
Estas estruturas sao validas em qualquer numeros de dimensoes segundo Stein [1999].
Se estamos interessados em modelar algum fenonomeno espacial, como por exemplo, chuva
de uma determinada regiao, algumas localizacoes podem apresentar maior variabilidade comparada as
outras localizacoes, vide que fenomenos naturais frequentemente apresentam dados fora do normal.
Modelos baseados na gaussianidade nao possuem um bom desempenho se o conjunto de
dados apresenta outliers, dados extremos ou regioes com maior variabilidade observacional. Desta forma,
modelos nao gaussianos sao preferıveis para tratar e acomodar outliers, ja que possuem caudas mais
pesadas e sao capazes de acomodar associacao espacial de forma a explicar melhor o comportamento dos
dados de maneira mais realista.
Recentemente na literatura, foram desenvolvidos alguns tipos de modelos nao-gaussianos
para processos espaciais, como De Oliveira and Short [1997] que utiliza transformacoes nao lineares de
campos amostrais, para acomodacao de outliers moderados. Ja Palacios and Steel [2006] propuseram um
modelo geoestatıstico para acomodar a nao gaussianidade, via misturas de escala, modelando somente
no espaco. Fonseca and Steel [2011] abordaram o uso de misturas em funcoes de covariancias no espaco
e no tempo.
Palacios and Steel [2006] mostraram ainda que embora o processo T-student seja um modelo
com caudas mais pesadas que o da Normal, ele nao possui a flexibilidade necessaria para modelar dados
georeferenciados, pois nao e capaz de capturar estrutura espacial. Outros autores sugerem entao o
modelo de mistura GLG (no ingles Gaussian Log-Gaussian) o qual e baseado em um processo de mistura
log-gaussiano, permitindo a modelagem em regioes com maior variancia. Este processo estocastico nos
permite identificar e acomodar observacoes consideradas outliers via mistura de escalas.
Com a finalidade de propor tecnicas de diagnosticos em modelos espaciais, utilizaremos tres
processos ao longo deste trabalho, o Gaussiano (G), o T-Student multivariado (TS) e o Gaussian Log
Gaussian (GLG),
O objetivo deste trabalho e estudar medidas de bondade do ajuste, analise de resıduos e
comparacao de modelos em modelos nao gaussianos para processos que variam de forma contınua no
espaco. O principal interesse e estudar a influencia do outlier na estimacao do parametro de interesse e
comparacao de modelo. Por exemplo, O’Hagan [1995] diz que um unico outlier pode dominar o calculo
e produzir um fator de Bayes totalmente enganoso. Em geral, algumas observacoes podem ser altamente
influentes para a estimacao dos parametros de um modelo mas de outro modelo nao.
Para isso iremos abordar os seguintes temas num contexto de modelos espaciais:
1. Utilizacao de funcoes de influencia, com objetivo de ver o quao uma observacao classificada como
outlier influencia na estimacao do parametro de interesse. Essa tecnica baseia-se na abordagem de
West [1984] e e generalizada para o contexto espacial.
2. Adota-se medidas de bondade de ajuste para selecao e comparacao de modelos mais robustos,
atraves de testes de hipoteses bayesiano, como o fator de Bayes usual (Kass and Raftery [1995]) e
fator de Bayes fracionario (O’Hagan [1995]), na crenca de que o fator de Bayes fracional fornece uma
forma de reduzir a sensiblidade do fator de Bayes usual perante os outliers. O p-valor bayesiano,
baseado na distribuicao preditiva tambem e utilizado para ver o quao adequado pode ser o modelo
na presenca de observacoes discrepantes.
3. Analises de resıduos bayesianos tambem sao estudados, como descrito em Chaloner and Brant [1988]
para deteccao de outliers. Os resıduos usuais utilizados em analise de regressao sao aplicados no
contexto espacial para deteccao de outliers. Alem disso, probabilidades a posteriori dos resıduos
tambem sao usadas para detectar outlier
4. Metodos de deteccao baseados na distribuicao preditiva sao estudados, como a concordancia pre-
ditiva (pc) proposto por Gelfand [1996], o calculo da preditiva condicional ordinal Gelfand [1996]
e uma medida de classificacao de outlier mais conservadora. O teste de Savage-Dickey, e utilizado
para o modelo GLG como um outro tipo de diagnostico para deteccao de outliers.
1.1 Estrutura e classificacao dos outliers
Define-se um outlier como uma observacao atıpica, ou seja, que apresenta um grande afastamento das
demais observacoes do conjunto amostral. Em estatıstica, a existencia dessas observacoes podem levar a
ma interpretacao dos resultados aplicados em toda a amostra.
E de extrema importancia saber como lidar com tal tipo de observacao, visto ser um problema
frequente em estatıstica. Diversos autores como A. and L.R [2011] mencionam alguns pontos relevantes
14
e citam alternativas ja aplicadas na literatura para solucionar este tipo de problema.
Uma das tecnicas sugeridas na literatura e a decisao da rejeicao ou nao dessa observacao,
tratando com um peso igual as demais observacoes presentes, com o uso de distribuicoes mais propı-
cias para o tratamento desse dado. Em nosso estudo, distribuicoes com caudas mais pesadas sao mais
favoraveis para tratar observacoes que apresentam comportamentos diferentes das demais na amostra.
O matematico deFinetti [1961] mostrou como a rejeicao de outliers poderia ocorrer natu-
ralmente no contexto bayesiano. De acordo com O’Hagan [1979], deFinetti [1961] descreveu como a
distribuicao a posteriori, dependendo sempre dos dados totais de forma que um modelo adequado seria
menos influenciado por valores atıpicos. Em particular, Neyman and Scott [1971] designaram que ha
situacoes em que os outliers nao devem ser tratados apenas como observacoes discrepantes, mas como
uma caracterıstica natural do processo de geracao de dados.
Neyman and Scott [1971] introduziram a classificacao de dois termos: outlier-prone, distri-
buicoes inclinada a valores extremos e outlier resistant, distribuicoes que resistem a valores atıpicos. Tais
termos sao inseridos em tipos de distribuicoes diferentes, como por exemplo, distribuicoes normais sao
classificadas como outlier resistant e distribuicoes t-student sao classificadas como outlier-prone .
A literatura sugere metodos bayesianos para resolver esse tipo de problema, atraves de um
modo automatico, sendo uma das alternativas o uso de distribuicoes com caudas pesadas. Uma forma
para geracao de tal tipo de distribuicao e realizada via de misturas de escalas da distribuicao Normal
como descrito em West [1984], A. and L.R [2011],Choy and Smith [1997] e Johnson and Geisser [1983].
1.2 Exemplo de motivacao
O exemplo apresentado a seguir e exposto em A. and L.R [2011] sob o enfoque bayesiano atraves da
modelagem de distribuicao com caudas pesadas via mistura de escalas, com intuito de tratar observacoes
extremas presentes no conjunto de dados.
Seja uma amostra contendo 6 observacoes, y = (1.5, 2.6, 0.3, 0.9, 2.2, 25.5), onde cada ob-
servacao yi tem distribuicao yi ∼ tν(µ, 1) independentes. Observe que a ultima observacao parece ser
um caso diferente das demais e nos questiona como trata-la quando comparada as demais observacoes
restantes. Considere a distribuicao t-student com densidade:
f(yi |µ, ν) ∝[1 +
(y − µ)2
ν
]− (ν+1)2
Portanto a funcao de log-verossimilhanca e dada por
15
log f(y |µ, ν) = log
n∏i=1
f(yi |µ, ν)
=
n∑i=1
log Γ
(ν + 1
2
)−
n∑i=1
log Γ(ν
2
)+
1
2log
(1
πν
)− (ν + 1)
2
n∑i=1
log
[1 +
(yi − µ)2
ν
]Considera-se uma priori uniforme para µ. A sexta observacao pode ser denotada por z e
uma distribuicao a posteriori de µ|y e z →∞.
A proposta e mostrar graficamente pelas curvas de densidade a posteriori de µ que se alte-
rarmos o valor de z, sendo z uma observacao da amostra y, a curva ira se mover suavemente, esbocando
uma nao influencia na estimacao do parametro µ.
Podemos comparar o caso da distribuicao t com a distribuicao Normal(µ, 1), novamente
considerando uma priori uniforme para µ. A funcao de log-verossimilhanca da Normal e dada por
logf(y |µ) =
n∑i=1
log
(1
2π
)− 1
2
n∑i=1
(yi − µ)2
−1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
T − Student(ν, µ, 1)
µ
f
z=2z=10z=25.5z=200
−1 0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
1.0
Normal(µ, 1)
µ
f
z=2z=5z=10z=20
(i) (ii)
Figura 1.1: Densidade a posteriori de µ dado valores de z (i) Caso t-student com ν = 5 e (ii) Caso Normal
Em relacao a distribuicao Normal(µ, 1) Figura (1.1) (ii), podemos observar que a alteracao
e o aumento do valor da sexta observacao (z) faz com que a curva se mova para a direita de forma
significativa indicando uma forte influencia na estimacao de µ. Por outro lado, isso nao ocorre com a
distribuicao t-student. Essa mudanca suave nas curvas e uma caracterıstica natural da distribuicao t,
como mostrado em Figura (1.1) (i). Baseado neste resultado, podemos concluir que distribuicoes com
caudas mais pesadas, relativamente se ajustam melhor a conjuntos de dados com observacoes aberrantes,
indicando menor influencia na estimacao do parametro de interesse. Assim, de fato, uma melhor maneira
de modelar um banco dados com tais conflitos e atraves do uso de distribuicoes com caudas pesadas, na
crenca de que isso ira fornecer um comportamento mais robusto na distribuicao a posteriori em resposta
aos outliers.
16
Acredita-se que essa influencia de observacoes atıpicas seja tambem importante num contexto
espacial, onde observacoes tendem a ser correlacionadas espacialmente. Esse tema sera abordado nesta
dissertacao.
1.3 Delineamento da dissertacao
A dissertacao esta organizada da seguinte forma. No Capıtulo 2, sao apresentados conceitos de modelagem
espacial, como por exemplo estacionariedade. Tambem sao apresentados os tres processos espaciais que
serao comparados ao longo do estudo, gaussiano, T-student multivarido e GLG, acrescentando suas
caracterısticas, vantagens e desvantagens. A escolha das funcoes de covariancia utilizadas no contexto
espacial tambem e exposta, bem como a utilizacao da inferencia bayesiana para estes modelos e para as
metodos adotados nos capıtulos seguintes.
No Capıtulo 3, e realizado a simulacao de um pequeno conjunto de dados, oriundos de uma
normal multivariada. Os dados sao contaminados em cenarios - nenhum, pouco, moderados outliers. Em
particular, estamos interessados em utilizar distribuicoes com caudas mais pesadas comparadas as da
normal atraves de mistura de escalas para acomodar a nao gaussianidade.
No Capıtulo 4, a funcao de influencia e estendida para o caso espacial, com a finalidade de
observar o quao influente pode ser uma observacao classificada ou nao como discrepante na estimacao de
um parametro de interesse. Mapas para as funcoes de influencia dos processo sao expostos para os tres
modelos.
No Capıtulo 5, sao estudados alguns metodos de diagnosticos bem estabelecidos na literatura
para deteccao de outliers, sendo estendido para o contexto espacial. A analise de resıduo bayesiana de
forma padronizada e descrito para os tres modelos espaciais considerados (Normal, T-Student e GLG).
Metodos de deteccao de outliers baseados na preditiva e teste de Savage-Dickey tambem sao estudados.
Alem disso, e proposto por mim dois metodos para detectar outliers baseados na preditiva: o p-valor para
a condicional preditivia ordinal, que pode ser visto como um p-valor de validacao cruzada e um p-valor
mais conservador na escolha de outliers.
No Capıtulo 6, e apresentado o p-valor bayesiano para cada cenario proposto no Capıtulo 3
com respectivos modelos, atraves de medidas de discrepancias que sao utilizadas como teste estatıstico
na inferencia classica.
Ja no Capıtulo 7, e estudado a comparacao e selecao de modelos atraves do fator de Bayes
usual e fator de Bayes fracional para a escolha de um melhor modelo que se adeque aos dados.
Por fim, no Capıtulo 8, e feito um breve resumo sobre os resultados da dissertacao e possıveis
trabalhos futuros.
17
18
2 Estatıstica espacial
2.1 Modelo Gaussiano
Os modelos para dados referenciados no espaco e no tempo sao recorrentemente utilizados em varias areas
tais como, meio ambiente, dados meterologicos, geologicos e saude. Neste contexto, podemos definir o
processo como descrito em (1.1) e
Z ∼ Normaln(µ, σ2Σ(θ)) (2.1)
Segundo Diggle and Ribeiro [2007], processos estocasticos do tipo gaussianos sao comumente
utilizados na pratica em modelos para dados geoestatısticos, ou seja, dados que assumem valores reais
para cada localizacao s ∈ D ⊆ <d podendo capturar um comportamento espacial de acordo com a
especificacao de sua estrutura de correlacao. Tal classe e matematicamente conveniente, mas a suposicao
e muito restritiva e os dados podem apresentar muitas vezes caracterısticas nao-gaussianas (Fonseca and
Steel [2011]).
A funcao de covariancia para o processo Z(s) e escrita da forma
C(s, s+ us) = Cov {Z(s);Z(s+ us)} (2.2)
onde C e uma funcao de covariancia valida em <d. Por exemplo, a funcao de covariancia para o modelo
Matern e valida em qualquer numero de dimensoes (Stein [1999]) e e utilizada para processos puramente
espaciais (ver em Banerjee et al. [2004], Palacios and Steel [2006]). A seguir, iremos tambem considerar
alguns conceitos como estacionariedade e isotropia.
O processo {Z(s) : s ∈ D} e dito ser estacionario, se sua esperanca nao depende dos pontos
de localizacao, ou seja, se µ(s) = µ, e uma constante para s e C(s, s+ us) = K(us), onde us representa
o vetor de diferenca.
O processo estacionario e isotropico se C(s, s+us) = K(||us||) onde || · || denota a distancia
euclidiana, ou seja, a covariancia entre os valores de Z(s) para qualquer duas localizacoes depende somente
da distancia entre eles.
2.2 Modelo de Mistura Espacial
Frequentemente dados apresentam algum tipo de observacao atıpica. E preciso saber lidar com esse tipo
de dado quando consideramos um processo no espaco, pois usualmente este tipo de dado pertencem a
sub-regioes que apresentam variancias observacionais grandes. Com isto, a distribuicao gaussiana torna-
se inadequada para este tipo de problema. E considerado processos nao-gaussianos, construıdo atraves
de modelos de mistura espacial com a finalidade de explicar o comportamento de caudas mais pesadas.
E de nosso interesse enfatizar a importancia dos modelos nao-gaussianos para processos que
variam continuamente no espaco.
Seja Z um processo escotastico definido para localizacoes s em alguma regiao espacial D ⊂
<d. Podemos escrever o modelo como:
Z(s) = xT (s)β + σZ(s)
λ1/2(s)+ τω(s) (2.3)
onde xT (s) representa as covariaveis do modelo com vetor de coeficientes β ∈ <k desconhecidos; Z(s)
e um processo gaussiano definido em s ∈ D, com um vetor de medias zero, e matriz de correlacao que
depende da distancia entre os pontos dada por Σ(θ), representando uma matriz de correlacao n× n, ou
seja, e a funcao de correlacao parametrizada pelo vetor θ = (φ, κ)T , tal que κ representa um parametro
de suavizacao e φ o parametro de decaimento. Um efeito pepita (do ingles nugget efect) dado por
ω(s) iid com media zero e matriz de covariancia τ2In, e inserido no modelo afim de permitir erros de
medida e variacao de pequena escala. Note que se τ2 = 0 havera a ausencia do efeito pepita no processo
{Z(s) : s ∈ D}.
Se definimos λ(s) 6= 1, teremos um processo nao gaussiano, onde a unica diferenca e que
neste caso temos um processo de mistura denotado por λ(s), tal que o processo {λ(s) : s ∈ D} e um
processo de mistura positivo espacialmente correlacionado, isto e, uma funcao unica da distancia us,
entre si e sj , do qual independe de Z(s) e do efeito pepita. Abaixo, sao apresentados dois modelos nao
gaussianos:
A) O caso em que a distribuicao de mistura λ(s) = λ e λ|ν ∼ Gama(ν2 ,
ν2
)marginalizando z com
respeito a λ temos um processo T-student multivariado dado por
z ∼ t− studentn(µ, ν, σ2Σ(θ) + τ2In) (2.4)
onde ν representa os graus de liberdade e o calculo da marginalizacao pode ser visto com maiores
detalhes no Apendice B. Tambem podemos escreve-lo como
z|β, σ2,θ, λ ∼ Normaln(Xβ, σ2λ−1Σ(θ) + τ2In) (2.5)
B) Palacios and Steel [2006] propoem a classe de modelos GLG, permitindo a modelagem em regioes
com maior variancia. A insercao da variavel λ afeta a variancia do processo permitindo que o
mesmo se torne mais flexıvel, realıstico e acomode heterocedasticidade espacial.
Em particular, uma variavel de mistura λ(s) ∈ <+ e atribuıda para cada observacao da amostra e
a distribuicao conjunta de z|Λ e dada por:
19
z|β, σ2, τ2, θ,Λ ∼ Normaln(Xβ, σ2(Λ−1/2Σ(θ)Λ−1/2) + τ2In
)(2.6)
tal que Λ = diag(λ1, . . . , λn). Ao longo deste estudo nao usaremos o incremento do efeito pepita,
considerando τ2 = 0. Integrando em λ temos um processo com caudas mais pesadas que a normal.
Queremos estar na situacao em que poderıamos acomodar esses outliers, o que pode ser
realizado via mistura de variaveis para cada localizacao. De forma geral podemos definir a distribuicao
de mistura adotado em Palacios and Steel [2006] como
ln(λ) = (ln(λ1), ln(λ2)), . . . , ln(λn)))T ∼ Normaln(−ν
21, νΣ(θ)
)(2.7)
onde 1 representa um vetor de un’s, correlacionamos os elementos de ln(λ) atraves da mesma matriz de
correlacao como em Z(s) e ν ∈ <+ e um parametro escalas introduzido na distribuicao de ln(λ) e tais
valores perto de zero levam inflacao da variancia.
Cada elemento da distribuicao de λ(s) seguira uma Log-Normal com media E(λ) = 1 e
variancia V ar(λ) = eν − 1.
O grande diferencial desde modelo apresentado por Palacios and Steel [2006], e permitir
que os parametros do qual estamos interessados sejam estimados de maneira mais adequada quando
deparados com observacoes conflitantes, pois este e capaz de acomodar heterocedasticidade espacial,
devido a mistura de escala atribuida para cada localizacao, o que nao acontece com o modelo gaussiano e
T-student multivariado, pois estes nao sao capazes de capturar heterocedasticidade espacial, visto que o
modelo gaussiano nao apresenta nenhum parametro responsavel pelo comportamento da cauda e no caso
T-student multivariado embora tenhamos este parametro, e utilizado uma unica mistura de escala para
todas as localizacoes, e esta mistura nao se torna adequada para acomodacao de observacoes atıpicas.
2.3 Classes de Covariancias
Dados geoestatısticos sao comumente baseados na teoria de processos aleatorios gaussianos e o principal
elemento e a funcao de correlacao. Se o campo e tambem isotropico, a funcao de correlacao so dependera
da distancia u. Assim, algumas funcoes de correlacao sao incluıdas neste estudo.
2.3.1 Classe Matern
Uma forma muito comum do comportamento empırico para a estrutura de covariancia estacionaria e que
a correlacao entre Z(si) e Z(sj) decresce como a distancia u = ||si − sj || cresce. E natural, portanto,
olhar para modelos cuja estrutura de correlacao teorica se comporta desta maneira. E esperado tambem
que diferentes aplicacoes possam exibir diferentes graus de suavizacao no processo espacial Z(s).
A famılia Matern de funcoes de correlacao satisfaz essas duas determinantes. E uma famılia
de dois parametros desconhecidos, dado por
20
ρ(u) ={
2k−1Γ (κ)}−1
(u
φ
)κKκ
(u
φ
), u ≥ 0, φ ≥ 0 (2.8)
onde Kκ(·) e a funcao de Bessel modificada de ordem κ, sendo que κ > 0 determina a suavizacao analıtica
do processo Z(s) e 1/φ > 0 representa o parametro de alcance com as dimensoes da distancia, ou seja, a
distancia no qual as observacoes estao espacialmente correlacionadas.
Note que, para κ = 0, 5, a funcao de correlacao Matern reduz-se a funcao de correlacao
exponencial, ρ(u) = exp(−uφ
). Por outro lado, quando κ → ∞, ρ(u) → exp
{−(uφ
)2}
, tambem e
chamado de funcao correlacao Gaussiana. A funcao de covariancia e dada por
C(u) = σ2{
2k−1Γ (κ)}−1
(u
φ
)κKκ
(u
φ
), u ≥ 0, φ ≥ 0 (2.9)
A classe Matern e valida para qualquer numero de dimensoes segundo Stein [1999]. Podemos
observar graficamente na figura (2.1) o que acontece quando mudamos os valores de φ e κ.
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
u
ρ(u)
k=0.5φ=0.25k=1.5φ=0.16k=2.5φ=0.13
Figura 2.1: Funcoes de correlacao Matern com seus respectivos valores de κ e φ.
A figura abaixo representa a realizacao de funcao aleatoria gaussiana com θ = (φ, κ), com
processo mais suaves.
21
κ = 0, 5 κ = 1, 0 κ = 2, 0
Figura 2.2: Realizacao de uma funcao aleatoria gaussiana para a funcao de covariancia Matern com
parametros θ = (φ, κ)
2.3.2 Classe Cauchy Generalizada
A funcao de covariancia e dada por
C(u) = σ2
{1 +
(u
φ
)κ}ψ/κ, (2.10)
onde u e a distancia euclidiana, φ > 0, κ ∈ (0, 2] e ψ > 0. Quando κ = 2, esta classe e conhecida como
modelo Cauchy. O parametro φ representa o decaimento, κ a suaviacao do processo e ψ e responsavel
pela dependencia de longo alcance. Como na funcao Matern esta funcao tambem e valida em todas as
dimensoes, ver Gelfand and MacEachern [2005].
Uma das vantagens da utilizacao desta classe de covariancia e a flexibilidade, pois permite
a modelagem de dependencia de memoria longa e tambem correlacao de lags curtos e intermediarios. Se
ψ ∈ (0, 1) entao processo e dito ter memoria longa.
0.0 0.2 0.4 0.6 0.8 1.0
0.5
0.6
0.7
0.8
0.9
1.0
u
ρ(u)
k=0.5φ=0.25k=1.5φ=0.16k=2.5φ=0.13
Figura 2.3: Funcao de correlacao da classe Cauchy
22
2.4 Inferencia bayesiana
Nesta secao um procedimento inferencial e proposto seguindo o ponto de vista bayesiano. Para maiores
detalhes sobre o metodo bayesiano ver Migon and Gamerman [1999].
Suponha que observamos z = (z1, . . . , zn), onde zi = z(si) para cada localizacao si, i =
1, . . . , n. Temos uma media µ = β0 + β1lati + β2longi e a matriz de covariancia expressa por Σ(θ), onde
θ = (φ, κ). Podemos escrever a verossimilhanca para os respectivos modelos como:
I. Modelo Gaussiano: LG(Φ; z) = fnN (z|µ, σ2Σ(θ)), onde Φ = (β, σ2,θ)
II. Modelo T-Student Multivariado: LTS(Φ; z) = fnTS(z|µ, ν, σ2Σ(θ)) , onde Φ = (β, σ2,θ, ν)
III. Modelo GLG: LGLG(Φ; z) = fnN (z|µ, σ2Λ−1/2Σ(θ)Λ−1/2), onde Φ = (β, σ2,θ,λ, ν)
e fnN (·|µ,Σ) denota uma Normal multivariada e fTSn(·|µ, ν,Σ) e segue uma distribuicao T-Student mul-
tivariada
2.4.1 Distribuicao a Priori
A distribuicao a priori nos da o conhecimento previo a respeito do parametro do qual estamos interessados
em estudar antes de observar um conjunto de dados. Elicitar prioris nao e facil, pois temos que juntar
conhecimentos que o pesquisador acredita que seja viavel transformando este conhecimento em uma
distribuicao de probabilidade.
Se temos algum conhecimento previo do parametro de interesse, podemos utiliza-lo para
espeficicar a distribuicao a priori, caso contrario, precisamos recorrer a outros metodos, como por exemplo
utilizar prioris conjugadas ou nao informativas, procedendo uma analise bayesiana mais simples.
As prioris apresentadas a seguir foram baseadas no artigo de Palacios and Steel [2006] e
Fonseca et al. [2008] no qual tentam induzir propriedades razoaveis para um processo de elicitacao mais
cuidadoso.
• Distribuicao a priori para Modelo Gaussiano
Para o modelo gaussiano, nao teremos o incremento do efeito pepita (τ2 = 0), ou seja, os
locais de amostragem foram suficientemente proximos para detectar a variabilidade espacial da variavel
de estudo e o parametro de suavizacao κ e fixado. A distribuicao a priori sera contınua com uma funcao
de densidade da forma
π(β, σ2,θ) = π(β)π(σ2)π(θ) (2.11)
Em sequencia e descrito a escolha segundo Palacios and Steel [2006] para as distribuicoes a
priori no modelo gaussiano.
Priori para β: β ∼ Nn(0, c1In)
23
Priori para σ2: σ2 ∼ GamaInversa(a, b)
Priori para φ: φ ∼ Gama (1, c/med(us)), tal que med representa a mediana da distancia us.
• Distribuicao a priori para Modelo T-Student Multivariado
Para o modelo t-student multivariado, nao teremos o incremento do efeito pepita, ou seja, os
locais de amostragem foram suficientemente proximos para detectar a variabilidade espacial da variavel
de estudo e o parametro de suavizacao κ e fixado. A distribuicao a priori sera contınua com uma funcao
de densidade da forma
π(β, σ2,θ, ν) = π(β)π(σ2)π(θ)π(ν) (2.12)
Em sequencia e descrito a escolha segundo Palacios and Steel [2006] e Fonseca et al. [2008]
para as distribuicoes a priori no modelo T-Student multivariado.
Priori para β: β ∼ Nn(0, c1In)
Priori para σ2: σ2 ∼ GamaInversa(a, b)
Priori para φ: φ ∼ Gama (1, c/med(us))
Priori para ν : π(ν) ∝(
νν+3
)1/2 {ψ′(ν2
)− ψ′
(ν+1
2
)− 2(ν+3)
ν(ν+1)2
}1/2
, priori independente (Fonseca et al.
[2008])
em que ψ′(a) = dψ(a)da representa a funcao Trigama.
• Distribuicao a priori para Modelo GLG
Para o modelo GLG, nao teremos o incremento do efeito pepita, ou seja, os locais de amos-
tragem foram suficientemente proximos para detectar a variabilidade espacial da variavel de estudo e o
parametro de suavizacao κ e fixado. A distribuicao a priori sera contınua com uma funcao de densidade
da forma
π(β, σ2,θ, ν) = π(β)π(σ2)π(θ)π(ν) (2.13)
Em sequencia e descrito a escolha segundo Palacios and Steel [2006] para as distribuicoes a
priori no modelo GLG.
Priori para β: β ∼ Nn(0, c1In)
Priori para σ2: σ2 ∼ GamaInversa(a, b)
Priori para ν: ν ∼ GIG(ζ, δ, ι) ou ν ∼ Gama(c2, c3)
Priori para φ: φ ∼ Gama (1, c4/med(us))
24
2.4.2 Distribuicao a posteriori e distribuicao preditiva
Dado a funcao de verossimilhanca e a distribuicao a priori para o vetor de parametros Φ, para qualquer
inferencia e decisao a respeito de Φ temos que encontrar a densidade a posteriori utilizando o teorema
de Bayes sendo definida por
Teorema 2.4.1 (Distribuicao a Posteriori). A distribuicao a posteriori do vetor Φ e calculada atraves
do Teorema de Bayes, da forma
p(Φ|z) =L(Φ; z)π(Φ)∫L(Φ; z)π(Φ)dΦ
(2.14)
Para obter o denominador, ou seja, a distribuicao preditiva para o modelo de interesse
calcula-se
p(zrep|z) =
∫p(zrep|Φ)p(Φ|z)dΦ (2.15)
A equacao (2.15) sera bastante utilizada ao longo do trabalho, para o calculo das observacoes
futuras comparadas com os valores observados, verificar se uma observacao pode ser classificada como
outlier, calculo do p-valor bayesiano para o modelo e tambem na aplicacao do fator de Bayes (usual e
fracionario).
Como a posteriori do vetor parametrico Φ dificilmente possuiu uma forma analitica co-
nhecida, recorremos a utilizacao de metodos de simulacao estocastica via MCMC para obtermos uma
aproximacao da distribuicao a posteriori dos parametros. De forma mais especıfica adotamos o metodo
de Gibbs Sampler com passos de Metropolis-Hastings, para amostrar das condicionais completas. Para
maiores detalhes destes metodos ver Gamerman [1997], Robert and Casella [1999].
O calculo das condicionais completas para os modelos propostos acima sao expostas no
Apendice A, bem como a construcao do amostrador para λ.
25
26
3 Exemplo simulado e contaminacao de dados
Considere o caso em que Z(s) e um processo definido para localizacoes s em alguma regiao espacial
D ∈ <d. Podemos definir o modelo como
Z(s) = x(s)Tβ + σZ(s)
λ1/2(s)
O objetivo e mostrar a influencia das observacoes discrepantes em um processo gaussiano,
comparado com um processo nao-gaussiano como descrito anteriormente, pois outliers podem ser definidos
como observacoes pertencentes a uma determinada sub-regiao com variancia observacional grande.
Neste exemplo, foram simulados n = 30 pontos para latitute e longitude
Tabela 3.1: Simulacao dos dados (z) oriundos de uma distribuicao normal multivariada com seus respec-
tivos parametros (σ2,µ, φ, κ)
7,466 7,435 5,980 5,643 8,486 7,478 7,633 6,607 8,135 6,174
5,352 6,247 7,192 7,538 8,549 7,817 6,770 5,347 5,668 6,998
7,209 7,481 4,573 7,703 7,218 5,854 7,922 7,168 8,169 7,940
Definimos o modelo como em (2.3) para (λ(s) = 1 e ausencia de efeito pepita), simulando
z sendo oriundos de uma distribuicao fN (µ, σ2Σ(θ)), tal que µ(s) = β0 + β1lati + β2longi e matriz de
covariancia σ2Σ(θ) = Σ, e latitude (lat) e longitude (long) representam as covariaveis do modelo. Esta
simulacao foi divida em 3 cenarios e apresentado na tabela (3.2)
Para simulacao desses dados, fixamos valores iniciais para β0 = 6, 716, β1 = 2, 7, β2 = −1, 808
- para o calculo da media µ, σ = 1, φ = 0, 61, κ = 0, 5 – para o calculo da matriz de covariancia Σ, sendo
os dois ultimos parametros da funcao da matriz de correlacao Matern, do vetor θ. A partir do dado
verdadeiro (Cenario 1), foram contaminados os demais cenarios. Gostarıamos de analisar como os
dados se comportam na presenca de outliers.
Segundo West [1984] modelos normais contaminados sao uteis para caracterizar observacoes
discrepantes e mudancas na estrutura de series temporais em modelos lineares dinamicos. Utilizaremos
a mesma ideia para analise de dados contaminados em um contexto espacial.
Tabela 3.2: Contaminacao dos dados para cada cenario
Cenario 1 Sem presenca de outliers nos dados
Cenario 2 Com presenca de fracos outliers: foram contaminados 3 pontos
(observacoes 1,6,20)
Cenario 3 Com presenca de moderados outliers: foram contaminados 8 pontos
(observacoes 1,6,20,15,30,16,13,29)
As contaminacoes foram realizadas com intuito de investigar o comportamento de varios
metodos de diagnostico na identificacao de observacoes que seriam outliers. Para o Cenario 2, seleci-
onamos 3 observacoes aleatoriamente de tal forma que as observacoes 1 e 20 foram contaminadas por
adicao de um incremento aleatorio utilizando uma Uniforme(1; 3, 5) vezes um desvio padrao para cada
observacao e a observacao 6 foi contaminada por adicao de um incremento aleatorio Uniforme(1; 2, 5)
vezes um desvio padrao para todas as locacoes espaciais, classificados como fracos outliers.
Da mesma forma, o Cenario 3, classificado como moderado outliers, as 8 observacoes
foram selecionadas aleatoriamente de forma que as observacoes 1, 13, 15, 16, 20, 30 foram contaminadas
por adicao de um incremento aleatorio atraves da Uniforme(1; 3, 5), a observacao 6 adicionada por
Uniforme(1; 2, 5) e a observacao 29 adicionando uma Uniforme(1; 6, 5) vezes um desvio padrao para
todas as localizacoes espaciais. A Figura (3.1) mostra o mapa das contaminacoes em cada cenario.
long
lat
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
long
lat
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
long
lat
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
(i) (ii) (iii)
Figura 3.1: Localizacao espacial de cada observacao de acordo com respectivo cenario. Os pontos fixados
com ∗ na cor vermelha representam os dados contaminados. O grafico (i) representa o Cenario 1, (ii)
Cenario 2 e (iii) Cenario 3.
3.1 Estimacao dos parametros
Nesta secao apresentaremos a estimacao dos parametros para os tres processos propostos somente para
os dados originais, ou seja, com ausencia de contaminacao, com o intuito de verificar a convergencia do
27
vetor de parametros de cada processo.
3.1.1 Modelo Gaussiano - Classe Matern
Inicialmente iremos avaliar o modelo proposto utilizando os respectivos cenarios, atraves dos dados simu-
lados oriundos de uma Normal Multivariada com media µ = β0 + β1lati + β2longi e com estrutura de
covariancia da classe Matern com κ = 0, 5 fixo. Os dados consistem em 30 locacoes espaciais, com o vetor
de parametros Φ = (µ, σ2, φ) . Foram utilizadas as mesmas distribuicoes a priori propostas no Capıtulo
2, onde os valores dos parametros de cada priori foram selecionados de tal forma que as distribuicoes a
priori fossem vagas, ou seja, pouco informativas.
As amostras a posteriori sao obtidas utilizando M = 50000 iteracoes ,um burn-in de 1000
e lag de 50 iteracoes. A convergencia dos parametros e histogramas a posteriori sao mostradas nas
figuras (3.2), com valor verdadeiro e a curva da priori. A tabela (3.3) mostra o resumo dos parametros a
posteriori, com mediana e intervalo de credibilidade para o Cenario 1.
Tabela 3.3: Mediana a posteriori e quantis de 2,5% e 97,5% para os parametros do modelo gaussiano no
Cenario 1
Parametro Mediana (2, 5%; 97, 5%)
β0 = 6, 716 6,543 (4, 685; 8, 512)
β1=2,700 2,328 (0, 344; 4, 739)
β2=-1,808 -1,358 (−3, 340; 0, 659)
σ2 = 1, 0 1,001 (0, 941; 1, 068)
φ = 0, 61 0,588 (0, 327; 0, 935)1Taxa de aceitacao para φ igual a 0,239
28
0 200 600 1000
46
810
β0 β0
Den
sity
4 6 8 10
0.0
0.1
0.2
0.3
0.4
0 200 600 1000
6.0
6.2
6.4
6.6
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação beta0
0 200 600 1000
02
46
β1 β1
Den
sity
−2 0 2 4 6
0.00
0.10
0.20
0.30
0 200 600 1000
2.5
3.0
3.5
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação beta1
0 200 600 1000
−5
−3
−1
01
2
β2 β2
Den
sity
−4 −2 0 2
0.00
0.10
0.20
0.30
0 200 600 1000
−1.
6−
1.2
−0.
8−
0.4
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
LagA
CF
autocorrelação beta2
0 200 600 1000
0.90
1.00
1.10
σ2 σ2
Den
sity
0.90 1.00 1.10
02
46
810
0 200 600 1000
1.00
01.
010
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação sigma2
0 200 600 1000
0.2
0.4
0.6
0.8
1.0
1.2
φ φ
Den
sity
0.2 0.6 1.0
0.0
0.5
1.0
1.5
2.0
2.5
0 200 600 1000
0.55
0.65
0.75
0 5 10 20 30
0.0
0.4
0.8
Lag
AC
F
autocorrelação phi
Figura 3.2: Convergencia das cadeias, histograma, media e autocorrelacao para os respectivos parametros
do modelo gaussiano. A reta tracejada de cor vermelha no histograma representa o valor verdadeiro, e a
reta completa de verde representa a media a posteriori.
29
3.1.2 Modelo T-Student multivariado
Como no modelo gaussiano, iremos fixar o valor de κ = 0, 5 para funcao de covariancia da classe Matern,
como um caso particular. Os dados consistem em 30 localizacoes espaciais, com o vetor de parametros
Φ = (µ, σ2, φ, ν) . Foram utilizadas as mesmas distribuicoes a priori propostas no Capıtulo 2, onde os
valores dos parametros de cada priori foram selecionados de tal forma que as distribuicoes a priori fossem
vagas, ou seja, pouco informativas.
Amostras a posteriori sao obtidas utilizando M = 50000 iteracoes, com um burn-in de 1000 e lag de
50 iteracoes. A convergencia da cadeia dos parametros sao mostradas nas figuras , para o cenario 1. A
tabela (3.4) mostra o resumo a posteriori de cada parametro para o Cenario 1.
Tabela 3.4: Mediana a posteriori e quantis de 2,5% e 97,5% para os parametros do modelo t student
multivariado para o Cenario 1.
Parametro Mediana Intervalo de Credibilidade
β0 = 6, 716 7,000 (4, 681; 8, 614)
β1=2,700 2,000 0, 223; 4, 493)
β2=-1,808 -1,475 (−3, 424; 0, 612)
σ2 = 1, 0 1,003 (0, 940; 1; 070)
φ = 0, 61 0,579 (0, 241; 1, 495)
ν 7,721 (0, 0121; 39, 797)1Taxa de aceitacao para φ igual a 0,260
2Taxa de aceitacao para ν igual a 0,358
30
0 200 600 1000
46
810
β0 β0
Den
sity
2 4 6 8 10
0.0
0.1
0.2
0.3
0 200 600 1000
6.0
6.2
6.4
6.6
6.8
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação beta0
0 200 600 1000
−2
02
46
β1 β1
Den
sity
−2 0 2 4 6
0.00
0.10
0.20
0.30
0 200 600 1000
1.2
1.6
2.0
2.4
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação beta1
0 200 600 1000
−6
−4
−2
02
β2 β2
Den
sity
−6 −4 −2 0 2
0.00
0.10
0.20
0.30
0 200 600 1000
−1.
6−
1.2
−0.
8
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
LagA
CF
autocorrelação beta2
0 200 600 1000
0.95
1.00
1.05
1.10
σ2 σ2
Den
sity
0.90 1.00 1.10
02
46
810
12
0 200 600 1000
0.98
00.
990
1.00
0
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação sigma2
31
0 200 600 1000
0.2
0.4
0.6
0.8
1.0
φ φ
Den
sity
0.2 0.6 1.0
0.0
1.0
2.0
3.0
0 200 600 1000
0.52
0.56
0.60
0.64
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação phi
0 200 600 1000
020
4060
80
Index
nu.s
ampl
e
nu.sample
Fre
quen
cy
0 20 40 60 80
010
030
050
0
0 200 600 1000
510
15
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação nu
Figura 3.3: Convergencia das cadeias, histograma, media e autocorrelacao para os respectivos parametros
do modelo t-student multivariado. A reta tracejada na cor verde no histograma representa o valor
verdadeiro, e a reta completa na cor vermelha representa a media a posteriori.
3.1.3 Modelo GLG - Classe Matern
Fixa-se novamente o valor do parametro de suaviacao κ = 0, 5 para funcao de covariancia da classe Matern,
como um caso particular. Os dados consistem em 30 locacoes espaciais, com o vetor de parametros
Φ = (µ, σ2, φ, ν,λ) . Foram utilizadas as mesmas distribuicoes a priori propostas no Capıtulo 2, onde os
valores dos parametros de cada priori foram selecionados de tal forma que as distribuicoes a priori fossem
vagas, ou seja, pouco informativas.
Amostras a posteriori sao obtidas utilizando M = 50000 iteracoes, com um burn-in de 1000 e lag de 50
iteracoes. A convergencia da cadeia dos parametros sao mostradas nas figuras (3.4), para o Cenario 1. O
histograma das distribuicoes a posteriori para os respectivos parametros sao mostrados na figura (3.4).
A tabela (3.5) mostra o resumo a posteriori de cada parametro para o Cenario 1.
32
Tabela 3.5: Mediana a posteriori e quantis de 2,5% e 97,5% para os parametros do modelo GLG para o
Cenario 1.
Parametro Mediana Intervalo de Credibilidade
β0 = 6, 716 6,374 (4, 376; 8, 353)
β1=2,700 2,365 (0, 167; 4, 881)
β2=-1,808 -1,387 (−3, 775; 0, 948)
σ2 = 1, 0 1,006 (0, 943; 1, 068)
φ = 0, 61 0,479 (0, 301; 0, 760)
ν 0,053 (0, 003; 0, 281)1Taxa de aceitacao para φ igual a 0.235
2Taxa de aceitacao para ν igual a 0.306
33
0 200 600 1000
34
56
78
9
β0 β0
Den
sity
3 4 5 6 7 8 9
0.0
0.1
0.2
0.3
0.4
0 200 600 1000
6.2
6.6
7.0
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação beta0
0 200 600 1000
02
46
β1 β1
Den
sity
0 2 4 6
0.00
0.10
0.20
0.30
0 200 600 1000
1.5
2.0
2.5
3.0
0 5 10 20 30
0.0
0.4
0.8
Lag
AC
F
autocorrelação beta1
0 200 600 1000
−6
−4
−2
02
β2 β2
Den
sity
−6 −4 −2 0 2
0.00
0.10
0.20
0.30
0 200 600 1000
−1.
8−
1.4
−1.
0
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
LagA
CF
autocorrelação beta2
0 200 600 1000
0.90
0.95
1.00
1.05
1.10
σ2 σ2
Den
sity
0.90 1.00 1.10
02
46
810
0 200 600 1000
0.96
0.98
1.00
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação sigma2
34
0 200 600 1000
0.4
0.6
0.8
1.0
φ φ
Den
sity
0.4 0.6 0.8 1.0
01
23
0 200 600 1000
0.40
0.45
0.50
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação phi
0 200 600 1000
0.0
0.1
0.2
0.3
0.4
Index
nu.s
ampl
e
nu.sample
Fre
quen
cy
0.0 0.2 0.4
010
020
030
040
0
0 200 600 1000
0.06
0.10
0.14
0 5 10 20 30
0.0
0.2
0.4
0.6
0.8
1.0
Lag
AC
F
autocorrelação nu
Figura 3.4: Convergencia das cadeias, histograma, media e autocorrelacao para os respectivos parametros
do modelo GLG. A reta tracejada na cor verde no histograma representa o valor verdadeiro, e a reta
completa na cor vermelha representa a media a posteriori.
3.2 Comportamento dos λ’s no modelo GLG
E apresentado pelas figuras (3.5) para cada cenario o comportamento do parametro λ no modelo GLG
em relacao as observacoes. Este parametro consegue capturar outliers por meio da variancia de cada
observacao. Os outliers podem ser classificados como tais se possuem variancias maiores em relacao as
outras observacoes.
A proposta para os λi, i = 1, . . . , n no MCMC e construıda dividindo as observacoes em 4
blocos (regioes), definidos pela posicao no domınio espacial. As regioes foram divididas e contaminadas
de acordo com a figura (3.5), que apresenta o box-plot das variancias relativas σ2
λ para cada localizacao.
Observa-se que locacoes que foram contaminadas apresentam uma variancia relativa maior que as demais
locacoes nao contaminadas. Com isso, podemos afirmar que o processo de mistura consegue identificar
observacoes discrepantes na amostra.
35
Cenario 1
long
lat
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1
2 3
4
5
6
7
8
9
1011
12
13
14
15
1617
1819
20
21
22
23
24
2526
27
2829
30
1 4 7 11 15 19 23 27
0.6
0.8
1.0
1.2
1.4
1.6
1.8
observações
σ2λ i
Cenario 2
long
lat
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1
2 3
4
5
6
7
8
9
1011
12
13
14
15
1617
1819
20
21
22
23
24
2526
27
2829
30
1 20
6
1 4 7 11 15 19 23 27
02
46
8
observações
σ2λ i
Cenario 3
long
lat
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
1
2 3
4
5
6
7
8
9
1011
12
13
14
15
1617
1819
20
21
22
23
24
2526
27
2829
30
1 20
6
15
2930
16
1 4 7 11 15 19 23 27
02
46
810
1214
observações
σ2λ i
Figura 3.5: Comportamento dos λ’s em cada cenario. Observacoes contaminadas sao destacadas em verde
e apresentam variancia relativa maior que as demais.
36
37
4 Funcoes de influencia espaciais
Nesta secao abordaremos um instrumento que permite um melhor entendimento sobre o comportamento
de uma distribuicao ou modelo perante os dados. Nas analises a seguir a funcao de influencia sugere
como se comporta um estimador quando mudamos uma observacao da amostra, baseada no conjunto dos
dados.
4.1 Funcao de influencia
A funcao de influencia permite analisar como o conjunto de dados sao tratados pela estimacao em uma
determinada distribuicao de interesse.
Sob o paradigma bayesiano o calculo da funcao de influencia e visto com maiores detalhes em
West [1984]. A funcao de influencia e calculada a partir da distribuicao escore a posteriori do parametro
no qual estamos interessados e escrita como
∂
∂µlogp(µ, ν|y) =
∂
∂µlogπ(µ) +
n∑i=1
g(yi − µ) (4.1)
onde a expressao em (4.1) e a funcao escore a posteriori e g(ε) = − ∂∂εp(ε) e a funcao de influencia e
ε = yi − µ. Para (4.1) o efeito que a observacao yi tem sobre a funcao escore e determinada pela funcao
de influencia g.
Apresentado o caso da tν(µ, λ) no exemplo de motivacao (1.2) do Capıtulo 1, podemos
calcular a sua funcao de influencia, ja que o proposito e avaliar se a observacao yi influencia ou nao na
estimacao do parametro µ. Para isso, seja o parametro de escala σ2 = 1, conhecido. Sua distribuicao a
posteriori e dada por
p(µ, ν|yi) ∝ f(yi|µ, ν)π(µ)
Aplicando o log na distribuicao a posteriori e derivando em relacao a µ:
logp(µ, ν|yi) = c+ logf(yi|µ, ν) + logπ(µ) + logπ(ν)
∂
∂µlogp(µ, ν|yi) =
1
π(µ)π′(µ) +
(ν + 1
2
)(1
1 + (yi−µ)2
ν
)(2
(yi − µ)
ν
)
Entao se temos as observacoes y1, . . . , yn a funcao de influencia da t-student sera dada por
gt =
(ν + 1
2
) n∑i=1
(1
1 + (yi−µ)2
ν
)(2
(yi − µ)
ν
)
e entao
gt(ε) =
(ν + 1
2
) n∑i=1
(1
1 + ε2
ν
)(2ε
ν
)
Para o caso da distribuicao Normal com parametros µ e σ2 temos que a funcao de influencia
e dada por:
gN (ε) =
n∑i=1
(yi − µ)
=
n∑i=1
ε
funcao de influencia da forma linear (y − µ).
Abaixo segue as curvas de densidade e suas respectivas funcoes de influencia para a tν(µ, ν, 1)
e Normal(µ, 1)
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
0.5
Densidade
Student's tNormal
−20 −10 0 10 20
−1.
5−
1.0
−0.
50.
00.
51.
01.
5
Função de Influência
y
g(ε)
Student's tNormal
(i) (ii)
Figura 4.1: (i) Funcoes de Densidade e (ii) Funcoes de Influencia para ν = 1
38
−20 −10 0 10 20
−3
−2
−1
01
23
y
g(ε)
ν=1ν=5ν=20
ν=1ν=5ν=20
ν=1ν=5ν=20
Figura 4.2: Funcao de influencia da distribuicao t-student para respectivos graus de liberdade. A linha
tracejada na cor vermelha representa a funcao de influencia para distribuicao normal.
Conforme aumentamos um valor de y na t-student, a influencia em relacao a µ diminui, o
que nao acontece para o caso gaussiano. Note que se aumentamos o valor de y a influencia permanece
alta sobre a estimacao do parametro. Veja ainda que ν o parametro representado pelos graus de liberdade
tambem influencia na estimacao do parametro de interesse e quanto maior e o valor dos graus de liberdade
mais a influencia da t-student se assemelhara com a influencia da normal. Temos mais uma evidencia
que distribuicoes com caudas mais pesadas sao favoraveis para tratar dados contaminados.
4.2 Caso Espacial
Apresentado o caso nao-espacial no qual conseguimos representar a curva de influencia de µ de acordo
com a distribuicao de interesse, a ideia entao e novamente representar o quao influenciavel e o parametro
na presenca de dados atıpicos, por meio de modelos espaciais.
De acordo com a proposta de West [1984] iremos generalizar as funcoes de influencia espaciais
para os dois modelos: Gaussiano e Nao Gaussiano.
4.2.1 Caso Gaussiano
Inicialmente considere o caso onde µ e um escalar. De forma geral suponha que temos z|µ, σ2,θ ∼
fN (µ, σ2Σ(θ)). Para σ2 = 1 e θ conhecidos temos o log da sua densidade
logL(µ; z) ∝ −1
2
{(z− µ1n)TΣ−1(z− µ1n)
}O calculo da funcao escore a posteriori e dado por
39
dlogp(µ|z)
dµ=
dlogπ(µ)
dµ+dlogL(µ; z)
dµ
=1
π(µ)π′(µ)− 1
2
{1TnΣ−1z− zTΣ−11n + 2µ1TnΣ−11n
}=
1
π(µ)π′(µ) +
{1TnΣ−1z− µ1TnΣ−11n
}=
1
π(µ)π′(µ) +
{1TnΣ−1(z− µ1n)
}
Denotado por C = Σ−1, representando a matriz de precisao e assim temos
dlogp(µ|z)
dµ=
1
π(µ)π′(µ) + (C·1, . . . , C·n)(z− µ1n)︸ ︷︷ ︸
gG
, k = 1, . . . , n
onde C·k representa a soma dos elementos de cada linha da coluna k, tal que gG e a funcao de influencia
para o processo gaussiano para o caso geral de West [1984]. Gostarıamos de ver como uma determinada
observacao (que pode ser ou nao discrepante) influencia na estimacao do parametro de interesse. Baseado
nesta fato, chegamos a seguinte proposicao
Proposicao 4.2.1. Se para a observacao k, onde z = (zk, z(−k)) representa o vetor das observacoes zk e
as demais observacoes da amostra z(−k) diferentes de zk, a funcao de influencia para o processo gaussiano
pode ser representada atraves de
gG(ε) = C·k (zk − µ)︸ ︷︷ ︸εk
+∑j 6=k
C·j (zj − µ)︸ ︷︷ ︸εj
(4.2)
A primeira parte de (4.2) representa a influencia da observacao k e a outra parte a influencia das demais
observacoes. Para o caso em que C·k = 1, k = 1, . . . , n retornaremos para o caso i.i.d. de West [1984] dada
pela equacao (4.1), onde todas as observacoes apresentam o mesmo comportamento, ou seja, independente
e identificamente distribuıdas.
4.2.2 Caso T-Student Multivariado
Inicialmente considere o caso onde µ e um escalar. Suponha que temos z ∼ t − studentn(µ, ν, σ2Σ(θ)).
Para σ2 = 1 e θ conhecidos e ν um valor fixo , temos o logaritmo da densidade dado por
logL(µ, ν; z) ∝ −(ν + n
2
)log
{1 +
(z− µ1n)TΣ−1(z− µ1n)
ν
}O calculo da funcao escore a posterior e dado por
40
dlogp(µ, ν|z)
dµ=
dlogπ(µ)
dµ+dlogL(µ, ν; z)
dµ
=1
π(µ)π′(µ)−
(ν + n
2
)×
(1
1 + (z−µ1n)TΣ−1(z−µ1n)ν
)
×(
1 +1TnΣ−1z− zTΣ−11n + 2µ1TnΣ−11n
ν
)=
1
π(µ)π′(µ)−
(ν + n
2
)×
(1
1 + (z−µ1n)TΣ−1(z−µ1n)ν
)×(
21TnΣ−1(z− µ1n)
ν
)
Podemos chamar C = Σ−1, representando a precisao da matriz de covariancia, temos
dlogp(µ, ν|z)
dµ=
1
π(µ)π′(µ) +
(ν + n
2
)×
(1
1 + (z−µ1n)TC(z−µ1n)ν
)×(
2(C·1, . . . , C·n)(z− µ1n)
ν
)︸ ︷︷ ︸
gNG
, k = 1, . . . , n
onde C·k representa a soma dos elementos de cada linha da coluna k e Ckk representa o elemento da
k-esima linha da k-esima coluna. Podemos escrever a funcao de influencia para o modelo T-Student
Multivariado atraves da Proposicao (4.2.1) tendo:
gTS(ε) =
(ν + n
2
)×
(1
1 + (z−µ)′C(z−µ)ν
)×
2C·k
εk︷ ︸︸ ︷(zk − µ) +
∑j 6=k C·j
εj︷ ︸︸ ︷(zj − µ)
ν
=
(ν + n
2
)×
(1
1 +∑ij(zi−µ)′Cij(zj−µ)
ν
)×
2C·k
εk︷ ︸︸ ︷(zk − µ) +
∑j 6=k C·j
εj︷ ︸︸ ︷(zj − µ)
ν
(4.3)
O caso T-Student tem uma expressao mais complicada que o caso gaussiano, mas note que
a funcao de influencia ira depender dos parametros de alcance (a = 1/φ), da constante de suavizacao κ
e dos graus de liberdade ν.
Novamente, se C·k = 1, k = 1, . . . , n retornaremos ao caso da secao anterior para a influencia
t-student univariada.
4.2.3 Caso GLG
Para o processo GLG utilizamos a mistura de escalas da distribuicao normal multivariada, afim de
obtermos uma disitruicao com caudas mais pesadas e segundo Palacios and Steel [2006] a estrutura de
41
correlacao nao e afetada pela mistura. Para este processo temos que z|Λ,β, σ2, φ, ν ∼ Normaln(µ,Σ∗(θ)).
Do mesmo modo apresentado anteriorimente para os dois processo acima, desejamos calcular a influencia
do parametro µ. Neste caso temos que λ|ν ∼ Log − Normal(−ν2 1, νΣ(θ)
). Suponha tambem que µ e
um escalar, σ2 = 1, ν responsavel pelo comportamento da cauda fixo e θ conhecidos.
Proposicao 4.2.2. A funcao de influencia para o processo GLG e dada por
gGLG(ε) =
∫ dq(ε|λ)dµ p(λ|ν)dλ∫
q(ε|λ)p(λ|ν)dλ(4.4)
onde q(ε|) representa a densidade e ε = z− µ
Demonstracao. O calculo da funcao escore a posteriori sera escrito atraves de p(µ|z) ∝ p(z|µ)π(µ). Note
que, como nao conhecemos a densidade de p(z|µ) devemos primeiramente marginalizar z com respeito a
λ atraves de
p(z|µ) =
∫p(z|µ,λ)p(λ|ν)p(ν)dλ
o que torna o calculo inviavel analiticamente. Uma maneira de resolver este problema e utilizar tecnicas
numericas para conseguir primeiramente calcular a integral acima. A posteriori de µ|z e dada por
p(µ|z) ∝ p(z|µ)π(µ)
∝ π(µ)
∫p(z|µ,λ)p(λ|ν)π(ν)dλ
∝ π(µ)π(ν)
∫p(z|µ,λ)p(λ|ν)dλ
O log da posteriori e dado por
logp(µ|z) = c+ logπ(µ) + log p(ν) + log
∫p(z|µ,λ)p(λ|ν)dλ
= c∗ + logπ(µ) + log
∫p(z|µ,λ)p(λ|ν)dλ
O calculo da funcao escore a posteriori e dado por
dlogp(µ|z)
dµ=
dlogπ(µ)
dµ+dlog
∫p(z|µ,λ)p(λ|ν)dλ
dµ
=1
π(µ)π′(µ) +
∫ dp(z|µ,λ)dµ p(λ|ν)dλ∫
p(z|µ,λ)p(λ|ν)dλ︸ ︷︷ ︸gGLG(ε)
42
A funcao de influencia para o processo GLG e a razao de duas integrais, que serao realizadas
numericamente. Veja que no numerador temos a derivada da funcao de densidade que vem da Proposicao
4.2.1, ou seja,
numerador =
∫1
(2π)−n/2|C∗|1/2exp
{−1
2
[(zi − µ)TC∗(zj − µ)
]}
×
C∗·k (zk − µ)︸ ︷︷ ︸
εk
+∑j 6=k
C∗·j (zj − µ)︸ ︷︷ ︸εj
p(λ|ν)dλ e,
denominador =
∫1
(2π)−n/2|C∗|1/2exp
{−1
2
[(zi − µ)TC∗(zj − µ)
]}p(λ|ν)dλ
dado pela densidade conjunta da normal multivariada, tal que C∗ e a matriz de precisao escrita por
Σ∗−1 = σ2Λ1/2Σ(θ)Λ1/2.
A funcao (4.4) pode ser calculada de forma numerica integrando a razao das integrais por
meio de Monte Carlo simples, ou seja, a integral do numerador pode ser aproximada para
∫dp(z|µ,λ)
dµp(λ|ν)dλ ≈ 1
M
M∑m=1
d
dµp(z|µ,λ(m))
≈ 1
M
M∑m=1
d
dµq(ε|λ(m))
e o denominador aproximado por
∫p(z|µ,λ)p(λ|ν)dλ ≈ 1
M
M∑m=1
p(z|µ,λ(m))
1
M
M∑m=1
q(ε|λ(m))
onde os λ(m) sao gerados a partir de p(λ|ν).
Para todos os processos descritos acima, podemos avaliar a influencia para cada observacao
de z e ver o quao influente e na estimacao de µ. A ideia entao torna-se mais abrangente quando ha a
presenca de um observacao k classificada como outlier, ou seja, permitindo-nos compreender melhor se
ela ira influenciar ou nao o parametro de interesse. Desejamos, que isto nao ocorra quando utilizado
distribuicoes com caudas mais pesadas que a normal, como em t-student multivariada e Gaussian Log
Gaussian.
43
Deve-se estar atento que, para o caso espacial a influencia da observacao k dependera sempre
do parametro de alcance a = 1φ e suavizacao κ. Quanto mais correlacionado e o processo espacial mais
influente sera o outlier e portanto, no caso de dados espaciais a presenca do outlier e ainda mais relevante
na estimacao dos parametros de interesse do que no caso i.i.d de West [1984].
4.3 Exemplo Simulado I
O estudo permitira compreender melhor como o metodo de estimacao ira tratar os dados. A analise da
funcao de influencia se torna de grande interesse para conjuntos de observacoes que apresentam valores
atıpicos. Para este estudo, nos baseamos na propria fundamentacao de West [1984] e utilizamos as funcoes
propostas neste trabalho para o caso espacial.
4.3.1 Caso Gaussiano
Utilizaremos a proposicao (4.2.1) proposta para o calculo das curvas de influencia espaciais para este
processo.
A ideia deste estudo e fixar uma observacao qualquer k, que representara a observacao que
induz ou nao a influencia na estimacao do parametro de interesse µ. Como na proposicao 4.2.1 queremos
avaliar se a observacao k que e diferente das demais observacoes j de alguma forma influenciara na
estimacao. Ressalta-se que a funcao de influencia espacial, diferentemente da influencia em West [1984],
dependera sempre dos parametros em θ da matriz de covariancia do processo e quanto mais correlacionado
e o processo espacial, mais influente sera o outlier.
De forma a realizar o estudo para exemplicacao da curva de influencia espacial no plano,
primeiramente escolheu-se k de forma arbitraria dado pela observacao z1. Alem disso, iremos comparar
duas funcoes de covariancia ja apresentadas: Matern e Cauchy Generalizada, de forma a analisar e
comparar como elas se comportam sob influencia das funcoes. O primeiro caso que iremos realizar e fixar
κ = 0, 5 tornado em um caso especial onde a classe Matern tende para uma covariancia exponencial.
Por exemplo, se temos o valor fixo de κ a medida que aumentamos o valor de φ, consequen-
temente o valor do parametro de alcance a = 1φ tende a diminuir e a influencia diminui. Se o valor de φ
for muito baixo sua influencia aumenta, o que pode ser observado na figura (4.3).
44
−20 −10 0 10 20
−0.
2−
0.1
0.0
0.1
0.2
εk
g(ε)
φ=1φ=0.8φ=0.5φ=0.3
φ=1φ=0.8φ=0.5φ=0.3
φ=1φ=0.8φ=0.5φ=0.3
φ=1φ=0.8φ=0.5φ=0.3
Figura 4.3: Funcao de Influencia univariada para o modelo gaussiano com z1 para funcao de covariancia
exponencial, para valores de φ.
A Tabela (4.1) apresenta o caso em que alternamos o valor do parametro de suavizacao κ
com base nas funcoes de covariancia e fixamos o valor de φ.
Tabela 4.1: Parametros fixados para o calculo da curva de influencia para as duas funcoes de covariancia
Figura Matern Cauchy
φ κ φ κ ψ
(1) 1,4 0,5- 1,5 -2 1,4 0,5- 1,5-2 0,3
(2) 0,25 0,5- 1,5-2 0,25 0,5- 1,5-2 0,3
45
Matern
−20 −10 0 10 20
−4
−2
02
4
εk
g(ε k
)κ=0.5κ=1.5κ=2.0
κ=0.5κ=1.5κ=2.0
κ=0.5κ=1.5κ=2.0
−20 −10 0 10 20
−4
−2
02
4
εk
g(ε k
)
κ=0.5κ=1.5κ=2.0
κ=0.5κ=1.5κ=2.0
κ=0.5κ=1.5κ=2.0
(1) (2)
Cauchy Generalizada
−20 −10 0 10 20
−2
−1
01
2
εk
g(ε k
)
κ=0.5κ=1.5κ=2.0
κ=0.5κ=1.5κ=2.0
κ=0.5κ=1.5κ=2.0
−20 −10 0 10 20
−2
−1
01
2
εk
g(ε k
)
κ=0.5κ=1.5κ=2.0
κ=0.5κ=1.5κ=2.0
κ=0.5κ=1.5κ=2.0
(1) (2)
Figura 4.4: Funcoes de Influencia univariada para procesos gaussiano e respectivas funcoes de covariancia
Pela Figura (4.4), podemos observar para o caso onde utilizamos a funcao de covariancia
Matern que em (1) temos um valor do parametro de decaimento φ maior em comparacao as outras curvas
e com o aumento do valor do parametro de suavizacao κ a influencia aumenta e quanto maior o valor
de κ tendo para o infinito, mais evidente a funcao de covariancia se aproximara para a normal e mais
suave sera o processo, ou seja, C(u) → σ2exp
{(uφ
)2}
. Ja em (2), tenho um valor de φ muito pequeno
comparado a (1) o que torna a influencia menor mesmo com um valor de suavizacao grande. Assim,
valores de φ’s grandes geram influencias maiores.
Em relacao a utilizacao da funcao de covariancia Cauchy Generelizada onde temos um
parametro adicional ψ responsavel pela dependencia de longo alcance e κ ∈ (0, 2], temos que (1), se
fixamos um valor de φ = 1, 4 alto e aumentamos o valor da suavizacao a influencia tende a ser maior
quando comparado a figura (2). Valores de ψ altos retornam a uma influencia menor comparado a valores
46
menores.
Quanto menor o parametro de decaimento φ, mais rapido a correlacao decresce com a dis-
tancia u. O uso desta classe e de particular interesse nas situacoes em que o pesquisador acredita que os
dados podem informar sobre κ e assim a observacao nao precisara ser fixada antes de observar os dados.
Acredita-se entao, que o grande responsavel pela influencia da observacao na estimacao do
parametro de interesse µ esta relacionado a escolha de parametro de alcance.
Para o caso T-student multivariado a expressao da funcao de influencia nao e tao simples
como o caso normal, o que dificulta a analise individual por observacao como feito nesse exemplo simulado
no caso gaussiano. Note que para a funcao de influencia T-Student ela e escrita como gTS = w × gG(ε),
e w e a constante na qual nao conseguimos separar as observacoes. Sendo assim, para fazer uma analise
no plano devemos escolher um valor k de forma arbitraria como feito no caso gaussiano e um valor j
fixado, ou seja, e possıvel representar a funcao de influencia fixando o par (k, j). Entretanto, isso nao
retornaria a grandes resultados de interpretabilidade, ja que o interesse seria considerar todas as outras
demais observacoes j que e representada por essa constante w. O ideal seria representa-lo em uma outra
dimensao.
Para o caso GLG, como temos resultados numericos e inviavel realizar uma analise individual
no plano, ja que nao possuımos a expressao de forma analıtica. A seguir apresentaremos a ideia de mapas
de influencia que permite visualizar a influencia espacial para esses modelos.
4.4 Exemplo Simulado II
Nos basearemos novamente nas funcoes de influencias mencionadas anteriormente, apresentadas em forma
de mapas, definidos como mapa da influencia. Queremos analisar como determinada observacao (con-
siderada como um outlier) influencia na estimacao do parametro de interesse µ (escalar), em relacao as
demais observacoes da amostra, comparando os tres processos. Para isso, utilizaremos tambem a ta-
bela da medida curtose para os modelos comparados ao gaussiano, sendo uma medida de dispersao que
caracteriza o achatamento da curva em funcao da sua funcao de densidade de probabilidade.
Tabela 4.2: Valores da curtose como uma funcao do parametro responsavel pelo comportamento da cauda
ν do modelo GLG e comparados com os graus de liberdade νts da T-student.
ν 0,01 0,1 0,5 1 2 3 4
curtose[zi] 3,03 3,32 4,95 8,15 22,2 60,3 163,8
νts 203 23 7,08 5,26 4,31 4,10 4,04
Curtose igual a 3 e referente ao caso Gaussiano. Para valores maiores que 3 temos caudas
mais pesadas que as da normal.
Neste estudo nao consideramos os casos em que definimos os outliers atraves dos cenarios.
Realizou-se da seguinte maneira:
47
1. Selecionamos todas as observacoes do conjunto de dados z;
2. Contaminamos estas observacoes e classificamos como Forte
3. As observacoes foram contaminadas da forma:
zk contaminada: zk + σ ∗ Uniforme(1; 9, 5), ∀k = 1, . . . , 30;
4. Apos as contaminacoes, as funcoes de influencia foram escritas a partir de ε∗k = z∗k−µ separadamente:
g1 =g(ε∗1, ε2, . . . , εn)
g2 =g(ε1, ε∗2, . . . , ε18, . . . εn)
...
gn =g(ε1, ε2, . . . , εn−1, ε∗n)
5. µ escalar foi fixado a partir de µ = E(µ), a media do vetor de medias.
6. Funcao de covariancia considerada: Matern
Com os valores obtidos g1, g2, . . . , gn podemos construir um mapa de influencia contaminado para cada
modelo.
Abaixo serao mostrados os mapas da influencia para os tres processos com as contaminacoes
para cada observacao.
Verifica-se na figura (4.5) que as bordas do mapa para ambos processos sofrem mais influencia
mesmo alternando o parametro de alcance. Deve-se ao fato de que ha maior dificuldade em estimar o
parametro devido a presenca de poucos vizinhos entorno da borda. Se fixarmos graus de liberdade para
o processo t-student acima de 203, obtemos o mesmo mapa de influencia para o caso gaussiano, o mesmo
acontece se fixarmos um ν = 0, 01 para o processo GLG.
Veja pela figura (4.5) que conforme aumentamos o valor do parametro de distancia, o alcance
tende a diminuir e consequentemente a influencia diminui. Como as bordas sao mais difıceis de estimar
sua influencia tende a ser maior em relacao as demais. Sendo assim, para obtermos menores influencias
na estimacao da media, recomenda-se ter um valor de alcance pequeno.
48
Gaussiano T-Student (ν = 203) GLG (ν = 0, 01)
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
φ = 0, 1 φ = 0, 1 φ = 0, 1
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
φ = 1, 0 φ = 1, 0 φ = 1, 0
Figura 4.5: Mapa de influencia para os processos Gaussiano, T-Student Multivariado (com νTS = 203
graus de liberdade) e GLG (ν = 0, 01 responsavel pelo comportamento da cauda), alternando o valor do
alcance.
Podemos tambem comparar a influencia do processo t-student em relacao ao GLG de acordo
com a tabela (4.2). Espera-se que se escolhermos um ν = 1 e νTS = 5, para GLG e t-student respec-
tivamente, as funcoes de influencia tornam-se diferentes da gaussiana e estas duas sendo proximas. A
influencia do processo gaussiano permance fixa, pois tal processo nao apresenta um parametro responsavel
pela cauda. Com um ν = 1, ainda permanecemos com uma influencia alta. Se aumentarmos ν obteremos
caudas mais pesadas, diminuindo a influencia na estimacao de µ e tornando-se mais afastada de gG(ε).
Valores de νTS > 4 leva a mesma curtose para varios valores de ν.
Por exemplo, quando as observacoes nao sao contaminadas, a influencia global do processo
GLG para ν = 1 e igual a −2, 595, enquanto a influencia global para o processo T-Student quando
νTS = 5 e de −2, 460 e para o processo gaussiano de −1, 924. Sendo assim,
gGLG(ε) ≈ gTS(ε) < gG(ε)
49
Gaussiano T-Student (ν = 5) GLG (ν = 1)
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
φ = 0, 1 φ = 0, 1 φ = 0, 1
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
Longitude
Latit
ude
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
φ = 1, 0 φ = 1, 0 φ = 1, 0
Figura 4.6: Mapa de influencia para os processos Gaussiano, T-Student Multivariado (com νTS = 5 graus
de liberdade) e GLG (ν = 1 responsavel pelo comportamento da cauda), alternando o valor do alcance.
Observe que quando contaminamos as observacoes, os mapas da funcao de influencia da
T-Student se comportam de maneira diferente, ou seja, os pontos de influencia sao menores para este
processo comparado com os demais, quando contaminado. Deve-se ao fato, da funcao de influencia escrita
em (4.3) obtem uma constante da forma:
w =
(ν + n
2
)(ν
ν + (z − µ)TC(z − µ)
),
tal que gTS(ε) = w× gG(ε). Entao, quando contaminada, essa constante apresenta valores muito grandes
e quando multiplicada pela influencia gaussiana, nos retorna a uma influencia menor.
Isso nao acontece para o caso GLG, pois este nos retorna sempre a influencia gaussiana,
sendo sua unica diferenca a matriz de covariancia acomodando os λ’s. E preciso entao de valores grandes
de ν, dando caudas muito mais pesadas e consequentemente diminuindo a influencia. Note que, embora a
funcao de influencia da T-student quando contaminada apresente influencias menores para as observacoes,
esta nao consegue captar estrutura espacial, ou seja, regioes que possuem maior variabilidade. Sendo
assim, este modelo nao e flexıvel para acomodar heterocedasticidade espacial. Ja o modelo GLG, embora
apresente influencias maiores que o da t-student, este consegue capturar e acomodar heterocedasticidade
espacial, onde ha regioes com maiores variancia devido a presenca de outliers. Contudo, essse modelo
de alguma forma e menos influente na presenca de observacoes discrepantes no mapa quando comparado
com a influencia do modelo gaussiano.
50
Ressalta-se que a medida que diminuimos o alcance a influencia torna-se menor e uma
observacao classificada como discrepante nao influenciara muito a estimacao de µ.
51
52
5 Analise de resıduos e deteccao de outliers em
modelos espaciais
Estudos de adequacao do modelo sao cruciais para construir uma boa modelagem estatıstica. Neste
contexto, os diagnosticos usuais para modelos de regressao sao uteis para conhecermos caracterısticas
naturais presentes nos dados, atraves de verificacao do comportamento da distribuicao dos dados em
relacao a distribuicao teorica do estudo, existencia de valores discrepantes e analise de resıduos. A ideia
e estender alguns desses diagnosticos para o caso espacial.
Sao definidos nesta secao alguns conceitos de analises de resıduos bayesianos, para deteccao
de outliers. Os resıduos de um modelo de regressao tem uma relacao muito forte com a qualidade do
ajuste e portanto a sua analise tem uma grande importancia na verificacao da qualidade do ajuste dos
modelos propostos.
Na regressao linear classica e comum estimar a media nao observavel por Xβ, definindo
os resıduos como sendo a diferenca entre o valor observado e o valor estimado pelo modelo, ou seja,
ri = zi − zi, comumente conhecido como resıduos brutos.
No enfoque bayesiano, Chaloner and Brant [1988] utilizam uma abordagem para deteccao
de outliers para um modelo linear, definindo que um outlier e uma observacao com grande erro aleatorio,
gerado pelo modelo. De acordo com os autores estas observacoes discrepantes sao detectadas atraves da
analise da distribuicao a posteriori dos erros aleatorios. Utiliza-se como estrategia que se os parametros
do modelo sao conhecidos, entao sao conhecidas as observacos declaradas como outliers. Caso os para-
metros sejam desconhecidos, a distribuicao a posteriori pode ser utilizada para calcular a probabilidade
de qualquer observacao ser um outlier.
Generalizando a ideia de Chaloner and Brant [1988], considere um processo espacial gaussi-
ano z = xTβ + z, onde z representa um processo de erro aleatorio estacionario com media zero e matriz
de covariancia Σ(θ) (incluindo σ2), declaramos que a i-esima observacao e um outlier se |ri| > t, para
qualquer escolha do limiar t, sendo t uma constante qualquer.
Considere o processo espacial observado em n localizacoes e media xTβ e matriz de cova-
riancia Σ(θ). Iremos utilizar medidas usuais em modelos de regressao para o contexto espacial. Assim,
podemos escrever o resıduo padronizado da forma
ri = Σ−1/2ii (θ)(zi − xTβ) (5.1)
tal que ri representa os resıduos usuais no contexto espacial para cada observacao i. Se os erros possuem
distribuicao normal, entao aproximadamente 95% dos resıduos espaciais padronizados ri devem estar no
intervalo de (-2,2) e qualquer observacao fora deste intervalo deve ser analisada, o que pode ser uma forte
indicacao da presenca de outliers.
Como em Souza and Migon [2010] a posteriori de ri|z pode ser calculada atraves de MCMC,
amostrando a posteriori, Φ = (β, σ2, φ) dos dados. O calculo e feito a partir de β(m), σ2(m), φ(m) ,m =
1, . . . ,M
r(m)i = Σ
−1/2ii (θ(m))(zi − xTβ(m)), para m = 1, . . . ,M.
tal que r(m)i representa a i-esima observacao na m-esima iteracao e Σ(θ)ii a matriz de covariancia, para
o modelo gaussiano.
Para os casos nao gaussianos apresentados no Capıtulo 2, do qual z = xTβ +z
λ1/2, o
calculo do resıduo bayesiano espacial pode ser realizado analogamente como o caso gaussiano, para seus
respectivos parametros.
5.1 Analise bayesiana de resıduos para deteccao de outliers
Para detectar obsevacoes que sao outliers, Chaloner and Brant [1988] definem a probabilidade pi =
pr(|ri| > t|z), como a probabilidade a posteriori de que a i-esima observacao seja um outlier e podemos
escreve-la como
pi = P (|ri| > t | z)
(5.2)
Assim, a i-esima observacao e suspeita ser um outlier, se |ri| excede o limiar t. Utilizando
as cadeias geradas do amostrador de Gibbs com passo de Metropolis-Hastings, podemos estimar a proba-
bilidade de uma observacao ser um outlier por meio de
pri(t) =1
M
M∑i=1
I[|r(m)i | > t|z]
= E [I(|ri| > t|z)]
para um especıfico limiar t, onde r(m)i = Σ
−1/2ii (θ(m))(zi − xTβ(m)).
Alem disso, podemos examinar a probabilidade a posteriori conjunta de que duas ou mais
observacoes possam ser outliers. Assim, a probabilidade a posteriori conjunta (ri, rj) de um par de
observacoes serem outliers e dado por
53
pij = p(|ri| > t e |rj | > t | z) (5.3)
Novamente, utilizando as cadeias geradas pelo algoritmo MCMC, podemos estimar a pro-
babilidade de duas observacoes serem outliers.
pij =1
M
M∑m=1
I[|r(m)i | > t e |r(m)
j | > t|z]
Os p′ijs podem ser comparados com a probabilidade a priori 2F (−t)−2, onde F representa a
acumulada da distribuicao Normal. Na presenca de multiplos outliers considerados“disfarcados”, ocorrem
quando um teste para uma unica observacao discrepante nao detectar um caso isolado, na presenca de
um outro outlier. Com isso, o uso de probabilidades multiplas e ideal para esses casos.
Para verificarmos o quao correlacionado sao o par de observacoes classificadas como outliers,
podemos calcular a correlacao ρij que pode ser escrita como
ρij =Σij√ΣiiΣjj
a correlacao entre ri e rj , tal que Σij representa a covariancia entre as observacoes i e j e Σii e Σjj a
variancia para i e j. Note que no caso espacial a questao de deteccao de outliers multiplos se torna crucial.
Em particular, nos modelos GLG o processo latente de variancia e correlacionado, e portanto, a deteccao
de um outlier sugere que outros outliers podem ocorrer mais frequentemente naquela vizinhanca.
5.1.1 Escolha do limiar t
Chaloner and Brant [1988], propoe uma regra de escolha do limiar, onde t pode ser escolhido de modo
que a probabilidade a priori dada por 2F (−t) de nao outliers seja grande, como por exemplo 0, 95.
A regra da escolha de t e proposta como sendo t = F−1{
0, 5 + 12 (0, 951/n)
}. Os autores ainda
enfatizam que se o modelo em questao e necessario para descrever os dados, em vez de ser considerado
como um modelo estocastico, entao t pode ser utilizado para encontrar observacoes que nao sao bem
descritas pelo modelo, independentemente do tamanho da amostra. Ja os autores Albert [1996] e Souza
and Migon [2010], utilizam t = 0, 75 para um modelo de regressao binaria.
Devemos fixar um valor para constante t para calcular a probabilidade pi. Note que a regra
de escolha do momento inicial t para um modelo espacial pode ser diferente do caso de regressao linear.
Primeiramente a ideia e fixar valores para t abordados na literatura de modelos de regressao e ver como
eles reagem diante aos dados.
54
Como o modelo GLG tem a caracterıstica de localizar observacoes discrepantes na amostra
a partir dos λ’s gerados no MCMC, ele sera nosso modelo de referencia para o calculo das probabilidades
a posteriori. Neste modelo, uma observacao pode ser classificada como outlier se ela possui uma variancia
bem maior que as demais.
5.2 Deteccao de outliers baseados na preditiva
Nesta secao sao abordadas outras metodologias que podem ser utilizadas para deteccao de outliers e
tambem e visto como proceder no caso de modelos espaciais.
5.2.1 Concordancia Preditiva (PC)
Uma alternativa para verificarmos se uma observacao e discrepante, e a distribuicao preditiva a posteriori.
Gelfand [1996] sugere que qualquer observacao zi que se encontra na cauda da distribuicao preditiva a
posteriori pode ser considerada como um outlier potencial. A concordancia preditiva e dada por
pci = P (zrepi > zobsi ), (5.5)
onde zrepi representa a nova observacao e zobsi representa a observacao de interesse. Esse metodo se torna
um pouco semelhante ao p-valor bayesiano que sera mencionado no Capıtulo 5. Replicando m vezes,
temos
pci =1
M
M∑i=1
I[zrep(m)i > zobsi
]. (5.6)
Definicao 5.2.1 (Concordancia preditiva). O percentual dos zi’s que nao sao classificados como outliers
e chamado de concordancia preditiva. Um percentual de 95% de concordancia preditiva seria ideal para
constatar que tal observacao nao seja classificada como outlier.
Graficos da densidade preditiva a posteriori se tornam uteis neste caso, incluindo o valor
observado zobsi para mostrar sua posicao na densidade preditiva de zrepi .
5.2.2 Ordenada preditiva condicional (CPO)
Definicao 5.2.2 (Ordenada preditiva condicional). A ordenada preditiva condicional e definida por
Gelfand [1996] como
CPOi = p(zi|z(i))
=
∫p(zi|Φ)p(Φ|z(i))dΦ
(5.7)
55
onde zi representa um valor observado do conjunto z e z(i) representa todas as observacoes de z sem a
observacao atual i. Valores proximos de zero da equacao (5.7) sugerem que a observacao i e um possıvel
outlier ou uma observacao influente.
O CPO e facilmente calculado com uma aproximacao numerica. Consideramos a inversa da
verossimilhanca apos M iteracoes, o CPO para cada observacao i e
CPOi =1
1M
∑Mm=1 p(zi|Φ(m))−1
Note que p(zrep|z(i)) representa a distribuicao preditiva de uma nova observacao dado z(i).
Conforme Petit [1990], embora o CPO nos de uma indicacao do grau de surpresa de uma observacao, o
papel desse teste e um diagnostico inicial seguido por um diagnostico mais cuidadoso da possibilidade
de existir dados contaminados e uma descricao probabilıstica do mecanismo de geracao. Se o CPO da
resultados similares para todas as observacoes (por exemplo, valores muito baixos), torna-se inviavel
sugerir que qualquer observacao seja um outlier. Atraves disso, ele propoe um novo diagnostico.
Definicao 5.2.3 (Ratio ordinate measure (ROM)). O diagnostico e representado pela razao do CPO
divido pelo valor maximo da distribuicao preditiva, ou seja,
ROM =CPO
max{p(zrep|z(i))
} (5.8)
o ROM e um tipo de padronizacao do CPO, que visa retornar a valores mais realısticos para cada
observacao (valores maiores - nao outliers, valores proximos de zero - possıveis outliers), na decisao para
classificar as observacoes como possıveis outliers ou nao.
Seguindo a mesma ideia da concordancia preditiva (PC), e proposto neste trabalho uma
probabilidade chamada de p-valor para o CPO (CPOp) atraves da observacao atual dada as demais
observacoes.
Definicao 5.2.4. Defina o CPOp como o p-valor associado quando a i-esima observacao esta na cauda
da preditiva obtida sem usar a i-esima observacao para estimar os parametros desconhecidos do modelo,
isto e,
CPOpi = P (zrep > zi | z(i)). (5.9)
onde zrep representa a nova observacao, zi representa a observacao atual de interesse e z(i) representa as
demais observacoes sem a observacao atual i.
Note que essa medida pode ser mais robusta que o p-valor usual dado que nao utiliza a
observacao i para obtencao da preditiva.
5.2.3 Probabilidade mais conservadora
Suponha que temos tres medidas de probabilidade para detectar observacoes que acreditamos ser outliers,
como as apresentadas acima. Duas delas detectam a observacao como outlier e a outa medida nao. Como
definir se a observacao em questao e um outlier ou nao?
56
Na inferencia classica, devemos estar atentos aos erros do tipo I e II na realizacao de um
teste estatıstico, ja que estamos em duas situacoes
P(Erro do tipo I) P(Rejeitar H0 |H0 verdadeira), ou seja,
a observacao ser um outlier e concluirmos que nao e
P(Erro do tipo II) P(Aceitar H0 |H0 falsa), ou seja,
a observacao nao ser um outlier e concluirmos que e
Note que o erro do tipo I e o mais grave, pois estarıamos tratando essa observacao como
uma observacao igual as demais na amostra, o que poderia levar a problemas na estimacao de parametro
de previsao. A ideia entao seria minimizar o erro do tipo I.
Sob enfoque bayesiano, se a observacao e um outlier, podemos tomar as seguintes decisoes:
• decidir que a observacao e um outlier
• decidir que a observacao nao e um outlier
Usando ideia semelhante ao enfoque classico, e aconselhado uma abordagem mais conserva-
dora na tomada de decisao. Desse modo dizer que a observacao e um outlier, mesmo nao sendo, nao e tao
grave do que decidir que a observacao nao e outlier e ser. Propoe-se neste trabalho, uma probabilidade
mais conservadora para avaliar se a observacao e um outlier.
Definicao 5.2.5 (Probabilidade mais conservadora). Aplicado a uma famılia de p valores bayesianos, a
probabilidade mais conservadora e
McP = min {p1, p2, . . . , pn} < α (5.10)
onde α representa o nıvel de significancia do teste.
5.2.4 Razao de densidades de Savage-Dickey
Proposto por Dickey [1971] e sob contexto bayesiano a razao e conhecida como uma representacao es-
pecıfica do fator de Bayes, utilizando apenas a distribuicao a posteriori sob a hipotese alternativa que
desejamos testar. Tambem e uma otima ferramenta para detectar observacoes atıpicas para o modelo
GLG. De acordo com Palacios and Steel [2006] mesmo que este modelo possa representar outliers, e util
ter uma indicacao mais concreta de que as observacoes particulamente apresentam uma caracterıstica
diferente das demais, ou seja, areas do espaco que requerem uma variancia inflacionada.
Desta maneira, e proposto o calculo da razao de Savage-Dickey entre a distribuicao a pos-
teriori e priori das funcoes de densidade de λi avaliada em λi = 1, ou seja,
Ri =p(λi | z)
p(λi) |λi=1
(5.11)
57
onde a razao Ri e favoravel ao modelo com λi = 1 (e todos os outros elementos de λ livres) versus o
modelo com λi livre e sera uma boa aproximacao para o fator de Bayes usual do teste de hipotese para
λi = 1.
5.3 Estudo Simulado
Iremos discutir a capacidade dos modelos propostos, MG, MTS e MGLG na identificacao de potenciais
outliers e compara-los utilizando MGLG como referencia, ja que tal modelo consegue detectar observacoes,
atraves da variancia relativa desta observacao.
Este estudo baseia-se nos Cenarios 1,2,3 propostos ja mencionados no Capıtulo 3. Espera-
se que observacoes que foram contaminadas nos respectivos cenarios apresentem probabilidades residuais
a posteriori maiores quando comparadas as nao contaminadas.
O calculo dos residuos a posteriori para os tres modelos sao realizado atraves de:
• Para modelo Gaussiano fN (z|β, σ2, φ).
Amostrar de β(m), σ2(m), φ(m) e entao o resıduo padronizado e dado por
r(m)i = Σ
−1/2ii (θ(m))(zi −Xβ(m))
tal que θ = (φ, κ).
• Para modelo T-Student Multivariado fTS(z|β, σ2, φ, ν),
Amostrar de β(m), σ2(m), φ(m), ν(m) e entao o resıduo padronizado e dado por
r(m)i = Σ
−1/2ii (θ(m))(zi −Xβ(m))
.
• Para modelo Gaussian Log Gaussian fN (z|β, σ2, φ, ν,λ).
Amostrar de β(m), σ2(m), φ(m),λ(m), ν(m), tal que λ|ν ∼ LogNormal(−1ν2 , νΣ(θ)
)e matriz Σ∗ =
Λ−1/2ΣΛ−1/2 e entao o resıduo padronizado e dado por
r(m)i = Σ∗
−1/2ii (θ(m))(zi −Xβ(m))
.
Para a decisao da escolha do limiar t no calculo da probabilidade a posteriori do resıduo para
cada cenario, optou-se primeiramente por fixar valores de limiares (t1 = 0, 75, t2 = 2, t3 = 3, 1), tal que t1
e baseado no modelo de Albert [1996] e Souza and Migon [2010] para dados binarios, t2 escolha arbitraria
58
e t3 baseado na proposta de Chaloner and Brant [1988], onde t3 = F−1{
0, 5 + 12 (0, 95−1/n)
}. Apos o
calculo das probabilidades a posteriori, observa-se qual t nos forneceram probabilidades mais realistas em
relacao aos dados artificiais, ou seja, probabilidades a posteriori dos residuos baixas indicam a ausencia
de observacoes discrepantes na amostra e probabilidades altas indicam a presenca dessas observacoes . O
uso de graficos dos resıduos a posteriori e o diagnostico das probabilidades a posteriori para os respectivos
modelos e cenarios fazem-se uteis e serao apresentados.
A figura (5.1) apresenta os resıduos a posteriori para os 3 modelos e respectivos cenarios.
Note que no Cenario 1, sendo visualizado na primeira linha pelas Figuras (5.1)(i),(ii),(iii), onde nao
ha presenca de contaminacao, os resıduos a posteriori se comportam de maneira desejavel para os tres
modelos propostos. Os resıduos devem permanecer em torno do intervalo (−2, 2) no caso gaussiano, pois
fora deste intervalo acredita-se que a observacao possa ser considerada como um outlier.
Podemos observar novamente na Figura (5.1)(i),(ii),(iii) os resultados para o Cenario 2 e
Cenario 3 respectivamente. Para o Cenario 2, quando contaminamos 3 observacoes, observa-se que
1, 20, ultrapassam o intervalo (−2, 2), sugerindo que estas sejam diferenciadas das demais, para os 3
modelos. Note que a observacao 6 nao foi classificada como outlier vide que mesmo contaminada ela
nao destoa das demais observacoes da amostra devido ao seu grau de contaminacao em MG e MTS ,
entretando, o MGLG consegue captar essa observacao como uma observacao com um grau de diferenciado
das demais. No Cenario 3, as observacoes contaminadas que ultrapassam este intervalo sao 1, 15, 19, 30,
para MG e MTS . Mais uma vez, o modelo GLG consegue detectar todos outliers atraves da analise
residual bayesiana, e assim, este modelo e o modelo referencia, ja que as observacoes que se destoam das
demais apresentam variancia maiores como pode ser visto na tabela (5.4). Em resumo, essa ferramenta
foi efetiva somente para o modelo GLG, falhando em detectar todos os outliers nos outros modelos.
Para deteccao de observacoes atıpicas, a Tabela (5.1) apresenta as probabilidades a poste-
riori pi(|ri| > t1|z), pi(|ri| > t2|z) e pi(|ri| > t3|z), da i-esima observacao ser um outlier, para algumas
observacoes dos cenarios propostos. Como nenhuma observacao foi contaminada (Cenario 1), espera-se
que as probabilidades sejam pequenas. Quanto a escolha do limiar, observa-se que quando escolhemos um
limiar muito baixo, como em t1 a probabilidade das observacoes serem outliers sao altas, fornecendo pro-
babilidades consideradas enganosas, ou seja, indica que a observacao e um outlier, quando nao e. Quando
aumentamos o valor desde limiar t2, ainda assim as probabilidades sao altas em relacao a realidade dos
dados simulados. Entretanto, a melhor escolha a se fazer e fixar um limiar t a partir da proposta de Cha-
loner and Brant [1988], descrito em t3, retornando a probabilidades que condiz com o comportamento da
observacao, ou seja, probabilidades dos resıduos a posteriori pequenas indicam ausencia de observacoes
discrepantes. Podemos observar que a probabilidade dessas observacoes serem classificadas como outli-
ers sao mınimas, uma vez que nao estao contaminadas. Para confirmar este resultado, podemos olhar
novamente para as Figuras (5.1) no Cenario 1, uma vez que nenhuma delas ultrapassam o intervalo
(−2, 2).
59
Cenario 1
Observações
r i
−10
−5
05
10
0 5 10 15 20 25 30
Observações
r i
−10
−5
05
10
0 5 10 15 20 25 30
Observações
r i
−10
−5
05
10
0 5 10 15 20 25 30
Cenario 2
Observações
r i
−10
−5
05
10
0 5 10 15 20 25 30
Observações
r i
−10
−5
05
10
0 5 10 15 20 25 30
Observações
r i
−10
−5
05
10
0 5 10 15 20 25 30
Cenario 3
Observações
r i
−10
−5
05
10
0 5 10 15 20 25 30
Observações
r i
−10
−5
05
10
0 5 10 15 20 25 30
Observações
r i
−10
−5
05
10
0 5 10 15 20 25 30
(i) (ii) (iii)
Figura 5.1: Box-Plots das distribuicoes a posteriori dos resıduos para as 30 observacoes nos modelos (i)
Gaussiano, (ii) T-Student Multivariado e (iii)GLG. As linhas pontilhadas representam o intervalo (-2,2)
para o caso gaussiano e as caixas de cor verde (pontos acima ou abaixo do intervalo) representam os
pontos contaminados em cada cenario.
Para os dados contaminados e destacados em negrito no Cenario 2 apresentamos a Tabela
(5.2), que nos da a probabilidade a posteriori da i-esima observacao ser um outlier. Veja que quando
comparado as figuras (5.1) expostas para o mesmo cenario, a probabilidade das observacoes 1 e 20 sao
60
maiores que as demais, sugerindo a classificacao delas como outliers. Repare que para a observacao 6
o modelo que melhor capta tal observacao como discrepante e MGLG. Novamente, os limiares t1 e t2
nos dao probabilidades enganosas, indicando que as observacoes sao outliers, quando na realidade nao
sao. Na tabela (5.3) para o Cenario 3, o limiar mais realıstico com os dados simulados e o t3 e as
observacoes destacadas em negritos representam as contaminacoes para este cenario. Observe que as
observacoes 1, 15, 19, 30 podem ser classificadas como outleirs e novamente, o modelo que melhor captura
os outliers e o modelo GLG, retornando a probabilidades maiores no calculo das probabilidades dos
resıduos a posteriori.
Note que, para o Cenario 2, no caso Gaussiano, a probabilidade a priori de |ri| > t3 e
0, 0017 e a observacao 1 e a observacao com maior probabilidade a posteriori de ser um outlier com
probabilidade de 0,797. No modelo t-student multivariado as observacoes 1 e 20 sao as que contem
a maior probabilidade a posteriori de ser classificadas como outlier com probabilidades 0,839 e 0,299
respectivamente. Enfiatiza-se novamente que nao devemos desconsiderar a observacao 6 que tambem
foi contaminada, embora nao se destaque tanto em relacao as outras que foram contaminadas. No caso
GLG obteu-se uma probabilidade de 0,228 da observacao 6 ser classificada como outlier o que nao ocorre
quando comparada com os outros modelos gaussiano e t-student (0,000 e 0,001 respectivamente).
No Cenario 3 utilizando o mesmo limiar t3, temos a mesma probabilidade a priori de 0, 0017
e a observacao 15 e a observacao com maior probabilidade a posteriori de ser classificada como um outlier,
com probabilidades 0,723 (MG), 0,805 (MTS) e 0,996 (MNG). Acredita-se entao que a observacao 15 possa
ser classificada com maior certeza como uma observacao discrepante, em todos os modelos. Mais uma vez,
o modelo GLG consegue capturar melhor as observacoes que foram contaminadas comparadas as outros
modelos propostos. Por exemplo, a observacao contaminada 30 obtiveram-se probabilidades a posteriori
de 0,000 (MG),0,042 (MTS) e 0,795 (MNG).
Neste exemplo simulado, nenhuma observacao foi classificada erroneamente como sendo
um outlier quando nao foi contaminada. Probabilidades baixas representam ausencia de observacoes
discrepantes, enquanto probabilidades altas representam a presenca de observacoes discrepantes.
61
Tabela 5.1: Tabela dos resıduos padronizados com respectivas probabilidades a posteriori pi(|ri| > t|z) no Cenario 1 para os tres modelos propostos. Probabilidades a
posteriori grandes representam presenca de outliers na amostra.
Cenario 1
Gaussiano T-Student GLG
i zi ri p(t1)i p(t2)i p(t3)i ri p(t1)i p(t2)i p(t3)i ri p(t1)i p(t2)i p(t3)i
1 7,466 0,730 0,489 0,033 0,738 0,530 0,044 1,170 0,742 0,298 0,062
3 5,980 -0,575 0,403 0,020 -0,547 0,420 0,021 -0,467 0,519 0,084 0,011
6 7,478 -0,100 0,296 0,002 -0,033 0,269 0,006 0,181 0,474 0,073 0,008
15 8,549 0,759 0,536 0,039 0,794 0,551 0,058 0,003 1,372 0,772 0,301 0,072
20 6,998 0,495 0,391 0,020 0,495 0,392 0,024 0,928 0,663 0,193 0,030
27 7,922 -0,724 0,517 0,082 0,003 -0,580 0,480 0,058 0,002 -0,691 0,645 0,208 0,038
30 7,940 0,074 0,309 0,007 0,143 0,317 0,007 0,443 0,519 0,111 0,0091Probabilidade a posteriori menores que 10−4 sao omitidas.
62
Tabela 5.2: Tabela dos resıduos padronizados com respectivas probabilidades a posteriori pi(|ri| > t|z) no Cenario 2 para os tres modelos propostos. Probabilidades a
posteriori grandes representam presenca de outliers na amostra.
Cenario 2
Gaussiano T-Student GLG
i zi ri p(t1)i p(t2)i p(t3)i ri p(t1)i p(t2)i p(t3)i ri p(t1)i p(t2)i p(t3)i
1 10,763 3,711 1,000 0,998 0,797 3,731 1,000 0,995 0,839 5,426 1,000 1,000 0,997
3 5,980 -0,796 0,524 0,007 -0,639 0,455 0,016 0,222 0,432 0,053 0,005
6 8,677 0,920 0,618 0,010 1,050 0,698 0,092 0,001 2,364 0,965 0,664 0,228
15 8,549 0,680 0,473 0,004 0,756 0,522 0,044 1,883 0,877 0,436 0,112
20 9,432 2,622 0,999 0,848 0,114 2,668 0,999 0,863 0,299 4,300 0,999 0,995 0,904
27 7,922 -0,871 0,548 0,060 -0,592 0,505 0,053 0,001 0,137 0,578 0,143 0,033
30 7,940 -0,056 0,152 0,102 0,273 0,005 1,058 0,667 0,209 0,0451Probabilidade a posteriori menores que 10−4 sao omitidas.
63
Tabela 5.3: Tabela dos resıduos padronizados com respectivas probabilidades a posteriori pi(|ri| > t|z), no Cenario 3 para os tres modelos propostos. Probabilidades a
posteriori grandes representam presenca de outliers na amostra.
Cenario 3
Gaussiano T-Student GLG
i zi ri p(t1)i p(t2)i p(t3)i ri p(t1)i p(t2)i p(t3)i ri p(t1)i p(t2)i p(t3)i
1 10,763 3,71 1,000 0,979 0,344 3,080 0,999 0,925 0,456 5,338 1,000 1,000 0,986
3 5,980 -0,796 0,756 0,008 -0,958 0,630 0,044 0,001 0,507 0,478 0,072 0,007
6 8,677 0,920 0,114 0,472 0,345 0,017 2,628 0,969 0,733 0,310
15 11,886 0,680 1,000 0,993 0,723 3,817 1,000 0,994 0,805 5,734 1,000 1,000 0,996
20 9,432 2,622 0,997 0,563 0,002 2,135 0,971 0,574 0,066 4,273 1,000 0,989 0,896
27 7,922 -0,871 0,959 0,335 0,023 -1,459 0,808 0,254 0,017 0,702 0,624 0,244 0,067
30 10,252 -0,056 0,965 0,192 1,937 0,957 0,443 0,042 3,988 1,000 0,975 0,7951Probabilidade a posteriori menores que 10−4 sao omitidas.
Tabela 5.4: Variancia relativa a posteriori para algumas observacoes suspeitas como outliers no modelo GLG. Observacoes classificadas como outliers, apresentam
variancia relativa maiores que as demais.
Cenario 2 Cenario 3
Observacao σ2/λi Observacao σ2/λi
1 4,442 1 10,995
6 1,011 6 3,679
- - 15 13,550
20 4,228 20 7,649
64
Em adicao, para examinar as observacoes contaminadas dos Cenarios 2 e Cenario 3 e a
possibilidade de outliers adicionais, considere a probabilidade posteriori pij como dado na equacao (5.3)
para todos os pares i e j, para i 6= j. As Tabelas (5.5) e (5.6) apresentam valores das probablidades
multiplas. Este calculo e mais uma garantia de que podemos classificar ou nao os verdadeiros outliers
em uma dada amostra, em particular e uma ferramenta util no caso de dados geo-referenciados.
Na tabela (5.5), percebemos que o par de observacoes (1, 20) sao sugeridos como outliers
devido a probabilidade a posteriori multipla alta comparado aos outros pares. Os valores das correlacoes
a posteriori de cada par de observacoes sao bem altos e todos acima de 0, 80. Altas correlacoes a posteriori
tambem pode levar a grandes valores a posteriori, de deteccao de outlier o que pode ser visualizado em
r1, r20, r15 e apresentam forte dependencia entre eles.
Tabela 5.5: Tabela das probabilidades multiplas a posteriori pij = p(|ri| > t3 e |rj | > t3|z) e correlacao
a posteriori ρij entre ri e rj , para cada modelo no Cenario 2. Probabilidades multipla residuais a
posteriori grandes, representam outliers na amostra.
(i, j) Gaussiano T-Student GLG Correlacao ρij
(1,6) 0,001 0,228 0,869
(1,20) 0,114 0,299 0,904 0,950
(6,20) 0,001 0,227 0,8541Probabilidade a posteriori multiplas menores que 10−3 sao omitidas.
Tabela 5.6: Tabela das probabilidades multiplas a posteriori pij = p(|ri| > t3 e |rj | > t3|z) e correlacao
a posteriori ρij entre ri e rj , para cada modelo no Cenario 3. Probabilidades multipla residuais a
posteriori grandes, representam outliers na amostra.
(i,j) Gaussiano T-Student GLG Correlacao ρij
(1,15) 0,307 0,433 0,982 0,834
(1,20) 0,002 0,066 0,896 0,958
(1,29) 0,006 0,603 0,850
(1,30) 0,042 0,794 0,847
(6,20) 0,307 0,875
(15,20) 0,002 0,066 0,893 0,9331Probabilidade a posteriori multiplas menores que 10−3 sao omitidas.
65
Gaussiano
2 4 6 8 10 12
0.00
0.10
0.20
0.30
Obs. [1]
N = 981 Bandwidth = 0.5098
Den
sity
2 4 6 8 10
0.00
0.10
0.20
0.30
Obs. [3]
N = 981 Bandwidth = 0.4911
Den
sity
4 6 8 10
0.00
0.10
0.20
0.30
Obs. [15]
N = 981 Bandwidth = 0.5162
Den
sity
2 4 6 8 10
0.00
0.10
0.20
0.30
Obs. [20]
N = 981 Bandwidth = 0.5035
Den
sity
4 6 8 10 14
0.00
0.10
0.20
Obs. [27]
N = 981 Bandwidth = 0.5667
Den
sity
T-Student Multivariado
2 4 6 8 10
0.00
0.10
0.20
0.30
Obs. [1]
N = 981 Bandwidth = 0.5483
Den
sity
2 4 6 8 10
0.00
0.10
0.20
0.30
Obs. [3]
N = 981 Bandwidth = 0.5271D
ensi
ty
2 4 6 8 12
0.00
0.10
0.20
Obs. [15]
N = 981 Bandwidth = 0.5695
Den
sity
2 4 6 8 10
0.00
0.10
0.20
0.30
Obs. [20]
N = 981 Bandwidth = 0.5074
Den
sity
4 6 8 12
0.00
0.10
0.20
Obs. [27]
N = 981 Bandwidth = 0.6121
Den
sity
GLG
−5 0 5 10 15
0.00
0.05
0.10
0.15
Obs. [1]
N = 981 Bandwidth = 0.9719
Den
sity
0 5 10
0.00
0.10
0.20
Obs. [3]
N = 981 Bandwidth = 0.6924
Den
sity
0 5 10 15
0.00
0.10
0.20
Obs. [15]
N = 981 Bandwidth = 0.7115
Den
sity
−5 0 5 10 15
0.00
0.05
0.10
0.15
Obs. [20]
N = 981 Bandwidth = 0.9735
Den
sity
0 5 10 15
0.00
0.10
0.20
Obs. [27]
N = 981 Bandwidth = 0.7603
Den
sity
Figura 5.2: Densidades preditivas para cada observacao dos modelos propostos para o Cenario 2 onde a linha tracejada representa o dado observado zobsi , de acordo
com os resultados obtidos de pci.
66
Gaussiano
4 6 8 10 12
0.00
0.10
0.20
0.30
Obs. [1]
N = 981 Bandwidth = 0.5075
Den
sity
2 4 6 8 10
0.00
0.10
0.20
0.30
Obs. [3]
N = 981 Bandwidth = 0.4742
Den
sity
4 6 8 10 12
0.00
0.10
0.20
0.30
Obs. [15]
N = 981 Bandwidth = 0.5188
Den
sity
2 4 6 8 10 12
0.00
0.10
0.20
0.30
Obs. [20]
N = 981 Bandwidth = 0.4976
Den
sity
4 6 8 10 14
0.00
0.10
0.20
0.30
Obs. [27]
N = 981 Bandwidth = 0.523
Den
sity
T-Student Multivariado
2 4 6 8 10
0.00
0.10
0.20
0.30
Obs. [1]
N = 981 Bandwidth = 0.5545
Den
sity
2 4 6 8 10
0.00
0.10
0.20
0.30
Obs. [3]
N = 981 Bandwidth = 0.506D
ensi
ty
4 6 8 10
0.00
0.10
0.20
0.30
Obs. [15]
N = 981 Bandwidth = 0.5472
Den
sity
4 6 8 10
0.00
0.10
0.20
0.30
Obs. [20]
N = 981 Bandwidth = 0.5425
Den
sity
2 4 6 8 12 16
0.00
0.10
0.20
Obs. [27]
N = 981 Bandwidth = 0.62
Den
sity
GLG
−5 0 5 10 20
0.00
0.05
0.10
0.15
Obs. [1]
N = 981 Bandwidth = 1.113
Den
sity
0 5 10
0.00
0.10
0.20
Obs. [3]
N = 981 Bandwidth = 0.7244
Den
sity
−5 0 5 10 20
0.00
0.04
0.08
0.12
Obs. [15]
N = 981 Bandwidth = 1.194
Den
sity
−5 0 5 10
0.00
0.05
0.10
0.15
Obs. [20]
N = 981 Bandwidth = 1.117
Den
sity
0 5 10 15 20
0.00
0.05
0.10
0.15
Obs. [27]
N = 981 Bandwidth = 0.9349
Den
sity
Figura 5.3: Densidades preditivas para cada observacao dos modelos propostos para o Cenario 3 onde a linha tracejada representa o dado observado zobsi , de acordo
com os resultados obtidos de pci.
67
Outros metodos para deteccao de outliers estao bem estabelicidos na literatura. Calculou-se
a concordancia preditiva (pci) para os 3 modelos propostos em seus respectivos cenarios, visualizados
na tabela (5.7). Os valores destacados em negrito, representam as observacoes que foram indicadas
como outliers segundo a probabilidade. Os valores com probabilidades maiores acima de 5% representam
a concordancia preditiva, ou seja, observacoes que nao sao classificadas como discrepantes. Valores
observados zobsi que estao na cauda, sao classificados como outliers potenciais.
Em continuidade pela tabela (5.7), podemos visualizar outros tipos de calculo de probabi-
lidades preditivas com a finalidade de detectar outliers na amostra. Devemos estar cientes que embora
o objetivo do CPO e dar indicacoes de como uma observacao se comporta, veja que ha contradicao na
medida de seu calculo, pois alem de apresentar valores pequenos para todas as observacoes, observe que
para o Cenario 1 onde nao ha algum tipo de contaminacao, para o caso gaussiano, por exemplo, o valor
da observacao z27 e muito proxima de zero, o que torna o CPO falho neste estudo. Infelizmente, o mesmo
ocorre quando calculado o ROM, proposto por Petit [1990] ja que seu calculo depende do CPO (resultados
omitidos aqui). Ressaltamos que o CPO e o ROM nao sao p-valores e sim ferramentas de diagnosticos
que de acordo com o resultado vao indicar presenca ou ausencia de outliers. Com isso, a proposta de
um p-valor para o CPO (CPOp) fez-se util no estudo, retornando a probabilidades mais coerentes (ou
seja, quando realmente a observacao em questao e contaminada), destacadas na mesma tabela. Adiante
com os calculos das probabilidades, utilizou-se a probabilidade mais conservadora baseada nas tomadas
de decisao, realizada atraves do mımino entre as probabilidades pci e CPOpi.
Embora a probabilidade mais conservadora seja um metodo bem simples de ser calculado,
ele surte efeito quando minimizado atraves de outras probabilidades. No caso do Cenario 2 e Cenario
3, z20 em MGLG nao e classificada como um outlier a um nıvel de significancia de 5% para o calculo do
CPOpi, enquanto e classificada como discrepante quando calculado o pci. Como o McP e uniformemente
mais rigoroso que as demais probabilidades a um nıvel de significancia de 5%, pode-se afirmar que z20 e
um outlier.
68
Tabela 5.7: Calculo do pci,cpoi, CPOpi e McP para algumas observacoes - observacoes destacadas em negrito representam observacoes contaminadas. Probabilidades
proximas de zero sao classificadas como outliers .
Cenario 1
Gaussiano T-Student GLG
Obs. pci cpoi CPOpi McP pci cpoi CPOpi McP pci cpoi CPOpi McP
1 0.271 0,145 0,257 0,257 0,297 0,039 0,201 0,201 0,252 0,001 0,261 0,252
3 0,685 0,200 0,712 0,685 0,680 0,016 0,769 0,680 0,611 0,259 0,261 0,261
15 0,278 0,112 0,262 0,262 0,267 0,011 0,197 0,197 0,226 0,101 0,235 0,226
20 0,337 0,227 0,341 0,337 0,361 0,017 0,286 0,286 0,307 0,174 0,291 0,291
27 0,678 0,006 0,700 0,678 0,647 0,000 0,873 0,647 0,643 0,137 0,627 0,627
Cenario 2
Gaussiano T-Student GLG
Obs. pci cpoi CPOpi McP pci cpoi CPOpi McP pci cpoi CPOpi McP
1 0,001 0,001 0,013 0,019 0,013
3 0,767 0,2395 0,780 0,767 0,700 0,0577 0,886 0,700 0,457 0,239 0,507 0,457
15 0,264 0,281 0,243 0,243 0,269 0,173 0,199 0,199 0,177 0,232 0,277 0,177
20 0,009 0,003 0,001 0,001 0,016 0,031 0,004 0,110 0,031
27 0,742 0,039 0,769 0,742 0,651 0,898 0,651 0,486 0,385 0,385
69
Cenario 3
Gaussiano T-Student GLG
Obs. pci cpoi CPOpi McP pci cpoi CPOpi McP pci cpoi CPOpi McP
1 0,002 0,000 0,004 0,002 0,006 0,004 0,037 0,006 0,031 0,070 0,031
3 0,827 0,192 0,835 0,827 0,801 0,014 0,964 0,801 0,402 0,257 0,257
15 0,004 0,031 0,046 0,094 0,044 0,044
20 0,025 0,022 0,035 0,025 0,042 0,001 0,017 0,017 0,025 0,115 0,025
27 0,945 0,006 0,968 0,945 0,851 1 0,851 0,402 0,281 0,2811Probabilidade a posteriori menores que 10−4 sao omitidas.
Tabela 5.8: Densidade de Savage-Dickey para o modelo GLG no Cenario 2 e 3 em favor de λi para algumas observacoes selecionadas. Observacoes em negrito
representam observacoes contaminadas classificando-as como outliers.
Cenario 2 Cenario 3
obs. E(λi|z) SD(λi|z) S-D obs. E(λi|z) SD(λi|z) S-D
[1] 0,271 0.119 0.011 [1] 0,199 0,097 0,002
[3] 0,601 0,321 0,454 [3] 0,573 0,352 0,381
[6] 0,516 0,193 0,149 [6] 0,358 0,175 0,05
[15] - - - [15] 0,188 0,089 0,001
[20] 0,309 0,141 0,016 [20] 0,242 0,12 0,017
[27] 0,643 0,280 0,596 [27] 0,434 0,246 0,596
70
Embora a analise do resıduo tenha capturado completamente todas as observacoes que foram
contaminadas nos cenarios propostos para MGLG, o que nao ocorreu para MG e MTS , bem como para o
calculo das probabilidades da preditiva, uma das alternativas para contestar e justificar o que a analise
nao conseguiu capturar para estes modelos em relacao ao modelo MGLG e realizada atraves da razao
de densidade de Savage-Dickey, que pode ser visualizado na tabela (5.8) para os cenarios contaminados.
Como em Palacios and Steel [2006], essa razao e calculada para detectar observacoes discrepantes na
amostra, sendo uma aproximacao ao fator de Bayes usual, no teste de hipotese em que λi = 1. Veja que
quando observacoes sao contaminadas a razao retorna a valores baixos indicando que estas sao outliers.
Os proximos capıtulos relacionados a adequabilidade e escolha de modelo, e visto como este modelo se
comporta melhor em relacao ao gaussiano e T-student multivariado.
71
72
6 P-valor bayesiano
E de nosso interesse investigar a plausibilidade de modelos espaciais na presenca de observacoes discre-
pantes. Uma das alternativas e o calculo do p-valor bayesiano que, segundo Rubin [1984] e obtido atraves
da distribuicao preditiva a posteriori de uma estatıstica de teste para calcular a probabilidade da area da
cauda correspondente ao valor observado da estatıstica. Normalmente, o mınimo ou o maximo do valor
observado, zobs e comparado com o valor mınimo e maximo da observacao futura representada por zrep.
E comum na abordagem classica para este tipo de verificacao a realizacao de um teste de
bondade de ajuste. Este teste calcula a probabilidade da area da cauda sob o modelo postulado para
quantificar o extremo do valor observado de uma discrepancia selecionada. O calculo pode ser escrito
tipicamente como
p-valor = P {T (Z) ≥ T (z)|H0} , (6.1)
onde em (6.1) a probabilidade e tomada sobre a distribuicao amostral de Z, sob a hipotese nula H0
com o valor observado da estatıstica de teste neste caso sendo uma constante (z). Geralmente T (Z) e
considerado como uma quantidade pivotal no sentido de que sua distribuicao de amostragem se torna
livre de qualquer parametro desconhecido na hipotese nula.
Estendendo a essencia da abordagem classica a estrutura bayesiana, segundo Gelman et al.
[1995], um modelo pode ser verificado pelo menos por tres modos: (1) atraves da analise da sensibilidade
das inferencias a mudancas razoaveis na distribuicao a priori e verossimilhanca ; (2) verificando se as
inferencias a posteriori sao razoaveis dado o contexto do modelo e (3) verificando se o modelo se ajusta
bem aos dados. O terceiro caso sera abordado, atraves de metodos pragmaticos de avaliacao da aptidao
de um modelo. Para isso, utiliza-se a distribuicao preditiva a posteriori para uma dada discrepancia.
Alem disso, diversos autores tentaram construir o p-valor bayesiano, que de acordo com
Hjort et al. [2006] pode ser visualizado como o grau de surpresa para os dados, dado a priori e o modelo.
Os primeiros a introduzirem a avaliacao do p-valor preditivo a posteriori foram Guttman [1967], aplicado
por Rubin [1981], dando uma definicao bayesiana formal por Rubin [1984] e posteriormente por Gelman
et al. [1995].
Se zrep denota uma replicacao, ou seja, a observacao futura de zobs, com o mesmo modelo
M , sob a otica bayesiana, a probabilidade de T (zrep) ≥ T (zobs) e escrita como
p = P{T (zrep) ≥ T (zobs)|M,Φ
}, (6.2)
tal que um p-valor muito proximo de 0, indica a falta de ajuste em direcao a estatıstica de teste T (z), e
pouco provavel que tenha ocorrido sob o modelo.
Para dada estatıstica de teste, denotada como discrepancia D(z,Φ), tal que Φ representa o
vetor de parametros dos modelos que serao testados, Gelman et al. [1995] define o p-valor preditivo a
posteriori formalmente sendo a probabilidade da area da cauda de D sob sua distribuicao de referencia
a posteriori, da forma:
ppp = p(zobs) = P{D(zrep; Φ) ≥ D(zobs; Φ)|M, z
}, (6.3)
tal que zobs representa aos dados observados, zrep corresponde a observacao futura (replicada) e M
representa o modelo em consideracao. Em particular, a distribuicao de referencia da observacao futura
zrep e a distribuicao preditiva a posteriori que pode ser escrita como
P (zrep|M, z) =
∫P (zrep|M,Φ)P (Φ|M, z)dΦ. (6.4)
E a probabilidade em (6.3) e tomada sobre a distribuicao a posteriori conjunta de (zrep,Φ), ou seja,
f(zrep,Φ|M, z) = f(zrep|M,Φ)π(Φ|M, z) (6.5)
6.1 Medidas de discrepancia
Ao eliminar adequadamente a dependencia do parametro desconhecido Φ, podemos construir estatısticas
de testes classicos para uma determinada discrepancia. Para o calculo do p-valor da equacao (6.3),
Gelman et al. [1995] e Hjort et al. [2006] consideram primeiramente a medida de discrepancia χ2, sendo a
soma dos quadrados dos resıduos padronizados dos dados com relacao as suas expectativas sob o modelo
proposto. De acordo com Gelman et al. [1995], a discrepancia χ2 e escrita como
X2(zobs; Φ) =
n∑i=1
(zi − E(zi|Φ))2
V ar(zi|Φ), (6.6)
no qual assumimos que dado Φ, a expressao em (6.6) segue aproximadamente uma distribuicao χ2(n).
Sendo assim, podemos calcular o p-valor preditivo a posteriori baseado em X2 como
ppp(zobs) =
∫P (χ2
(n) ≥ X2(zobs; Φ))P (Φ|M, z)dΦ, (6.7)
tal que χ2(n) representa a variavel aleatoria qui-quadrado com n graus de liberdade. Segundo Gelman
et al. [1995] este calculo e simples uma vez que P (Φ|M, z) e obtido. Isto nos gera repeticoes de D(zobs; Φ)
e a aproximacao requerida de (6.7) e dada por meio de simulacao
73
ˆppp(zobs) =1
M
M∑i=1
P{χ2
(n) ≥ D(zobs; Φ(m))}
(6.8)
=1
M
M∑i=1
P{χ2
(n) ≥ X2(zobs; Φ(m))
}
A equacao (6.8) e valida neste caso, porque D(zrep; Φ) tem distribuicao χ2(n) conhecida, independente-
mente de Φ.
Claramente, outras medidas de discrepancia para a analise podem ser inseridas afim de
obter resultados sobre a plausibilidade do modelo proposto. Gelman et al. [1995] propoem a medida de
discrepancia mınima, dado por
Dmin = minΦ D(z; Φ)
= minΦ
n∑i=1
(zi − E(zi|Φ))2
V ar(zi|Φ),
(6.9)
e a estatıstica de discrepancia media, escrita como
Davg(z) = E {D(z; Φ)|M, z)} (6.10)
=
∫D(z; Φ)P (Φ|M, z)dΦ
= E{X2min(z) + (X2(z; Φ)−X2
min(z))|z}
≈ X2min(z) + p
tal que p representa o acrescimo de uma constante. Ja Hjort et al. [2006] inclui a discrepancia maxima
para um modelo de regressao linear do tipo
maxi≤n D(z; Φ) = maxi≤n
{|zi − E(zi|Φ)|V ar(zi|Φ)
}, (6.11)
E medida de discrepancia de Kolmogorov, dado por
D(z; Φ) = supt |Fn(t)− F (t)| (6.12)
= maxt
∣∣∣∣∣ 1nn∑i=1
I
{zi − E(zi|Φ)
V ar(zi|Φ)≤ t}− F (t)
∣∣∣∣∣
no qual F (t) representa a distribuicao acumulada em hipotese .
74
Note que o calculo dessas discrepancias sao mais complicados de se obter, pois e preciso
minimizar, maximizar ou tirar a media sobre Φ, ao avaliar os seus valores. Por exemplo, para calcular
Dmin e necessario determinadar para cada (m) o valor de Φ para o qual D(zrep(m); Φ(m)) e minimizado.
Segundo Gelman et al. [1995], o calculo da discrepancia media exige uma integracao potencial mais
complicada.
Uma outra medida de discrepancia a ser pensada e verificar o modelo usando a estatıstica
de teste T (z) = maxi|zi|, como um tipo de medida que pode ser empregada para identificacao de outliers
ou pontos extremos.
Sob o contexto espacial, podemos generalizar todas as medidas de discrepancias apresentadas
anteriormente como descrito a seguir:
(A) Medida de discrepancia qui-quadrado citada em Gelman et al. [1995]
D(z; Φ) =n∑i=1
Σ−1ii (θ)(zi − µ)2,
(A∗) Medida de discrepancia qui-quadrado citada em Gelman et al. [1995], levando em conta as covari-
ancias entre as observacoes
D(z; Φ) = (z− µ)′Σ−1(θ)(z− µ),
no qual, representa a soma dos quadrados dos resıduos bayesianos espaciais como mostrado Propo-
sicao (8.0.1)
(B) Medida de discrepancia maxima Hjort et al. [2006]
D(z; Φ) = maxi≤n
{|zi − µ|Σii(θ)
},
(C) Medida de discrepancia mınima citada em Gelman et al. [1995]
minΦ {D(z; Φ)} = minΦ
{n∑i=1
(zi − µ)2
Σii(θ)
},
(D) Medida de discrepancia media citada em Gelman et al. [1995]
D(z; Φ) ≈ minΦ
{n∑i=1
(zi − µ)2
Σii(θ)
}+ p
a discrepancia media e aproximadamente a discrepancia mınima apenas desviado por uma constante
p.
(E) Medida de discrepancia de Komolgorov citada em Hjort et al. [2006]
maxtD(z; Φ) = maxt
∣∣∣∣∣ 1nn∑i=1
I
{(zi − µ)
Σii(θ)≤ t}− F (t)
∣∣∣∣∣75
tal que F (t) neste caso, representa a funcao de densidade acumulada padronizada sob a hipotese a
ser testada.
(F) Medida de discrepancia do maximo da observacao, para identificacao de possıveis outliers
D(z; Φ) = T (Z) = maxi|zi|
6.2 Estudo Simulado
Avaliaremos a adequacao das medidas propostas anteriormente para verificar bondade de ajuste em
modelos espaciais (Normal, T-Student e GLG) atraves do calculo do p-valor preditivo bayesiano espacial.
Dado a distribuicao a priori p(Φ), podemos calcular o p-valor bayesiano espacial utilizando tais medidas
de discrepancia e considerando os respectivos modelos:
• Processos Considerados
1) Processo Gaussiano com vetor de parametros Φ = (β, σ2, φ) com as mesmas prioris ja elicitadas ;
2) Processo T-Student com vetor de parametros Φ = (β, σ2, φ, ν) com as mesmas prioris ja elicitadas;
3) Processo GLG com vetor de parametros Φ = (β, σ2, φ, ν,Λ), Λ = diag(λ1, . . . , λn) com as mesmas
prioris ja elicitadas.
• Medidas de discrepancias espaciais utilizadas neste estudo
(A) Medida de discrepancia qui-quadrado
(A∗) Medida de discrepancia qui-quadrado, considerando a covariancia entre as observacoes
(B) Medida de discrepancia maxima
(F) Medida de discrepancia do maximo da observacao, para identificacao de possıveis outliers
O calculo do p-valor espacial sera dado atraves da distribuicao a posteriori P (Φ|z,M) para
cada modelo proposto. Especificamente, considere a simulacao estocastica no qual podemos simular
Φ(m), m = 1, . . . ,M para o calculo da posteriori e conjunto de dados zrep a partir do modelo P (z|M,Φ(m))
em duas etapas:
1. Dado Φ(m), escrever um conjunto de dados replicados simulados, zrep(m), para a distribuicao amos-
tral P (zrep|M,Φ(m))
2. Calcular as discrepancias D(zrep(m); Φ) e D(zobs; Φ)
Podemos entao escrever o p-valor a partir de
76
ˆppp = ppp(zobs) =1
M
M∑i=1
I[D(zrep(m); Φ(m)) ≥ D(zobs; Φ(m))
](6.13)
Tendo obtido{D(zrep(m); Φ(m)), D(zobs; Φ(m)),m = 1, . . . ,M
}, podemos gerar graficos de dispersao e
estimar ppp como a proporcao de pontos acima da reta diagonal, ou seja, para qual D(zrep(m); Φ(m))
excede D(zobs; Φ(m)). Faz-se util os graficos de dispersao sempre que possıvel, pois nos diz as magnitudes
tıpicas de D(zobs|Φ) e D(zrep|Φ).
A tabela (6.1) apresenta os resultados dos calculos dos p-valores bayesianos para os modelos
de acordo com as discrepancias ja vistas e respectivos cenarios. Deve-se levar em conta que a amostra
em estudo originalmente provem de uma normal e no entanto as contaminacoes impostas nos cenarios 2
e 3 irao compor na adequacao e bondade de ajuste de cada modelo separadamente.
Tabela 6.1: P-valor preditivo a posteriori (ppp) para os tres modelos propostos em seus respectivos
cenarios de acordo com as discrepancias (A), (A∗), (B) e (F) propostas no estudo. Probabilidades
proximas de zero indicam a nao adequacao do modelo aos dados.
Cenario 1 Cenario 2 Cenario 3
Processo (A) (A∗) (B) (F) (A) (A∗) (B) (F) (A) (A∗) (B) (F)
Gaussiano 0,687 0,307 0,759 0,896 0,169 0,092 0,041 0,14 0,003 0,002 0,031 0,074
T-Student 0,698 0,307 0,762 0,879 0,114 0,004 0,032 0,137 0,000 0,000 0,015 0,071
GLG 0,733 0,563 0,807 0,870 0,491 0,430 0,403 0,202 0,321 0,329 0,402 0,157
Podemos observar pela tabela (6.1) no Cenario 1, todos os modelos aparentam ser ade-
quados neste caso. As medidas de discrepancia (A), (B) e (F) apresentam mesma direcao e nao diferem
muito uma das outras. Isso nao diz nada sobre a exatidao de qual modelo escolher, mas apenas que os
valores das medidas de discrepancia que examinamos sao razoaveis sob o modelo postulado. A figura
(6.1) apresenta a proporcao de pontos acima da reta para modelo gaussiano para as discrepancia (A) e
(A∗) do estudo para os tres cenarios.
77
50 100 150
1020
3040
5060
D(φ, zobs)
D(φ
, zre
p )
40 60 80 100 120
1020
3040
5060
D(φ, zobs)
D(φ
, zre
p )
40 60 80 100 120 140 160
1020
3040
5060
D(φ, zobs)
D(φ
, zre
p )
20 30 40 50 60 70
1020
3040
5060
D(φ, zobs)
D(φ
, zre
p )
30 40 50 60 70
1020
3040
5060
D(φ, zobs)
D(φ
, zre
p )
50 60 70 80 90 100
1020
3040
5060
D(φ, zobs)
D(φ
, zre
p )
Figura 6.1: Proporcao dos pontos acima da reta para atraves do calculo do p-valor baseado na medida de
discrepancia (A) na primeira linha e (A∗) segunda linha para o modelo gaussiano e respectivos cenarios.
Ja no Cenario 2 e Cenario 3 quando ha presenca de observacoes contaminadas o p-valor
bayesiano para discrepancia em (A), (A∗), (B) e (F) mostra evidencias sugerindo falta de ajuste do modelo
gaussiano, pois produzem probabilidades bem proximas de zero. Isso tambem acontece para o modelo
T-student multivariado, que tambem pode ser visto na tabela (6.1). Embora este modelo apresente
caudas mais pesadas que a normal, podendo ser construıdo como uma mistura de normais, vide que sua
componente de mistura facilitaria a acomodacao de outliers, este processo nao e o ideal para modelar
dados georeferenciados, pois nao consegue captar variabilidade em determinadas regioes do mapa onde
as observacoes sao contaminadas. Seus resultados tornam-se bem proximos dos obtidos para o processo
gaussiano.
Para discrepancia (F) representado pelo maximo das observacoes, no processo gaussiano,
apresentado na tabela (6.1), observa-se que as replicacoes sao resultantes das cadeias geradas em Φ a
probabilidade de um z predito ser maior que o z maximo observado (que sera um valor contaminado no
Cenario 2 e Cenario 3 e maior em relacao aos outros) se torna mınimo, gerando uma probabilidade
pequena. Veja que para o mesmo modelo e Cenario 3, 73 dos valores gerados sao maiores que o valor
maximo observado T (zobs) = 11, 886, retornando a um p-valor estimado de 0,074, indicando uma falta de
ajuste do processo. A mesma falta de ajuste pode ser visualizada para o modelo T-Student multivarido,
com p− valor = 0, 071.
Essa sugestao para falta de ajuste demonstrada pelas discrepancias calculadas em (A),(A∗),
(B) e (F) quando observacoes sao contaminadas de forma moderada representada pelo Cenario 3, nos
atenta de certa forma a procurar um modelo que se adeque bem aos dados quando deparados com
78
observacoes atıpicas, ja que os processos gaussiano e T-student multivariado nao possuem a flexibilidade
necessaria para acomodar tal tipo de observacao. Neste contexto, a proposta da utilizacao do modelo
GLG servira de certa forma para acomodar essas observacoes que sao classificadas como outliers, ja
que sua variavel de mistura afeta a variabilidade do processo permitindo que o modelo se torne mais
flexıvel e modelando observacoes discrepantes de forma mais adequada. Para este modelo os tres cenarios
apresentados com as respectivas discrepancias calculadas, resultaram em melhor adequabilidade perante
aos dados, pois apresentam p-valores maiores em relacao aos demais modelos.
Abaixo, podemos visualizar atraves das figuras (6.2), (6.3), (6.4) e (6.5) os histogramas das
discrepancias utilizadas neste estudo para os tres modelos e seus respectivos cenarios.
Cenario 1
Dχ2(zrep)10 20 30 40 50 60
Dχ2(zrep)10 20 30 40 50 60 70
Dχ2(zrep)10 20 30 40 50 60
Cenario 2
Dχ2(zrep)10 20 30 40 50 60
Dχ2(zrep)10 20 30 40 50 60
Dχ2(zrep)10 20 30 40 50 60
Cenario 3
Dχ2(zrep)10 20 30 40 50 60
Dχ2(zrep)10 20 30 40 50 60
Dχ2(zrep)10 20 30 40 50 60
Gaussiano T-Student GLG
Figura 6.2: Histograma e grafico de dispersao para a medida de discrepancia (A) para os modelos pro-
postos em seus respectivos cenarios. A reta vermelha em cada histograma representa o valor observado.
79
Cenario 1
D(zrep)10 20 30 40 50 60
D(zrep)10 20 30 40 50 60 70
D(zrep)10 20 30 40 50 60
Cenario 2
D(zrep)10 20 30 40 50 60
D(zrep)10 20 30 40 50 60 70
D(zrep)10 20 30 40 50 60
Cenario 3
D(zrep)10 20 30 40 50 60
D(zrep)10 20 30 40 50 60
D(zrep)10 20 30 40 50 60
Gaussiano T-Student GLG
Figura 6.3: Histograma e grafico de dispersao para a medida de discrepancia (A∗) para os modelos
propostos em seus respectivos cenarios. A reta vermelha em cada histograma representa o valor observado.
80
Cenario 1
Dmax(zrep)1.0 1.5 2.0 2.5 3.0 3.5 4.0
Dmax(zrep)1.5 2.0 2.5 3.0 3.5 4.0
Dmax(zrep)1.5 2.0 2.5 3.0 3.5 4.0 4.5
Cenario 2
Dmax(zrep)1.0 1.5 2.0 2.5 3.0 3.5 4.0
Dmax(zrep)1.0 2.0 3.0 4.0
Dmax(zrep)1.5 2.0 2.5 3.0 3.5 4.0 4.5
Cenario 3
Dmax(zrep)1.0 1.5 2.0 2.5 3.0 3.5 4.0
Dmax(zrep)1.5 2.0 2.5 3.0 3.5 4.0
Dmax(zrep)1.5 2.0 2.5 3.0 3.5 4.0 4.5
Gaussiano T-Student GLG
Figura 6.4: Histograma e grafico de dispersao para a medida de discrepancia (B) para os modelos pro-
postos em seus respectivos cenarios. A reta vermelha em cada histograma representa o valor observado.
81
Cenario 1
D(zrep)7 8 9 10 11 12 13
D(zrep)8 10 12 14
D(zrep)8 10 12 14
Cenario 2
D(zrep)8 9 10 11 12 13
D(zrep)7 8 9 10 11 12 13
D(zrep)6 8 10 12 14 16
Cenario 3
D(zrep)8 9 10 11 12 13
D(zrep)8 10 12 14
D(zrep)6 8 10 12 14 16 18
Gaussiano T-Student GLG
Figura 6.5: Histograma e grafico de dispersao para a medida de discrepancia (F ) para os modelos pro-
postos em seus respectivos cenarios. A reta vermelha em cada histograma representa o valor observado.
82
83
7 Selecao de modelos
Uma das mais importantes ferramentas da inferencia estatıstica e selecionar dentre um conjunto de
modelos propostos o melhor que se ajusta aos dados. Sob o enfoque bayesiano, um instrumento de
grande utilidade para selecao de modelos e o fator de Bayes.
Alem disso, o fator de Bayes tambem e utilizado para verificar existencia de observacoes
discrepantes, utilizando tecnicas de validacao cruzada (como feito no calculo do CPO), ou seja, retirar
uma observacao da amostra e fazer predicao da observacao de interesse atraves das demais observacoes,
verificando se uma obsevacao se adequa ao modelo considerado. O produto obtido atraves da validacao
cruzada e considerado um pseudo fator de Bayes.
Uma outra alternativa, e escolher um melhor modelo atraves da densidade preditiva dos
dados, por meio do escore logaritmico de Kass and Raftery [1995]. Basta aplicar o logaritmo nas proba-
bilidades marginais de cada observacao zi dada as demais observacoes, sendo uma medida de predicao
dos dados.
De acordo com Kass and Raftery [1995] a abordagem do teste de hipotese bayesiano foi
desenvolvido por Jeffreys [1935] e Jeffreys [1961] do qual estava preocupado com a comparacao de duas
predicoes feitas atraves de teorias cientıficas. Seus modelos sao introduzidos para representacao da pro-
babilidade dos dados de acordo com cada uma das duas teorias. O teorema de Bayes tem como proposito
calcular a probabilidade a posteriori de que uma das teorias impostas seja a correta.
O fator de Bayes sofre influencia das distribuicoes a priori quando sao informativas ou
tambem improprias, gerando o resultado do fator de Bayes indeterminado e tambem de observacoes que
destoam na amostra. Na premissa de compensar este fato, sao estabelecidos outros tipos de fator de
Bayes para contornar este tipo de problema.
O objetivo deste capıtulo e verificar como o fator de Bayes se comporta na presenca de
outliers quando utilizado na comparacao de modelos, realizada com base no fator de Bayes usual (FBU)
Kass and Raftery [1995] e fator de Bayes fracionario (FBF) O’Hagan [1995], fornecendo uma outra forma
de reduzir a sensibilidade do FBU. A escolha do melhor modelo e baseada atraves das calibragens de
Jeffreys [1961] e Kass and Raftery [1995].
7.1 Fator de Bayes Usual
Gostarıamos de comparar dois modelos MG (gaussiano - G) e MNG (nao gaussiano -TS/GLG) para o
conjunto de dados z, dado o vetor de parametros de interesse Φ e dada distribuicao fG(z |Φ) e fNG(z |Φ)
respectivamente. A distribuicao a priori para o parametro de interesse π(Φ) e elicitada para cada um dos
modelos. Entao:
H0: hipotese sob o modelo MG;
H1: hipotese sob o modelo MNG
Assim, a odds a posteriori de MNG em relacao MG e descrito por
P (MNG | z)
P (MG | z)=
odds︷ ︸︸ ︷P (MNG)
P (MG)
qNG(z)
qG(z)︸ ︷︷ ︸fator de Bayes
=P (MNG)
P (MG)B(z) (7.1)
Em outras palavras
odds a posteriori = fator de Bayes× odds a priori
tal que B(z) representa o fator de Bayes (FBU) e
q·(z) =
∫π·(Φ)f�(z |Φ)dΦ (7.2)
e a densidade marginal de z sobre ambos os modelos. O FBU pode ser visto como uma representacao
dos pesos da evidencia nos dados em favor do modelo NG contra o modelo G.
Para o calculo do FBU sao apresentados alguns metodos assintoticos ja que e de conheci-
mento geral que frequentemente as densidades contınuas para o calculo do fator de Bayes sao complicadas
de calcular analiticamente, e assim, precisamos recorrer a aproximacoes assintoticas utilizando a equacao
da densidade marginal dos dados considerando o modelo M· dada pela equacao (7.2).
Uma das alternativas para aproximar a densidade marginal dos dados e a utilizacao do
metodo de Laplace e o metodo simulacao de Monte Carlo. Em alguns casos elementares a integral da
densidade preditiva pode ser reescrita da forma
f(z |M) =
∫f(z |Φ,M)π(Φ |M)dΦ (7.3)
da qual e a constante normalizadora da distribuicao a posteriori de f(Φ | z), podendo agora ser visualizada
como a verossimilhanca do modelo M , referida muitas vezes como a verossimilhanca preditiva, pois e
obtida depois da marginalizacao dos parametros do modelo. A equacao (7.3) pode ser escrita como
Gamerman [1997].
f(z) = E [f(z |Φ)] (7.4)
Alternativas para estimar a verossimilhanca preditiva sao citadas em Gamerman [1997],
Newton and Raftery [1994], Kass and Raftery [1995], por metodo de Laplace para aproximar a densidade
marginal pela distribuicao Normal e outros metodos mais severos sao agora avaliados para simulacao da
84
distribuicao a posteriori. Um caso simples inclui a simulacao direta e amostragem de rejeicao. Em casos
mais complexos, metodos de Markov chain Monte Carlo (MCMC) sao bastante validos. Para o metodo
de simulacao de Monte Carlo a densidade marginal pode ser aproximada atraves de
p1(z) =1
m
m∑i=1
f(z |Φ(i)) (7.5)
onde{Φ(i), i = 1, . . . ,m
}e uma amostra da densidade da distribuicao a priori π(Φ); esta e a media das
probabilidades dos valores dos parametros amostrados.
A maior dificuldade com o estimador da equacao (7.5) segundo Newton and Raftery [1994]
e Kass and Raftery [1995] e que a maior parte de Φ tem os valores da verossimilhanca (probabilidade)
pequenos se a posteriori e concentrada em relacao a priori, de modo que o processo de simulacao torna-se
ineficiente. Assim, a estimativa e dominada por um pequeno numero de grandes valores da verossimilhanca
e entao a variancia do estimador p1, escrita por V ar [f(z|Φ)|z] e grande e sua convergencia para uma
distribuicao gaussiana e lenta.
Um outro e feito com base na media harmonica representado por
p2(z) =1
1m
∑mi=1 f(z |Φ(i))−1
(7.6)
Para (7.5) e (7.6), temos que ambos estimadores embora consistentes, sao instaveis ja que
apresentam variancia infinita. Com isso, e apresentado uma abordagem para estabilizar o estimador
da media harmonica baseada no fato de que a distribuicao a posteriori das log-verossimilhancas sao
aproximadamente uma distribuicao Shifted Gamma, ja que
`max − `t ∼ Gama(α, 1) (7.7)
onde `t representa uma sequencia independente de log-verossimilhancas. Assim, podemos estimar f(z |M)
via estimador Shifted Gamma proposto por Raftery et al. [2007], no qual representa um estimador da
verossimilhanca integrada, escrito da forma
logπ(z) = `max + α log(1− λ) (7.8)
onde `max representa a maxima log-verossimilhanca avaliada, α parametro da distribuicao Gamma (α =
d2 ), λ < 1 e o ideal e que o valor de λ seja perto de 1.
7.2 Fator de Bayes fracionario
O’Hagan [1995] propos um metodo de selecao de modelo que tenta eliminar a questao de uso de prioris
improprias, do qual representam a nao informacao sobre o parametro em questao, fazendo o fator de
Bayes usual depender de constantes arbitrarias indefinidas o que torna seu calculo indefinido. Alem
85
disso, o FBF tenta de alguma forma amenizar o problema da influencia do outlier. Esse fator e menos
influenciado pelos valores discrepantes no conjunto de observacoes e a sensibilidade dos outliers ou para
a variancia da amostra e eliminada quando calculado.
Novamente, gostarıamos de comparar o modelo gaussiano com os nao gaussianos para os
dados z disponıveis. O fator de Bayes entao e dado por
B(z) =qNG(z)
qG(z)(7.9)
Como no FBU devemos supor π(Φ·) como priori dos dois modelos (gaussiano e nao gaussi-
ano), como prioris improprias, ou seja,
π(Φ·) ∝ h(Φ·), onde
∫h·(Φ·)dΦ →∞
sendo este o caso geral para ambos modelos. Note entao que π(Φ·) = c·h·(Φ·), onde c representa uma
constante finita arbritaria e indefinida e seu calculo se torna dependente de tais constantes. Consequen-
temente o FBU sera dado por
B(z) =cNGcG
∫π(ΦNG)f(z |ΦNG)dΦ∫π(ΦG)f(z |ΦG)dΦ
Para eliminar esta dependencia, seu metodo baseia-se na divisao da amostra completa z em
dois subconjuntos de z = (x,y). A primeira parte e utilizada como uma amostra de treinamento para
fornecer informacao sobre as prioris, enquanto a segunda parte y, representa as observacoes restantes que
serao utilizadas na comparacao dos modelos.
No primeiro passo, x e util para obter a distribuicao posteriori π·(Φ· |x) que sera utilizada
como distribuicao a priori para o restante dos dados y. Assim o FB para os dados y e dado por
B(y |x) =qNG(y |x)
qG(y |x)=
∫πNG(ΦNG |x)fNG(y |Φ,x)dΦNG∫
πG(ΦG |x)fG(y |Φ,x)dΦG(7.10)
do qual representa o fator de Bayes parcial proposto anteriormente pelo mesmo autor, pois baseia-se
apenas em uma parte dos dados. Para evitar a arbritariedade de escolher um determinado conjunto x e
exposto entao o fator de Bayes fracionario (FBF).
Defina entao b = m/n, onde m representa o tamanho da amostra de treinamento e n o
tamanho da amostra completa. Se ambos, m e n sao grandes, a verossimilhanca f(x |Φ) baseada somente
na amostra de treinamento x poderia se aproximar para verossimilhanca completa f(z |Φ) elevado a
potencia b. Assim definimos o FBF como
Bb(z) =qNG(b, z)
qG(b, z)(7.11)
onde
86
q·(b, z) =
∫π·(Φ·)f·(z |Φ·)dΦ·∫π·(Φ·)f·(z |Φ·)bdΦ·
Se π·(Φ·) tem uma forma impropria, a constante indeterminada c· se cancelara evitando que
o calculo do fator de Bayes seja indefinido, ou seja, nao dependem de Φ . Quando elevamos a funcao de
verossimilhanca a potencia b, consideramos apenas uma fracao b = m/n com objetivo de obter densidades
a priori proprias. Para o calculo de Bb(z) recorremos a aproximacoes atraves dos metodos assintoticos
apresentados no FBU.
Para a escolha da constante b proposta nesta metodologia, tal pode ser escolhida da mesma
forma como em O’Hagan [1995], e para uma amostra de treinamento m0 = 1:
• Caso nao ha nenhuma preocupacao quanto a robustez, temos que b1 = m0
n
• Caso a robustez seja uma seria preocupacao, temos que b2 = 1nmax {m0,
√n}
• Como uma opiniao intermediaria, podemos utilizar b3 = 1nmax {m0, log(n)}
• Adicionando mais uma proposta para b, fazendo o tamanho de amostra de treinamento m > 1.
Utilizaremos b4 = 15n .
b sempre estara dentro do intervalo [0, 1], pois m sempre sera menor que n.
7.3 Regra de Decisao e Interpretacao
Segundo Kass and Raftery [1995] o fator de Bayes e uma medida de todas as evidencias fornecidas pelos
dados em favor de um modelo. Para tomar a decisao de qual sera o modelo que tem um comportamento
melhor perante aos dados Jeffreys [1961] impos uma regra de calibragem, dividindo os possıveis valores
encontrados a partir do calculo de Bayes em quatro intervalos. Chegamos a seguinte interpretacao
Tabela 7.1: Calibragem do fator de Bayes segundo Jeffreys [1961].
log10B(z) B(z) Evidencia contra MG
0 a 1/2 1 a 3.2 Insignificante
1/2 a 1 3.2 a 10 Significativa
1 a 2 10 a 100 Forte
> 2 > 100 Decisiva
Kass and Raftery [1995] mostram que e de grande utilidade considerarmos a regra de decisao
do fator de Bayes como duas vezes o logarıtmo natural, pois a aplicacao do logarıtmo tem como proposito
obter numero menores para uma interpretacao melhor, ja que desta forma o valor obtido pela razao fica
na mesma escala que de um Teste da Razao de Verossimilhanca. Baseado na calibragem de Jeffreys
segundo Kass and Raftery [1995] temos
87
Tabela 7.2: Calibragem do fator de Bayes na escala logarıtmica segundo Kass and Raftery [1995].
2logBe(z) B(z) Evidencia contra MG
0 a 2 1 a 3 Insignificante
2 a 6 3 a 20 Significativa
6 a 10 20 a 150 Forte
> 10 > 150 Muito Forte
O sistema de calibragem proposto por Kass and Raftery [1995], pode ser visto de forma mais
detalhada em seu artigo. Para ambas tabelas apresentadas acima, podemos obter a mesma interpretacao:
Tabela 7.3: Conclusao final para escolha do modelo.
Intervalo 1 evidencia da hipotese do modelo NG e mınima causando
duvidas em relacao ao modelo MNG
Intervalo 2 evidencia a favor da hipotese NG aumenta fornecendo
sua escolha
Intervalo 3 forte evidencia a favor do modelo MNG
Intervalo 4 escolha do modelo MNG deve ser feita
7.4 Estudo Simulado
A proposta e utilizar os 3 cenarios com dados contaminados por outliers expostos no Capıtulo 3, submetendo-
os a dois tipos de teste de hipoteses bayesiano: o fator de Bayes usual (FBU) e o fator de Bayes fracionario
(FBF). A abordagem bayesiana e obviamente adotada e a escolha da priori para os parametros sao as
mesmas ja apresentadas.
Para o calculo do fator de Bayes utilizamos a aproximacao baseada em amostras dos para-
metros gerados pelo MCMC utilizando o estimador shifted gamma, como apresentado em Raftery et al.
[2007].
Para este estudo queremos mostrar que para cada cenario, o fator de Bayes fracionario
apresenta um comportamento melhor na presenca de dados discrepantes em relacao ao fator de Bayes
usual e mostrar quao influenciavel e a media do modelo na presenca de outliers.
O procedimento foi feito da seguinte forma:
1. Realizacao da aproximacao da densidade preditiva atraves do estimador Shifted Gamma;
2. Calculo dos fatores de Bayes usual e fracionario para cada um das 100 replicas em cada cenario,
com base em uma amostra de tamanho n = 30;
3. Calculo da proporcao do modelo G versus modelo NG.
88
E de grande importancia levarmos em consideracao a incerteza que o calculo do FBU pode
causar no modelo, uma vez que aconteca a escolha de um modelo indicado pelo FBU que nao seja melhor
entre os outros. Apos a selecao e a escolha do modelo que evidentemente aparenta ser o melhor, realiza-se
toda a aplicacao baseada nele.
Um dos problemas mais comuns que isso acarreta e ignorar a presenca de algum tipo de
incerteza englobada na selecao dos modelos propostos. Uma delas e a presenca de dados atıpicos na
amostra, levando a um modelo falso, o que pode comprometer a conclusao final do estudo.
−5 0 5 10 15 20
0.00
0.02
0.04
0.06
0.08
0.10
0.12
Modelo G
Den
sida
de
0 5 10 15 20 25 30
0.00
0.05
0.10
0.15
Modelo NG−TS
Den
sida
de
−20 0 20 40 60 80
0.00
0.01
0.02
0.03
0.04
Modelo NG−GLG
Den
sida
de
Figura 7.1: Densidades para os modelos G, T-Student e GLG,para observacoes nao contaminadas, tal
que `max − `t ∼ Gamma(α, 1)
A figura (7.1) representa a posteriori das log-verossimilhancas de cada modelo seguindo
aproximadamente uma distribuicao Gama deslocada, caracterıstica natural do estimador utilizado.
Tabela 7.4: Proporcao do 2 log do fator de Bayes usual B(z) do modelo gaussiano versus modelo TS.
FavoravelCenario
Gaussiano T-Student
Cenario 1 1 0
Cenario 2 1 0
Cenario 3 1 0
Tabela 7.5: Proporcao do 2 log do fator de Bayes Usual B(z) do modelo gaussiano versus modelo GLG.
FavoravelCenario
Gaussiano GLG
Cenario 1 0,790 0,201
Cenario 2 0,090 0,901
Cenario 3 0,050 0,950
As tabelas (7.4) e (7.5) apresentam a proporcao do modelo gaussiano versus modelo nao
gaussiano -T-student/GLG, atraves da calibragem do FBU na escala logarıtmica segundo Kass and Raf-
89
tery [1995]. Atraves da Tabela (7.3) conclui-se a favor de qual modelo se ajusta melhor aos dados
artificiais.
Percebe-se no Cenario 1 onde nao existe contaminacao nas observacoes, ha evidencias de
que a proporcao torna-se favoravel para escolha do modelo MG (evidencia para escolha do modelo gaus-
siano - proporcoes igual a 100% para T-student e 79% para GLG). Deve-se ao fato de que as observacoes
simuladas apresentem um mecanismo gerador atraves do modelo gaussiano, o que favorece a escolha de
MG. Ao contaminarmos as 3 observacoes do Cenario 2 (classificado como poucos outliers), a proporcao
das evidencias tornam-se mais favoraveis a escolha MGLG e ainda para o Cenario 3. O modelo T-student
nao e consideravelmente melhor nos exemplos apresentados, pois nao capta estrutura espacial, embora o
mesmo apresente o parametro νTS que controla a curtose. Veja que no Capıtulo 6 no calculo do p-valor
bayesiano, os resultados de MTS nao sao bons, apresentando falta de ajuste na qualidade do modelo,
quando ha presenca de observacoes contaminadas.
Para o Cenario 3 ao total de 8 observacoes contaminadas (classificado como moderados
outliers) a proporcao torna-se mais forte a escolha de MGLG embora ainda encontramos uma mınima
proporcao em favor de MG, estabelecendo a escolha por MGLG.
E notorio que ao contarminarmos os dados como“poucos”e“moderados”outliers a proporcao
nos leva escolher o modelo GLG, ou seja, a preferencia de um modelo mais robusto no calculo do FBU
fornece mais evidencias da sua escolha do que o esperado, vide que as observacoes sao originarialmente
gaussianas. Note nesta aplicacao que o fator de Bayes usual e fortemente influenciado pela presenca de
outliers (veja Cenario 2 e 3). Mesmo no Cenario 2 onde apenas 3 observacoes foram contaminadas, o
fator de Bayes usual escolhe o modelo que nao gerou os dados um grande numero de vezes, perdendo a
sua caracterıstica original.
O’Hagan [1995] enfatiza que apenas uma observacao classificada como extrema pode influ-
enciar fortemente a selecao de modelos. Com base nessa afirmacao, calculamos novamente o fator de
Bayes usual contaminando apenas uma unica observacao (z15 - classificada como forte outlier, ou seja,
ela adicionado por mais um incremento σUniforme(1; 9, 5)), comparando MNG em relacao a MG. Em
geral, algumas observacoes podem ser altamente influenciaveis para os parametros de um modelo, mas
outras nao. Isso pode ser ainda mais evidente no caso de dados espaciais.
Tabela 7.6: Contaminacao de uma unica observacao classificada como outlier para 2 Log do fator de
Bayes Usual - modelo gaussiano versus modelo GLG.
Classificacao 2log B(z)
Nao Contaminado -71,940
Contaminado 2283,826
90
0.80 0.85 0.90 0.95 1.00
−15
0−
100
−50
0
λ
2ln(
BF
)
0.80 0.85 0.90 0.95 1.00
2200
2250
2300
2350
λ
2ln(
BF
)
Nao contaminado Contaminado
Figura 7.2: Graficos do 2log(FBU) em favor do modelo gaussiano versus modelo GLG , utilizando o
estimador Shifted Gamma, quando observacao 15 e nao contaminada e contaminada.
Os resultados mostrados na tabela (7.6) atraves da classificacao sao totalmente diferentes.
Quando a observacao nao e contaminada, a conclusao que chegamos e que o modelo gaussiano e o que mais
se adequa aos dados. Em contrapartida, quando contaminamos uma unica observacao classificada como
outlier forte, temos o oposto, produzindo um FBU muito grande, que podemos definir como um valor
enganoso. Sendo assim, valores grandes produzidos pelo fator de Bayes, nao devem ser desconsiderados,
mas verificados com cautela. Pela busca de tornar este problema ameno, e proposto o fator de Bayes
fracionario (FBF) fundamentado pelo mesmo estudo anterior.
Para o calculo do fator de Bayes fracionario (FBF), devemos escolher o tamanho da amostra
piloto (m). Mesmo quando m e n nao sao grandes, de acordo com O’Hagan [1995], a verossimilhanca de
f(z|Φ) baseada somente na amostra de treinamento x, sera aproximadamente igual a f(z|Φ)b.
Tabela 7.7: Contaminacao de uma unica observacao classificada como outlier para 2 Log do fator de
Bayes fracionario - modelo gaussiano versus modelo GLG, utilizando as constantes b.
Constantes para o calculo de Bb(z)
b1 b2 b3 b4
2120,994 1461,859 1753,282 439
Encontra-se na tabela (7.7) a escolha das constantes b como em O’Hagan [1995]. Embora
ainda estejamos sendo favoraveis a escolher novamente o modelo GLG (vide ao alto valor produzido no
FBU), observe que ao mudarmos os valores de b, o valor do FBF muda, reduzindo a sensibilidade gerada
pelo FBU. As constantes mais adequadas ao problema, sao b2 e b4, pois estamos interessados quanto a
robustez do modelo (de forma a tentar atenuar o efeito dos outliers) e o aumento no tamanho da amostra
de treinamento (x) corrige efetivamente a priori, diminuindo o valor do fator de Bayes.
Como nas tabelas (7.5) e (7.4), realizamos novamente o mesmo estudo, utilizando o fator de
Bayes fracionario, com respectivas constantes ja explicitadas atraves da tabela (7.8). Ao compararmos o
91
modelo G versus TS, para os cenarios e respectivos b’s, ambos sao favoraveis novamente a escolha MG,
produzindo valores muito menores comparados ao FBU, tornando o fator de Bayes fracionario muito mais
conservador.
Tabela 7.8: Propocao do 2log do fator de Bayes fracionario Bb(z) do modelo G versus modelo GLG, de
acordo com a constante b utilizada.
Favoravel (b1) Favoravel (b2) Favoravel (b3) Favoravel (b4)Cenario
Gaussiano GLG Gaussiano GLG Gaussiano GLG Gaussiano GLG
Cenario 1 0,800 0,200 0,880 0,120 0,870 0,130 1 0
Cenario 2 0,100 0,900 0,220 0,780 0,150 0,850 0,860 0,140
Cenario 3 0,050 0,950 0,080 0,920 0,060 0,940 0,330 0.670
Observe novamente que as constantes b2 e b4 se mostram mais adequadas para o calculo do
fator de bayes fracionario, apresentando resultados mais satisfatorios. Frisamos que o gerador original e
proveninente de um modelo gaussiano. O FBF nos induzira a escolher tal modelo, reduzindo o problema
da sensibilidade. Por exemplo, para a constante b4, no Cenario 1, como nao ha contaminacao de
observacoes, a proporcao e 100% favoravel a MG, a qual no FBU era de 79%, o que novamente acontece
no Cenario 3 quando comparados ao FBU, o aumento na proporcao em favor MG e a proporcao em favor
do modelo GLG e de 0,670 (divididos: 0,02 - pouca, 0,01 - moderada, 0,640 - forte evidencia) tornando
este metodo conservador. No caso do Cenario 2 e b4 temos 90% das vezes a escolha do modelo GLG
pelo FBU, enquanto no FBF temos apenas 14%.
Com isso, o FBU perde especificidade a medida que o gerador original muda com os respec-
tivos cenarios, entretanto o FBF resgata essa perda trazendo resultados mais verdadeiros e a utilizacao
deste e melhor neste estudo.
92
93
8 Conclusoes e projetos futuros
Ao decorrer deste trabalho, utilizamos tres processos para modelar fenomenos de interesse no contexto
espacial. Dados do tipo geo-referenciados frequentemente apresentam observacoes atıpicas ou extremas e
o uso de modelos gaussianos nem sempre e adequado neste caso. Portanto, foram apresentados modelos
que apresentam caudas mais pesadas que a normal na crenca de conseguir descrever os dados da melhor
maneira possıvel na presenca de outliers.
Observacoes que se destoam das demais podem influenciar na media do processo e o uso das
funcoes de influencia espacial pode sugerir como se comporta o estimador da media quando contaminamos
uma observacao da amostra, baseada no conjunto dos dados. Distribuicoes com caudas mais pesadas
apresentaram influencias menores na estimacao do parametro de interesse em relacao ao modelo gaussiano.
Foram propostas funcoes de influencia para modelos espaciais generalizando a ideia de West [1984], do
qual o interesse era verificar se uma observacao era influente no processo de estimacao da media. Neste
contexto, e possivel analisar a influencia das observacoes dada uma certa localizacao e parametros de
correlacao.
Alem disso, tecnicas para deteccao de outliers em modelos espaciais foram abordadas. Uma
das metodologias utilizadas foi a analise de resıduos com objetivo detectar violacoes dos pressupostos
do erro aleatorio, como por exemplo, variancia do erro nao constante. Este metodo apresentou melhor
desempenho quando utilizado o modelo GLG, ja que tal modelo e mais flexıvel devido o processo de
mistura, sendo capaz de tratar e acomodar outliers. Os modelos gaussiano e T-student (embora apresente
mistura de escala), nao foram eficazes para detectar todas as observacoes que foram contaminadas no
estudo, pois nao sao capazes de capturar estrutura espacial.
Nem todos os metodos conhecidos na literatura para deteccao de outliers atraves do calculo
de preditiva sao efetivos no contexto espacial. Por exemplo, o CPO nao obteve bons resultados nos tres
cenarios considerados nesse estudo. O mesmo acontece quando calculado o metodo ROM. Por outro
lado, a medida proposta CPOp consegue identificar outliers espacial nos dois cenarios contaminados
e nao detecta de forma errada observacoes que nao foram contaminadas. Ainda para o calculo das
preditivas, a probabilidade mais conservadora mostrou ser uma ferramenta eficaz na tomada de decisao
de uma observacao ser classificada como outlier. Comparado a um fator de Bayes, a razao de densidades
de Savage-Dickey tambem e uma boa opcao para verificar observacoes discrepantes na amostra para o
modelo GLG. Esta medida consegue verificar todas as observacoes que foram contaminadas como outliers.
Testes de hipoteses bayesianos tambem foram aplicados ao longo do estudo na tentativa de
obter um melhor modelo que se adeque aos dados, quando deparados com observacoes atıpicas. O calculo
do fator de Bayes usual e fracionario foram importantes na existencia de outliers. O fator de Bayes usual
no contexto espacial torna-se uma ferramenta falha, pois quando ha influencia de outliers, os resultados
sao enganosos a favor de modelos que acomodam observacoes discrepante, quando as observacoes sao
provenientes de uma normal multivariada. O uso do fator de Bayes fracionario consegue reverter este
problema, reduzindo a sensibilidade que o fator de Bayes usual produz na presenca dessas observacoes,
apresentando resultados mais realısticos. O calculo do p-valor bayesiano aplicado em dados espaciais
apresentou resultados interessantes. Melhores resultados foram obtidos, quando utilizado o modelo GLG
na existencia de outliers, devido a flexibilidade do modelo a frente para tipo de problema.
Possıveis extensoes deste trabalho podem ser estudadas, como o calculo da funcao de in-
fluencia para um µ vetor, diferentemente ao que fizemos, quando fixamos utilizamos uma media unica
em todo espaco. Observe que neste caso a funcao de influencia poderia ser escrita de forma geral como
gµi(ε) = C·k(zk − µi) +
n−1∑j 6=k
C·j(zj − µj), ∀i = 1, . . . , n.
Tecnicas de visualizacao das influencias se tornam uteis neste contexto, vide ao vetor de
medias µ.
Para os resıduos bayesianos espaciais, podemos propor uma medida espacial padronizada,
ja que os dados sao correlacionados. Podemos escalonar o vetor de resıduos ao inves de escalonar cada
resıduo separadamente como feito no Capıtulo 5. Isso levara as covariancias entre as observacoes em
conta.
Definicao 8.0.1 (Analise bayesiana do resıduo espacial padronizado). Considere um processo espacial
observado em n localizacoes e media xTβ e matriz de covariancia Σ(θ), definimos o resıduo bayesiano
espacial padronizado como
r = Σ−1/2(θ)(z− xTβ) (8.1)
onde r representa o vetor dos resıduos espaciais padronizados. Esta forma de escolonamento e feito
atraves da Choleksy, da matriz diagonal inferior.
Algumas questoes sao pertinentes e levadas em conta, como exemplo tecnicas de validacao
cruzada. Note que para calcular o CPOp, nao utilizamos a i-esima observacao para estimar os parametros
desconhecidos. Essa ideia pode ser estendida no contexto de deteccao de outliers espaciais.
Analise de dados funcional e uma abordagem bastante atraente para estudar dados comple-
xos, como por exemplo na aplicacao de processos aleatorios evoluindo no espaco. Segundo Sun and Genton
[2011], metodos de visualizacao tambem pode ajudar a visualizar os dados, destacar suas caracterısticas
e revelar caracterısticas interessantes sobre eles. Eles proposueram uma ferramenta informativa, baseada
em um boxplot funcional para correlacoes, com o intuito de visualizar dados funcionais no espaco-tempo
e na deteccao outliers potenciais, o que seria bastante interessante em nosso contexto. Uma observacao
atıpica pode ser detectada num boxplot funcional fazendo 1,5 vezes 50% da regiao empırica central, de
forma analoga ao boxplot classico. O diferencial e a utilizacao de um fator de ajuste para deteccao de ou-
tliers, determinando assim o percentual de valores discrepantes que foram visualizados. No entanto, essa
regra de ajuste envolve uma aplicacao computacional e que seria de grande utilidade em nosso trabalho,
porem no enfoque bayesiano.
94
95
A Condicionais Completas
A.1 Caso Gaussiano
Segundo Palacios and Steel [2006], z pode ser escrito a partir da sua condicional dado por:
f(z |x, β, σ2,θ) ∼ Normaln(µ, σ2Σ(θ)), θ = (φ, κ), ondeκ e conhecido eµ = x′β.
Para o calculo do MCMC precisamos entao encontrar as condicionais completas para imple-
mentar o amostrador de Gibbs.
(1) σ2 ∼ GI(a, b)
p(σ2 | z,β, φ) ∝ p(z |β, φ, σ2)π(σ2)
∝ (σ2)−n/2|Σ(θ)|−n/2exp{− 1
2σ2
[(z− µ)′Σ−1(θ)(z− µ)
]}× (σ2)−a−1exp
{− 1
σ2b
}∝ (σ2)−(a+n/2+1)exp
{− 1
σ2
[1
2(z− µ)TΣ−1(θ)(z− µ)
]+ b
}
Assim temos que σ2 | z,β, φ ∼ GI[a+ n
2 ; 12 (z− µ)′Σ−1(θ)(z− µ) + b
].
(2) β ∼ Normaln(0, τ2In)
p(β | z, σ2, φ) ∝ p(z |β, σ2, φ)π(β)
∝ (σ2)−n/2(|Σ|)−n/2exp{− 1
2σ2
[(z− µ)′Σ(θ)−1(z− µ)
]}× (τ2)−n/2exp
{− 1
2τ2(β′I−1β)
}∝ exp
{−1
2
[(z− µ)′σ−2Σ(θ)−1(z− µ) + τ−2β′β
]}
Portanto temos que, β | z, σ2, φ ∼ Normaln (m,M) onde,
M =
(τ−2 +
XΣ(θ)−1
σ2
)−1
e m = M ×(τ−2 +
Xz
σ2
)(3) φ ∼ Gama(1, c/med(us))
p(φ|z,β, σ2) ∝ p(z|β, σ2, φ)π(φ)︸ ︷︷ ︸Passo de Metropolis-Hastings
Como nao conhecemos sua condicional completa, recorremos a passo de Metropolis-Hastings.
Proposta utilizada: ln(φ) ∼ Normal(ln(φ(k−1)), σ2(φ))
A.2 Caso T-Student Multivariado
Podemos amostra-lo de duas maneiras:
(i) Pela distribuicao conjunta
z|β, σ2, φ, λ, ν ∼ Normaln(µ, σ2λ−1Σ(θ))
(ii) Marginalizando com respeito a λ e λ ∼ Gama(ν2 ,
ν2
), entao teremos
z|β, σ2, φ, ν ∼ T − studentn(µ, ν, σ2Σ(θ))
Por (ii) temos
(1) σ2 ∼ GI(a, b)
p(σ2 | z,β, φ, ν) ∝ p(z |β, φ, σ2, ν)π(σ2)︸ ︷︷ ︸Passo de Metropolis-Hastings
Proposta utilizada: ln(σ2) ∼ Normal(ln(σ2(k−1)), σ2(σ2))
(2) β ∼ Normaln(0, τ2In)
p(β | z, σ2, φ, ν) ∝ p(z |β, σ2, φ, ν)π(β)︸ ︷︷ ︸Passo de Metropolis-Hastings
(3) φ ∼ Gama(1, c/med(us))
p(φ|z,β, σ2, ν) ∝ p(z|β, σ2, φ, ν)π(φ)︸ ︷︷ ︸Passo de Metropolis-Hastings
Proposta utilizada: ln(φ) ∼ Normal(ln(φ(k−1)), σ2(φ))
(4) (ν) ∝(
νν+3
)1/2 {ψ′(ν2
)− ψ′
(ν+1
2
)− 2(ν+3)
ν(ν+1)2
}1/2
, priori independente Fonseca et al. [2008].
em que ψ′(a) = dψ(a)da representa a funcao Trigama.
96
p(ν|z,β, σ2, φ) ∝ p(z|β, σ2, φ, ν)π(ν)︸ ︷︷ ︸Passo de Metropolis-Hastings
Proposta utilizada: ln(ν) ∼ Normal(ln(ν(k−1)), σ2(ν))
Como nao conhecemos as condicionais completas, recorremos a passo de Metropolis-Hastings.
A.3 Caso GLG
Segundo Palacios and Steel [2006], z pode ser escrito a partir da sua condicional dado por:
f(z |β,θ, σ2,Λ) ∼ Normaln(µ, σ2Λ−1Σ(θ)Λ−1)
onde Λ = diag(λ1, . . . , λn) e θ = (φ, κ)T agora depende de um unico parametro a ser estimado φ. Repre-
sentaremos Σ∗(θ) = Λ−1Σ(θ)Λ−1. Para o calculo do MCMC precisamos entao encontrar as condicionais
completas para implementar o amostrador de Gibbs
1) σ2 ∼ GI(a, b)
p(σ2 | z,β,θ,λ, ν) ∝ p(z |β,θ, σ2,λ, ν)π(σ2)
∝ (σ2)−n/2|Σ∗(θ)|−n/2exp{− 1
2σ2
[(z− µ)Σ∗(θ)−1(z− µ)
]}× (σ2)−a−1exp
{− 1
σ2b
}∝ (σ2)−(a+n/2+1)exp
{− 1
σ2
[1
2(z− µ)′Σ∗(θ)−1(z− µ)
]+ b
}
Assim temos que σ2 |Φ ∼ GamaInversa(a+ n
2 ,12 (z− µ)′Σ∗(θ)−1(z− µ) + b
).
2) β ∼ Normaln(0, τ2In)
p(β | z, ν, σ2, φ,λ) ∝ p(z |β, σ2, φ,λ, ν)π(β)
∝ (σ2)−n/2(||Σ∗|)−n/2exp{− 1
2σ2
[(z− µ)′Σ∗(θ)−1(z− µ)
]}× (τ2)−n/2exp
{− 1
2τ2(β′I−1β)
}∝ exp
{−1
2
[(z− µ)′σ−2Σ∗−1(θ)(z− µ) + τ−2β′β
]}
Portanto temos que, β |Φ ∼ Normaln (m,M) e
M =
(τ−2 +
XΣ∗(θ)−1
σ2
)−1
e m = M ×(τ−2 +
Xz
σ2
)
97
3) ν ∼ GIG(ζ, δ, ι)
p(ν | z,β,θ,λ, σ2) ∝ p(λ | ν)π(ν)
∝ ν−n/2exp
{− 1
2ν
[(lnλ +
ν
2
)TΣ∗(θ)−1
(lnλ +
ν
2
)]}× νζ−1exp
{−1
2
(δ2
ν+ ι2ν
)}∝ νζ−n/2−1exp
{− 1
2ν
[(lnλ +
ν
2
)TΣ∗(θ)−1
(lnλ +
ν
2
)+ δ2
]− 1
2ι2ν
}
Entao temos que ν |Φ ∼ GIG(ζ − n
2 , δ2 + ι2
)e n representa a dimensao de Σ∗(θ).
ou como em Palacios and Steel [2006] podemos utilizar
ν ∼ Exponencial(c1, c2)
p(ν | z,β, φ,λ, σ2) ∝ p(λ | ν)π(ν)︸ ︷︷ ︸Passo de Metropolis-Hastings
Proposta utilizada: ln(ν) ∼ Normal(ln(ν(k−1)), σ2(ν))
4) φ ∼ Gama(1, c/med(us))
p(φ | z,β, ν,λ, σ2) ∝ p(z |β, σ2,λ, ν)π(φ)︸ ︷︷ ︸Passo de Metropolis-Hastings
Proposta utilizada: ln(φ) ∼ Normal(ln(φ(k−1)), σ2(φ))
5) λ | ν, φ ∼ Log −Normal(−ν2 1, νΣ(θ)
)
p(λ |φ, ν, z,β, σ2) ∝ p(z |λ, φ, ν,β, σ2)π(λ | ν)︸ ︷︷ ︸Passo de Metropolis-Hastings
A.4 Amostrador para os λ’s
Para o modelo GLG, temos que estimar os valores do processo de mistura λ = (λ1, . . . , λn). Para estimar
esta variavel procedemos com o metodo chamado amostragem em blocos, no qual iremos particionar
os elementos de λ em blocos (sub-regioes), onde cada bloco corresponde a um conjunto de observacoes
que estao relativamente proximas uma da outra. Alem disso, a divisao em sub-regioes permite que o
parametro λ varie no espaco, identificando regioes que possuem alta variabilidade.
98
Para cada agrupamento, e usando um passo de Metropolis-Hastings, o que implica em uti-
lizarmos uma proposta que tenha uma probabilidade de aceitacao razoavel. E muito comum, utilizar
propostas como passeios aleatorios tomando o logaritmo de cada uma delas. Assim, uma proposta razoa-
vel seria
λprop = ln(λ(i)) ∼ Normal(ln(λ(k−1), σ(i))
tal que λ(i) e o vetor da regiao que inclui todos os valores de λ que pertencem a esta determinada regiao
i.
Palacios and Steel [2006] generalizam a proposta anterior, fazendo a regiao de interesse ser
dividida em sub-regioes ou observacoes agrupadas. Seja λ(i) os ni elementos de λ para o cluster i, e o
restante dos elementos indicado por λ−(i), de modo a particionar o vetor λ em
λ =
λ−(i)
λ(i)
e a matriz de covariancia como
C(θ) =
C11 C12
C21 C22
Assim a equacao do processo de mistura (2.7) dada no Capıtulo 2, pode ser escrita de forma vetorial,
como
λ(i)
λ−(i)
∼ Normal−ν
2
1(i)
1−(i)
, ν
C11 C12
C21 C22
,
podendo escreve-la da forma
ln(λ(i)|λ−(i), φ, ν ∼ Normal(−ν
21 + C21C
−111
[ln(λ−(i)) +
ν
21], ν(C22 − C21C
−111 C12)
)Palacios and Steel [2006] utilizando a aproximacao da distribuicao da verossimilhanca, pode-
se propor uma proposta para λ(i) da forma:
λprop = p(ln(λ(i)|λ−(i),β, σ2, φ, ν, z, z) ∼ fniN (µi,Σi),
onde
Σ−1(i) =
1
ν
[C22 − C21C
−111 C12
]−1+ diag(s−2
i )
µ(i) = Σ(i)
{1
ν
[C22 − C21C
−111 C12
]−1[ν
2(C21C
−111 1− 1) + C21C
−111 ln(λ−(i)
]+ (s−2
i mi)
99
(A.4)
tal que
mi = ln
(z2i [ηi + ηiδ(ηi) + 1]
τ2[ηi + δ(ηi)]4
),
s2i = 4ln
(η2i + ηiδ(ηi) + 1
[ηi + δ(ηi)]2
)ηi = τ−1(zi − x′iβ)sign(zi)
δ(·) =φ(·)F (·)
onde as funcoes φ e F neste caso, denotam a densidade a distribuicao acumulada da normal padrao
respectivamente. Devido a construcao do gerador, a probabilidade de aceitacao do passo de Metropolis-
Hastings, ira somente depender da razao de probabilidade para a contribuicao de λ(i) e sua aproximacao.
Para o caso gaussiano, nos construımos o amostrador sem o passo para zi, λ(poisλ = 1) e ν.
100
101
B T-Student Multivariada
Suponha um processo nao gaussiano T-student multivariado dado por
zi = x′β + σ2 ziλ−1/2
onde λ ∼ Gama(ν2 ,ν2 ). Podemos escrever a distribuicao conjunta como
p(z|β,θ, σ2, λ, ν) ∼ Normaln(µ, σ2λ−1Σ(θ)), Φ = (β, σ2, φ, λ, ν).
A mistura de escala da normal multivariada pode ser calculada marginalizando com respeito
a λ, resultando em uma distribuicao T-student multivariada com ν graus de liberdade. Como pode ser
visto o procedimento do calculo abaixo:
p(z|µ, ν) =
∫ ∞0
p(z|λ, σ2, φ, ν,β)p(λ)dλ
=
∫ ∞0
1
(2π)n/2|λΣ∗(θ)|−1/2exp
{−λ
2
[(z− µ)TΣ(θ)−1(z− µ)
]} (ν/2)ν/2
Γ(ν/2)λν/2−1exp
{−ν
2λ}dλ
=1
(2π)n/2|Σ(θ)|−1/2 (ν/2)ν/2
Γ(ν/2)
∫ ∞0
λν/2−n/2exp
{−λ
2
[ν + (z− µ)TΣ−1(z− µ)
]}dλ
Podemos utilizar a funcao Gama dada por Γ(z) =∫∞
0tz−1exp {−t} dt, para ajudar nos
calculos. Alem disso, pelo metodo da substituicao encontraremos:
p(z|µ, ν) =
{2
[ν + (z− µ)TΣ−1(z− µ)]
}ν+n/2(ν/2)ν/2
Γ(ν/2)
1
(2π)n/2|Σ|−1/2Γ
(ν + n
2
)
Fazendo as devidas mudancas algebricas resultaremos em
p(z|µ, ν) =Γ(ν+n
2 )
Γ(ν2 )(2π)n/2|Σ|−1/2
[1 +
(z− µ)TΣ−1(z− µ)
ν
]−ν+n/2
logo temos que z|µ, ν ∼ t− studentn(µ, σ2Σ(θ), ν). (B.-8)
102
Referencias Bibliograficas
O’Hagan A. and Pericchi L.R. Bayesian heavy-tailed models and conflict resolution: a review. Technical
report, April 2011.
C. Albert, J. e Siddhartha. Bayesian residual analysis for binary response regression models. Biometrika,
82:747–759, 1996.
S. Banerjee, C.P. Carlin, and A.E. Gelfand. Hierarchical Modeling and Analysis for Spatial Data. Chap-
man & Hall/CRC, Boca Raton, Florida, 2004.
K. Chaloner and R. Brant. A Bayesian approach to outlier detection and residual analysis. Biometrika,
75(4):651–659, 1988.
S.T.B. Choy and A.F.M. Smith. On robust analysis of a normal location parameter. Journal of the Royal
Statistical Society. Series B (Methodological), 59(2):463–474, 1997.
Kedem B. De Oliveira, V. and D.A. Short. Bayesian prediction of transformed gaussian random fields.
Journal of the American Statistical Association, 92:1422–1433, 1997.
B. deFinetti. The bayesian approach to the rejection of outliers. Proceedings of the Fourth Berkeley
Symposium on Probability and Statistics, 1:199–210, 1961.
J.M. Dickey. The weighted likelihood ratio, linear hypotheses on normal location parameters. The Annals
of Mathematical Statistics, 42(1), 1971.
P.J. Diggle and P.J. Ribeiro. Model-based Geostatistics. Springer Series in Statistics S. Springer Sci-
ence+Business Media, LLC, 2007. ISBN 9780387485362.
T.C. O. Fonseca, M.A. R. Ferreira, and H.S. Migon. Objective Bayesian analysis for the Student-t
regression model. Biometrika, 95(2):325–333, 2008.
T.C.O. Fonseca and M. Steel. Non-gaussian spatiotemporal modelling through scale mixing. Biometrika,
98(4):761–774, 2011.
Dani Gamerman. Markov chain Monte Carlo : stochastic simulation for Bayesian inference. Chapman
& Hall, 2 edition, 1997.
A. Gelfand. Model Determination Using Samplings Based Methods. Chapman & Hall, Boca Raton, FL,
1996.
Kottas A. Gelfand, A.E. and S.N. MacEachern. Journal of the American Statistical Association, 100:
1021–1035, 2005.
A. Gelman, X. Meng, and H. Stern. Posterior predictive assessment of model fitness via realized discre-
pancies. Statistica Sinica, 6:733–807, 1995.
I. Guttman. The use of the concept of a future observation in goodness-of-fit problems. Journal royal
Statistical Society, 29:83–100, 1967.
N. L. Hjort, F. A. Dahl, and G. H. Steinbakk. Post-processing posterior predictive p values. Journal of
the American Statistical Association, 101(475):1157–1174, 2006.
H. Jeffreys. Some Tests of Significance, Treated by the Theory of Probability. Mathematical Proceedings
of the Cambridge Philosophical Society, 31(02):203–222, 1935.
H. Jeffreys. Theory of Probability. Oxford University Press, USA, 3 edition, 1961.
W. Johnson and S. Geisser. A predictive view of the detection and characterization of influential ob-
servations in regression analysis. Journal of the American Statistical Association, 78(381):137–144,
1983.
R.E. Kass and A.E. Raftery. Bayes Factors. Journal of the American Statistical Association, 90(430):
773–795, 1995.
H.S. Migon and D. Gamerman. Statistical Inference: An Integrated Approach. Oford University Press,
1999.
Michael A. Newton and Adrian E. Raftery. Approximate Bayesian Inference with the Weighted Likelihood
Bootstrap. Journal of the Royal Statistical Society. Series B (Methodological), 56(1), 1994.
J. Neyman and E.L. Scott. Outlier proneness of phenomena and of related distributions. Optimizing
Methods in Statistics, 1971.
A. O’Hagan. On outlier rejection phenomena in bayes inference. Wiley, 41(3):358–367, 1979.
A. O’Hagan. Fractional bayes factors for model comparison. Journal of the Royal Statistical Society.
Series B (Methodological), 57:pp. 99–138, 1995. ISSN 00359246.
M. B. Palacios and Mark F. J. Steel. Non-gaussian bayesian geostatistical modeling. Journal of the
American Statistical Association, 101(474):604–618, 2006.
L.I. Petit. The conditional predictive ordinate for the normal distribution. Journal of the Royal Statistical
Society. Series B (Methodological), 52(21):175–184, 1990.
Adrian E. Raftery, Michael A. Newton, Jaya M. Satagopan, and Pavel N. Krivitsky. Estimating the
Integrated Likelihood via Posterior Simulation Using the Harmonic Mean Identity. Memorial Sloan-
Kettering Cancer Center Department of Epidemiology and Biostatistics Working Paper Series. Working
Paper 6., 8:371–416, 2007.
C. P. Robert and G. Casella. Monte Carlo Statistical Methods. Springer-Verlag, 1 edition, 1999. ISBN
038798707X.
D.B. Rubin. Estimation in parallel randomized experiments. Journal of Educational Statistics, 12(4):
377–400, 1981.
103
D.B. Rubin. Bayesianly justifiable and relevant frequency calculations for the applied statistician. Ann.
Statist, 12:1142–1160, 1984.
A. Souza and H. Migon. Bayesian outlier analysis in binary regression. Journal of Applied Statistics, 37
(8):1355–1368, 2010.
M.L. Stein. Interpolation of Spatial Data: Some Theory for Kriging (Springer Series in Statistics).
Springer, 1 edition, 1999.
Y. Sun and M.G. Genton. Adjusted functional boxplots for spatio-temporal data visualization and outlier
detection. 2011.
M. West. Outlier models and prior distributions in bayesian linear regression. Journal of the Royal
Statistical Society. Series B (Methodological), 48(3):431–439, 1984.
104