metodos bayesianos para modelos´ ocultos de markov en
TRANSCRIPT
Metodos Bayesianos para ModelosOcultos de Markov en series de tiempo
con conteo
Rafael Eduardo Dıaz Bonilla
Universidad Nacional de Colombia
Facultad de Ciencias, Departamento de Estadıstica
Bogota D.C., Colombia
2019
Metodos Bayesianos para ModelosOcultos de Markov en series de tiempo
con conteo
Rafael Eduardo Dıaz Bonilla
Tesis presentada como requisito parcial para optar al tıtulo de:
Magister en Estadıstica
Director:
Carlos Eduardo Alonso-Malaver
Ph.D., en Ciencias - Estadıstica
Lınea de Investigacion:
Estadıstica Bayesiana y Procesos Estocasticos
Grupo de Investigacion:
Procesos Estocasticos
Universidad Nacional de Colombia
Facultad de Ciencias, Departamento de Estadıstica
Bogota D.C., Colombia
2019
Dedicatoria
A mis padres
Rafael Dıaz Gutierrez y Lilia del Rocio Bonilla, por
educarme con valores para ser una persona de bien,
ıntegra y honesta. Ademas de apoyarme de manera
incondicional en la parte moral y economica.
A mi hermano Andres Felipe Dıaz y demas familia
en general por el apoyo brindado en el transcurso
de esta maestrıa.
“Los errores suelen ser el puente que media entre lainexperiencia y la sabidurıa.”
- Phyllis eroux
AgradecimientosEn primer lugar quiero agradecer al Dios de Israel, por brindarme la oportunidad de cursar esta
maestrıa en la mejor universidad del paıs.
En segundo lugar quiero agradecer a mi director de tesis el profesor Carlos Eduardo Alonso por
la paciencia, esfuerzo y dedicacion en la revision de este documento.
Ademas agradezco al Profesor Wilmer Pineda, por su ayuda incondicional desde el primer mo-
mento que ingrese a la maestrıa y ser mi apoyo en la mayorıa de materias cursadas en el posgrado
ya que sin el no hubiera sido posible aprobar satisfactoriamente estos curso y por el tiempo de-
dicado en la revision de este documento.
Finalmente quiero agradecer a la Facultad de Ciencias y en especial al Departamento de Estadısti-
ca por darme la formacion necesaria para culminar a cabalidad con la maestrıa, y a todos los do-
centes con los cuales tuve clase, que de alguna forma aportaron en mi formacion como profesional
y como profesional.
ix
ResumenEsta investigacion se dedica a dos tipos especiales de Modelos Ocultos de Markov (HMM), el
primero dedicado a Procesos de Poisson (PHMM) y el segundo dedicado a Procesos de Poisson
Cero-Inados (ZIP-HMM), el enfoque se hace desde la perspectiva Bayesiana, desde la cual se
construye un paquete Bayeshmmcts con el n de ajustar los modelos planteados mediante Meto-
dos de Montecarlo MCMC, Monte Carlo Hamiltoniano y NUTS; unido a lo anterior se utiliza “el
muestreador por puente” para resolver el problema no resuelto de la seleccion del mejor mode-
lo desde el enfoque bayesiano. Finalmente se presentan dos aplicaciones con datos reales de los
modelos desarrollados, en los que se sugiere el uso del PHMM para la serie del numero de homici-
dios en Colombia para los anos 1960 a 2018, y el ZIP-HMM para modelar la serie mensual numero
de Grandes Incendios Forestales (GIF) en Colombia en el perıodo enero del 2002 a diciembre del
2016.
Palabras clave: Modelos ocultos de Markov, PHMM, ZIP HMM, metodos Bayesianos, Monte CarloHamiltoniano, Muestreador por Puente.
Abstractis research is dedicated to two special types of Hidden Markov Models (HMM), the rst-one
dedicated to Poisson Processes (PHMM) and the second-one dedicated to Zero-Inated Poisson
Processes (ZIP-HMM). e two proposed models are Bayesian models for which a package is de-
veloped Bayeshmmcts. e estimation process is done using MCMC, Hamiltonian Monte Carlo,
NUTS and a new methodology called “ the bridge sampler”which is used to solve the unresolved
problem of selecting the best model from the Bayesian approach. Finally, we present two appli-
cations, the premier we use PHMM for the number of homicides in Colombia-Southamerica and
the ZIP-HMM to model the monthly number of Large wildres (GIF) in Colombia in the period
from January 2002 to December 2016.
Keywords: Hidden Markov models, PHMM, ZIP HMM, Bayesian methods, Hamiltonian MonteCarlo, Bridge Sampling.
Contenido
Agradecimientos vii
Resumen ix
Lista de figuras xiii
Lista de tablas xv
Lista de sımbolos xvi
1. Introduccion 1
1.1. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Contribucion de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3. Organizacion de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2. Modelos Ocultos de Markov 5
2.1. Cadenas de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1. Ecuaciones de Chapman - Kolmogorov . . . . . . . . . . . . . . . . . . . . 6
2.1.2. Distribucion Estacionaria . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2. El algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1. Esperanza Maximizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2. Por que el algoritmo EM funciona . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.3. Extensiones del algoritmo EM . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3. HMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1. Modelos Ocultos de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.2. Distribucion Predictiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4. Los tres problemas fundamentales en los HMM . . . . . . . . . . . . . . . . . . . . 16
2.4.1. Problema 1: Encontrando la verosimilitud de una secuencia de observa-
ciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2. Problema 2: Encontrando la secuencia mas probable de estados . . . . . . 21
2.4.3. Problema 3: Estimacion de los parametros . . . . . . . . . . . . . . . . . . 23
3. PHMM y ZIP-HMM 25
3.1. Modelo Oculto de Markov - Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3.1.1. Estimacion de los parametros . . . . . . . . . . . . . . . . . . . . . . . . . 27
Contenido xi
3.2. Modelo Oculto de Markov - Poisson Cero Inado . . . . . . . . . . . . . . . . . . 30
3.2.1. Estimacion de los parametros para el algoritmo BW . . . . . . . . . . . . . 31
3.3. Seleccion y vericacion de los HMM . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.3.1. Seleccion de modelos mediante criterios de informacion . . . . . . . . . . 36
3.3.2. Comprobacion del modelo con pseudo-residuales . . . . . . . . . . . . . . 37
3.3.3. Introduccion a los pseudo-residuales . . . . . . . . . . . . . . . . . . . . . 38
3.3.4. Pseudo-residuales Ordinarios . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.5. Pesudo-residuales de pronostico . . . . . . . . . . . . . . . . . . . . . . . . 42
4. Metodos Bayesianos para los HMM 44
4.1. Estadıstica Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.2. Muestreador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2.1. Generando muestras de las trayectorias para la cadena de Markov. . . . . 48
4.2.2. La descomposicion de las observaciones en contribuciones del regimen. . 49
4.2.3. Actualizando los parametros . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3. Estimacion Bayesiana para el numero de estados . . . . . . . . . . . . . . . . . . . 50
4.3.1. Uso de la verosimilitud integrada . . . . . . . . . . . . . . . . . . . . . . . 50
4.3.2. Seleccion de modelos por muestreo paralelo . . . . . . . . . . . . . . . . . 51
4.4. Metodo Monte Carlo Hamiltoniano . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.4.1. Descripcion del metodo Monte Carlo Hamiltoniano . . . . . . . . . . . . . 53
4.4.2. No-U-Turn Sampler (NUTS) . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5. Verosimilitud Marginal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5.1. El estimador ingenuo de Monte Carlo de la Verosimilitud Marginal . . . . 58
4.5.2. El Estimador de Muestreo por Importancia de la Verosimilitud Marginal . 59
4.5.3. El Estimador de muestreo por puente de la verosimilitud marginal . . . . 60
5. Resultados 62
5.1. Aplicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.1.1. Descripcion de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
5.1.2. PHMM enfoque frecuentista . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.1.3. Modelo Oculto de Markov - Poisson Cero inado . . . . . . . . . . . . . . 83
6. Conclusiones y futuras investigaciones 96
6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.2. Futuras Investigaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
A. Anexos 98
A.1. Codigos utilizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
A.2. Paquete elaborado para esta tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Bibliografıa 99
Lista de Figuras
2-1. Grafo dirigido de una Cadena de Markov. . . . . . . . . . . . . . . . . . . . . . . . 5
2-2. Grafo dirigido de un HMM basico. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3-1. Construccion de pseudo-residuos normales en el caso continuo. Fuente: (MacDo-
nald & Zucchini 2009), donde Xt es una variable aleatoria discreta. . . . . . . . . . 39
3-2. Construccion de pseudo-residuos normales en el caso discreto. Fuente (MacDo-
nald & Zucchini 2009) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4-1. Ejemplo de construccion de un arbol binario mediante duplicacion repetida. Ca-
da duplicacion procede eligiendo una direccion (hacia adelante o hacia atras en el
tiempo) uniformemente al azar, luego simulando la dinamica hamiltoniana para
2j paso leapfrog en esa direccion, donde j es el numero de duplicaciones pre-
vias (y la altura del arbol binario). Las guras en la parte superior muestran una
trayectoria en dos dimensiones (con el arbol binario correspondiente en lıneas
discontinuas) a medida que evoluciona a lo largo de cuatro duplicaciones, y las
siguientes guras muestran la evolucion del arbol binario. En este ejemplo, las di-
recciones elegidas fueron hacia adelante (nodo naranja claro), hacia atras (nodos
amarillos), hacia atras (nodos azules) y hacia adelante (nodos verdes). Tomado de
Homan & Gelman (2014). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5-1. Serie de tiempo homicidios en Colombia desde el ano 1960 hasta el ano 2018 . . . 64
5-2. Funcion de autocorrelacion muetral, y densidad para la serie homicidios en Co-
lombia (1960-2018) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5-3. Serie homicidios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5-4. Datos homicidios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5-5. Graco pseudo-residuales ordinarios para el PHMM de 2 estados . . . . . . . . . . 69
5-6. Algoritmo Viterbi aplicado a un PHMM de dos estados . . . . . . . . . . . . . . . 71
5-7. Pronostico de la distribucion para los anos 2019 a 2034 . . . . . . . . . . . . . . . 72
5-8. Algoritmo Viterbi aplicado a un PHMM de dos estados . . . . . . . . . . . . . . . 75
5-9. Graco de trazas de las cadenas, para cada iteracion y por cadena . . . . . . . . . 78
5-10. Intervalos de credibilidad al 0.95 PHMM . . . . . . . . . . . . . . . . . . . . . . . 79
5-11. Graco de dispersion para las muestras MCMC . . . . . . . . . . . . . . . . . . . 80
5-12. Serie de tiempo Grandes Incendios Forestales en Colombia desde el ano 2002 hasta
el ano 2016 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
xiv Lista de Figuras
5-13. Funcion de autocorrelacion muestral, y kernel de densidad para la serie Grandes
Incendios Forestales en Colombia (2002-2016) . . . . . . . . . . . . . . . . . . . . 84
5-14. Serie incendios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5-15. Algoritmo Viterbi aplicado al ZIP-HMM de cuatro estados . . . . . . . . . . . . . 87
5-16. Graco de trazas de las cadenas, para cada iteracion y por cadena . . . . . . . . . 90
5-17. Intervalos de credibilidad al 0.95 ZIP-HMM . . . . . . . . . . . . . . . . . . . . . . 91
5-18. Graco de dispersion para las muestras MCMC del ZIP-HMM . . . . . . . . . . . 92
Lista de Tablas
5-1. Numero de homicidios por cada 100.000 habitantes en Colombia, 1960 - 2018.
Fuente: Departamento Nacional de Planeacion (DNP), policıa Nacional y medicina
legal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5-2. Numero de Grandes Incendios Forestales (GIF) en Colombia, 2002 - 2016. Fuente:
IDEAM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5-3. Estadısticas de Resumen serie homicidios en Colombia. . . . . . . . . . . . . . . . 64
5-4. Criterio de informacion Bayesiano y Akaike, para los modelos PHMM y mixturas
independientes ajustados a la Tasa de homicidios Colombia. . . . . . . . . . . . . 66
5-5. ACF para los datos de homicidios y ACF de los PHMM hasta el rezago 12. . . . . . 68
5-6. Resultados de la decodicacion global con el algoritmo Viterbi. . . . . . . . . . . . 70
5-7. Prediccion para las probabilidades de los estados hasta un rezago h = 16. . . . . . 71
5-8. Interpretacion del factor de Bayes, Lee y Wagenmakers (2013). . . . . . . . . . . . 73
5-9. Comparacion resultados Factor de Bayes para los PHMM. . . . . . . . . . . . . . . 74
5-10. Estimacion bayesiana de los parametros para un PHMM. . . . . . . . . . . . . . . 74
5-11. Resultados de la decodicacion global bayesiana para el PHMM de orden 2, con
el algoritmo Viterbi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5-12. Prediccion bayesiana para las probabilidades de los estados hasta un rezago h = 16. 76
5-13. Prueba de estacionariedad, usando el estadıstico de Cramer-von-Mises para la
convergencia de la cadena y prueba de medio ancho para la media calculando el
intervalo de conanza al 0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5-14. Intervalos de Credibilidad y Conanza para el PHMM de 2 estados. . . . . . . . . 81
5-15. Datos incendios: comparacion de modelos ocultos de Markov (Cero inados) por
AIC y BIC. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5-16. Resultados de la decodicacion global con el algoritmo Viterbi, para el ZIP HMM. 87
5-17. Comparacion resultados Factor de Bayes para los ZIP HMM. . . . . . . . . . . . . 88
5-18. Estimacion bayesiana de los parametros para un ZIPH-MM de 4 estados. . . . . . 89
5-19. Prueba de estacionariedad, usando el estadıstico de Cramer-von-Mises para la
convergencia de la cadena y prueba de medio ancho para la media calculando el
intervalo de conanza al 0.95. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5-20. Intervalos de Credibilidad y Conanza para el ZIP HMM de orden 4. . . . . . . . . 94
Notacion y Abreviaciones
En esta seccion se muestran la notacion y abreviaciones que se utilizaran en esta tesis.
Notacion
Aunque la notacion se dene a medida que se introduce, tambien puede ser util enumerar aquı los
signicados mas comunes de los sımbolos y las paginas en las que se presentan. Las matrices y los
vectores estan denotados en negrita. La transposicion de matrices y vectores se indica mediante
el sımbolo principal:′. Todos los vectores son vectores la, a menos que se indique lo contrario.
Sımbolo TerminoE Valor Esperado del proceso estocastico.
N Conjunto de todos los numeros enteros positivos.
R Conjunto de todos los numeros reales.
Ct Estado Ocupado por la Cadena de Markov al tiempo t.
C1:t (C1, C2, ..., Ct).
l log-verosimilitud (log-likelihood)
L o LT verosimilitud (likelihood)
log logartimo en base e.
D Numero de componentes en la mixtura de un HMM (incluyendo Dirac)
K Numero de estados en la Cadena de Markov
ot Observacion al tiempo t.
O1:t (O1, O2, ..., Ot).
O¬t (O1, O2, ..., Ot−1, Ot+1, ..., OT )
pi funcion masa de probabilidad o de densidad en el estado i
P (o) matriz diagonal con i-esimo elemento en la diagonal pi(o)
T Longitud de una serie
αt(i) Variable forward
βt(i) Vector backward
A Matriz transicion de probabilidades de la Cadena de Markov
aij (i, j) elementos de A; probabilidad de transicion del estado i al estado j en una CM
π distribucion estacionaria de la Cadena de Markov
1 vector la de unos
Lista de Tablas xvii
Abreviaturas
Abreviatura TerminoACF Funcion de autocorrelacion muestral
AIC Criterio de informacion de Akaike
BIC Criterio de informacion Bayesiano
BW Baum Welch
CM Cadena de Markov
EMV Estimador Maxima Verosimilitud
FB Forward-Backward (algoritmo)
HM Hamiltonian Monte Carlo
HMM Hidden Markov Model - Modelo Oculto de Markov
KB Kullback-Leibler
m.t.p. Matriz transicion de probabilidad
MCMC Los metodos de montecarlo para cadenas de Markov
MV Maxima Verosimilitud
NUTS e No-U-Turn Sampler
p.d.f. Funcion densidad de probabilidad (siglas en ingles)
p.m.f. Funcion masa de probabilidad (siglas en ingles)
PHMM Poisson Hidden Markov Model - Modelo Poisson Oculto de Markov
ZIP-HMM Zero Inated Poisson Hiden Markov Model
1. Introduccion
Un modelo oculto de Markov (HMM) es un proceso doblemente estocastico en el que la distri-
bucion que genera una observacion depende del estado de un proceso de Markov subyacente no
observado.
El uso de los Modelos Ocultos de Markov (HMM) se remonta a nales de la decada de 1960, perıodo
en el cual fue introducido por Baum et al. (1970). A mediados de los anos de 1970 aparecen las
primeras aplicaciones en reconocimiento de la voz. Mas tarde en los 80′s los HMMs son utilizados
para el analisis de secuencias geneticas Churchill (1989), y en aplicaciones relacionadas con la
bioinformatica, a partir de los desarrollos computacionales recientes, en los ultimos 30 anos se ha
masicado su uso en otras areas tales como la economıa (Hamilton 1989), el analisis de imagenes
(Romberg et al. 2001) y en general en el reconocimiento de patrones. Una revision profunda de
esta aplicaciones de HMM puede ser consultada en MacDonald & Zucchini (2009).
Las caracterısticas atractivas de HMM incluyen su simplicidad, su manejabilidad matematica, y
el hecho de que la verosimilitud es relativamente simple de calcular. Los HMM proporcionan mo-
delos exibles de uso general para series temporales univariadas y multivariadas, especialmente
para series de valores discretos, que incluyen series categoricas y series de conteos. Un ejemplo
es el numero de clientes que llegan a un banco por hora o dıa de la semana, situaciones en las
que es inapropiado usar los modelos autorregresivos de promedios moviles (ARMA) que asumen
de distribucion normal en las observaciones. Voliendo al proceso anterior, conteo del numero de
clientes, un modelo plausible para el mismo es el modelo de Poisson, cuya distribucion depende
de un solo parametro λ, que es la tasa de ocurrencia por evento, la media y la varianza de esta
distribucion. Esta distribucion solo es aplicable cuando los sucesos son independientes, en caso
contrario las estimaciones podrıan ser erroneas.
Algunas generalizaciones de la distribucion Poisson han sido propuestas en la literatura para
superar dicultades tales como sobre-dispersion y tasa de incidencia no homogenea. Consul &
Jain (1973) sugieren la distribucion Poisson generalizada (GPD); la cual consta de dos parametros,
λ y w, que generaliza la distribucion habitual de Poisson de una manera exible, cambiando w,
es posible cambiar la tasa de ocurrencia del proceso.
Para series de conteos que muestran una sobredispersion considerable, MacDonald & Zucchini
(2009) mostraron que es inapropiado utilizar, un modelo que consta de variables aleatorias Poisson
2 1 Introduccion
independientes, ya que puede existir una fuerte correlacion serial. Por otra parte para el caso en
el que los incrementos del proceso Poisson no son constantes a traves del tiempo; pero tiene
una distribucion de probabilidad dada, el proceso se puede ajustar utilizando modelos mixtos de
Poisson, suponiendo tanto observaciones independientes como mixtura de modelos dependientes
de Markov, es decir, modelos Ocultos de Markov-Poisson (PHMM), donde la Cadena de Markov se
utiliza para modelar los estados ocultos y la distribucion Poisson se ajusta al proceso observado.
Otra caracterıstica que se puede observar en una serie de datos de conteos, es el exceso de ceros.
Esto ocurre, por ejemplo, al tratar de modelar el numero de cigarrillos fumados por cada uno
de los integrantes de un grupo de personas: puede que algunos de ellos, simplemente, no sean
fumadores. Ademas, la teorıa sugiere que el exceso de ceros se generan mediante un proceso
separado de los valores de recuento y estos pueden ser modelados de forma independiente. De lo
anterior el modelo ZIP (Zero-Inated Poisson) tiene dos partes, un modelo de conteo de Poisson y
un modelo logit para predecir exceso de ceros. Sin embargo no es posible ajustar correctamente el
ZIP para series de datos con exceso de ceros y sobre dispersion. Como alternativa surge el Modelo
Poisson Oculto de Markov cero-inado (ZIP-HMM), originalmente desarrollado y utilizado en el
campo de biometrica, (ver Albert & Chib (1993) y Leroux & Puterman (1992)), que permite modelar
adecuadamente ambos fenomenos.
Una herramienta fundamental en los modelos anteriores es el Metodo de Montecarlo para Cade-
nas de Markov (MCMC) que se pueden utilizar para simular valores para los parametros desde
la distribucion aposteriori. Al contrario de la percepcion, los metodos MCMC tienen interpreta-
ciones probabilısticas intuitivas y pueden mejorar muchos metodos, Sco (2002) demostro ma-
tematicamente, y empıricamente mediante el uso de computacion recursiva, que el muestreador
de Gibbs, permite mezclas mas rapidas por iteracion, estimando de manera mas eciente la cade-
na oculta en los HMM, ademas de proveer diagnosticos de convergencia que no estan disponibles
mediante otros metodos.
Por lo anterior esta tesis se centra en el desarrollo de la teorıa para la modelacion de los PHMM
y ZIP-HMM desde la perspectiva bayesiana, utilizan el metodo de MCMC en el momento de
estimar los parametros del modelo y en el momento de seleccionar el modelo mas apropiado. A
continuacion se muestran los objetivos, contribucion y organizacion de esta tesis.
1.1. Objetivos
Formular una metodologıa bayesiana para estimar los parametros y evaluar los modelos PHMM
y ZIP - HMM. Como segundo objetivo, se busca determinar la estimacion bayesiana del numero
de estados en el PHMM y ZIP-HMM. Finalmente realizar una aplicacion de las metodologıas
propuestas al numero de homicidios para el perıodo 1960 a 2018 en Colombia y a la serie de datos
Grandes Incendios Forestales (GIF) en Colombia, para el perıodo enero - 2002 a diciembre - 2016.
1.2 Contribucion de la Tesis 3
1.2. Contribucion de la Tesis
El trabajo presentado es resultado de combinar desarrollos de varias disciplinas, se combina in-
formatica, teorıa de procesos estocasticos y estadıstica Bayesiana. Las principales contribuciones
son:
1. Esta es una de las primeras aplicaciones a gran escala para series de tiempo, secuencias
dependientes en el tiempo de datos, de los modelos PHMM y ZIP-HMMdel.
2. Se propone un enfoque Bayesiano que permite sortear las limitaciones de la metodologıa
clasica en los HMM, en los que generalmente se utiliza el algoritmo EM para realizar la
estimacion de los parametros.
3. Se utilizo un enfoque novedoso, el No-U-Turn Sampler (NUTS) que es una extension del
Metodo de Monte Carlo Hamiltoniano (HMC), para la estimacion bayesiana de los parame-
tros en los PHMM y ZIP-HMM; camina que es signicativamente mas eciente que los
metodos usualmente empleados como el muestreador de Gibbs y el algoritmo de Metropo-
lis Hasting.
4. Los algoritmos propios-desarrollados para la estimacion Bayesiana en el ZIP-HMM, permi-
ten sortear los inconvenientes que presenta el algoritmo EM tradicional, como la conver-
gencia a maximos locales.
5. Se construyo un paquete propio en R disponible en el repositorio de github Bayeshmmcts,
contraccion de la plabra Bayes Hidden Markov Models for count time series. El paquete
cuenta con las funciones propias para ajustar el PHMM tanto desde el enfoque clasico como
bayesiano mientras que para el ZIP-PHMM solo se dispone el enfoque bayesiano, bajo el
enfoque frecuentista puede ajustarse dicho modelo usando el paquete ziphsmm .
6. Se plantea el uso del muestreador por puente (bridge sampler) para resolver el problema de
la estimacion Bayesiana del numero de estados en los HMM. A diferencia de las metodo-
logıas propuestas por Newton & Raery (1994) y Congdon (2006), el muestreador de Gibbs
No funciona en espacios altamente dimensionales.
7. Los resultados experimentales muestran que las metodologıas propuestas, se comportan de
manera consistente, ya que dan estimaciones cercanas al algoritmo Baum Welch.
1.3. Organizacion de la Tesis
Posterior a la introduccion anterior se introduce la teorıa general de los modelos Ocultos de
Markov, sus componentes y los tres problemas fundamentales de los HMM . Se describen las
recursiones forward-backward, la decodicacion global de los estados mas probables utilizando
4 1 Introduccion
el algoritmo Viterbi; ademas se describe el algoritmo Baum Welch utilizado para la estimacion de
los parametros en los HMM - Capıtulo 2 -.
El capitulo 3 se dedica a presentar la teorıa clasica del PHMM y ZIP-HMM, incluyendo los criterios
de informacion AIC y BIC para la eleccion del mejor modelo. Vericacion de los supuestos a partir
de los pseudo-residuales, capıtulo al que le sigue el desarrollo de la metodologıa bayesiana para el
PHMM y ZIP-HMM - Capitulo 4 -, introduciendo un esquema general del Metodo de Monte Carlo
Hamiltoniano y del No-U-Turn Sampler. Se responde al problema no resuelto sobre la seleccion del
modelo mas apropiado desde el enfoque bayesiano, para lo cual se utilizo metodologıa inovadora
muestreador por Puente (Bridge Samplper), el cual permite estimar la verosimilitud marginal
a partir de la distribucion posterior, y realizar el factor de Bayes para comparar estos modelos.
En el Capıtulo 5 se presenta la aplicacion de los HMM a dos conjuntos de datos reales, la serie
anual del numero de homicidios desde el ano 1960 al ano 2018 para la cual se sugirio el ajuste de
un PHMM, y la serie mensual Grandes Incendios Forestales (GIF) en Colombia para el perıodo
enero del 2002 hasta diciembre del 2016, la cual fue modelada con un ZIP HMM. Para ambas series
se incluyen gracos y tablas relevantes de los valores calculados, como las estimaciones de los
parametros, la decodicacion global de los estados y el calculo de los intervalos de conanza y de
credibilidad. Ofreciendo una discusion exhaustiva de los resultados frecuentistas vs los bayesia-
nos, ademas del impacto de las suposiciones hechas y la idoneidad de los metodos elegidos para
el problema en estudio.
Finalmente se presentas las conclusiones y las sugerencias para futuras investigaciones.
2. Modelos Ocultos de Markov
En esta seccion, se denen formalmente los HMM1
y se explican sus propiedades. La seccion
comienza con una descripcion de las cadenas de Markov, ya que son esenciales para la teorıa
de los HMM. El material en las secciones a continuacion se deriva de muchas fuentes diferen-
tes. La teorıa y notacion sigue principalmente estos tres autores Zhang (2004), Berhane (2018) y
MacDonald & Zucchini (2009).
2.1. Cadenas de Markov
Denicion 1 (Cadenas de Markov). Una secuencia de variables alteatorias discretas Ctt∈N,
se dice que es una Cadena de Markov (C.M) a (tiempo-discreto) si, para todo t ∈ N, satisface la
siguiente propiedad de Markov
P (Ct+1|C1:t) = P (Ct+1|Ct) (2-1)
Esto es la condicion sobre toda la “historia”del proceso al tiempo t es equivalente a condicionar
solo sobre el valor mas reciente Ct. La propiedad de Markov indica un supuesto de dependen-
cia entre las variables aleatorias Ct, mas especıcamente como se muestra en el siguiente grafo
dirigido en el que el futuro depende solo del presente.
Estados C1 C2 C3 Ct Ct+1. . .. . .
Figura 2-1.: Grafo dirigido de una Cadena de Markov.
En una cadena de Markov las probabilidades condicionales, comunmente llamadas, probabili-dades de transicion en un paso del estado i al estado j en el instante t+ 1 se denen como:
aij(t) = P (Ct+1 = j|Ct = i) (2-2)
Denicion 2 (Cadenas de Markov Homogenea). La Cadena de Markov a tiempo discreto se
denomina homogenea si aij(t) no depende del momento del tiempo en el cual se evalua, es decir
si se que:
P (Ct+1 = j|Ct = i) = P (Ct+h+1 = j|Ct+h = i) para h ∈ N (2-3)
1Los modelos Ocultos de Markov o Hidden Markov Model se denotan por sus siglas en ingles como HMM.
6 2 Modelos Ocultos de Markov
lo que signica que las probabilidades de transicion de la CM no cambia con el tiempo. Una CM de
estado nito homogeneo en el tiempo, donde Ct solo puede tomar valores en un conjunto nito
K , se puede caracterizar por una matriz de transicion, de dimension K ×K , i.e..
A =
a11 · · · a1K
.
.
....
.
.
.
aK1 · · · aKK
,
donde S = 1, .., K, denota el conjunto de estados en la cadena de Markov. Nos referiremos a
A como la matriz probabilidad de transicion (m.p.t).
Asumiendo que la cadena esta en el estado i, entonces, permanecera en el estado i en el proximo
paso con probabilidad aii y dejara el estado i con probabilidad 1 − aii. Suponga que una cadena
comienza en el estado i, la probabilidad de que la cadena permanezca en ese estado en exacta-
mente h pasos es igual ahii(1 − aii). Se concluye que el tiempo de permanencia en el estado i se
distribuye geometricamente. Las probabilidades de transicion en t pasos son las probabilidades
de transicion del estado i al estado j en t pasos y se denotan como
a(t)ij = P (Ct = j|C0 = i) = P (Ct+h = j|Ch = i) (2-4)
Por lo tanto, se cumple que a(1)ij = aij .
2.1.1. Ecuaciones de Chapman - Kolmogorov
Teorema 1 (Chapman - Kolmogorov). Sea A(t)como la matriz de transicion en t pasos con
(i, j) elementos a(t)ij . Una importante propiedad de todas las Cadenas de Markov con espacio de
estados nitos, es que satisfacen la ecuacion de Chapman-Kolmogorov; esto es
A(t+s) = A(t)A(s)(2-5)
Las ecuaciones de Chapman-Kolmogorov implican que, para todo t ∈ N; A(t) = At, esto es que
la matriz de transicion de probabilidades del t-esimo paso, es la t-esima potencia de A en el paso
uno, la cual ademas cumple con la propiedad que suma de sus las igual a 1, esta propiedad se
puede escribir comoA1′ = 1′.
Existen varias propiedades importantes de la CM, que pueden ser explicados en terminos de la
matriz de transicion A. Se dice que una CM es irreducible si, en terminos generales, es posible
llegar a todos los estados desde cualquier estado. El signicado de irreducible puede denirse
formalmente utilizando la teorıa de conjuntos, pero aquı es suciente observar que una CM con
una matriz de transicion donde todos los elementos son positivos es irreducible. Cada estado en el
conjunto K para la CM tiene un perıodo, que se dene como sigue para cualquier estado i ∈ K .
k = mcdn ≥ 1 : P (Ct = i|C0 = i) > 0. (2-6)
2.1 Cadenas de Markov 7
Dondemcd, denota el maximo comun divisor. Si k = 1 para todos los estados enM , se dice que la
CM es aperiodico. Por lo tanto, una CM con una matriz de transicion donde todos los elementos
son positivos, es aperiodico.
Denicion 3 (Distribucion marginal). Las probabilidades no condicionales P (Ct = j), indican
que una cadena de Markov este en un estado determinado j en un momento dado t son a menudo
de interes. Lo denotamos como el vector la
u(t) = (P (Ct = 1), ..., P (Ct = K)), t ∈ N (2-7)
denotamos a u(1) como la distribucion inicial de la Cadena de Markov. Para deducir la distribucion
en el tiempo t+ 1 a partir de la t post multiplicamos por la m.t.pA; entonces u(t+ 1) = u(t)A.
2.1.2. Distribucion Estacionaria
Denicion 4 (Distribucion Estacionaria). SeaA la matriz de transicion de una CM irreducible
con estado nito y homogenea en el tiempo con dimension K . Se dice que una distribucion π 2
es una distribucion estacionaria si cumple las siguientes condiciones:
0 ≤ πi ≤ 1∑i∈K
πi = 1
πA = π
(2-8)
La segunda lınea de la ecuacion 2-8, indica que π es una distribucion de probabilidad, la terce-
ra lınea expresa su estacionariedad y deja claro el valor propio de la matriz de transicion es 1
con vector propio π, este es el teorema de Perron-Frobenius aplicado a matrices estocasticas Ber-
hane (2018). El teorema tambien establece que todos los demas valores propios de la matriz de
transicion son menores que 1.
Sea A una m.t.p de una cadena de Markov, la distribucion estacionaria π con vector de elementos
no negativos puede calcularse a partir de la siguiente igualdad, π(IK−A−U) = 1, donde 1 es un
vector la de unos, IK es la matriz de identidad de tamano K ×K , y U es una matriz K ×K de
unos. Si A es nito e irreducible, entonces la distribucion estacionaria π es unica (MacDonald &
Zucchini 2009, pag. 17). Cuando la distribucion estacionaria existe y es unica, el siguiente teorema
de convergencia es valido para la CM.
Teorema 3 (Teorema de la convergencia). Sea que Ctt∈T denota una CM irreducible, ho-mogenea y con estados nito, con matriz de transicion A y espacio de estado K . Si esta CM es ape-riodica y existe una distribucion estacionaria π, entonces, ∀ ∈ K
lımt→∞
a(t)ij = πj (2-9)
2La distribucion estacionaria es una distribucion de probabilidad sobre el espacio de estados de la CM.
8 2 Modelos Ocultos de Markov
donde aij(t) denota la siguiente probabilidad de transicion P (Ct = j|C0 = i).
En otras palabras, este teorema establece que la probabilidad a largo plazo en la CM que este en
un estado j viene dada por la probabilidad del estado, πj , en la distribucion estacionaria π. La
distribucion estacionaria se puede encontrar al resolver la ecuacion 2-7, junto con la restriccion
de que la suma da uno.
Para matrices de transicion diagonalizables, A puede descomponerse en la forma A = V DV −1,
donde D es una matriz diagonal que contiene todos los valores propios de A y V es la matriz que
contiene los vectores propios correspondientes como columnas. La convergencia de la matriz de
transicion se puede caracterizar utilizando los valores propios de la siguiente manera:
At = (V DV −1)t
= V DV −1V DV −1 · · ·V DV −1
= V DtV −1.
(2-10)
Dado que D es una matriz diagonal, Dtse puede calcular simplemente tomando a t: como la
t-esima potencia de los valores propios. Volviendo al teorema de Perron-Frobenius anterior, a
continuacion se sigue que, usando el teorema de la convergencia,
lımt→∞
At = lımt→∞
V DtV −1
= lımt→∞
V
1 0 · · · 0
0 λt1 · · · 0...
...
.
.
.
.
.
.
0 · · · 0 λtn
V −1
= V
1 0 · · · 0
0 0 · · · 0...
...
.
.
.
.
.
.
0 · · · 0 0
V −1
=
π
π...
π
.
(2-11)
El error cometido al aproximar At con la distribucion estacionaria se determina por el mayor
valor propio de la matriz de transicion.
2.2. El algoritmo EM
El algoritmo de Esperanza-Maximizacion es uno de los metodos mas utilizados en estadıstica y
aprendizaje automatico para estimar parametros en modelos de variables latentes. El algoritmo
2.2 El algoritmo EM 9
alterna entre dos pasos, el paso de Esperanza y el paso de Maximizacion, para calcular las estima-
ciones de maxima verosimilitud de los parametros. Una debilidad de este algoritmo es la posibi-
lidad, que las estimaciones no sean maximos globales, ya que solo se garantiza que el algoritmo
converja a los maximos locales de la funcion de probabilidad.
EL algoritmo EM adquiere cierta relevancia a partir del artıculo publicado por Dempster et al.
(1977), pero diferentes versiones del algoritmo se habıan descubierto en investigaciones previas
(ver, por ejemplo, las notas de (Sundberg 1974)). En Wu et al. (1983) se establecen los resultados
de convergencia del algoritmo para una clase mas grande de distribuciones de probabilidad que
la familia exponencial. A continuacion se presenta una breve explicacion del algoritmo.
2.2.1. Esperanza Maximizacion
Considere un modelo parametrico donde O1:t constituye las variables observadas y C1:t son las
correspondientes variables ocultas o latentes. Su distribucion conjunta se denota P (O1:t, C1:t|Θ),
donde Θ denota un conjunto de parametros. En lo que sigue, se suprimira el subındice 1:t para
mejorar la legibilidad. Se debe entender que todas las letras mayusculas representan secuencias,
a menos que se indique lo contrario. El objetivo inicial es maximizar la verosimilitud
P (O|Θ) =∑C
P (O,C|Θ), (2-12)
donde se supone que C1:t es discreto, sin perdida de generalidad. La maximizacion de la vero-
similitud es bastante difıcil, generalmente compleja incluso para modelos simples. La dicultad
surge debido a la suma que aparece en la funcion de verosimilitud, sin embargo podemos aplicar
logaritmo como se muestra a continuacion
logP (O|Θ) = log
(∑C
P (O,C|Θ)
). (2-13)
Ahora suponga que tambien se observan las variables ocultas denotadas por C , de modo que los
datos completos constan de la parejaO,C . La funcion log-verosimilitud para los datos completos
toma la forma
logP (O,C|Θ), (2-14)
que generalmente es una expresion menos complicada al momento de maximizar, ya que las va-
riables ocultas generalmente proporcionan mas informacion sobre las observaciones. Por lo tanto,
la expresion en 2-14 es deseable. Sin embargo en la practica, las variables ocultas no se observan
y el conocimiento de ellas solo se llega a traves de la distribucion a posteriori P (C|O,Θ). La
solucion, es considerar el valor esperado de la log-verosimilitud de los datos completos bajo la
distribucion posterior de las variables latentes. Sea Θ′ un conjunto de valores para los parame-
tros jos. Suponiendo que las variables ocultas C son discretas, la log-verosimilitud de los datos
10 2 Modelos Ocultos de Markov
completos se proporciona de la siguiente manera
Q(Θ,Θ′) = EΘ′ [logP (O,C|Θ)|O]
=∑C
P (C|O,Θ′) logP (O,C|Θ), (2-15)
donde EΘ′ denota la esperanza de la log-verosimilitud de los datos completos bajo las distribucio-
nes posteriores. La evaluacion de esta expresion es el paso de Esperanza del algoritmo EM. Esta
funcion se conoce a menudo como la funcion auxiliar Q de Baum, ver Baum & Petrie (1966).
El lado derecho de la ecuacion 2-15, es una funcion de dos conjuntos de valores de parametros,
Θ y Θ′. El siguiente paso del algoritmo es maximizar Q(Θ,Θ′) con respecto al parametro Θ. Es
decir, la esperanza de la log-verosimilitud de los datos completos se maximiza con respecto a los
parametros de la distribucion conjunta, que se puede escribir de la siguiente manera
Θnew = arg maxΘQ(Θ,Θ′) (2-16)
Esto constituye el paso de maximizacion del algoritmo EM. Una vez que se ha evaluado el paso M,
los nuevos valores de los parametros se utilizan para volver a calcular la distribucion posterior de
los datos ocultos. Los nuevos valores de los parametros para la distribucion posterior se utilizan
para evaluar la funcionQ de nuevo. De esta manera, el algoritmo EM alterna entre el paso E y el
paso M para producir estimaciones de parametros. El algoritmo puede ser resumido como sigue.
Algoritmo 1: El algoritmo-EM
Initialization: Θ0, Ot
Looping:
for l = 1, . . . , lmax do1. E-step: Q(Θ,Θl−1) = EΘt−1
[logP (O,Q|Θ)
∣∣∣O]2. M-step: Θl = arg max
ΘQ(Θ,Θl−1)
endResult: Θllmax
l=0
Las estimaciones iniciales para el algoritmo EM se pueden obtener simplemente muestreando
valores de parametros al azar. Sin embargo, se sabe que el algoritmo es sensible, con respecto a
la tasa de convergencia y a los valores iniciales dados.
2.2.2. Por que el algoritmo EM funciona
El algoritmo EM se explico en la seccion anterior, pero no se dieron indicaciones sobre la conver-
gencia del algoritmo. Ese es el enfoque de esta seccion. Como primer paso, se debe observar que
la log-verosimilitud de los datos completos se puede reescribir de la siguiente manera
logP (O,C|Θ) = logP (C|O,Θ) + logP (O|Θ), (2-17)
2.2 El algoritmo EM 11
En las siguientes expresiones, q(·) denota una distribucion de probabilidad sobre las variables
ocultas. Siguiendo lo planteado en Berhane (2018, pag. 11), la log-verosimilitud3
de los datos
observados se puede expandir de la siguiente manera
logP (O|Θ) = logP (O|Θ)∑C
q(C)
=∑C
q(C)
[logP (O,C|Θ)− logP (C|O,Θ) + log
q(C)
q(C)
]=∑C
q(C) logP (O,C|Θ)
q(C)−∑C
q(C) logP (C|O,Θ)
q(C)
= L(q,Θ) +KL(q, P ).
(2-18)
El termino KL es la divergencia Kullback-Leibler entre las dos distribuciones de probabilidad
P (·|O,Θ) y q(·) y el primer termino es funcional sobre q(·) y una funcion de Θ. De la desigualdad
de Gibbs, se deduce que la divergencia de KL no es negativa, es decir,KL(q, P ) ≥ 0, con igualdad
si y solo si P (·) = q(·) en casi todas partes. Por lo tanto, la siguiente desigualdad se mantiene
logP (O|Θ) ≥ L(q,Θ). (2-19)
El algoritmo-EM ahora se puede describir a traves de la funcion L En el paso E, L(q,Θ′) se
maximiza con respecto a q(Θ), mientras se mantienen jos los valores de parametro conocidos
(o antiguos) de Θ′. Al senalar que el lado izquierdo de la ecuacion 2-18, logP (O|Θ), no depende
de q(·), y por lo tanto debe ser constante con respecto a q(·), se deduce que L(q,Θ′) se maximiza
cuando KL(q, P ) = 0. Por lo tanto, el lımite inferior para la log-verosimilitud en la ecuacion
2-19 se maximiza cuando q(·) se establece como la distribucion posterior de las variables ocultas,
P (·|O,Θ).
En el paso M, L(q,Θ) se maximiza con respecto a los valores del parametro Θ, mientras q(·) se
mantiene jo. Denotamos estos nuevos valores del parametro con Θ y los valores antiguos del
parametro con θ′. A menos que L(q,Θ) este en un maximo, aumentara con el nuevo valor del
parametro y, en consecuencia, tambien lo hara la log-verosimilitud, segun la ecuacion 2-19 q(·)se determina utilizando los valores de los parametros antiguos, es decir, q(·) = P (·|O,Θ′) en casi
todas partes. Esto implica que la divergencia KL,
KL(P (·|O,Θ′)
∣∣∣∣∣∣P (·|O,Θ),)
ahora no es cero. El aumento total en la probabilidad logarıtmica en la ecuacion 2-18 es, por lo
tanto, mayor que el aumento en el lımite inferior en la ecuacion 2-19.
La importancia de la ultima oracion en el parrafo anterior se puede entender al escribir la funcion
3Nota: El resultado de la expansion de la 2-18 es tomado de (Berhane 2018, pag. 1).
12 2 Modelos Ocultos de Markov
L de la siguiente manera
L(P (C|O,Θ′),Θ) =∑C
P (C|O,Θ′) logP (O,C|Θ)−∑C
P (C|O,Θ′) logP (C|O,Θ′)
= Q(Θ,Θ′) +H(Θ′),
(2-20)
donde el primer termino es la log-verosmilitud de los datos completos Ecuacion 2-15 yH(Θ′) es la
entropıa negativa. El segundo termino es una constante con respecto a Θ. Por lo tanto, maximizar
L(q,Θ) en el paso M en realidad esta maximizando la log-verosimilitud de los datos completos.
Como ultimo paso, se puede demostrar que el algoritmo EM es un algoritmo iterativo no decre-
ciente. Sea Θ y Θ′ los valores de los parametros nuevos y antiguos, respectivamente, y PΘ denota
P (C|O,Θ). Luego sigue que
logP (O|Θ) ≥ logP (O|Θ′),
con igualdad si y solo si la log-verosimilitud esta en un maximo. Esto demuestra que la log-
verosimilitud es no decreciente en el algoritmo EM.
2.2.3. Extensiones del algoritmo EM
El algoritmo EM que se presenta aquı es la version estandar, que es util cuando todas las cantidades
involucradas pueden escribirse explıcitamente. Este es el caso cuando el espacio de estados para
la cadena subyacente de Markov es nito. Cuando este no es el caso, el paso E del algoritmo se
vuelve intratable. Los metodos secuenciales de Monte Carlo son una gran clase de metodos para
resolver problemas de ltrado cuando no se pueden usar los algoritmos EM.
Tambien es posible que la derivada en la etapa M produzca una expresion compleja o intratable.
Existen varias extensiones del algoritmo EM donde se utilizan diferentes metodos para maximizar
de alguna manera la funcion Q con respecto a algunos de los parametros.
2.3. HMM
Los HMM nos permiten modelar la dinamica de un sistema (oculto), al cual no podemos acceder
(observar) de forma directa; por el contrario de forma indirecta mediante la observacion de even-
tos externos, suponemos que estan correlacionados con dicho sistema y su estado. En las cadenas
de Markov, las senales observadas corresponden a los estados del modelo, mientras que en en
los modelos ocultos de Markov no se conoce la secuencia de estados por la que pasa el modelo,
sino una funcion probabilıstica de ella. Existen diversas razones por los cuales el sistema no es
accesible de forma directa, como la imposibilidad fısica o la presencia de ruido en la medicion.
(Rabiner 1990).
2.3 HMM 13
2.3.1. Modelos Ocultos de Markov
De forma general denimos un HMM, como un modelo probabilıstico, utilizado para representar
la probabilidad conjunta de un conjunto de variables aleatorias (Ct, Ot)Tt>0. En este conjunto de
variables aleatorias distinguimos dos tipos. Bilmes et al. (1998). El primero corresponde al estado
en el cual se encuentra el sistema oculto CtTt>0 durante una observacion y satisface la propiedad
de Markov. El segundo corresponde a los posibles eventos o sımbolos observables OtTt>0, que
pueden presentarse al realizar una observacion indirecta del sistema oculto. Ademas la distribu-
cion de Ot depende solo del estado actual Ct y no de los estados u observaciones anteriores. Esta
estructura se representa en la Figura 2-2.
P (Ct|C1:t−1) = P (Ct|Ct−1), t = 2, 3, ... (2-21)
P (Ot|Ot−1, Ct) = P (Ot|Ct), t ∈ N (2-22)
Estados C1 C2 C3 Ct Ct+1
O1 O2 O3 Ot Ot+1Observado
. . .. . .
Figura 2-2.: Grafo dirigido de un HMM basico.
Los Modelos Ocultos satisfacen la siguiente propiedad de independencia4
Ct:T , Ot:T ⊥ C1:t−2, O1:t−1|Ct−1,
Ot ⊥ C¬t, O¬t|Ct,(2-23)
para todo t = 1, ..., T . Varias propiedades de independencia condicional se inducen a partir de las
dos ecuaciones anteriores. El primero arma que el futuro y el pasado son condicionalmente in-
dependientes, dado el presente. Esto a su vez implica queCt ⊥ C1:t−2|Ct−1, e implica que CtTt≥0
forma una CM discreta, que en realidad no es necesario incluir en la denicion del HMM. La se-
gunda ecuacion establece que las observaciones OtTt≥0 son condicionalmente independientes,
dado los estados correspondientes. Las propiedades de independencia condicional de un HMM
sugieren que la probabilidad conjunta sobre las variables ocultas y observadas (en conjunto, se
denominan datos completos) se puede factorizar. Tomado de (Berhane 2018).
P (O1:T , C1:T ) = P (OT , CT |O1:T−1, C1:T−1)P (O1:T−1, C1:T−1)
= P (OT |CT , O1:T−1, C1:T−1)P (CT |O1:T−1, C1:T−1)P (O1:T−1, C1:T−1),(2-24)
4Donde el sımbolo ¬ en logica matematica negacion, y ⊥ es sinonimo de ortogonal. Ver tabla de notacion.
14 2 Modelos Ocultos de Markov
donde los signos de igualdad se derivan de la denicion de una distribucion condicional. A partir
de las propiedades de independencia condicional de la HMM, se deduce que
P (O1:T , C1:T ) = P (OT |Ct)P (CT |CT−1)P (O1:T−1, C1:T−1). (2-25)
El primer factor se deriva de la segunda propiedad en la ecuacion 2-23, mientras que la segunda
igualdad es la propiedad de Markov de las variables ocultas. Repitiendo este procedimiento para
el ultimo factor en el producto, P (O1:T−1, C1:T−1), se obtiene la siguiente factorizacion de la
distribucion conjunta
P (O1:T , C1:T ) = P (C1)T∏t=2
P (Ct|Ct−1)T∏t=1
P (Ot|Ct). (2-26)
Esta factorizacion es conveniente, ya que demuestra los componentes del HMM. El primer factor
representa la distribucion inicial sobre los estados ocultos. El segundo factor representa las pro-
babilidades de transicion de la CM subyacente y el ultimo factor representa las distribuciones de
observacion (o emision). Juntas, estas distribuciones determinan el HMM.
Se puede obtener cierta intuicion sobre la exibilidad al usar variables latentes a traves de un
ejemplo de un HMM. Supongamos que los rendimientos de un activo nanciero siguen una distri-
bucion t. Es plausible que los mercados nancieros puedan mostrar un comportamiento diferente
en diferentes momentos. Especıcamente, es posible que el mercado tenga diferentes estados en
los que los participantes del mercado, y en consecuencia los retornos, muestren tendencias y vo-
latilidades similares. Por ejemplo, el mercado puede tener un “estado positivo” con rendimientos
abrumadoramente positivos, un “estado estancado” donde los rendimientos no parecen mostrar
ninguna tendencia y tienen una gran variacion y un “estado inactivo”, donde los rendimientos
son principalmente negativos. Cada uno de estos estados podrıa aparecer en un orden arbitrario
y existir durante diferentes perıodos de tiempo. Si bien se podrıa usar una distribucion mixta para
modelar la salida total de los datos, no puede modelar las propiedades temporales de los datos,
que forman una serie de tiempo.
En un HMM, los diferentes estados del mercado podrıan representarse por diferentes estados de
las variables ocultas. La matriz de transicion del HMM subyacente capturarıa entonces como el
mercado cambia entre estados. El comportamiento de los retornos se describe a continuacion me-
diante los parametros de las distribuciones de observacion en cada estado. Es decir, los diferentes
valores para los parametros de las distribuciones de observacion permiten diferentes medios y
variaciones de los rendimientos en cada estado.
2.3.2. Distribucion Predictiva
Para generar predicciones a partir de los HMM, primero se debe derivar la distribucion predic-
tiva, ver (Berhane 2018, p. 14). Para una secuencia de observacion O1:t y un tiempo s ≥ 1, la
distribucion predictiva P (Ot+s|O1:t) se puede derivar como sigue,
2.3 HMM 15
P (Ot+s|O1:t) =∑Ct+s
∑Ct
P (Ot+s, Ct+s, Ct|O1:t)
=∑Ct+s
∑Ct
P (Ot+s|Ct+s, Ct, O1:t)P (Ct+s, Ct|O1:t)
=∑Ct+s
∑Ct
P (Ot+s|Ct+s)P (Ct+s|Ct, O1:t)P (Ct|O1:t)
=∑Ct+s
P (Ot+s|Ct+s)∑Ct
P (Ct+s|Ct)P (Ct|O1:t).
(2-27)
La segunda igualdad es simplemente la denicion de una distribucion condicional. La tercera
igualdad se deriva de la propiedad de independencia condicional de los HMM. La expresion nal
se obtiene mediante el uso de la propiedad Markov de la CM y la recopilacion de terminos. El
primer termino en esta expresion es la densidad de emision para el estadoCt+s. El primer termino
en la segunda suma es la probabilidad de pasar del estado Ct al Ct+s en los s pasos en la CM
subyacente.
La expresion en la ecuacion 2-27 se puede simplicar deniendo la siguiente funcion
V (Ct+s) ,∑Ct
P (Ct+s|Ct)P (Ct|O1:t) (2-28)
Reemplazando en la ecuacion 2-27, se obtiene la distribucion predictiva
P (Ot+s|O1:t) =∑Ct+s
P (Ct+s|Ct+s) · V (Ct+s) (2-29)
En esta forma, es evidente que la distribucion predictiva es una mezcal de distribuciones, con
pesos V (Ct+s) y mixtura de las componentes P (Ot+s|Ct+s), que son distribuciones de la mixtura
en sı mismas. El esquema de muestreo se vuelve identico al de la mixtura de distribuciones, con
la adicion de un segundo nivel debido a que las distribuciones de emision tambien son mixturas.
Para vericar que 2-27 (o 2-29) es una distribucion de probabilidad adecuada, se debe observar
que
∑Ct+s
V (Ct+s) =∑Ct+s
∑Ct
P (Ct+s|Ct)P (Ct|O1:t)
=∑Ct
P (Ct|O1:t)∑Ct+s
P (Ct+s|Ct)
= 1.
Cabe destacar algunos puntos con respecto a la V (Ct+s). En el primer termino en 2-28, utilizando
la ecuacion de Chapman-Kolmogorov, se deduce que P (Ct+s|Ct) se obtiene al tomar la s-esima
16 2 Modelos Ocultos de Markov
potencia de la matriz de transicion y elegir el elemento apropiado en la matriz resultante. El
segundo factor puede reescribirse como sigue:
P (Ct|O1:t) =P (Ct, O1:t)
P (O1:1)=
αt(Ct)∑Ctαt(Ct)
. (2-30)
Entonces, V (Ct+s), puede ser expresado como sigue:
V (Ct+s) =∑Ct
AsCt,Ct+sαt(Ct)∑r αt(Cr)
(2-31)
Si la CM subyacente tiene una distribucion estacionaria δ, entonces la matriz de transicion con-
vergera a δ a medida que s crezca. Esto produce una ligera simplicacion de V (Ct+s), para valores
de s sucientemente grandes se tiene:
V (Ct+s) =∑Ct
AsCt,Ct+sαt(Ct)∑Crαt(Cr)
≈∑Ct
δ(Ct+s)αt(Ct)∑Crαt(Cr)
= δ(Ct+s).
En consecuencia, cuando la CM oculta ha convergido a su distribucion estacionaria, la distribu-
cion predictiva es identica para todos los horizontes de prediccion futuros y se pierde la depen-
dencia de la distribucion posterior del estado oculto actual.
2.4. Los tres problemas fundamentales en los HMM
La distribucion de probabilidad conjunta desensamblada en la ecuacion 2-26 resalta las diferentes
partes de un HMM necesarias para las aplicaciones. El primer factor es la distribucion inicial,
generalmente denotada por π, del HMM sobre los estados posibles para la distribucion oculta, de
manera que
0 ≤ πi ≤ 1,K∑i=1
πi = 1,
donde K es el numero de estados, o equivalentemente, la dimension del HMM. El segundo fac-
tor representa las transiciones de la CM y esta determinado por los elementos de la matriz de
transicion A. El ultimo factor representa las distribuciones de emision de las variables observa-
das, denotadas por B. Estas se suelen elegir para ser distribuciones de familias parametricas o
mezcla de distribuciones , en cuyo caso se indexan por parametros. Junto con K y D (el numero
de componentes de la mixtura), estos factores forman el HMM y se indican con Θ , (π,A,B).
Estos son los parametros que se requieren para una especicacion completa del HMM.
2.4 Los tres problemas fundamentales en los HMM 17
Dada la especicacion del HMM descrito anteriormente, algunas preguntas surgen naturalmente.
Los tres problemas principales para los HMM, tal como se presentan en Rabiner (1990), son los
siguientes:
1. Dada una secuencia de observaciones O1:T y un modelo Θ = (π,A,B), ¿cual es la verosi-
militud de la secuencia de observacion bajo Θ, es decir, P (O|Θ) =?
2. Dada una secuencia de observacionesO1:T y un modelo Θ = (π,A,B), ¿Como se encuentra
la secuencia oculta correspondiente?
3. Dada una secuencia de observaciones O1:T , ¿Como se ajustan los parametros en Θ para
maximizar P (O1:T |Θ)?
Estas tres preguntas se abordaran en este mismo orden en las siguientes secciones.
2.4.1. Problema 1: Encontrando la verosimilitud de una secuencia de
observaciones
Dada una secuencia de observaciones O = O1:T y un HMM Θ = (A,B, π), queremos calcular
la verosimilitud de esta secuencia P (O|Θ). Este proceso tambien se conoce como decodicacion.
Como las observaciones son independientes entre sı al momento t, la verosimilitud de que una
secuencia de estados C = C1:T que genere la secuencia de observaciones se puede calcular como:
P (O|C,Θ) y la probabilidad de transicion entre estados como P (C1:T |Θ), ademas la probabilidad
conjunta de O y C es,P (O,C|Θ) = P (O|C,Θ)P (C|Θ), por lo tanto
P (O|Θ) =∑C
P (O|C,Θ)P (C|Θ)
El calculo de la verosimilitud de manera directa es bastante sencillo, solo se debe sumar la proba-
bilidad de cada observacion dada cada una de las posibles secuencias de estados. Sin embargo el
enumerar todas las posibles secuencias de estados requiere calculos del orden de KT, que crecen
de manera exponencial incluso para secuencias pequenas, un ejemplo es para K = 5, T = 100
se produce 5100 ≈ 1072.
Para resolver este problema, fue desarrollado un algoritmo utilizando tecnicas de programacion
dinamica y publicado por Rabiner & Juang (1986), el denominado algoritmo forward backwardque reduce la complejidad computacional a una forma lineal de orden T .
El algoritmo Forward Backward - FB
El algoritmo FB es un metodo para evaluar de manera eciente la verosimilitud de un HMM, utili-
zando las propiedades de independencia condicional del modelo. El funcionamiento del algoritmo
18 2 Modelos Ocultos de Markov
Forward se puede demostrar con la ayuda de dos cantidades. Primero, la distribucion conjunta
P (O1:t, Ct, Ct−1) se puede expandir de la siguiente manera
P (O1:t, Ct, Ct−1) = P (O1:t−1, Ot, Ct, Ct−1)
= P (Ot, Ct|O1:t−1, Ct−1)P (O1:t−1, Ct−1)
= P (Ot|Ct, O1:t−1, Ct−1)P (Ct|O1:t−1, Ct−1)P (O1:t−1, Ct−1)
= P (Ot|Ct)P (Ct|Ct−1)P (O1:t−1, Ct−1)
La segunda y tercera igualdad se derivan de la denicion de una distribucion condicional. La
ultima igualdad se deriva de la propiedad de independencia condicional del HMM y la propiedad
de Markov para el proceso de estado no observado. Segundo, el ultimo factor en la ecuacion 2-32
se puede descomponer de la siguiente manera
P (O1:t, Ct) =∑Ct−1
P (O1:t, Ct, Ct−1)
=∑Ct−1
P (Ot|Ct)P (Ct|Ct−1)P (O1:t−1, Ct−1)(2-32)
Variable Forward
Introduciendo la variable α como αCt(t) , P (O1:t, Ct). Donde α almacena la probabilidad total
de terminar en el estado Ct al momento t, dada la secuencia de observaciones O1:t−1. Se calcu-
la sumando las probabilidades entrantes en cada uno de los nodos. La segunda igualdad de la
ecuacion 2-32 sugiere la recursion,
αCt(t) =
∑Ct−1
P (Ct|Ct−1)αCt−1(t− 1)
P (Ot|Ct). (2-33)
Esta es la recursion forward (recursion hacia adelante) y se encuentra resumida en el algoritmo 1.
La verosimilitud ahora se puede obtener facilmente sumando la variable αCT (T ) sobre los estados
ocultos, es decir,
P (O1:t) =∑Ct
αCt(t)
Este calculo es mucho mas eciente que simplemente enumerar todos los estados posibles. El
algortimo forward utiliza la estructura mas na del HMM, por lo tanto el orden de los calculos
requeridos es de K2T .
2.4 Los tres problemas fundamentales en los HMM 19
Algoritmo 2: El algoritmo Forward
Initialization:
α1(i) = πibi(O1), 1 ≤ i ≤ K
Recursion:
for t = 1, ..., T − 1 dofor j = 1, ..., K do
αt+1(j) =
[K∑i=1
αt(i)aij
]bj(Ot+1)
endendResult: P (O1:T ) =
∑Ni=1 αT (i)
Del mismo modo, se puede derivar la recursion backward (recursion hacia atras). La distribucion
P (Ot+1:T |Ct) se puede descomponer de la siguiente manera
P (Ot+1:T |Ct) =∑Ct+1
P (Ot+2:T , Ot+1, Ct+1|Ct)
=∑Ct+1
P (Ot+2:T |Ot+1, Ct+1, Ct)P (Ot+1|Ct+1, Ct)P (Ot+1|Ct)
=∑Ct+1
P (Ot+2:T |Ct+1)P (Ot+1|Ct+1)P (Ct+1|Ct).
(2-34)
La primera y la segunda igualdad se derivan de la denicion de distribucion condicional. La tercera
igualdad se deriva de la primera propiedad de independencia condicional del HMM, establecida
en la ecuacion 2-23.
Variable backward
El calculo de induccion para el procedimiento directo tambien se puede realizar en orden inverso.
El procedimiento hacia atras calcula la probabilidad de la secuencia de observacion parcial desde
t + 1 hasta el nal, dado el modelo Θ y el estado Ct al momento t. La variable backward β se
dene como βCt(t) = P (Ot+1:T |Ct,Θ). De la ecuacion 2-34 se obtiene la siguiente recursion:
βCt(t) =∑Ct+1
βCt+1(t+ 1)P (Ot+1|Ct+1)P (Ct+1|Ct) (2-35)
La verosimilitud de una secuencia de observaciones puede obtenerse nuevamente sumando sobre
la variable β. El algoritmo backward (de retroceso) se resume en el algoritmo 3, que se muestra a
continuacion.
20 2 Modelos Ocultos de Markov
Algoritmo 3: El algoritmo Backward
Initialization:
βT (i) = 1, 1 ≤ i ≤ K
Recursion:
for t = T − 1, ..., 1 do
βt(i) =k∑j=1
aijbj(Ot+1)βt+1(j)
endResult: βt(i) = P (Ot+1:T |cT = i|Θ)
Cada uno de los dos algoritmos se puede usar por separado para calcular la probabilidad de un
modelo. Sin embargo, si se quiere utilizar el algoritmo de Baum-Welch5, tanto el algoritmo for-
ward como el backward son necesarios para estimar los parametros de un HMM.
5Nota: El algritmo Baum Welch (BW) es equivalente al algoritmo EM para los HMM.
2.4 Los tres problemas fundamentales en los HMM 21
2.4.2. Problema 2: Encontrando la secuencia mas probable de estados
El segundo problema tiene un objetivo claro, el cual es encontrar la mejor secuencia de estados
dado un modelo y una secuencia de observaciones. Este es uno de los problemas que a menudo se
debe resolver, por ejemplo en el reconocimiento de patrones del habla. Hay varias formas posibles
para resolver este problema, sin embargo surge una dicultad y es que existen varios criterios
optimos posibles. Uno de ellos es elegir los estados que son mas probables individualmente en
cada momento t. Para cada momento t, 1 ≤ t ≤ T + 1 se encuentra la siguiente variable que da
una probabilidad
γt(i) = P (Ct|O1:t, θ) =P (Ct, O1:t|θ)P (O1:t|Θ)
=αt(i)βt(i)∑Kj=1 αt(j)βt(j)
La secuencia individual de estados mas probable C ′, puede ser encontrada como:
arg max1≤i≤K
γi(t), 1 ≤ t ≤ T + 1, 1 ≤ i ≤ K
Esta cantidad maximiza el numero esperado de estados correctos. Sin embargo, el enfoque puede
generar una secuencia de estado poco probable. Esto se debe a que no toma en consideracion las
probabilidades de transicion para cada estado. Por ejemplo, si en algun momento tenemos una
probabilidad de transicion cero aij = 0, la secuencia de estados optima encontrada puede no ser
valida. Es ası que surge como alternativa una metodologıa mas eciente, el algoritmo de Viterbi,basado en la programacion dinamica el cual es utilizado para encontrar la secuencia de estados
mas probable.
Algoritmo Viterbi
El algoritmo Viterbi encuentra la mejor secuencia de estados maximizando la distribucion poste-
rior de los estados ocultos. Este objetivo es equivalente a maximizar el segundo termino de esta
igualdad
P (C1:t, O1:t|Θ) = P (C1:t|O1:t,Θ)P (O1:t,Θ)
con respecto a la secuencia C1:t. Para entender el funcionamiento del algoritmo Viterbi se dene
la siguiente cantidad
δt(i) = maxC1,...,Ct−1
P (C1:t−1, O1:t−1, Ct = i|Θ),
cuyo camino es unico C1:t−1 y utiliza la probabilidad mas alta, dada la observacion y los parame-
tros del modelo utilizando recursion hasta el tiempo t − 1, y termina en el estado i con tiempo
t. Similar al algoritmo backwward-forward excepto que este utiliza la suma de los estados ante-
riores, mientras que el algoritmo de Viterbi utiliza la maximizacion. La teorıa de la programacion
dinamica sugiere la siguiente recursion.
δt+1(j) = maxi
[δt(i)aij] bj(Ot+1),
22 2 Modelos Ocultos de Markov
Donde δt(j) se calcula para cada estado oculto j en cualquier momento, y la correspondiente
variable ψt(j) almacena el resultado del nodo entrante que conduce a la ruta mas probable. La
secuencia optima se recupera encontrando el estado que maximiza δT (i), donde T es el ultimo
punto de tiempo, y la secuencia se devuelve hasta este estado para encontrar el camino optimo.
Al incluir las probabilidades de transicion para cada estado dentro de sus calculos, el algoritmo
Vierbi excluye los caminos imposibles. En el algoritmo 4, se resume el agoritmo Viterbi.
Algoritmo 4: El algoritmo Viterbi
Initialization:
ψ1(i) = 0,
δ1(i) = πibi(O1), i = 1, ..., K
Recursion:
for t = 2, ..., T − 1 dofor j = 1, ..., K do
δt(j) = max1≤i≤K
[δt−1(i)aij] bj(Ot)
ψt(j) = arg max1≤i≤K
[δt−1(i)aij]
endend
Termination:
maxC
P (O,C|Θ) = max1≤i≤K
[δT ]
C∗T = arg max1≤i≤K
[δT ]
Backtracking: for t = T − 1, ..., 1 doC∗t = ψt+1(C∗t+1)
end
Result: C∗1:T
2.4 Los tres problemas fundamentales en los HMM 23
2.4.3. Problema 3: Estimacion de los parametros
El ultimo y mas difıcil problema de los HMM es el de la estimacion de parametros. Dada una
secuencia de observacion, queremos encontrar los parametros del modelo Θ = (A,B, π) que
mejor expliquen la secuencia de observacion. El problema se puede reformular para encontrar
los parametros que maximicen la siguiente probabilidad:
argmaxΘ
P (O|Θ)
No se conoce ningun metodo analıtico para elegir a Θ que maximiza P (O|Θ), pero se puede
utilizar un algoritmo de maximizacion local para encontrar la verosimilitud. Este algoritmo se
llama Baum-Welch, que es un caso particular del metodo de Esperanza Maximizacion. Funciona
iterativamente lo cual mejora la verosimilitud de P (O|Θ). Este proceso iterativo se denomina
entrenamiento del modelo. El algoritmo Baum-Welch es numericamente estable ya que la verosi-
militud es no decreciente en cada iteracion. Converge linealmente a un optimo local.
El algoritmo Baum-Welch
Desarrollado originalmente en la decada de 1960, junto con la formulacion de HMM, el algoritmo
de Baum-Welch es una coleccion de algoritmos para estimar los parametros de un HMM. Especı-
camente, itera entre el uso de los algoritmos forward y backward (avance y retroceso) obteniendo
estimaciones para la distribucion posterior de los estados ocultos, y luego utiliza estas estimacio-
nes en el algoritmo EM para actualizar los parametros ocultos de la CM y las distribuciones de
emision.
Para el calculo del algoritmo BW se deben denir unas variables intermedias que se describen
a continuacion. La probabilidad de estar en el estado Ct al momento t, dada una secuencia de
observaciones y un modelo Θ es:
γt(i) = P (Ct|O1:t,Θ), (2-36)
mientras que la probabilidad de estar en el estado Ct en el momento t y de estar en el estado Ct+1
al momento t+ 1, dada una secuencia de observaciones y un modelo Θ es la siguiente
εt(i, j) = P (Ct, Ct+1|O1:t,Θ) (2-37)
Los algortimos forward y backward necesarios para implementar el algoritmo-BW ya se han
descrito anteriormente. Como tal, el algoritmo BW no se describe mas detalladamente aquı, sino
que se resume a continuacion en el algoritmo 5.
Tenga en cuenta que el conjunto de ecuaciones dado en el algoritmo 4 es identico para todas
las mezclas de distribuciones e independiente de la forma de las distribuciones de emision. El
subconjunto de parametros del HMM Θ no mencionados anteriormente, tambien se actualizan en
el paso M. Como se ha mencionado anteriormente, el algoritmo BW es esencialmente el algoritmo
24 2 Modelos Ocultos de Markov
EM para los HMM, por lo tanto se utilizan los nombres indistintamente cuando se analice la
estimacion de los parametros en el HMM, para las secciones restantes.
Algoritmo 5: El algoritmo Baum-Welch
Initialization: Θ0, O1:T
Looping:
for l = 1, . . . , lmax do1. Forward-Backward calculations:
α1(i) = πibi(O1), βT (i) = 1,
αt(i) =[ K∑j=1
αt−1(j)aji
]bj(Ot), βt(i) =
K∑j=1
aijbj(Ot+1)βt+1(j)
for 1 ≤ i ≤ K, 1 ≤ t ≤ T − 1
2. E-step:
γt(i) =αt(i)βt(i)∑Kj=1 αt(j)βt(j)
,
ξt(i, j) =αt(i)aijbj(Ot+1)βt+1(j)∑N
i=1
∑Nj=1 αt(i)aijbj(Ot+1βt(j))
for 1 ≤ i ≤ K, 1 ≤ j ≤ K, 1 ≤ t ≤ T − 1
3. M-step:
πi =γ1(i)∑Kj=1 γ1(j)
, aij =
∑Tt=1 εt(i, j)∑K
k=1
∑Tt=1 εt(i, k)
, wkd =
∑Tt=1 γt(k, d)∑T
t=1
∑Dr=1 γt(k, r)
for 1 ≤ i ≤ K, 1 ≤ j ≤ K, 1 ≤ k ≤ K, 1 ≤ d ≤ D
endResult: Θllmax
l=0
3. PHMM y ZIP-HMM
De acuerdo a lo presentado anteriormente, los HMM nos permiten modelar la dinamica de un
sistema (oculto), no observable de forma directa; sino de forma indirecta mediante la observacion
de eventos externos, que estan correlacionados con dicho sistema y su estado. En las cadenasde Markov, las senales observadas corresponden a los estados del modelo, mientras que en en
los modelos ocultos de Markov no se conoce la secuencia de estados correspondientes el modelo,
sino una funcion probabilıstica de ella. Existen diversas razones por los cuales el sistema no es
accesible de forma directa, como la imposibilidad fısica o la presencia de ruido en la medicion
(Rabiner 1990). De modo que los HMM proporcionan modelos exibles de proposito general para
series de tiempo, incluyendo series categoricas y de conteos.
De forma general denimos un HMM, como un modelo probabilıstico, utilizado para representar
la probabilidad conjunta de un grupo de variables aleatorias (Bilmes et al. 1998). Este grupo de
variables aleatorias corresponde a los posibles eventos o sımbolos observables Ot, que pueden
presentarse al realizar una observacion indirecta del sistema oculto, y al estado en el cual se
encuentra el sistema oculto Ct durante una observacion.
En MacDonald & Zucchini (2009), se proporciona como ejemplo, la serie de conteos anuales de
terremotos mayores (aquellos con magnitud 7 o mayor) en el mundo para los anos 1900-2006. El
autor indica que para la serie terremotos, la aplicacion de modelos estandar como los modelos
auto regresivos de medias moviles (ARMA) serıa inapropiada, ya que dichos modelos se basan en
la distribucion normal. Usualmente el modelo adecuado para series con conteos, es la regresion
Poisson, sin embargo el autor plantea que cuando hay sobredispersion y/o una fuerte dependencia
serial como en el caso de la base terremotos tampoco es apropiado utilizar este modelo. Como
alternativa a este problema surgen los HMM, que permiten que la distribucion de probabilidad de
cada observacion dependa del estado oculto de una cadena de Markov, lo que posibilita modelar
tanto la sobredispersion como la dependencia serial. En este capitulo se introducen dos tipos
particulares de HMM para series de datos con conteos sin y con exceso de ceros. El primero es
el modelo Oculto de Markov - Tipo Poisson o (PHMM) por sus siglas en ingles Poisson HiddenMarkov Model y el modelo Oculto de Markov - Poisson cero inado o (ZIP-HMM), por sus siglas
en ingles Zero Inated Hidden Markov Model.
26 3 PHMM y ZIP-HMM
3.1. Modelo Oculto de Markov - Poisson
Los Poisson HMM son un tipo especial de Modelos Ocultos de Markov (HMMs), cuyo procesos
estocasticos son a tiempo discreto y puede escribirse como la pareja (Ct;Ot)t∈N . Donde Ct es
una cadena de Markov de estado nito no observable y Ott∈N es una secuencia de variables
aleatorias dependientes en Ctt∈N. Donde la distribucion condicional de cada observacion Ot,
dada la secuencia Ct, depende unicamente del proceso actual no observado Ct. Para cada mo-
mento t, la variable Ot dado un estado Ct es una variable aleatoria de Poisson, y se denomina
modelo Oculto de Markov - Poisson. En este caso, Ct determina el parametro λ de la distribu-
cion Poisson utilizado para generar Ot. Asumamos que el proceso no observado Ctt∈N es una
cadena de Markov discreta, homogenea, aperiodica e irreducible en un espacio de estados nitos
S = 1, 2, ., K [ver Grimme & Stirzaker (2001)]; denotamos con aij la probabilidad de transicion
del estado i en el tiempo t−1, al estado j en el tiempo t, i.e. aij = P (Ct = j|Ct−1 = i) (para algun
estado i, j en punto de tiempo t). Sea A = aij, i, j ∈ S la matriz de transicion de probabili-
dades con dimension K ×K , y cumple con la siguiente propiedad
∑j∈S aij = 1. La distribucion
marginal de C1 es la distribucion inicial denotada por π = (π1, ..., πK), con πi = P (C1 = i), para
algun i = 1, 2, ..., K . Ademas
∑i∈S πi = 1 es una consecuencia inmediata del supuesto sobre la
cadena de Markov. Si π es la distribucion estacionaria la igualdad π = πA se cumple; i.e. la parte
izquierda π, es el vector propio de la matrizA, asociada al valor propio 1, la cual siempre existe ya
que A es una matriz estocastica (Guorp & Minin 1995, p. 19). Ahora consideremos la secuencia
observada Ott∈N. En un PHMM, cualquier variable observada Ot condicionada sobre Ct, tiene
distribucion Poisson para cualquier t; cuando Ct se encuentra en el estado i (i ∈ S; t ∈ N), en-
tonces la distribucion condicional de Ot es una variable aleatoria con parametro λi; para algun
o ∈ N, las funcion masa de probabilidad de los estados dependientes esta dada por:
bi(Ot) = P (Ot|Ct = i) = e−λiλOiO!
con λ > 0
Con
∑i bi(Ot) = 1 para cada i ∈ S. Como Ctt∈N es un proceso fuertemente estacionario
tambien el proceso observado Ot lo es. Ademas Ot tiene la misma distribucion marginal para
cada t, que puede verse como una mixtura nita de distribuciones Poisson.
P (Ot) =∑i∈S
P (Ot, Ct = i) =∑i∈S
P (Ot|Ct = i) =∑i∈SC
πibi(ot)
Ademas, puede demostrarse que el valor esperado de Ot, para cada t, viene dado por:
E(Ot) =∑i∈S
πiλi
A diferencia de la distribucion Poisson convencional donde la media es igual a su varianza, en el
PHMM la varianza es mayor que la media, es decir las variables Ot presentan sobre dispersion,
veamoslo a continuacion. Sea V (Ot) = λ′Λλ + π′λ − (π′λ)2 > E(Ot) = π′λ, para algun t, con
λ = (λ1, ..., λK)′ y Λ = diag(π). [ver (MacDonald & Zucchini 2009)]
3.1 Modelo Oculto de Markov - Poisson 27
3.1.1. Estimacion de los parametros
Un PHMM esta compuesto por el siguiente conjunto de parametros: la distribucion estacionaria
inicial π = (π1, ..., πm)′, las probabilidades de transicion aij (i, j ∈ S) y la funcion masa de
probabilidad de Ot, denida como bi(ot) = P (Ot|Ct = i), si la cadena de Markov se encuentra
en el estado i al momento t. Para estimar por maxima verosimilitud los valores de la matriz de
transicion aij con i 6= j, es necesario calcular un total de K2 −K probabilidades de transicion,
pues los elementos por fuera de la diagonal de la matriz A se obtienen por diferencia, ya que
cada la de A suma a uno. aij = 1 −∑
j∈S aij , para algun i 6= j ∈ S y el estimador de maxima
verosimilitud para losm parametros λi de la distribucion Poisson, entrando las probabilidades de
los estados-dependientes bi(Ot). Usando la matriz estimada A, entonces obtenemos el estimador
de la distribucion inicial a partir de π desde la igualdad πA = π (donde π es la distribucion
estacionaria). Sea θ el vector de parametros desconocidos a estimar y Θ el espacio de parametros.
θ = (a12, a13, ...aKK−1, λ1, ..., λK)′
Sea O = (O1, ..., OT )′ un vector con las observaciones i.e. la secuencia de las T realizaciones
del proceso estocastico ott∈N. Sea (C1, ..., CT )′ el vector de estados no observados de la cadena
Ctt∈N; por lo tanto (C1, O1, ..., CT , OT )′ es el vector con los datos completos. La funcion de
verosimilitud de los datos LT (θ) esta denida como la probabilidad conjunta de las T observa-
ciones y los T estados no observados. Aplicando las propiedades, de independencia condicional
y dependencia de Markov se obtiene:
LT (θ) = P (O1, ..., OT ) = πC1b1(O1|C1)T∏t=2
at−1,tP (OT |Ct)
Donde bi(Ot) es la funcion de probabilidad de Ot condicionado sobre la secuencia de estados
Ct (t = 1, ..., T );
bi(Ot) = e−λtλOt
Ot!(3-1)
Para encontrar el estimador de maxima verosimilitud para θ se debe resolver el sistema de ecua-
ciones que contiene los parametros, pero es muy difıcil encontrar analıticamente la solucion,
como alternativa se puede utilizar metodos numericos. El algoritmo EM [ver (Bilmes et al. 1998)],
se basa en un procedimiento iterativo con dos pasos en cada iteracion: el primer paso, paso E,
proporciona el calculo de la Esperanza; El segundo, paso M, proporciona la Maximizacion.
Sea Q(θ; θ)′ la funcion denida en el paso E:
Q(θ; θ)′ = Eθ′(logLT (θ)|O)
para algun vector θ perteneciente al espacio de parametros Θ. En Dempster et al. (1977) se de-
muestra que una condicion suciente para maximizar LT es maximizar Q(θ; θ)′ con respecto a
θ. Sin entrar en detalles, el esquema iterativo del algoritmo EM es el siguiente. Sea θ(k)el vector
estimado obtenido en la k esima iteracion.
28 3 PHMM y ZIP-HMM
θ(k) = (a(k)12 , a
(k)13 , ..., a
(k)KK−1, λ
(k)1 ..., λ
(k)K )′
en la iteracion (k + 1), los pasos E y M son denidos como sigue:
Paso E - dado θ(k), calcular
Q(θ; θ(k)) = Eθ(k)(logLT (θ)|o)
Paso M - encontrar θ(k+1), para que maximice Q(θ; θk), es decir tal que
Q(θ(k+1); θ(k) ≥ Q(θ; θ(k)) para algun θ ∈ Θ.
Los pasos E y M deben repetirse de una manera alterna hasta que la secuencia de valores de la
log-verosimilitud
logLT (θ(k))
converja, es decir, hasta que la diferencia Sea menor o igual que
un de valor de ε arbitrario.
logLT (θ(k+1))− logLT (θ(k))
Cuando se cumplen ciertas condiciones de regularidad en el espacio de parametros Θ y en las fun-
ciones LT (θ) y Q(θ; θ)′ son satisfechas [ver (Wu et al. 1983, pag. 94-96)], se puede decir que, si el
algoritmo converge en la iteracion (k+1) entonces
(θk+1; logLT (θk+1)
)es un punto estacionario
y θ(k+1) = (a(k+1)12 , a
(k+1)13 , ..., a
(k+1)KK−1, λ
(k+1)1 ..., λ
(k+1)K )′ es el estimador de maxima verosimilitud
de los parametros desconocidos θ. En los PHMMs, una condicion suciente para que las condicio-
nes de Wu se mantengan es que los parametros de Poisson λi (i = 1, 2, ..., K) sean estrictamente
positivos. Para HMMs, la supercie de la log-verosimilitud es irregular y se caracteriza por mu-
chos maximos locales o puntos estacionarios; entonces, el punto estacionario al que converge el
algoritmo EM no puede ser el maximo global. Para identicar el maximo global, la eleccion del
punto de referencia es de vital importancia.
Implementando el algoritmo, la busqueda de los estimadores de los parametros desconocidos con
el algoritmo EM puede simplicarse usando las probabilidades forward y backward, introducidas
por Baum et al. (1970). La probabilidad forward, denotada por αi, es la probabilidad conjunta entre
las observaciones (pasadas y presentes) y el estado actual de la cadena:
αt(i) = P (O1 = o1, O2 = o2..., Ct = i)
mientras que las probabilidad backward, denotada por βt(i), es la probabilidad de las observacio-
nes futuras condicionado sobre estado actual de la cadena:
βt(i) = P (Ot+1 = ot+1, ..., OT = oT |Ct = i).
Las probabilidades αt(i) y βt(i) se pueden obtener recursivamente, como se muestra a continua-
cion:
3.1 Modelo Oculto de Markov - Poisson 29
α1(i) = πbi(O1); i = 1, ..., K,
αt(j) =
(∑i∈S
αt−1(i)ai,jbj(Ot)
); j = 1, ..., K
(3-2)
y para las probabilidades backward ver MacDonald & Zucchini (2009, pag. 66-67).
βT (i) = 1; i = 1, ..., K,
βt(i) =∑j∈S
bj(ot+1)βt+1(j)aij; t = T − 1, ..., 1; i = 1, ..., K, (3-3)
Con lo cual se obtiene la siguiente expresion para la funcion Q(θ; θ(k)) para el paso E de la itera-
cion (k + 1), del algoritmo EM
Q(θ; θ(k)
)= Eθ(k)(logLT (θ)|O)
=∑i∈S
α(k)1 (1)β
(k)1 (i)∑
i∈S α(k)t (l)β
(k)t (l)
log πi +∑i∈S
∑j∈S
∑T−1t=1 α
(k)t (i)γ
(k)i,j bj(ot+1)β
(k)t+1(j)∑
t∈S α(k)t (l)β
(k)t (l)
log aij
=∑i∈S
∑Ti=1 α
(k)1 (1)β
(k)1 (i)∑
i∈S α(k)t (l)β
(k)t (l)
log pi(ot)
(3-4)
[ver (Paroli 2002)] donde bi(o(k)t ), α
(k)t y β
(k)t (i) son calculados de acuerdo a las formulas 3-1, 3-2
y 3-3, respectivamente, usando los valores del parametro θ(k)obtenido en la k-esima iteracion;
mientras π(k)es calculado con π(k) = π(k)A(k)
. Note que π, por el supuesto de estacionariedad,
contiene informacion sobre m.t.p. A ya que π =∑
i∈S πaij , para cualquier j ∈ S. Sin embargo,
para T grande, el efecto, de π es despreciable [ver (Basawa & Prakasa Rao 1980, pag. 53-54)]. Por
lo tanto para el paso M de la iteracion (k+1) al obtener θ(k+1), se puede omitir el primer termino
de 3-4 al maximizar Q(θ; θk
)con respecto a los K2 −K parametros aijs.
La expresion para el estimador de maxima verosimilitud de aij obtenidos en la iteracion (k + 1)
del algoritmo EM esta dado por [ver (Paroli 2002)]:
a(k+1)ij =
∑T−1t=1 α
(k)t (i)a
(k)ij bj(ot+1)β
(k)t+1(j)∑T−1
t=1 α(k)t (i)β
(k)t (i)
, (3-5)
para cualquier estado i y cualquier estado j, j 6= i, de la cadena de Markov Ct. El estimador de
maxima verosimilitud de λi obtenido en la iteracion (k + 1) con el algoritmo EM,esta dada por:1
1La formula para λ
(k+1)i se puede obtener facilmente derivando Q(θ; θ(k)) en la ecuacion 3-4 con respecto a λi e
igualando la derivada a 0.
30 3 PHMM y ZIP-HMM
λ(k+1)i =
∑Tt=1 α
(k)t (i)β
(k)t (i)ot∑T
t=1 α(k)t (i)β
(k)t (i)
, (3-6)
para algun estado i de la cadena de Markov Ct. Leroux & Puterman (1992) y Bickel et al. (1998)
probaron que los estimadores en 3-5 y en 3-6 son consistentes y asintoticamente normales.
3.2. Modelo Oculto de Markov - Poisson Cero Inflado
El modelo Poisson inado con ceros (ZIP) es una modicacion del modelo de regresion Poisson
general, donde se observa un exceso de ceros en los datos. Este modelo es utilizado ampliamente
en la practica y se rige por dos procesos. En el primer proceso regido por una distribucion binaria
la salida siempre es cero, en el segundo proceso los conteos se rigen por una distribucion de
Poisson estandar. El ZIP es el mas famoso en esta clase de modelos, originalmente concebido
en el estudio de la calidad de fabricacion Lambert (1992). Los parametros de un modelo ZIP se
estimaron tradicionalmente utilizando diferentes formas de regresion. Mas tarde, los modelos
ZIP se usaron en HMM en diferentes campos donde los datos generalmente representan conteos
(DeSantis & Bandyopadhyay 2011, Olteanu & Ridgway 2012).
En esta tesis, el modelo ZIP utilizado es de la siguiente forma:
P (O = o) = I(o)[0] × w0 +D∑d=1
λojd e−λd
oj!× wd (3-7)
donde wd son los pesos para cada componente y suman uno. En palabras, los modelos ZIP son
mezclas de un componente de Dirach en cero y D componentes de Poisson. La inacion de los
ceros pueden ser demostrados al notar que
P (O) =
w0 +
∑Dd=1 e
−λd · wd O = 0∑Dd=1
λOd e−λd
O!· wd O 6= 0
Por lo tanto, la probabilidad de observar un cero esta inada por w0 el peso en cada componente
de la mixtura de las distribuciones.
Esta mixtura puede ser usada como, distribucion de emision u observacion para los estados ocul-
tos de los HMM denidos en secciones anteriores. Introduciendo como notacion corta tenemos la
siguiente, sea ZIP (K,D) un HMM con distribuciones de emision dadas por la ecuacion 3-7, con
D−1 (componentes Poissons en la mezcla) yK estados. La derivacion completa de las ecuaciones
y cantidades para la estimacion de los parametros, requeridas en el algoritmo BW se muestran
en la siguiente seccion.
3.2 Modelo Oculto de Markov - Poisson Cero Inado 31
3.2.1. Estimacion de los parametros para el algoritmo BW
En el ZIP-HMM, las distribuciones de emision son las siguientes
Pθ(Ot = ot|ct) =D∑d=0
Pθ((ot,mt = d|ct)
=D∑d=0
Pθ(ot|mt = d, ct)Pθ(mt|ct)
=D∑d=0
Pθ(ot|mt = d, ct)× wdk
= I(ot)[0] × w0k +D∑d=1
λojdke−λdk
oj!× wdk.
(3-8)
La funcion auxiliar de Baum se dene a continuacion
Q(θ, θ′) =∑q∈Q
∑m∈M
log(Pθ(o, q, m))Pθ′(q, m|o), (3-9)
donde la evaluacion del lado derecho constituye el paso E del algoritmo y la maximizacion de
la funcion Q con respecto a θ constituye el paso M del algoritmo. Usando la propiedad Markov
de la cadena subyacente y la independencia condicional del HMM, la verosimilitud de los datos
completos se puede escribir en un formato mas conveniente.
P (o, q, m|θ) = Pθ(o1:t, q0:t,m1:t)
= Pθ(ot,mt|o1:t−1, q0:t,m1:t−1)Pθ(o1:t−1, q0:t,m1:t−1)
= Pθ(ot,mt|q0:t)Pθ(o1:t−1, q0:t,m1:t−1)
= Pθ(ot,mt|q0:t)Pθ(qt|o1:t−1, q0:t−1,m1:t−1)Pθ(o1:t−1, q0:t−1,m1:t−1)
= Pθ(ot,mt|qt)Pθ(qt|qt−1)Pθ(o1:t−1, q0:t−1,m1:t−1).
(3-10)
La repeticion de este procedimiento para el ultimo termino y la recopilacion de estos terminos
dan como resultado la siguiente factorizacion de la log verosimilitud de los datos completos.
P (o, q, m|θ) = Pθ(q0)×t∏i=1
Pθ(qi|qi−1)×t∏
j=1
Pθ(oj|mj, qj). (3-11)
Puede ser usado en la funcion Q de Baum de la ecuacion 3-9, lo que produce
∑q∈Q
∑m∈M
[logPθ(q0) +
t∑i=1
logPθ(qi|qi−1) +t∑
j=1
logPθ(oj,mj|qj)
]P ′θ(q, m|o). (3-12)
32 3 PHMM y ZIP-HMM
Los 3 terminos en esta expresion se pueden estudiar por separado. Evaluar la esperanza de estos
3 terminos bajo la distribucion de suavizado P ′θ(q, m, |o) es el paso E del algoritmo. Tenga en
cuenta que solo el tercer termino depende de la forma que tengan las densidades de emision. El
primer termino se puede reescribir marginalizando las variables de la siguiente manera
∑q∈Q
∑m∈M
logPθ(q0)P ′θ(q, m|o) =∑q∈Q
logPθ(q0)∑m∈M
P ′θ(q, m|o)
=K∑k=1
logPθ(q0 = k)Pθ(q0 = k|o)
=K∑k=1
log πk × Pθ′(q0 = k|o).
(3-13)
En el paso E del algoritmo, el segundo factor en el producto anterior se puede evaluar de ma-
nera eciente utilizando el algoritmo Forward-Backward. Por ahora, introducimos la notacion)
γt(k) := P (qt = k|o, θ) y maximizamos esta expresion con respecto a πk, junto con la restriccion
de Lagrange
∑Kk=1 πk = 1, que constituye el paso M del algoritmo.
∂
∂πk
(K∑s=1
γ0(s) log πs + η(K∑j=1
πj − 1)
)= 0, ∀k = 1, ..., K. (3-14)
Resolviendo para cada k se obtienen ecuaciones identicas de la forma γ0(k) = −ηπk. Sumando
esta ecuacion sobre k = 1, ..., K en ambos lados y eliminando la variable de Lagrange η luego se
obtiene
πk =γ0(k)∑Ks=1 γ0(s)
. (3-15)
Esto concluye el paso M para el primer termino en la funcion Q de Baum. Usando el mismo
razonamiento que para el primer termino, las expresiones para el segundo termino se pueden
simplicar al marginalizar las variables de la siguiente manera
∑q∈Q
∑m∈M
t∑i=1
logPθ(qi|qi−1)Pθ′(q, m|o) =∑q∈Q
t∑i=1
logPθ(qi|qi−1)∑m∈M
P ′θ(q, m|o)
=∑q∈Q
t∑i=1
logPθ(qi|qi−1)Pθ′(q|o).(3-16)
Marginalizando las variables e introduciendo la notacion corta ξt(i, j) = Pθ′(qt−1 = i, qt = j|o)y aij = Pθ(qi = r|qi−1 = s) produce
∑q∈Q
t∑i=1
logPθ(qi|qi−1)Pθ′(q|o) =t∑i=1
K∑r=1
K∑s=1
ξi(s, r) log asr. (3-17)
3.2 Modelo Oculto de Markov - Poisson Cero Inado 33
En cuanto al primer termino anterior, ξt(i, j) se puede evaluar de manera eciente utilizando el al-
goritmo de Forward-Backward, maximizando esta ultima expresion con respecto a asr constituye
el paso M y los calculos son similares a los del primer termino.
∂
∂asr
(t∑i=1
K∑r=1
K∑s=1
ξi(s, r) log asr + η(K∑j=1
asj − 1)
). (3-18)
Nuevamente, tomando la derivada ∀s, r = 1, ..., K , lo que genera
t∑i=1
ξi(s, r) = −ηasr. (3-19)
Usando el mismo metodo anterior para eliminar los rendimientos de la variable de Lagrange
asr =
∑ti=1 ξi(s, r)∑K
j=1
∑ti=1 ξi(s, j)
. (3-20)
El primer y segundo termino en la funcion Q de Baum no dependen de la forma de las distribu-
ciones de emision, y por lo tanto, siempre tienen la forma dada en las ecuaciones anteriores. El
tercer termino, sin embargo, depende de la forma de la distribucion de emision, en consecuencia
tambien lo hacen el paso E y el paso M para ello.∑q∈Q
∑m∈M
t∑j=1
logPθ(oj,mj|qj)Pθ′(q, m|o) =t∑
j=1
K∑k=1
D∑d=0
logPθ(oj,mj = d|qj = k)Pθ′(qj = k,mj = d|o).
(3-21)
Separando el componente degenerado de los rendimientos de Poisson.
t∑j=1
K∑k=1
[logPθ(oj,mj = 0|qj = k)× P ′θ(qj = k,mj = 0|o)] . (3-22)
Usando de la denicion de probabilidad condicional para volver a escribir Pθ(oj,mj = d|qj = k)
como Pθ(oj|mj = d, qj = k)Pθ(mj = d|qj = k) e introduciendo la notacion wdk := Pθ(mJ =
d|qj = k) produce, en la expresion anterior,
t∑j=1
K∑k=1
[log(w0k)Pθ′(mj = 0, qj = k|o) +
D∑d=1
log
(λoje−λdk
oj!wdk
)Pθ′(mj = d, qj = k|o)
].
(3-23)
Completar el paso-E requiere evaluar la distribucion de suavizado (o denota todas las observa-
ciones, es decir, es lo mismo que o1:T ) Pθ′(mj, q : j|o) = Pθ′(mj = d|qj = k, o)Pθ′(qj = k|o).
Comenzamos expresando la distribucion conjunta Pθ′(o, mj, qj) de dos maneras diferentes (en
las ecuaciones debajo de o¬j denota todas las observaciones esperadas en el tiempo j)
Pθ′(mj, qj, oj, o¬j) = Pθ′(oj|mj, qj, o¬j)Pθ′(mj, qj, o¬j)
= Pθ′(oj|mj, qj)Pθ′(mj|qj, o¬j)Pθ′(qj, o¬j)= Pθ′(mj|qj, oj, o¬j)Pθ′(qj, oj, o¬j)= Pθ′(mj|qj, oj, o¬j)Pθ′(oj|qj, o¬j)Pθ′(qj, o¬j).
(3-24)
34 3 PHMM y ZIP-HMM
Igualando estas dos expresiones y resolviendo Pθ′(mj|qj, oj, o¬j), producen junto con la propie-
dad de independencia condicional de los HMM,
Pθ′(mj = d|qj = k, o) = Pθ′(mj|qj, oj, o¬j)
=Pθ′(oj|mj, qj)Pθ′(mj|qj, o¬j)Pθ′(qj, o¬j)
Pθ′(oj|qj, o¬j)
=Pθ′(oj|mj, qj)Pθ′(mj|qj)
Pθ′(oj|qj)
=Pθ′(oj|mj, qj)Pθ′(mj|qj)∑D
d=0 Pθ′(oj|mj = d, qj)Pθ′(mj = d|qj).
(3-25)
Al multiplicar esta expresion con Pθ′(mj = 0, qj = k|o) se obtiene la distribucion de suavizado
deseada. La distribucion de suavizado tiene una forma diferente para el componente degenerado
y el componente Poisson. Para el elemento degenerado, mj = 0, la distribucion de suavizado se
proporciona de la siguiente manera
Pθ′(mj = 0, qj = k|o) =
0, oj > 0
w′0γj(k)
w′0k+∑Dd=1 w
′dke−λ′dk
oj = 0,(3-26)
donde′
denota los parametros viejos. Esto se debe a que el componente degenerado no puede
generar observaciones distintas de cero, por lo que la probabilidad es 0 en este caso. Para los
componentes Poisson, es decir, d = 1, ..., D, la distribucion de suavizado es la siguiente
P ′θ(mj = d, qj = k|o) =
w′ikλ
′ojik e
−λ′ik/oj !∑Dd=1 w
′dkλ′ojdk e
−λ′dk/oj !γj(k), oj > 0
w′ike−λik
w′0k+∑Dd=1 w
′dke−λ′dk
γj(k), oj = 0, (3-27)
El uso de estas dos expresiones en el tercer termino en la funcion Q de Baum completa el paso E
del algoritmo de Baum-Welch y produce la expresion completa
t∑j=1oj=0
K∑k=1
[logw0k
w0k
w′0k +∑D
d=1 w′dke−λ′dk
γj(k) +D∑d=1
(log(dk−λdk))w′dke
−λ′dk
w′0k +∑D
d=1w′dke−λ′dk
γj(k)
]+
t∑j=1oj>0
K∑k=1
D∑d=1
(log(wdk) + oj log λdk − λdk − log oj!)w′dkλ
ojdke−λdk∑D
r=1 w′rkλ
ojrke−λrk
γj(k), (3-28)
Para mejorar la legibilidad, se introduce la siguiente notacion abreviada
Aj(k) =w′0k
w′0k +∑D
d=1w′dke−λ′dk
γj(k), (3-29)
Bj(k, d) =ww′dke
−λ′dk
w′0k +∑D
d=1w′dke−λ′dk
γj(k), (3-30)
Cj(k, d) =w′dkλ
ojdke−λdk∑D
r=1w′rkλ′rkλ
ojrke−λrk
γj(k), (3-31)
3.2 Modelo Oculto de Markov - Poisson Cero Inado 35
para k = 1, ..., K y d = 1, ..., D, dando la expresion nal para el paso E
t∑j=1oj=0
K∑k=1
[logw0k · Aj(k) +
D∑d=1
(logwdk − λdk) ·Bj(k, d)
]+
t∑j=1oj>0
K∑k=1
D∑d=1
(logwwdk + oj · log λdk − λdk − log oj!) · Cj(k, d).
En el paso M del algoritmo, esta expresion se maximiza con respecto a w0k y wdk, y λdk para
d = 1, ..., D y k = 1, ..., K . Comenzando con los wdk′s, y junto con la restriccion de Lagrange∑D
d=0wdk = 1, tomamos la derivada con respecto a los rendimientos de wdk
∂
∂wdk= · · · =
t∑j=1oj>0
1
wdk·Bj(k, d) +
t∑j=1oj>0
1
wdk· Cj(k, d) + η (3-32)
Igualando esta expresion a 0 y resolviendo para wdk se tiene que
t∑j=1oj>0
Bj(k, d) +t∑
j=1oj>0
Cj(k, d) = ηwdk, (3-33)
para d = 1, ..., D y k = 1, ..., K . Similarmente para w0k, obtenemos
t∑j=1oj>0
Aj(k) = −ηw0k. (3-34)
Al combinar estas dos expresiones, la variable de Lagrange η se puede eliminar y obtenemos las
siguientes expresiones
w0k =
∑tj=1oj>0
Aj(k)∑tj=1oj=0
[Aj(k) +
∑Dr=1Bj(k, r)
]+∑D
r=1
∑tj=1oj>0
Cj(k, r)(3-35)
wdk =
∑tj=1oj=0
Bj(k, d) +∑t
j=1oj>0
Cj(k, d)∑tj=1oj=0
[Aj(k) +
∑Dr=1Bj(k, r)
]+∑D
r=1
∑tj=1oj>0
Cj(k, r), d = 1, ..., D, (3-36)
Del mismo modo, podemos despejar los λdk‘s. (Resolvamos los λdk‘s sin la restriccion de que
todos deben ser mayores que cero. Resulta que la desigualdad se satisface incluso sin incluir la
restriccion).
∂
∂λdk= · · · =
t∑j=1oj=0
Bj(k, d) +t∑
j=1oj>0
(ojλdk− 1
)Cj(k, d), (3-37)
36 3 PHMM y ZIP-HMM
Igualando esto a 0 y resolviendo los λdk‘s se obtiene
λdk =
∑tj=1oj>0
oj · Cj(k, d)∑tj=1oj=0
Bj(k, d) +∑t
j=1oj>0
Cj(k, d)(3-38)
Tenga en cuenta que en la ecuacion 3-38 todos los oj > 0 y Bj(k, d), Cj(k, d) > 0,∀(k, d), se
deduce que los λdk cumplen con la restriccion de λdk > 0.
3.3. Seleccion y verificacion de los HMM
En los HMM basicos con K estados, el aumento de K siempre mejora el ajuste del modelo, si
juzgamos con el valor de la verosimilitud. Pero junto con la mejora viene un aumento cuadratico
en el numero de parametros, por lo que la mejora en el ajuste tendrıa que ser compensada por
este aumento. Ası que, se necesita un criterio para la seleccion del modelo. En algunos casos,
es sensato reducir el numero de parametros haciendo suposiciones en las distribuciones estado-
dependiente o en la m.t.p. de la cadena de Markov. Sin embargo no siempre aumenta el numero
de parametros con el aumento de K , [ver (MacDonald & Zucchini 2009, capitulo 20)], donde se
observan modelos de volatilidad estocastica con espacio de estado discretos que son HMM de
Kestados con solo tres o cuatro parametros. Existen diferentes medidas de bondad de ajuste,
para la comparacion de modelos estadısticos y la seleccion del mas apropiado. En esta seccion, se
describe la seleccion de los modelos Ocultos de Markov, bajo el criterio de informacion de Akaike
(AIC) y el criterio de informacion Bayesiano (BIC), ademas se describe el uso de pseudo-residuos
para vericar los supuestos y posibles deciencias en el modelo seleccionado.
3.3.1. Seleccion de modelos mediante criterios de informacion
Un problema que surge naturalmente cuando se usan modelos ocultos de Markov o de otro tipo
es el de seleccionar un modelo apropiado, por ejemplo elegir el numero apropiado de estados K ,
a veces descrito como el “orden”del HMM, o de elegir competentemente la distribucion de los es-
tados dependientes, tal como la Poisson o binomial negativa. Aunque la cuestion de la estimacion
del orden para un HMM no es ni trivial ni resuelta ver (Cappe et al. 2005, Capitulo 15), necesita-
mos algun criterio para la comparacion de modelos.
El material que se describe a continuacion se basa en Zucchini (2000), que ofrece una descripcion
introductoria de la seleccion del modelo. Celeux & Durand (2008) presentan y discuten varias
tecnicas de seleccion de modelos para elegir el numero de estados en un HMM. Supongamos que
las observaciones o1, ..., oT fueron generados por el modelo ’verdadero’ desconocido f , y ese mo-
delo se ajusta a dos familias aproximadas diferentes, g1 ∈ G1 y g2 ∈ G2. El objetivo de la
seleccion del modelo es identicar el modelo, que en cierto sentido es el mejor.
Describimos los dos enfoques mas populares para la seleccion de modelos. En el enfoque frecuen-
tista, se selecciona la familia que se estima mas cercana al modelo operativo. Para ese proposito,
3.3 Seleccion y vericacion de los HMM 37
se dene una discrepancia (una medida de ’falta de ajuste’) entre los modelos operativos y ajusta-
dos, ∆(f ; g1) y ∆(f ; g2). Estas discrepancias dependen del modelo operativo f , que se desconoce,
por lo que no es posible determinar cual de las dos discrepancias es menor, es decir, que modelo
debe seleccionarse.
En su lugar, se basa la seleccion en estimadores de las discrepancias esperadas, esto es, Ef (∆(f, g1))
y Ef (∆(f, g2)), que se conocen como criterios de seleccion del modelo. Al elegir la discrepan-
cia de Kullback-Leibler y en las condiciones enumeradas en el Apendice A de Linhart & Zucchini
(1986), el criterio de seleccion del modelo se simplica al criterio de informacion de Akaike (AIC):
AIC = −2 logL+ 2p,
donde logL es la log verosimilitud del modelo ajustado y p denota el numero de parametros del
modelo. El primer termino es una medida de ajuste y disminuye al aumentar el numero de estados
K . El segundo termino es un termino de penalizacion, y aumenta con el aumento de K .
El enfoque bayesiano para la seleccion de modelos es seleccionar la familia estimada que sea
mas probable. En un primer paso, antes de considerar las observaciones, se especican los an-
tecedentes, que son las probabilidades P (f ∈ G1) y P (f ∈ G2) donde f proviene de la familia
aproximada. En un segundo paso, se calcula y compara los posteriores, que son las probabili-
dades de que f pertenezca a la familia aproximada, dadas las observaciones, P (f ∈ G1|o(T )) y
P (f ∈ G2|o(T )). Bajo ciertas condiciones (ver, por ejemplo (Wasserman 2000)), este enfoque da
como resultado el criterio de informacion Bayesiano (BIC) que diere de AIC en el termino que
penaliza:
BIC = −2 logL+ p log T,
donde logL y p son los mismos que en el AIC, y T es el numero de observaciones. En comparacion
con el AIC, el termino de penalizacion del BIC tiene mas peso para T > ε2, cumpliendose en la
mayorıa de las aplicaciones. Es por esta razon que a menudo el BIC sugiere modelos con menos
parametros que el AIC.
3.3.2. Comprobacion del modelo con pseudo-residuales
Incluso cuando se ha seleccionado el “mejor”modelo, segun algun criterio, sigue existiendo el pro-
blema de decidir si el modelo es realmente adecuado. Para evaluar la bondad general del ajuste
del modelo se necesitan herramientas, que identiquen valores atıpicos relacionados con el mo-
delo. Miremos un ejemplo en el contexto mas simple, para los modelos de regresion bajo la teorıa
normal, el papel de los residuos como herramienta para la vericacion de modelos esta muy bien
establecido. En esta seccion se describen los pseudo-residuales, tambien conocidos como residuos
cuantılicos que tienen la intencion de cumplir esta funcion de manera mucho mas general, y que
son utiles en el contexto de los HMM. Consideramos dos versiones de estos pseudo-residuos (en
las Secciones 3.3.4 y 3.3.5); ambos dependen de la capacidad de calcular la verosimilitud de forma
rutinaria, lo que ciertamente es el caso de los HMM. Stadie (2002) proporciona una descripcion
38 3 PHMM y ZIP-HMM
detallada, en aleman, de la construccion y aplicacion de los pseudo-residuos. Ver tambien Mac-
Donald & Zucchini (2009).
3.3.3. Introduccion a los pseudo-residuales
Como introduccion a los pseudo residuales, es necesario el siguiente resultado. SeaX una variable
aleatoria con funcion de distribucion continua F . Entonces U ≡ F (X) se distribuye uniforme-
mente en el intervalo unitario, que escribimos como:
U ∼ U(0, 1).
El pseudo-residual uniforme de una observacion xt de una variable aleatoria continua Xt se
dene como la probabilidad, bajo el modelo ajustado, de obtener una observacion menor o igual
a xt:
ut = Pr(Xt ≤ xt) = FXt(xt).
Es decir, ut es la observacion xt transformada por su funcion de distribucion bajo el modelo. Si el
modelo es correcto, este tipo de pseudo-residual se distribuye U(0, 1), con residuos para observa-
ciones extremas cercanas a 0 o 1. Con la ayuda de estos pseudo-residuales uniformes, se pueden
comparar observaciones de diferentes distribuciones. Si tenemos observaciones x1, ..., xT y un
modeloXt ∼ Ft, para t = 1, ..., T (es decir, cada xt tiene su propia funcion de distribucionFt), en-
tonces los valores de xt no se pueden comparar directamente. Sin embargo, los pseudo-residuales
ut son identicamente U(0, 1) (si el modelo es verdadero), y se pueden comparar sensiblemente.
Si un histograma o graco de cuantil cuantil (‘qq-plot ’) de los pseudo-residuales uniformes utarroja dudas sobre la conclusion de que son U(0, 1), se puede deducir que el modelo no es valido.
Aunque el pseudo-residuo uniforme es util de esta manera, tiene un inconveniente si se usa para
la identicacion de valores atıpicos. Por ejemplo, si uno considera que los valores se encuentran
cerca de 0 o 1 en un graco de residuales, es difıcil ver si un valor es muy improbable o no. Un
valor de 0.999, por ejemplo, es difıcil de distinguir de un valor de 0.97, y por lo tanto el graco de
residuales no es una herramienta util para detectar valores atıpicos.
3.3 Seleccion y vericacion de los HMM 39
Figura 3-1.: Construccion de pseudo-residuos normales en el caso continuo. Fuente: (MacDonald
& Zucchini 2009), donde Xt es una variable aleatoria discreta.
A pesar de esta deciencia del pseudo-residual uniforme, puede solucionarse utilizando el si-
guiente resultado. Sea Φ la funcion de distribucion de la distribucion normal estandar y X una
variable aleatoria con la funcion de distribucion F . Entonces, Z ≡ Φ−1(F (X)) se distribuye
como una normal estandar. Ahora denimos el pseudo-residual normal como
Zt = Φ−1(ut) = Φ−1(FXt(xt)).
Si el modelo ajustado es valido, estos pseudo-residuales normales tienen distribucion normal
estandar, cuando el valor del residual es igual a 0 la observacion coincide con la mediana. Tenga
en cuenta, que por su denicion, los pseudo-residuos normales miden la desviacion de la mediana
y no de la esperanza. La construccion de pseudo-residuos normales se ilustra en la Figura 3-1.
Si las observaciones x1, ..., xT de hecho fueron generados por el modelo Xt ∼ Ft, los pseudo-
residuos normales zt seguirıan una distribucion normal estandar. Por lo tanto, se puede vericar
40 3 PHMM y ZIP-HMM
el modelo analizando visualmente el histograma o qq-plot de los pseudo-residuales normales, o
realizando pruebas de normalidad.
Esta version normal de los pseudo-residuos tiene la ventaja de que el valor absoluto del residual
aumenta al aumentar la desviacion de la mediana y las observaciones extremas se pueden iden-
ticar mas facilmente en una escala normal. Esto resulta obvio si se comparan los gracos de
residuales, para los pseudo-residuos uniformes y normales.
Tenga en cuenta que la teorıa de los pseudo residuales como se describe hasta ahora se puede
aplicar solo a distribuciones continuas. Sin embargo en el caso de observaciones discretas, los
pseudo-residuales, pueden modicarse para ser discretizados. Los pseudo-residuos ya no se de-
nen como puntos, sino como intervalos. Por lo tanto, para una variable aleatoria discreta Xt con
funcion de distribucion FXt , se denen los segmentos pseudo-residuales uniformes como[u−t ;u+
t
]=[FXt(x
−t );FXt(xt)
](3-39)
con x−t denota la mayor realizacion posible que es estrictamente menor que xt, y denimos los
segmentos pseudo-residuales normales como[z−t ; z+
t
]=[Φ−1(u−t ); Φ−1(u+
t )]
=[Φ−1(FXt(x
−t )); Φ−1(FXt(xt))
]. (3-40)
La construccion del segmento pseudo-residual normal de una variable aleatoria discreta se ilustra
en la Figura 3-2.
Ambas versiones de segmentos pseudo-residuales (uniforme y normal) contienen informacion
sobre que tan extremas y raras son las observaciones, aunque la version uniforme representa la
rareza o, de lo contrario, mas directamente, ya que la longitud del segmento es la probabilidad
correspondiente.
Por ejemplo, el lımite inferior u−t del intervalo pseudo-residual uniforme especica la probabi-
lidad de observar un valor estrictamente menor que xt, 1 − u+t da la probabilidad de un valor
estrictamente mayor que xt, y la diferencia u+t − u−t es igual a la probabilidad de la observacion
xt bajo el modelo ajustado. Los segmentos pseudo-residuales pueden interpretarse como realiza-
ciones censuradas por intervalos de una distribucion uniforme (o normal estandar), si el modelo
ajustado es valido. Aunque esto es correcto solo si se conocen los parametros del modelo ajus-
tado, todavıa es aproximadamente correcto si el numero de parametros estimados es pequeno
en comparacion con el tamano de la muestra (Stadie 2002). Las gracas de diagnostico para los
segmentos de pseudo-residuales de variables aleatorias discretas necesariamente se ven bastante
diferentes en comparacion con el de las de variables aleatorias continuas.
Es facil construir un graco de ındice de segmentos pseudo-residuales o gracarlos contra cual-
quier variable independiente o dependiente. Sin embargo, para construir una graco-qq de los
segmentos pseudo-residuales se tiene que especicar un orden de los segmentos pseudo-residuales.
Una posibilidad es clasicar en los denominados ‘pseudo-residuos intermedios’, que se denen
como
zmt = Φ−1
(u−t + u+
t
2
)(3-41)
3.3 Seleccion y vericacion de los HMM 41
Figura 3-2.: Construccion de pseudo-residuos normales en el caso discreto. Fuente (MacDonald
& Zucchini 2009)
Ademas, los pseudo-residuos intermedios se pueden utilizar para vericar la normalidad, por
ejemplo, a traves de un histograma de pseudo-residuos medios. Pero no podemos armar nada
mas que la normalidad aproximada para tales pseudo-residuos intermedios.
Ahora, habiendo esbozado las propiedades de los pseudo-residuales, podemos considerar el uso
de pseudo-residuales en el contexto de HMM. El analisis de los seudo residuales de un HMM sirve
para dos propositos: la evaluacion del ajuste general de un modelo seleccionado y la deteccion de
valores atıpicos. Dependiendo de los aspectos del modelo que se analizaran, se pueden distinguir
dos tipos de pseudo-residuos que son utiles para un HMM: aquellos que se basan en la distribucion
condicional dadas todas las demas observaciones, que llamamos pseudo-residuos ordinarios,
y aquellos basados en la distribucion condicional dadas todas las observaciones anteriores, que
llamamos pseudo-residuos de pronostico.
Los pseudo-residuos de un conjunto de observaciones estan (aproximadamente) distribuidos de
manera identica, ya sea U(0, 1) o normal estandar, esta propiedad es crucial. Pero para nuestros
propositos no es importante si tales pseudo residuales son independientes entre sı; de hecho,
como se ve en la Seccion (MacDonald & Zucchini 2009, seccion 6.3.2) serıa erroneo asumir que
los pseudo-residuos ordinarios son independientes.
Tenga en cuenta que Dunn & Smyth (1996) discuten (con el nombre de “residuales cuantılicos”)
lo que hemos llamado pseudo-residuos normales, y senalan que son un caso particular de los
residuos de Cox-Snell (Cox & Snell 1968).
3.3.4. Pseudo-residuales Ordinarios
La primera tecnica considera las observaciones una por una y busca aquellas que, en relacion con
el modelo y todas las demas observaciones de la serie, son lo sucientemente extremas para suge-
42 3 PHMM y ZIP-HMM
rir que dieren en naturaleza u origen de las otras. Esto signica el calculo de un pseudo-residual
zt a partir de la distribucion condicional de Xt, dado X¬t: una “distribucion condicional com-
pleta”, en la terminologıa utilizada en la cadena de Markov de Monte Carlo. Para observaciones
continuas el pseudo-residual normal es
Zt = φ−1 (P (Xt ≤ xt|X¬t = X¬t)) .
Si el modelo es correcto, zt es una realizacion de una variable aleatoria normal estandar. Para
observaciones discretas, el segmento pseudo-residual normal es
[z−t ; z+
t
], donde
z−t = φ−1 (P (Xt < xt|X¬t = X¬t))
y
z+t = φ−1 (P (Xt ≤ xt|X¬t = X¬t)) .
En el caso discreto, las probabilidades condicionales P (Xt = x|X¬t = X¬t) estan dadas por la
distribucion condicional
3.3.5. Pesudo-residuales de pronostico
La segunda tecnica para la deteccion de valores atıpicos busca observaciones extremas en relacion
con el modelo y todas las observaciones anteriores (en oposicion a todas las demas observaciones).
En este caso, la distribucion condicional relevante es la de Xt dada X¬t−1. Los correspondientes
pseudo-residuos (normales) son
zt = φ−1 (P (Xt ≤ xt|X¬t−1 = X¬t−1)
para observaciones continuas; y
[z−t ; z+
t
]para el caso discreto, donde
z−t = φ−1 (P (Xt < xt|X¬t−1 = X¬t−1))
y
z+t = φ−1 (P (Xt ≤ xt|X¬t = X¬t−1)) .
En el caso discreto, la probabilidad condicional requerida P (Xt = xt|X¬t−1 = X¬t) viene dada
por la relacion de la verosimilitud de las primeras t observaciones con la de la primera t− 1:
P (Xt = x|X¬t−1 = X¬t) =αt−1AP (x)1′
αt−11′
Los pseudo residuales de este segundo tipo se describen como pseudo residuales de pronostico
porque miden la desviacion de una observacion con respecto a la mediana del pronostico corres-
pondiente un paso adelante. Si un pseudo-residual de pronostico es extremo, esto indica que la
observacion en cuestion es un valor atıpico, o que el modelo ya no proporciona una descripcion
3.3 Seleccion y vericacion de los HMM 43
aceptable de la serie. Esto proporciona un metodo para el monitoreo continuo del comportamien-
to de una serie de tiempo. Un ejemplo de dicho monitoreo se puede ver en (MacDonald & Zucchini
2009, seccion 22.4).
La idea del pseudo-residual de pronostico aparece como ‘residual cuantil condicional’- en Dunn &
Smyth (1996); en el ultimo parrafo de la p. 243 senalan que los residuos de cuantiles que describen
pueden extenderse a datos dependientes de la serie. Sin embargo, la idea basica de los pseudo-
residuos de pronostico (uniformes) se remonta a Rosenbla (1952). Tanto Brockwell (2007) como
Rosenbla describen una forma de extender lo que llamamos pseudo-residuos de pronostico para
distribuciones que no sean continuas. En lugar de usar un segmento de longitud positiva para
representar el residual si las observaciones no son continuas, eligen un punto distribuido unifor-
memente en ese segmento. El uso de un segmento de longitud positiva tiene la ventaja, de mostrar
explıcitamente la discrecion de la observacion e indicar tanto su extremidad como su rareza.
4. Metodos Bayesianos para los HMM
En capıtulos pasados se vio que uno de los problemas mas grandes de los HMM es estimar la
verosimilitud, sin embargo Leroux & Puterman (1992), en un artıculo importante se establecio las
propiedades asintoticas de los HMM por lo que en muestras pequenas podrıa haber perturbacio-
nes y las estimaciones no serıan validas. Otro inconveniente que presentan los HMM es cuando
no se cumplen los supuestos del modelo como se vio en la ultima seccion del capitulo pasado
los pseudo residuales determinan si un modelo es o no valido. Es ası que surgen metodologıas
alternativas al enfoque frecuentista; ver, por ejemplo, Chib (1996) y Cappe et al. (2005) donde se
propone utilizar metodos MCMC como el muestreador de Gibbs para estimar los parametros. Este
capitulo tiene el proposito de dar una pequena introduccion a la estadıstica bayesiana, ilustrando
algunos de los metodos que permiten estimar los parametros del PHMM y ZIP HMM. Finalmente
se indica como seleccionar el modelo mas apropiado segun el numero de estados, utilizando el
factor de bayes.
4.1. Estadıstica Bayesiana
La estadıstica bayesiana se ha ido volviendo cada vez mas popular; actualmente es utilizada en
campos diferentes como la psicologıa, medicina, biologia y bioinformatica ((Mulder & Wagenma-
kers 2016); (Nikovski 2000); (Wilkinson 2007)). El enfoque bayesiano es conceptualmente simple,
teoricamente coherente y se aplica facilmente a problemas relativamente complejos. Estos pro-
blemas incluyen, por ejemplo, modelos jerarquicos ((Chaari et al. 2010) o (Glassen & Nitsch 2016))
o la comparacion de modelos no anidados (Pi et al. 2002). Las tres principales aplicaciones de la
estadısticas bayesianas son la estimacion de parametros, la comparacion de modelos y el prome-
dio bayesiano de modelos (Bayesian Model Averaging, BMA). En las tres areas, la verosimilitud
marginal tiene un papel importante, que en palabras es la verosimilitud de los datos observados
dado el modelo de interes.
Para la estimacion de parametros, consideramos un modelo unico en el cual se pretende cuanti-
car la incertidumbre para un parametro de interes θ despues de haber observado los datos y. Esto
se realiza por medio de una distribucion a posteriori que puede obtenerse usando el teorema de
Bayes:
p(θ|y) =p(y|θ)p(θ)∫p(y|θ′)p(θ′)dθ′
=
verosimilitud︷ ︸︸ ︷p(y|θ)
prior︷︸︸︷p(θ)︷︸︸︷
p(y)verosimilitud marginal
(4-1)
4.1 Estadıstica Bayesiana 45
Aquı, la verosimilitud marginal de los datos p(y) garantiza que la distribucion a posteriori sea
una funcion de densidad de probabilidad adecuada (PDF) en el sentido de que integra 1. Esto se
ilustra por que, en la estimacion de los parametros, la verosimilitud marginal se conoce como una
constante de normalizacion.
Segundo, en la comparacion de modelos, consideramos m (m ∈ N) modelos posibles. Estamos
interesados en la plausibilidad relativa de un modelo particular Mi (i ∈ 1, 2, ...,m) dada la
probabilidad del modelo a priori y la evidencia de los datos y (ver Mulder & Wagenmakers (2016)
y Lee (2008)). Esta plausibilidad relativa se cuantica por la denominada probabilidad a posteriori
del modelo p(Mi|y) para un modeloMi dados los datos y (Berger & Molina 2005):
p(Mi|y) =p(y|Mi)p(Mi)∑mj=1 p(y|Mj)p(Mj)
(4-2)
donde el denominador es la suma de la probabilidad marginal por la probabilidad del modelo a
priori de todos los m modelos. En la comparacion de modelos, la verosimilitud marginal de un
modelo especıco tambien se conoce como la evidencia del modelo (Didelot et al. 2011), la vero-
similitud integrada (Kass & Raery 1995), la verosimilitud predictiva del modelo (Gamerman &
Lopes 2006, cap. 7), la verosimilitud predictiva de los datos (Kass & Raery 1995). Tenga en cuenta
que, conceptualmente, la probabilidad marginal en 4-3 es la misma que la probabilidad marginal
de la ecuacion 4-2. Sin embargo, para la ultima ecuacion eliminamos el ındice del modelo porque
en la estimacion de los parametros solo consideramos un modelo.
Si solo se consideran dos modelosM1 yM2, se puede usar la ecuacion 4-3 para cuanticar la
plausibilidad relativa a posteriori del modeloM1 en comparacion con el modeloM2. Esta plau-
sibilidad relativa viene dada por la relacion de las probabilidades a posterioris de ambos modelos,
y se conoce como el odds posterior:
p(M1|y)
p(M2|y)︸ ︷︷ ︸odds posterior
=p(M1)
p(M2)︸ ︷︷ ︸odds prior
× p(y|M1)
p(y|M2)︸ ︷︷ ︸factor de Bayes
(4-3)
La ecuacion 4-3 ilustra que el odds posterior entre dos modelos es el producto de dos factores: El
primer factor es el odds prior de ambos modelos, es decir las a prioris de cada uno de los modelos.
El segundo factor es la relacion de las verosimilitudes marginales de ambos modelos: llamado
factor de Bayes (Jereys 1961).
El factor de Bayes desempena un papel importante en la comparacion de modelos y se conoce
como la “solucion bayesiana estandar para las pruebas de hipotesis y los problemas de seleccion
de modelos”(Lewis & Raery 1997, pag. 648) y “la herramienta principal utilizada en la inferencia
bayesiana para prueba de hipotesis y seleccion de modelos” (Berger & Molina 2005, pag. 378).
En tercer lugar, la verosimilitud marginal juega un papel importante en el promedio bayesiano
de modelos (BMA); (Hoeting et al. 1999) donde se combinan los aspectos de la estimacion de
parametros y la comparacion de modelos. Como en la comparacion de modelos, BMA considera
varios modelos; sin embargo, no pretende identicar un mejor modelo. En su lugar, reconoce ple-
namente la incertidumbre del modelo. La inferencia de parametros para el promedio de modelos
46 4 Metodos Bayesianos para los HMM
depende exclusivamente de la verosimilitud marginal de los modelos, ya que se pueden obtener
combinando, en todos los modelos la distribucion a posteriori del parametro de interes pondera-
da por la probabilidad a posteriori de cada modelo. Este procedimiento asume que el parametro
de interes tiene una interpretacion identica en los diferentes modelos. Las predicciones para el
promedio de modelos se pueden obtener de una manera similar.
Hay una dicultad presente en las tres areas (estimacion de parametros, comparacion de modelos
y BMA) es que se puede obtener una expresion analıtica de la verosimilitud marginal solo pa-
ra ciertos ejemplos restringidos. Este es un problema considerable en el modelo bayesiano, y en
particular en modelos de alta dimension, donde los modelos pueden ser no lineales y contener
una gran cantidad de parametros, especialmente cuando los modelos son del tipo jerarquico. El
termino modelo jerarquico por lo general se reserva para los modelos con tres o mas niveles de
las variables aleatorias, en otras ocasiones, se reserva para los modelos con variables latentes, se
pueden encontrar ejemplos de estos en Chaari et al. (2010) y Glassen & Nitsch (2016). Por ejem-
plo, considere un modelo jerarquico bayesiano de cuatro parametros con cuatro distribuciones a
nivel de grupo, cada una caracterizada por dos parametros y un tamano de grupo de 30 partici-
pantes; esto da como resultado 30× 4 parametros de nivel individual y 2× 4 parametros de nivel
de grupo para un total de 128 parametros. En resumen, incluso los modelos simples se vuelven
rapidamente complejos una vez se introducen niveles jerarquicos y esto diculta la derivacion de
la verosimilitud marginal.
Para superar este problema, se han propuesto varios metodos de muestreo de Monte Carlo que
aproximan la verosimilitud marginal. Entre los estimadores de uso comun se encuentran el esti-
mador de muestreo por puente (Chen et al. 2012, cap. 5), (Meng & Hung Wong 1996), el estimador
de ingenuo (naive) de Monte Carlo, el estimador de muestreo por importancia y el estimador de la
media armonica generalizada. Para ver la descripcion detallada de estos metodos revise el tutorial
de Gronau et al. (2017) donde se ilustra una comparacion entre estos metodos y se determina que
uno de los mejores estimadores es el obtenido utilizando muestreo por puente (bridge sampler),
ya que es preciso, eciente y relativamente sencillo de implementar.
A continuacion se introduce uno de los metodos mas comunes utilizados para estimar parametros
desde el enfoque bayesiano, haciendo enfasis en los HMM. Presentamos el muestreador de Gibbs,
que recibe su nombre del fısico Willard Gibbs en referencia a sus trabajos en fısica estadıstica, al-
rededor de ochenta anos despues de la muerte los hermanos Stuart y Donald Geman, se encargan
de realizar la descripcion de este metodo, que a grandes rasgos consiste en generar una muestra
aleatoria a partir de la distribucion de probabilidad conjunta de dos o mas variables aleatorias. Se
trata de un caso especial del algoritmo de Metropolis-Hastings y, por lo tanto es un MCMC.
4.2 Muestreador de Gibbs 47
4.2. Muestreador de Gibbs
Esta seccion es tomada del libro de (MacDonald & Zucchini 2009, cap. 7) donde el objetivo es
estimar la distribucion a posteriori de estos parametros mediante el muestreador de Gibbs. Sea
Ot un Poisson-HMM con K estados, y dada una secuencia de observaciones o1, o2, ..., oT , con
K jo y cadena de Markov subyacente Ct. Con vector de medias (estado-dependientes) λ =
(λ1, ..., λK) y m.t.p. A y distribuciones a priori sobre los parametros λ y A. Note que por ahora
se asume que el numero de estados K es conocido, mas adelante se descarta este supuesto de
manera que se considera la estimacion bayesiana del mismo.
Se postulan las siguientes a prioris de forma que las distribuciones para los parametros son de la
siguiente manera. Para la r-esima laAr de la m.t.p.A, postulamos la distribucion Dirichlet con el
vector de parametros νr dado que la m.t.p. es estocastica implica que la suma de los componentes
de la la es 1. Para el vector de medias λ, se reescriben en forma incrementos independientes
τj = λj − λj−1 (con λ0 ≡ 0), dada la restriccion λj > 0 se postulan distribuciones gamma
con parametros aj y bj (forma, tasa). Ademas, las distribuciones a priori para las las de A y las
cantidades τj se suponen mutuamente independientes.
Sea Y1, ...YK un conjunto de variables aleatorias se dice que tienen distribucion Dirichlet con
vector de parametros (ν1, ..., νm) si su distribucion conjunta es proporcional a
yν1−11 yν2−1
2 · · · yνK−1K .
Con yK = 1−∑K−1
i=1 yi, y densidad conjunta de Y1, ..., YK−1 en la unidad sımplex1
en dimension
K − 1, es decir, en el subespacio de R denido por
∑K−1i=1 yi ≤ 1, yi ≥ 0. Una variable aleatoria
X se dice que tiene una distribucion gamma con parametro de forma a y parametro de tasa b si
su funcion de densidad es (para x positivo)
f(x) =ba
Γ(a)xa−1e−bx.
Con esta parametrizacionX tiene media a/b, varianza a/b2y coeciente de variacion (c.v.) 1/
√a.
Si fuera posible observar la cadena de Markov, la actualizacion de las probabilidades de transicion
para A serıa sencilla. Sin embargo, en este caso se deben generar muestras de las trayectorias en
la cadena de Markov, en cada paso para ir actualizando los valores de A.
Cada conteo observado ot se considera como la suma
∑j ojt de las contribuciones de hasta K
regımenes, siendo la contribucion de j regimenes hasta ot es ojt. Considerando que, la cadena de
Markov esta en el estado i en un momento dado, entonces se dice que los regımenes 1, ..., i se
encuentran activos en ese momento, y los regımenes i+ 1, ..., K estan inactivos.
En lugar de parametrizar el modelo en terminos de las K medias de los estados-dependientes
λi, lo parametrizamos en terminos de los incrementos no negativos τ = (τ1, ..., τm), donde τj =
1Para mas detalles de la denicion de simplex, revise las deniciones matematicas que se encuentran en los campos
de la geometrıa y topologıa.
48 4 Metodos Bayesianos para los HMM
λj − λj−1 (con λ0 ≡ 0); o de forma equivalentemente, se tiene que:
λi =i∑
j=1
τj.
El objetivo de reescribir a λj de esta forma, es que tenga un orden y sea creciente, lo que es util
para evitar el problema tecnico conocido como cambio de etiqueta, donde las observaciones son
asignadas a cada uno de los estados de manera aleatoria. Para una explicacion de este proble-
ma, vea, por ejemplo, (Fruhwirth-Schnaer 2006, Seccion. 3.5.5). La variable aleatoria τj puede
describirse como la contribucion media del regimen j, si esta activa, al conteo observado en un
momento dado. En resumen, procedemos de la siguiente manera.
Dados los conteos observados o1:T y los valores actuales de los parametrosA, y λ generamos
una muestra de las trayectorias para la cadena de Markov (CM).
Utilizamos esta muestra de las trayectorias para descomponer los conteos observados en
contribuciones (simuladas) del regimen.
Con la muestra de las trayectorias de la CM disponible y las contribuciones del regimen, se
actualizan A y τ , por lo tanto λ.
Los pasos anteriores se repiten un gran numero de veces y, despues de un “perıodo de quemado”
(burning)2, las muestras resultantes de los valores de A y λ proporcionan las estimaciones re-
queridas de sus correspondientes distribuciones posteriores. Sea θ el conjunto de parametros que
contiene tanto A como a λ.
4.2.1. Generando muestras de las trayectorias para la cadena de
Markov.
Dadas las observaciones O1:T y los valores actuales de los parametros θ, deseamos simular una
muestra de las trayectorias C1:T de la cadena de Markov, a partir de su distribucion condicional
P (C1:T |O1:T , θ) = P (CT |O1:T , θ)×T−1∏t=1
P (Ct|O1:T , CTt+1, θ).
Tomamos valores de la cadena CT , CT−1..., C1 en este orden, para ello es necesario calcular las
siguientes probabilidades
P (Ct|O1:t, θ) =P (Ct, O1:t|θ)P (O1:t|θ)
=αt(Ct)
Lt∝ αt(Ct), parat = 1, ..., T. (4-4)
2Burning o perıodo de quemado consiste, en descartar un numero de las primeras muestras generada por el MCMC,
tiene como objetivo evitar la correlacion entre los valores muestreado y ası generar estimaciones consistentes.
4.2 Muestreador de Gibbs 49
Como antes (ver pag. 18), αt = (αt(1), ..., αt(K)) en la ecuacion 4-4 denota el vector de probabi-
lidades forward
αt(i) = P (O1:t, Ct = i),
que se puede calcular a partir de la recursion αt = αt−1AP (ot) (t = 2, ..., T ), con α1 = πP (o1),
donde Lt es la verosimilitud de las primeras t observaciones.
Comenzamos la simulacion tomando CT , el estado de la cadena de Markov en el tiempo nal T ,
desde P (CT |O1:t, θ) ∝ αT (CT ), (es decir, el caso t = T de la ecuacion 4-4). Luego simulamos
los estados Ct (en el orden t = T − 1, T − 2, ..., 1) haciendo uso del siguiente argumento de
proporcionalidad, como en Chib (1996):
P (Ct|O1:t, CTt+1, θ) ∝ P (Ct|O1:t, θ)P (OTt+1, C
Tt+1|O1:t, Ct, θ)
∝ P (Ct|O1:t, θ)P (Ct+1|Ct, θ)P (OTt+1, CTt+2|O1:t, Ct, Ct+1, θ)
∝ αt(Ct)P (Ct+1|Ct, θ).(4-5)
El tercer factor que aparece en la penultima lınea es independiente de Ct, de ahı la simplicacion.
La expresion 4-5 es facilmente asequible, ya que el segundo factor es simplemente una probabili-
dad de transicion de un paso en la cadena de Markov. Por lo tanto, estamos en posicion de simular
muestras de la trayectoria de la cadena de Markov, dadas las observaciones O1:t y los parametros
θ.
4.2.2. La descomposicion de las observaciones en contribuciones del
regimen.
Suponga que una muestra de la trayectoria C1:T de la cadena de Markov, generada como se des-
cribe en la Seccion 4.2.1, y suponga que Ct = i, de modo que los regımenes 1, ..., i estan activos
en el tiempo t. El siguiente paso es descomponer cada observacion ot (t = 1, 2, ..., T ) en contri-
buciones del regimen o1t, ..., oit tal que
∑ij=1 ojt = ot. Por lo tanto necesitamos la distribucion
conjunta de O1t, ..., Oit, dado Ct = i y Ot = ot (y dado θ). Esto es una distribucion multinomial
con el total de los ot y vector de probabilidad proporcional a (τ1, ..., τi).
4.2.3. Actualizando los parametros
Para actualizar los valores de la m.t.p. A se hace de la siguiente manera. Primero al tomar Ar la r-
esima la deA, desde la distribucion de Dirichlet con el vector de parametros νr+Tr, donde Tr es
la la de la matriz (simulada) de conteos de transicion. De manera similar, el vector de medias de
los estados-dependientes λ se actualiza al tomar τj (j = 1, ..., K) de una distribucion gamma con
parametros aj +∑T
t=1 xjt y bj +Nj ; aquı, Nj denota el numero de veces que el regimen j estuvo
activo en la muestra de la trayectoria simulada de la cadena de Markov, y ojt la contribucion del
regimen j a ot.
50 4 Metodos Bayesianos para los HMM
4.3. Estimacion Bayesiana para el numero de estados
En esta seccion se muestra el enfoque bayesiano para la seleccion del modelo. DondeM denota
el modelo con K numero de estados, parametro cuyo valor se evalua a partir de su distribucion a
posteriori, p(M|O1:T ). Sin embargo calcular la distribucion a posteriori se vuelve en un problema
complicado como indica L et al. (2005).
Usando p como un sımbolo general para las funciones masa de probabilidad o de densidad, se
tiene
p(M|O1:T ) = p(M)P (O1:T |M)/p(O1:T ) (4-6)
donde p(O1:T |M) es llamada la verosimilitud integrada. Si solo se comparan dos modelos, los
odds posterior son iguales al producto del ’factor de Bayes’ y los odds prior:
p(M2|O1:T )
p(M1|O1:T )=p(O1:T |M2)
p(O1:T |M1)× p(M2)
p(M1). (4-7)
4.3.1. Uso de la verosimilitud integrada
Para utilizar 4-6 o 4-7 necesitamos estimar la probabilidad integrada
p(O1:T |M) =
∫p(θM, O1:T )dθM =
∫p(O1:T |M, θM)p(θM|M)dθM.
Una forma de hacerlo serıa simular desde p(θM|M), la distribucion a priori de los parametros
θM del modelo de K-estados; esto es conveniente, especialmente si la a priori es no informativa.
Sin embargo es mas eciente usar un metodo que requiera una muestra de la distribucion a pos-
teriori, p(θM|O1:T ). Tal metodo se muestra a continuacion, para ello reescribimos la verosimilitud
integrada de la siguiente manera,∫p(O1:T |M, θM)
p(θM|M)
p∗(θM)p∗(θM)dθM;
de modo que pueda usarse la densidad mas conveniente p∗(θM) para los parametros θM. Como
tenemos disponible una muestra θ(j)M (j = 1, 2, ..., B) de la distribucion a posteriori, podemos
usar esa muestra; es decir, podemos tomar p∗(θM) = p(θM|O1:T ,M). Newton & Raery (1994),
sugieren entre otras cosas que la probabilidad integrada puede ser estimada por
I =B∑j=1
wjp(O1:T |M, θ(j)M)
/ B∑j=1
wj, (4-8)
donde
wj =p(θ
(j)M |M)
p(θ(j)M |O1:T ,M)
. (4-9)
4.3 Estimacion Bayesiana para el numero de estados 51
Despues de una cierta manipulacion, esto se simplica a la media armonica de los valores de la
verosimilitud de una muestra de la distribucion a posteriori,
I =
(B−1
B∑j=1
(p(O1:T |M, θ
(j)M))−1)−1
; (4-10)
Newton & Raery establecen que, en condiciones bastante generales, I es un estimador de p(O1:T |M)
consistente en la simulacion. Pero hay un gran inconveniente de este estimador de la media
armonica y es su varianza innita, por lo tanto la pregunta de que estimador usar para p(O1:T |M)
parece no haberse resuelto. Raery (2006) sugieren dos alternativas al estimador de la media
armonica, pero no hay una recomendacion clara, en MacDonald & Zucchini (2009) se comenta
las desalentadores propuestas temporales realizadas a lo largo de los anos para hacer frente a la
inestabilidad de las esperanzas con respecto al uso de las muy a menudo a prioris no informativas.
4.3.2. Seleccion de modelos por muestreo paralelo
Otra alternativas para estimar p(O1:T |M) de forma relativamente simple mediante el “muestreo
paralelo”para la seleccion de los modelos en competencia, siempre que este conjunto de modelos
sea lo sucientemente pequeno; ver Congdon (2006) y Sco (2002). Denotamos a θ por el vector
(θ1, θ2, ..., θK), y de manera similar θ(j); K es el Numero maximo de estados. Supongamos que
p(M, θ) = p(θM|M)p(M);
es decir, suponga que el modelo con K estados no depende de los parametros del modelo de
estado j, para j 6= K .
Deseamos estimar p(O1:T |M) (paraM∈ K) por
B−1
B∑j=1
p(M|O1:T , θ(j)). (4-11)
Utilizamos el hecho de que, con el supuesto anterior,
p(M|O1:T , θ(j)) ∝ G
(j)M,
donde
G(j)M ≡ P (M|O1:T , θ
(j))p(θ(j)M |M)p(M). (4-12)
Por lo tanto
p(M|O1:T , , θ(j)) = G
(j)M/
K∑k=1
G(j)k .
Esta expresion para p(M|O1:T , θ(j)) se puede insertar en 4-11 para completar la estimacion de
p(M|O1:T ).
52 4 Metodos Bayesianos para los HMM
4.4. Metodo Monte Carlo Hamiltoniano
Los metodos de Monte Carlo para cadenas de Markov o metodos MCMC por sus siglas en ingles
Markov chain Monte Carlo en anglais, es la base de muchos metodos en estadıstica computacional
(Gelman et al. 2013) para muestrear distribuciones de probabilidad complejas y realizar inferencia
a partir de estas muestras. Uno de los metodos MCMC mas conocido es el Metropolis-Hastings
que obtiene dichas muestras mediante la construccion de una cadena de Markov con la ayuda de
distribuciones propuestas que generan recorridos aleatorios en el espacio de parametros. De allı
se obtiene cierta cantidad de muestras a partir de una distribucion objetivo, mientras que el resto
se descarta. La eciencia y la calidad del muestreo dependen fundamentalmente de la distribucion
de la propuesta. Por esta razon, la eleccion de la distribucion propuesta ha sido durante mucho
tiempo un tema de investigacion. Para variables con distribuciones continuas, el metodo MonteCarlo Hamiltoniano (HMC) por sus siglas en ingles Hamiltonian Monte Carlo es una tecnica
avanzada que utiliza la mecanica clasica para muestrear distribuciones a partir de unas propues-
tas (Neal 1993). El metodo consiste en introducir variables auxiliares para realizar el muestreo,
luego se calcula el logaritmo de la distribucion conjunta de las variables, que se utiliza como el
Hamiltoniano de las partıculas que se mueven en el espacio muestral. El movimiento nal de las
trayectorias de estas partıculas se utiliza como las propuestas. Las ecuaciones de movimiento son
ecuaciones diferenciales ordinarias (EDO) que requieren integracion numerica, sin embargo se
deben tener en cuenta diversos factores en la eleccion de los integradores. Por ejemplo la reversi-
bilidad del tiempo, es necesaria para que la cadena de Markov converja a la distribucion objetivo,
y la preservacion del volumen garantiza que la tasa de aceptacion para la muestra sea consistente.
La tasa de aceptacion de HMC esta determinada por la forma en que el integrador conserva la
energıa del sistema fısico y, por lo tanto, son preferibles las soluciones numericas. Raramente al
integrar las EDO dan un resultado exacto, lo que indica que no se rechazarıa ninguna muestra.
Sin embargo en la mayorıa de casos reales, es necesario aproximar este valor. Cuando se necesita
explorar todo el espacio muestral es necesario utilizar largos perıodos de tiempo, sin embargo si
el error de integracion es alto la convergencia es lenta debido a la perdida de conservacion de
la energıa, por lo tanto, el perıodo de tiempo para la integracion generalmente se subdivide en
muchos pasos cortos.
A pesar de su relevancia para la eciencia de muestreo, la investigacion de integradores numeri-
cos sosticados para HMC ha sido escasa en la literatura. El integrador estandar de HMC es el
metodo de integracion de Leapfrog (Stormer-Verlet), sin embargo este metodo es sensible a EDO
rıgidas con componentes dinamicos altamente oscilatorios (Hairer et al. 2006). Cuando la densi-
dad objetivo produce una EDO rıgida, por ejemplo una distribucion gaussiana multivariada con
pequenas variaciones en ciertas dimensiones, el paso de tiempo para el salto se limita a la escala
de los componentes rıgidos para evitar perturbar la energıa del sistema, y en consecuencia reducir
la tasa de aceptacion del MCMC. Esto da como resultado un movimiento limitado en el espacio
muestral, haciendo que se requieran muchos pasos de integracion para explorar todo el espacio.
De manera mas general, las EDO rıgidas se producen cuando las distribuciones objetivo alcanzan
4.4 Metodo Monte Carlo Hamiltoniano 53
su punto maximo alrededor de su moda haciendo que se necesiten de integradores avanzados.
Aunque el perıodo de quemado puede reducir la rigidez y aliviar parcialmente este problema, a
menudo es insuciente, como lo demuestran estudios empıricos. ver (Chao et al. 2015).
4.4.1. Descripcion del metodo Monte Carlo Hamiltoniano
En el metodo Monte Carlo Hamiltoniano (HMC) (Homan & Gelman 2014), introducimos una
variable de impulso auxiliar rd para cada variable del modelo θd. En la implementacion habitual,
estas variables de impulso son tomadas independientemente de la distribucion normal estandar,
lo que produce la densidad conjunta (no normalizada).
p(θ, r) ∝ exp
L(θ)− 1
2r · r
, (4-13)
Algoritmo 6: El algoritmo Monte Carlo Hamiltoniano
Dado θ0, ε, L,L,M :
for m = 1, ...,m doMuestrear r0 ∼ N (0, I)
Fije θm ← θm−1, θm ← θm−1, r ← r0
for j = 1, ..., L doFije θ, r ← (θ, r, ε).
con probabilidad α = mın
L(θ)− 12r·r
L(θ)m−1− 12r0·r0
, je θm ← θ, rm ← −r
endend
function:Leapfrog(θ, r, ε)
Fije r ← r + (ε/2)∇θL(θ)
Fije θ ← θ + εr
Fije r ← r + (ε/2)∇θL(θ)
Return: θ, r
donde L es el logaritmo de la densidad conjunta de las variables de interes θ (hasta una constante
de normalizacion3) y x · y denota el producto interno de los vectores x y y. Podemos interpretar
este modelo aumentado en terminos fısicos como un sistema hamiltoniano cticio donde θ denota
la posicion de una partıcula en el espacio tridimensional, rd denota el impulso de esa partıcula en
la dimension d-esima, L es una funcion de energıa potencial negativa dependiente de la posicion,
12r · r es la energıa cinetica de la partıcula, y log p(θ, r) es la energıa negativa de la partıcula.
3La expresion ”up to a constant” hasta una constante indica que L no tiene la constante de normalizacion, ya
que para el enfoques bayesiano las simluaciones MCMC, no requieren de esta constante de normalizacion para
realizar los calculos. Siendo esta constante aquella que hace la funcion de densidad integre 1.
54 4 Metodos Bayesianos para los HMM
Podemos simular la evolucion a lo largo del tiempo de la dinamica hamiltoniana de este sistema
a traves del integrador ”leapfrog”, que procede de acuerdo con las actualizaciones.
rt+ε/2 = rt + (ε/2)∇θL(θt); θt+ε = θt + εrt+ε/2; rt+ε = rt+ε/2 + (ε/2)∇θL(θt+ε), (4-14)
donde rt y θt denotan los valores de las variables de impulso y posicion r y θ en el tiempo t y∇θ
denota el gradiente con respecto a θ. Dado que la actualizacion para cada coordenada depende
solo de las otras, las actualizaciones de salto conservan el volumen, es decir, el volumen de una
region permanece sin cambios despues de asignar cada punto en esa region a un nuevo punto a
traves del integrador leapfrog.
En el algoritmo 6 se describe un procedimiento estandar para extraer M muestras a traves del
metodo HMC. I denota la matriz de identidad y N(µ,Σ) denota una distribucion normal mul-
tivariada con media µ y matriz de covarianza Σ. Para cada muestra m, primero remuestreamos
los momentos de las variables de una normal estandar multivariada, que puede interpretarse co-
mo una actualizacion del muestreador de Gibbs. Luego aplicamos L actualizaciones a traves del
integrador leapfrog a las variables de posicion y momento θ y r respectivamente, generando un
par de propuestas θ, r para la posicion y momento. Se propone ajustar θm = θ y rm = −r, y
aceptar o rechazar esta propuesta de acuerdo con el algoritmo Metropolis Hastings. Este Metro-
polis es una propuesta valida porque es reversible en el tiempo y el integrador Leapfrog conserva
el volumen. El uso de un algoritmo para simular la dinamica hamiltoniana que no conserva el
volumen complica el calculo de la probabilidad de aceptacion de Metropolis (Homan & Gelman
2014). La negacion de r en la propuesta es teoricamente necesaria para producir reversibilidad en
el tiempo, pero puede omitirse en la practica si solo se esta interesado en tomar muestras de p(θ).
El termino log p(θ,r)p(θ,r)
, del cual depende la probabilidad de aceptacion α, es el cambio negativo en
la energıa del sistema hamiltoniano simulado del tiempo 0 al tiempo εL. Si pudieramos simular
exactamente la dinamica hamiltoniana, entonces α siempre serıa 1, ya que la energıa se conserva
en los sistemas hamiltonianos. El error introducido al usar una simulacion de tiempo discreto
depende especıcamente del parametro de tamano de paso ε, el cambio en energıa | log p(θ,r)p(θ,r)|
es proporcional a ε2para L grande, o ε3
si L = 1 (Homan & Gelman 2014) En principio, el
error puede crecer sin lımite en funcion de L, pero generalmente no se debe a la simplicidad de
la discretizacion del salto. Esto nos permite ejecutar HMC con muchos pasos de salto, generando
propuestas para θ que tienen una alta probabilidad de aceptacion a pesar de que estan distantes
de la muestra previa. Esto es doblemente derrochador, ya que se esta trabajando para acercar la
propuesta θ a la posicion inicial θm−1 − 1. Peor aun, si se elige L para que los parametros salten
de un lado del espacio al otro en cada iteracion, entonces la cadena de Markov puede que ni si-
quiera sea ergodica (Neal 2011). De manera mas realista, una eleccion desafortunada de L puede
dar como resultado una cadena que es ergodica pero lenta para moverse entre regiones de baja y
alta densidad.
El algoritmo HMC es poderoso, pero su utilidad esta limitada por la necesidad de ajustar el
parametro ε tamano del paso y la cantidad de pasosL. Si ε es demasiado grande, entonces la simu-
4.4 Metodo Monte Carlo Hamiltoniano 55
lacion sera inexacta y producira bajas tasas de aceptacion. Si ε es demasiado pequeno, entonces el
calculo se desperdiciara dando muchos pasos pequenos. Si L es demasiado pequeno, entonces las
muestras sucesivas estaran cerca una de la otra, lo que dara como resultado un comportamiento
de caminata aleatorio indeseable y una mezcla lenta. Si L es demasiado grande, entonces HMC
generara trayectorias que retroceden y vuelven sobre sus pasos.
La adaptacion de estos parametros para cualquier problema particular requiere cierta experien-
cia, y generalmente una o mas ejecuciones preliminares. Seleccionar el L correcto es particu-
larmente difıcil, pues aunque es una metrica simple en ocasiones puede ocasionar trayectorias
demasiado cortas o largas, por lo que los profesionales generalmente se basan en heurısticas co-
mo las estadısticas de autocorrelacion de ejecuciones preliminares (Neal 2011). A continuacion,
presentamos el No-U-Turn Sampler (NUTS), una extension de HMC que elimina la necesidad de
especicar un valor jo de L. En esta seccion se presenta la conguracion del esquema NUTS
eciente basado en Homan & Gelman (2014).
4.4.2. No-U-Turn Sampler (NUTS)
El primer objetivo es disenar una muestra de MCMC que retenga la capacidad del HMC para
suprimir el comportamiento de la caminata aleatoria sin la necesidad de establecer el numero
de pasos L que el algoritmo toma para generar una propuesta. Necesitamos algun criterio que
nos diga cuando hemos simulado la dinamica “lo sucientemente grande”, es decir cuando la
ejecucion de la simulacion para mas pasos ya no aumentarıa la distancia entre la propuesta θ y
el valor inicial de θ. Utilizamos un criterio conveniente basado en el producto punto entre r (el
momento actual) y θ − θ (el vector desde nuestra posicion inicial a nuestra posicion actual), que
es el derivado con respecto al tiempo (en el sistema Hamiltoniano) de la mitad de la distancia al
cuadrado entre la posicion inicial θ y la posicion actual θ:
d
dt
(θ − θ) · (θ − θ)2
= (θ − θ) · ddt
(θ − θ) = (θ − θ) · r. (4-15)
En otras palabras, si tuvieramos que ejecutar la simulacion durante un tiempo innitesimal adi-
cional, entonces esta cantidad es proporcional al progreso que harıamos desde nuestro punto
de partida θ. Esto sugiere un algoritmo en el se ejecutan pasos de salto hasta que la cantidad
en la ecuacion 4-15 sea menor que 0; tal enfoque simularıa la dinamica del sistema hasta que
la ubicacion de la propuesta θ se acerque a θ. Desafortunadamente, este algoritmo no garantiza
la reversibilidad del tiempo y, por lo tanto, no garantiza que converja a la distribucion correcta.
NUTS supera este problema mediante un algoritmo recursivo que preserva la reversibilidad eje-
cutando la simulacion hamiltoniana tanto hacia adelante como hacia atras en el tiempo.
NUTS comienza introduciendo una variable de corte u con distribucion condicional p(u|θ, r) =
Uniforme(u; [0, expL(θ)− 12r · r]), que representa la distribucion condicional p(θ, r|u) =
Uniforme(θ, r; θ′, r′| expL(θ)− 12r · r ≥ u). Este paso de muestreo de corte no es estricta-
mente necesario, pero simplica tanto la derivacion como la implementacion de NUTS.
56 4 Metodos Bayesianos para los HMM
Figura 4-1.: Ejemplo de construccion de un arbol binario mediante duplicacion repetida. Cada
duplicacion procede eligiendo una direccion (hacia adelante o hacia atras en el tiem-
po) uniformemente al azar, luego simulando la dinamica hamiltoniana para 2j paso
leapfrog en esa direccion, donde j es el numero de duplicaciones previas (y la altura
del arbol binario). Las guras en la parte superior muestran una trayectoria en dos
dimensiones (con el arbol binario correspondiente en lıneas discontinuas) a medida
que evoluciona a lo largo de cuatro duplicaciones, y las siguientes guras muestran
la evolucion del arbol binario. En este ejemplo, las direcciones elegidas fueron ha-
cia adelante (nodo naranja claro), hacia atras (nodos amarillos), hacia atras (nodos
azules) y hacia adelante (nodos verdes). Tomado de Homan & Gelman (2014).
En un nivel alto, despues de volver a muestrear u|θ, r, NUTS utiliza el integrador leapfrog para
trazar un camino hacia adelante y hacia atras en tiempo cticio, primero corriendo hacia adelante
o hacia atras 1 paso, luego hacia adelante o hacia atras 2 pasos, luego hacia adelante o hacia atras
4 pasos, etc. Este proceso de duplicacion construye implıcitamente un arbol binario equilibrado
cuyos nodos hoja corresponden a los estados del momento de la posicion, como se ilustra en la
gura 4-1. La duplicacion se detiene cuando el subtrayectoria de los nodos de la izquierda hasta
la derecha de algun subarbol balanceado del arbol binario general comienza a duplicarse sobre sı
mismo (es decir, la partıcula cticia comienza a hacer un “giro en U”). En este punto, NUTS detiene
la simulacion y las muestras del conjunto de puntos calculados durante la simulacion, teniendo
cuidado de preservar el saldo detallado. El pseudocodigo para el NUTS eciente se proporciona
en el algoritmo 7.
4.4 Metodo Monte Carlo Hamiltoniano 57
Algoritmo 7: El algoritmo No-U-Turns Sampler eciente
Dado θ0, ε,L,M :
for m = 1, ...,m doRemuestrear r0 ∼ N (0, I)
Remuestrear u ∼ Uniform([0, expL(θm−1 − 12r0 · r0)])
Inicializar θ− = θm−1, θ+, r− = r0, j = 0, θm = θm − 1, n = 1, s = 1.
while s = 1 doEscoja una direccion vj ∼ Uniform(−1, 1).
if vj = −1 thenθ−, r−,−,−, θ′, n′, s′ ← BuilTree(θ−, r−, u, vj, j, ε).
else−,−, θ+, r+, θ′, n′, s′ ← BuilTree(θ−, r−, u, vj, j, ε).
endif s′ = 1 then
con probabilidad mın
1, n′
n
, je θm ← θ′
endn← n+ n′
s← s′I[(θ+ − θ−) · r− ≥ 0]I[(θ+ − θ−) · r+ ≥ 0]
j ← j + 1end
end
function:BuildTree(θ, r, u, v, j, ε)
if j = 0 thenCaso base - tome un paso Leapfrog en la direccion v
θ′, r′ ← Leapfrog (θ, v, r, ε).
n′ ← I[u ≤ expL(θ′)− 12r′ · r′].
s′ ← I[u < exp∆maxL(θ′)− 12r′ · r′]
Return: θ′, r′, n′, s′
elseRecursion: construya implıcitamente los subarboles izquierdo y derecho.
θ−, r−, θ+, r+, θ, n′, s′ ← BuildTree (θ−, r−, u, v, j − 1, ε).
if s′ = 1 thenif v = −1 then
θ−, r−,−,−, θ′′, n′′, s′′ ← BuildTree (θ−, r−, u, v, j − 1, ε).
else−,−, θ+, r+, θ′′, n′′, s′′ ← BuildTree (θ+, r+, u, v, j − 1, ε).
endCon probabilidad
n′′
n′+n′′, je θ′ ← θ′′.
s′ ← s′′I[(θ+ − θ−) · r− ≥ 0]I[(θ+ − θ−) · r+ ≥ 0]
n′ ← n′ + n′′
endReturn: θ−, r−, θ+, r+, θ′, n′, s′.
end
58 4 Metodos Bayesianos para los HMM
4.5. Verosimilitud Marginal
La verosimilitud marginal juega un papel importante en muchas areas de las estadıstica baye-
siana, como la estimacion de parametros, la comparacion de modelos y el promedio de modelos.
Sin embargo, en la mayorıa de las aplicaciones, la verosimilitud marginal no es analıticamente
manejable y debe aproximarse utilizando metodos numericos. A continuacion presentamos una
descripcion del muestreo por puente, Meng & Schilling (2002) un metodo de muestreo cona-
ble y relativamente sencillo que permite a los investigadores obtener la verosimilitud marginal
de modelos de complejidad variable. Ademas los resultados de Gronau et al. (2017) indican que el
muestreo por puente proporciona estimaciones precisas, cuando se pretende aproximar la verosi-
militud marginal de un conjunto nito de modelos; haciendolo un metodo atractivo especialmente
cuando se trabaja con modelos de alta dimension.
La verosimilitud marginal es la probabilidad de los datos observados y dado un modelo especıco
de interesM, y se dene como la integral de la verosimilitud sobre la a priori:
p(y|M)︸ ︷︷ ︸verosimilitud
marginal
=
∫p(y|θ,M)︸ ︷︷ ︸verosimilitud
p(θ|M)︸ ︷︷ ︸a priori
(4-16)
con θ un vector que contiene los parametros del modelo. La ecuacion 4-16 ilustra que la verosi-
militud marginal se puede interpretar como un promedio ponderado de la verosimilitud de que
los datos dado un valor especıco para θ donde el peso es la plausibilidad a priori de ese valor
especıco. Por lo tanto la ecuacion 4-16 se puede escribir como valor esperado:
p(y|M) = Ea priori[p(y|θ,M)],
donde se toma la experanza con respecto a la distribucion a priori. Esta idea es fundamental para
los diferente metodos de muestreo que se muestran a continuacion.
4.5.1. El estimador ingenuo de Monte Carlo de la Verosimilitud
Marginal
El metodo mas simple para aproximar la verosimilitud marginal lo proporciona el ingenuo estima-
dor de Monte Carlo (Gronau et al. 2017). Este metodo utiliza la denicion estandar de la verosimi-
litud marginal 4-16, y se basa en la idea central de que la verosimilitud marginal se puede escribir
como un valor esperado con respecto a la distribucion a priori, es decir, p(y) = Ea priori[p(y|θ)].Este valor esperado de la verosimilitud de los datos con respecto a la a apriori se puede aproxi-
mar evaluando la verosimilitud en N muestras de la distribucion a priori para θ y promediando
los valores resultantes. Esto produce el estimador ingenuo de Monte Carlo p1(y):
p1(y) =1
N
N∑i=1
p(y|θi)︸ ︷︷ ︸promedio
verosimilitud
, θi ∼ p(θ)︸ ︷︷ ︸muestras desde la
distribucion a priori
.
4.5 Verosimilitud Marginal 59
4.5.2. El Estimador de Muestreo por Importancia de la Verosimilitud
Marginal
El estimador ingenuo de Monte Carlo introducido en la ultima seccion funciona bien si la distri-
bucion a priori y a posteriori tienen una forma similar y una superposicion fuerte. Sin embargo, el
estimador es inestable si la distribucion a posteriori es relativamente puntiaguda en comparacion
con la distribucion a priori (por ejemplo, Gamerman & Lopes (2006)). En tal situacion, la mayorıa
de los valores muestreados para θ dan como resultado valores de verosimilitud cercanos a cero y
contribuyen solo mınimamente a la estimacion. Esto signica que las pocas muestras que resul-
tan en valores altos de la verosimilitud dominan las estimaciones de la verosimilitud marginal.
En consecuencia, la varianza del estimador aumenta (Newton & Raery 1994)).
Por otro lado el estimador de muestreo por importancia, supera esta deciencia al aumentar los
valores muestreados en regiones del espacio de parametros donde el integrando de la ecuacion
4-16 es grande. Esto se realiza mediante el uso de muestras de la llamada densidad de importan-
cia gIS(θ) en lugar de la distribucion a priori. La ventaja de muestrear desde una densidad de
importancia es que los valores para θ que resultan con alta verosimilitud se muestrean con ma-
yor frecuencia, mientras que los valores para θ con baja verosimilitud se muestrean raramente.
Para derivar el estimador de muestreo por importancia, se utiliza la ecuacion 4-16 como punto de
partida y luego se extiende por la densidad de importancia gIS(θ):
p(y) =
∫p(y|θ)p(θ)dθ =
∫p(y|θ)p(θ)gIS(θ)
gIS(θ)dθ =
∫p(y|θ)p(θ)gIS(θ)
gIS(θ)dθ
= EgIS(p(y|θ)p(θ)gIS(θ)
).
Esto da como resultado el estimador de muestreo por importancia p2(y):
p2(y) =1
N
N∑i=1
p(y|θi)p(θi)gIS(θi)︸ ︷︷ ︸
verosimilitud promedio ajustada
, θi ∼ gIS(θ)︸ ︷︷ ︸Muestras de la densidad
por importancia
. (4-17)
Una densidad de importancia adecuada deberıa (1) ser facil de evaluar; (2) tienen el mismo do-
minio que la distribucion a posteriori; (3) se asemejan mucho a la distribucion a posteriori; y
(4) tienen colas mas gruesas que la distribucion a posteriori (Neal 2011). El ultimo criterio ase-
gura que los valores en las colas de la distribucion no puedan dominar de manera enganosa la
estimacion Neal (2011).4
4Para ilustrar la necesidad de una densidad de importancia con colas mas gruesas que la distribucion a posteriori,
imagine que muestrea de la region de la cola una densidad de importancia con colas mas nas. En este caso, el
numerador en la ecuacion 4-17 serıa sustancialmente mas grande que el denominador, resultando en una relacion
muy grande. Dado que esta relacion especıca es solo un componente de la suma que se muestra en la ecuacion
4-17, este componente afectarıa el estimador del muestreo por importancia. Por lo tanto, colas mas delgadas de
la densidad de importancia corren el riesgo de producir estimaciones inestables a traves de calculos repetidos.
De hecho, el estimador puede tener una varianza innita.
60 4 Metodos Bayesianos para los HMM
4.5.3. El Estimador de muestreo por puente de la verosimilitud
marginal
Como se evidencio, tanto el estimador de muestreo por importancia como el estimador de me-
dia armonica generalizada imponen fuertes restricciones en el comportamiento de la cola de la
densidad de importancia en relacion con la distribucion a posteriori para garantizar un estimador
estable. Dichos requisitos pueden dicultar la busqueda de una densidad de importancia adecua-
da, especialmente cuando se considera una distribucion a posteriori de alta dimension. Por otro
lado el muestreo por puente es mas exible en tales requisitos (ver, (Fruhwirth-Schnaer 2006)).
Originalmente, el muestreo por puente se desarrollo para estimar directamente el factor de Ba-
yes, es decir la razon de las verosimilitudes marginales de los modelosM1 yM2 (por ejemplo,
(Jereys 1961)). Sin embargo aquı utilizamos una version de muestreo por puente que permite
aproximar la verosimilitud marginal de un modelo. Esta version se basa en la siguiente identidad:
1 =
∫p(y|θ)p(θ)h(θ)g(θ)dθ∫p(y|θ)p(θ)h(θ)g(θ)dθ
(4-18)
donde g(θ) es la llamada distribucion de la propuesta y h(θ) la llamada funcion de puente. Al
multiplicar ambos lados de la ecuacion 4-18 por la verosimilitud marginal p(y), se obtiene:
p(y) =
∫p(y|θ)p(θ)h(θ)g(θ)dθ∫ p(y|θ)p(θ)
p(y)h(θ)g(θ)dθ
=
∫p(y|θ)p(θ)h(θ)
distribucion
propuesta︷︸︸︷g(θ) dθ∫
h(θ)g(θ) p(θ|y)︸ ︷︷ ︸distribucion
a posteriori
dθ
=Eg(θ) [p(y|θ)p(θ)h(θ)]
Epost [h(θ)g(θ)]
La verosimilitud marginal ahora se puede aproximar usando:
p(y) =1N2
∑N2
i=1 p(y|θi)p(θi)h(θi)
1N1
∑N1
j=1 h(θ∗j )g(θ∗j ), θi ∼ g(θ)︸ ︷︷ ︸
muestras de la
distribucion de la propuesta
, θ∗j ∼ p(θ|y)︸ ︷︷ ︸muestras de la
distribucion a posteriori
. (4-19)
La ecuacion 4-19 ilustra la necesidad de muestrear tanto de la distribucion propuesta como de la
distribucion a posteriori para obtener la estimacion de muestreo por puente para la verosimilitud
marginal. Sin embargo, antes de poder aplicar la ecuacion 4-19 debemos analizar como se puede
obtener una distribucion como propuesta y una funcion de puente adecuada. Conceptualmente,
la distribucion de la propuesta es similar a una densidad de importancia, debe parecerse a la dis-
tribucion a posteriori y debe tener una superposicion suciente con la distribucion a posteriori.
De acuerdo con Overstall & Forster (2010), indican que es conveniente utilizar una distribucion
normal con sus dos primeros momentos elegidos para coincidir con los de la distribucion a pos-
teriori como propuesta; sin embargo aunque esta propuesta funciona bien para una amplia gama
4.5 Verosimilitud Marginal 61
de escenarios, podrıa producir estimaciones inestables en el caso de distribuciones a posterioris
de alta dimension que claramente no siguen una distribucion normal multivariada. En tal situa-
cion, podrıa ser aconsejable considerar versiones mas sosticadas del muestreo por puente (por
ejemplo, Fruhwirth-Schnaer (2006), Meng & Hung Wong (1996)).
La funcion de puente optima denida por (Meng & Hung Wong 1996), es la siguiente:
h(θ) = C · 1
s1p(y|θ)p(θ) + s2p(y)g(θ), (4-20)
donde s1 = N1
N2+N1, s2 = N2
N2+N1, y C es una constante; que no requiere de un valor particular
porque h(θ) es parte tanto del numerador como del denominador de la ecuacion 4-20, y por lo
tanto la constante C se cancela. Esta funcion de puente en particular se conoce como la “funcion
de puente optima”porque (Meng & Hung Wong 1996, pag. 837) demostraron que minimiza el
error relativo - cuadratico medio denido como RE2 =E[(p(y)−p(y))2]
p(y)2 .
La ecuacion 4-20 muestra que la funcion de puente optima depende de la verosimilitud marginal
p(y), que es la cantidad que queremos aproximar. Este problema puede ser resuelto aplicando un
esquema iterativo que actualice una estimacion inicial de la verosimilitud marginal hasta que esta
estimacion converga de acuerdo con un nivel de tolerancia predenido. Para hacerlo, insertamos
la funcion de puente optima denida en la ecuacion 4-20 en la ecuacion 4-19 (Meng & Hung Wong
1996). La formula para aproximar la verosimilitud marginal en la iteracion t+ 1 es:
p(y)(t+1) =
1N2
∑N2
i=1p(y|θi)p(θi)
s1p(y|θi)p(θi)+s2p(y)(t)g(θi)
1N1
∑N1
j=1
g(θ∗j )
s1p(y|θ∗j )p(θ∗j )+s2p(y)(t)g(θ∗j )
, θi ∼ g(θ)︸ ︷︷ ︸muestras desde la
distribucion propuesta
, θ∗j ∼ p(θ|y)︸ ︷︷ ︸muestras desde la
distribucion a posteriori
(4-21)
donde p(y)(t)denota la estimacion de la verosimilitud marginal en la iteracion t del esquema
iterativo, y s1, s2 denotan constantes que deben calcularse y solo dependen de N1 y N2 respec-
tivamente. Ademas denotamos a N2 como las muestras tomadas desde la distribucion propuesta
g(θ) y N1 son las muestra tomadas desde la distribucion a posteriori p(θ|y). La ecuacion 4-21
ilustra por que el muestreo por puente es robusto al comportamiento de la cola de la distribucion
propuesta en relacion con la distribucion a posteriori. Para mas informacion puede consultar a
Gronau et al. (2017), donde se discuten una serie de requisitos que debe cumplir el muestrea-
dor por puente, el cual impone condiciones menos estrictas en la distribucion de la propuesta
que el estimador de muestreo de importancia y la media armonica generalizada, permitiendo una
aplicacion casi automatica debido a la eleccion predeterminada de la funcion puente.
5. Resultados
5.1. Aplicacion
Para los modelos descritos anteriormente se presenta unas aplicaciones a partir de dos conjuntos
de datos, con el proposito de ilustrar su manejo y analisis. El primer conjunto de datos es la serie
anual del numero de homicidios1
en Colombia de 1960 a 2018 para la cual se ajustaron varios
PHMM. En la segunda aplicacion se analizo la serie mensual de incendios forestales en Colombia,
entre el 2002 y 2016 se ajustaron varios modelos ocultos de Markov Cero-Inados. Previo al ajuste
de los modelos, se llevo a cabo un analisis exploratorio basico del conjunto de datos con el que se
muestran algunos problemas que generalmente se presentan al visualizar los datos de conteo. Al
nal de la seccion, se comparan todos los modelos ajustados, tanto desde el enfoque clasico como
desde el enfoque Bayesiano, y se selecciona el mejor modelo a partir de las dos metodologıas.
Para ambas series, la aplicacion de modelos estandar como modelos auto regresivos de media
movil (ARMA) serıa inapropiado, ya que estos modelos se basan en la distribucion normal. En su
lugar, se propone un modelo con distribucion Poisson usualmente utilizada en datos con conteos,
pero como se demostrara mas adelante, las series presentan sobre dispersion y fuerte dependencia
serial positiva, e inacion en ceros en el caso de la serie de incendios. Por lo tanto, un modelo para
variables aleatorias independientes tipo Poisson; es inadecuado. Unido a lo anterior se observan
perıodos con bajas tasas de homicidios e incendios, y algunos con una tasa relativamente alta. Los
HMMs, permiten que la distribucion de probabilidad de cada observacion dependa del estado no
observado (oculto) de una Cadena de Markov, por lo tanto puede incorporar la sobre dispersion
y la dependencia serial al mismo tiempo.
5.1.1. Descripcion de los datos
Homicidios: La informacion corresponde al numero de homicidios en Colombia en el perıodo
de 1960-2018, para su elaboracion se reunieron varias fuentes, como las estadısticas historicas
economicas y sociales, extraıdas del Departamento Nacional de Planeacion (DNP) en la cual se
1Nota: No fue posible utilizar como variable de interes el numero de homicidios en Colombia, debido a que λ yn son
grandes, creando divergencias en las estimaciones. Por ejemplo suponga X ∼ P(λ = 100) y Y ∼ P(λ = 10), si
calculamos Pr(x = 1) = 0.000 y Pr(y = 1) = 0.00045. Ahora suponga una matriz de transacion A de tamano
K ×K , multiplicando los resultados anteriores por la m.t.p. A en el caso de λ = 100 la estimacion serıa 0. Por
lo tanto la variable modelada fue el numero de homicidios por cada 100.000 habitantes que reduce el valor de λ
considerablemente, sin embargo al tratarse de una variable continua se trunco al entero mas proximo.
5.1 Aplicacion 63
encuentran los principales indicadores de violencia, y se complemento con las estadısticas delic-
tivas de la Policıa Nacional y Medicina Legal. Los datos publicados corresponden a consolidados
de los Delitos de Impacto del paıs, ası mismo la Actividad Operativa realizada por la Policıa Na-
cional. Mientras que para la poblacion total Colombiana se extrajo la informacion de la seccion
Estadısticas por tema, demografıa y poblacion. La serie es anual para un total de 59 observaciones
y se expresa como el numero de homicidios por cada 100.000 habitantes comunmente conocida
como Tasa de homicidios, para ser posible la modelacion se redondeo la cifra al entero mas cer-
cano. Nota: La conabilidad de los datos para la tasa de homicidios puede variar, de acuerdo a la
fuente.
31 31 31 32 31 32 30 29 31 19 21 23 23 23 24 24 25 27 26 27
29 36 34 30 30 40 48 52 63 65 68 78 76 74 70 66 68 62 58 61
65 49 69 56 48 42 40 39 36 35 34 32 32 32 27 26 25 25 25
Tabla 5-1.: Numero de homicidios por cada 100.000 habitantes en Colombia, 1960 - 2018. Fuente:
Departamento Nacional de Planeacion (DNP), policıa Nacional y medicina legal.
Incendios: Los datos referentes a incendios forestales en Colombia, son tomados de la pagina
del IDEAM - Instituto de Hidrologıa, Meteorologıa y Estudios Ambientales.
Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic
2002 10 8 12 2 0 1 0 6 1 1 0 0
2003 5 6 11 3 0 0 5 0 3 0 0 0
2004 7 14 10 1 0 0 3 12 4 1 0 3
2005 5 6 13 4 1 0 4 9 25 1 0 2
2006 2 3 0 0 0 0 6 6 10 0 0 0
2007 19 100 16 1 1 0 0 0 1 0 1 0
2008 3 4 3 1 0 0 0 0 0 0 0 0
2009 1 6 5 3 3 3 12 24 58 22 0 7
2010 103 95 37 3 0 0 0 0 0 0 0 0
2011 14 21 3 0 0 1 2 16 20 0 0 0
2012 16 27 14 1 3 3 31 36 45 4 3 3
2013 62 56 33 14 0 1 19 17 36 13 2 0
2014 15 32 18 17 2 0 48 38 47 3 1 0
2015 18 19 27 4 9 5 11 31 39 12 0 8
2016 40 60 58 12 0 0 5 22 18 1 0 2
Tabla 5-2.: Numero de Grandes Incendios Forestales (GIF) en Colombia, 2002 - 2016. Fuente:
IDEAM.
El Ideam ha venido realizando una revision historica de los datos reportados por diferentes institu-
ciones, con el n de tener datos mas conables. Esto permite obtener estadısticas sobre incendios
64 5 Resultados
en Colombia, que en terminos generales ayudan a realizar analisis de su comportamiento bajo di-
ferentes escenarios, esto es, por regiones, departamentos o municipios, en condiciones climaticas
normales o bajo el fenomeno del nino, por cobertura vegetal afectada, por Corporacion Autonoma
Regional, por ano o por mes, y de esta manera utilizarlas para priorizar areas, orientar acciones
o sustentar la necesidad de realizar estudios mas detallados. La variable de interes es el nume-
ro de grandes incendios forestales (GIF), y se denen como aquellos incendios que superan las
500 hectareas forestales afectadas. Las observaciones son mensuales, con perıodo de observacion
enero del 2002 y nalizando en diciembre del 2016.
Estadısticas de resumen
A continuacion se muestran algunas estadısticas descriptivas, sobre la serie de homicidios Co-
lombia para los anos 1960-2018.
Estadıstica N Media Desv. Est. Mın Pctl(25) Mediana Pctl(75) Max
Homicidios 59 14189 8013 3908 5970 12626 20907 28837
Tasa 59 40.421 17.111 19.256 27.057 32.359 53.894 77.946
Tabla 5-3.: Estadısticas de Resumen serie homicidios en Colombia.
En la Tabla 5-3, se observa que el numero mınimo de homicidios ocurrido en este perıodo fue de
3908 con una Tasa de 19.26 homicidios por cada 100.000 habitantes, que corresponde al ano 1969.
Año
Núm
ero
1960 1970 1980 1990 2000 2010 2020
2030
4050
6070
80
Figura 5-1.: Serie de tiempo homicidios en Colombia desde el ano 1960 hasta el ano 2018.
5.1 Aplicacion 65
El maximo numero de homicidios registrados fue de 28837 en el ano 2002, sin embargo la Tasa
mas alta de homicidios fue en el ano 1991 con casi 78 homicidios por cada 100.000 la mas alta de
la region para esta epoca segun un estudio de la CEPAL. Algunas investigaciones sobre el tema
como la de Franco et al. (2006) y Pecaut (2003) han enfatizado ciertos aspectos coyunturales, tales
como el problema del narcotraco, la persistencia del conicto armado interno, la debilidad del
Estado, la corrupcion y la inmadurez en el ejercicio de la ciudadanıa pero aun son insucientes
los estudios y poco el consenso sobre las explicaciones de fondo de la situacion de violencia que
vive el paıs.
La serie homicidios permite deducir que utilizar modelo de regresion Poisson, serıa inapropiado
pues parece haber una mixtura entre dos distribuciones, si se asume que estas distribuciones no
estan correlacionadas, una opcion para modelar esta serie serıa utilizar una mixtura entre dos o
mas distribuciones independientes, como se muestra en (MacDonald & Zucchini 2009, Capıtulo 1).
La sobredispersion se evidencia al calcular la media y la varianza, siendo esta ultima mucho mas
grande que la media, lo cual no concuerda con la distribucion Poisson donde la media y varianza
son iguales.
0 5 10 15 20 25 30
−0.
50.
00.
51.
0
Rezago
AC
F
0 5 10 15 20 25 30
−0.
50.
00.
51.
0A
CF
0 20 40 60 80 100
0.00
00.
010
0.02
00.
030
N = 59 Bandwidth = 6.794
Den
sida
d
Figura 5-2.: Funcion de autocorrelacion muestral, y densidad para la serie homicidios en Colom-
bia (1960-2018).
El comportamiento de la tasa de homicidios presenta un fuerte incremento en la decada de 1980,
en particular desde 1983, hasta 1991. Es la fase mas crıtica de violencia, en particular de violencia
homicida, en los anales del paıs. Investigaciones anteriores como las de Souza & Lima (2006)
66 5 Resultados
y Cardona et al. (2005) han tratado de explicar este incremento mediante la convergencia de
los problemas acumulados de debilidad institucional, ausencias estatales, ciudadanıa precaria,
desempleo e inequidades crecientes, con la expansion del fenomeno del narcotraco en el paıs
(Franco et al. 2006) y su confrontacion armada estatal, con la intensicacion de la presencia urbana
del conicto armado interno, en especial la actuacion de las milicias anes a las organizaciones
guerrilleras y la emergencia y acelerado desarrollo de organizaciones paramilitares (Franco et al.
2006).
En la gura 5-2 se graco la funcion de autocorrelacion muestral para la tasa de homicidios
hasta el rezago 30, se observa una fuerte dependencia lo que indica que es inapropiado utilizar un
modelo de mixturas independientes (distribucion Poisson), como alternativa surge la utilizacion
de los modelos ocultos de Markov para series de datos con conteo PHMM.
5.1.2. PHMM enfoque frecuentista
Se ajustaron modelos Poisson ocultos de Markov con 1 a 5 estados, y modelos con mixturas
independientes con 2, 3 y 4 componentes de la distribucion Poisson utilizando el paquete exmixde R. Con el objetivo de seleccionar el modelo mas apropiado, se calcularon estadısticas de bondad
de ajuste para cada uno de los modelos antes mencionados, que se encuentran registradas en la
Tabla 5-4. El AIC mınimo se ubico en 404.02, mientras que el BIC mas pequeno tiene un valor
de 418.96. Estos resultados indican que los modelos que mejor aproximan el comportamiento
de la naturaleza de esta serie de datos, son los PHMM con 2 y 3 estados segun el BIC y AIC
respectivamente. Identicar el modelo apropiado dependera del criterio seleccionado, sea BIC o
AIC. Aunque ambos funcionan de manera similar, BIC generalmente penaliza parametros libres
con mas fuerza, en comparacion con el criterio de Akaike. Por esta razon utilizaremos el BIC,
seleccionando como mejor modelo el PHMM de 2 estados.
Modelo p logL AIC BIC
1 PHMM - 1 Estado 1 -356.91 715.81 717.89
2 PHMM - 2 Estados 4 -201.32 410.65 418.963 PHMM - 3 Estados 9 -193.01 404.02 422.71
4 PHMM - 4 Estados 16 -190.84 413.69 446.93
5 PHMM - 5 Estados 25 -190.29 430.58 482.51
6 Mixtura indep. (2) 3 -229.38 464.75 470.98
7 Mixtura indep. (3) 5 -228.11 466.21 476.60
8 Mixtura indep. (4) 7 -228.11 472.69 487.23
Tabla 5-4.: Criterio de informacion Bayesiano y Akaike, para los modelos PHMM y mixturas
independientes ajustados a la Tasa de homicidios Colombia.
El bajo desempeno observado en los modelos de mixturas independientes en relacion con los
HMM, ver Tabla 5-4, puede tener origen en la alta correlacion observada en la gura 5-2.
5.1 Aplicacion 67
1 2 3 4 5 6
400
450
500
550
600
650
700
Número de estados
AIC
BIC
Figura 5-3.: Serie homicidios: seleccion de modelos AIC y BIC.
Por otra parte ni siquiera se debe intentar ajustar modelos con 4 o 5 estados, pues serıa necesario
estimar entre 16 y 25 parametros para 59 observaciones. Al ajustar el PHMM determinamos que la
verosimilitud es multimodal, y por lo tanto es facil encontrar varios maximos locales utilizando
diferentes valores de inicio. Inconveniente que es enfrentado dando valores iniciales pequenos
como 0.1 o 0.05, fuera de la diagonal de la matriz transicion de probabilidad, mientras que para
los valores iniciales del vector de medias estado dependientes deberıan usarse los deciles.
La estimaciones del PHMM de dos estados se muestran a continuacion, primero la m.t.p. A,
ademas del vector de medias de los estados dependientes λ y los valores de la distribucion es-
tacionaria π.
A =
(0.980 0.020
0.064 0.936
)λ = (29.715, 62.812) π = (0.764, 0.235)
La comparacion entre las funciones de autocorrelacion de los HMM con la funcion de autocorre-
lacion muestral (ACF), es una metodologıa alternativa a los criterios de informacion AIC y BIC,
para determinar si un modelo tiene un buen ajuste. por lo tanto se calcularon los ACF para los
68 5 Resultados
PHMM con dos, tres, cuatro y cinco estados los cuales se encuentran en la Tabla 5-5. Tenga en
cuenta que para encontrar los ACF de los modelos se utilizo la ecuacion de MacDonald & Zucchini
(2009, pag. 55).
1 2 3 4 5 6 7 8 9 10 11 12
observaciones 0.94 0.89 0.83 0.75 0.66 0.58 0.49 0.39 0.30 0.20 0.11 -0.00
PHMM 2 Estados 0.77 0.71 0.65 0.59 0.54 0.50 0.46 0.42 0.38 0.35 0.32 0.29
PHMM 3 Estados 0.79 0.75 0.71 0.68 0.64 0.61 0.58 0.55 0.52 0.50 0.47 0.45
PHMM 4 Estados 0.80 0.76 0.72 0.69 0.65 0.62 0.58 0.55 0.52 0.50 0.47 0.44
Tabla 5-5.: ACF para los datos de homicidios y ACF de los PHMM hasta el rezago 12.
En la Figura 5-4, de izquierda a derecha se muestran el ACF de las observaciones, la barra de color
verde pertenece al modelo de dos estados y la azul al modelo de tres estados. Nos interesa ver como
estan yuxtapuesto los ACF de ambos modelos con respecto al ACF de las observaciones. Esta claro
que los ACF del modelo con tres estados corresponden bien con el ACF de las observaciones hasta
aproximadamente el rezago 6, mientras que el modelo con 2 estados coincide hasta el rezago 9.
Sin embargo, se pueden aplicar diagnosticos mas sistematicos, como se mostrara a continuacion.
0.0
0.2
0.4
0.6
0.8
1.0
Rezago0 1 2 3 4 5 6 7 8 9 10 11 12
Figura 5-4.: ACF para la serie homicidios y ACF de los PHMM con dos y tres estados.
5.1 Aplicacion 69
Verificacion de supuestos del PHMM
En este caso hemos elegido el BIC como criterio para la seleccion del mejor modelo como mostra-
mos anteriormente, sin embargo sigue existiendo el problema de decidir si el modelo es realmente
adecuado; por lo tanto se necesitan herramientas para evaluar la bondad general del ajuste del
modelo e identicar valores atıpicos en relacion con el modelo. En el contexto mas simple como
por ejemplo los modelos de regresion (teorıa normal), el papel que juegan los residuales como
herramienta para la vericacion del supuesto del modelo esta muy bien establecido, entre estos
supuestos estan la normalidad de los residuales, la homocedasticidad y la independencia de es-
tos. Los pseudo-residuos (tambien conocidos como residuos quantılicos) que se ilustraron en la
seccion tres tienen la intencion de cumplir esta funcion de manera mucho mas general, y que son
utiles en el contexto de los HMM.
0 10 20 30 40 50 60
−4
−2
02
4
tiempo
Pse
udo−
Res
idua
les
−2 −1 0 1 2
−2
−1
01
2
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Den
sity
−2 −1 0 1 2
0.0
0.2
0.4
0.6
0 5 10 15
−0.
20.
20.
61.
0
Lag
AC
F
Figura 5-5.: Graca de los pseudo-residuales ordinarios para el PHMM de 2 estados.
70 5 Resultados
En la la superior izquierda de la Figura 5-5 se muestra el graco de los pseudo residuales nor-
males del PHMM, con lıneas horizontales en 0, ±1.96 y ±2.58. Mientras en la parte superior
derecha se presento el graco de cuantil-cuantil de los pseudo-residuos normales en el eje y, con
los cuantiles teoricos en el eje x. En la parte izquierda de la la inferior se encuentra el histograma
de los pseudo residuales normales, y en la parte derecha la funcion de autocorrelacion muestral de
los pseudo-residuos normales. Efectivamente los pseudo-residuales parecen distribuirse normal-
mente, sin embargo realizamos la prueba de Shapiro-Wilks para vericar este supuesto, donde el
p-valor es 0.7529, por lo tanto no podemos rechazar la hipotesis nulaH0, y concluimos que hay su-
ciente evidencia estadıstica para decir que los pseudo-residuos se distribuyen normalmente con
un nivel de conanza del 95 %. Ademas todos los puntos estan dentro de las bandas de conanza,
sin embargo el histograma no parece acomodarse en todos sus puntos a la curva de la distribucion
normal, y el mayor problema es que los pseudo-residuales parecen estar correlacionados, hasta
el rezago 3.
Algoritmo Viterbi
El algoritmo Viterbi, permite realizar la decodicacion global de los estados clasicando a cada
una de las observaciones en su correspondiente estado, indicando la secuencia mas probable de
los estados ocultos. Para la serie homicidios de 59 observaciones, el algoritmo Viterbi clasico 40
observaciones en el estado 1 y 19 en el estado 2. En la gura 5-6 se visualiza el algoritmo viterbi,
y las distribuciones marginales para cada estado. La decodicacion global (algoritmo Viterbi)
es el objetivo principal en muchas aplicaciones, especialmente cuando existen interpretaciones
importantes para los estados. Sin embargo los estados no observados en el modelo, no siempre
necesitan tener interpretaciones sustantivas, pues se consideran artefactos utiles para adaptarse
a la heterogeneidad no explicada y la dependencia serial de los datos.
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Tabla 5-6.: Resultados de la decodicacion global con el algoritmo Viterbi.
Se realiza la prediccion de los estados mas probables para los proximos 16 anos y el pronostico de
la distribucion para estos mismos anos. Como se observa en la gura 5-7 a medida que el horizonte
del pronostico h aumenta, la distribucion de pronostico converge a la distribucion marginal del
HMM estacionario. En la Tabla 5-7, se observa que el pronostico de los estados, para los proximos
16 anos es el estado 1, es decir que se espera una tasa de homicidios por cada 100.000 habitantes
cercana a 29, la cual sigue siendo alta ya que segun datos de la ONUDD (Ocina de Naciones
Unidas contra la Droga y el Delito), en sur America la tasa se situa en 20/100.000 homicidios, lo
que indica que la tasa de homicidios en Colombia esta por encima de la region. Ademas cifras de
la scalıa indican que despues de haber disminuido la tasa de homicidios en los ultimos anos, a
5.1 Aplicacion 71
Año
Núm
ero
1960 1970 1980 1990 2000 2010 2020
2030
4050
6070
80
20 40 60 800.
000.
010.
020.
030.
040.
050.
0620 40 60 80
0.00
0.01
0.02
0.03
0.04
0.05
0.06
Figura 5-6.: Algoritmo Viterbi aplicado a un PHMM de dos estados.
partir del 2018 hubo un incremento del 3.25 %, de este delito siendo caso crıticos las ciudades de
Medellın, bajo Cauca y Tumaco, mientras la capital sigue con tendencia a la baja.
Ano Estado 1 Estado 2 Estado
2019 0.9802 0.0198 1
2020 0.9621 0.0379 1
2021 0.9456 0.0544 1
2022 0.9304 0.0696 1
2023 0.9164 0.0836 1
2024 0.9037 0.0963 1
2025 0.8920 0.1080 1
2026 0.8813 0.1187 1
2027 0.8714 0.1286 1
2028 0.8624 0.1376 1
2029 0.8542 0.1458 1
2030 0.8467 0.1533 1
2031 0.8397 0.1603 1
2032 0.8334 0.1666 1
2033 0.8276 0.1724 1
2034 0.8223 0.1777 1
Tabla 5-7.: Prediccion para las probabilidades de los estados hasta un rezago h = 16.
72 5 Resultados
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2019
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2020
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2021
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2022
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2023
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2024
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2025
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2026
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2027
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2028
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2029
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2030
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2031
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2032
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2033
conteo
prob
abili
dad
10 30 50 70
0.00
0.02
0.04
0.06
0.08
0.10
Dist. pronós. 2034
conteo
prob
abili
dad
Figura 5-7.: Pronostico de la distribucion para los anos 2019 a 2034.
5.1 Aplicacion 73
Estimacion Bayesiana del PHMM
Primero se ajustaron cuatro modelos de 2 a 5 estados, con la funcion bayes.PHMM del paquete Ba-
yeshmmcts que estima los parametros de los modelos utilizando NUTS, a continuacion se estimo
la log - verosimilitud marginal, utilizando muestreo por puente como alternativa a las propuesta
hecha por Newton & Raery (1994) que sugiere utilizar la verosimilitud integrada, para hallar
el estimador de la media armonica de los valores de la verosimilitud de una muestra obtenidas
a partir la distribucion a posteriori. Pero como se vio en la seccion (4), aunque el estimador es
consistente tiene un gran problema varianza innita. Mientras que en el muestreador por puente,
el estimador no presenta ese problema y puede implementarse facilmente utilizando la funcion
bridgesampler del paquete bridgesampling, del autor Gronau et al. (2017). El paquete bridgesam-pling, ademas permite calcular el error de la estimacion para la verosimilitud marginal, obtenido
vıa muestreo por puente que en el caso del modelo con dos estados, el error es de 0.478 %.
El factor de Bayes es una alternativa bayesiana a la prueba de hipotesis clasica. Para la compa-
racion de modelos, el factor Bayes cuantica la fuerza de la evidencia de un modelo sobre otro,
independientemente de si estos modelos son correctos. Esto se debe a que el factor de Bayes
nos permite evaluar los datos a favor de una hipotesis nula y utilizar informacion externa para
hacerlo, dando un peso de la evidencia a favor de una hipotesis dada.
Suponga que queremos comparar dos hipotesis, H0 (la hipotesis nula) y H1 (la hipotesis alterna-
tiva), entonces el factor de Bayes lo denotamos como B01, y se dene matematicamente como:
B01 =verosimilitud de los datos dado H0
verosimilitud de los datos dado H1
=P (D|H0)
P (D|H1)
El factor de Bayes es un numero positivo, y una de las interpretaciones mas comunes es esta:
propuesta por primera vez por Harold Jereys (1961) y modicada ligeramente por Lee y Wagen-
makers en 2013, que se encuentra en la siguiente Tabla.
B01 Decision
>100 Evidencia extrema para H0
30 - 100 Evidencia muy fuerte para H0
10 - 30 Evidencia fuerte para H0
3 - 10 Evidencia moderada para H0
1 - 3 Evidencia apenas mencionable para H0
1 No hay evidencia
1/3 - 1 Evidencia apenas mencionable para H1
1/10 - 1/3 Evidencia moderada para H1
1/30 - 1/3 Evidencia fuerte para H1
1/100 - 1/30 Evidencia muy fuerte para H1
< 1/100 Evidencia extrema para H1
Tabla 5-8.: Interpretacion del factor de Bayes, Lee y Wagenmakers (2013).
74 5 Resultados
Ahora utilizamos el factor de bayes para contrastar los modelos con K-estados de a parejas, y
seleccionar el mas adecuado, en la Tabla 5-9 se ilustra el contraste de hipotesis, donde las las
indican P (D|H0) y las columnas P (D|H1). Por ejemplo en el contraste de hipotesis entre el
modelo de 4 estados vs el modelo de 5 estados, el valor obtenido fue B01 = 128023, lo que indica
evidencia extrema para H0, es decir el modelo de 4 estados es mas apropiado que el de 5 estados.
Ahora para el modelo de 3 estados vs el de 4 y 5 estados los valores respectivos de los contrastes
son B01 = 766 y B01 = 125542040, lo que indica que el modelo de 3 estados es mas apropiado
que el 4 y 5 estados.
mod 3 Estados mod 4 Estados mod 5 Estados
mod 2 Estados 3.36 2545.85 390147608.00
mod 3 Estados 766.05 125542040.00
mod 4 Estados 128023.00
Tabla 5-9.: Comparacion resultados Factor de Bayes para los PHMM.
Finalmente de la anterior Tabla se concluye que el modelo mas apropiado es el de orden 2 pues
fue el unico que vencio en todos sus contrastes. Para este analisis se corrieron 5.000 iteraciones
con 3 cadenas y las primeras 2.500 iteraciones de calentamiento adelgazando la cadena cada 3
iteraciones; con tasa de aceptacion para la funcion objetivo en el metropolis de 0.99. Note que
muchos de los valores utilizados son bastante pequenos, pues NUTS tiene la ventaja de necesitar
pocas iteraciones para eliminar la autocorrelacion propia de las cadenas de Markov, sin embar-
go mas adelante se utilizan pruebas estadısticas que determinan si los valores muestreados son
apropiados. A continuacion mostramos las estimaciones bayesianas de los parametros del PHMM
esto incluye la matriz de transicion y el vector de medias de los estados dependientes:
Media Err.Sta Desv 2.5 % 25 % 50 % 75 % 97.5 % n e R
a11 0.953 0.001 0.032 0.873 0.935 0.961 0.977 0.994 2491.677 1.000
a12 0.047 0.001 0.032 0.006 0.023 0.039 0.065 0.127 2491.677 1.000
a21 0.099 0.001 0.065 0.014 0.051 0.084 0.133 0.257 2417.781 1.000
a22 0.901 0.001 0.065 0.743 0.867 0.916 0.949 0.986 2417.781 1.000
λ1 29.715 0.018 0.871 28.097 29.111 29.684 30.299 31.460 2456.451 1.001
λ2 62.849 0.039 1.961 59.068 61.491 62.811 64.184 66.735 2560.484 1.000
lp -210.558 0.030 1.426 -214.125 -211.268 -210.260 -209.512 -208.739 2200.204 1.002
Tabla 5-10.: Estimacion bayesiana de los parametros para un PHMM.
Para cada parametro estimado a partir de las muestras obtenidas por MCMC se calculo, la media
de las tres cadenas fusionadas. Tambien se calculo el error estandar que nos indica la desviacion
estandar de las estimaciones con respecto al valor real de los parametros. A partir de los valores
obtenidos de las tres cadenas, se calculo la desviacion estandar, que para este caso indica una
5.1 Aplicacion 75
Año
Núm
ero
1960 1970 1980 1990 2000 2010 2020
2030
4050
6070
80
20 40 60 800.
000.
010.
020.
030.
040.
050.
0620 40 60 80
0.00
0.01
0.02
0.03
0.04
0.05
0.06
Figura 5-8.: Algoritmo Viterbi aplicado a un PHMM de dos estados.
dispersion muy pequena para la m.t.p. y el vector de medias de los estados dependientes. Se
calcularon los intervalos de credibilidad al 95 %, y la mediana de las estimaciones que como vemos
distan muy poco de la media, lo que indica que en el proceso de muestreo no hubo valores atıpicos
o extremos.
La ultima lınea de esta salida, lp, es el logaritmo de la densidad posterior (no normalizada) calcu-
lada por Stan. Esta log densidad puede utilizar de varias maneras, por ejemplo para la evaluacion
y comparacion de modelos. La penultima columna es n e es el tamano de muestra efectivo y R
es el valor de un estadıstico que se explica mas adelante.
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
Tabla 5-11.: Resultados de la decodicacion global bayesiana para el PHMM de orden 2, con el
algoritmo Viterbi.
Hay dos estadısticas de diagnostico realmente importantes ocultas en este resumen:
n eff : Es el tamano efectivo de la muestra.
R: Es la “estadıstica de reduccion de escala de potencial de Gelman y Rubin”.
n eff mide el tamano de muestra efectivo de ese parametro en particular. Recuerde que cada
iteracion del HMC se basa en el valor del parametro de la iteracion anterior. Si el algoritmo fun-
ciona correctamente, el parametro elegido en la siguiente iteracion sera independiente del valor
76 5 Resultados
del parametro inicial (esto es lo que hace el “adelgazamiento” en los metodos MCMC y en el HMC).
Sin embargo, si el HMC no esta realizando un trabajo muy eciente al muestrear el espacio de
parametros, es mas probable que los valores de los parametros para una iteracion dada esten cer-
ca a los valores de los parametros en la ultima iteracion. Esto signica que estos parametros no
son realmente independientes. Por ejemplo si se obtienen 1000 muestras de una distribucion a
posteriori, el numero de muestras verdaderamente “independientes.es
menor.
Entonces, n eff es la cantidad de muestras efectivamente independientes en todas las cadenas.
En este caso, tenemos 3 cadenas, con 5000 iteraciones, la mitad de las cuales son de calentamiento,
lo que signica que muestreamos 2500 iteraciones en cada cadena, por lo que el maximo n eff
posible es de 7500.
De la Tabla 5-10, se observa que para las estimaciones de cada uno de los parametros el tamano
de muestra efectivo (n e), esta alrededor de 2500 de 7500 posibles, considerando que se hizo un
periodo de burning de 2500 muestras, se muestreo aproximadamente la mitad de las iteraciones.
Hay Hay una forma sencilla para vericar si el numero de muestras efectivas por iteracion es el
adecuado; si n eff/n < 0.001 se debe sospechar del calculo efectivo del tamano de la muestra.
Por ejemplo para lp : 2200/7500 = 0.293 es decir el tamano de muestra efectivo parece ser ade-
cuado. Sin embargo tecnicas mas sosticadas como el estadıstico R nos ayuda a saber si estos
parametros estan bien muestreados. Mas o menos R dice si cada una de las cadenas ha alcanzado
o no una distribucion a posteriori estable, a pesar de comenzar con diferentes valores iniciales.
Gelman recomienda que R para cada parametro sea inferior a 1.1. En la parte izquierda de la gura
Estado 1 Estado 2 Estado
2019 0.9533 0.0467 1
2020 0.9134 0.0866 1
2021 0.8793 0.1207 1
2022 0.8502 0.1498 1
2023 0.8253 0.1747 1
2024 0.8040 0.1960 1
2025 0.7859 0.2141 1
2026 0.7703 0.2297 1
2027 0.7571 0.2429 1
2028 0.7457 0.2543 1
2029 0.7361 0.2639 1
2030 0.7278 0.2722 1
2031 0.7207 0.2793 1
2032 0.7147 0.2853 1
2033 0.7095 0.2905 1
2034 0.7051 0.2949 1
Tabla 5-12.: Prediccion bayesiana para las probabilidades de los estados hasta un rezago h = 16.
5.1 Aplicacion 77
5-8 y en la Tabla 5-11, se muestra la decodicacion global de la secuencia de estados mas proba-
bles, para la serie homicidios en Colombia. Como se vio en secciones pasadas el algoritmo Viterbi
funciona de forma recursiva; encontrando el estado mas probable al tomar el maximo sobre todas
las posibles secuencias de estados anteriores. Para la secuencia de observaciones homicidios en
Colombia tanto el modelos clasico como el modelo bayesiano de dos estados, dieron exactamente
los mismos resultados. Mientras que la parte derecha de la gura 5-8 muestra las distribuciones
marginales, utilizadas para hacer el pronostico de las distribuciones para un rezago h dado.
La Tabla 5-12 muestra, las probabilidades correspondientes a la prediccion de los rezagos para
un h ∈ N. El error de la prediccion aumenta a medida que crece el horizonte en el tiempo, por
ejemplo para los dos proximos anos 2019 y 2020, la probabilidad de estar en el estado 1 es mayor
al 90 % mientras que para los anos 2033 y 2034, la probabilidad de estar en el estado 1 se reduce
a un 70 %. El pronostico indica que los proximos 16 anos se espera que la tasa de homicidios se
encontrara en el estado 1, es decir alrededor 30 muertes por cada 100.000 habitantes.
Diagnosticos de la cadena
En esta seccion se vericara el diagnostico de convergencia de las cadenas utilizadas en la extrac-
cion de las muestras. Para los metodos MCMC ajustados con Stan, ya sea el Monte Carlo Hamil-
toniano (HMC) o No-U-Turn-Sampler (NUTS), el paquete bayesplot y coda, cuenta con una serie
de herramientas gracas y pruebas diagnosticas para despues del ajuste de modelos bayesianos.
El graco de trazas de la gura 5-9, muestra por cada una de las iteraciones los valores mues-
treados correspondiente a una o mas cadenas de Markov, separado por parametro. Las cadenas
proporcionan una forma visual para inspeccionar el comportamiento de muestreo y evaluar la
mezcla a traves de las cadenas y la convergencia. Las tres cadenas utilizadas para muestrear los
valores de la m.t.p A y el vector de medias de los estados dependientes λ, parecen comportarse
de manera estacionara con un mınimo de muestras divergentes, mas adelante se comprobara esta
hipotesis con pruebas mas avanzadas.
La gura 5-11 muestra los histogramas univariados y diagramas de dispersion bivariados para
los parametros de la matriz de transicion de probabilidad y para el vector de medias de los estados
dependientes, especialmente util para identicar la colinealidad entre variables (que se maniesta
como gracos bivariados estrechos), ası como la presencia de no-identicabilidad multiplicativa
(formas tipo platano). En sentido estricto, la no identicabilidad signica que dos valores de los
parametros dan como resultado la misma distribucion de probabilidad de los datos observados.
Algunas veces tambien se usa para cubrir situaciones en las que no hay un maximo local unico de
la densidad posterior, ya sea porque hay multiples maximos separados o porque hay una meseta
donde un conjunto de puntos tiene la misma densidad posterior (estos pueden o pueden No ser
identicable en sentido estricto). Segun la gura 5-11 parece no haber problemas con la identi-
cabilidad, es decir que no existen problemas que senalen divergencias, lo unico que se observa es
colinealidad entre los parametros de las las de la matriz de transicion, sin embargo recordemos
por denicion que la suma de las las de la m.t.p. suman 1, por lo tanto estan de por si correlacio-
78 5 Resultados
nadas. En consecuencia el modelo es identicable y nos estamos asegurando que las inferencias
no estan sesgadas.
A[2,2] lambda[1] lambda[2]
A[1,1] A[1,2] A[2,1]
2500 3000 3500 4000 4500 5000 2500 3000 3500 4000 4500 5000 2500 3000 3500 4000 4500 5000
2500 3000 3500 4000 4500 5000 2500 3000 3500 4000 4500 5000 2500 3000 3500 4000 4500 5000
0.0
0.1
0.2
0.3
0.4
55
60
65
70
0.00
0.05
0.10
0.15
28
30
32
0.85
0.90
0.95
1.00
0.6
0.7
0.8
0.9
1.0
chain
1
2
3
Figura 5-9.: Graco de trazas de las cadenas, para cada iteracion y por cadena.
Los intervalos de credibilidad de la gura 5-10, para los parametros calculados a partir de las
muestras aposterioris con todas las cadenas fusionadas. Los resultados indican valores consis-
tentes en las estimaciones de los parametros, pues la longitud del intervalo es bastante pequena
como se mostrara mas adelante.
La prueba de convergencia de la Tabla 5-13 utiliza la estadıstica de Cramer-von-Mises para probar
la hipotesis nula de que los valores muestreados provienen de una distribucion estacionaria. La
prueba se aplica sucesivamente, primero a toda la cadena, luego, despues de descartar el primer
10 %, 20 %, … de la cadena hasta que se acepte la hipotesis nula, o se haya descartado el 50 % de
la cadena. El ultimo resultado constituye un fallo de la prueba de estacionariedad e indica que se
necesita una ejecucion MCMC mas larga. Si se pasa la prueba de estacionariedad, se informa el
numero de iteraciones a mantener y el numero a descartar.
La prueba de medio ancho calcula un intervalo de conanza del 95 % para la media, utilizando
la parte de la cadena que paso la prueba de estacionariedad. La mitad del ancho de este intervalo
5.1 Aplicacion 79
A[2,2]
A[2,1]
A[1,2]
A[1,1]
0.00 0.25 0.50 0.75 1.00
lambda[2]
lambda[1]
30 40 50 60 70
Figura 5-10.: Intervalos de credibilidad al 0.95 PHMM.
se compara con la estimacion de la media. Si la relacion entre la mitad del ancho y la media es
menor que ε, se pasa la prueba de medio ancho. De lo contrario, la longitud de la muestra no se
considera lo sucientemente larga como para estimar la media con suciente precision.
P. Estacionariedad Valor p Prueba Media Medio.Ancho
a11 paso 0.396 paso 0.953 0.001
a21 paso 0.978 paso 0.099 0.002
a12 paso 0.396 paso 0.047 0.001
a22 paso 0.978 paso 0.901 0.002
λ1 paso 0.569 paso 29.701 0.034
λ2 paso 0.862 paso 62.742 0.079
lp paso 0.440 paso -210.525 0.062
Tabla 5-13.: Prueba de estacionariedad, usando el estadıstico de Cramer-von-Mises para la con-
vergencia de la cadena y prueba de medio ancho para la media calculando el inter-
valo de conanza al 0.95.
80 5 Resultados
0.800.850.900.951.00
A[1,1]
0.85
0.90
0.95
1.00
0.000.050.100.15
0.85
0.90
0.95
1.00
0.00.10.20.30.4
0.85
0.90
0.95
1.00
0.60.70.80.91.0
0.85
0.90
0.95
1.00
28 30 32
0.85
0.90
0.95
1.00
60 64 68
0.00
0.05
0.10
0.15
0.850.900.951.00 0.000.050.100.150.20
A[1,2]
0.00
0.05
0.10
0.15
0.00.10.20.30.40.00
0.05
0.10
0.15
0.60.70.80.91.00.00
0.05
0.10
0.15
28 30 320.00
0.05
0.10
0.15
60 64 68
0.0
0.1
0.2
0.3
0.4
0.850.900.951.000.0
0.1
0.2
0.3
0.4
0.000.050.100.15 0.0 0.1 0.2 0.3 0.4
A[2,1]
0.0
0.1
0.2
0.3
0.4
0.60.70.80.91.00.0
0.1
0.2
0.3
0.4
28 30 320.0
0.1
0.2
0.3
0.4
60 64 68
0.6
0.7
0.8
0.9
1.0
0.850.900.951.000.6
0.7
0.8
0.9
1.0
0.000.050.100.150.6
0.7
0.8
0.9
1.0
0.00.10.20.30.4 0.6 0.7 0.8 0.9 1.0
A[2,2]
0.6
0.7
0.8
0.9
1.0
28 30 32
0.6
0.7
0.8
0.9
1.0
60 64 68
27282930313233
0.850.900.951.0027282930313233
0.000.050.100.1527282930313233
0.0 0.1 0.2 0.3 0.427282930313233
0.6 0.7 0.8 0.9 1.0 28 30 32
lambda[1]
28
30
32
60 64 68
55
60
65
70
0.850.900.951.0055
60
65
70
0.000.050.100.1555
60
65
70
0.0 0.1 0.2 0.3 0.455
60
65
70
0.6 0.7 0.8 0.9 1.055
60
65
70
27282930313233 55 60 65 70
lambda[2]
Figura 5-11.: Graco de dispersion para las muestras MCMC.
5.1 Aplicacion 81
Comparacion PHMM clasico vs Bayesiano
Para realizar la inferencia para los parametros bajo el enfoque clasico se calcularon los intervalos
de conanza. Para calcular los IC exactos se necesita estimar la matriz de varianzas y covarianzas
de los parametros Θ = (A, λ), y los errores estandar pueden ser calculados a partir de la matriz
Hessiana maximizando la log-verosimilitud sin embargo este enfoque tiene dicultades cuando
algunos de los parametros estan en el lımite de su espacio de parametros, lo que ocurre con bas-
tante frecuencia cuando se ajustan los HMM. (Cappe et al. 2005, cap. 12) demostro que bajo ciertas
condiciones de regularidad, los EMV de los parametros de los HMM son consistentes, ecientes
y asintoticamente normales. Por lo tanto, si se pueden estimar los errores estandar de los EMV,
se puede utilizar normalidad asintotica, para calcular los intervalos de conanza aproximados.
El problema es que en la mayorıa de modelos con mezclas independientes, las condiciones de
regularidad no se cumplen ademas de la restriccion para conjuntos de datos pequenos, pues para
aplicar teorıa asintotica n debe ser bastante grande.
El metodo bootstrap descrito en MacDonald & Zucchini (2009, cap. 3.6) fue desarrollado por Efron
& Tibshirani (1993), y surge como alternativa para estimar el valor de los intervalos de conan-
za directamente, siendo esta una tecnicas de remuestreo disenadas para aproximar la funcion de
distribucion de probabilidad de los datos mediante una funcion empırica de una muestra nita.
El boostrap parametrico tambien llamado “metodo de percentil”, en terminos generales, busca
estimar la matriz de varianza-covarianza del modelo con parametros Θ para evaluar las propie-
dades del modelo con parametros Θ. Para estimar los intervalos de conanza, se utilizo la fun-
cion pois.HMM.generate sample(n, modelo) del paquete Bayeshmmcts, que lo que hace es generar
realizaciones de longitud n de un modelo HMM. Entonces a partir del PHMM de 2 estados se
generaron 250 muestras independientes con longitud 59 igual a la serie homicidios en Colombia,
para calcular la matriz de varianzas-covarianzas y a partir de esta los respectivos IC.
Intervalos de Credibilidad Intervalos de Conanza
Parametros Media 2.5 97.5 Ancho Media 2.5 97.5 Ancho
a11 0.953 0.873 0.994 0.120 0.980 0.844 1.000 0.156
a21 0.099 0.014 0.257 0.244 0.064 0.015 1.000 0.985
a12 0.047 0.006 0.127 0.120 0.020 0.000 0.156 0.156
a22 0.901 0.743 0.986 0.244 0.936 0.000 0.985 0.985
λ1 29.715 28.097 31.460 3.363 29.716 27.689 31.648 3.959
λ2 62.849 59.068 66.735 7.667 62.813 30.140 68.497 38.357
Tabla 5-14.: Intervalos de Credibilidad y Conanza para el PHMM de 2 estados.
Mientras que los intervalos de credibilidad son los mismos de la Tabla 5-10 fueron calculados
utilizando NUTS a partir de las distribuciones a posteriori de los parametros de las muestras ge-
neradas por MCMC. Nota: Para los intervalos de conanza y credibilidad el α se jo en 5 %.
82 5 Resultados
Para determinar cual de estos metodos es mas ecaz, y observar el comportamiento de los inter-
valos propuestos, se utilizo el ancho del intervalo. Un buen metodo debe tener valores pequenos
para el valor esperado y varianza de la longitud del intervalo; con probabilidades de cobertura
cercanas a los niveles de conanza nominal. La longitud del intervalo indica la precision de las
estimaciones, se muestran en la Tabla 5-14, junto con la media de las estimaciones en el caso
Bayesiano y el estimador de maxima verosimilitud para el caso clasico. Los resultados obtenidos
indican que los intervalos de credibilidad presentan una menor longitud es decir mayor precision.
Por lo que en este caso podrıamos decir que las estimaciones bayesianas son mas precisas y por
lo tanto el enfoque bayesiano parece ser el mas apropiado. Finalmente, aunque el intervalo de
credibilidad diere de la interpretacion del intervalo de conanza, permite juzgar la incertidum-
bre estadıstica para la tasa de homicidios suponiendo el PHMM subyacente valido. Mientras el
intervalo de conanza indica que el 95 % de los intervalos de conanza generado por un mismo
procedimiento incluyen el verdadero valor del parametro. El intervalo de credibilidad representa
con una probabilidad del 95 % que el intervalo incluya el verdadero valor de la poblacion objetivo
siempre que el modelo adoptado sea valido.
5.1 Aplicacion 83
5.1.3. Modelo Oculto de Markov - Poisson Cero inflado
En esta seccion utilizaremos, los datos de incendios forestales en Colombia, desde enero del 2001
hasta diciembre del 2016. La variable de interes es el numero de grandes incendios forestales (GIF),
que son aquellos incendios que superan las 500 hectareas forestales afectadas. La periodicidad de
los datos es mensual con un total 180 observaciones y pueden visualizarse en la Tabla 5-2. Allı
observamos que hay una alta proporcion de ceros en los datos, pues de las 180 observaciones
57 son cero, es decir el 31.7 % de los datos registrados. Por otra parte el numero maximo de GIF
ocurridos en un mes en Colombia fue de 103 para el mes de Enero del 2010, lo cual es preocupante;
pues aunque los incendios forestales naturales han ocurrido desde siempre como un elemento
normal en el funcionamiento de los ecosistemas, si estos se expanden de manera descontrolada
ocasionan un impacto social y ambiental, aumentando los niveles de dioxido de carbono en la
atmosfera, contribuyendo al efecto invernadero y al cambio climatico. El fuego ha permitido la
regeneracion de diversos ecosistemas y la produccion de una serie de habitats en los que distintos
organismos pueden prosperar. No obstante notemos que el promedio de GIF se ubico en 1.3±3.5
incendio por mes, haciendo que la enorme proliferacion de los incendios a causa de la actividad
humana en estas ultimas decadas sobrepasa la capacidad de recuperacion natural.
Año
Núm
ero
020
4060
8010
0
2002 2004 2006 2008 2010 2012 2014 2016
Figura 5-12.: Serie de tiempo Grandes Incendios Forestales en Colombia desde el ano 2002 hasta
el ano 2016.
84 5 Resultados
En la gura 5-12, se observan dos picos altos en el 2007 y el 2010. Despues del ano 2011 la cero in-
acion disminuye considerablemente y el numero de incendios en gran parte de los meses parece
estar por encima de 5, este fenomeno se presenta de manera recurrente en gran parte del paıs,
en especial durante los periodos secos prolongados, durante los cuales los ecosistemas tropicales
humedos y muy humedos pierden parte de los contenidos de humedad supercial e interior, in-
crementando sus niveles de susceptibilidad y amenaza hacia la combustion de la biomasa vegetal
que los compone. En la Tabla 5-2 se encuentran todos los datos de GIF en Colombia. Para de-
terminar si existe correlacion entre los GIF de cada mes, se calcula la funcion de autocorrelacion
muestral, la gura 5-13 indica no solo la existencia de la dependencia serial sino una estructura
estacional.
0 1 2 3 4 5 6
−0.
20.
00.
20.
40.
60.
81.
0
Rezago
AC
F
0 1 2 3 4 5 6
−0.
20.
00.
20.
40.
60.
81.
0A
CF
0 20 40 60 80 100
0.00
0.02
0.04
0.06
N = 180 Bandwidth = 3.15
Den
sida
d
Figura 5-13.: Funcion de autocorrelacion muetral, y kernel de densidad para la serie Grandes
Incendios Forestales en Colombia (2002-2016).
Al revisar la Tabla 5-2, identicamos que la mayorıa de grandes incendios forestales ocurrieron
en el primer semestre y en segundo lugar en el tercer semestre del ano. Lo cual coincide con el
informe del IDEAM, sequıa meteorologica y sequıa agrıcola en Colombia: Incidencia y Tenden-
cias, donde se identico de manera general que en Colombia el primer semestre es poco lluvioso,
debido a la sequıa meteorologica2
y a la sequıa estacional.3
Finalmente el IDEAM concluye, que
2Sequıa Meteorologica: Se reere exclusivamente a la escasez de lluvia durante un perıodo determinado
3Sequıa Estacional: Se relaciona con el comportamiento climatico en los patrones de circulacion. Generalmente se
presenta invariablemente cada ano, durante los mismos meses.
5.1 Aplicacion 85
la intensidad y extension territorial de la sequıa, esta estrechamente ligada con la aparicion de
un evento El Nino, dado que los anos de mayor incidencia, son aquellos en que tiene lugar el
fenomeno.
La densidad para la serie GIF de la gura 5-13, muestra diferentes picos, concentrandose los va-
lores principalmente entre cero y diez. Lo cual hace difıcil identicar a simple vista la cantidad
de estados que tendrıa el HMM ajustado.
Ajuste del ZIP-HMM
Se ajustaron seis modelos ZIP-HMM con 2 a 6 estados, utilizando el paquete ziphsmm creado por
Zekun Xu, que permite ajusar modelos ocultos de Markov - Poisson Cero Inados, estimando
los parametros vıa directa minimizacion de la funcion − log verosimilitud usando el algoritmo
descenso del gradiente. Se utilizo el metodo de Nelder-Mead con 1.000 iteraciones con el n de
evitar maximos locales. En la Tabla 5-15 se registro para cada modelo el numero de parametros
estimados p, la log-verosimilitud, el criterio de informacion de Akaike (AIC) y el criterio de in-
formacion bayesiano (BIC).
Para seleccionar el modelo mas apropiado, se debe escoger el mınimo valor del AIC, en este caso
es el ZIP HMM de 6 estados con un Akaike de 1101, sin embargo el criterio de Schwarz con un
valor de 1176 indica que el modelo mas apropiado es el de orden 4, esta es una dicotomıa que
puede presentarse en ocasiones. Sin embargo decidimos escoger como criterio el BIC para la se-
leccion del modelo por dos razones principalmente. Primero porque el BIC generalmente penaliza
parametros libres con mas fuerza de lo que lo hace el Akaike, y segundo porque para calcular el
modelo de 6 estados es necesario estimar el doble de parametros con respecto al de 4, haciendo-
lo mas costoso computacionalmente, pues con cada estado adicional el numero de parametros a
estimar crece de manera sustancial.
Modelo p logL AIC BIC
1 ZIP HMM - 2 Estados 6 764.61 1541.23 1560.39
2 ZIP HMM - 3 Estados 12 592.81 1209.62 1247.94
3 ZIP HMM - 4 Estados 20 536.07 1112.15 1176.014 ZIP HMM - 5 Estados 30 521.87 1103.74 1199.53
5 ZIP HMM - 6 Estados 42 508.60 1101.20 1235.31
6 ZIP HMM - 7 Estados 56 510.79 1133.58 1312.39
Tabla 5-15.: Datos incendios: comparacion de modelos ocultos de Markov (Cero inados) por
AIC y BIC.
En la gura 5-14 se puede visualizar de una manera mas clara el cambio en las magnitudes de los
criterios de informacion, para los modelos ZIP-HMM con diferentes estados. Para el Akaike no
parece haber diferencias importantes entre los modelos de 4, 5 o 6 estados, mientras que el BIC
sugiere que los modelos de 4 o 5 estados serıan los mas apropiados.
86 5 Resultados
2 3 4 5 6 7
1000
1200
1400
1600
Número de estados
AIC
BIC
Figura 5-14.: Serie incendios: seleccion de modelos AIC y BIC.
A continuacion se muestran las estimaciones de la m.t.pA para el ZIP-HMM de orden 4, junto con
el vector de medias de los estados dependientes λ, la distribucion estacionaria π y el parametro de
proporcion de cero inacion θ. Este modelo asume que la cero inacion solo ocurre en el estado
1, es por esos que al observar a λ el vector de medias de estado-dependientes λ1 tiene el valor
mas pequeno. De la m.t.p. A se deduce, que si se esta en el estado 1, lo mas probables es seguir
en este mismo estado con un valor de 82 %, mientras lo mas improbables es pasar del estado 1
al 4 con una probabilidad del 0.001. Para el ZIP-HMM estacionario de 4 estados, π2 indica que lo
mas factible es iniciar en el estado 2 con un 99 % de probabilidad, y a21 de la t.p.m. indica que lo
mas probables es pasar al estado 1 con un valor de 48 %. La proporcion de cero inacion θ para
la series GIF es de 44 %, asumiendo la cero inacion solo para el primer estado.
A =
0.820 0.154 0.025 0.001
0.483 0.335 0.131 0.050
0.168 0.329 0.499 0.004
0.004 0.329 0.346 0.320
λ = (2.763, 15.114, 43.147, 99.306) π = (0.002, 0.997, 0.001, 0.000) θ = 0.4440
5.1 Aplicacion 87
2 2 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1
1 2 1 1 1 1 1 1 2 1 1 1 1 2 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1
2 4 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2 2 3 2 1 2 4 4 3 1 1 1 1 1 1 1 1 1 2 2 1 1 1 1 1 2 2 1 1 1
2 2 2 1 1 1 3 3 3 1 1 1 3 3 3 2 1 1 2 2 3 2 1 1 2 3 2 2 1 1
3 3 3 1 1 1 2 2 2 1 2 1 2 3 3 2 1 2 3 3 3 2 1 1 1 2 2 1 1 1
Tabla 5-16.: Resultados de la decodicacion global con el algoritmo Viterbi, para el ZIP HMM.
Año
Núm
ero
2005 2010 2015
020
4060
8010
0
Figura 5-15.: Algoritmo Viterbi aplicado al ZIP-HMM de cuatro estados.
En la Tabla 5-16 se muestra la decodicacion global y en la gura 5-15, se gracaron los estados
para cada observacion. El estado 4 tiene una media de λ4 = 99, con 3 observaciones correspon-
dientes a los GIF de febrero del 2007, enero del 2010 y febrero del 2010. Mientras que el estado 3
con una media de 43 tiene 18 incendios, de los cuales la mayorıa ocurrieron en el tercer semestre
del ano, es decir en los meses julio, agosto y septiembre. En el estado 2 se clasicaron 41 incen-
dios con media de 15 y se identicaron que la mayorıa de estos incendios ocurrieron en el primer
semestre. Finalmente para el estado 1 con una media de 2.8 hubo 118 observaciones de los cuales
57 fueron GIF y ocurrieron en su mayorıa en el ultimo trimestre. El algoritmo Viterbi nos termina
de vericar que la serie tiene perıodos estacionales.
88 5 Resultados
Estimacion Bayesiana del ZIP HMM
Analogamente al caso de la serie homicidios a la cual se ajusto un PHMM, para la serie de homici-
dios se determinara el modelo mas apropiado utilizando el factor de bayes. Para esto se ajustaron
un total de seis modelos con estados 2, 3, 4, 5, 6 y 7. Como vimos anteriormente el factor de Ba-
yes permite evaluar los datos a favor de una hipotesis nula y utilizar informacion externa para
hacerlo. Dando peso de la evidencia a favor de una hipotesis dada.
Utilizando la notacion del factor de Bayes que notamos como B01 al contrastar dos hipotesis, H0
(la hipotesis nula) y H1 (la hipotesis alternativa), que se dene matematicamente como:
B01 =verosimilitud de los datos dado H0
verosimilitud de los datos dado H1
=P (D|H0)
P (D|H1)
Utilizando otra vez la interpretacion del factor de Bayes, que se encuentra en la Tabla 5-8, y
recordando que las las de la Tabla 5-17 corresponden a H0 y las columnas son H1; se tiene: que
mod 3 Est. mod 4 Est. mod 5 Est. mod 6 Est. mod 7 Est.
mod 2 Est. 0.00 0.00 0.00 0.00 0.00
mod 3 Est. 0.00 0.00 0.00 0.00
mod 4 Est. 0.02 1.78 1513518.00
mod 5 Est. 81.23 84986740.00
mod 6 Est. 956226.00
Tabla 5-17.: Comparacion resultados Factor de Bayes para los ZIP HMM.
Tanto el modelo de 2 como el de 3 estados no son apropiados, al perder en todos su contrastes
pues el valor de 0 indica evidencia extrema para H1. Por otra parte los resultados para el modelo
de 4 estados, indican que es mas apropiado que el de 6 y 7 estados, mas no que el de 5 estados.
El modelo de 6 estados es mejor que el de 7, y por ultimo los modelos de 5 vencio en todos sus
contrastes. Se concluye que el ZIP-HMM mas apropiado es el de 5 estados y en segundo lugar
el ZIP-HMM de orden 4.Con el n de comparar los resultados obtenidos de las estimaciones del
ZIP-HMM clasico vs el bayesiano, se decide ajustar el modelo con 4 estados.
La salida que arroja Stan, en la primera columna, es la media de las estimaciones para los 21
parametros mas lp la log−verosimilitud sin la constante de normalizacion, seguido del error y la
desviacion estandar que para este caso son bastante pequenos es decir hay poca dispersion en las
estimaciones, seguidos de los intervalos de credibilidad alrededor de la media y la mediana que es
casi identica a los valores de la media especialmente para θ el parametro de cero inacion y para
el vector de medias; mientras en la m.t.p. la media varia ligeramente de la mediana en algunos de
los parametros. Para este modelo se ajustaron 2.000 iteraciones con tres cadenas, la mitad de ellas
se queman como calentamiento es decir que el numero maximo de muestras efectivas debiera
ser de 3.000, sin embargo ocurre algo extrano en varios de los parametros n eff > N . Segun el
manual de Stan esto signica que los muestras que produce Stan son mejores que las muestras
5.1 Aplicacion 89
independientes para esos parametros, o en otras palabras el muestreo realizado por NUTS es super
eciente, antitetico y con sobre relajacion (Geyer 2011), esto ocurre porque en cada iteracion es
eliminada la correlacion entre las muestras lo cual ocurre en casos extremadamente raros, para
mas informacion revise el manual o foro de Stan. Finalmente Gelman et al. indica que el tamano
de muestra efectivo utilizado es el adecuado si R es menor a 1.1, es decir que en este caso el
muestreo fue optimo.
Media Err.Sta Desv 2.5 % 25 % 50 % 75 % 97.5 % n e R
θ 0.449 0.001 0.050 0.351 0.414 0.449 0.483 0.545 5219.355 0.999
λ1 2.868 0.004 0.266 2.371 2.684 2.866 3.047 3.408 4810.999 0.999
λ2 15.369 0.012 0.775 13.859 14.830 15.361 15.874 16.877 4492.668 0.999
λ3 43.153 0.040 1.807 39.600 42.040 43.143 44.300 46.658 2036.872 1.001
λ4 99.235 0.145 6.120 87.428 95.445 99.219 103.236 110.912 1790.696 1.001
a11 0.795 0.001 0.037 0.719 0.772 0.797 0.821 0.861 4587.670 0.999
a12 0.158 0.000 0.034 0.098 0.134 0.156 0.180 0.231 4676.747 0.999
a13 0.034 0.000 0.017 0.009 0.022 0.032 0.044 0.076 4870.506 1.000
a14 0.013 0.000 0.011 0.000 0.005 0.010 0.018 0.040 3815.711 0.999
a21 0.470 0.001 0.079 0.318 0.415 0.469 0.523 0.630 5238.938 0.999
a22 0.328 0.001 0.077 0.192 0.272 0.325 0.380 0.482 5096.108 0.999
a23 0.146 0.001 0.058 0.053 0.104 0.140 0.183 0.274 4306.099 1.000
a24 0.056 0.001 0.037 0.008 0.029 0.049 0.076 0.147 4611.951 1.000
a31 0.188 0.001 0.082 0.056 0.127 0.179 0.238 0.376 5736.173 1.000
a32 0.331 0.001 0.099 0.151 0.261 0.325 0.396 0.537 5985.893 0.999
a33 0.436 0.001 0.100 0.249 0.367 0.434 0.504 0.634 5179.787 1.000
a34 0.045 0.001 0.043 0.001 0.013 0.032 0.063 0.161 3481.429 1.000
a41 0.137 0.002 0.119 0.004 0.045 0.102 0.200 0.435 4984.285 0.999
a42 0.309 0.002 0.163 0.055 0.182 0.287 0.421 0.658 5002.104 0.999
a43 0.280 0.002 0.162 0.041 0.155 0.253 0.388 0.639 4855.509 1.000
a44 0.274 0.002 0.157 0.037 0.152 0.252 0.376 0.630 4757.794 0.999
lp -565.076 0.096 3.098 -572.077 -566.969 -564.699 -562.881 -559.905 1032.526 1.007
Tabla 5-18.: Estimacion bayesiana de los parametros para un ZIPH-MM de 4 estados.
El graco de trazas en la gura 5-16 proporcionan una forma visual para inspeccionar el compor-
tamiento de muestreo en cada uno de los 21 parametros de forma independiente, los resultados
obtenidos indican que las muestras de los parametros se comportan de forma estable alrededor de
la media. A simple vista parece haber convergencia en la mezcla de las cadenas y estacionariedad.
Sin embargo mas adelante se utilizaran otros metodos estadısticos para evaluar el muestreo de
los parametros. Dado el caso de la no convergencia en algunos casos la solucion sera aumentar
el numero de iteraciones.
En la estadıstica bayesiana, un intervalo de credibilidad es el equivalente bayesiano del intervalo
de conanza. Este intervalo tien el dominio de una distribucion de probabilidad a posteriori o una
90 5 Resultados
theta
A[4,1] A[4,2] A[4,3] A[4,4]
A[3,1] A[3,2] A[3,3] A[3,4]
A[2,1] A[2,2] A[2,3] A[2,4]
A[1,1] A[1,2] A[1,3] A[1,4]
lambda[1] lambda[2] lambda[3] lambda[4]
1000 1250 1500 1750 2000
1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000
1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000
1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000
1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000
1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 2000 1000 1250 1500 1750 200070
80
90
100
110
120
0.00
0.02
0.04
0.06
0.0
0.1
0.2
0.3
0.0
0.1
0.2
0.3
0.0
0.2
0.4
0.6
0.8
35
40
45
0.00
0.03
0.06
0.09
0.0
0.1
0.2
0.3
0.2
0.4
0.6
0.8
0.0
0.2
0.4
0.6
0.8
14
16
18
0.10
0.15
0.20
0.25
0.1
0.2
0.3
0.4
0.5
0.6
0.2
0.4
0.6
0.0
0.2
0.4
0.6
0.8
2.0
2.5
3.0
3.5
0.70
0.75
0.80
0.85
0.90
0.2
0.3
0.4
0.5
0.6
0.7
0.0
0.2
0.4
0.0
0.2
0.4
0.6
0.3
0.4
0.5
0.6
chain
1
2
3
Figura 5-16.: Graco de trazas de las cadenas, para cada iteracion y por cadena en el ZIP-HMM.
5.1 Aplicacion 91
distribucion predictiva. Otra diferencia importante es que mientras en el intervalo de conanza
se trata el parametro como un valor jo y los lımites son variables aleatorias; en los intervalos
creıbles, el parametro estimado se trata como una variable aleatoria mientras que los lımites se
consideran jos.
Los intervalos de credibilidad al 95 % calculados para la estimacion de los parametros del ZIP-
HMM, se encuentran en la gura 5-17. En la graca de la izquierda se encuentra el parametro
de cero inacion θ, junto con las entradas de la matriz de transicion aij , ya que todos estos se
encuentran en la misma escala, es decir se mueven entre cero y uno, mientras que el vector de
medias λ > 0, se dibujo en el graco de la derecha. Se encontraron intervalos bastante compac-
tos, es decir que la longitud del intervalo es pequena en la mayorıa de los casos, exceptuando
las la tres y cuatro de la m.t.p., que presentan una asimetrıa y una dispersion considerable. Los
intervalos nos permiten un uso practico de que tan precisas son las estimaciones.
El paquete bayesplot, proporciona la funcion mcmc intervals basada en el metodo cuantil, que
estima a partir de las muestras a posteriori los intervalos de credibilidad con un nivel de proba-
bilidad jado por el usuario. Por lo tanto su implementacion es bastante sencilla.
A[4,4]A[4,3]A[4,2]A[4,1]A[3,4]A[3,3]A[3,2]A[3,1]A[2,4]A[2,3]A[2,2]A[2,1]A[1,4]A[1,3]A[1,2]A[1,1]theta
0.00 0.25 0.50 0.75
lambda[4]
lambda[3]
lambda[2]
lambda[1]
0 30 60 90 120
Figura 5-17.: Intervalos de credibilidad al 0.95 ZIP-HMM.
En la gura 5-18 se gracaron los histogramas univariados y los diagramas de dispersion bi-
variados para el vector de medias de los estados dependientes y el parametro de cero inacion.
De allı se concluye que no hay problemas de colinealidad, ni la presencia de no-identicabilidad
multiplicativa (formas tipo platano), o en terminos mas simples problemas de divergencias al mo-
mento de aplicar el No-U-Turn-Sampler (NUTS), y por lo tanto no estamos asegurando que las
inferencias sean apropiadas. Mientras que para la matriz de transicion de probabilidad, parece
92 5 Resultados
haber problemas de colinealidad entre a11 con a12, y una ligera colinealidad entre a21 con a22 mas
no parecen haber problemas de no identicabilidad.
2.0 2.5 3.0 3.5
lambda[1]
2.0
2.5
3.0
3.5
14 16 182.0
2.5
3.0
3.5
35 40 452.0
2.5
3.0
3.5
80 90 1001101202.0
2.5
3.0
3.5
0.3 0.4 0.5 0.6
13
14
15
16
17
18
2.5 3.0 3.5 14 16 18
lambda[2]
14
16
18
35 40 45
14
16
18
80 90 100110120
14
16
18
0.3 0.4 0.5 0.6
35
40
45
2.5 3.0 3.5
35
40
45
13 14 15 16 17 18 35 40 45 50
lambda[3]
35
40
45
80 90 10011012035
40
45
0.3 0.4 0.5 0.6
70
80
90
100
110
120
2.5 3.0 3.570
80
90
100
110
120
13 14 15 16 17 1870
80
90
100
110
120
35 40 45 70 80 90 100110120
lambda[4]
80
90
100
110
120
0.3 0.4 0.5 0.6
0.3
0.4
0.5
2.5 3.0 3.50.3
0.4
0.5
13 14 15 16 17 180.3
0.4
0.5
35 40 450.3
0.4
0.5
70 80 90100110120 0.3 0.4 0.5 0.6
theta
Figura 5-18.: Graco de dispersion para las muestras MCMC del ZIP HMM.
Ademas se debe tener en cuenta que dada la restriccion
∑Kj=1 aij = 1, esto hace que los parame-
tros por la de la m.t.p. sean dependientes entre si. Sin embargo a continuacion se realizan prue-
bas mas sosticadas para determinar si el proceso de muestreo por NUTS, fue exitoso existen
diferentes metodologıas, tanto gracas como basadas en hipotesis.
5.1 Aplicacion 93
P. Estacionariedad Valor p Prueba Media Medio.Ancho
θ paso 0.928 paso 0.449 0.001
λ1 paso 0.645 paso 2.868 0.008
λ2 paso 0.689 paso 15.369 0.023
λ3 paso 0.477 paso 43.153 0.080
λ4 paso 0.594 paso 99.464 0.194
a11 paso 0.601 paso 0.795 0.001
a21 paso 0.504 paso 0.470 0.002
a31 paso 0.257 paso 0.188 0.002
a41 paso 0.611 paso 0.137 0.003
a12 paso 0.444 paso 0.158 0.001
a22 paso 0.356 paso 0.328 0.002
a32 paso 0.620 paso 0.331 0.002
a42 paso 0.992 paso 0.309 0.004
a13 paso 0.632 paso 0.034 0.000
a23 paso 0.786 paso 0.146 0.002
a33 paso 0.091 paso 0.436 0.003
a43 paso 0.462 paso 0.280 0.004
a14 paso 0.765 paso 0.012 0.000
a24 paso 0.234 paso 0.056 0.001
a34 paso 0.268 paso 0.045 0.001
a44 paso 0.583 paso 0.274 0.004
lp paso 0.175 paso -564.870 0.207
Tabla 5-19.: Prueba de estacionariedad, usando el estadıstico de Cramer-von-Mises para la con-
vergencia de la cadena y prueba de medio ancho para la media calculando el inter-
valo de conanza al 0.95.
La graca de traza en la gura 5-16 parece consistente, sin embargo la prueba de convergencia de
Heidel, permite determinar si los valores muestreados provienen de una distribucion estacionaria.
Por lo tanto se aplica esta prueba para cada uno de los parametros obtenidos por el ZIP-HMM y
se contrastan con la estadıstica de Cramer-von-Mises para un nivel de signicancia α = 0.05 jo,
donde la hipotesis nula es que la cadena es estacionaria. En todos los casos el valor p fue mayor
que 0.05 lo que indica que existe suciente evidencia estadıstica para no rechazar la hipotesis
nula, es decir que los valores muestreados ofrecen una estimacion conable al provenir de una
distribucion estacionaria. Tambien se utilizo la prueba de medio ancho, que calcula un intervalo
de conanza del 95 % para la media, y utiliza la parte de la cadena que paso la prueba de estacio-
nariedad, para determinar si la muestra fue lo sucientemente grande para estimar la media con
precision. Los resultados indican que efectivamente cada uno de los parametros aprobo la prueba
de medio ancho.
94 5 Resultados
Comparacion ZIP-HMM clasico vs Bayesiano
Analogamente al caso del PHMM, la estimacion bajo el enfoque clasico se realizo utilizando boots-
trap, se generaron 100 muestras independientes de tamano 180 cada una a partir del ZIP-HMM
de cuatro estados para los datos de GIF en Colombia. Los valores iniciales usados fueron los esti-
mados por ZIP HMM de 4 estados con el n de evitar inestabilidad numerica, lo que permitio la
convergencia del algoritmo en pocas iteraciones y obtener de manera exitosa los errores estandar
y intervalos de conanza. En la Tabla 5-20 se encuentran registrados los resultados obtenidos,
con un α jo al 5 %.
Intervalos de Credibilidad Intervalos de Conanza
Parametros Media 2.5 97.5 Ancho Media 2.5 97.5 Ancho
θ 0.449 0.351 0.545 0.194 0.444 0.343 0.543 0.200
λ1 2.868 2.371 3.408 1.037 2.763 2.218 3.181 0.963λ2 15.369 13.859 16.877 3.017 15.115 13.853 16.409 2.556λ3 43.153 39.600 46.658 7.059 43.148 40.002 46.844 6.842λ4 99.235 87.428 110.912 23.485 99.306 38.082 109.076 70.994
a11 0.795 0.719 0.861 0.142 0.820 0.735 0.889 0.154
a21 0.470 0.318 0.630 0.313 0.483 0.317 0.680 0.363
a31 0.188 0.056 0.376 0.320 0.168 0.019 0.366 0.347
a41 0.137 0.004 0.435 0.431 0.004 0.000 0.006 0.006a12 0.158 0.098 0.231 0.133 0.154 0.089 0.221 0.131a22 0.328 0.192 0.482 0.290 0.335 0.184 0.500 0.316
a32 0.331 0.151 0.537 0.386 0.329 0.128 0.643 0.514
a42 0.309 0.055 0.658 0.603 0.329 0.000 0.996 0.996
a13 0.034 0.009 0.076 0.067 0.025 0.001 0.065 0.064a23 0.146 0.053 0.274 0.221 0.131 0.051 0.257 0.206a33 0.436 0.249 0.634 0.385 0.499 0.210 0.665 0.455
a43 0.280 0.041 0.639 0.598 0.346 0.000 0.998 0.997
a14 0.013 0.000 0.040 0.039 0.001 0.000 0.018 0.018a24 0.056 0.008 0.147 0.140 0.050 0.004 0.138 0.134a34 0.045 0.001 0.161 0.160 0.004 0.000 0.099 0.099a44 0.274 0.037 0.630 0.593 0.320 0.000 0.665 0.665
Tabla 5-20.: Intervalos de Credibilidad y Conanza para el ZIP HMM de orden 4.
Ambos intervalos (conanza y credibilidad) se relacionan con la precision de nuestra estimacion.
La forma mas comun para saber el desempeno del metodo, es calculando la longitud de este, don-
de se espera que el ancho sea lo mas pequeno posible. Los resultados se muestran en la Tabla
5-20, junto con la media de las estimaciones, tanto para el ZIP-HMM frecuentista como para el
5.1 Aplicacion 95
bayesiano. De los 21 parametros estimados, el intervalo de credibilidad tuvo una longitud mas
pequena en 11 oportunidades y el intervalo de conanza en los 10 restantes. No parece haber
un ganador indiscutible, si embargo haciendo un analisis mas detallado por parametros se puede
decir lo siguiente. Para θ el parametro de cero inacion es mas pequena la longitud en el caso
bayesiano, para el vector de medias estado-dependientes λ en 3 de los cuatro valores gano el in-
tervalo de conanza, con un caso preocupante λ4 en el caso clasico el ancho es extremadamente
grande. Finalmente para los valores de la m.t.p. en 9 de los 16 intervalos estimados, el enfoque
bayesiano nuevamente es el vencedor. Tenga en cuenta que en la Tabla 5-20 no se analizo el com-
portamiento de los valores del vector de probabilidad inicial π, el cual se puede deducir facilmente
a partir de la m.t.p. A como se mostro en la seccion 2.1.2. En conclusion tanto desde el enfoque
clasico como bayesiano las estimaciones puntuales y por intervalo fueron muy parecidas, por lo
tanto no parece haber un metodo que sea evidentemente el mejor.
Nota: Tenga en cuenta que el ZIP-HMM bayesiano mas apropiado segun el factor de bayes era el
de 5 estados.
6. Conclusiones y futuras investigaciones
Este capıtulo concluye la tesis. Se desarrollo la teorıa bayesiana para el PHMM y ZIP-HMM cons-
truyendo un paquete Bayeshmmcts, disponible en el repositorio de Github y proximamente en
el CRAN. Se mostro una aplicacion a dos conjuntos de datos reales, comparando los resultados
obtenidos desde la teorıa clasica y la bayesiana.
6.1. Conclusiones
El objetivo principal de esta tesis era desarrollar la teorıa bayesiana en los PHMM y ZIP’HMM.
El encontrar las estimaciones no fue una tarea facil, ya que las distribuciones a posteriori se
volvıan analıticamente intratables, como alternativa se utilizo Stan que permitio precompilar los
modelos en C++ y utiliza algoritmos altamente ecientes como el No-U-Turn Sampler (NUTS)
una extension de el metodo Monte Carlo Hamiltaniano.
Desde la teorıa clasica los criterios de informacion AIC y BIC permitieron escoger el modelo mas
apropiado penalizando a partir de la log verosimilitud y del numero de parametros, analogo a esta
metodologıa el factor de bayes fue la alternativa bayesiana que permitio a partir de hipotesis dar
evidencia del modelo oculto de Markov con el numero de estados apropiado.
Allı surgio otra dicultad, ya que para el calculo del factor de bayes era necesario estimar la vero-
similitud marginal a partir de la distribucion a posteriori, problema descrito como notoriamente
difıcil por algunos autores. Como alternativa Newton & Raery (1994), propusieron un estima-
dor de la media armonica de la verosimilitud, con el problema de ser un estimador con varianza
innita, y por esta razon se consideraba un problema no resuelto. En esta tesis se propuso como
alternativa una metodologıa innovadora, el muestreo por puente (bridge sampler) que dio esti-
maciones de la log verosimilitud marginal de manera consistente con un margen de error menor
al 5 %, ademas de su facil implementacion especialmente en modelos de alta complejidad como
lo son los HMM.
Ademas se compararon las estimaciones clasicas vs las bayesianas a partir de los intervalos de
conanza y de credibilidad respectivamente. Los resultados arrojaron que las estimaciones baye-
siana fueron mejores al enfoque frecuentista, con longitudes entre los intervalos menores en la
mayorıa de los casos en comparacion con la metodologıa clasica. Otra ventaja que proporcionaban
los modelos bayesianos es que no requerıan de valores iniciales para calcular las estimaciones,
mientras que en el modelo clasico era necesario dar valores iniciales a los parametros del modelo,
6.2 Futuras Investigaciones 97
que en casos graves hacia que el modelo nunca convergiera o diera estimaciones erradas. Esta
fue la mayor desventaja de los paquetes que ajustan, los HMM clasicos en comparacion con los
modelos compilados en Stan, la dependencia en la calidad de las estimaciones segun los valores
iniciales dados por el usuario. Por otra parte la principal desventaja del enfoque bayesiano fue el
alto costo computacional, para el calculo de los modelos en comparacion a su contra parte clasica.
Finalmente se creo un paquete que permitiera a la comunidad interesada en la estadıstica baye-
siana y los HMM, ajustar facilmente el PHMM o ZIP-HMM a sus conjuntos de datos propios.
6.2. Futuras Investigaciones
La principal limitante del paquete elaborado en esta tesis, fue que los modelos ajustados no per-
miten incluir covariables, pues esto requiere un arduo trabajo ya que es necesaria la interaccion
con la matriz transicion de probabilidad para incluir esta nueva funcionalidad por esta razon se
deja como un proyecto futuro. Tambien se deja como futuro proyecto el programar todas las
funciones del paquete en lenguaje mas veloz como c++, esta integracion es posible utilizando el
paquete rcpp, de manera que estos algoritmos sean mas eciente y permitan disminuir el tiempo
de ejecucion de los calculos.
Serıa importante complementar algunos desarrollos teoricos que faltaron como la decodicacion
global de los estados a traves del algoritmo Viterbi para el ZIP- HMM bayesiano. Tambien se deja
como futura investigacion, el como calcular la prediccion de los estados futuros mas probables
para una secuencia de observaciones en el ZIP-HMM.
Finalmente un proyecto mas ambicioso serıa desarrollar la teorıa bayesiana para los HMM, con
las distribuciones mas importantes como la normal, binomial, beta, etc. Para luego desarrollar un
paquete en R disponible en el CRAN y/o Github para que puedan utilizar otros usuarios.
A. Anexos
A.1. Codigos utilizados
A continuacion se anexa el codigo utilizado para el desarrollo de esta tesis, en la aplicacion del
PHMM con la base homicidios en Colombia y el ajuste del ZIP-HMM a la serie de datos Grandes
Incendios Forestales (GIF) en Colombia.
https://github.com/RafaelEduardoDiaz/Tesis/blob/master/Codigos.R
A.2. Paquete elaborado para esta tesis
El paquete elaborado para este tesis tiene el nombre Bayeshmmcts, contraccion de la palabra
Bayes Hidden Markov Model for count time series. La version en desarrollo puede ser descargado
del siguiente repositorio de Github.
https://github.com/RafaelEduardoDiaz/Bayeshmmcts
El paquete tiene mas de 20 funciones para el ajuste clasico y bayesiano del PHMM, incluyendo
el calculo de las probabilidades forward-backward, la decodiacion global de los estados con el
algoritmo Viterbi, estimacion de los parametros por directa maximizacion de la verosimilitud,
prediccion de los estados futuros y pronostico de la distribucion. Para el PHMM clasico ademas
se incluye el calculo del los criterios de informacion AIC y BIC, ademas de la vericacion de los
supuestos utilizando los pseudo residuales.
Para el ZIP HMM solo se encuentra disponible la version Bayesiana. Donde se utilizo Stan para
especicar y precompilar el modelo estadıstico en c++, el resultado es un objeto en S4, al cual
se le pueden aplicar diferentes funciones de otras librerıas como el estimador de la verosimilitud
marginal via muestreo por puente del paquete bridgesampling o diferentes gracos para modelos
bayesianos con el paquete bayesplot, ver por ejemplo bayesplot.
Bibliografıa
Albert, J. H. & Chib, S. (1993), ‘Bayes inference via gibbs sampling of autoregressive time series
subject to markov mean and variance shis’, Journal of Business & Economic Statistics 11(1), 1–
15.
Basawa, I. V. & Prakasa Rao, B. L. S. (1980), Statistical inference for stochastic processes / Ishwar V.Basawa and B.L.S. Prakasa Rao, Academic Press London ; New York.
Baum, L. E. & Petrie, T. (1966), ‘Statistical inference for probabilistic functions of nite state mar-
kov chains’, e annals of mathematical statistics 37(6), 1554–1563.
Baum, L. E., Petrie, T., Soules, G. & Weiss, N. (1970), ‘A maximization technique occurring in the
statistical analysis of probabilistic functions of markov chains’, Ann. Math. Statist. 41(1), 164–
171.
Berger, J. O. & Molina, G. (2005), ‘Posterior model probabilities via path-based pairwise priors’,
Statistica Neerlandica 59(1), 3–15.
Berhane, J. (2018), Zero-Inated Hidden Markov Models and Optimal Trading Strategies in High-
Frequency Foreign Exchange Trading, Bachelor’s thesis, KTH Royal Institute of Technology
School of Engineering Sciences.
Bickel, P. J., Ritov, Y., Ryden, T. et al. (1998), ‘Asymptotic normality of the maximum-likelihood
estimator for general hidden markov models’, e Annals of Statistics 26(4), 1614–1635.
Bilmes, J. A. et al. (1998), ‘A gentle tutorial of the em algorithm and its application to parameter
estimation for gaussian mixture and hidden markov models’, International Computer ScienceInstitute 4(510), 1–13.
Brockwell, A. (2007), ‘Universal residuals: A multivariate transformation’, Statistics & probabilityleers 77(14), 1473–1478.
Cappe, O., Moulines, E. & Ryden, T. (2005), Inference in Hidden Markov Models, Springer.
Cardona, M., Garcia, H. I., Alberto Giraldo, C., Lopez, M. V., Clara Mercedes, S., Corcho, D. C. &
Hernan Posada, C. (2005), ‘Escenarios de homicidios en medellın (colombia) entre 1990-2002’,
Revista Cubana de Salud Publica 31(3), 202–210.
100 Bibliografıa
Celeux, G. & Durand, J.-B. (2008), ‘Selecting hidden markov model state number with cross-
validated likelihood’, Computational Statistics 23(4), 541–564.
Chaari, L., Pesquet, J.-C., Tourneret, J.-Y., Ciuciu, P. & Benazza-Benyahia, A. (2010), ‘A hierarchical
bayesian model for frame representation’, IEEE Transactions on Signal Processing 58(11), 5560–
5571.
Chao, W.-L., Solomon, J., Michels, D. & Sha, F. (2015), Exponential integration for hamiltonian
monte carlo, in ‘International Conference on Machine Learning’, pp. 1142–1151.
Chen, M.-H., Shao, Q.-M. & Ibrahim, J. G. (2012), Monte Carlo methods in Bayesian computation,
Springer Science & Business Media.
Chib, S. (1996), ‘Calculating posterior distributions and modal estimates in markov mixture mo-
dels’, Journal of Econometrics 75(1), 79–97.
Churchill, G. A. (1989), ‘Stochastic models for heterogeneous dna sequences’, Bulletin of Mathe-matical Biology 51(1), 79–94.
Congdon, P. (2006), ‘Bayesian model choice based on monte carlo estimates of posterior model
probabilities’, Comput. Stat. Data Anal. 50(2), 346–357.
URL: hp://dx.doi.org/10.1016/j.csda.2004.08.001
Consul, P. C. & Jain, G. C. (1973), ‘A generalization of the poisson distribution’, Technometrics15(4), 791–799.
Cox, D. R. & Snell, E. J. (1968), ‘A general denition of residuals’, Journal of the Royal StatisticalSociety: Series B (Methodological) 30(2), 248–265.
Dempster, A. P., Laird, N. M. & Rubin, D. B. (1977), ‘Maximum likelihood from incomplete data via
the em algorithm’, Journal of the Royal Statistical Society: Series B (Methodological) 39(1), 1–22.
DeSantis, S. M. & Bandyopadhyay, D. (2011), ‘Hidden markov models for zero-inated poisson
counts with an application to substance use’, Statistics in medicine 30(14), 1678–1694.
Didelot, X., Everi, R. G., Johansen, A. M., Lawson, D. J. et al. (2011), ‘Likelihood-free estimation
of model evidence’, Bayesian analysis 6(1), 49–76.
Dunn, P. K. & Smyth, G. K. (1996), ‘Randomized quantile residuals’, Journal of Computational andGraphical Statistics 5(3), 236–244.
Efron, B. & Tibshirani, R. J. (1993), An Introduction to the Bootstrap, number 57 in ‘Monographs
on Statistics and Applied Probability’, Chapman & Hall/CRC, Boca Raton, Florida, USA.
Franco, S., Suarez, C. M., Naranjo, C. B., Baez, L. C. & Rozo, P. (2006), ‘e eects of the armed
conict on the life and health in colombia’, Ciencia & Saude Coletiva 11, 1247–1258.
Bibliografıa 101
Fruhwirth-Schnaer, S. (2006), Finite mixture and Markov switching models, Springer Science &
Business Media.
Gamerman, D. & Lopes, H. F. (2006), Markov chain Monte Carlo: stochastic simulation for Bayesianinference, Chapman and Hall/CRC.
Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A. & Rubin, D. B. (2013), Bayesiandata analysis, Chapman and Hall/CRC.
Geyer, C. J. (2011), ‘Introduction to markov chain monte carlo’, Handbook of markov chain montecarlo 20116022, 1–45.
Glassen, T. & Nitsch, V. (2016), ‘Hierarchical bayesian models of cognitive development’, Biologicalcybernetics 110(2-3), 217–227.
Grimme, G. & Stirzaker, D. (2001), Probability and random processes, Oxford university press.
Gronau, Q. F., Sarafoglou, A., Matzke, D., Ly, A., Boehm, U., Marsman, M., Leslie, D. S., Forster,
J. J., Wagenmakers, E.-J. & Steingroever, H. (2017), ‘A tutorial on bridge sampling’, Journal ofmathematical psychology 81, 80–97.
Guorp, P. & Minin, V. N. (1995), Stochastic modeling of scientic data, CRC Press.
Hairer, E., Lubich, C. & Wanner, G. (2006), Geometric numerical integration: structure-preservingalgorithms for ordinary dierential equations, Vol. 31, Springer Science & Business Media.
Hamilton, J. D. (1989), ‘A new approach to the economic analysis of nonstationary time series
and the business cycle’, Econometrica: Journal of the Econometric Society pp. 357–384.
Hoeting, J. A., Madigan, D., Raery, A. E. & Volinsky, C. T. (1999), ‘Bayesian model averaging: a
tutorial’, Statistical science pp. 382–401.
Homan, M. D. & Gelman, A. (2014), ‘e no-u-turn sampler: adaptively seing path lengths in
hamiltonian monte carlo.’, Journal of Machine Learning Research 15(1), 1593–1623.
Jereys, H. (1961), eory of Probability, third edn, Oxford, Oxford, England.
Kass, R. E. & Raery, A. E. (1995), ‘Bayes factors’, Journal of the american statistical association90(430), 773–795.
L, S. S., James, G. M. & Sugar, C. A. (2005), ‘Hidden markov models for longitudinal comparisons’,
Journal of the American Statistical Association 100(470), 359–369.
Lambert, D. (1992), ‘Zero-inated poisson regression, with an application to defects in manufac-
turing’, Technometrics 34(1), 1–14.
102 Bibliografıa
Lee, M. D. (2008), ‘ree case studies in the bayesian analysis of cognitive models’, PsychonomicBulletin & Review 15, 1–15.
Leroux, B. G. & Puterman, M. L. (1992), ‘Maximum-penalized-likelihood estimation for indepen-
dent and markov- dependent mixture models’, Biometrics 48(2), 545–558.
Lewis, S. M. & Raery, A. E. (1997), ‘Estimating bayes factors via posterior simulation with the
laplace—metropolis estimator’, Journal of the American Statistical Association 92(438), 648–655.
Linhart, H. & Zucchini, W. (1986), Model selection., John Wiley & Sons.
MacDonald, I. L. & Zucchini, W. (2009), Hidden Markov Models for Time Series: An IntroductionUsing R (Monographs on statistics and applied probability; 110), CRC press.
Meng, X.-L. & Hung Wong, W. (1996), ‘Simulating ratios of normalizing constants via a simple
identity: A theoretical exploration’, Statistica Sinica 6, 831–860.
Meng, X.-L. & Schilling, S. (2002), ‘Warp bridge sampling’, Journal of Computational and GraphicalStatistics 11(3), 552–586.
Mulder, J. & Wagenmakers, E.-J. (2016), ‘Editors’ introduction to the special issue “bayes factors
for testing hypotheses in psychological research: Practical relevance and new developments”’,
Journal of Mathematical Psychology 72, 1–5.
Neal, R. M. (1993), Bayesian learning via stochastic dynamics, in ‘Advances in neural information
processing systems’, pp. 475–482.
Neal, R. M. (2011), ‘Mcmc using hamiltonian dynamics’, Handbook of markov chain monte carlo2(11), 113–162.
Newton, M. & Raery, A. (1994), ‘Approximate bayesian inference by the weighted likelihood
bootstrap’, Journal of the Royal Statistical Society Series B-Methodological 56, 3 – 48.
Nikovski, D. (2000), ‘Constructing bayesian networks for medical diagnosis from incomplete and
partially correct statistics’, IEEE Transactions on Knowledge & Data Engineering 12(4), 509–516.
Olteanu, M. & Ridgway, J. (2012), Hidden markov models for time series of counts with excess
zeros, in ‘European Symposium on Articial Neural Networks’, pp. 133–138. hal-00655588.
Overstall, A. M. & Forster, J. J. (2010), ‘Default bayesian model determination methods for gene-
ralised linear mixed models’, Computational Statistics & Data Analysis 54(12), 3269–3288.
Paroli, R. (2002), Poisson hidden markov models for time series of overdispersed insurance counts,
in ‘di Milano, Universitb Caolica SC’, pp. 461–474.
Pecaut, D. (2003), Violencia y Politica en Colombia: Elementos de reexion, Hombre Nuevo Editores.
Bibliografıa 103
Pi, M. A., Myung, I. J. & Zhang, S. (2002), ‘Toward a method of selecting among computational
models of cognition.’, Psychological review 109(3), 472.
Rabiner, L. & Juang, B. (1986), ‘An introduction to hidden markov models’, ieee assp magazine3(1), 4–16.
Rabiner, L. R. (1990), Readings in speech recognition, in A. Waibel & K.-F. Lee, eds, ‘University of
Michigan’, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, chapter A Tutorial on
Hidden Markov Models and Selected Applications in Speech Recognition, pp. 267–296.
Raery, Adrian E & Newton, M. A. . S. J. M. . K. P. N. (2006), ‘Estimating the integrated likelihood
via posterior simulation using the harmonic mean identity’, Memorial Sloan-Keering CancerCenter, Dept. of Epidemiology & Biostatistics Working Paper Series 6, 1–41.
Romberg, J. K., Choi, H. & Baraniuk, R. G. (2001), ‘Bayesian tree-structured image modeling using
wavelet-domain hidden markov models’, IEEE Transactions on image processing 10(7), 1056–
1068.
Rosenbla, M. (1952), ‘Remarks on a multivariate transformation’, e annals of mathematicalstatistics 23(3), 470–472.
Sco, S. L. (2002), ‘Bayesian methods for hidden markov models: Recursive computing in the 21st
century’, Journal of the American Statistical Association 97(457), 337–351.
Souza, E. R. d. & Lima, M. L. C. d. (2006), ‘e panorama of urban violence in brazil and its capitals’,
Ciencia & Saude Coletiva 11, 1211–1222.
Stadie, A. (2002), Uberprufung stochastischer Modelle mit Pseudo-Residuen, PhD dissertation,
Universitat Goingen.
Sundberg, R. (1974), ‘Maximum likelihood theory for incomplete data from an exponential family’,
Scandinavian Journal of Statistics pp. 49–58.
Wasserman, L. (2000), ‘Bayesian model selection and model averaging’, Journal of mathematicalpsychology 44(1), 92–107.
Wilkinson, D. J. (2007), ‘Bayesian methods in bioinformatics and computational systems biology’,
Briengs in bioinformatics 8(2), 109–116.
Wu, C. J. et al. (1983), ‘On the convergence properties of the em algorithm’, e Annals of statistics11(1), 95–103.
Zhang, Y. (2004), Prediction of nancial time series with Hidden Markov Models, PhD thesis,
Applied Sciences: School of Computing Science.
Zucchini, W. (2000), ‘An introduction to model selection’, Journal of mathematical psychology44(1), 41–61.