tecnicas computacionales en la estad istica bayesiana · estad istica bayesiana luis a. barboza...

TECNICAS COMPUTACIONALES EN LA

ESTADISTICA BAYESIANA

Luis A. Barboza

Grupo de Estadıstica Bayesiana (GEB)Universidad de Costa Rica

Julio 2014

Tecnicas computacionales en Estadıstica Bayesiana 1

Contenidos

1 Repaso de Estadıstica Bayesiana

2 Metodos basados en muestreo

3 Introduccion a la tecnicas MCMCMetropolis-HastingsMuestreo de Gibbs

4 Introduccion a OpenBUGS


Situacion Base

• Suponga que realizamos un experimento en donde una moneda se tiraal aire N veces.

• Se puede asumir que el hecho de que un resultado sea cara (1) o cruz(0) no depende ni dependera de otros intentos.

• Suponga que Y representa el resultado de tirar la moneda:

Y =

{1 si el resultado es cara

0 si el resultado es cruz.


Situacion Base

• Bajo las condiciones anteriores se podrıa considerar Y ∼ Bernoulli(θ)donde θ es la probabilidad de que el resultado sea “cara”:

Pθ[Y = 1] = θ,

Pθ[Y = 0] = 1− θ

• De manera general:

Pθ[Y = y ] = θy (1− θ)1−y


Situacion Base

• La verosimilitud de todos los lanzamientos es:

Pθ[Y1 = y1, . . . ,YN = yN ] =N∏i=1

Pθ[Yi = yi ]

=N∏i=1

θyi (1− θ)1−yi

• Y esta quedarıa:

Pθ[Y1 = y1, . . . ,YN = yN ] = θz(1− θ)N−z

donde z =∑

i yi .


Densidad previa

• En el enfoque bayesiano, se asume que el parametro θ es una variablealeatoria con distribucion previa.

• En este caso asumiremos que θ ∼ Beta(a, b), es decir:

Pa,b[θ] =1

B(a, b)· θa−1(1− θ)b−1.

para a > 0, b > 0 y θ ∈ [0, 1]. La escogencia permite obtener unaposterior conjugada.

• Ejercicio 1: Grafique Pa,b[θ] para distintos valores de a, b > 0 yθ ∈ [0, 1].


Links importantes

• R: http://cran.r-project.org/

• RStudio: http://www.rstudio.com/products/RStudio/


http://cran.r-project.org/

http://www.rstudio.com/products/RStudio/

Distribucion Posterior

• Sea Y = (Y1, . . . ,YN) y y = (y1, . . . , yN). Usando la formula deBayes:

P[θ|Y = y] ∝ Pθ[Y = y] · Pa,b[θ]

= θz(1− θ)N−zθa−1(1− θ)b−1

∝ θz+a−1(1− θ)N−z+b−1

B(z + a,N − z + b).

es decir θ|Y = y ∼ Beta(z + a,N − z + b), donde z =∑

i yi .


Distribucion Posterior

• Si X ∼ Beta(a, b) entonces E [X ] = aa+b . Por lo tanto la media

posterior de θ es:

E [θ|Y = y] =z + a

a + b + N

=z

N· N

a + b + N+

a

a + b· a + b

a + b + N.

y esta serıa un promedio ponderado de la media empırica (y = zN ) y

la media previa ( aa+b ).


Ejercicio 2

1 Genere una muestra de N = 500 lanzamientos de moneda conθ = 0.4.

2 Asuma que los primeros 50 lanzamientos representan informacionprevia e infiera los hiperparametros a y b a partir de esta submuestra.

3 Utilice Bayes para deducir la distribucion posterior de θ dada lamuestra restante.

4 Grafique la distribucion posterior y calcule:

Media posterior de θ. Comparela con la media empırica.Intervalo de prediccion de θ con un nivel de confianza del 95%.Calcule la probabilidad posterior de la hipotesis H0 : θ < 0.38.


Previa no informativa

• Asuma que la distribucion previa de θ es uniforme en [0,1].

• En este caso:

P[θ|Y = y] ∝ θz(1− θ)N−z

es decir, θ|Y = y ∼ Beta(z + 1,N − z + 1).

• Note que Unif(0, 1) = Beta(1, 1).

• Continuacion Ejercicio 2: Repita los puntos anteriores con la previauniforme.


Metodos basados en muestreo

Objetivo principal: Obtener una muestra de la probabilidad conjunta de losparametros.

• Muestreo independiente.

• Muestreo no independiente (con dependencia markoviana).


Muestreo independiente

Idea: Dada una distribucion posterior P[θ|Y = y], queremos obtener unamuestra independiente.

• Continuacion Ejemplo 2:

Obtenga una muestra independiente para ambas distribucionesposteriores.Calcule la media empırica y el intervalo de prediccion empırico de θ al95%.Evalue el efecto de incrementar el tamano de muestra en el puntoanterior.


Limitaciones del muestreo independiente

• Se necesita conocer explıcitamente la distribucion posterior conjuntade los parametros para obtener una muestra independiente.

• Hay casos en que la complejidad del modelo bayesiano no permiteobtener una distribucion posterior conjunta, por ejemplo cuando elnumero de parametros es muy grande.


Muestreo dependiente

• En el caso en que la complejidad de los modelos bayesianos nopermite el muestreo independiente, podemos recurrir a algoritmos quesimulan procesos dependientes:

Algoritmo de Metropolis-Hastings.Muestreo de Gibbs.

• Estos algoritmos pertenecen al conjunto de tecnicas llamadas Cadenasde Markov vıa Monte Carlo (MCMC).


Algo de historia...

• Nicholas Metropolis et al. (1953): Calculo de una integral multipleutilizada en modelos de equilibrio termodinamico (distribucion deBoltzmann).

• W. Hastings (1970): generaliza el algoritmo de Metropolis. Ya elalgoritmo era ampliamente usado por quımicos y fısicos.

• Geman y Geman (1984): estudian un caso del algoritmo deMetropolis-Hastings, aplicado al procesamiento de imagenes(Muestreo de Gibbs). Tanner y Wong (1987): Concepto de “DataAugmentation”

• Gelfand y Smith (1990).

• Green (1995): Generalizacion del algoritmo de Metropolis-Hastings.


Cadenas de Markov

Definicion (Cadena de Markov)

Una sucesion X1,X2, . . . de variables aleatorias tal que:

P(Xn+1 ∈ A|X1, . . . ,Xn) = P(Xn+1 ∈ A|Xn)

• A K (Xn,Xn+1) = P(Xn+1|Xn) se le llama kernel de transicion (oprobabilidades de transicion) de la cadena de Markov.

• Ejemplo: Una caminata aleatoria simple:

Xn+1 = Xn + εn, εn ∼ N(0, 1)

es una cadena de Markov con kernel K (Xn,Xn+1) = N(Xn, 1).

• Si el proceso es discreto, se le llama “estados” a los valores queasume la cadena.


Cadenas de Markov (Propiedades)

• Una cadena de Markov es irreducible si es posible comunicarse concualquier estado en un numero finito de pasos (caso discreto).

• Esta propiedad es importante porque mide la sensibilidad de la cadenaante cambios en los valores iniciales.



• Una cadena de Markov es recurrente si el numero esperado de visitasa cualquier estado (o conjunto) es infinito, dado que la cadenaempieza en un punto arbitrario del espacio muestral.

• Con esta propiedad nos garantizamos que la cadena va a visitarcualquier region del espacio muestral frecuentemente.



• Un sucesion de variables aleatorias es estacionaria si la distribucionconjunta de (Xn+1, . . . ,Xn+k) no depende de n.

• Una cadena de Markov es estacionaria sii la distribucion marginal deXn no depende de n.

• Es decir, existe una medida de probabilidad π tal que:

Xn ∼ π

para todo n.

• A π se le llama distribucion estacionaria o invariante.

• Resultado: toda cadena recurrente es estacionaria.



• Una cadena de Markov es reversible si:

P(Xn+1 ∈ A|Xn+2) = P(Xn+1 ∈ A|Xn)

• Una cadena satisface la condicion de balance con la funcion f si:

K (y , x)f (y) = K (x , y)f (x).

Teorema

Si una cadena de Markov satisface la condicion de balance con la funcionde densidad π, entonces:

• La cadena tiene densidad estacionaria π.

• La cadena es recurrente.


Ley de Grandes Numeros

Teorema (Teorema Ergodico)

Si Xn es una cadena de Markov recurrente y estacionaria (con medidaestacionaria π), entonces:

1

n

n∑i=1

Xnc.s.−→ Eπ[X ].

Si Xn satisface el teorema anterior, se dice que Xn es ergodica.


MCMC

• Dada una funcion de densidad f , queremos obtener una muestra de fsin simular directamente de ella.

• Solucion:

Definicion (MCMC)

Un metodo de cadena de Markov vıa Monte Carlo (MCMC) para lasimulacion de una densidad f es cualquier metodo que produce unacadena de Markov ergodica cuya distribucion estacionaria es f . [Roberty Casella (2004)].

• Ventajas: metodos estables, con velocidad de convergencia aceptable.Menos varianza que el Monte Carlo ordinario.


MCMCProceso computacional:

• Tome un valor inicial arbitrario X0

• Calcule Xn para n ≥ 1 a partir del metodo MCMC.

• Descarte los primeros B elementos de la muestra (“burn-in period”).

• Utilice el resto de la muestra para calcular: cuantiles, momentos,intervalos de proyeccion, etc.


Metropolis-Hastings

Componentes:

• Densidad objetivo f . En el caso bayesiano, f es la densidad posteriorde algun parametro(s).

• Densidad condicional o densidad propuesta q(y |x). Facil de simular.

• Se requiere que se conozca la expresion f (y)/q(y |x), salvo algunaconstante dependiendo de x .


Metropolis-Hastings (Algoritmo)

Dado Xn = xn:

1 Genere una variable aleatoria Yn ∼ q(y |xn),

2 Tome:

Xn+1 =

{Yn con probabilidad ρ(xn,Yn),

xn con probabilidad 1− ρ(xn,Yn),

donde:

ρ(x , y) = min

{f (y)

f (x)

q(x |y)

q(y |x), 1

}.

A ρ(x , y) se le llama: probabilidad de aceptacion.


Metropolis-Hastings (Convergencia)

• Si q y f tienen el mismo soporte, entonces el kernel de la cadena deMarkov satisface la condicion de balance con densidad f .

• La cadena tiene densidad estacionaria f .

• La cadena es irreducible y recurrente. Por lo tanto la cadena de M-Hes ergodica.


Muestreo de Gibbs (Preliminares)

• Suponga que para p > 1, se puede escribir un elemento muestralX = (X1, . . . ,Xp).

• Suponga que es posible simular variables aleatorias a partir de lasprobabilidades condicionales f1, . . . , fp:

Xi |x1, x2, . . . , xi−1, xi+1, . . . , xp ∼ fi (xi |x1, x2, . . . , xi−1, xi+1, . . . , xp)

para i = 1, . . . , p.

• En el caso bayesiano, fi : probabilidades condicionales posteriores deparametros.


Muestreo de Gibbs (Algoritmo)

Dado x(n) = (x(n)1 , . . . , x

(n)p ), genere:

1. X(n+1)1 ∼ f1(x1|x (n)

2 , . . . , x(n)p );

2. X(n+1)2 ∼ f2(x2|x (n+1)

1 , x(n)3 , . . . , x

(n)p );

...

p. X(n+1)p ∼ fp(xp|x (n+1)

1 , . . . , x(n+1)p−1 ).

Ventaja: Por lo general fi son unidimensionales. En el caso bayesiano fipuede derivarse de una familia conjugada o a traves de una cadena M-H.


Muestreo de Gibbs (Convergencia)

• Las propiedades de estacionaridad y irreducibilidad se satisfacen conuna modificacion de la cadena Xn.

• Se puede probar que la modificacion es ergodica, y por lo tanto elproceso Xn es ergodico. A pesar de que Xn no siempre es una cadenade Markov.


OpenBUGS

• Proyecto BUGS (Bayesian Inference using Gibbs Sampling). DavidSpiegelhalter (Cambridge, UK). 1989.

• WinBUGS: provee interfaz grafica a BUGS en Windows. Ultimaversion: Agosto 2007.

• OpenBUGS: version libre de WinBUGS, con soporte continuo.

Funciona en Windows, Linux y Mac OS.Tiene comunicacion directa con R, a traves del paquete BRugs.


OpenBUGS

Número de CadenasNúmero de iteracionesParámetros iniciales

OPENBUGS

Metropolis-HastingsMuestreo de Gibbs

Cadenas de MarkovGráficos y estadísticos de evaluación


Ejemplo 3

• Volvamos al ejemplo de las monedas. Supongamos que obtenemos 20realizaciones:

y = (1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0)

• Se va a suponer que los hiperparametros de la distribucion beta sona = 1 y b = 1. (previa no informativa)

• Abrimos OpenBUGS y seleccionamos File− >New.


Definicion del modelo en BUGS

model{

#Verosimilitud

for(i in 1:N){

y[i]~dbern(theta)

}

#Distribucion previa

theta~dbeta(aprev,bprev)

aprev <-1

bprev <-1

}

data

list(y=c(1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0),N=20)

inits

list(theta=0.5)


Pasos

• Model− >Specification.

Verificacion del modelo.Carga de los datos.Compilacion.Carga de valores iniciales. (o generacion de valores iniciales de maneraaleatoria)

Notas:

• OpenBUGS permite la generacion de MCMC en paralelo.

• OpenBUGS no puede generar aleatoriamente parametros de precision.(inversos de varianzas)


Pasos

• Inference− >Samples. Definicion de parametros.

• Model− >Update. Especificacion del numero de muestras del MCMC.

• Model− >Input/Output. Modo de presentacion de resultados finales.(OPCIONAL)

• Inference− >Samples.

Seleccion de parametros.Seleccion de los estadısticos/graficos de interes.


Resultados (Traceplot)

• Eje x: ındice de la cadena de Markov. Eje y: realizacion de la cadena.

• La idea es obtener algo parecido a un ruido blanco, es decir nodebemos observar patrones a lo largo de las realizaciones.

• La estabilidad es un indicador de que hemos alcanzado el estadoestacionario en la cadena.


Resultados (Autocorrelacion empırica)

• Este grafico mide el nivel de dependencia en la cadena. Eje x: lag uorden de rezago y Eje y: autocorrelacion.

• La primera barra siempre es 1, uno espera que las demas seanpequenas y que conforme aumente el lag la autocorrelacion disminuya.


Resultados

• Mean: media empırica posterior.

• sd: desviacion estandar posterior.

• MC error: mide la dispersion en la muestra del MCMC. Errorestandar de la media empırica ajustado por la autocorrelacion en lamuestra.

• val2.5pc, median y val97.5pc: cuantiles empıricos posteriores.

• sample: # de realizaciones y start: periodo de “burn-in”.


Continuacion Ejemplo 3

• Calcule la media posterior y el intervalo de prediccion de θ al 95%usando R.

• Calcule una muestra independiente de la distribucion posterior y

• Compare con los resultados anteriores.

• Vuelva a calcular todo el ejercicio usando 10000 muestras del MCMCcon un burn-in de 1000.


BRugs

• Interfaz en R que permite ejecutar OpenBUGS desde la consola.

• Desarrollada por Andrew Thomas en la Universidad de Helsinki,Finlandia.

• Se debe tener instalado OpenBUGS primero.

• Instalacion: install.packages(’BRugs’)


Instrucciones para usar BRugs

• Cargue el modelo en lenguaje BUGS dentro un archivo de texto.

• Verifique que la sintaxis del modelo esta correcta usando:modelCheck(fileName = ’ejemplo3.txt’).

• Defina los datos por medio del comando:

dataList=list(y=c(1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0),N=20)

• Cargue los datos con modelData(bugsData(dataList)).

• Compile el modelo: modelCompile()



• Cargue los valores iniciales:

inicial=list(theta=0.5)

modelInits(bugsData(inicial))

• O genere los valores iniciales aleatoriamente con modelGeninits().

• Defina los parametros de interes con samplesSet(’theta’).

• Especificacion del numero de muestras y ejecucion del MCMC.modelUpdate(1000).



• Extraer los valores del MCMC:

thetasample=samplesSample(’theta’)

• Extraer el resumen con estadısticas:

thetastats=samplesStats(’theta’)


Ejemplo 4

• Los datos en el archivo desmoines.csv son una muestra delog-concentraciones de mercurio en tejidos de peces en un lugarparticular del Rıo Des Moines en Iowa. (Cowles, 2013).

• Se tiene 20 observaciones y una observacion perdida.

• Objetivo: estimar la cantidad media de log-concentracion en el RıoDes Moines.


Ejemplo 4

Modelo:

y ∼ N(µ, σ2)

con distribucion previa de µ:

µ ∼ N(µ0, σ0).

con µ0 = −2.75, σ20 = 7.5 y σ2 = 2.5.

• Este caso es conjugado, y uno puede probar que

µ|y ∼ N

(nτ2y + τ2

0µ0

nτ2 + τ20

,1

nτ2 + τ20

),

donde τ = σ−1 y τ0 = σ−10 .


Ejemplo 4

• Utilice OpenBUGS para obtener una aproximacion de la mediaposterior:

µ|y =nτ2y + τ2

0µ0

nτ2 + τ20

= −2.5658

• Calcule un intervalo de prediccion al 95% para µ y comparelo con elteorico.

• Estime la distribucion posterior de la observacion perdida.


Ejemplo 5

Usando los mismos datos, utilice el siguiente modelo (no conjugado):

y ∼ N(µ, σ2)

con distribuciones previas:

µ ∼ N(µ0, σ20)

τ2 :=1

σ2∼ Γ(a0, b0)

donde µ0 = −2.75, σ0 = 7.5, a0 = b0 = 0.0001.


Ejemplo 5

• Utilice OpenBUGS para analizar el comportamiento de las muestrasposteriores de µ y θ.

• Analice la distribucion posterior de la observacion perdida.


tecnicas computacionales en la estad istica bayesiana · estad istica bayesiana luis a. barboza...

Documents