ericmagar guillermorosas yelamableapoyodeernestobarrios...

,

Taller de estimación de variables latentes

Eric MagarGuillermo Rosas

y el amable apoyo de Ernesto Barrios

ITAM – Junio 2011

1

,

Temas

IntroducciónVariables latentesInferencia bayesianaR, RStudio y Jags (Barrios)

Regresión lineal: El efecto de arrastre de ejecutivosEstimación clásicaEstimación bayesiana

IRT I: Introducción, teoría espacial del voto, CDHCU

IRT II: Modelos jerárquicos, dinámicos, multidimensionales

Modelos con variables latentes: análisis factorial bayesiano

2

,

Temas






3

,

Variables latentes y su potencial gráfico

1. A menudo interesa medición de variables que no pueden serobservadas directamente

2. Deben ser inferidas de indicadores que sí son observables3. Un modelo de variable latente conecta (2) a (1)

EjemplosI Sicometría: habilidad, personalidad autoritariaI Mercadotecnia: demanda de productos, herd behaviorI Economía: confianza del consumidor, felicidadI CPol: ideología, preferencias en regulación

4

,

La estructura de los datos

Poole (2005)Un procedimiento capaz de capturar la estructura subyacente detus datos (votos) permite1. tomar una serie de números2. transformarlos en gráficas simples3. que comunican significado

Resumes información compleja con dibujos

5

,

Aproximación gráfica

Un bon croquis vaut mieux qu’un long discours—(atribuido a) Napoleón Bonaparte

6

,


7

,


Simulaciones con el logit multinomial de Domínguez y McCann (King et al. 2000).8

,


Poole recurre a la “basic-space theory of ideology” pararesumir/interpretar votaciones nominales con dibujos1. Teoría espacial del voto (cf. Downs)2. Sistema de creencias restrinje la dimensionalidad

(cf. Converse)

Escalamiento multidimensional1. Métodos agnósticos: factorial, componentes principales,

clasificación óptima, ...2. Microfundamentos dan la estructura: item response theory,

utilidad euclidiana, ...

9

,

Ventajas de la estadística bayesiana

1. La inferencia bayesiana es simple y directa: Depende deenunciados a posteriori que reflejan nuestras creencias acercade parámetros, hipótesis, modelos o datos faltantes

2. La inferencia bayesiana permite responder preguntasrelevantes: ¿qué tan plausible es la hipótesis H0 en vista delos datos que tenemos?

3. La inferencia bayesiana permite el análisis de eventos norepetibles

4. La inferencia bayesiana facilita el análisis de relacionescausa-efecto en situaciones de heterogeneidad causal (modelosjerárquicos)

10

,

¿Qué es probabilidad?Axiomas de Kolmogorov

Si Ω es un conjunto de eventos y Pr(A) es una función que asignaun número real a cada evento A ⊂ Ω, Pr(A) es una medida deprobabilidad si:1. Pr(A) ≥ 0, ∀A ⊂ Ω

2. Pr(Ω) = 13. Si A ⊂ Ω y B ⊂ Ω son conjuntos inconexos,

Pr(A ∪ B) = Pr(A) + Pr(B)

11

,

¿Qué es probabilidad?Visiones alternativas

I Visión “frecuentista” (clásica): La probabilidad es lafrecuencia relativa de un evento en el largo plazo, y es unapropiedad del objeto que se estudia

I Visión “subjetivista” (bayesiana): La probabilidad es unaexpresión del grado de certeza que uno tiene acerca de laveracidad de cierta hipótesis

12

,

Teorema de Bayes (regla de probabilidad inversa)

Si H es una hipótesis, y E representa evidencia, la respuesta a lapregunta sobre la plausibilidad de la hipótesis H dada la evidenciaE es:

Pr(H|E )︸︷︷︸a posteriori

=Pr(E ∩ H)

Pr(E )=

verosimilitud︷︸︸︷Pr(E |H)

a priori︷︸︸︷Pr(H)

Pr(E )

De manera más general,

Pr(ψ|y) ∝ Pr(y|ψ)Pr(ψ),

es decir, la distribución a posteriori es proporcional al producto dela distribución a priori y la función de verosimilitud

13

,

densidad a priori × verosimilitud = densidad a posteriori

−5 −4 −3 −2 −1 0 1 2 3 4 5

a prioriverosimilituda posteriori

−5 −4 −3 −2 −1 0 1 2 3 4 5 −5 −4 −3 −2 −1 0 1 2 3 4 5

14

,

Creencias a priori, creencias a posteriori, y probabilidad

a priori→ datos→ a posteriori

p(ψ)→ y → p(ψ|y)

Inferencia bayesiana: El enunciado condicional tiene que ver con laprobabilidad de que el parámetro esté en cierto rango, dado queobservamos ciertos datos

Inferencia frecuentista: El enunciado condicional tiene que ver conla probabilidad de observar ciertos datos, dado que suponemos laveracidad de la hipótesis nula

15

,

Chabelo es bayesiano, los cuates de Chabelo no

I El niño abre la puerta A:

Pr(A) = Pr(B) = Pr(C) =13

I Chabelo abre la puerta C:

Pr(A) = Pr(B) =12

I El niño se queda con lapuerta A

I Información disponible:

Pr(A) = Pr(B) = Pr(C) = 1/3Pr(Ch abra C |A) = 1/2Pr(Ch abra C |B) = 1Pr(Ch abra C |C) = 0

I Probabilidad de que Chabelo abra C:

Pr(Ch abra C) = Pr(A)Pr(Ch abra C |A)

+ Pr(B)Pr(Ch abra C |B)

+ Pr(C)Pr(Ch abra C |C)

I Teorema de Bayes:

Pr(A|Ch abra C) =Pr(A)Pr(Ch abra C |A)

Pr(Ch abra C)

Pr(B|Ch abra C) =Pr(B)Pr(Ch abra C |B)

Pr(Ch abra C)16

,

¿Qué es R?

I Es una colección de herramientas para manipular datos, llevara cabo cómputos y preparar gráficas

I Numerosas técnicas estadísticas han sido desarrolladas:I algunas pre-empaquetadas en la instalación de RI otras (las más) como paquetes extensibles

http://www.youtube.com/watch?v=ZO-93iULKBI

I Código de fuente abierta: Encyclopaedia Britannica v.Wikipedia

I Muchísima ayuda en líneahttp://www.burns-stat.com/

17

http://www.youtube.com/watch?v=ZO-93iULKBI

http://www.burns-stat.com/

,

Algunas complicaciones

I Consola abre con pantalla blanca y ‘>’turn-off para tantas generaciones que han crecido con mouse

I R crea objetos que no necesariamente tienen que serrectangulares. Salir de la camisa de fuerza desconcierta

I Todo es case sensitive (funciones y nombres de objeto)I En vez de sacar output copioso como SPSS, el análisis en R

va guardando los resultados como objetos. El usuario losinterroga para sacar conclusiones

I R suele operarse a partir de código (tipo do file de Stata) quese prepara en un editor de texto — usaremos RStudio paraesto

18

,

Regresión lineal Bayesiana

COMANDOS EN R

19

,

Temas






20

,

Análisis de elecciones legislativas

I El desenlace de una elección resulta de la combinación de dosclases de fuerzas (Converse 1966)1. largo plazo: encapsuladas en PID, cambio lento, “voto normal”2. corto plazo: calidad de candidatos, swings nacionales, shock

efímero al voto normalI Arrastre presidencial es una de las fuerzas de corto plazoI EE.UU.: 1980s = 1

3 ; 1940s =12 ; 1890s =

910 (Campbell 1991)

I ¿Elección concurrente de gobernador también produce unefecto de arrastre? (Jones 1997, Samuels 2000)

21

,

Un modelo de arrastre

Dvot = β0 + β1RecentDvot + β2GovOnlyConcurs+β3PresOnlyConcurs + β4Gov&PresConcur+β5Gvote|GovOnlyConcurs + β6Gvote|Gov&PresConcur+β7Pvote|PresOnlyConcurs + β8Pvote|Gov&PresConcur+controles + error

I Elecciones de diputados federales 1997–2009I Unidad de análisis: estadosI Panel 32× 5

22

,

Elecciones de diputados federales por estadoPAN

Year

Fed

eral

dep

uty

vote

sha

re

1979 82 85 88 91 94 97 2000 03 06 09

0.0

0.2

0.4

0.6

0.8

1.0

PRI

Year

Fed

eral

dep

uty

vote

sha

re

1979 82 85 88 91 94 97 2000 03 06 09

0.0

0.2

0.4

0.6

0.8

1.0

PRD

Year

Fed

eral

dep

uty

vote

sha

re

1979 82 85 88 91 94 97 2000 03 06 09

0.0

0.2

0.4

0.6

0.8

1.0

23

,

Regresión en Stata

24

,

Resultados OLS

OLS OLS-PCSEVariable β p β pPart A. PANConstant .135 .000 .135 .000RecentDvote .586 .000 .586 .000GovOnlyConcurs −.151 .000 −.151 .005PresOnlyConcurs −.097 .000 −.097 .054Gov&PresConcur −.106 .000 −.106 .102Gvote|GovOnlyConcurs .584 .000 .584 .000Gvote|Gov&PresConcur .444 .000 .444 .043Pvote|PresOnlyConcurs .446 .000 .446 .002Pvote|Gov&PresConcur .018 .848 .018 .956IncumbentGovernor .045 .030 .045 .021IncumbentPresident −.047 .002 −.047 .004Economy −.145 .451 −.145 .465PartyCoalesced .016 .319 .016 .416N 160 160R2 .82 .82

25

,

Regresión en R: función lm

26

,

Regresión bayesiana en R: función MCMCregress

27

,

Resultados MCMC

Bayesian credible intervals−1 −.5 0 .5 1

ConstantRecentDvoteGovOnlyConcursPresOnlyConcursGov&PresConcurGvote|GovOnlyConcursGvote|Gov&PresConcurPvote|PresOnlyConcursPvote|Gov&PresConcurIncumbentGovernorIncumbentPresidentEconomyPartyCoalesced

28

,

El efecto de arrastre neto de gobernadores

PAN

Gubernatorial vote share

Exp

ecte

d fe

dera

l dep

uty

vote

sha

re

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

non−concurrence baseline

threshold

29

,

¿Resultados idénticos?Coeficiente de RecentDvote

1. Versión frecuentista:βML ≈ 0.59, se(β) ≈ 0.06, H0 = 0.45

z =βML − H0

se(β)≈ 2.33

La frecuencia con que uno observaría βML ≥ 0.59 bajo H0 enel largo plazo es 0.009.

2. Versión bayesiana:p(β) ∼ N (0, 1002); p(β|Y ,X ) ∼ N (0.59, 0.062)

Pr(β ≤ 0.45|Y ,X ) =

∫ 0.45

−∞p(β|Y ,X )dβ

=

∫ 0.45

−∞φ

(0.59− .450.06

)dβ = .009

30

,


Distribución de muestreo Densidad a posteriori

0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.2 0.3 0.4 0.5 0.6 0.7 0.8

f (β|H0 = .45) p(β|Y ,X )

31

,


Distribución de muestreo Densidad a posteriori

0.55 0.60 0.65 0.70 0.75 0.80 0.20 0.25 0.30 0.35 0.40 0.45 0.50

f (β|H0 = .45) p(β|Y ,X )

32

,


H1 : β > .45H0 : β ≤ .45

El factor bayesiano que resume la cantidad de evidencia a favor deH1 es:

B10 =

p(H1|y)

p(H0|y)

/p(H1)

p(H0)

=

1− .009.009

/.5.5

= 110.11

¿Cómo podemos estimar la probabilidad de que el coeficiente deRecentDVote sea negativo?¿Cómo podemos estimar la probabilidad de que el coeficiente deRecentDVote se encuentre entre 0.3 y 0.45?

33

,

La tentación de la probabilidad inversa en el frecuentismo

1. Modus tollensP → Q;¬Q;` ¬P

2. Modus tollens probabilístico?I Si un individuo es mexicano, es improbable que sea miembro

de la Cámara de DiputadosI Este individuo es miembro de la CámaraI Es improbable que este individuo sea mexicano

3. Inverse probability problem

Pr(H0|D)︸︷︷︸mexicano|diputado

∝ Pr(H0)× Pr(D|H0)︸︷︷︸diputado|mexicano

34

,

Regresión lineal: densidades

I Modelo de regresión lineal:

yi ∼ N (µi , σ2)

µi = β0 + β1X1 + . . .+ βkXk = xiβ

I La inferencia deseada es sobre β = [β0 . . . βk ] y σ2

I Densidades a priori:

β|σ2, y,X ∼ N (b0, σ2B0)

σ2 ∼ Gamma-inversa(ν02 ,

ν0σ20

2

)

35

,

Densidades conjugadas

I Cuando las densidades a priori y a posteriori son de la mismafamilia, se dice que la densidad a priori y la verosimilitud estánconjugadas

I Si uno es capaz de proveer un a priori no tendrá dificultad eninterpretar el a posteriori conjugado

I β5 ∼ N (0, 1002) — a priori no informativoHistogram of beta5

beta5

Den

sity

0.3 0.4 0.5 0.6 0.7 0.8 0.9

01

23

4

36

,

Densidades conjugadas

Sea yiiid∼ N (µ, σ2) (donde i = 1, . . . , n), con σ2 conocida y

y = (y1, . . . , yn)′. Si µ ∼ N (µ0, σ20) es la distribución a priori de µ,

la distribución a posteriori es:

µ|y ∼ N(µ0σ

−20 + y n

σ2

σ−20 + n

σ2,

(σ−2

0 +nσ2

)−1)

Si la distribución a priori y la verosimilitud son conjugadas, ladensidad a posteriori es una mezcla ponderada de ambasdensidades, donde el ponderador es la precisión respectiva deambas densidades:

E(µ|y) = y + ω(µ0 − y)

ω =σ−2

0σ−2

0 + nσ2

37

,

Regresión lineal: densidades(continuación)

I Distribución a posteriori

β|σ2, y,X ∼ N (b1, σ2B1)

σ2 ∼ inverse Gamma(ν12 ,

ν1σ21

2

)I Los parámetros a posteriori son un “compromiso” entre la

información a priori y la información proporcionada por losdatos:

b1 = (B0−1 + X′X)−1(B0

−1b0 + X′Xθ)

B1 = (B0−1 + X′X)−1

38

,

MCMC: principio de Monte Carlo y cadenas de Markov

I Principio de Monte Carlo: Todo lo que querramos saberacerca de una variable ψ lo podemos averiguar tomandomuchas muestras de la densidad f (ψ) de ψ

I Cadenas de Markov: Una cadena de Markov es un procesoestocástico definido sobre cierto espacio paramétrico.Tiene la propiedad de ser un proceso ergódico: una cadena deMarkov visita cada región del espacio paramétrico enproporción a la probabilidad de esa región dada una densidadde interés

39

,

A priori, verosimilitud, a posterioriSe puede aproximar una densidad a posteriori sin recurrir al análisis matemático

library(LearnBayes)

midpt = seq(0.05, 0.95, by = 0.1)prior = c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0)prior = prior/sum(prior)

curve(histprior(x,midpt,prior), from=0, to=1,ylab="Prior density",ylim=c(0,round (max(prior),2)))

s = 11f = 16

curve(dbeta(x,s,f), from=0, to=1, ylab="Data likelihood")

curve(histprior(x,midpt,prior) * dbeta(x,s,f),from=0, to=1, ylab="Posterior density")

40

,

Algoritmo de GibbsEl algoritmo de muestreo de Gibbs (Gibbs sampler) obtienemuestras de las densidades condicionales de los parámetros paracaracterizar la densidad conjunta de los parámetros:gibbs<-function (n, rho)

# Open plotting windowplot (c(-3.5,3.5),c(-3.5,3.5), type="n", xlab="x", ylab="y")mat <- matrix(ncol = 2, nrow = n)# Assign starting valuesx <- 0y <- 0mat[1, ] <- c(x, y)points (xy.coords(x,y), pch="1", col="black")for (i in 2:n)

# Sample x2 from p(x|y1)x <- rnorm(1, rho * y, sqrt(1 - rho^2))# Sample y2 from p(y|x2)y <- rnorm(1, rho * x, sqrt(1 - rho^2))mat[i, ] <- c(x, y)points (xy.coords(x,y), pch=as.character(i),

col="grey")mat

41

,

Algoritmo de Gibbs: Después de 15 muestras

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

bvn[,1]

bvn[

,2]

−1.0 −0.5 0.0 0.5 1.0

−1.

0−

0.5

0.0

0.5

bvn[,1]

bvn[

,2]

Timets

(bvn

[, 1]

)

2 4 6 8 10 12 14

−1.

0−

0.5

0.0

0.5

1.0

Time

ts(b

vn[,

2])

2 4 6 8 10 12 14

−1.

0−

0.5

0.0

0.5

Histogram of bvn[, 1]

bvn[, 1]

Fre

quen

cy

−1.0 −0.5 0.0 0.5 1.0

0.0

0.5

1.0

1.5

2.0


bvn[, 2]

Fre

quen

cy

−1.0 −0.5 0.0 0.5

0.0

0.5

1.0

1.5

2.0

42

,

Algoritmo de Gibbs: Después de 1,000 muestras

−2 −1 0 1 2

−3

−2

−1

01

23

bvn[,1]

bvn[

,2]

−2 −1 0 1 2

−3

−2

−1

01

23

bvn[,1]

bvn[

,2]

Timets

(bvn

[, 1]

)

0 200 400 600 800 1000

−2

−1

01

2

Time

ts(b

vn[,

2])

0 200 400 600 800 1000

−3

−2

−1

01

23


bvn[, 1]

Fre

quen

cy

−3 −2 −1 0 1 2 3

010

2030

40


bvn[, 2]

Fre

quen

cy

−3 −2 −1 0 1 2 3

020

4060

80

43

,

Algoritmo de Gibbs: Comparación con resultados analíticosJackman 2009, tabla 5.3

Analítico 1000 muestras 50000 muestrasE(µ1|y) 29.44 30.34 29.38E(µ2|y) 37.72 38.63 37.65V(µ1|y) 38.41 35.54 38.91V(µ2|y) 43.17 40.12 43.84C(µ1, µ2|y) 30.59 28.07 31.12

44

,

Temas






45

,

Item Response Theory

I Modelo estándar de éxito/fracaso en pruebas esel logístico de respuesta a items (sicometría, Rasch)

I J sujetos contestan prueba de aptitudes con K preguntaspuede expresarse como (Gelman&Hill 2007:314)

Pr(yjk = 1) = logit−1(αj − ψk)

donde αj es la habilidad del sujeto jy ψk la dificultad de la pregunta k

I Si preg. 4 tiene dificultad 1.4 y sujeto 13 habilidad 3.8, laprob. de que conteste correctamente el ítem 4 eslogit−1(2.4) = .92

I Trivial generalizarlo para estudiar el voto

46

,

La aproximación gráfica

I Mapas políticos de una legislatura son fáciles de hacerI Cuatro ingredientes:

1. Datos2. Técnica de escalamiento3. Modelo de variable latente4. Conocimiento sustantivo — política de la legislatura

I Sin #3 o sin #4, el mapa carece de significado

Elaboramos el modelo de variable latente(ojo: reto real es #4)

47

,

Orígenes

El modelo de variable latente que usaremos conjuga avances ensicología, economía, ciencia política, ... (Poole 2005)

Desarrollo de la versión determinista1. Hotelling (1929) competencia en pueblo lineal2. Smithies (1941) demanda elástica3. Black (1948, 1958) generaliza a comités4. Downs (1957) generaliza a candidatos, populariza5. Davis, Hinich, Ordeshook (1966, 1970) completan

formalización para aplicaciones empíricas

48

,

Supuestos centrales

1. Preferencias y alternativas pueden representarseen un mismo espacio (R, R2, Rn)

2. Preferencias euclidianas: se opta por la alternativamás cercana al punto ideal (± error)

I u(x) = ||i , x ||, i es el ideal, x una alternativaI opción 1: u(x) = −|i − x |I opción 2: u(x) = −(i − x)2

I opción 3: u(x) = φ(i − x , σ2)

3. El voto es sincero(sin logrolls ni voto estratégico)

49

,

Especificación unidimensional

nada

propuesta

sí

deny,no

A

V

q

p

q

Cálculo del voto:I u(p) > u(q) votas síI u(p) ≤ u(q) votas no

El diferencial de utilidad: d = u(p)− u(q)?≶ 0

50

,

Especificación unidimensional

p = propuesta, q = status quo, i = ideal del votante

d = u(p)− u(q)

= −(i − p)2 + (i − q)2

= −(i2 − 2ip + p2) + i2 − 2iq + q2

= −2iq + q2 + 2ip − p2

= −2i(q − p) + q2 − p2

= −2i(q − p) + (q + p)(q − p)

= −2(q − p)

(i − (q + p)

2

)= δ(i −m)

51

,

La centralidad del punto medio

Basta conocer m para deducir la conducta asociada con i

q pmii −m < 0↔ i < m→ votas no

q pm ii −m > 0↔ i > m→ votas sí

52

,

Modelo estocástico

Propensión al voto del sujeto j para el ítem k :

vjk∗ = δk(ij −mk) + errorjk

I Regla de votación: vjk =

1 si vjk

∗ > 00 si vjk

∗ ≤ 0I Signo de δk controla la polaridadI Tamaño de |δk | estima el peso relativo del componente

sistemático vs. el estocástico (signal-to-noise ratio)

OperacionalizaciónSi errorjk

iid∼ N (0, σ2)→ vjk∗ ∼ N (µjk , σ

2) dondeµjk = δk(ij −mk)

53

,

Especificación bidimensional

d = ||i , p|| − ||i , q||

=√

(xi − xp)2 + (yi − yp)2 −√

(xi − xq)2 + (yi − yq)2

Dado que cuando a, b ≥ 0 : a > b ↔ a2 > b2, raíces se van

d = (xi − xp)2 + (yi − yp)2 − [(xi − xq)2 + (yi − yq)2]

= (xi − xp)2 − (xi − xq)2 + (yi − yp)2 − (yi − yq)2

= [(xi − xp) + (xi − xq)] [(xi − xp)− (xi − xq)]

+ [(yi − yp) + (yi − yq)] [(yi − yp)− (yi − yq)]

= (2xi − xq − xp)(xq − xp) + (2yi − yq − yp)(yq − yp)

= 2xixq − 2xixp − xq2 + xp

2 + 2yiyq − 2yiyp − yq2 + yp

2

54

,

Dos posible parameterizaciones

1. Aditiva (Gelman&Hill 2007:319)

d = 2xixq − 2xixp − xq2 + xp

2 + 2yiyq − 2yiyp − yq2 + yp

2

= −2(xq − xp)

(xi −

(xq + xp)

2

)− 2(yq − yp)

(yi −

(yq + yp)

2

)= δx (xi −mx ) + δy (yi −my )

I Ésta es la que usaremos en la estimaciónI Permite controlar polaridad de cada dimensión fácilmente

55

,

Dos posible parameterizaciones

2. Bisectriz (cutlines)Igualamos d = 0 para despejar yv

−2yiyq + 2yiyp = 2xi (xq − xp)−(

(xq2 − xp

2) + (yq2 − yp

2))

yi = −xq − xpyq − yp

xi +(xq

2 − xp2) + (yq

2 − yp2)

2(yq − yp)

= δaxi + δb= δ(axi + b)

I Ésta la usaremos en la ilustración

56

,

Cutlines

y=ax

+b

xi

axi + b

yi

q

pi

x

y

yi < axi + b → vota no

57

,

Cutlines

y=ax

+b

xi

axi + b

yi

q

pi

x

y

yi < axi + b → vota no

58

,

Modelo reversible

La teoría espacial del voto puede aplicarse1. fijando preferencias para explicar conducta

(Downs 1957, Romer&Rosenthal 1978)2. fijando conducta para inferir preferencias

(Poole&Rosenthal 1985, Martin&Quinn 2002)

Haremos lo segundo:inferir las preferencias políticasde los diputados a partir desus votaciones nominales

59

,

“Data augmentation” en el modelo IRT

1. La clave es pensar en una variable latente que subyace cadarespuesta dicotómica, de la siguiente manera:

yij =

1 si y∗ij ≥ 00 si y∗ij < 0

2. La variable latente y∗ij se puede interpretar como la propensióna votar a favor de una propuesta, y es una función deparámetros correspondientes a individuos y propuestas

y∗ij = βj(θi − αj)

3. Alternativamente, podemos escribir

Pr(yij = 1) = Φ(y∗ij ),

es decir, una función “probit”60

,

Algoritmo de Gibbs para el modelo IRT

Interesa obtener una muestra de la densidad posterior conjunta deparámetros y variables latentes. El algoritmo repite tres pasos encada turno:1. g(y∗|θ,α,β, y) es una densidad normal truncada con mediaβt−1

j θt−1i − αt−1

j (data augmentation)2. g(θ|y∗,α,β, y) es una densidad normal con media mxi y

varianza νxi

3. g(α,β|θ, y∗, y) es también una densidad normal con mediamj y varianza νj

61

,

¿Para qué sirven los parámetros de discriminación ydificultad?

α = 0, β = 1 α = 1, β = 1 α = 0, β = 1/2

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Punto ideal x_i

Pro

babi

lidad

de

vota

r a

favo

r

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

0.6

0.8

1.0

Punto ideal x_i

Pro

babi

lidad

de

vota

r a

favo

r

−3 −2 −1 0 1 2 3

0.3

0.4

0.5

0.6

0.7

Punto ideal x_i

Pro

babi

lidad

de

vota

r a

favo

r

62

,

Múltiples rotaciones y escalamientos de los parámetros

El modelo básico y∗ij = βj(θi − αj) no está identificado:

I Escalas múltiples: El modelo no cambia si usamos θ′i = k + θiy α′j = k + αj

I Rotaciones múltiples: El modelo no cambia si usamosθ′i = k · θi y β′j = βj/k y α′j = αj/k

θ1 θ2 θ3

α1 α2α3α4

En resumen, hay un número infinito de soluciones para θ, α y β

63

,

Densidades a priori para los parámetros del modelo IRT

Comúnmente se usan las densidades a prior de los parámetros θ, αy β para identificar el modelo IRT:1. La escala del modelo se puede fijar con una densidad a priori

sobre los puntos ideales:

Pr(θ) ∼ N (0, 1)

2. De manera similar, una densidad a priori de tipo

Pr(α) = Pr(β) ∼ N (0, 2)

permite estimar los parámetros de discriminación y dificultaden una escala similar

3. La polaridad del modelo se puede fijar “anclando” un par depuntos ideales (θ) o un par de parámetros de discriminación(β)

64

,

Modelo unidimensional del Congreso mexicanoMCMCpack (Martin, Quinn, Park)

posterior.1D <- MCMCirtKd(Roll.Call,dimensions=1,store.item=TRUE, store.ability=TRUE,burnin=15000, mcmc=30000, thin=10,seed=1971,item.constraints=list(

vote.left=list(2,"-"),vote.right=list(2,"+")),

b0=0, B0=.25)

65

,

¿Qué es BUGS/JAGS?

I Es una serie de modulos que permiten estimar modelosbayesianos mediante simulaciones MCMC

I WinBUGS sólo funciona en plataforma WindowsI JAGS se puede compilar en todo tipo de plataformas

I Código de fuente abiertaI Mucha ayuda para WinBUGS; relativamente poca para JAGSI Los mensajes de error son muy poco informativos

66

,

Modelo unidimensional del Congreso mexicanoJAGS (Plummer)

CJR.1D = "model for(i in 1:n.legs)

for(j in 1:n.item)

rc[i,j] ~ dbern(p[i,j]);#IRT MODELprobit(p[i,j]) <- mu[i,j];mu[i,j] <- beta[j]*theta[i] - alpha[j];

# SAVE ONLY A HANDFUL OF PARAMETERSfor (y in 1:50)

Beta[y] <- beta[Y[y]];Alpha[y] <- alpha[Y[y]];

67

,

Modelo unidimensional del Congreso mexicano. . . continuación

# PRIORS ON DISCRIMINATION PARAMETERSfor(j in 1:(anchor[1]-1))

beta[j] ~ dnorm( 0, 0.25);

beta[anchor[1]] ~ dnorm( 1, 100);for(j in (anchor[1]+1):(anchor[2]-1))

beta[j] ~ dnorm( 0, 0.25);

beta[anchor[2]] ~ dnorm(-1, 100);for(j in (anchor[2]+1):n.item)

beta[j] ~ dnorm( 0, 0.25);# PRIORS ON DIFFICULTY PARAMETERSfor(j in 1:n.item) alpha[j] ~ dnorm( 0, 0.25); # PRIORS ON LEGISLATOR IDEAL POINTSfor(i in 1:n.legs) theta[i] ~ dnorm(0, 1);

"

68

,

Modelo unidimensional del Congreso mexicano(MCMCpack)

Densidades de tres legisladores

Densidades a posteriori

−2 0 2 4

PRIPANPRD

Densidades de todos los legisladores

Densidades a posteriori

−4 −2 0 2 4

PRIPANPRD

0 50 100 150

−10

−5

05

10

Index

Val

ue

69

,

Tests de convergencia

1. Test de Geweke: Compara los promedios de ψcorrespondientes a dos etapas de la simulación MCMC

2. Test de Heidelberger-Welch3. Test de Raftery-Lewis4. Cadenas múltiples (Gelman-Rubin):

var+(ψ|y) =T − 1T W +

1T B

√R =

√var+(ψ|y)

WEn JAGS: gelman.diag (post.2D.cjr$mcmc)

70

,

15000 20000 25000 30000 35000 40000 45000

-3.5

-1.5

Iterations

Trace of theta.347.1

-3.5 -3.0 -2.5 -2.0 -1.5 -1.0

0.0

0.8

N = 3000 Bandwidth = 0.06585

Density of theta.347.1

15000 20000 25000 30000 35000 40000 45000

-3.0

-1.0

Iterations


-3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5

0.0

0.8

N = 3000 Bandwidth = 0.06845


15000 20000 25000 30000 35000 40000 45000

-0.5

0.0

Iterations


-0.4 -0.2 0.0 0.2

02

4

N = 3000 Bandwidth = 0.0147


15000 20000 25000 30000 35000 40000 45000

-0.5

-0.1

Iterations


-0.4 -0.2 0.0 0.2

02

46

N = 3000 Bandwidth = 0.01463


71

,

Temas






72

,

Modelo bidimensional del Congreso mexicanoJAGS (Plummer)

CJR.1D = "model for(i in 1:n.legs)

for(j in 1:n.item)

rc[i,j] ~ dbern(p[i,j]);#IRT MODELprobit(p[i,j]) <- mu[i,j];mu[i,j] <- beta[j]*theta[i,1] + # <= Cambio

delta[j]*theta[i,2] -alpha[j];

# PRIORS ON DIFFICULTY PARAMETERSfor(j in 1:n.item) alpha[j] ~ dnorm( 0, 0.25); # PRIORS ON LEGISLATOR IDEAL POINTSfor(i in 1:n.legs)

theta[i,1] ~ dnorm(0, 1); # <= Cambiotheta[i,2] ~ dnorm(0, 1);

73

,

Modelo bidimensional del Congreso mexicano. . . continuación

# PRIORS ON DISCRIMINATION PARAMETERSfor(j in 1:(anchor[1]-1))

beta[j] ~ dnorm( 0, 0.25);

beta[anchor[1]] ~ dnorm( 1, 100);for(j in (anchor[1]+1):(anchor[2]-1))

beta[j] ~ dnorm( 0, 0.25);

beta[anchor[2]] ~ dnorm(-1, 100);for(j in (anchor[2]+1):n.item)

beta[j] ~ dnorm( 0, 0.25);for(j in 1:(n.item-1)) # <= Cambio

delta[j] ~ dnorm( 0, 0.25);

delta[n.item] ~ dnorm( 1, 4);"

74

,

Modelo bidimensional del Congreso mexicano(MCMCpack)

−4 −2 0 2 4

−4

−2

02

4

1st dimension

2nd

dim

ensi

on

0 10 20 30 40 50

−6

−4

−2

02

46

Index

Val

ue

ab1b2

75

,

Temas






76

ericmagar guillermorosas yelamableapoyodeernestobarrios...

Documents