ericmagar guillermorosas yelamableapoyodeernestobarrios...
TRANSCRIPT
,
Taller de estimación de variables latentes
Eric MagarGuillermo Rosas
y el amable apoyo de Ernesto Barrios
ITAM – Junio 2011
1
,
Temas
IntroducciónVariables latentesInferencia bayesianaR, RStudio y Jags (Barrios)
Regresión lineal: El efecto de arrastre de ejecutivosEstimación clásicaEstimación bayesiana
IRT I: Introducción, teoría espacial del voto, CDHCU
IRT II: Modelos jerárquicos, dinámicos, multidimensionales
Modelos con variables latentes: análisis factorial bayesiano
2
,
Temas
IntroducciónVariables latentesInferencia bayesianaR, RStudio y Jags (Barrios)
Regresión lineal: El efecto de arrastre de ejecutivosEstimación clásicaEstimación bayesiana
IRT I: Introducción, teoría espacial del voto, CDHCU
IRT II: Modelos jerárquicos, dinámicos, multidimensionales
Modelos con variables latentes: análisis factorial bayesiano
3
,
Variables latentes y su potencial gráfico
1. A menudo interesa medición de variables que no pueden serobservadas directamente
2. Deben ser inferidas de indicadores que sí son observables3. Un modelo de variable latente conecta (2) a (1)
EjemplosI Sicometría: habilidad, personalidad autoritariaI Mercadotecnia: demanda de productos, herd behaviorI Economía: confianza del consumidor, felicidadI CPol: ideología, preferencias en regulación
4
,
La estructura de los datos
Poole (2005)Un procedimiento capaz de capturar la estructura subyacente detus datos (votos) permite1. tomar una serie de números2. transformarlos en gráficas simples3. que comunican significado
Resumes información compleja con dibujos
5
,
Aproximación gráfica
Un bon croquis vaut mieux qu’un long discours—(atribuido a) Napoleón Bonaparte
6
,
Aproximación gráfica
Un bon croquis vaut mieux qu’un long discours—(atribuido a) Napoleón Bonaparte
6
,
Aproximación gráfica
7
,
Aproximación gráfica
Simulaciones con el logit multinomial de Domínguez y McCann (King et al. 2000).8
,
Aproximación gráfica
Poole recurre a la “basic-space theory of ideology” pararesumir/interpretar votaciones nominales con dibujos1. Teoría espacial del voto (cf. Downs)2. Sistema de creencias restrinje la dimensionalidad
(cf. Converse)
Escalamiento multidimensional1. Métodos agnósticos: factorial, componentes principales,
clasificación óptima, ...2. Microfundamentos dan la estructura: item response theory,
utilidad euclidiana, ...
9
,
Ventajas de la estadística bayesiana
1. La inferencia bayesiana es simple y directa: Depende deenunciados a posteriori que reflejan nuestras creencias acercade parámetros, hipótesis, modelos o datos faltantes
2. La inferencia bayesiana permite responder preguntasrelevantes: ¿qué tan plausible es la hipótesis H0 en vista delos datos que tenemos?
3. La inferencia bayesiana permite el análisis de eventos norepetibles
4. La inferencia bayesiana facilita el análisis de relacionescausa-efecto en situaciones de heterogeneidad causal (modelosjerárquicos)
10
,
¿Qué es probabilidad?Axiomas de Kolmogorov
Si Ω es un conjunto de eventos y Pr(A) es una función que asignaun número real a cada evento A ⊂ Ω, Pr(A) es una medida deprobabilidad si:1. Pr(A) ≥ 0, ∀A ⊂ Ω
2. Pr(Ω) = 13. Si A ⊂ Ω y B ⊂ Ω son conjuntos inconexos,
Pr(A ∪ B) = Pr(A) + Pr(B)
11
,
¿Qué es probabilidad?Visiones alternativas
I Visión “frecuentista” (clásica): La probabilidad es lafrecuencia relativa de un evento en el largo plazo, y es unapropiedad del objeto que se estudia
I Visión “subjetivista” (bayesiana): La probabilidad es unaexpresión del grado de certeza que uno tiene acerca de laveracidad de cierta hipótesis
12
,
Teorema de Bayes (regla de probabilidad inversa)
Si H es una hipótesis, y E representa evidencia, la respuesta a lapregunta sobre la plausibilidad de la hipótesis H dada la evidenciaE es:
Pr(H|E )︸ ︷︷ ︸a posteriori
=Pr(E ∩ H)
Pr(E )=
verosimilitud︷ ︸︸ ︷Pr(E |H)
a priori︷ ︸︸ ︷Pr(H)
Pr(E )
De manera más general,
Pr(ψ|y) ∝ Pr(y|ψ)Pr(ψ),
es decir, la distribución a posteriori es proporcional al producto dela distribución a priori y la función de verosimilitud
13
,
densidad a priori × verosimilitud = densidad a posteriori
−5 −4 −3 −2 −1 0 1 2 3 4 5
a prioriverosimilituda posteriori
−5 −4 −3 −2 −1 0 1 2 3 4 5 −5 −4 −3 −2 −1 0 1 2 3 4 5
14
,
Creencias a priori, creencias a posteriori, y probabilidad
a priori→ datos→ a posteriori
p(ψ)→ y → p(ψ|y)
Inferencia bayesiana: El enunciado condicional tiene que ver con laprobabilidad de que el parámetro esté en cierto rango, dado queobservamos ciertos datos
Inferencia frecuentista: El enunciado condicional tiene que ver conla probabilidad de observar ciertos datos, dado que suponemos laveracidad de la hipótesis nula
15
,
Chabelo es bayesiano, los cuates de Chabelo no
I El niño abre la puerta A:
Pr(A) = Pr(B) = Pr(C) =13
I Chabelo abre la puerta C:
Pr(A) = Pr(B) =12
I El niño se queda con lapuerta A
I Información disponible:
Pr(A) = Pr(B) = Pr(C) = 1/3Pr(Ch abra C |A) = 1/2Pr(Ch abra C |B) = 1Pr(Ch abra C |C) = 0
I Probabilidad de que Chabelo abra C:
Pr(Ch abra C) = Pr(A)Pr(Ch abra C |A)
+ Pr(B)Pr(Ch abra C |B)
+ Pr(C)Pr(Ch abra C |C)
I Teorema de Bayes:
Pr(A|Ch abra C) =Pr(A)Pr(Ch abra C |A)
Pr(Ch abra C)
Pr(B|Ch abra C) =Pr(B)Pr(Ch abra C |B)
Pr(Ch abra C)16
,
¿Qué es R?
I Es una colección de herramientas para manipular datos, llevara cabo cómputos y preparar gráficas
I Numerosas técnicas estadísticas han sido desarrolladas:I algunas pre-empaquetadas en la instalación de RI otras (las más) como paquetes extensibles
http://www.youtube.com/watch?v=ZO-93iULKBI
I Código de fuente abierta: Encyclopaedia Britannica v.Wikipedia
I Muchísima ayuda en líneahttp://www.burns-stat.com/
17
,
Algunas complicaciones
I Consola abre con pantalla blanca y ‘>’turn-off para tantas generaciones que han crecido con mouse
I R crea objetos que no necesariamente tienen que serrectangulares. Salir de la camisa de fuerza desconcierta
I Todo es case sensitive (funciones y nombres de objeto)I En vez de sacar output copioso como SPSS, el análisis en R
va guardando los resultados como objetos. El usuario losinterroga para sacar conclusiones
I R suele operarse a partir de código (tipo do file de Stata) quese prepara en un editor de texto — usaremos RStudio paraesto
18
,
Regresión lineal Bayesiana
COMANDOS EN R
19
,
Temas
IntroducciónVariables latentesInferencia bayesianaR, RStudio y Jags (Barrios)
Regresión lineal: El efecto de arrastre de ejecutivosEstimación clásicaEstimación bayesiana
IRT I: Introducción, teoría espacial del voto, CDHCU
IRT II: Modelos jerárquicos, dinámicos, multidimensionales
Modelos con variables latentes: análisis factorial bayesiano
20
,
Análisis de elecciones legislativas
I El desenlace de una elección resulta de la combinación de dosclases de fuerzas (Converse 1966)1. largo plazo: encapsuladas en PID, cambio lento, “voto normal”2. corto plazo: calidad de candidatos, swings nacionales, shock
efímero al voto normalI Arrastre presidencial es una de las fuerzas de corto plazoI EE.UU.: 1980s = 1
3 ; 1940s =12 ; 1890s =
910 (Campbell 1991)
I ¿Elección concurrente de gobernador también produce unefecto de arrastre? (Jones 1997, Samuels 2000)
21
,
Un modelo de arrastre
Dvot = β0 + β1RecentDvot + β2GovOnlyConcurs+β3PresOnlyConcurs + β4Gov&PresConcur+β5Gvote|GovOnlyConcurs + β6Gvote|Gov&PresConcur+β7Pvote|PresOnlyConcurs + β8Pvote|Gov&PresConcur+controles + error
I Elecciones de diputados federales 1997–2009I Unidad de análisis: estadosI Panel 32× 5
22
,
Elecciones de diputados federales por estadoPAN
Year
Fed
eral
dep
uty
vote
sha
re
1979 82 85 88 91 94 97 2000 03 06 09
0.0
0.2
0.4
0.6
0.8
1.0
PRI
Year
Fed
eral
dep
uty
vote
sha
re
1979 82 85 88 91 94 97 2000 03 06 09
0.0
0.2
0.4
0.6
0.8
1.0
PRD
Year
Fed
eral
dep
uty
vote
sha
re
1979 82 85 88 91 94 97 2000 03 06 09
0.0
0.2
0.4
0.6
0.8
1.0
23
,
Regresión en Stata
24
,
Resultados OLS
OLS OLS-PCSEVariable β p β pPart A. PANConstant .135 .000 .135 .000RecentDvote .586 .000 .586 .000GovOnlyConcurs −.151 .000 −.151 .005PresOnlyConcurs −.097 .000 −.097 .054Gov&PresConcur −.106 .000 −.106 .102Gvote|GovOnlyConcurs .584 .000 .584 .000Gvote|Gov&PresConcur .444 .000 .444 .043Pvote|PresOnlyConcurs .446 .000 .446 .002Pvote|Gov&PresConcur .018 .848 .018 .956IncumbentGovernor .045 .030 .045 .021IncumbentPresident −.047 .002 −.047 .004Economy −.145 .451 −.145 .465PartyCoalesced .016 .319 .016 .416N 160 160R2 .82 .82
25
,
Regresión en R: función lm
26
,
Regresión bayesiana en R: función MCMCregress
27
,
Resultados MCMC
Bayesian credible intervals−1 −.5 0 .5 1
ConstantRecentDvoteGovOnlyConcursPresOnlyConcursGov&PresConcurGvote|GovOnlyConcursGvote|Gov&PresConcurPvote|PresOnlyConcursPvote|Gov&PresConcurIncumbentGovernorIncumbentPresidentEconomyPartyCoalesced
28
,
El efecto de arrastre neto de gobernadores
PAN
Gubernatorial vote share
Exp
ecte
d fe
dera
l dep
uty
vote
sha
re
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
non−concurrence baseline
threshold
29
,
¿Resultados idénticos?Coeficiente de RecentDvote
1. Versión frecuentista:βML ≈ 0.59, se(β) ≈ 0.06, H0 = 0.45
z =βML − H0
se(β)≈ 2.33
La frecuencia con que uno observaría βML ≥ 0.59 bajo H0 enel largo plazo es 0.009.
2. Versión bayesiana:p(β) ∼ N (0, 1002); p(β|Y ,X ) ∼ N (0.59, 0.062)
Pr(β ≤ 0.45|Y ,X ) =
∫ 0.45
−∞p(β|Y ,X )dβ
=
∫ 0.45
−∞φ
(0.59− .450.06
)dβ = .009
30
,
¿Resultados idénticos?Coeficiente de RecentDvote
Distribución de muestreo Densidad a posteriori
0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.2 0.3 0.4 0.5 0.6 0.7 0.8
f (β|H0 = .45) p(β|Y ,X )
31
,
¿Resultados idénticos?Coeficiente de RecentDvote
Distribución de muestreo Densidad a posteriori
0.55 0.60 0.65 0.70 0.75 0.80 0.20 0.25 0.30 0.35 0.40 0.45 0.50
f (β|H0 = .45) p(β|Y ,X )
32
,
¿Resultados idénticos?Coeficiente de RecentDvote
H1 : β > .45H0 : β ≤ .45
El factor bayesiano que resume la cantidad de evidencia a favor deH1 es:
B10 =
p(H1|y)
p(H0|y)
/p(H1)
p(H0)
=
1− .009.009
/.5.5
= 110.11
¿Cómo podemos estimar la probabilidad de que el coeficiente deRecentDVote sea negativo?¿Cómo podemos estimar la probabilidad de que el coeficiente deRecentDVote se encuentre entre 0.3 y 0.45?
33
,
La tentación de la probabilidad inversa en el frecuentismo
1. Modus tollensP → Q;¬Q;` ¬P
2. Modus tollens probabilístico?I Si un individuo es mexicano, es improbable que sea miembro
de la Cámara de DiputadosI Este individuo es miembro de la CámaraI Es improbable que este individuo sea mexicano
3. Inverse probability problem
Pr(H0|D)︸ ︷︷ ︸mexicano|diputado
∝ Pr(H0)× Pr(D|H0)︸ ︷︷ ︸diputado|mexicano
34
,
Regresión lineal: densidades
I Modelo de regresión lineal:
yi ∼ N (µi , σ2)
µi = β0 + β1X1 + . . .+ βkXk = xiβ
I La inferencia deseada es sobre β = [β0 . . . βk ] y σ2
I Densidades a priori:
β|σ2, y,X ∼ N (b0, σ2B0)
σ2 ∼ Gamma-inversa(ν02 ,
ν0σ20
2
)
35
,
Densidades conjugadas
I Cuando las densidades a priori y a posteriori son de la mismafamilia, se dice que la densidad a priori y la verosimilitud estánconjugadas
I Si uno es capaz de proveer un a priori no tendrá dificultad eninterpretar el a posteriori conjugado
I β5 ∼ N (0, 1002) — a priori no informativoHistogram of beta5
beta5
Den
sity
0.3 0.4 0.5 0.6 0.7 0.8 0.9
01
23
4
36
,
Densidades conjugadas
Sea yiiid∼ N (µ, σ2) (donde i = 1, . . . , n), con σ2 conocida y
y = (y1, . . . , yn)′. Si µ ∼ N (µ0, σ20) es la distribución a priori de µ,
la distribución a posteriori es:
µ|y ∼ N(µ0σ
−20 + y n
σ2
σ−20 + n
σ2,
(σ−2
0 +nσ2
)−1)
Si la distribución a priori y la verosimilitud son conjugadas, ladensidad a posteriori es una mezcla ponderada de ambasdensidades, donde el ponderador es la precisión respectiva deambas densidades:
E(µ|y) = y + ω(µ0 − y)
ω =σ−2
0σ−2
0 + nσ2
37
,
Regresión lineal: densidades(continuación)
I Distribución a posteriori
β|σ2, y,X ∼ N (b1, σ2B1)
σ2 ∼ inverse Gamma(ν12 ,
ν1σ21
2
)I Los parámetros a posteriori son un “compromiso” entre la
información a priori y la información proporcionada por losdatos:
b1 = (B0−1 + X′X)−1(B0
−1b0 + X′Xθ)
B1 = (B0−1 + X′X)−1
38
,
MCMC: principio de Monte Carlo y cadenas de Markov
I Principio de Monte Carlo: Todo lo que querramos saberacerca de una variable ψ lo podemos averiguar tomandomuchas muestras de la densidad f (ψ) de ψ
I Cadenas de Markov: Una cadena de Markov es un procesoestocástico definido sobre cierto espacio paramétrico.Tiene la propiedad de ser un proceso ergódico: una cadena deMarkov visita cada región del espacio paramétrico enproporción a la probabilidad de esa región dada una densidadde interés
39
,
A priori, verosimilitud, a posterioriSe puede aproximar una densidad a posteriori sin recurrir al análisis matemático
library(LearnBayes)
midpt = seq(0.05, 0.95, by = 0.1)prior = c(1, 5.2, 8, 7.2, 4.6, 2.1, 0.7, 0.1, 0, 0)prior = prior/sum(prior)
curve(histprior(x,midpt,prior), from=0, to=1,ylab="Prior density",ylim=c(0,round (max(prior),2)))
s = 11f = 16
curve(dbeta(x,s,f), from=0, to=1, ylab="Data likelihood")
curve(histprior(x,midpt,prior) * dbeta(x,s,f),from=0, to=1, ylab="Posterior density")
40
,
Algoritmo de GibbsEl algoritmo de muestreo de Gibbs (Gibbs sampler) obtienemuestras de las densidades condicionales de los parámetros paracaracterizar la densidad conjunta de los parámetros:gibbs<-function (n, rho)
# Open plotting windowplot (c(-3.5,3.5),c(-3.5,3.5), type="n", xlab="x", ylab="y")mat <- matrix(ncol = 2, nrow = n)# Assign starting valuesx <- 0y <- 0mat[1, ] <- c(x, y)points (xy.coords(x,y), pch="1", col="black")for (i in 2:n)
# Sample x2 from p(x|y1)x <- rnorm(1, rho * y, sqrt(1 - rho^2))# Sample y2 from p(y|x2)y <- rnorm(1, rho * x, sqrt(1 - rho^2))mat[i, ] <- c(x, y)points (xy.coords(x,y), pch=as.character(i),
col="grey")mat
41
,
Algoritmo de Gibbs: Después de 15 muestras
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
bvn[,1]
bvn[
,2]
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
bvn[,1]
bvn[
,2]
Timets
(bvn
[, 1]
)
2 4 6 8 10 12 14
−1.
0−
0.5
0.0
0.5
1.0
Time
ts(b
vn[,
2])
2 4 6 8 10 12 14
−1.
0−
0.5
0.0
0.5
Histogram of bvn[, 1]
bvn[, 1]
Fre
quen
cy
−1.0 −0.5 0.0 0.5 1.0
0.0
0.5
1.0
1.5
2.0
Histogram of bvn[, 2]
bvn[, 2]
Fre
quen
cy
−1.0 −0.5 0.0 0.5
0.0
0.5
1.0
1.5
2.0
42
,
Algoritmo de Gibbs: Después de 1,000 muestras
−2 −1 0 1 2
−3
−2
−1
01
23
bvn[,1]
bvn[
,2]
−2 −1 0 1 2
−3
−2
−1
01
23
bvn[,1]
bvn[
,2]
Timets
(bvn
[, 1]
)
0 200 400 600 800 1000
−2
−1
01
2
Time
ts(b
vn[,
2])
0 200 400 600 800 1000
−3
−2
−1
01
23
Histogram of bvn[, 1]
bvn[, 1]
Fre
quen
cy
−3 −2 −1 0 1 2 3
010
2030
40
Histogram of bvn[, 2]
bvn[, 2]
Fre
quen
cy
−3 −2 −1 0 1 2 3
020
4060
80
43
,
Algoritmo de Gibbs: Comparación con resultados analíticosJackman 2009, tabla 5.3
Analítico 1000 muestras 50000 muestrasE(µ1|y) 29.44 30.34 29.38E(µ2|y) 37.72 38.63 37.65V(µ1|y) 38.41 35.54 38.91V(µ2|y) 43.17 40.12 43.84C(µ1, µ2|y) 30.59 28.07 31.12
44
,
Temas
IntroducciónVariables latentesInferencia bayesianaR, RStudio y Jags (Barrios)
Regresión lineal: El efecto de arrastre de ejecutivosEstimación clásicaEstimación bayesiana
IRT I: Introducción, teoría espacial del voto, CDHCU
IRT II: Modelos jerárquicos, dinámicos, multidimensionales
Modelos con variables latentes: análisis factorial bayesiano
45
,
Item Response Theory
I Modelo estándar de éxito/fracaso en pruebas esel logístico de respuesta a items (sicometría, Rasch)
I J sujetos contestan prueba de aptitudes con K preguntaspuede expresarse como (Gelman&Hill 2007:314)
Pr(yjk = 1) = logit−1(αj − ψk)
donde αj es la habilidad del sujeto jy ψk la dificultad de la pregunta k
I Si preg. 4 tiene dificultad 1.4 y sujeto 13 habilidad 3.8, laprob. de que conteste correctamente el ítem 4 eslogit−1(2.4) = .92
I Trivial generalizarlo para estudiar el voto
46
,
La aproximación gráfica
I Mapas políticos de una legislatura son fáciles de hacerI Cuatro ingredientes:
1. Datos2. Técnica de escalamiento3. Modelo de variable latente4. Conocimiento sustantivo — política de la legislatura
I Sin #3 o sin #4, el mapa carece de significado
Elaboramos el modelo de variable latente(ojo: reto real es #4)
47
,
Orígenes
El modelo de variable latente que usaremos conjuga avances ensicología, economía, ciencia política, ... (Poole 2005)
Desarrollo de la versión determinista1. Hotelling (1929) competencia en pueblo lineal2. Smithies (1941) demanda elástica3. Black (1948, 1958) generaliza a comités4. Downs (1957) generaliza a candidatos, populariza5. Davis, Hinich, Ordeshook (1966, 1970) completan
formalización para aplicaciones empíricas
48
,
Supuestos centrales
1. Preferencias y alternativas pueden representarseen un mismo espacio (R, R2, Rn)
2. Preferencias euclidianas: se opta por la alternativamás cercana al punto ideal (± error)
I u(x) = ||i , x ||, i es el ideal, x una alternativaI opción 1: u(x) = −|i − x |I opción 2: u(x) = −(i − x)2
I opción 3: u(x) = φ(i − x , σ2)
3. El voto es sincero(sin logrolls ni voto estratégico)
49
,
Especificación unidimensional
nada
propuesta
sí
deny,no
A
V
q
p
q
Cálculo del voto:I u(p) > u(q) votas síI u(p) ≤ u(q) votas no
El diferencial de utilidad: d = u(p)− u(q)?≶ 0
50
,
Especificación unidimensional
p = propuesta, q = status quo, i = ideal del votante
d = u(p)− u(q)
= −(i − p)2 + (i − q)2
= −(i2 − 2ip + p2) + i2 − 2iq + q2
= −2iq + q2 + 2ip − p2
= −2i(q − p) + q2 − p2
= −2i(q − p) + (q + p)(q − p)
= −2(q − p)
(i − (q + p)
2
)= δ(i −m)
51
,
La centralidad del punto medio
Basta conocer m para deducir la conducta asociada con i
q pmii −m < 0↔ i < m→ votas no
q pm ii −m > 0↔ i > m→ votas sí
52
,
Modelo estocástico
Propensión al voto del sujeto j para el ítem k :
vjk∗ = δk(ij −mk) + errorjk
I Regla de votación: vjk =
1 si vjk
∗ > 00 si vjk
∗ ≤ 0I Signo de δk controla la polaridadI Tamaño de |δk | estima el peso relativo del componente
sistemático vs. el estocástico (signal-to-noise ratio)
OperacionalizaciónSi errorjk
iid∼ N (0, σ2)→ vjk∗ ∼ N (µjk , σ
2) dondeµjk = δk(ij −mk)
53
,
Especificación bidimensional
d = ||i , p|| − ||i , q||
=√
(xi − xp)2 + (yi − yp)2 −√
(xi − xq)2 + (yi − yq)2
Dado que cuando a, b ≥ 0 : a > b ↔ a2 > b2, raíces se van
d = (xi − xp)2 + (yi − yp)2 − [(xi − xq)2 + (yi − yq)2]
= (xi − xp)2 − (xi − xq)2 + (yi − yp)2 − (yi − yq)2
= [(xi − xp) + (xi − xq)] [(xi − xp)− (xi − xq)]
+ [(yi − yp) + (yi − yq)] [(yi − yp)− (yi − yq)]
= (2xi − xq − xp)(xq − xp) + (2yi − yq − yp)(yq − yp)
= 2xixq − 2xixp − xq2 + xp
2 + 2yiyq − 2yiyp − yq2 + yp
2
54
,
Dos posible parameterizaciones
1. Aditiva (Gelman&Hill 2007:319)
d = 2xixq − 2xixp − xq2 + xp
2 + 2yiyq − 2yiyp − yq2 + yp
2
= −2(xq − xp)
(xi −
(xq + xp)
2
)− 2(yq − yp)
(yi −
(yq + yp)
2
)= δx (xi −mx ) + δy (yi −my )
I Ésta es la que usaremos en la estimaciónI Permite controlar polaridad de cada dimensión fácilmente
55
,
Dos posible parameterizaciones
2. Bisectriz (cutlines)Igualamos d = 0 para despejar yv
−2yiyq + 2yiyp = 2xi (xq − xp)−(
(xq2 − xp
2) + (yq2 − yp
2))
yi = −xq − xpyq − yp
xi +(xq
2 − xp2) + (yq
2 − yp2)
2(yq − yp)
= δaxi + δb= δ(axi + b)
I Ésta la usaremos en la ilustración
56
,
Cutlines
y=ax
+b
xi
axi + b
yi
q
pi
x
y
yi < axi + b → vota no
57
,
Cutlines
y=ax
+b
xi
axi + b
yi
q
pi
x
y
yi < axi + b → vota no
58
,
Modelo reversible
La teoría espacial del voto puede aplicarse1. fijando preferencias para explicar conducta
(Downs 1957, Romer&Rosenthal 1978)2. fijando conducta para inferir preferencias
(Poole&Rosenthal 1985, Martin&Quinn 2002)
Haremos lo segundo:inferir las preferencias políticasde los diputados a partir desus votaciones nominales
59
,
“Data augmentation” en el modelo IRT
1. La clave es pensar en una variable latente que subyace cadarespuesta dicotómica, de la siguiente manera:
yij =
1 si y∗ij ≥ 00 si y∗ij < 0
2. La variable latente y∗ij se puede interpretar como la propensióna votar a favor de una propuesta, y es una función deparámetros correspondientes a individuos y propuestas
y∗ij = βj(θi − αj)
3. Alternativamente, podemos escribir
Pr(yij = 1) = Φ(y∗ij ),
es decir, una función “probit”60
,
Algoritmo de Gibbs para el modelo IRT
Interesa obtener una muestra de la densidad posterior conjunta deparámetros y variables latentes. El algoritmo repite tres pasos encada turno:1. g(y∗|θ,α,β, y) es una densidad normal truncada con mediaβt−1
j θt−1i − αt−1
j (data augmentation)2. g(θ|y∗,α,β, y) es una densidad normal con media mxi y
varianza νxi
3. g(α,β|θ, y∗, y) es también una densidad normal con mediamj y varianza νj
61
,
¿Para qué sirven los parámetros de discriminación ydificultad?
α = 0, β = 1 α = 1, β = 1 α = 0, β = 1/2
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
1.0
Punto ideal x_i
Pro
babi
lidad
de
vota
r a
favo
r
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
0.6
0.8
1.0
Punto ideal x_i
Pro
babi
lidad
de
vota
r a
favo
r
−3 −2 −1 0 1 2 3
0.3
0.4
0.5
0.6
0.7
Punto ideal x_i
Pro
babi
lidad
de
vota
r a
favo
r
62
,
Múltiples rotaciones y escalamientos de los parámetros
El modelo básico y∗ij = βj(θi − αj) no está identificado:
I Escalas múltiples: El modelo no cambia si usamos θ′i = k + θiy α′j = k + αj
I Rotaciones múltiples: El modelo no cambia si usamosθ′i = k · θi y β′j = βj/k y α′j = αj/k
θ1 θ2 θ3
α1 α2α3α4
En resumen, hay un número infinito de soluciones para θ, α y β
63
,
Densidades a priori para los parámetros del modelo IRT
Comúnmente se usan las densidades a prior de los parámetros θ, αy β para identificar el modelo IRT:1. La escala del modelo se puede fijar con una densidad a priori
sobre los puntos ideales:
Pr(θ) ∼ N (0, 1)
2. De manera similar, una densidad a priori de tipo
Pr(α) = Pr(β) ∼ N (0, 2)
permite estimar los parámetros de discriminación y dificultaden una escala similar
3. La polaridad del modelo se puede fijar “anclando” un par depuntos ideales (θ) o un par de parámetros de discriminación(β)
64
,
Modelo unidimensional del Congreso mexicanoMCMCpack (Martin, Quinn, Park)
posterior.1D <- MCMCirtKd(Roll.Call,dimensions=1,store.item=TRUE, store.ability=TRUE,burnin=15000, mcmc=30000, thin=10,seed=1971,item.constraints=list(
vote.left=list(2,"-"),vote.right=list(2,"+")),
b0=0, B0=.25)
65
,
¿Qué es BUGS/JAGS?
I Es una serie de modulos que permiten estimar modelosbayesianos mediante simulaciones MCMC
I WinBUGS sólo funciona en plataforma WindowsI JAGS se puede compilar en todo tipo de plataformas
I Código de fuente abiertaI Mucha ayuda para WinBUGS; relativamente poca para JAGSI Los mensajes de error son muy poco informativos
66
,
Modelo unidimensional del Congreso mexicanoJAGS (Plummer)
CJR.1D = "model for(i in 1:n.legs)
for(j in 1:n.item)
rc[i,j] ~ dbern(p[i,j]);#IRT MODELprobit(p[i,j]) <- mu[i,j];mu[i,j] <- beta[j]*theta[i] - alpha[j];
# SAVE ONLY A HANDFUL OF PARAMETERSfor (y in 1:50)
Beta[y] <- beta[Y[y]];Alpha[y] <- alpha[Y[y]];
67
,
Modelo unidimensional del Congreso mexicano. . . continuación
# PRIORS ON DISCRIMINATION PARAMETERSfor(j in 1:(anchor[1]-1))
beta[j] ~ dnorm( 0, 0.25);
beta[anchor[1]] ~ dnorm( 1, 100);for(j in (anchor[1]+1):(anchor[2]-1))
beta[j] ~ dnorm( 0, 0.25);
beta[anchor[2]] ~ dnorm(-1, 100);for(j in (anchor[2]+1):n.item)
beta[j] ~ dnorm( 0, 0.25);# PRIORS ON DIFFICULTY PARAMETERSfor(j in 1:n.item) alpha[j] ~ dnorm( 0, 0.25); # PRIORS ON LEGISLATOR IDEAL POINTSfor(i in 1:n.legs) theta[i] ~ dnorm(0, 1);
"
68
,
Modelo unidimensional del Congreso mexicano(MCMCpack)
Densidades de tres legisladores
Densidades a posteriori
−2 0 2 4
PRIPANPRD
Densidades de todos los legisladores
Densidades a posteriori
−4 −2 0 2 4
PRIPANPRD
0 50 100 150
−10
−5
05
10
Index
Val
ue
69
,
Tests de convergencia
1. Test de Geweke: Compara los promedios de ψcorrespondientes a dos etapas de la simulación MCMC
2. Test de Heidelberger-Welch3. Test de Raftery-Lewis4. Cadenas múltiples (Gelman-Rubin):
var+(ψ|y) =T − 1T W +
1T B
√R =
√var+(ψ|y)
WEn JAGS: gelman.diag (post.2D.cjr$mcmc)
70
,
15000 20000 25000 30000 35000 40000 45000
-3.5
-1.5
Iterations
Trace of theta.347.1
-3.5 -3.0 -2.5 -2.0 -1.5 -1.0
0.0
0.8
N = 3000 Bandwidth = 0.06585
Density of theta.347.1
15000 20000 25000 30000 35000 40000 45000
-3.0
-1.0
Iterations
Trace of theta.348.1
-3.5 -3.0 -2.5 -2.0 -1.5 -1.0 -0.5
0.0
0.8
N = 3000 Bandwidth = 0.06845
Density of theta.348.1
15000 20000 25000 30000 35000 40000 45000
-0.5
0.0
Iterations
Trace of theta.354.1
-0.4 -0.2 0.0 0.2
02
4
N = 3000 Bandwidth = 0.0147
Density of theta.354.1
15000 20000 25000 30000 35000 40000 45000
-0.5
-0.1
Iterations
Trace of theta.360.1
-0.4 -0.2 0.0 0.2
02
46
N = 3000 Bandwidth = 0.01463
Density of theta.360.1
71
,
Temas
IntroducciónVariables latentesInferencia bayesianaR, RStudio y Jags (Barrios)
Regresión lineal: El efecto de arrastre de ejecutivosEstimación clásicaEstimación bayesiana
IRT I: Introducción, teoría espacial del voto, CDHCU
IRT II: Modelos jerárquicos, dinámicos, multidimensionales
Modelos con variables latentes: análisis factorial bayesiano
72
,
Modelo bidimensional del Congreso mexicanoJAGS (Plummer)
CJR.1D = "model for(i in 1:n.legs)
for(j in 1:n.item)
rc[i,j] ~ dbern(p[i,j]);#IRT MODELprobit(p[i,j]) <- mu[i,j];mu[i,j] <- beta[j]*theta[i,1] + # <= Cambio
delta[j]*theta[i,2] -alpha[j];
# PRIORS ON DIFFICULTY PARAMETERSfor(j in 1:n.item) alpha[j] ~ dnorm( 0, 0.25); # PRIORS ON LEGISLATOR IDEAL POINTSfor(i in 1:n.legs)
theta[i,1] ~ dnorm(0, 1); # <= Cambiotheta[i,2] ~ dnorm(0, 1);
73
,
Modelo bidimensional del Congreso mexicano. . . continuación
# PRIORS ON DISCRIMINATION PARAMETERSfor(j in 1:(anchor[1]-1))
beta[j] ~ dnorm( 0, 0.25);
beta[anchor[1]] ~ dnorm( 1, 100);for(j in (anchor[1]+1):(anchor[2]-1))
beta[j] ~ dnorm( 0, 0.25);
beta[anchor[2]] ~ dnorm(-1, 100);for(j in (anchor[2]+1):n.item)
beta[j] ~ dnorm( 0, 0.25);for(j in 1:(n.item-1)) # <= Cambio
delta[j] ~ dnorm( 0, 0.25);
delta[n.item] ~ dnorm( 1, 4);"
74
,
Modelo bidimensional del Congreso mexicano(MCMCpack)
−4 −2 0 2 4
−4
−2
02
4
1st dimension
2nd
dim
ensi
on
0 10 20 30 40 50
−6
−4
−2
02
46
Index
Val
ue
ab1b2
75
,
Temas
IntroducciónVariables latentesInferencia bayesianaR, RStudio y Jags (Barrios)
Regresión lineal: El efecto de arrastre de ejecutivosEstimación clásicaEstimación bayesiana
IRT I: Introducción, teoría espacial del voto, CDHCU
IRT II: Modelos jerárquicos, dinámicos, multidimensionales
Modelos con variables latentes: análisis factorial bayesiano
76