metodología cuantitativa iv · también como un problema de variable relevante omitida: 9si...
TRANSCRIPT
Clases 5, 6 y 7: errores de especificación
Bruno Arpino
(Despacho: 20.182; email: [email protected])
Departamento de Ciencias Políticas y Sociales Grado en Ciencias Políticas y de la Administración
Universitat Pompeu Fabra
Metodología cuantitativa IV
Clases 5-7: errores de especificación
2
9 Errores de especificación del modelo
9 Omisión de variables relevantes y inclusión de variables irrelevantes
9 Endogeneidad
9 Sesgo de selección
9 Multicolinealidad
9 Relaciones no lineales
¿Que vamos a hacer hoy?
Clases 5-7: errores de especificación
3
9 Un error de especificación es el incumplimiento de uno de los supuestos del modelo de regresión lineal.
9 Con referencia a las variables independientes incluidas en el modelo pueden haberse dos tipos de errores: 9 Omisión de variables relevantes (faltan variables relevantes) 9 Inclusión de variables irrelevantes (hemos incluido más
variables de lo que es necesario)
Errores de especificación del modelo
Clases 5-7: errores de especificación
4
(Adaptación de la tabla de Lago, pág. 76)
¿Que X hay que incluir en el modelo?
Modelo estimado por el investigador
Modelo verdadero
Correcto
SESGO
(si X2tiene una relación también con X1; omisión variable
relevante)
INEFICIENCIA
(inclusión variable irrelevante)
Correcto
0 1 1 2 2Y β β X β X ε 110 XββY
110 xbby
22110 xbxbby
Clases 5-7: errores de especificación
5
9 Imaginemos que la religiosidad no influya en el salario de los individuos. ¿Qué pasa si se incluye esta variable (irrelevante) en el modelo de regresión lineal como otra variable independiente?
9 La inclusión de una variable independiente irrelevante NO provoca SESGO en la estimación de los coeficientes de la regresión (pendientes).
9 Pero provoca INEFICIENCIA: los errores típicos son sesgados, eso es son (inútilmente) más altos. Esto podría implicar que una pendiente no resulta significativa sólo porque el error típico es más alto (y el p-valor es más alto) de lo que debería ser.
Inclusión de variables irrelevantes
Clases 5-7: errores de especificación
6
9 Imaginemos que un investigador esté interesado en la
relación entre la edad y el posicionamiento ideológico (“lrscale”). Supongamos que el investigador haga tres análisis de regresión lineal:
1) sólo edad como variable independiente (2002-”yrbrn”)
2) edad + años de instrucción (“eduyrs”)
3) edad + años de instrucción + tiempo total pasado viendo la tele (“tvtot”)
¿Cuál es el modelo mejor?
Inclusión de variables irrelevantes: ejemplo
Clases 5-7: errores de especificación
7
1) sólo edad como variable independiente
Inclusión de variables irrelevantes: ejemplo
Clases 5-7: errores de especificación
8
2) edad + años de instrucción
Inclusión de variables irrelevantes: ejemplo
Clases 5-7: errores de especificación
3) edad + años de instrucción + tiempo total pasado
viendo la tele
9
Inclusión de variables irrelevantes: ejemplo
Clases 5-7: errores de especificación
10
9 La R2 corregida es más alta en el primer modelo, que sólo incluye la edad!!! Esto es, el modelo que se ajusta mejor a los datos es el primero. Añadir las otras variables no mejora el modelo porqué estas variables no tienen una relación significativa con la Y.
9 El error típico de la pendiente de la edad aumenta cuando se añaden las otras variables (esto siempre pasa). Todavía, en este caso la conclusión final sobre la pendiente de la edad no cambia: siempre se rechaza la hipótesis nula (y se acepta la hipótesis que hay una relación lineal positiva entre posicionamiento político y edad).
Inclusión de variables irrelevantes: ejemplo
Clases 5-7: errores de especificación
11
9 El error típico tiende a cero cuando el tamaño muestral tiende a infinito. Entonces, más grande es la muestra meno grave es el problema de incluir variables irrelevantes.
9 En el modelo con variables relevantes omitidas el sesgo NO tiende a cero cuando el tamaño muestral aumenta.
9 Entonces, si el tamaño muestral es suficientemente grande, es menos grave cometer errores de especificación por exceso (inclusión de variables irrelevantes) que por defecto (exclusión de variables relevantes).
9 (Lago pág. 81:) La única manera de asegurar que nuestro modelo es correcto es tener una buena teoría que nos guíe en la especificación del modelo.
El efecto del tamaño de la muestra
Clases 5-7: errores de especificación
12
9 En el contexto de un modelo de regresión, se habla de endogeneidad cuando un supuesto fundamental de la regresión está violado:
“La componente deterministica y la aleatoria no están
correlacionadas. Es decir, cada variable X tiene cero correlación con el termino de error, ε.”
9 Se puede demonstrar que la omisión de variables relevantes
produce la violación de este supuesto de la regresión.
9 Otro caso: relaciones bidireccionales
9 En ambos casos la violación del supuesto de la regresión implica un sesgo en los coeficientes estimados.
Endogeneidad
Clases 5-7: errores de especificación
13
9 (Lago, pag. 93) Imaginemos que un investigador plantee la hipótesis que estudiar ciencia política aumenta el interés en la política. La idea podría ser que los que han cursado ciencia política han tenido contacto con la política como objeto de estudio y esto debería aumentar sus interés en la política.
9 Imaginemos que el investigador estime por ejemplo una regresión con X = (1 si el estudiante ha cursado ciencia política; = 0 si ha cursado otra carrera) y Y = interés en la política (en una escala 0-10) medido al final de la carrera.
9 ¿La pendiente de X mide el efecto de cursar ciencia política?
9 Tenemos un problema de bidirecionalidad: puede que los que han decidido estudiar ciencia política ya estaban más interesados en la política!
Un ejemplo de relación bidireccional
Clases 5-7: errores de especificación
14
9 En muchos casos el problema de la bidirecionalidad se puede ver también como un problema de variable relevante omitida:
9 Si ignoramos el nivel inicial de interés en la política, el efecto de cursar ciencia política sería sobreestimado (“+” * ”+” = sesgo positivo). Entonces, la solución a la endogeneidad puede ser controlar por más variables relevantes, en este caso el nivel inicial de interés en la política (no siempre es posible si faltan datos).
Un ejemplo de relación bidireccional
Elegir la carrera ciencia política (X)
Interés en la política al final de la carrera (Y)
Interés en la política al momento de decidir la carrera (Z)
+ +
Clases 5-7: errores de especificación
15
9 Leed el articulo “La democracia es buena para la salud”.
A. Indicad: el tamaño de la muestra, las variables dependientes, las variables independientes de interés (explicativas) y las variables de control.
B. ¿Por qué se han añadido las variables de control? C. ¿A que se refieren los autores con la expresión “con
independencia de otros factores”? D. Escribid uno de los modelos de regresión estimado por los
autores. E. ¿Hay un problema de relación bidireccional en esta
investigación?
Para practicar
Clases 5-7: errores de especificación
16
9 Se comete al seleccionar la muestra de manera que no sea representativa de la población relevante (véase también MQIV_9)
9 El sesgo de selección se puede producir también cuando la muestra es representativa, pero el investigador selecciona un subconjunto de datos sobre el cual realizar sus análisis de forma no aleatoria.
9 Tenemos que distinguir dos casos:
1) el investigador selecciona casos en función de los valores de la variable dependiente
2) el investigador selecciona casos en función de los
valores de una o más variables independientes
Sesgo de selección
Clases 5-7: errores de especificación
17
9 Imaginemos que en el 2006 un investigador quería estudiar el efecto del posicionamiento ideológico sobre la valoración del Gobierno Zapatero (0 = muy mal --- 10 = muy bien). Los datos disponibles eran estos:
9 Estos datos indican que hay una relación entre posicionamiento político y la satisfacción con el gobierno: pasando de izquierda a centro (o de centro a derecha) la satisfacción en media se reduce de 2 puntos.
Ejemplo
Valoración media 6 4 2
Clases 5-7: errores de especificación
18
9 ¿Que pasa si el investigador selecciona solo las personas con valoraciones iguales o superiores a 4?
9 El efecto del posicionamiento político sobre la satisfacción con el gobierno es inferior: pasando de izquierda a centro (o de centro a derecha) la satisfacción en media se reduce de 1 punto (en lugar de 2!!!) Æ SESGO de selección.
9 Es un caso de truncamiento de Y (se limita la variación de Y!)
Selección en función de los valores de Y
Valoración media 6 5 4
Clases 5-7: errores de especificación
19
9 Se puede ver el efecto de seleccionar casos en función de Y utilizando un diagrama de dispersión y dibujando la recta estimada en los dos casos (con todos los casos o solo los casos seleccionados).
9 La recta negra (estimada eliminando los casos con Y < 4) es más plana de la recta azul (pendiente más baja y sesgada!).
Selección en función de los valores de Y
Clases 5-7: errores de especificación
20
9 ¿Que pasa si el investigador selecciona sólo las personas de izquierda o centro?
9 El efecto del posicionamiento político sobre la satisfacción con el gobierno no está sesgado! Pasando de izquierda a centro la satisfacción en media se reduce de 2 puntos. Pero ahora la inferencia no se puede extender (extrapolación) a las personas de derecha. Si las personas de derecha tuviesen una valoración media de 4 la extrapolación provocaría una inferencia sesgada. (En realidad, en el caso de nuestro ejemplo la extrapolación no provocaría un sesgo pero el investigador no puede saberlo si las personas de derecha no están en la muestra o si se limita el análisis a las personas de izquierda y centro.)
Selección en función de los valores de X
Valoración media 6 4
Clases 5-7: errores de especificación
21
9 Lombroso al examinar los cráneos de algunos delincuentes, llegó a
la conclusión que el criminal no es un hombre común si no que por sus característicos rasgos morfológicos y psíquicos, constituye un tipo especial.
9 El criminal según Lombroso presenta signos de inferioridad orgánica:
Menor capacidad craneana, Mayor diámetro bizigomático, Gran capacidad orbitaria, Escaso desarrollo de las partes anteriores y frontales, Abultamiento del occipucio, Frente
hundida, etc.
9 En particular, en 1871 después de hacer la necropsia a un famoso bandolero llamado Giuseppe Villella, encontró en su cráneo, en el sitio de la habitual cresta occipital, un hoyuelo similar a los que presentan los vertebrados superiores más próximos al hombre.
Un caso famoso de error de selección: Cesare Lombroso
Clases 5-7: errores de especificación
22
9 La teoría de Lombroso se puede simplificar así: tener la
deformación del hueso occipital aumenta la probabilidad de ser criminal.
X: = 1 “tiene hoyuelo occipital”; = 0 “no tiene hoyuelo occipital” Y: = 1 “criminal”; = 0 “no criminal”.
9 Problema de la análisis de Lombroso: solo seleccionaba casos con Y = 1 (criminales). El hecho que entre los criminales habían muchos con la “deformación” del hueso occipital y otras particularidades físicas era debido a que la investigación de Lombroso se limitaba a una área geográfica especifica.
9 Además los criminales analizados eran en mayoría de las clases sociales más pobres.
9 Las características físicas encontradas no eran debidas a que estas personas eran criminales!
Un caso famoso de error de selección: Cesare Lombroso
Clases 5-7: errores de especificación
23
9 Imaginemos que Messi juegue solo cuando el Barça juega en casa.
¿Se puede estimar cual es el efecto de que Messi juegue o no sobre la probabilidad que el Barça gane un partido?
9 Supongamos que tenemos datos sobre 200 partidos (100 jugados en casa y 100 fuera):
9 ¿Se puede decir que si Messi juega es más probable que el Barça gane?
Multicolinealidad y confundimiento estructural
El Barça gana
Messi juega
Sí No
Sí 80 60
No 20 40
Total 100 100
Clases 5-7: errores de especificación
24
9 Cuando Messi juega la probabilidad de que el Barça gane es 80% en lugar de 60% cuando Messi no juega. Pero no se puede atribuir este efecto al hecho de que Messi juegue porque la diferencia observada podría ser debida a jugar en casa (Messi juega solo cuando el Barça juega en casa). Las variables “Messi juega” y “Partido en casa” son estructuralmente confundidas: no se puede distinguir el efecto de una variable independiente de lo de la otra.
Multicolinealidad y confundimiento estructural El Barça gana
Messi juega
Sí No
Sí 80 60
No 20 40
Total 100 100
El Barça gana
Partido en casa
Sí No
Sí 80 60
No 20 40
Total 100 100
Clases 5-7: errores de especificación
25
9 Consideremos el ejemplo del articulo sobre la relación entre
democracia y salud. Si todos los países democráticos fueran países ricos y al revés todos los países no democráticos fueran países pobres, no seria posible aislar el efecto de la democracia del efecto del nivel de riqueza.
9 No seria posible un análisis “a paridad de condiciones” porque cuando la variable riqueza es mantenida constante (por ejemplo, se cogen solo los países ricos) también la variable “democracia” no variaría (solo nos quedaríamos con países democráticos) y no sería posible establecer si hay un efecto al variar del sistema político sobre la salud.
Multicolinealidad y confundimiento estructural
Clases 5-7: errores de especificación
26
9 En el contexto de la regresión, el concepto de confundimiento
estructural corresponde a lo de perfecta multicolinealidad: hay una relación lineal perfecta entre dos (o más) variables independientes.
9 Ejemplo: edad y cohorte de nacimiento tienen una perfecta relación lineal en datos trasversales. Por ejemplo, en la primera ola de la ESS:
edad = 2002 – yrbrn
9 Dos (o más) variables que son perfectamente multicolineales no se pueden incluir simultáneamente como variables independientes en un modelo de regresión lineal (no se pueden distinguir los efectos de estas variables).
Multicolinealidad y confundimiento estructural
Clases 5-7: errores de especificación
27
9 Cuando la correlación entre las X no es perfecta, estas variables sí
que se pueden incluir simultáneamente pero pueden haberse problemas si las correlaciones entre ellas son fuertes.
9 El problema es que el modelo no puede distinguir bien los efectos de las diferentes variables y esto implica que los errores típicos (y los p-valores) pueden ser muy altos (y las correspondientes pendientes ser no significativas) aunque las variables estén en realidad correlacionadas con la Y!
9 El FIV (factor de inflación de la variancia) es un indicador de multicolinealidad: si una variable X tiene un valor de este índice más alto de 10 significa que esta variable tiene una correlación muy alta con las otras variables independientes (hay un problema de multicolinealidad). En SPSS: Analizar Æ Regresión Æ Lineales Æ Gráficos y Estadísticos Æ Diagnosticos de colinealidad
Multicolinealidad y confundimiento estructural
Clases 5-7: errores de especificación
28
9 Consideremos la regresión del posicionamiento político sobre instrucción, genero y años de nacimiento. ¿Hay multicolinealidad?
9 El índice FIV es muy bajo para todas las variables (<< 10). Entonces no hay problema de multicolinealidad en esta regresión.
El FIV: un ejemplo
Coeficientesa
Modelo
Coeficientes no
estandarizados
Coeficientes
tipificados
t Sig.
Estadísticos de colinealidad
B Error típ. Beta Tolerancia FIV
1 (Constante) 36,722 6,440 5,702 ,000
Years of full-time education completed ,014 ,011 ,039 1,237 ,216 ,758 1,319
genero ,351 ,110 ,088 3,204 ,001 ,999 1,001
Year of birth -,017 ,003 -,159 -5,024 ,000 ,757 1,320
a. Variable dependiente: Placement on left right scale
Clases 5-7: errores de especificación
29
9 Seleccionar solo algunas X. Ejemplo: PIB per cápita y porcentaje de trabajadores del sector terciario. Ambos son indicadores de desarrollo económico y podemos pensar de utilizar solo uno de ellos.
9 Construir un indicador que resume las variables multicolineales. Ejemplo: PIB, esperanza de vida, tasa de alfabetización, etc. son indicadores de desarrollo socioeconómico. Se puede construir un indicador como el Índice de desarrollo humano de las Naciones Unidas.
(http://es.wikipedia.org/wiki/%C3%8Dndice_de_desarrollo_humano)
9 Mantener todas las variables en el modelo, pero interpretar los resultados con cuidado! (Esta solución es preferible solo cuando no nos interesan los efectos individuales de las variables sino nos interesa el modelo en su totalidad para hacer predicciones que utilicen toda la información disponible).
9 Recoger más observaciones de manera que se reduzca la multicolinealidad (no siempre es posible).
¿Que hacer si hay multicollinealidad?
Clases 5-7: errores de especificación
30
9 Con referencia al articulo “La democracia es buena para la salud”:
A. ¿Hay un problema de multicolinealidad en esta investigación? ¿Por qué? ¿Y como se podría resolver?
B. Hacer por lo menos un ejemplo de como se podría provocar un sesgo de selección en el análisis de la relación entre salud y democracia.
Para practicar
Clases 5-7: errores de especificación
31
9 El modelo de regresión lineal en su forma básica supone una relación lineal entre la Y y las variables independientes, esto es que el efecto marginal de cada X es constante: por ejemplo añadir una unidad de X2 siempre tiene el mismo el efecto sobre la Y (medido por b2).
9 En algunos casos la relación entre las variables puede ser curvilínea (parabólica, logarítmica, etc.): el efecto de X sobre Y puede cambiar según el punto en la distribución de X.
Error de especificación de la forma funcional
ikik2i21i10i εXβXβXββY �
Clases 5-7: errores de especificación
32
9 En los casos C y F estimar una relación lineal es del todo incorrecto: la correlación lineal seria 0 (o muy cerca de 0). Esto indica que no hay relación lineal. Pero sí que hay otro tipo de relación!
9 En los otros casos una recta seria una aproximación de la verdadera relación entre las variables: la pendiente de la recta subestima el efecto de la X en algunos puntos de la distribución y lo sobreestima en otros.
Ejemplos de relaciones parabólicas
Clases 5-7: errores de especificación
33
9 Relación entre identificación autonómica (CA) y porcentaje de votos al principal partido de ámbito no estatal (PANE) en cada CA.
9 Fuente: Fernández-Albertos, J., & Lago, I. (2015). Gobiernos autonómicos e identidades regionales en España, 1980-2012. Política y gobierno, 22(2), 283-315.
Un ejemplo real de relación no lineal
Clases 5-7: errores de especificación
34
9 Se sabe que beber suficiente agua es importante para la salud. La cantidad de agua que cada persona tiene que beber depende de muchos factores, como el peso. Una persona con peso de 160 libras (72,5 kg), debería beber 80 onzas (2268 gramos) de agua por día
(http://nutrition.about.com/od/hydrationwater/a/waterarticle.htm).
9 Imaginemos que un medico haya recopilado datos sobre 25
pacientes (todos con peso de 160 libras). Imaginemos que el medico haya medido el amontar de agua bebido por día (“water”) y el estado de salud de los pacientes con un índice de 0 a 100 (“health”, más alto es el índice, mejor es el estado de salud).
Ejemplo de relación parabólica
Clases 5-7: errores de especificación
35
9 El medico ha recomendado a todos de beber 80 onzas de agua por día. Pero, no todos han seguido la recomendación del medico (el amontar medio bebido por día varia de 55 a 95 onzas.
9 Considerando el diagrama de dispersión es evidente que hay una relación no lineal entre
amontar de agua y salud. 9 Evidencia de “water intoxication” (intoxicación por agua) si se bebe mas de 80 onzas!
Ejemplo de relación parabólica
020
4060
8010
0
Hea
lth
0 20 40 60 80 100Water
http://chemistry.about.com/cs/5/f/blwaterintox.htm
Clases 5-7: errores de especificación
36
9 Las rectas roja y verde son ambas rectas de regresión lineal simple. La diferencia
es que la recta roja excluye los pacientes que han bebido mas de 80 onzas por día. 9 Ninguna de las dos rectas es apropiada porque ambas ignoran que después el nivel 80, aumentar la cantidad de agua tiene un efecto negativo sobre la salud. 9 La recta roja representa mejor la relación por niveles de agua
inferior a 80 y peor por niveles superior a 80.
Ejemplo de relación parabólica
020
4060
8010
012
014
016
0
0 20 40 60 80 100 120 140Water
Health Fitted valuesFitted values
waterbbhealth 10
Clases 5-7: errores de especificación
37
9 Utilizando una regresión múltiple es muy fácil estimar una relación parabólica. Es suficiente añadir la variable independiente elevada al cuadrado (water)2 como si fuera otra variable independiente:
9 En SPSS se puede crear una nueva variable (water)2 y utilizarla normalmente como si fuera una variable independiente cualquiera o se puede utilizar “Analizar Æ Regresión Æ Estimación Curvilínea”.
Ejemplo de relación parabólica
2210 waterbwaterbbhealth
Clases 5-7: errores de especificación
38
9 El diagrama indica que la parábola estimada se ajusta mejor de las dos rectas a los datos!
Interpretación de los coeficientes de la regresión estimada: 9 b0 = -192.38 es el valor predicho del indicador de salud por un paciente que ha bebido 0 onzas de
agua por día. (Claramente no tiene sentido en este caso interpretar la constante).
9 b1 y b2 no se pueden interpretar normalmente! (Por ejemplo aumentar “water” de 1 unidad manteniendo “water2” constante no es posible!)
Ejemplo de relación parabólica 2water*04.0water*72.638.192-health
020
4060
8010
012
014
016
0
0 20 40 60 80 100 120 140Water
Health Fitted valuesFitted values Fitted values
Clases 5-7: errores de especificación
39
9 Para interpretar b1 y b2 formalmente podemos calcular la derivada primera:
9 Esto indica que el efecto marginal no es constante: es positivo hasta el valor 84 y negativo después.
9 En general b2 indica si la concavidad es hacia abajo (como en este ejemplo) o hacia arriba. El punto de máximo o mínimo es X = -b1 / 2b2
Ejemplo de relación parabólica
water*2*04.072.6hhealt
020
4060
8010
012
014
016
0
0 20 40 60 80 100 120 140Water
Health Fitted valuesFitted values Fitted values
8408.072.6
water0water*2*04.072.6
Clases 5-7: errores de especificación
40
9 Estimar una relación parabólica entre el nivel de felicidad en una escala de 0 a 100 ( “felicidad”) y el numero de horas trabajadas normalmente a la semana (“horas”). 9 R2 corregida indica que el modelo parabólico se ajusta mejor a los datos.
Otro ejemplo de relación parabólica
Modelo parabólico:
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
1 ,312a ,098 ,089 11,779
Modelo lineal
Resumen del modelob
Modelo R R cuadrado
R cuadrado
corregida
Error típ. de la
estimación
1 ,201a ,040 ,036 12,120
Horas trabajadas
Felic
idad
Clases 5-7: errores de especificación
41
9 b2 es significativo: el modelo parabólico es mejor del modelo lineal. 9 También en este caso la concavidad es hacia abajo (b2 negativo). (Parábola cóncava; https://es.wikipedia.org/wiki/Concavidad)
Coeficientesa
Modelo
Coeficientes no estandarizados Coeficientes tipificados
t Sig.
Estadísticos de colinealidad
B Error típ. Beta
Toleranci
a FIV
1 (Constante) 12,042 5,614 2,145 ,033
wkhtotp 1,010 ,225 ,930 4,489 ,000 ,097 10,283
wkhtotp2 -,008 ,002 -,768 -3,705 ,000 ,097 10,283
Otro ejemplo de relación parabólica
Horas trabajadas
Felic
idad
Clases 5-7: errores de especificación
Coeficientesa
Modelo
Coeficientes no estandarizados
Sig. B Error típ. 1 (Constante) 62,042 11,057 ,000
votos -0,400 0,076 ,000 votos2 0,005 0,001 ,008
42
9 Unos investigadores han estudiado la relación entre identificación nacional con España y porcentaje de votos al principal partido de ámbito no estatal en las diferentes comunidades autónomas (CA). Los investigadores han calculado el porcentaje de individuos que en las encuestas del CIS declaran sentirse identificados únicamente con España y el porcentaje de votos al principal partido de ámbito no estatal en cada CA (“votos”). Comentar los resultados de sus investigación basados en un modelo de regresión donde se han incluido las variables “votos” y su cuadrado (“votos2”) como variables independientes:
Para practicar
Ejercicio inspirado en: Fernández-Albertos, J., & Lago, I. (2015). Gobiernos autonómicos e identidades regionales en España, 1980-2012. Política y gobierno, 22(2), 283-315.
Clases 5-7: errores de especificación
43
9 Capítulo 7 de: LAGO, Ignacio. La lógica de la explicación en ciencias sociales: una introducción metodológica. Madrid: Alianza Editorial, 2008
9 Paragrafos 13.7, 14.4, 14.5 (solo las partes relevantes) de: NEWBOLD, Paul; CARLSON, William L.; THORNE, Betty M. Estadística para Administración y Economía. Sexta Edición. Madrid: Prentice Hall, 2008 (¡En la Aula Global!)
Referencias
44
Si algo no queda claro… podéis pedirme tutorías o escribirme un email
45
Apéndice
46
9 Supongamos que el salario dependa de instrucción, antigüedad en
la empresa y días de ausencia injustificada (véase Lago, página 79). 9 ¿Que pasa si estimamos el efecto de los años de estudio controlando solo por la antigüedad?
9 Habría un sesgo debido a la exclusión de una variable relevante (baja laboral). Y el sesgo seria positivo (“-” * “-” = “+”. Hay un
error en Lago, páginas 79-80)
Omisión de variables relevantes: (otro) ejemplo
+
+
Años de estudio
Salario
Antigüedad
Ausencias injustificadas
+
- -
-
47
9 Supongamos que el salario dependa de instrucción, antigüedad en
la empresa y días de ausencia injustificada (véase Lago, página 79). 9 ¿Que pasa si estimamos el efecto de los años de estudio controlando solo por las ausencias?
9 Habría un sesgo debido a la exclusión de una variable relevante (antigüedad). Y el sesgo seria positivo también en este caso (“+” *
“+” = “+”).
Omisión de variables relevantes: (otro) ejemplo
+
+ +
- -
- Años de estudio
Salario
Antigüedad
Ausencias injustificadas
Clases 5-7: errores de especificación
48
9 Una alternativa a la estimación de relaciones parabólicas es utilizar una transformación logarítmica.
9 Es bastante común hacer transformaciones logarítmicas de variables con asimetría positiva (p.ej., PIB, salario, etc.).
9 Modelo semilogarítmico: log(Y) = b0+ b1 X + ε Por cada aumento de una unidad de X, Y varia de (100*β1)%
(semielasticidad) 9 Modelo logarítmico: log(Y) = b0+ b1log(X) + ε Por cada aumento de 1% de X, Y varia de β1% (elasticidad)
Transformaciones logarítmicas