Download - Apuntes de Econometría I
APUNTES DE ECONOMETRÍA
Profesor
Martín Francos Rodríguez
Versión: 1.1
Fecha: 13 de noviembre de 2010
Contenido
Capítulo Tema Página
1 Introducción 1
2 Modelo clásico de regresión lineal simple: Estimación 12
3 Modelo clásico de regresión lineal múltiple: Estimación 58
4 Modelo clásico de regresión lineal simple: Inferencia 74
5 Modelo clásico de regresión lineal múltiple: Inferencia 98
6 Modelo con variables independientes cualitativas 124
7 Multicolinealidad 133
8 Heterocedasticidad 145
9 Autocorrelación 169
10 Especificación de modelos 183
ii
Prólogo
A continuación se presenta una recopilación de mis apuntes de clase de
econometría en la Pontificia Universidad Católica Madre y Maestra desde el año
2003.
Este libro está dirigido particularmente a estudiantes de economía, para un curso de
un semestre, tanto para estudiantes de pregrado, como para un curso introductorio
a nivel de maestría.
El propósito de estos apuntes, no es sustituir ninguno de los libro habituales
utilizados por los profesores de econometría en los cursos mencionados
anteriormente, sino presentar de forma detallada y concisa, algunos aspectos
teóricos y demostraciones, que otros textos habituales en estos cursos suelen dejar
en un segundo plano.
Martín Francos Rodríguez, MA
Profesor Departamento de Economía
Pontificia Universidad Católica Madre y Maestra
Capítulo 1
Introducción
1. ¿Qué es la Econometría?
Es una pregunta que algunos libros de texto suelen eludir o contestar vagamente.
Etimológicamente significa “medición económica”, pero aunque la medición es
parte importante de la econometría, el alcance de esta disciplina es mucho mayor.
Para tener una mayor profundidad sobre su alcance, veamos a continuación
algunas definiciones:
“…consiste en la aplicación de la estadística matemática a la información
económica para dar soporte empírico a los modelos construidos por la
economía matemática”1
“La econometría pude ser definida como la ciencia social en la cual las
herramientas de la teoría económica, las matemáticas y la inferencia
estadística son aplicadas al análisis de los fenómenos económicos”2
“Es la aplicación de métodos estadísticos y matemáticos al análisis de los
datos económicos con el propósito de otorgar contenido empírico a las
teorías económicas, verificándolas o refutándolas”3
Algunos comentarios sobre la Econometría y los econometristas se refieren a:
1 Samuelson P.A., T.C. Koopmans y J. R. N. Stone, “Report of the Evaluative Committee for Econometrica”,
Econometrica, vol 22, núm 2, abril de 1954, pp.141-146 2 Goldberger, Arthur, Econometric Theroy, John Wiley & Songs, Nueva York, 1964
3 Maddala, G.S. (1996). Introducción a la Econometría. 2da. Edición. Prentice Hall.
Introducción a la econometría 2
“El arte del econometrista consiste en encontrar el conjunto de supuestos que
sean suficientemente específicos y realistas, de tal forma que le permitan
aprovechar de la mejor manera los datos que tiene a su disposición”4.
“Los econometristas... son una ayuda en el esfuerzo por disipar la mala
imagen pública de la economía (cuantitativa o de otro tipo) considerada
como una materia en la cual se abren latas vacías, suponiendo la existencia
de abrelatas, para revelar un contenido que será interpretado por diez
economistas de once maneras diferentes”5.
Podemos resumir los distintos elementos aportados por las definiciones en:
“Aquella rama que otorga a la economía como ciencia, un carácter empírico
mediante el estudio de la aplicación de métodos estadísticos al análisis y
predicción de fenómenos económicos”.
No obstante ello, las herramientas desarrolladas por esta disciplina tienen
aplicaciones en muchos campos distintos al económico.
Los econometristas son al mismo tiempo:
Economistas: interpretan o crean teorías para probar empíricamente
Matemáticos: formula matemáticamente su teoría
Estadísticos aplicados: buscan datos para luego tratar de estimar relaciones
económicas
Estadísticos teóricos: desarrollan técnicas útiles para resolver problemas
empíricos
La econometría no significa estadística económica, ni teoría económica ni
aplicación de las matemáticas y estadística a la economía. Econometría es una
unificación de las tres áreas.
A diferencia del estadístico, el econometrista está preocupado por los problemas
causados por la violación de los supuestos estadísticos clásicos, la naturaleza de las
relaciones económicas y la falta de experimentos controlados.
4 Malinvaud, E. Statistical Methods of Econometrics, Rand McNally, Chicago, 1966, p.514
5 Darnell, Adrian y J. Lynne Evans, The Limits of Econometrics, Edward Elgar Publishing, Hants, Inglaterra 1990.
Introducción a la econometría 3
2. Modelos económicos y econométricos
2.1 ¿Qué es un modelo?
Un modelo es una representación simplificada de algún fenómeno, utilizado con
fines explicativos o predictivos. Tienen origen en alguna teoría, y aunque sufren
algunas modificaciones, conservan lo esencial de la teoría. Los modelos constan
de una o varias ecuaciones matemáticas que describen la teoría que los origina.
2.2 ¿Qué es un modelo económico?
Es un conjunto de supuestos que aproximadamente describen el comportamiento
de una economía (o de un sector). Por ejemplo la función de producción Cobb
Douglas, LAKY .
Para poder testear este modelo, es necesario incorporarle elementos estocásticos.
Esto lo convertirá de un modelo económico en uno econométrico.
2.3 ¿Qué es un modelo econométrico?
Es un conjunto de ecuaciones de comportamiento derivadas de un modelo
económico que involucra:
Variables observables
Elementos estocásticos o shocks, que recogen errores de medición en las
variables observadas y factores que no pueden ser recogidos por el modelo.
Esto hace que la variable objetivo varíe no sólo porque lo hacen las variables
explicativas, sino por cierta aleatoriedad del comportamiento humano o del
contexto.
El modelo determinístico LAKY , se transforma en modelo econométrico:
ueLAKY .
El término eu será una variable aleatoria con determinadas propiedades, por lo que
deberemos especificar la distribución de probabilidad de u y las consecuencias de
estas sobre la estimación.
Introducción a la econometría 4
3. Tipos de econometría
La econometría puede ser dividida en dos amplias categorías:
Econometría Teórica. Se ocupa del desarrollo de métodos apropiados para
medir las relaciones económicas especificadas por los modelos econométricos.
En este sentido deben especificarse los supuestos del método, sus propiedades y
las consecuencias de las violaciones de los supuestos.
Econometría Aplicada. Utiliza las herramientas de la econometría teórica para
estudiar algunos campos especiales de la economía y los negocios (funciones de
producción, funciones de demanda y oferta, etc.)
4. Metodología de la econometría
Los pasos utilizados por la econometría se resumen en:
i. Planteamiento de la teoría o de la hipótesis
ii. Especificación del modelo matemático de la teoría
iii. Especificación del modelo econométrico de la teoría
iv. Obtención de datos
v. Estimación de los parámetros del modelo econométrico
vi. Pruebas de hipótesis
vii. Pronóstico o predicción
viii. Formulación o control de políticas
Veamos a continuación con detalle en que consiste cada uno de los pasos.
Pasos Descripción
Planteamiento de la teoría Teoría Keynesiana del Consumo: El consumo
aumenta a medida que el ingreso aumenta, pero no
en la misma cuantía del aumento en su ingreso. Es
decir, que la propensión marginal a consumir es
mayor que cero, pero, menor que uno.
Especificación del modelo
matemático
Según el planteamiento de Keynes:
YYfC 21)( , donde 10 2 .
Especificación del modelo
econométrico
La especificación del modelo econométrico
incluye un componente estocástico o de error:
uYC 21
Introducción a la econometría 5
Obtención de datos Boletines, Internet, encuestas, etc. En nuestro
ejemplo las Cuentas Nacionales del BC son una
fuente.
Estimación del modelo YC ˆ7194.08.231ˆ
Prueba de Hipótesis A priori se esperaba que β2<1, por lo que es
necesario probar que el valor obtenido es
estadísticamente menor que 1. Además se puede
testear si los coeficientes son estables en el tiempo.
Proyección o predicción
Utilización del modelo para fines de control o de
política
El diagrama que representa la metodología de la econometría se puede resumir en:
Veamos un ejemplo:
1. Teoría económica
2. Modelo matemático
3. Modelo econométrico
Información
a priori
8. Formular políticas
4. Obtención de
datos
5. Estimación del modelo
7. Predicción
6. Pruebas de hipótesis
Introducción a la econometría 6
Al anterior diagrama se pueden presentar algunas críticas:
Hay feedback entre 1 y 6: no es cierto que solo se “testean teorías”, los
resultados econométricos influyen en las teorías.
Hay feedback entre 3 y 5 con 4: también hay aportes en datos
Hay feedback entre 6 y 2: como resultado de los test econométricos es
posible replantear modelos econométricos
Podemos replantear el diagrama, incluyendo la retroalimentación de la manera
siguiente:
1. Función de producción
Cobb-Douglas
2. Y=AKαL
β
3. Y=AKαL
βe
Revisión de
resultados
obtenidos en
otros estudios
similares,
nacionales e
internacionales
8. Formular políticas
4. Conseguir los datos
de PIB (Y) y Empleo
(L) del Banco Central.
Construir una serie de
Capital (K). 5. Estimación de y
7. Dadas las estimaciones
de K y L, pronostico cual
será el PIB del próximo año
6. Verifico hipótesis
respecto a los
parámetros.
Ej: Test + = 1
Introducción a la econometría 7
¿Qué constituye un test para la teoría económica?
Signos de los coeficientes son correctos.
El test más válido: “que una teoría económica genere mejores predicciones
que una alternativa.
Estabilidad de los coeficientes estimados (Crítica de Lucas)
La econometría no es un elemento para derribar teorías, sino para conocer la
realidad. Si los datos no se ajustan a lo esperado en teoría, lo único que se puede
decir es que estos datos no verifican la teoría. Es un error común concluir que la
equivocada es la realidad, si esta no coincide con el modelo.
Fuentes de error en la elaboración del modelo:
El modelo no se ajusta a la realidad.
Mala formulación del modelo
No se dispone de buena calidad y/o cantidad de datos.
Teoría Económica
Modelo Econométrico
Estimación
Prueba de Especificación y examen
de Diagnóstico
¿Es el modelo adecuado?
Si
Prueba de alguna hipótesis
Uso del modelo para predicción y políticas
No
Datos
Introducción a la econometría 8
5. Origen y Concepto de regresión
5.1 Origen
Proviene de un estudio de Francis Galton (1886) en el que la estatura promedio de
los niños que nacían de padres con una determinada estatura tendía a moverse o
“regresar” hacia la altura promedio de la población total. Ello aún cuando existía
una tendencia a que los padres altos tuvieran hijos altos y padres bajos tuvieran
hijos bajos. Galton dijo que existía una “regresión a la mediocridad”
5.2 Concepto
Una curva de regresión establece una relación entre una variable explicada o
dependiente (Y) y las explicativas o independientes (X).
El objetivo es predecir o estimar el valor medio poblacional de Y conocidos los
valores de las variables explicativas X. O sea establecer el valor de esperado de Y,
dado el valor de las X.
Matemáticamente, XYEY /ˆ el valor estimado de Y será la esperanza
condicional de Y dado X.
Ejemplos:
La relación entre el Consumo y el Ingreso disponible de las familias
La relación entre el desempleo y el nivel de los salarios reales
La relación entre las notas de un grupo de alumnos y el número de horas de
estudio
6. Variables y notación
En general llamamos a las variables utilizadas como:
Variable dependiente, la cual denotaremos con la letra Y, es la variable que
queremos explicar o predecir
Variable(s) independiente(s), que denotaremos con Xk, donde k es el número
de variables explicativas.
Estas variables en ocasiones reciben otros nombres los cuales se presentan a
continuación:
Introducción a la econometría 9
Y X1, X2…. Xk
Dependiente Independiente
Predicha Predictores
Regresada Regresores
Explicada Explicativas
Causada Causante
Endógena Exógena
Objetivo Control
Término aleatorio o estocástico, el cual denotaremos como u y puede tomar
cualquier conjunto de valores, con una probabilidad dada.
7. Regresión vs. Causalidad
El concepto de regresión implica una relación estadística entre una o más variables
X y Y, pero la existencia de una relación estadística, no implica que exista una
relación de causalidad entre las variables.
La explicación de la causalidad debe venir dado a priori por la teoría. De aquí la
importancia del rol de la teoría en la econometría.
8. Tipos de datos
Los tipos de datos que se manejan en econometría y que veremos a continuación
en detalle son:
Corte transversal (Cross-section)
Combinación de cortes transversales
Series de tiempo (Times series)
Datos de panel (Panel Data)
8.1 Datos de Corte Transversal (Cross-section)
Los datos de corte transversal o Cross-section son observaciones de una o más
variables recogidas en un mismo periodo de tiempo. En la tabla siguiente, por
ejemplo, se muestra un grupo de variables representativas de una encuesta de “n”
trabajadores, a través de las cuales podríamos estudiar como es afectado el salario
por variables como años de escolaridad, años de experiencia y el sexo del
trabajador.
Introducción a la econometría 10
Observación Salario Educación Experiencia Sexo
1 3.10 11 2 1
2 3.24 12 22 1
3 3.00 11 2 0
. . . . .
. . . . .
. . . . .
. . . . .
n 3.50 14 5 1
8.2 Combinación de cortes transversales
Como su nombre lo dice, es una combinación de muestras de cortes transversales
para las mismas variables tomadas en diferentes periodos de tiempo. Supongamos
que para los datos mostrados en el ejemplo anterior, tenemos otra muestra con
datos de un año posterior para las mismas variables; en este caso podríamos
aumentar nuestra muestra sobre los efectos de la educación, experiencia y sexo
sobre el salario de los trabajadores.
8.3 Series de Tiempo (Time Series)
Las series de tiempo son observaciones sobre los valores que toman una o más
variables a lo largo de cierto periodo de tiempo. Ej. el IPC, el PIB, etc. Estos datos
tienen un orden cronológico y suelen estar relacionados con su historia reciente y/o
mostrar patrones estacionales. A continuación se presenta una tabla con datos de
Consumo e Ingreso disponible:
Observación Año Consumo Ingreso
Disponible
1 1970 90 110
2 1971 200 225
3 1972 130 130
. . . .
. . . .
34 2003 115 125
Introducción a la econometría 11
8.4 Datos de Panel o longitudinales (Panel Data)
Los datos de panel son combinaciones de series de tiempo con corte transversal,
pero a diferencia de la combinación de cortes transversales, una misma variable de
corte transversal es seguida a través del tiempo. En otras palabras, los datos de
panel dan seguimiento en el tiempo, a las mismas unidades transversales.
Por ejemplo, supongamos que para 150 ciudades, tenemos datos de homicidios,
desempleo y población en dos años diferentes 1986 y 1990. En este caso
podríamos evaluar, no sólo como afectan el desempleo y el tamaño de la población
en el número de homicidios, sino también como cambian el comportamiento a
través del tiempo.
Obs Ciudad Año Homicidios Desempleo Población
1 1 1986 5 8.7 2
2 1 1990 8 7.2 22
3 2 1986 2 5.4 2
4 2 1990 1 5.5 .
. . . . .
299 150 1986 25 4.3 .
300 150 1990 32 5.2 5
Capítulo 2
Modelo de Regresión Lineal Simple:
Estimación
En este capítulo veremos como se estima el Modelo de Regresión Lineal Simple,
los supuestos y las propiedades de este modelo. Antes de iniciar en detalle, es
preciso explicar algunos conceptos como las relaciones estocásticas y
determinísticas, linealidad, función de regresión poblacional y función de regresión
muestral.
1. Relación Estocástica Vs. Determinística
Las relaciones entre las variables pueden ser determinísticas o estocásticas. En el
caso de la primera, son relaciones matemáticas, en el caso de las segunda son
estadísticas. Veamos:
Relación determinística: 0.70.3 L KY . Si dividimos entre L y aplicamos
logarimo tenemos:
)ln(3.0)ln(
3.0
3.0
3.07.03.0
LK
LY
L
K
L
K
L
LK
L
Y
Graficamente tendríamos:
Ln(K/L) X 12 14 20 5
Ln(Y/L) Y 3.6 4.2 6 1.5
Modelo de Regresión Lineal Simple: Estimación 13
0
1
2
3
4
5
6
7
0 5 10 15 20 25
Ln (K/L)
Ln
(Y
/L
)
Relación estocástica: Si u es una variable aleatoria
u
eL
K
L
eLK
L
Y
eLKY
LK
LY
uu
u
)ln(3.0)ln(
3.07.03.0
7.03.0
Ahora, ln(Y/L) no sólo depende de ln(K/L) sino también de una variable aleatoria.
Supongamos que u= +1 con prob 0.5 y -1 con prob 0.5.
LN(K/L) LN(Y/L)
si u = 1
Y/L
si u = -1
X Y Y
12 4.6 2.6
14 5.2 3.2
20 7 5
5 2.5 0.5
10 4 2
Supongamos ahora que u es una variable aleatoria continua que tiene una
distribución normal estandarizada (con esperanza 0 y varianza 1). Entonces por
cada valor de K/L tendremos infinitos valores de Y/L, dependiendo del valor de u.
0
1
2
3
4
5
6
7
8
0 10 20 30
Modelo de Regresión Lineal Simple: Estimación 14
En términos generales en econometría tendremos una relación estocástica entre la
variable dependiente (Yi) y la explicativa (Xi). La siguiente relación tiene dos
componentes:
Yi=α+βXi+u
Componente determinístico: α+βXi, donde α y β son los coeficientes de la
regresión. Sus valores serán estimados a partir de los datos disponibles para
X e Y.
Componente estocástico: u
Fuentes de error u
Variables omitidas. Aunque el ingreso sea el mayor determinante del
consumo, no es el único. Otras variables como la tasa de interés o las
tenencias de activos líquidos pueden influir en el consumo. La omisión de
estas variables constituye un error de especificación. Existen otras variables
que también influyen de manera no sistemática como las variaciones del
clima, cambios de gustos, terremotos, epidemias.
Error de medición. Puede ser que la variable explicada no sea medida
exactamente, por las dificultades de recolectar los datos o porque es
imposible de medir y se utiliza una variable proxy.
Indeterminación humana. Algunos piensan que las acciones de la
conducta humana bajo iguales circunstancia difieren de manera aleatoria
(sesgo de respuesta).
Ln
(Y/L
)
Ln(K/L)
E(u)=0
E(u)=0
E(u)=0
Modelo de Regresión Lineal Simple: Estimación 15
2. Concepto de linealidad
En una ecuación lineal todas las variables están elevadas a la primera potencia, y
sin multiplicarse entre sí.
Pero en econometría es necesario distinguir entre linealidad en los parámetros y
linealidad de las variables.
Linealidad en las variables: La(s) variable(s) sólo aparecen elevadas a
potencia de 1. Contra ejemplo: 2
21)/( iXXYE .
Linealidad en los parámetros: Lo(s) parámetros(s) sólo aparecen elevadas
a potencia de 1. Contra ejemplo: iXXYE 21)/( .
De ahora en adelante, cuando nos refiramos al término regresión lineal, significará
una regresión lineal en los parámetros.
3. Función de regresión poblacional
Supongamos ahora que el salario de un empleado depende de la educación, siendo
el salario mayor cuanto mayor es la educación. Supongamos que tenemos los
datos de salario por hora (en dólares) y los años de educación de una “población”
de empleados, los cuales se muestran en la tabla siguiente:
X Educación (años)
Y 8 9 10 11 12 13 14 15 16 17
Sal
ario
po
r ho
ra (
US
$)
3.77 4.46 5.36 6.26 7.16 8.06 8.96 9.86 10.76 11.66
4.40 4.67 7.05 7.95 8.00 9.75 10.65 11.55 12.45 13.35
4.09 5.30 6.10 7.00 7.69 8.80 9.70 10.60 11.50 12.40
5.73 4.99 5.57 7.10 9.33 8.27 9.17 10.07 10.97 11.87
5.42 6.63 6.20 6.79 9.02 8.90 9.80 10.70 12.62 12.50
3.80 6.32 5.89 8.43 7.60 8.59 9.49 12.03 12.11 12.19
6.37 5.93 7.53 8.12 9.97 10.23 11.13 11.72 13.57 14.73
7.27 7.49 8.54 9.92 10.82 10.67 14.47
8.17 9.07 9.58 10.48 12.67
10.87 11.77 E(Y/X) 4.80 5.70 6.60 7.70 8.40 9.30 10.20 11.10 12.00 12.90
Para un número dado de años de educación (X) existen diferentes niveles de salario
por hora (Y). Por ejemplo, para un nivel dado de 8 años de educación, existen
Modelo de Regresión Lineal Simple: Estimación 16
empleados con salarios por hora de 3.77, 4.40, 4.09, 5.73, 5.42, 3.80 y 6.37
dólares, sin embargo, el salario esperado de un empleado con 8 años de educación
es 4.80 US$/hora.
Se puede apreciar en los datos, que los salarios son mayores, mientras más años de
ecuación tiene el trabajador.
2
4
6
8
10
12
14
16
7 8 9 10 11 12 13 14 15 16 17
Educación (años)
Sa
lari
o p
or
ho
ra (
US
$)
= E(Y/X i )
La recta que une todas las medias condicionales, se llama función de regresión
poblacional (FRP). La media condicional E(Y/Xi) es una función de Xi.
Matemáticamente podemos expresar el concepto de los párrafos anteriores como
E(Y/X)=f(X).
Modelo de Regresión Lineal Simple: Estimación 17
Pero ¿qué forma funcional tiene f(X)? La respuesta de esta pregunta va a depender
en gran medida de la teoría.
Supongamos que f(X) es función lineal de X, entonces la FRP es:
1 2/ i iE Y X X (3.1)
donde β1 y β2 son parámetros no conocidos pero fijos llamados coeficientes de
regresión y el subíndice i representa las observaciones de la muestra.
Sin embargo para un Xi dado, el Yi se desvía de la E(Y/Xi), por un término de
error estocástico ó perturbación estocástica ui.
( / )i i iu Y E Y X
Entonces,
1 2
/i i i
i
Y E Y X u
X u
(3.2)
Educación 8 9 10
Sal
ario
4.80
5.70
6.60
FRP
Modelo de Regresión Lineal Simple: Estimación 18
Entonces, la variable dependiente Yi tiene dos componentes:
i. esperado E(Y/Xi) o sistemático
ii. aleatorio o no sistemático ui
4. Función de regresión muestral (FRM)
En la práctica, la mayoría de las veces no vamos a conocer la población, sino que
vamos a tener una muestra de la población, a partir de la cual estimaremos la FRP,
la cual llamaremos función de regresión muestral (FRM):
1 2ˆ ˆˆ
iY X (4.1)
Donde las variables con “^” denotan que es un estimador del parámetro.
Yi
X i
FRP: E(Y/ X i ) = β1 + β2 X i
X 1 X 2
Y1
Y2
β1
β2
u1
u2
E(Y/X)
Modelo de Regresión Lineal Simple: Estimación 19
Dado que no conocemos la población sino muestras, la estimación de la E(Y/Xi)
dependerá de la muestra elegida. En el caso del ejemplo de los salarios y la
educación, si obtenemos dos muestras al azar de la “población”, el resultado sería
similar al gráfico de más abajo. ¿Cuál es la verdadera FRM? No lo sabemos.
1
3
5
7
9
11
13
15
7 9 11 13 15 17
Educación (años)
Sa
lari
o (
US
$/h
ora
)
muestra 1 muestra 2
FRM 1 FRM 2
Y
X
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Y
X
X
X X
X
X
Población Muestra
Modelo de Regresión Lineal Simple: Estimación 20
La diferencia entre los Yi poblacionales y los estimados iY , es lo que llamaremos
residuos.
1 2
ˆ
ˆ ˆ
ˆ
i i i
i i i
i i
e Y Y
e Y X
e u
(4.2)
Asimismo, como ˆi i iY Y e , entonces:
1 2ˆ ˆ
i i iY X e (4.3)
Existen diferencias entre ui y ei
ui
es no observable (no conocemos la población)
es una variable aleatoria a la que se le supone cierta distribución de
probabilidad
ei
es observable (se dispone de valores)
satisface ciertas propiedades que veremos más adelante
β1
β1 ^
Yi
Y1 ^
FRM: Yi = β1 + β2 X
i
^ ^ ^
u1 e1
E(Y/ X i )
Y1
2
2 ^
Xi
FRP:
E(Y/ X i ) = β1 + β2 X i
Modelo de Regresión Lineal Simple: Estimación 21
¿Cómo calcular 1 y 2 ?
¿Método de momentos?
¿Máxima Verosimilitud?
¿Método de Mínimos Cuadrados Ordinarios (MICO)?
El método de MICO posee algunas propiedades estadísticas atractivas que veremos
más adelante.
5. ¿Cómo seleccionar entre estimadores?
Podemos tener varios estimadores para un mismo parámetro, el problema es elegir
cuál de estos es el mejor.
Para elegir entre varios estimadores de un parámetro, existen varios criterios que
nos pueden ayudar, los cuales se presentan a continuación:
Insesgamiento
Un estimador es insesgado de si el valor esperado del estimador es igual al
verdadero ˆE . Esto no significa que ˆ , sino que si calculamos el
estimador correspondiente para muestras repetidas, “en promedio” estaremos sobre
el parámetro poblacional.
Eficiencia
Un estimador es más eficiente, mientras más pequeña sea su varianza.
En el caso del gráfico siguiente, tanto A como B son estimadores insesgados de θ,
pero B es más eficiente que A.
Modelo de Regresión Lineal Simple: Estimación 22
Ahora bien, ¿que pasa si tengo un estimador insesgado y otro sesgado, pero con
menor varianza?
Error cuadrático medio (ECM)
El ECM de un estimador se define como:
2
2ˆ ˆ ˆ( ) var( )ECM E sesgo
2
2
2 2
2 2
2
ˆ ˆECM( ) ( )
ˆ ˆ ˆ( ( ) ( ) )
ˆ ˆ ˆ ˆ ˆ ˆ( ( )) ( ( ) ) 2( ( ))( ( ) )
ˆ ˆ ˆ ˆ ˆ ˆ( ( )) ( ( ) ) 2( ( ))( ( ) )
ˆ ˆ ˆ ˆ ˆ ˆ ˆvar( ) ( ( ) ) 2 ( ) ( ) ( ) (
E
E E E
E E E E E
E E E E E E E
E E E E E E
2
2 2
2
ˆ)
ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆvar( ) ( ( ) ) 2 ( ) ( ) ( ) ( ) ( ) ( )
ˆ ˆ ˆ ˆvar( ) ( ( ) ) 0 var( ) ( ( ) )
ˆvar( )
E E E E E E E
E E
sesgo
Función de densidad
de probabilidad
Estimador B
Estimador A
Resto y sumo ˆE para
mantener la igualdad
Modelo de Regresión Lineal Simple: Estimación 23
En caso que tengamos un estimador insesgado y otro sesgado, pero con menor
varianza, debemos elegir el que tenga menor ECM.
En muchos problemas econométricos es imposible encontrar estimadores con las
propiedades anteriores. Sin embargo, muchas veces se puede justificar la
utilización de un estimador en base a sus propiedades asintóticas.
Consistencia
Un estimador es consistente si se aproxima al verdadero valor de a medida
que el tamaño de la muestra se hace más grande.1
Eficiencia asintótica
Si un estimador es consistente y su varianza asintótica es menor que la de otros
estimadores, entonces es asintóticamente eficiente.
1 Formalmente se expresa como ˆlim 1
nP
, donde P indica probabilidad y δ>0. También se pude
expresar como ˆlimp , donde plim significa probabilidad en el límite.
Función de densidad
de probabilidad
Estimador B
Estimador A
Modelo de Regresión Lineal Simple: Estimación 24
Otros
Kennedy considera además de los expuestos, otros criterios como:
Costo computacional
Minimizar errores cuadrados
Mayor R-cuadrado
6. Método de Mínimos Cuadrados Ordinarios (MICO)
Nuestro objetivo es encontrar la recta que pasé lo mas cerca de nuestras
observaciones, para lo cual deberíamos de minimizar la suma de los errores ó
residuos. Pero minimizar cuales errores ¿Min Σe? o ¿Min Σe2?
La diferencia entre minimizar Σe ó Σe2, está en que de la primera manera estamos
ponderando igual un residuo (desviación) pequeña que una grande, mientras que si
minimizamos la suma de residuos al cuadrado estamos ponderando más las
desviaciones más grandes.
Lo que hace MICO, es minimizar la sumatoria de errores al cuadrado, ei2 (para
dar peso proporcional a residuos más grandes). O sea, minimizaremos la suma de
los cuadrados de las “distancias verticales” desde los puntos a la recta.
Función de densidad de
probabilidad
n = 100
n = 1000
n = 20
Modelo de Regresión Lineal Simple: Estimación 25
Sabemos que ˆi i ie Y Y y iii XYe 21
ˆˆ , entonces:
22
2
1 2
1 2
ˆ
ˆ ˆ
ˆ ˆ,
i i i
i i
i i
i
e Y Y
Y X
f
6.1 Derivación
Planteando el problema de minimización:
2 2
1 2ˆ ˆmin ( )i i i
i i
e Y X (6.1)
0ˆ
0ˆ
0ˆ
0ˆ
2
2
2
2
1
2
2
2
1
2
i
i
i
i
e
e
e
e
Resolviendo para 1 :
1 2
1
1 2
1 2
1 2
ˆ ˆ2 ( )( 1) 0ˆ
ˆ ˆ( ) 0
ˆ ˆ1 0
ˆ ˆ 0
ie
i i
i i
i i
nn
QY X
Y X
Y X
Y X
(6.2)
CNPO
CNSO
Modelo de Regresión Lineal Simple: Estimación 26
Despejando 1 tenemos:
1 2ˆ ˆY X (6.3)
También podemos expresar (6.2) como:
0
0)1(2ˆ
1
i
i
e
eQ
Resolviendo para 2 :
1
1 2
2
2
1 2
ˆ
2
2 2
ˆ ˆ2 ( )( ) 0ˆ
ˆ ˆ 0
ˆ ˆ 0
i i i
i i i i
i i i i
QY X X
Y X X X
Y X Y X X X
(6.4)
2
2 2
2
2 2
2
2 2
2 2
2
ˆ ˆ
ˆ ˆ
ˆ ˆ
ˆ
i i i i
i i i
i i i
i i i
Y X Y X X X
Y X Y X nX X
Y X nYX XnX X
Y X nYX X nX
Despejando 2 tenemos:
2 2 2ˆ i i
i
Y X nYX
X nX
(6.5)
También podemos expresar (6.4) como:
Esta es la 1ª
condición que se
debe cumplir para
minimizar la
suma de
cuadrados de los
residuos.
Modelo de Regresión Lineal Simple: Estimación 27
2
2 ( 1) 0ˆ
0
i i
i i
Qe X
e X
(6.6)
A las dos condiciones se les llama generalmente Ecuaciones Normales.
Podemos plantear (6.5) de dos maneras alternativas:
i. Recordando las fórmulas de la covarianza y la varianza muestral y
transformándolas:
( )( ) ( )cov( , )
1 1
1 1 1 1 1 1 1 1
1
i i i i i i
xy
i i i i i i
i i
X X Y Y X Y X Y XY XYS X Y
n n
X Y X Y X Yn n n n n nY X XY YX XY XY
n n n n n n n n n n
X Y nXY
n
El último término es similar al numerador de (6.5).
11
2
1
2
1
2
11
222222
222
2
n
XnX
n
XnXX
n
XnXXX
n
XXXX
n
XXXX
n
XXS
i
Xn
n
Xn
iii
iiiii
x
i
El último término es similar al denominador de (6.5).
Por lo tanto, podemos expresar 2 como:
2 2 2 2 2ˆ
( 1)
i i XY XY
i X X
Y X nYX nS S
X nX n S S
(6.7)
Esta es la 2ª
condición que se
debe cumplir para
minimizar la suma
de cuadrados de los
residuos
Modelo de Regresión Lineal Simple: Estimación 28
ii. Dada la expresión anterior, podemos plantear 2 como:
2 22 2
( )( )
1ˆ( )
1
i i
i iXY
iX i
X X Y Yx yS n
X XS x
n
, donde i ix X X y i iy Y Y .
TAREA: Verificar que las condiciones necesarias de segundo orden, corresponden
con las de un mínimo.
Ejemplo
Supongamos que conocemos los datos de
producción y horas trabajadas de 10
trabajadores de una fábrica en un momento
de tiempo (corte transversal). Definimos Y
= producto, X = horas de trabajo.
1 2
8
9.6
ˆ ˆi i
X
Y
Y X e
2 2 2 2
789 10 9.6 8ˆ 0.75668 10 8
i i
i
Y X nYX
X nX
1 2
2
ˆ ˆ
ˆ9.6 8
9.6 0.75 8 3.6
Y X
ˆ 3.6 0.75i iY X
6.2 Propiedades de la regresión MICO (Corolarios)
Los errores se compensan, o sea, tienen media cero
De la primera ecuación normal tenemos:
Obs. X Y X2 Y
2 XY
1 10 11 100 121 110
2 7 10 49 100 70
3 10 12 100 144 120
4 5 6 25 36 30
5 8 10 64 100 80
6 8 7 64 49 56
7 6 9 36 81 54
8 7 10 49 100 70
9 9 11 81 121 99
10 10 10 100 100 100
80 96 668 952 789
Modelo de Regresión Lineal Simple: Estimación 29
1
2 ( 1) 0ˆ
0
i
i
Qe
e
(6.2)
La regresión siempre pasa por el punto ),( YX
1 2
1 2
1 2
ˆ ˆ
ˆ ˆ
ˆ ˆ 0
i i i
i i i
i i
Y X e
Y X e
Y n X
1 2ˆ ˆY X (6.8)
El valor medio de Y estimado es igual al valor medio de Y observado.
1 2ˆ ˆ
ˆ
ˆ
ˆ
i i i
i i i
i i i
i i
Y X e
Y Y e
Y Y e
Y eY
n n
ˆY Y (6.9)
La regresión se puede expresar en desvíos
De (4.3) y (6.8) tenemos
1 2ˆ ˆ
i i iY X e
1 2ˆ ˆY X
Restando (4.3) – (6.8)
Modelo de Regresión Lineal Simple: Estimación 30
1 2 1 2
2
ˆ ˆ ˆ ˆ
ˆ ( )
i i i
i i i
Y Y X e X
Y Y X X e
2ˆ
i i iy x e (6.10)
2ˆˆ
i iy x (6.11)
Los residuos no están correlacionados con el valor estimado de Yi ni con los
valores explicativos
1
1
1
1
cov( , ) ( )( )
( )( )
0 0
i in
i in
i i in
in
X e X X e e
X X e
X e Xe
X e
(6.12)
1
1
1
ˆ ˆ ˆcov( , ) ( )( )
ˆ ˆ( )( )
ˆ ˆ 0
i in
i in
i i in
Y e Y Y e e
Y Y e
Ye Ye
(6.13)
1
1 11 2
ˆ
12 2
12 2
ˆ ˆˆ ( )
ˆ ˆ( )
ˆ ˆ
i i i in n
i in
i i i in
Ye X e
Y X X e
Ye X e X e
Descomposición en suma de cuadrados
Sabemos que: ˆi i iY Y e y ˆY Y . Restando las dos expresiones anteriores
obtenemos:
Modelo de Regresión Lineal Simple: Estimación 31
ˆ ˆi iY Y Y Y e
lo que en desvíos respecto de la media puede expresarse como:
ˆi i iy y e
Dado que 2ˆˆ
i iy x , entonces 2ˆ
i i iy x e .
Elevando al cuadrado:
2 22
2
2 2 2 2 2
2 2
ˆ ˆ
ˆ ˆ ˆ ˆ2 2
i i i i i
i i i i i i i i
y x e y e
x x e e y y e e
Aplicando sumatorias:
2 2 2 2 2 2
2 2
2 2 2 2 2
2 2
2 2 2 2 2
2
ˆ ˆ ˆ ˆ2 2
ˆ ˆ ˆ ˆ2 2
ˆ ˆ
i i i i i i i i i
i i i i i i i i
i i i i
y x x e e y y e e
x x e e y y e e
x e y e
Definimos
2
iy : Suma de cuadrados totales (SCT)
22
2
2 ˆˆ ii xy : Suma de cuadrados explicados (SCE)
2
ie : Suma de cuadrados residuales (SCR)
Por lo que SCT = SCE + SCR
También podemos definir SCE como:
2 2
2 2 2 2
2 222 22
ˆ ˆi i i i i ii ii i i i i
i ii
x y x y x yx ySCE x x x x y
x xx
Modelo de Regresión Lineal Simple: Estimación 32
7. Coeficiente de determinación (R2)
Es una medida de la bondad de ajuste, y mide la proporción de la variación total de
Y que es explicada por el modelo de regresión, o sea:
2 1SCE SCT SCR SCR
RSCT SCT SCT
(7.1)
Sustituyendo por los valores definidos en la sección precedente
2 2 2 2
22
2 2 2
ˆˆ1
i i i
i i i
y x eSCER
SCT y y y
(7.2)
Características:
0≤R2≤1
Es una medida de bondad absoluta del modelo ya que mide que proporción
de la varianza total (varianza de Y) es explicada por el modelo de regresión
(por X).
Es una medida de bondad relativa entre modelos. Me permite comparar si
la capacidad explicativa es mayor incluyendo una variable Z en vez de X2.
Sin embargo, debe tenerse cuidado al comparar modelos, pues no es posible
hacerlo cuando la variable dependiente tiene diferentes unidades de medida en los
modelos comparados. Por ejemplo, no es posible comparar entre si el R2 de los
modelos ,Y f K L y ln ,Y f K L , puesto que la variable dependiente tiene la
unidad de medida y por lo tanto las SRC serán de magnitudes diferentes.
Otra forma de expresar el R2:
2
22
2 2
22
2 2
22
2
,2 2 2 2
ˆi i
i
x y
ixi
i i
i i XYX Y
i i X Y
xxR
y y
x y Sr
y x S S
(7.3)
2 Veremos que existen otras medidas de bondad de ajuste mejores que el R-cuadrado.
Modelo de Regresión Lineal Simple: Estimación 33
Es decir, en el modelo de regresión simple, el R2 es igual al cuadrado del
coeficiente de correlación simple3.
Propiedades de rX,Y:
Esta entre -1 y 1
Simetría rxy=ryx
Es independiente del origen y de la escala (a diferencia de la covarianza)
Si X y Y son estadísticamente independientes r=0, aunque r=0 no implica
independencia estadística.
Es una medida de asociación lineal, no tiene sentido utilizarla en
asociaciones no lineales.
No implica una relación causa-efecto.
En relación al modelo de regresión el R2 tiene más significado que el coeficiente de
correlación, ya que mide que porcentaje de la variación de la variable dependiente
es explicada por la(s) variable(s) independiente(s).
8. Supuestos del modelo clásico de regresión lineal
Cuando derivamos los estimadores MICO no fue necesario realizar supuestos
sobre la muestra o la distribución de ui.
En la sección anterior vimos una serie de criterios deseados por los econometristas
acerca de los estimadores. Estas características no pueden ser determinantes hasta
que no se realicen un conjunto de muestras repetidas de los estimadores, sobre
cómo fueron generadas las muestras. Desafortunadamente un estimador no tiene
las mismas características para todas las formas en que puede ser generado. Esto
significa que bajo algunos situaciones, un estimador tiene propiedades deseables
pero en otras situaciones no.
El modelo clásico de regresión lineal, consiste en una serie de supuestos acerca de
cómo son generados los datos. Modificando estos supuestos, se pueden crear
diferentes situaciones de estimación, bajo las cuales MICO no es óptimo.
3 Recordemos que el coeficiente de correlación es una medida de asociación lineal entre X y Y que equivale a:
,
,
i iX Y
X Y
X Y i i
x ySr
S S x y
Modelo de Regresión Lineal Simple: Estimación 34
Para verificar las propiedades estadísticas de los estimadores derivados,
requerimos ciertos supuestos
Los supuestos describen la forma del modelo y las relaciones entre sus partes, a
partir de los cuales se pueden establecer los procedimientos de estimación e
inferencia adecuados.
Los supuestos clásicos del modelo de regresión son:
1. El modelo de regresión es lineal en los parámetros y se encuentra bien
especificado.
2. Los valores de X son fijos en muestreo repetido. La covarianza entre ui y Xi
es cero. cov(ui/Xj)=0.
3. El valor medio de ui es igual a cero. E(ui/Xi)=0
4. Homocedasticidad o igual varianza de ui. var(ui/Xi)=σ2.
5. No autocorrelación entre los ui. cov(ui/uj)=0
6. El número de observaciones debe ser mayor que el de variables
independientes y no hay relación lineal exacta entre las X. No hay
multicolinealidad perfecta.
8.1 El modelo de regresión es lineal en los parámetros y se encuentra bien especificado.
Esto quiere decir, tal como hemos visto, que el modelo es lineal en los parámetros,
aunque puede no serlo en cuanto a las variables. Además el modelo está bien
especificado, con cual significa que:
No hay variables omitidas
No hay variables intrusas
Forma funcional correcta
8.2 Los valores de X son fijos en muestreo repetido.
Este supuesto implica que si se repitiera la selección de muestras se podría
considerar que las variables independientes serían las mismas.
Este es un supuesto bastante fuerte, porque supone que las variables X no son
aleatorias; es posible mantener fijo el valor de X, y repetir el experimento,
obteniendo en cada observación, un valor de la variable aleatoria Y. De esta
manera Cov(u,X)=0.
Modelo de Regresión Lineal Simple: Estimación 35
8.3 El valor esperado de ui es igual a cero.
La perturbación aleatoria ui puede tomar valores positivos o negativos, pero no
existe razón para esperar que sea sistemáticamente positiva o negativa.
Dado que X es fija, XuXEXYE ii 2121 )(/ , este supuesto también
implica que todo lo que no está incluido en el modelo, se supone que no afecta en
forma sistemática el valor promedio de Y, porque se compensan los errores.
8.4 Homocedasticidad o igual varianza de ui.
Se supone que las perturbaciones se distribuyen con igual dispersión (varianza)
respecto a la media.
2
2
2
0
)()var(
i
iii
uE
uEuEu
Cuando este supuesto no se cumple, decimos que existe heterocedasticidad.
f(ui)
Y
X
X3
X2
X1
E(Y/ X i ) = 1 + 2 X i
Homocedasticidad
Modelo de Regresión Lineal Simple: Estimación 36
Ejemplo: supongamos que deseamos explicar el gasto en consumo de las familias
en función de su ingreso. Si los datos se refieren a una muestra de corte
transversal, el supuesto de homocedasticidad no tiene mucho sentido, ya que indica
que independientemente del nivel de ingreso, los gastos de cada familia se desvían
del modelo con la misma dispersión. Lo lógico es pensar que a mayores niveles de
ingreso, hay un mayor espacio para que las familias distribuyan su ingreso.
8.5 No autocorrelación entre los ui.
Significa que no existe ninguna tendencia a que los errores asociados con una
observación estén relacionados a los errores de otra. Si en un momento de tiempo
o en un individuo de la muestra se genera un error positivo, esto no nos da ninguna
información sobre si el próximo error será positivo o negativo.
Este supuesto implica que los errores no tienen un patrón de comportamiento
sistemático.
Bajo este supuesto, si ut y ut-1 están correlacionados, Yt no sólo depende de Xt, sino
también de ut-1.
Formalmente este supuesto se expresa:
f(ui)
Y
X
X3
X2
X1
E(Y/ X i ) = 1 + 2 X i
Heterocedasticidad
Modelo de Regresión Lineal Simple: Estimación 37
0,
)()(),cov(
ji
jjiiji
uuE
uEuuEuEuu
8.6 El número de observaciones debe ser mayor que el de variables independientes y no hay relación lineal exacta entre las X. No hay multicolinealidad perfecta.
Que el número de observaciones sea mayor que las variables independientes, es
una condición matemática necesaria para poder estimar los betas. Por ejemplo, en
el caso del modelo simple, para poder trazar una línea recta, tenemos que estimar
1 y 2 , por lo que necesitamos al menos dos pares de puntos.
ui
ui
uj
j
uj
No existe
correlación
*
*
*
* * *
* *
*
u
i
ui
uj
j
uj
*
*
*
*
*
*
*
*
*
*
Correlación
Positiva
u
i
ui
uj
j
uj
Correlación
Negativa
*
* * *
* *
* *
*
Modelo de Regresión Lineal Simple: Estimación 38
Asimismo, se requiere también que no exista una relación perfectamente lineal
entre dos o más variables explicativas.
9. Propiedades Estadísticas de los estimadores MICO
9.1 Linealidad
2 2 2 2ˆ i ii i i i i
i i i
x Y Yx y xY Y x
x x x
Dado que la 0ix entonces
2 2ˆ i i
i
xY
x
(9.1)
Si definimos el ponderador 2
ii
i
xk
x
, con las propiedades siguientes:
a) No estocástico
b) 0ik
c) 2
2
1i
i
kx
d) 1i i i ik x k X
Sustituyendo el ponderador en (9.1), tenemos que:
2 2ˆ i i
i i
i
xYk Y
x
(9.2)
Se muestra que 2 es un estimador que puede expresarse de forma lineal, donde ki
son las ponderaciones de esta combinación lineal.
Tarea: verificar estas propiedades.
(Gujarati Apéndice 3A.2)
Modelo de Regresión Lineal Simple: Estimación 39
9.2 Insesgamiento
Sabemos que 1 2i i iY X u , entonces sustituyendo en (9.2) tenemos:
2 1 2
1 2
1 2
ˆi i i i i
i i i i i
i i i i i
k Y k X u
k k X k u
k k X k u
2 2
ˆi ik u (9.3)
Aplicando el operador de esperanza:
2 2 2ˆ
i i i iE E k u k E u
2 2ˆE (9.4)
Por lo tanto, 2 es un estimador insesgado. Esto quiere decir que 2 se puede
alejar del verdadero 2 en una muestra, pero si repetimos muchas veces el
experimento, estaremos en promedio sobre el verdadero valor del parámetro.
Recordar: el estimador insesgado no es necesariamente el mejor estimador. (¿por
qué?)
De la misma manera se puede demostrarse que 1 es también un estimador
insesgado.
Tarea: Demostrar que 1 es insesgado.
9.3 Eficiencia
Calculo de varianzas y covarianza
Necesitamos calcular primero las varianzas de los estimadores MICO.
Modelo de Regresión Lineal Simple: Estimación 40
2
2 2 2ˆ ˆ ˆvar E E
Sabemos que 2 2ˆE , entonces sustituyendo:
2
2 2 2ˆ ˆvar E
(9.5)
De (9.3), sabemos que:
2 2
2 2
ˆ
ˆ
i i
i i
k u
k u
, sustituyendo en (9.5) tenemos:
2 2
2 1 1 2 2
1 1 2 2 1 1 2 2
2 2 2 2
1 1 1 2 1 2 1 3 1 3 2 2 2 2 1 1
ˆvar ...
... ...
... ...
i i n n
n n n n
E k u E k u k u k u
E k u k u k u k u k u k u
E k u k k u u k k u u k u k u k u
Vamos a tener:
n términos 2 2i ik u , o sea
2 2
1
n
i ik u
( 1)
2
n n términos 2kiuikjuj, o sea
( 1)
2
1
2
n n
i i j jk u k u
( 1)
22 2
2
1 1
ˆvar 2
n nn
i i i i j jE k u k k u u
Recordando
2 2( )
( ) 0
i
i j
E u
E u u
y ki es no aleatorio o no estocástico,
Modelo de Regresión Lineal Simple: Estimación 41
( 1)
22 2
2
1 1
22 2 2
2 21
ˆvar 2
1
n nn
i i i j i j
n
i
i i
k E u k k E u u
kx x
2
2 2ˆvar
ix
(9.6)
Características de la varianza:
La varianza de 2 es directamente proporcional a 2 (varianza de u) e
inversamente proporcional a 2
ix (varianza de X)
Dado 2 , cuanto mayor sea la variabilidad de la variable X, màs centrado
estará el estimador del verdadero valor.
Dada la varianza de Xi, a mayor 2 (mayor variabilidad de los datos a
explicar o mayor variabilidad del error aleatorio), mayor será la varianza del
estimador.
Tarea: demostrar que
2 22 2
1 2 2
1ˆvar( )i
i i
X X
n x x n
(9.7)
Ahora vamos a calcular la covarianza entre 1 y 2
1 2 1 1 2 2
1 1 2 2
ˆ ˆ ˆ ˆ ˆ ˆcov , ( ) ( )
ˆ ˆ
E E E
E
(9.8)
Sabemos que 1 2
1 2
ˆ ˆY X
Y X u
con lo que 1 1 :
Modelo de Regresión Lineal Simple: Estimación 42
1
1 1 2 1
ˆ
1 2 2 1
2 2
ˆ ˆ
ˆ
ˆ
Y
Y X
X u X
X u
Sustituyendo en (9.8) tenemos:
1 2 2 2 2 2
2 2 2 2 2 2
2
2 2
2
1 2 1 1 2 22
22
2
ˆ ˆ ˆ ˆcov ,
ˆ ˆ ˆ
ˆ
1... ...
iu
i in
n n n
i
i
i
E X u
E X E u
X E E k u
X E u u u k u k u k ux n
X kx
2
1 2 22ˆ ˆ ˆcov , var
i
X Xx
(9.9)
Características de la covarianza:
Tanto 1 como 2 , dependen entre si.
El signo depende de X , si 0X la covarianza es negativa y viceversa.
Tanto las varianzas como la covarianza de los estimadores, dependen de datos
conocidos 2, , , ...i iX X n X y de un parámetro desconocido 2 .
Como no conocemos 2 , porque es un parámetro poblacional, no conoceremos los
valores de las verdaderas varianzas. Estimaremos 2 y eso nos permitirá estimar
las varianzas de 1 y 2 .
Los productos cruzados son
iguales a cero, por el supuesto de
no autocorrelación. E(uiuj)=0
Modelo de Regresión Lineal Simple: Estimación 43
Estimador de σ2
Recordando la ecuación (3.2),
1 2i i iY X u (9.10)
dividiendo entre n y aplicando sumatoria para todo i
1 2
i i iY X u
n n n
1 2Y X u (9.11)
restando (9.10)-(9.11) tenemos,
1 1 2i i iY Y X X u u
2i i iy x u u (9.12)
Recordemos de (6.10) que:
2ˆˆi i i i ie y y y x (9.13)
sustituyendo (9.12) en (9.13)
2 2 2
2 2
ˆˆ
ˆ
i i i i i i i
i i i
e x u u y x u u x
e x u u
Elevando al cuadrado:
22
2 2
22 2
2 2 2 2
ˆ
ˆ ˆ2
i i i
i i i i
e x u u
x u u x u u
Sumando para todo i
Modelo de Regresión Lineal Simple: Estimación 44
2 22 2
2 2 2 2ˆ ˆ2i i i i ie x u u x u u
Aplicando esperanza
2 22 2
2 2 2 2
2 22
2 2 2 2
ˆ ˆ2
ˆ ˆ2
i i i i i
i i i i
A B C
E e E x E u u E x u u
x E E u u E x u u
2
iE e A B C (9.14)
Vamos a desarrollar cada uno de los términos por separado:
2
2 2
222 2 2
2 2 2
ˆvar( )
ˆ
xi
i i
i
A x E xx
2
2 2 2
2 2
2 2 2 2
2 2 2 2 2
2
2 2 2
2
2
2
2 2
2
i i i
i i
i i i
nu
i i
i
i i
i
B E u u E u u u u
E u u u u
E u u u nu E u u nu nu
E u nu nu E u nu
uE u nE u E u nE
n
E uE u n
2
2 2 22 2
2
2 1
i nn
n n n
n
El supuesto
utilizado es
que las ui
son no
correlaciona
das
Modelo de Regresión Lineal Simple: Estimación 45
2 2
0
1 1 2 2 1 1 2 2
2 2 2
1 1 1 2 2 2 1 1
ˆ2 2
2
2 ... ...
2 ... ...
i i
i i i i i i i
k u
i i i i
n n n n
n n n n n n n
C E x u u E k u x u u x
E k u x u
E k u k u k u x u x u x u
k x E u k x E u k x E u k x E u u
2 2 2
1
2 2 2i i i ik x k x
Sustituyendo los resultados de A, B y C en (9.14)
2 2 2 2
2 2
( 1) 2
(1 1 2) ( 2)
iE e A B C n
n n
2 2( 2)iE e n (9.15)
Si definimos que el estimador de la varianza del término de perturbación 2 se
basa en la varianza de los residuos corregido por los grados de libertad perdidos en
la estimación de los parámetros, es decir:
2
2ˆ( 2)
ie
n
(9.16)
El resultado de (9.15) nos asegura que estamos definiendo un estimador insesgado
de 2 , porque:
2
2
2 2 2
( 2)
2
1 1ˆ ( 2)
2 2 2
i
i
n
eE E E e n
n n n
Entonces (9.16) es un estimador insesgado de 2 .
Modelo de Regresión Lineal Simple: Estimación 46
Varianzas estimadas
Sabemos de (9.6) que 2
22
ˆ2 2ˆvar
ix
y de (9.16) que
2
2ˆ( 2)
ie
n
.
Entonces sustituyendo (9.16) en (9.6) tenemos la varianza estimada de 2
estimado:
2
2
22( 2)2
ˆ 2 2 2
ˆˆ
( 2)
ie
n i
i i i
e
x x n x
(9.17)
Sustituyendo para 1 :
1
2 22 2 2
ˆ 2 2
1ˆ ˆ ˆi
i i
X X
n x x n
(9.18)
Tarea: Hallas las varianzas estimadas para el ejemplo de la página 28.
10. Teorema de Gauss-Markov
Hipótesis: Si se cumplen los siguientes supuestos clásicos:
1. La variable explicativa X está dada (es no estocástica o no aleatoria).
2. 0iu i
3. ,i ju u
2
0
si i j
si i j
, homocedasticidad y no autocorrelación
4. No hay errores de especificación.
TESIS: Los estimadores MICO son de mínima varianza entre los estimadores
lineales e insesgados. MICO, son los mejores estimadores lineales
insesgados (MELI).
Modelo de Regresión Lineal Simple: Estimación 47
Demostración
Sabemos que 2 es lineal 2ˆ
i ik Y e insesgado 2 2ˆE
y que
2
2 2ˆvar( )
ix
.
Supongamos que existe otro estimador *
2 lineal de 2 .
Entonces para que sea lineal *
2 deberá ser igual a *
2 i iwY donde iw es
algún ponderador.
Calculemos *
2 y veamos qué condición debemos exigirle a iw para que *
2
sea insesgado
*
2 1 2 1 2
1 2
i i i i i i i
i i i
E w E Y w E X w X
w w X
Para que *
2 sea insesgado se debe cumplir 0
1
i
i i i i
w
w X w x
Veamos las condiciones que tiene que cumplir iw para que la varianza sea
mínima:
2
* 2 2 2 2 2
2var( ) var vari i i i i iwY w Y w w
Sumando y restando 2
i
i
x
x al término con sumatoria:
Modelo de Regresión Lineal Simple: Estimación 48
22
2 2
2 2 2 2
2 2
2
2 2 2 2
2 2
2 2 2
2 2 2
2
2
i i i ii i
i i i i
i i i ii i
i i i i
i i i ii
i i i
x x x xw w
x x x x
x x x xw w
x x x x
x x w x xw
x x x
i
2
22
22
2 2 2 2
22 2 22
El término entre paréntesis es cero,Ya que para que exista insesgamiento
Se requiere que: x 1
1 12
i
i
i
iii i i i
i i ii
w
x
xxw x w x
x x xx
2
2* 2
2 2 2var i
i
i i
xw
x x
(10.1)
Necesitamos minimizar esto, pero el segundo sumando
2
2
ix
es un número, es
una constante; entonces, minimizar *
2var es equivalente a minimizar
2
2
ii
i
xw
x
y este cuadrado se minimiza cuando la base es igual a cero, es
decir, se minimiza cuando: 20i
i
i
xw
x
o sea 2
ii
i
xw
x
.
La condición que minimiza la varianza es que 2
ii
i
xw
x
, que es una condición
igual a la de MICO, por lo que *
2 2 .
2
*
2 22ˆvar var
ix
Modelo de Regresión Lineal Simple: Estimación 49
Este teorema asegura que si existe otro estimador (*
2 ) con similares propiedades
al que tiene MICO (linealidad e insesgamiento), para que la varianza de *
2 sea
mínima, este estimador debe ser el estimador MICO.
Como consecuencia, MICO es el mejor estimador entre los estimadores lineales e
insesgados.
Hasta este punto hemos demostrado que los estimadores MICO tienen propiedades
importantes:
Linealidad.
Insesgamiento.
Mínima varianza dentro de la familia de estimadores lineales e insesgados
(eficientes entre los estimadores lineales e insesgados).
Tarea: Verificar cuales de los supuestos del MCRL son necesarios para cada una
de las propiedades (linealidad, insesgamiento y mínima varianza)
11. Regresión sin intercepto (a través del origen)
En el algunas ocasiones tendremos que estimar regresiones como 2i i iY X u , en
las cuales no existe el término del intercepto, las cuales son llamadas regresiones a
través del origen.
Derivación del estimador 2
Ahora tenemos que,
2ˆ
i i ie Y X
Procedemos a elevar al cuadrado y sumar para todo i
2
2
2ˆ
i i ie Y X
Planteando el problema de minimización y resolviendo
Modelo de Regresión Lineal Simple: Estimación 50
22
2
2
2
2
ˆmin
ˆ2 0ˆ
i i i
i
i i i
e Y X
d eY X X
d
2
2
2
ˆ 0
ˆ 0
i i i
i i i
Y X X
Y X X
Despejando obtenemos:
2 2ˆ i i
i
Y X
X
(11.1)
Sesgo y varianza
Si sustituimos 2i i iY X u en (11.1), tenemos
2
2 2
2
2
2
2 2
ˆ i i i
i
i i i
i
i i
i
X u X
X
X X u
X
X u
X
(11.2)
Aplicando esperanza a 2
2 2 22ˆ i i
i
X uE E
X
, por lo tanto es un estimador insesgado
Ahora veamos la varianza cuál es la varianza
Modelo de Regresión Lineal Simple: Estimación 51
2
2 2 2
2
2 2
2
2 22
2
2
ˆ ˆ ˆvar
ˆ
i i
i
i i
i
E E
E
X uE
X
X uE
X
Desarrollando el término dentro del corchete, tomando en cuenta que Xi es no
estocástica y las ui son homocedásticas y no correlacionadas, obtenemos:
2
2 2ˆvar
iX
(11.3)
donde ahora, ya que sólo pérdemos un grado de libertad para calcular 2
ie , el
estimador de 2 es:
2
2ˆ( 1)
ie
n
(11.4)
Comparemos con los resultados del modelo con intercepto:
Regresión sin
intercepto
Regresión con
intercepto
Estimador de 2 2 2
ˆ i i
i
Y X
X
2 2ˆ i i
i
y x
x
Varianza de 2
2
2 2ˆvar
iX
2
2 2ˆvar
ix
Estimador de 2 2
2ˆ( 1)
ie
n
2
2ˆ( 2)
ie
n
Modelo de Regresión Lineal Simple: Estimación 52
La diferencia consiste en que el modelo de regresión sin intercepto se utilizan
sumatorias sencillas, mientras que el modelo con intercepto se utilizan sumas
ajustadas por la media (en desvíos).
11.2 Características del modelo sin intercepto
La sumatoria de los errores es diferente de cero 0ie
En el modelo de regresión con intercepto, de la primera ecuación normal,
concluimos que 0ie . En el caso del modelo sin intercepto, no sucede esto,
sino que 0ie . Supongamos que 0ie , entonces:
2
2
2
2
ˆ
ˆ
ˆ
ˆ
i i i
i i i
i i
i
i
Y X e
Y X e
Y X
Y
X
2ˆ Y
X (11.5)
Este estimador de 2 , es diferente al encontrado anteriormente en (11.1). Dado
que el estimador de (11.1) se demostró que era insesgado, el encontrado en (11.5)
no puede serlo.
En el modelo a través del origen, no se cumple 0ie , aunque si podemos
concluir que 0i iX e . (¿Por qué?)
El R2 en el modelo de regresión a través del origen (R
2 simple)
Para el modelo con intercepto R2 según (7.1) equivale a:
2
2
21 1
i
i
eSCRR
SCT y
(11.6)
Modelo de Regresión Lineal Simple: Estimación 53
donde 2 2 2 2
2ˆ
i i ie y x , o sea SRC≤STC, por lo que R2 es siempre positivo.
Pero en el modelo sin intercepto, se puede demostrar que 2 2 2 2
2ˆ
i i ie Y X ,
pero no existe garantía de que SRC≤STC, lo cual implica que el R2
como lo
conocemos pueda ser negativo.
En el caso del modelo de regresión a través del origen se puede calcular el llamado
R2 simple (aunque no es directamente comparable con R
2 convencional):
2
2
2 2
i i
i i
X YR
X Y
(11.7)
Debido a las características especiales del modelo sin intercepto es preciso ser
cauteloso al utilizarlo. Al menos que haya gran certeza de su conveniencia, es
mejor utilizar el modelo usual con intercepción, debido a:
Si el intercepto se incluye y resulta estadísticamente no significativo, en la
práctica, es como si tuviéramos una regresión por el origen4.
Si el modelo tiene un intercepto, pero no lo incluimos, incurrimos en el
sesgo de especificación, uno de los supuestos clásicos.
11.3 Estimación “con” versus “sin” intercepto
Supongamos que el proceso generador de Y está dado por la ecuación XX.
1 2i i iY X u
Llamemos 2 al estimador MICO de 2 de una regresión sin intercepto. ¿Qué
sucede si utilizamos 2 estimado de una regresión sin intercepto? En el gráfico
tenemos una muestra de 10 observaciones donde el verdadero modelo incluye
intercepto, y las rectas de regresión estimadas con 2 modelos: uno con intercepto y
otro sin intercepto. ¿A qué se debe la diferencia entre 2 y 2 ?
4 Sin embargo, es preciso señalar que si el intercepto efectivamente está ausente (de la FRP), entonces es más
preciso el estimador de la pendiente.
Modelo de Regresión Lineal Simple: Estimación 54
Dado que 2 procede de una regresión cuyo intercepto es cero, tiene una mayor
pendiente, ya que está forzado a partir del origen. Se puede demostrar que 2 es
sesgado.
Tarea: demuestre que 2 es sesgado.
12. Diferentes formas funcionales de los modelos de regresión
Hemos supuesto que el modelo de regresión es lineal en los parámetros, mas sin
embargo puede ser o no lineal en las variables. A continuación se consideran
algunos modelos no lineales en las variables. Dado que estos modelos continúan
siendo lineales en los parámetros, pueden ser estimados utilizando MICO.
12.1 Modelo doble logarítmico, log-log o log-lineal
Supongamos el siguiente modelo exponencial, 2
1exp iu
i iY X , si aplicamos las
propiedades de los logaritmos tenemos
1 2
ln ln lni i i
Y X u
(12.1)
Si derivamos (logarítmicamente) respecto de la variable X,
Modelo de Regresión Lineal Simple: Estimación 55
2
2
2
ln
ln
%
%
d Y
d X
YY XY
X X YX
Y
X
Donde 2 es una elasticidad constante e indica el cambio % en la variable Y
provocado ante un cambio % de la variable X.
12.2 Modelo log-lin
Consideremos ahora que 0 1 exp tt u
tY Y r . Aplicando logaritmo tenemos
0ln ln ln 1t tY Y t r u (12.2)
que podemos expresar también como
1 2ln t tY t u (12.3)
donde 1 0lnY y 2 ln 1 r .
Supongamos que en (12.3) la variable explicativa no es el tiempo, sino X.
Entonces tenemos
1 2ln i i iY X u (12.4)
Diferenciamos respecto a X,
2
2
2
ln
%
d Y
dX
dYY
dX
Y
X
Modelo de Regresión Lineal Simple: Estimación 56
En este caso 2
es una semielasticidad, e indica el cambio % en Y ante un cambio
en unidades (absoluto) de la variable X.
12.3 Modelo lin-log
Supongamos el siguiente modelo, donde ahora la variable en logaritmo está en el
lado derecho
1 2ln lni i iY X u (12.5)
Diferenciamos respecto a la variable del coeficiente de pendiente (X) y tenemos,
2
2
2
ln
%
dY
d X
dY
dXX
Y
X
En este modelo 2
busca explicar cambios absolutos en Y ante cambios % de X.
13. Ejercicios
1. La función de producción de una industria que tiene retornos constantes a escala
se puede representar como 1LAKY .
a) ¿Puede estimarse el parámetro α mediante mínimos cuadrados ordinarios? Si la
respuesta es afirmativa, explique cómo.
b) Se tiene la siguiente matriz de varianzas y covarianzas, para una muestra de 27
empresas. LN(Y)-LN(L) LN(K)-LN(L)
LN(Y)-LN(L) 0.0611 0.0809
LN(K)-LN(L) 0.0809 0.2229
Modelo de Regresión Lineal Simple: Estimación 57
Además se sabe que la sumatoria ln 45.3594Q
L y ln 45.4213K
L .
Encuentre los estimadores de los parámetros, para la función de producción del
sector. (Pista: recuerde las fórmulas de la varianza y covarianza muestral).
c) Si la suma de residuos al cuadrado es igual a 0.8557, encuentre el estimador de
la varianza, las varianzas estimadas de los coeficientes y el coeficiente de
determinación
2. Considere los siguientes datos obtenidos de una muestra aleatoria, y calcule los
estimadores de la pendiente para un modelo con intercepto y otro sin intercepto.
Comente las diferencias entre ambos estimadores.
Obs. X Y X2 Y
2 XY
1 4.5 6.1 20.3 37.6 27.6
2 2.0 4.0 4.0 15.7 7.9
3 1.0 2.8 1.0 7.8 2.8
4 0.0 2.8 0.0 8.1 0.0
5 3.5 5.0 12.3 24.9 17.5
6 3.0 4.7 9.0 21.7 14.0
7 1.5 3.6 2.3 12.7 5.3
8 2.5 4.3 6.3 18.6 10.8
9 4.0 5.7 16.0 32.6 22.8
10 5.5 6.8 30.3 46.4 37.5
27.5 45.8 101.3 226.1 146.2
Capítulo 3
Modelo de Regresión Lineal
Múltiple: Estimación
El modelo de regresión simple no siempre es útil, pues comúnmente la variable
explicada es afectada por más de una variable. En este capítulo se presenta el
modelo de regresión lineal múltiple, (MRLM) tanto en su versión de álgebra lineal
como matricial, la derivación de los estimadores, sus propiedades y los supuestos
del modelo clásico de regresión.
1. Notación
El MRLM se representa de la forma siguiente:
1 2 2 3 3 ....i i i k ki iY X X X u (1)
1 es el intercepto
k es el coeficiente parcial
k es el número de regresores y también el número de variables
k-1 es el número de variables explicativas
i es la iésima observación de una población n
1.1 Interpretación de los coeficientes
Si tomamos la esperanza condicional de (2) obtenemos:
1 1 2 2 3 3/ ... ....i k i i k kiE Y X X X X X (2)1
1 Esta ecuación equivale a la Función de Regresión Poblacional del modelo de regresión múltiple.
Modelo de Regresión Lineal Múltiple: Estimación 59
Entonces 2
mide el cambio en el valor esperado de Y, por unidad de cambio en
X2, permaneciendo el resto de Xk constantes (ceteris paribus). O sea, mide el
efecto “directo” o “neto” en E(Y) sobre un cambio en X2. El concepto de Xk
constantes significa que no se hacen cambios sobre el resto de variables Xk2; no
significa que todas las iésimas observaciones de las variables Xk son iguales a cero,
sino que se dejó la muestra constante con el mismo valor.
1 es el intercepto, que al igual que el modelo simple, indica el valor esperado
(promedio) sobre Yi, de las variables excluidas del modelo.
1.2 Enfoque matricial
Generalizando la ecuación (1) para cada una de las n observaciones, tenemos un
sistema de n ecuaciones simultáneas:
1 1 2 21 3 31 1 1
2 1 2 22 3 32 2 2
1 2 2 3 3
....
....
....
k k
k k
n n n k kn n
Y X X X u
Y X X X u
Y X X X u
Estas ecuaciones se pueden representar de forma matricial:
1 21 31 1 1 1
2 22 32 2 2 2
2 3
1
1
1
11 1
k
k
n n n kn k n
Y X X X u
Y X X X u
Y X X X u
nn kn k
uY βX
Y es el vector columna de la variable dependiente con dimensiones nx1.
X es la matriz de orden nxk que contiene k-1 variables explicativas y la primera
columna de 1 que representan el intercepto. También se llama matriz de
información.
β vector columna de kx1 con los parámetros del modelo.
u vector columna de nx1 con los términos de perturbación.
2 El concepto es el mismo que el de una derivada parcial.
Modelo de Regresión Lineal Múltiple: Estimación 60
El modelo de regresión se denota matricialmente de la manera siguiente:
Y Xβ u (3)
2. Estimadores MICO
2.1 Derivación
Primero vamos a derivar los estimadores utilizando el álgebra lineal, al igual que
en el modelo simple y luego veremos la derivación matricial.
1 2 2 3 3ˆ ˆ ˆ ˆˆ ....i i i k kiY X X X (4)
Al igual que para el modelo de regresión simple, dada la FRM del modelo de
regresión múltiple (4), para obtener los estimadores MICO, debemos de minimizar
la sumatoria de los errores al cuadrado.
2
1
2
2
2
2 2
1 2 2 3 3
ˆ 1 2 2 3 3
ˆ 1 2 2 3 3 2
ˆ 1 2 2 3 3
ˆ ˆ ˆ ˆmin ( .... )
ˆ ˆ ˆ ˆ2 ( .... )( 1) 0
ˆ ˆ ˆ ˆ2 ( .... )( ) 0
ˆ ˆ ˆ ˆ2 ( .... )
i
i
i
k
i i i i k ki
i i
e
i i i k ki
i
e
i i i k ki i
i
e
i i i k ki
e Y X X X
Y X X X
Y X X X X
Y X X X
( ) 0ki
i
X
(5)
De la primera Ecuación Normal podemos obtener:
1 2 2 3 3
1 2 2 3 3
1 2 2 3 3
ˆ ˆ ˆ ˆ( .... ) 0
ˆ ˆ ˆ ˆ.... 0
ˆ ˆ ˆ ˆ.... 0
i i i k ki
i
i i i k ki
i i i i i
i i i k ki
Y X X X
Y X X X
Y X X X
1 2 2 3 3ˆ ˆ ˆ ˆ....i i i k kiY X X X (6)
Modelo de Regresión Lineal Múltiple: Estimación 61
Si tomamos la presentación del modelo en desvíos y resolvemos el problema de
minimización de los errores al cuadrado, tenemos unas CPO similares a las
anteriores.
kikiii xxxy ˆ....ˆˆˆ3322
2
2
2
2 2
2 2 3 3
ˆ 2 2 3 3 2
ˆ 2 2 3 3
ˆ ˆ ˆmin ( .... )
ˆ ˆ ˆ2 ( .... )( ) 0
ˆ ˆ ˆ2 ( .... )( ) 0
i
i
k
i i i i k ki
i i
e
i i i k ki i
i
e
i i i k ki ki
i
e y x x x
y x x x x
y x x x x
Luego, al igual que para el modelo simple se despejan los betas estimados. Por
simplicidad, supongamos que el modelo tiene solamente 2 variables explicativas
(k=3), o sea 1 2 2 3 3i i i iY X X u . Tomemos las Ecuaciones Normales de 2
y 3 , y haciendo algunas manipulaciones algebraicas:
Ecuación Normal de 2
2
2
2
2 2 3 3 2
2
2 2 3 3 2
2
2 2 3 3 2
2
2 2 3 3 2
ˆ ˆ( )( ) 0
ˆ ˆ( ) 0
ˆ ˆ 0
ˆ ˆ
i
i
i
i i i i
i
i i i i
i
i i i i
i i i i
y x x x
y x x x x
y x x x x
y x x x x
Ecuación Normal de 3
Modelo de Regresión Lineal Múltiple: Estimación 62
3
3
3
2 2 3 3 3
2
3 2 3 3
2
3 2 3 3
2
3 2 3 3
ˆ ˆ( )( ) 0
ˆ ˆ( ) 0
ˆ ˆ 0
ˆ ˆ
i
i
i
i i i i
i
i i i
i
i i i
i i i
y x x x
y x x x
y x x x
y x x x
Si despejamos 3 de la última expresión de ambas ecuaciones normales y las
igualamos, podemos despejar y obtener 2 y 3 .
3
2 3
2
2 3 2 3
2 22 2
2 3
ˆ i
i i
i i i i i i
i i
y x x y x x x
x x x x
(7)
2
3 2
2
3 2 3 2
3 22 2
3 2
ˆ i
i i
i i i i i i
i i
y x x y x x x
x x x x
(8)
Derivación matricial del modelo general
A partir de las Ecuaciones Normales (5):
2
1
2
22
2
2 2
1 2 2 3 3
ˆ 1 2 2 3 3
2
ˆ 2 1 2 2 3 3 2 2
ˆ 1 2 2 3 3
ˆ ˆ ˆ ˆmin ( .... )
ˆ ˆ ˆ ˆ.... 0
ˆ ˆ ˆ ˆ.... 0
ˆ ˆ ˆ
i
i
i
i
k
i i i i k ki
i i
e
i i i k ki
e
i i i i i k ki i
e
i ki ki i ki i
e Y X X X
Y n X X X
Y X X X X X X X
Y X X X X X
2ˆ.... 0kiki kX X
despejando los términos con Y
Modelo de Regresión Lineal Múltiple: Estimación 63
2
1 2 2 3 3
2
2 1 2 2 3 3 2 2
2
1 2 2 3 3
ˆ ˆ ˆ ˆ....
ˆ ˆ ˆ ˆ....
ˆ ˆ ˆ ˆ....
i
ki
i i i k ki
i i i i i k ki i
i ki ki i ki i ki k
Y n X X X
Y X X X X X X X
Y X X X X X X X
(9)
Matricialmente (9) equivale a:
11 2
2
21 22 23 2 2 2 2 2 2
2
1 2 3 2
ˆ1 1 1 1
ˆ
ˆ
i ki
n i i i ki
k k k kn n ki ki i kik
Y n X X
X X X X Y X X X X
X X X X Y X X X X
(10)
Dadas las definiciones de matrices siguientes:
1
2
1
1
n
n n
Y
Y
Y
Y
1
21
1
ˆ
ˆˆ
ˆ
n
k kx
β
21 31 1
22 33 2
2 3
1
1
1
k
k
nxk
n n kn nxk
X X X
X X X
X X X
X 21 22 23 2
1 2 3
1 1 1 1
'n
kxn
k k k kn k n
X X X X
X X X X
X
2
2
2 2 2
2
2
i ki
i i i ki
kxk
ki ki i ki kxk
n X X
X X X X
X X X X
X'X
Podemos expresar (10) como:
βXX'YX' ˆ
Modelo de Regresión Lineal Múltiple: Estimación 64
Si 1XX' existe, puedo premultiplicar por 1
XX' y obtenemos:
βYX'XX'
βXX'XX'YX'XX'
I
ˆ
ˆ
1
11
1ˆ
β X'X X'Y (11)
Importante: Una condición necesaria para poder estimar los parámetros es que la
matriz X'X sea invertible (no singular), o sea que sea una matriz cuadrada con
determinante diferente de cero.
Otra forma de encontrar β
De (3) sabemos que uXβY y de la misma forma eβXY ˆ , donde β es el
vector kx1 de los estimadores MICO y e es el vector kx1 de los residuos.
La notación matricial de 2
ie , equivale a ee' , por lo tanto el problema de
minimización de los errores al cuadrado se convierte en:
ˆ ˆmin ( )'( ) e'e Y Xβ Y Xβ (12)
Antes de continuar, recordemos algunas propiedades de operaciones con matrices:
11
' ' '
' ' '
' '
' '
si ', entonces es simétrica
A B A B
AB B A
A A
A A
A A A
Modelo de Regresión Lineal Múltiple: Estimación 65
Luego, aplicamos las operaciones con matrices a (12)3:
ˆ ˆmin ( ) '( )
ˆ ˆ( ' ' ')( )
ˆ ˆ ˆ ˆ' ' ' ' ' '
ˆ ˆ ˆ' 2 ' ' ' '
e'e Y Xβ Y Xβ
Y β X Y Xβ
Y Y Y Xβ β X Y β X Xβ
Y Y β X Y β X Xβ
Ahora derivamos matricialmente para encontrar el vector β :
ˆ ˆ ˆ' ' 2 ' ' '0
ˆ ˆ ˆ ˆ
ˆ
ˆ
ˆ
ˆ
-1
e e Y Y β X Y β X'Xβ
β β β β
0 - 2X'Y + 2X'Xβ = 0
2X'Xβ 2X'Y
X'Xβ X'Y
β = X'X X'Y
(13)4
1ˆ
β X'X X'Y (14)
3. Propiedades de la regresión por MICO
Así como para el modelo simple, para el modelo de regresión múltiple se puede
demostrar que:
1. La línea de regresión pasa a través de las medias 2 3, , ... kY X X X .
2. El valor medio de Y estimado es igual al valor medio de Y observado ˆY Y
3. La sumatoria de los residuos es igual a cero 0ie .
4. Los residuos no están correlacionados con las Xk. 0i ie X ó X'e = 0 .5
3 Los términos ˆY'Xβ y β'X'Y equivalen a un escalar por ser de orden 1x1, donde uno es el transpuesto del otro, por
lo que puedo sustituirlo por ˆ2β'X'Y
4 El término ˆ ˆβ'X'Xβ equivale a una forma cuadrática, donde
ˆ ˆˆ2
ˆ
β'X'XβX'Xβ
β.
Modelo de Regresión Lineal Múltiple: Estimación 66
5. Los residuos no están correlacionados con Y .
6. La regresión se puede expresar en desvíos.
4. Descomposición de la suma de cuadrados
Recordando del modelo simple:
2 2 2 2 2 2
2ˆ ˆ
i i i i i
SCT SCE SCR
y x e y e
2 2 2 2
2
( )i i iSTC y Y Y Y nY
nY
Y'Y
(15)
Si definimos Yy' = (Y - )', entonces la STC también es igual a 2nYy'y = Y'Y
2 2 2 2
2 2
ˆˆ ˆˆ ( )
ˆ ˆˆ ˆ
i i iSEC y Y Y Y nY
nY nY
Y'Y β'X'Xβ
(16)
2
iSRC e e'e (17)
Entonces, el coeficiente de determinación R2 equivale a:
2
2
2
SCE nYR
SCT nY
β'X'Xβ
Y'Y (18)
De manera alternativa:
2
21 1 1
SCE SCT SCE SCRR
SCT SCT SCT nY
e'e e'e
Y'Y y'y (19)
Pero en el modelo de regresión múltiple hay un problema. A medida que se
agregan variables aunque no sean significativas (algo explican), disminuye
ee'2
ieSRC y R2 aumenta.
5 En otras palabras, el vector de errores es ortogonal a la matriz X.
Modelo de Regresión Lineal Múltiple: Estimación 67
Una forma de resolver el problema es ajustando el R2 por el número de grados de
libertad de la manera siguiente:
2
2
11 1 1 1
1 11
SCRnn k n k n kR
SCT nY n k
n nn
e'e e'e
e'e
y'yY'Y y'y (20)
Esta expresión la llamamos R2 ajustado.
Sustituimos (19) en (20) tenemos la relación entre ambos coeficientes.
2 2 11 1
nR R
n k
(21)
Propiedades del 2R
2 2R R . Son iguales cuando la correlación es perfecta
Si aumenta el tamaño muestral, dado k, el 2R tiende a 2R
Dado n, al aumentar el número de variables explicativas, ( 2R - 2R ) aumenta
2R puede ser negativo
5. Supuestos clásicos del modelo de regresión múltiple
Al igual que en el modelo simple, requerimos una serie de supuestos para
determinar las propiedades estadística de los estimadores MICO.
Estos supuestos clásicos para el modelo de regresión múltiple son equivalentes a
los del modelo simple y se pueden expresar en notación escalar o matricial.
Supuesto Notación escalar Notación matricial
El modelo es
lineal en los
parámetros y está
bien especificado
1 2 2 ....i i k ki iY X X u Y Xβ u
Las X son fijas en
muestreo repetido
X2,X3,…Xk son fijas o no
estocásticas
La matriz knX es no
estocástica o de números
fijos
Modelo de Regresión Lineal Múltiple: Estimación 68
El valor esperado
de la perturbación
ui es igual a cero
E(ui)=0 1( ) nE u 0
Homocedasticidad
y no
autocorrelación 2
0cov( , ) ( , )i j i j
i ju u E u u
i j
2( ')E uu I
No
multicolinealidad,
o sea no hay
relación lineal
exacta entre la
variables X
0...3322 kikii XXX y
1 2 ... 0k
El rango de X es igual a
k, ( ) k X , donde kn,
siendo k es el número de
columnas linealmente
independientes en X
5.1 El modelo de regresión es lineal en los parámetros y se encuentra bien especificado.
Las implicancias de este supuesto son las mismas que en el modelo simple: el
modelo es lineal en los parámetros, no hay variables omitidas, no hay variables
intrusas y tiene la forma funcional correcta.
5.2 Los valores de X son fijos en muestreo repetido
La matriz n kX es no estocástica. Nuestro análisis es condicional a X, que se
supone fija y la única fuente de variación de Y viene dada por el término
estocástico.
5.3 El valor esperado de ui es igual a cero
11
22
0
0
0nn
E uu
E uuE
E uu
(22)
Entonces ( ) ( ) ( )E E E Y/X Xβ +u Xβ u Xβ . Es decir se cometen errores
pero en promedio estaremos sobre los valores esperados.
Modelo de Regresión Lineal Múltiple: Estimación 69
5.4 Homocedasticidad y no autocorrelación
2
1 1 2 11
2
2 2 1 2 2
1 2 1
21 1 2
2
2
2 2
2
( )
( )'
( )
1 0 00 0
0 1 00 0
0 0 10 0
n
n
n n
n n n n nn n
E u E u u E u uu
u E u u E u E u uE E u u u
u E u u E u u E u
uu
I
(23)
5.5 No multicolinealidad
Este es un requisito que permite invertir X'X y que es necesario para obtener los
estimadores MICO.
El rango6 de una matriz es el máximo número de columnas (o filas) linealmente
independientes. Para que una columna (fila) sea linealmente independiente (LI),
éste no debe ser resultado de ninguna combinación lineal de las demás.
En nuestro caso, el rango de X es ( ) k X , donde kn, siendo k es el número de
columnas linealmente independientes en X .
Si 0...3322 kikii XXX y k es cero, existe colinealidad entre las Xk.
De forma matricial se expresa λ'X = 0, donde λ' es un vector fila de 1xk y X un
vector columna de kx1.
Para el caso del modelo con dos variables explicativas X2 y X3, se puede plantear
matemáticamente este supuesto como:
6 Propiedades del rango de una matriz:
El número máximo de filas LI es igual al número máximo de columnas LI.
Rango min ,m n m n A
Rango A = Rango 'A
Si rango m nA m=n, entonces A es no singular y su inversa existe y es única.
Rango X'X = Rango 'XX = Rango X .
Modelo de Regresión Lineal Múltiple: Estimación 70
2 2 3 3 0i iX X , si 1 ó 2 es cero, existe colinealidad entre X2 y X3.
A medida que mayor es el área entre la variable dependiente y las explicativas
(área 1 y 2) mayor es la información común y menor la varianza de los
coeficientes.
Sin embargo, cuanto mayor sea el área común entre las variables explicativas (área
4), mayor será la colinealidad de las variables y mayor será la varianza de los
estimadores.
A medida que se agregan variables explicativas los parámetros del modelo son
calculados cada vez con menos información, provocando un incremento en las
varianzas de los estimadores.
6. Propiedades de los estimadores
6.1 Linealidad
El estimador 1ˆ
β X'X X'Y es lineal en Y, ya que cada elemento de β es una
combinación lineal de elementos de Y, ponderadas por los X, los cuales
suponemos fijos.
y x3
1
2
x2
y x3
3
5
x2
4
Modelo de Regresión Lineal Múltiple: Estimación 71
6.2 Insesgamiento
Sabemos de (14) que YX'XX'β1ˆ
y de (3) uXβY . Sustituyendo (3) en
(14) tenemos:
1
1 1
1
ˆ
β X'X X' Xβ u
X'X X'Xβ X'X X'u
β X'X X'u
(24)
Aplicando el operador de esperanza:
1ˆ( )
ˆ( )
E E E
E
β β X'X X'u
β β
(25)
Por lo tanto β es insesgado.
6.3 Eficiencia
La expresión matricial de la varianza y la covarianza la tenemos en la matriz
varianza-covarianza.
Despejando en (24) tenemos que:
1ˆ
β β X'X X'u
Modelo de Regresión Lineal Múltiple: Estimación 72
1 1
1 1
1 1
1 12
1 12
12
ˆ ˆ ˆ ˆ ˆvar cov ( ) ( ) '
ˆ ˆ '
'
'
'
E E E
E
E
E
E
I
β β β β β
β β β β
X'X X'u X'X X'u
X'X X'uu X X'X
X'X X' uu X X'X
X'X X' X X'X
X'X X'X X'X
X'X
12ˆvar cov
β X'X (26)
La cual se puede representar como:
1 1 2 1
2 1 2 2
1 2
ˆ ˆ ˆ ˆ ˆvar cov , cov ,
ˆ ˆ ˆ ˆ ˆcov , var cov ,ˆvar cov
ˆ ˆ ˆ ˆ ˆcov , cov , var
k
k
k k kkxk
β (27)
Por otro lado, se puede demostrar que un estimador insesgado de 2 es:
2
2ˆ ie
n k n k
e'e (28)
Las expresiones de las varianzas de la forma algebraica para un modelo con k=3
corresponden a:
Modelo de Regresión Lineal Múltiple: Estimación 73
2
2 2 2
2 23
ˆvar( )(1 )ix r
y
2
3 2 2
3 23
ˆvar( )(1 )ix r
Donde
2
3
2
2
2
322
23xx
xxr , es un coeficiente de determinación (R
2)
de una regresión
entre las variables explicativas.
2
3
2
223
2
2332
)1()ˆˆcov(
ii xxr
r
Características de la varianza de los estimadores
A medida que 23r aumenta, aumenta la varianza de los parámetros estimados
2 y 3 , reflejando el problema de multicolinealidad.
Las varianzas de 2 y 3 son proporcionales a 2 .
Las varianzas de 2 y 3 son inversamente proporcionales a las variabilidad
de sus respectivas variables.
7. Teorema de Gauss-Markov
Capítulo 4
Modelo de Regresión Lineal Simple:
Inferencia
Hasta ahora nos hemos ocupado solamente de la estimación de los parámetros del
modelo de regresión lineal simple, lo cual hicimos a través del método de MICO.
Bajo los supuestos del modelo clásico, pudimos probar que los estimadores MICO,
satisfacen varias propiedades estadísticas deseables, siendo los de mínima varianza
entre los estimadores lineales e insesgados (son MELI).
Pero los estimadores MICO son variables aleatorias, que cambiarán según la
muestra. Nuestro objetivo no es solamente estimar la FRM, sino poder hacer
inferencia respecto de la FRP.
Para poder hacer inferencia sobre los estimadores, es necesario conocer sus
distribuciones de probabilidad, algo que no hemos estudiado hasta ahora.
La Inferencia Estadística nos sirve para saber:
Que tan cerca están 1 y 2 de los parámetros poblacionales
Que tan cerca está i del verdadero E(Y/Xi)
1. Repaso Breve de algunos teoremas de Inferencia
1.1 Teorema 1. Teorema del Límite Central
Este teorema indica que la distribución de la suma de variables aleatorias tiende a
una distribución Normal cuando la cantidad de variables es muy grande.
Modelo de Regresión Lineal Simple: Inferencia 75
Sean X1,X2,..Xn una muestra de n variables aleatorias independientes e
idénticamente distribuidas (IID) que se toman de una población con media μ y
varianza finita 2 . La media muestral X tiene una distribución con media μ y
varianza finita 2 n que tiende hacia una distribución normal conforme n tiende a
∞. Veamos:
1
1 n
i
i
X Xn
1
1 n
i
i
E X Xn
2
2
2 21 1
1 1 1var( ) var var
n n
i i
i i
X X X nn n n n
Entonces a medida que n aumenta indefinidamente 2
~ ,n
nX N
, es decir X se
acerca a la distribución normal con media y varianza 2
n . Este resultado se
cumple independientemente del la FDP de X.
En otras palabras, si definimos nnZ X , tendrá como límite una
distribución normal estándar:
lim ~ 0,1
ann
nn
n
n XXZ N
1.2 Teorema 2
Si Z1, Z2,…Zn, son variables aleatorias que se distribuyen normal e independientes,
de forma que Zi~ 2,i i , entonces Z = 22, iiiiii kkNZk
O sea, la combinación lineal de variables aleatorias independientes y normalmente
distribuidas, poseen una distribución normal.
Modelo de Regresión Lineal Simple: Inferencia 76
1.3 Teorema 3
Una covarianza nula entre dos variables aleatorias que se distribuyen Normal,
implica independencia estadística. F(x,y) = f(x)·f(y)
1.4 Teorema 4. Formación de la distribución Chi-Cuadrado
Si Z1, Z2,…Zn son variables aleatorias independientes que se distribuyen N(0,1),
entonces 2 2 2 2 2
1 2 ... ~i n nZ Z Z Z .
2 2>P La probabilidad de
que cualquier valor de la Chi-
cuadrado sea mayor a 2 es igual
al área que se acumula arriba y a la
derecha de 2
Exactamente el 95% de una
distribución Chi-cuadrado caen
entre 2975.0
y 2025.0
.
1.5 Teorema 5. Propiedad reproductiva de la Chi-cuadrado
Si iZ son variables aleatorias independientes y iZ ~ 2
ik , entonces, iZ ~ 2
ik .
O sea la suma de variables aleatorias independientes y distribuidas Chi-cuadrado
con k grados de libertad, poseen una distribución Chi-cuadrado, cuyos grados de
libertad es la suma de todos los grados de libertad.
1.6 Teorema 6
Si 2S es la varianza de una muestra aleatoria de tamaño n tomada de una
población normal que tiene la varianza 2 , entonces el estadístico 2
2
( 1)2 n S
tiene una distribución Chi-cuadrado con n-1 grados de libertad.
0 2
Modelo de Regresión Lineal Simple: Inferencia 77
2
2
1
22
1
1
1
ni
i
n
i
i
X XS
n
n S X X
222
1 1
22
1
22
22
22
22
22
22
1
2
2
2
2
2
2
n n
i i
i i
n
i i
i
i i
i i
i i
i
i
i
i
n S X X X X
X X X X
X X X X
X X X n X
X X X n X
n XX X n n X
n
X X n X n X
X n X
n
222
222
2 2 2
1
1
i
i
S X n X
n XXn S
Si 2~N ,iX , el término
2
2
iX
, equivale a la sumatoria al cuadrado de
una variable que se distribuye normal estandarizada N(0,1), lo cual según el
Teorema 4 equivale a una Chi-cuadrado con n grados de libertad. Los términos del
lado derecho tienen n y 1 grados de libertad cada uno, por lo que 2
2)1(
Sn, se
distribuye como Chi-cuadrado con n-1 grados de libertad.
Modelo de Regresión Lineal Simple: Inferencia 78
1.7 Teorema 7. Formación de la distribución t-student
2
1
2 1 12
2
1 2
~ (0,1)
~ ~
, son independientes
k n kZn
Z NZ Z n
Z t tZ
Z Z
1.8 Teorema 8
Si X es la media de una muestra aleatoria de tamaño n que se toma de una
población normal con media y varianza finita y desconocida 2 , pero varianza
estimada 2S , entonces el 1~ nS
n
Xt t
se distribuye t-student con (n-1) grados
de libertad.
1.9 Teorema 9. Formación de la distribución F de Fischer
11
1
2 1 22
2
2
1
2
2 ,
~
~ ~
independiente de 1 2
kZ
k
k k kZk
Z
Z F F
Z Z
-t/2 t/2 0
/2
P(-t/2 < t < t/2) = 1 -
Modelo de Regresión Lineal Simple: Inferencia 79
>P F F la probabilidad de que cualquier valor de la F sea mayor a F es
igual al área que se acumula arriba y a la derecha de F .
1.10 Teorema 10.
El cuadrado de una variable aleatoria con distribución t-student con k grados de
libertad, tiene una distribución F, con 1 grado de libertad en el numerador y k en el
denominador.
2
1,k kt F
2. El supuesto de normalidad 2~ 0,iu N
Para obtener los estimadores de 1 y 2 que sean MELI, no hicimos ningún
supuesto sobre la distribución de probabilidades de u.
Ahora, para tener intervalos de confianza para los parámetros y probar cualquier
hipótesis requerimos el supuesto 0,iu N 2~ i
2.1 ¿Por qué suponemos distribución normal?
Existen varias razones:
0 F
Modelo de Regresión Lineal Simple: Inferencia 80
1. El argumento más común es que como u es la suma de muchos factores
distintos no observados que influyen en Y, por el teorema del límite central1,
llegamos a la conclusión de que u tiene una distribución normal.
2. Una variante del teorema del límite central, establece que aunque el número
de variables no se muy grande o no sea estrictamente independiente, su suma
puede ser aún normal
3. La distribución de probabilidad de los estimadores MICO puede derivarse
fácilmente, como veremos en la próxima sección
4. La distribución normal es una distribución sencilla, con tan sólo dos
parámetros: media y varianza
5. Podemos hacer pruebas de hipótesis (t, F, 2) sobre los verdaderos
parámetros
Existen diversas críticas sobre este supuesto:
1. Los factores que afectan a u pueden tener distribuciones poblacionales muy
distintas. Aunque puede sostenerse el teorema central del límite, los
resultados van a depender de cuantos factores afecten a u y que tan
diferentes sean sus distribuciones.
2. Supone además que todos los factores afectan a u en forma lineal y aditiva
3. La normalidad es un problema empírico (no teórico). Por ejemplo, como el
salario siempre es mayor que cero, estrictamente hablando no tiene una
distribución normal; además hay leyes de salario mínimo que hacen que una
parte de la población gane exactamente el mínimo. Una solución es
transformar la variable, por ejemplo utilizando logaritmos [log(salario)], lo
cual puede generar una distribución que se acerque más a la normal
2.2 ¿Qué consecuencias tiene suponer que 2~ 0,iu N ?
1. iu normal y no correlacionados, es decir, los ui son independientes.
2. 1 2i i iY X u , por lo que Yi es una combinación lineal de variables
aleatorias que se distribuyen normal, o sea, Yi se distribuirá normal.
1 2 1 2
21 2var var var
i i i i
i i i i
Y X u X
Y X u u
1 El teorema central del límite demuestra que si existe un gran número de variables aleatorias independientes e
idénticamente distribuidas, entonces, la distribución de su suma tiende a ser normal a medida que el número de
variables se incrementa indefinidamente.
Modelo de Regresión Lineal Simple: Inferencia 81
Por lo que 21 2 ,i iY N X
3. Recordemos que 2 2ˆ
i ik u , entonces 2 también es combinación
lineal de variables aleatorias normales, o sea que 2 es una variable
aleatoria que se distribuye normal.
2
2
2 2
22
ˆ2 2
2
ˆ2 2
ˆ
ˆvar
ˆ ~ ,
u
ix
N
4. Estandarizando,
2
1
2 22
ˆ
1 11
ˆ
ˆ~ 0,1
ˆ~ 0,1
Z N
Z N
5. Recordando el Teorema 6, podríamos probar que:
2
2
22
ˆ2~
n
n
(1)
6. Sabemos que:
2
2 2
ˆ
ˆ~ 0,1N
; donde
2
2
ˆ 2 2
u u
i ix x
Modelo de Regresión Lineal Simple: Inferencia 82
Entonces,
2
2 22 2
2
ˆˆ~ 0,1
i
u
i
xN
x
(2)
Podríamos probar que (1) y (2) son independientes. Aplicando el Teorema 7:
22 2
22
2
ˆ
~ˆ2
2
i
un
u
u
x
t tn
n
(3)
Reorganizando (3) y simplificando:
2
2
2 2 2
2 2 2 2 2 2
2 2
22
22 2 2 2 2 2
ˆ
ˆ2
ˆ ˆ ˆ
ˆˆ ˆ2 1
2
ˆ ˆ ˆ
ˆ ˆˆ
ˆ
i i i
u u u
uu u
uuu
i
uu
i
x x x
tn
n
x
x
Es decir:
2
2 2
2
ˆ
ˆ
ˆnt
, y por similar procedimiento
1
1 1
2
ˆ
ˆ
ˆnt
Modelo de Regresión Lineal Simple: Inferencia 83
Esto nos permitirá obtener intervalos de confianza y realizar prueba de hipótesis
sobre 1 y 2 .
3. Intervalos de confianza para 1
y 2
Estamos buscando 2 2 2ˆ ˆ 1P , es decir que la
probabilidad de que 2
esté entre dos valores sea 1 . Vamos a buscar un
intervalo alrededor del cual estará contenido el verdadero parámetro. Donde
llamaremos 1 al nivel de confianza y al nivel de significancia.
Antes de encontrar el intervalo de confianza para 1
y 2
, es preciso recordar que:
1. El intervalo no dice la probabilidad de que 2 esté en el intervalo con una
probabilidad de 1 ; sino que la probabilidad de construir un intervalo
que contenga 2
es de 1 .
2. El intervalo es aleatorio; va a depender de la muestra
3. Si se construyen intervalos de confianza, en promedio 1 van a
contener el verdadero valor
4. Una vez obtenido un 2
, no puedo decir que el intervalo contiene al
verdadero parámetro con probabilidad 1 , sino que la probabilidad es 1
ó 0. El intervalo es aleatorio (depende de la muestra), pero después que se
utilizó una muestra, el intervalo queda fijo y por tanto la probabilidad de que
el verdadero valor esté en el intervalo es cero o uno (“está o no está”).
Dado que
2
2 2
2
ˆ
ˆ
ˆnt
, entonces exactamente el 1 de esta
distribución t con n-2 grados de libertad, estará entre los valores –tα/2
y tα/2
.
Modelo de Regresión Lineal Simple: Inferencia 84
2 2
2 2
2
2 2 2
2 2
2 2
ˆ
1
ˆ
1ˆ
n n n
n n
P t t t
P t t
2 2
2 2
2 2
2 2
ˆ ˆ2 2 2 2
ˆ ˆ2 2 2 2 2
ˆˆ ˆ 1
ˆ ˆˆ ˆ 1
n n
n n
P t t
P t t
Por lo que finalmente:
2 2
2 2
2 2
2 2
ˆ ˆ2 2 2 2 2
ˆ ˆ2 2 2 2 2
ˆ ˆˆ ˆ 1
ˆ ˆˆ ˆ 1
n n
n n
P t t
P t t
Esto implica que el intervalo de confianza para 2 es:
2
2ˆ2 2 2
ˆ ˆnIC t
De forma similar:
2
1ˆ1 1 2
ˆ ˆnIC t
Interpretación: Dado un nivel de confianza de 1 , el 1 de las veces, el
intervalo contendrá el verdadero parámetro.
4. Prueba de Hipótesis
Nos interesa verificar si las observaciones muestrales son compatibles con
determinada hipótesis. Por ejemplo:
Modelo de Regresión Lineal Simple: Inferencia 85
0 2
1 2
:
:
H b
H b
Para eso desarrollamos un procedimiento que nos permita decidir si se rechaza o
no esa hipótesis en base a la información muestral.
Hay dos enfoques de la prueba de hipótesis:
4.1 Enfoque del intervalo de confianza
Supongamos que construimos un intervalo de confianza para 2 . Luego es posible
discutir si el valor b que me estoy planteando como hipótesis nula cae o no dentro
del intervalo.
Es decir, buscamos un intervalo 2
ˆ2 22
ˆ ˆIC t y luego:
0
0
.
Re .
Si b IC No rechazar H
Si b IC chazar H
El tamaño del intervalo de confianza va a depender del nivel de confianza y de
la varianza del estimador. ¿Cómo podemos reducir el intervalo de confianza?
Reduciendo el nivel de confianza (aumentando )
Aumentando la muestra, para disminuir la varianza del estimador
4.2 Enfoque de pruebas de significancia
Rechazo H0
No rechazo H0
Rechazo H0
2
ˆ2 22
ˆ ˆt
2ˆ2 2
2
ˆ ˆt
Modelo de Regresión Lineal Simple: Inferencia 86
El procedimiento se basa en utilizar un estimador y su distribución, considerando
que ésta se cumple bajo la hipótesis nula.
Sabemos que
2
2 2
2
ˆ
ˆ
ˆnt
, entonces bajo la hipótesis nula
2
22
ˆ
ˆ
ˆn
bt
2
2 2
2
2 2ˆ
ˆ ˆ22 2
ˆ1
ˆ
ˆˆ ˆ 1
bP t t
P t b t
2 2
ˆ ˆ22 2
ˆˆ ˆ 1P b t b t
Por lo que finalmente:
2 2
ˆ ˆ22 2
ˆˆ ˆ 1P b t b t
Esto determina la región de aceptación y rechazo de la hipótesis:
Región de aceptación 2
ˆ2
ˆb t
Modelo de Regresión Lineal Simple: Inferencia 87
Entonces rechazamos 0H si:
0Rec
c
c
t tchazo H si t t
t t
Como
2
2
ˆ
ˆ
ˆ
bt
, rechazo Ho si
2
2
ˆ
ˆ
ˆ
b
c>t
Test de 1 Cola
H0: 2 = b2
H1: 2 > b2
Rechazo H0 si t > tc
Bajo Ho: 2
22
ˆ
ˆ
ˆn
bt
“Acepto” H0 (no rechazo H0)
Rechazo H0, 2 2
ˆ2ˆ ˆb t < Rechazo H0,
22ˆ2
ˆ ˆb t >
0
f(t)
Modelo de Regresión Lineal Simple: Inferencia 88
Test de 2 colas
H0: 2 = b2
H1: 2 b2
Rechazo H0 si t > tc
Aceptar o Rechazar la Ho
Al momento de realizar un dictamen sobre la hipótesis nula, este debe de emitirse
como “Rechaza H0”, o “No rechaza H0”.
No se puede “aceptar” una hipótesis nula, puesto que no conocemos el verdadero
valor, sino que hacemos una inferencia de este.
Además, las hipótesis nulas “aceptadas”, pueden ser muchas dependiendo de
cuales hipótesis esté planteando.
tc
tc - tc
/2 /2
Modelo de Regresión Lineal Simple: Inferencia 89
Error tipo I y tipo II
H0 es cierto H0 es falso
Rechazo H0 Error tipo I
No rechazo H0 Error tipo II
Si 2 cae en alguna de las colas de la distribución (Rechazo H0), puede ser por dos
razones.
a) La hipótesis nula es cierta, pero se ha elegido una muestra equivocada
b) La hipótesis nula es efectivamente falsa
La probabilidad de cometer un error de tipo I está dada por α, el nivel de
significancia.
La probabilidad de cometer un error tipo II esta dada por , en tanto que la
probabilidad de no cometer este error (1-) se denomina potencia de la prueba.
Lo deseable sería minimizar simultáneamente tanto los errores tipo I como tipo II,
pero como se puede apreciar en los gráficos esto no es posible. En la práctica por
lo general el error tipo I es más grave, por lo que se trata de minimizar primero este
error y luego el error tipo II.
2 bajo H1
2 bajo H0
= P (Error Tipo I) = P (Rechazar H0/ H0 es cierto)
Modelo de Regresión Lineal Simple: Inferencia 90
Valor-p (P-value)
En ocasiones, en lugar de seleccionar un α arbitrario (como 1%, 5% o 10%), se
puede obtener el valor p o nivel exacto de significancia, el cual se define como el
nivel más bajo de significancia al cual puede rechazarse la hipótesis nula, o la
probabilidad exacta de cometer un error tipo I.
Regla práctica de “2-t”
Si el número de grados de libertad es 20 y el nivel de significancia α, se fija en
0.05, entonces la hipótesis nula 2=0 se puede rechazar si el valor t calculado
excede en valor absoluto a 2.
= P (Error Tipo II) = P (No rechazar H0/ H0 es falso)
tc
tc
2 bajo H0
2 bajo H0
2 bajo H1
2 bajo H1
α
Modelo de Regresión Lineal Simple: Inferencia 91
5. Análisis de Varianza (ANOVA)
El test de ANOVA es un test de significancia global del modelo en su conjunto.
Intenta medir el ajuste de la recta de regresión con el conjunto de datos
provenientes de la muestra.
Este test, para el caso del modelo de regresión lineal simple2, tiene como hipótesis
nula:
H0: 2 = 0
H1: 2 0
Sabemos que 2
2 2
ˆ
ˆ~ 0,1N
(4)
Si elevamos (4) al cuadrado tenemos que (5) se distribuye chi-cuadrado con un
grado de libertad.
2
2
2 2 212
ˆ
ˆ
~
(5)
Sustituyendo la varianza estimada de 2 :
2 22
2 2 2 2 212 2
2
ˆ ˆ
~i
u u
i
x
x
(6)
También sabemos del Teorema 6 que
22
22
ˆ2~
n
n
, por lo que:
2 Para el modelo de regresión simple, tanto la hipótesis como el estadístico son los mismos que en el test de
significancia, debido a que sólo existe una variable explicativa. En el caso del modelo de regresión múltiple, que
veremos posteriormente, la hipótesis nula es que todos los coeficientes de las variables explicativas, son iguales a
cero.
Modelo de Regresión Lineal Simple: Inferencia 92
2
222 2
22 2 2
2ˆ2~
ie
n i
n
n en
(7)
Se puede demostrar que (6) y (7) son independientes, por lo que:
2
22 2
2
1, 22
2
ˆ
1
2
i
u
n
i
u
x
F Fe
n
~ (8)
Simplificando obtenemos:
22
2 2
1, 22
ˆ
2
i
n
i
xF F
e
n
~ (9)
Si sustituimos la hipótesis nula en (9):
2 22
1, 22
ˆ
2
i
n
i
xF F
e
n
~ (10)
Recordando, cuando descompusimos la suma de cuadrados teníamos:
2 2 2 2
2ˆ
i i iy x e
SCT SCE SCR
Asociado a cada suma de cuadrados existen sus respectivos grados de libertad:
SCT: tiene n-1 grados de libertad, pues se pierde un grado de libertad al
calcular la media de Y.
Modelo de Regresión Lineal Simple: Inferencia 93
SCE: un sólo grado de libertad de calcular 2
SCR: tiene n-2 grados de libertad, pues se pierden dos grados de libertad en
las ecuaciones normales.
Tabla ANOVA
Suma de
cuadrados
Grados de
libertad
Suma promedio
de cuadrados
Regresión SCE 1 SCE/1
Residuo SCR n-2 SCR/n-2
Total SCT n-1
El numerador de (10) es la SCE y el denominador es la SCR divida por sus grados
de libertad.
1, 2
2
n
SCEF F
SCRn
~ (11)
Entonces, rechazo H0 si el valor calculado del estadístico F, es mayor que 1, 2nF .
La intuición de este test, indica que el modelo es significativo en su conjunto, si el
“efecto explicado por el modelo” es suficientemente grande respecto del “residuo”.
En el caso del ejemplo anterior, si 1, 2nF F> rechazo que H0, o sea que rechazo
2=0 si el “aporte de X” respecto del residuo es considerable.
Otra forma alternativa de expresar (11):
1, 2
22 2 2
2
1 11
2
n
SCESCE SCE STCF
SCR SCT SCE SCT SCE SCT SCEn
n n STC nSTC
nF
SCE
STC n
2
22
2
R= = =
RR= = ~
R
Modelo de Regresión Lineal Simple: Inferencia 94
6. Prueba de Normalidad
Las pruebas de hipótesis e intervalos de confianza estudiados, tienen como punto
de partida el supuesto de normalidad del residuo, por lo que si u no es normal,
estas pruebas no son válidas.
Existen diferentes test que permiten verificar si los residuos calculados para una
muestra en particular (ei) provienen de una distribución normal. Uno de ellos es el
test de Jarque-Bera.
6.1 Test de Jarque Bera
Esta es una prueba asintótica que se basa en el tercer y cuarto momento de la
distribución (asimetría y curtosis respectivamente).
Recordando:
Coeficiente de simetría:
3
3
E X XS
tercer momento alrededor de la media
desviación estandar elevada al cubo
Coeficiente de curtosis:
4
4
E X XC
cuarto momento alrededor de la media
segundo momento elevado al cuadrado
En el caso de una distribución normal, el coeficiente de simetría es cero (S=0) y el
de curtosis 3 (C=3).
Bajo la hipótesis nula de que los residuos están normalmente distribuidos, Jarque y
Bera demostraron que asintóticamente el estadístico JB sigue una distribución chi-
cuadrado con dos grados de libertad.
(12)
2222
3
6 24
CSJB n
~
Modelo de Regresión Lineal Simple: Inferencia 95
Es decir, si JB es mayor que una chi-cuadrado con 2 g.l, rechazo la hipótesis nula,
o sea, rechazo normalidad.
6.2 ¿Qué pasa si los errores no se distribuyen normal?
La normalidad exacta de los estimadores MICO depende crucialmente de la
distribución del error en la población (u). Si los errores u1, u2, ...., un son
elecciones aleatorias de alguna distribución que no es la normal, las j no estarán
distribuidas en forma normal, lo que significa que los estadísticos t y F no tendrán
distribuciones t y F, respectivamente. Este es un problema potencialmente grave
porque nuestra inferencia depende de que seamos capaces de obtener valores
críticos o valores p de las distribuciones t o F.
Recuerde que el supuesto de normalidad de u es equivalente a decir que la
distribución de Y dadas X1,, X2, ....Xn, es normal. Puesto que se observa Y pero no u,
es mucho más fácil verificar si Y sigue una distribución normal, algo que como
vimos, no siempre sucede.
La inferencia basada en los estadísticos t y F exige el supuesto de normalidad. En
caso contrario ¿quiere decir que no debemos utilizar el estadístico t para
determinar qué variables son significativas estadísticamente? La respuesta es no.
Aunque las Yi no provienen de una distribución normal, llegamos a la conclusión a
partir del teorema central del límite, que los estimadores MICO están distribuidos
aproximadamente en forma normal, por lo menos para tamaños de muestra
grandes.
Si el tamaño de la muestra no es muy grande, entonces la distribución t es una
aproximación insuficiente de la distribución del estadístico t cuando u no está
distribuida normal. Pero, por desgracia, no hay reglas generales sobre qué tan
grande debe ser la muestra para que una aproximación sea lo suficientemente
buena. Algunos econometristas piensan que n = 30 es satisfactorio, pero puede no
ser suficiente para todas las distribuciones posibles de u. Dependiendo de la
distribución de u, se necesitarían más observaciones para que tenga efecto el
teorema del límite central. Además, la calidad de la aproximación no sólo depende
de n, sino también de los gl3. En resumen, si el tamaño de la muestra no es muy
3 Como veremos en el modelo de regresión múltiple, con más variables independientes en el modelo, es necesario
una muestra mayor para aprovechar la aproximación t, debido a que los g.l. están determinado por n – k, donde k es
el número de regresores en el modelo.
Modelo de Regresión Lineal Simple: Inferencia 96
grande y u no se distribuye normal, debemos de tener mucho cuidado al momento
de hacer inferencia sobre los estimadores.
7. Predicción
7.1 Predicción media
Se refiere a la predicción del valor de la media condicional de Y correspondiente a
un valor escogido de X, (como X0), el cual es el punto sobre la fecha de la FRP.
Dado un valor de Xi= X0, la verdadera predicción media de E(Y0/X0) es
0 0 1 2 0ˆ ˆ( / )E Y X X (13)
El cual se puede estimar a partir de:
0 1 2 0ˆ ˆY X (14)
Si sacamos el valor esperado de (14), dado X:
0 1 2 0
1 2 0
0 0 0
ˆ ˆˆ( )
ˆ( ) ( / )
E Y E E X
X
E Y E Y X
(15)
Por lo que 0Y es un predictor insesgado de E(Y0/X0). Ahora aplicando las
propiedades de la varianza a (14), sustituyendo por sus respectivas fórmulas y
simplificando:
0 1 2 0 1 2 0
2 0
2
ˆ ˆ ˆ ˆˆvar( ) var var 2cov
1
i
Y X X
X X
n x
(16)
Modelo de Regresión Lineal Simple: Inferencia 97
7.2 Predicción individual. Error de pronóstico
La predicción individual se refiere a la predicción de un valor individual Y
correspondiente a X0.
Para predecir un valor de Y individual, correspondiente a Xi= X0, podemos utilizar
la ecuación (14).
El error de predicción es 0 0ˆY Y :
0 0 1 2 0 0 1 2 0
1 1 2 2 0 0
ˆ ˆˆ
ˆ ˆ
Y Y X u X
X u
(17)
Sacando la esperanza del error de predicción
0 0 1 1 2 2 0 0ˆ ˆˆ 0E Y Y E E X E u (18)
Elevando (17) al cuadrado y tomando esperanza tenemos:
22
0 0 1 1 2 2 0 0
2
1 1 1 1 2 2 0 1 1 0
22 2
2 2 0 2 2 0 0 0
22
0 0 1 1 2 0 2
ˆ ˆˆ
ˆ ˆ ˆ ˆ2 2
ˆ ˆ2
ˆ ˆ ˆ ˆˆ var 2cov , var
Y Y X u
X u
X X u u
E Y Y X
(19)
Sustituyendo las varianzas por sus respectivas fórmulas y simplificando:
2 0
0 0 2
1ˆvar( ) 1i
X XY Y
n x
(20)
8. Ejemplo
Capítulo 5
Modelo de Regresión Lineal
Múltiple: Inferencia
En el Modelo de Regresión Lineal Múltiple o Modelo de Regresión General, hasta
ahora no hemos usado el supuesto de que las iu siguen una distribución normal
multivariante. Si suponemos 2~ 0,N u Ι podremos derivar algunas
distribuciones.
1. Recordando
1.1 Distribución de β
Dado que ˆ -1
β = β + ΧΧ Χu , entonces β por ser combinación lineal de variables
aleatorias es también una variable aleatoria que se distribuye normal multivariante.
Esperanza: ˆ β = β
Varianza:
11 12 1
12 22
2 2
1
ˆvar
k
k kk
a a a
a a
a a
-1β ΧΧ
Modelo de Regresión Lineal Múltiple: Inferencia 99
Luego 2ˆ N -1
β ~ β, ΧΧ
Esto es, 2ˆj j jj~ N , a donde
jja es el j-ésimo elemento de la diagonal
principal de -1
ΧΧ .
Por lo que ˆ
~ 0,1j j
jj
Na
Este resultado no es muy útil por si mismo, porque no conocemos 2 .
1.2 Distribuciones derivadas de u
Dado que 2~ 0,N u Ι , esto significa que cada iu se distribuye normal e
independiente con media cero y varianza 2 .
Luego, 2 2 2
21 2
2 2 2~n
n
u u u
, con lo que
2
2
1~ n
u u
1
2 2~ n
u Ι u
Este resultado, nos sirve para recordar como se forman las distribuciones derivadas
de una normal multivariante. Sin embargo, tampoco es útil por si mismo ya que no
conocemos u .
1.3 Distribución de 2
e e
Hemos visto los siguientes resultados:
e =Μu , como 2~ 0,N u Ι , por lo que e también se distribuye normal.
e e = uΜu
-1
Μ= Ι - Χ ΧΧ Χ , siendo simétrica e idempotente1.
1 Una matriz es idempotente es una matriz que es igual a su cuadrado, es decir: A es idempotente si A · A = A
Modelo de Regresión Lineal Múltiple: Inferencia 100
Tr Rg n k Μ Μ . Como M es idempotente,la traza2 es igual al
rango; de aquí se deriva que M tiene n-k valores propios3.
Sea B una matriz que tenga por columnas los vectores propios de M y D
una matriz que tiene los valores propios en la diagonal y cero el resto.
1 2 n
Β y
1
2
0 0
0 0
0 0 0
0 0 0
0 0 n
D
Sabemos que:
nΒΒ =ΒΒ = Ι
ΒΜΒ=D Dado que los valores propios de un a matriz idempotente son cero o uno,
sabemos que D tiene n-k valores propios 1 y k valores propios igual a cero.
2 La traza de una matriz cuadrada A es la suma de los elementos de la diagonal principal.
3 En álgebra lineal, un escalar λ se llama valor propio ó valor característico de una función lineal A, si existe un
vector x distinto de cero, tal que Ax = λx. El vector x se llama vector propio o autovector. Los vectores propios de
un operador lineal son los vectores diferentes de cero que, cuando son transformados por el operador, dan lugar a un
múltiplo escalar de sí mismo. El escalar entonces se llama el valor propio asociado al vector propio.
Por ejemplo, considere la matriz:
0 1 1
1 1 0
1 0 1
A
que representa un operador lineal R³ → R³. Uno puede comprobar que:
1 2 1
1 2 2 1
1 2 1
A
Modelo de Regresión Lineal Múltiple: Inferencia 101
1 0 0
0 1
1
0
0 0
n-k k
k k
Ι 0D =
0 0
Definamos: y =Β u
Luego, premultiplicando por B tenemos que, Βy =ΒΒu = Ιu
u = Βy
Dado que y =Β u , y será una variable que se distribuye normal multivariada.
Encontramos la esperanza y la varianza de y .
Esperanza: 0E E E y Βu =Β u
Varianza:
2 2 2
var E E E E E
y y - y y - y = yy = Β uu Β = Β Ε uu Β
Β ΙΒ = Β Β = Ι
Es decir que 2N y ~ 0, Ι , con lo que cada ~N 0,1iy
se distribuye normal
estandarizada e independiente.
Sabemos que:
Du u
e e = uΜu = y Β ΜΒy y ΒΜΒy
Modelo de Regresión Lineal Múltiple: Inferencia 102
1
2
1 2 1
1
2 2 2 2
1 2
1
1 0 0
0 1
1
0
0 0
0 0
n k n k n n k
n k
n
n k
n k i
y
y
y y y y y y
y
y
y y y y
2
1
n k
iy
e e
Como ~ 0,1iyN
, luego
2
2
1
~n k
in k
y
2
2 2 2 i21 2 1
2 2 2 2
y
~
n k
n kn k
y y y
2
2~ n k
e e
2. Pruebas de Hipótesis Individuales
Sabemos que:
i. ˆ
~ 0,1j j
jj
Na
pero es desconocida
ii. 2
2 2
-- ~ n k
n kn k
e ee e
iii. puede demostrase que i e ii son independientes
Modelo de Regresión Lineal Múltiple: Inferencia 103
Definimos:
2
ˆ ˆ
ˆ~
ˆ ˆ
j j j j
jj jj j j
n k
jj
a at t
e e a
n k
Por lo tanto, para las pruebas de significancia individual procedemos de igual
manera la estudiada para el modelo de regresión simple.
3. Prueba de Significación global en el Modelo Múltiple:
Análisis de Varianza (ANOVA)
El test de ANOVA es un test de significancia global del modelo, por lo que la
hipótesis nula y alterna se expresan de la manera siguiente:
0 2 3: 0k
1 : Al menos algún i es distinto de 0
Por otra parte, sabemos que:
i. 2 2
1/ ~ kSCE
ii. 2
2 2~ n k
SCR
e e
iii. Puede demostrarse que i. y ii. son independientes.
Por lo tanto: 2
-1, -2
/
1 1 ~/
k n k
SCE SCE
k kF FSCRSCR
n kn k
Asimismo,
Modelo de Regresión Lineal Múltiple: Inferencia 104
2
2
-1, -2
/1 1 1 ~
1 1 1/k n k
SCE SCE RSCT n k Rk k kF F
SCR SCT SCE SCT SCE k RSCTn k n k SCT n k
Este test indica que el modelo es significativo en su conjunto, si el “efecto
explicado por el modelo” es suficientemente grande respecto al “ruido”, a lo
residual. Si el F calculado es mayor que el F de tabla, rechazo que
2 3 0k , o sea el “aporte de las X” respecto al residuo es considerable.
¿Cuán considerable? El límite nos lo da el valor de tabla.
Grados de Libertad
Asociado a cada suma de cuadrados hay grados de libertad.
Variación Suma de
Cuadrados
Grados de
Libertad
Suma Promedio
de Cuadrados
Regresión SEC k-1 SCE/(k-1)
Residuo SRC n-k SCR/(n-k)
Total STC n-1 SCT/(n-1)
Suma total de cuadrados (STC): Tiene n-1 grados de libertad. Esto surge
como consecuencia de la pérdida de un grado de libertad, necesario para
calcular Y .
0 Fk-1,n-k
1-
Rechazo H0 si F
calculado es mayor
que F de tabla
Modelo de Regresión Lineal Múltiple: Inferencia 105
Suma de residuos al cuadrado (SRC): Tiene n-k grados de libertad. Se
pierden k grados de libertad que son necesarios para asegurar que se
cumplan las ecuaciones normales. Estas condiciones son:
1
12 22 2 2 2
3 3
1 2
1 1 1 0
0
0
0
i
n i i
i i
k k nk n i ik
e e
e e
e e
e e
Χ e
Suma explicada al cuadrados (SEC): Tiene k-1 grados de libertad ya que se
encuentra en función de todos los parámetros estimados, excepto el
intercepto.
4. Test General para probar restricciones lineales de
parámetros
Supongamos que estamos interesados en estimar una función de producción Cobb-
Douglas:
1 2 3ln ln lni i i iL K u
Repasemos distintas hipótesis a probar:
Ejemplo 1:
Si queremos testear
0 2
1 2
: 0
: 0
podemos expresar esta restricción en forma matricial
0
1
:
:
Cβ = r
Cβ r
donde 0 1 0C
Modelo de Regresión Lineal Múltiple: Inferencia 106
1
2 2
3
0 1 0
Cβ
r = 0
Ejemplo 2:
Si queremos testear
0 2 3
1 2 3
: 1
: 1
debemos definir la matriz C y el vector r
0
1
:
:
Cβ = r
Cβ r
donde 0 1 1C
1
2 2 3
3
0 1 1
Cβ
r = 1 (en este caso un vector de 1x1, o sea un escalar)
Ejemplo 3:
Si queremos testear
0 2 3
1 2 3
:
:
0
1
:
:
Cβ = r
Cβ r
donde 0 1 1 C
1
2 2 3
3
0 1 1
Cβ
r = 0
Modelo de Regresión Lineal Múltiple: Inferencia 107
Ejemplo 4:
0 2 3: 0
1 : Algúni distinto de 0
1
2
2
3
3
0 1 0
0 0 1
0
0
Cβ
r
Ejemplo 5:
1 2 3 4 5ln ln ln ln lni i i i i iL K Z W u
0 4 5: 0
1 : Algún i distinto de 0
1
2
4
3
5
4
5
0 0 0 1 0
0 0 0 0 1
0
0
Cβ
r
Existen distintas formas de desarrollar los test de hipótesis
4.1 Mediante el desarrollo del test ˆCβ ?
Sabemos que:
2ˆ~ ,N -1
β β ΧΧ
Modelo de Regresión Lineal Múltiple: Inferencia 108
La distribución de probabilidad de una combinación lineal de β será también
normal.
Debemos encontrar los parámetros de la distribución.
ˆ ˆ Cβ C β Cβ
2
ˆ ˆ ˆ ˆ ˆvar
ˆ ˆ ˆ ˆ
ˆ ˆ
E E
E E
E
-1
Cβ Cβ -Cβ Cβ -Cβ Cβ -Cβ β C - β C
C β - β β - β C C β - β β - β C
C β - β β - β C C ΧΧ C
2
2
ˆ~ ,
ˆ ~ 0,
N
N
-1
-1
Cβ Cβ C ΧΧ C
Cβ -Cβ C ΧΧ C
Si H0 es cierta: Cβ = r 2ˆ ~ 0,N -1
Cβ - r C ΧΧ C
Se puede demostrar que dado:
i. 2 2ˆ ˆ ~ R
-1-1
Cβ - r C ΧΧ C Cβ - r ; ya que estamos sumando R
normales (0,1) elevadas al cuadrado, donde R es el número de restricciones
involucradas bajo la hipótesis nula.
ii. 2
2
2 2
ˆ~ n k
n k
e e
iii. i y ii. son independientes.
Entonces:
Modelo de Regresión Lineal Múltiple: Inferencia 109
2
,
2
ˆ ˆ
~ R n kR F
n k
-1-1
Cβ - r C ΧΧ C Cβ - r
e e
1
2
,
1 ˆ ˆˆ ~ R n kFR
-1Cβ - r C ΧΧ C Cβ - r
Volvamos al Ejemplo 1
Siguiendo con el ejemplo de la función de producción Cobb-Douglas, retomemos
la prueba de algunas hipótesis importantes:
0 2
1 2
: 0
: 0
0 1 0C =
r = 0
R = 1
2
,
1 ˆ ˆˆR n kF
R
-1-1
Cβ - r C ΧΧ C Cβ - r ~
0 FR,n-k
1-
Rechazo H0 si F
calculado es mayor
que F de tabla
Modelo de Regresión Lineal Múltiple: Inferencia 110
1
11 12 13
2
2 21 22 23 2 1, 3
31 321 33
1
2
2 21 22 23 2 1, 3
12
2 22 2 1, 3
01 ˆ ˆˆ 0 1 0 1 ~1
0
0
ˆ ˆˆ 1 ~
0
ˆ ˆˆ ~
n
n
n
a a a
a a a F
a a a
a a a F
a F
2
21, 32
22
ˆ~
ˆnF
a
4.2 Mediante el cálculo de los residuos libres y restringidos.
Se puede demostrar que:
ˆ ˆ
-1-1 1
e e - e e = Cβ -Cβ C XX C Cβ -Cβ
donde e e es suma de cuadrados restringida, es decir, los obtenidos de la regresión
en la que se impone H0 (la restricción).
Entonces, tenemos que:
2
-2~
n k
e e y 2
-( )2~
n k R
e e
Por lo tanto
2 2
n- k-R2~ Rn k
e e - e e
Dado que:
i. 2
R2~
e e - e e
Modelo de Regresión Lineal Múltiple: Inferencia 111
ii. 2
n-k2~
e e
iii. ambos son independientes
Entonces:
, -
/~
/R n k
RF
n k
e e - e e
e e
Para realizar el test se procede de la manera siguiente:
1. Se estima regresión restringida (imponiendo que se cumpla la hipótesis nula) y
se obtiene la SCR restringida.
2. Se estima regresión libre (sin imponer que se cumpla la hipótesis nula) y se
obtiene la SCR libres.
3. Se calcula el estadístico /
/
RF
n k
e e - e e
e e. Si F>FTABLA, rechazo H0 (Rechazo
que la restricción sea válida, si la suma se reduce mucho al calcular dicho
estadístico)
4.3 Mediante el coeficiente de determinación, R2
Una tercera forma equivalente de probar la misma hipótesis es la siguiente:
0 FR,n-k
1-
Rechazo H0
Modelo de Regresión Lineal Múltiple: Inferencia 112
2 2 2 2
2 2
2 2 2 2
2 2
2 2
,2
1 1
1
1 1 1 1
1 1
~1
i i
i
R n k
R y R y
R RFR y
n k n k
R R R R
R R
R R
n k n k
R R
R FR
n k
e e e e
e e
4.4 Ejemplos
Supongamos que estamos interesados en estimar el siguiente modelo:
1 2 2 3 3 i i i iY X X u
con los siguientes datos:
3
1
8
3
5
Y
1 3 5
1 1 4
1 5 6
1 2 4
1 4 6
X , luego 1
23.7 4.5 8
4.5 1 1.5
8 1.5 2.5
X X
Con estos datos podemos estimar la regresión:
Dependent Variable: Y
Method: Least Squares
Sample: 1 5
Included observations: 5
Variable Coefficient Std. Error t-Statistic Prob.
Modelo de Regresión Lineal Múltiple: Inferencia 113
C 4.000000 4.474930 0.893869 0.4657
X2 2.500000 0.866025 2.886751 0.1020
X3 -1.500000 1.369306 -1.095445 0.3876
R-squared 0.946429 Mean dependent var 4.000000
Adjusted R-squared 0.892857 S.D. dependent var 2.645751
S.E. of regression 0.866025 Akaike info criterion 2.833904
Sum squared resid 1.500000 Schwarz criterion 2.599567
Log likelihood -4.084761 F-statistic 17.66667
Durbin-Watson stat 1.666667 Prob(F-statistic) 0.053571
y podemos calcular 2 2( -1) 2.645751 4 28YSCT n
2* 28*0.946429 26.5SCE STC R
Significación conjunta de X2 y X3
0 2 3H : 0
/ 1 26.5/3 117.67
/ 1.5/5 3
SCE kF
SCR n k
Como F0.95(2,2)=19, la F muestral es menor que el valor crítico no rechazo H0.
Significación de X3
0 3H : 0
Una forma de probarlo es con un test de hipótesis simple. Observando la salida de
Eviews se concluye que este parámetro es no significativo.
Otra forma de probar esto es estimando la regresión restringida (es decir aquella
donde se supone válida la hipótesis nula).
Dependent Variable: Y
Method: Least Squares
Sample: 1 5
Included observations: 5
Modelo de Regresión Lineal Múltiple: Inferencia 114
Variable Coefficient Std. Error t-Statistic Prob.
C -0.800000 0.938083 -0.852803 0.4564
X2 1.600000 0.282843 5.656854 0.0109
R-squared 0.914286 Mean dependent var 4.000000
Adjusted R-squared 0.885714 S.D. dependent var 2.645751
S.E. of regresión 0.894427 Akaike info criterion 2.903908
Sum squared resid 2.400000 Schwarz criterion 2.747683
Log likelihood -5.259770 F-statistic 32.00000
Durbin-Watson stat 1.366667 Prob(F-statistic) 0.010938
Como ahora la SCR=2.4 2.4 e e
Luego, podemos utilizar el estadístico:
/ 2.4 1.5/11.2
/ 1.5/5 3
RF
n k
e e - e e
e e
F0.95(1,2)=18.51, la F muestral es menor que el valor crítico no rechazo H0.
Los coeficientes de X2 y X3 son de igual magnitud pero de signo opuesto
0 2 3H : 0
o en términos generales:
0 1 1C r=0 con R=1
Sabemos que:
Modelo de Regresión Lineal Múltiple: Inferencia 115
2
2
, -
1ˆ
1 1
2 2
3 3
1 ˆ ˆˆ ~
ˆ ˆ20.02 3.37 6 0
1 ˆ ˆ0 1 1 0 0 1 1 3.37 0.75 1.125 1 0 1 11
ˆ ˆ6 1.125 1.875 1
R n kF FR
-1
-1-1
X X
Cβ - r C XX C Cβ - r
1
21
0
0
2.5 1.5 3.37 6 0.75 1.125 1.125 1.875 1 2.5 1.5
1
11 0.75 1.125 1.125 1.875 1 2.66
0.375
Dado que el valor del test F es muy pequeño, no rechazo la hipótesis nula.
5. Región de confianza conjunta para 2 y 3
Sabemos que 2
,
1 ˆ ˆR n kF
R
-1-1
Cβ - r C ΧΧ C Cβ - r ~ , luego podemos
utilizar este resultado para construir regiones de confianza de los test. Distintas
especificaciones de R, darán diferentes regiones de confianza para grupos de
parámetros.
Supongamos que nos interesa conocer la región en que se cumple que 2 y 3 son
conjuntamente significativos.
0 2 3H : 0
Luego
0 1 0
0 0 1C
y R=2
Modelo de Regresión Lineal Múltiple: Inferencia 116
ˆ ˆ /1 ˆ ˆˆ
/
RF
R n k
-1-1
-1-12
Cβ -Cβ C XX C Cβ -CβCβ -Cβ σ C XX C Cβ -Cβ
e e
Utilizando los datos del ejemplo de la sección anterior:
1 1
1 11
2 2 2
33 3
ˆ ˆ26.7 4.5 8 0 0
0 1 0 0 1 0 0 1 0ˆ ˆ4.5 1 1.5 1 00 0 1 0 0 1 0 0 1
ˆ ˆ8 1.5 2.5 0 1
F
X'X
1
2
3
1
2 2
2 2 3 3
3 3
1
2 2
2 2 3 3
3 3
2
0.75
0 0ˆ4.5 1 1.51 ˆ ˆ 1 0ˆ8 1.5 2.51.5
0 1
ˆ1 1.51 ˆ ˆˆ1.5 2.51.5
2
2 3
3
2 2
2 3 2 3 2 3
2.510 612.5 1.5
1.56 41.5
26.5 32 18 12 10 4
1.5
Eligiendo, por ejemplo, el valor crítico de F al 5% tenemos:
Pr{F<F0.95}=0.95, y F(2,2)=19
Entonces, haciendo
F= F0.95 se tiene 2 2
2 3 2 3 2 326.5 32 18 12 10 419
1.5
, es decir
2 2
2 3 2 3 2 310 4 12 32 18 2 0
Esta es la ecuación correspondiente a una elipse.
Este procedimiento permite establecer una elipse de confianza al 95% para los
parámetros que son desconocidos. La elipse está centrada en el punto estimado
2ˆ 2.5 y 3
ˆ 1.5 .
Modelo de Regresión Lineal Múltiple: Inferencia 117
-12
-8
-4
0
4
8
12
-8 -4 0 4 8
C(3
)
C(2)
El origen (0,0) se encuentra dentro de la elipse, lo que significa que, con un 95%
de confianza, no se puede rechazar la hipótesis de que ambos parámetros son cero
en forma conjunta.
Es importante observar:
Que la elipse cambia de forma en función de la covarianza entre los
parámetros estimados 2 y 3 . Si cov( 2 , 3 )<0 la elipse se inclina hacia la
izquierda, mientras que si cov( 2 , 3 )>0 se inclina hacia la derecha.
Que los límites que se obtienen en forma conjunta para 2 y 3 son distintos
a los que se obtienen en intervalos de confianza individuales. Es
perfectamente posible que utilizando test individuales se concluya que los
parámetros son individualmente no significativos, pero testeando
conjuntamente la hipótesis de que ambos parámetros son cero esta sea
rechazada por obtener un elipse tal que el punto (0,0) esté fuera de la misma.
En ese caso uno puede decir que al menos uno de los parámetros tiene
suficiente influencia sobre la variable explicativa, pero no puede asignar esa
influencia a uno de los parámetros en particular.
Modelo de Regresión Lineal Múltiple: Inferencia 118
6. Prueba de estabilidad estructural: Prueba de Chow.
7. Predicción
Para predecir debemos recurrir a los parámetros estimados dentro de la muestra:
1 2 2 3 3ˆ ˆ ˆ ˆˆ ...
ˆˆ
i i i k ikY X X X
nx1 nxk kx1Y = X β
i=1….n
El interés en general es pronosticar el valor de Y en un período posterior a n (por
ejemplo el período que denominaremos 0).
Si el interés está en predecir 0Y se hablará de predicción individual. Si,
alternativamente, se predice E( 0Y /X), hablaremos de predicción media o promedio.
Ambas alternativas dan lugar a la misma predicción puntual, pero diferentes
intervalos de confianza, ya que difieren en la varianza del error de predicción. Ello
por cuanto en ambos casos se utiliza para predecir la siguiente ecuación:
0 1 2 02 3 03 0ˆ ˆ ˆ ˆˆ ... k kY X X X
Es fácil probar que 0Y es un estimador insesgado de 0E Y X
E( 0Y )=E( 0Y ) (porque 0Y e 0Y son variables aleatorias.)
0 1 2 02 0 0... k kY X X u (verdadero valor)
0 0 1 2 02 0 0
1 2 02 0 0 1 2 02 0
/ ...
... ...
k k
k k k k
E Y X E X X u
X X E u X X
0 0 1 2 02 0
1 2 02 0 1 2 02 0
ˆ ˆ ˆˆ / ...
ˆ ˆ ˆ... ...
k k
k k k k
E Y X E X X
E E X E X X X
Es decir: 0Y en promedio estará sobre 0Y promedio.
Modelo de Regresión Lineal Múltiple: Inferencia 119
El punto clave es realizar una proyección correcta de las variables explicativas y
verificar si es correcto usar ˆi históricos hacia delante.
Que E(0Y )=E(
0Y ) (no hay sesgo), no implica que no haya error de predicción.
Error de predicción = 0 0 0ˆe Y Y (es un escalar)
0 1 2 02 0 0 1 2 02 0
011 1 1
ˆ ˆ ˆ... ...
ˆ( )
k k k k
kxxk x
e X X u X X
e
0 0
X β - β +u
¿Cuál es el valor esperado del error de predicción?
0 0 0
0
ˆ ˆ 0
0
E e E u E E u
E e
0 0X β - β X β - β
¿Cuál es la varianza de 0e ?
0
0 0 0
ˆvar var
ˆ ˆvar var var 2cov
e
e u u
0 0
0 0
X β - β +u
X β - β X β - β
La covarianza está en función de dos variables aleatorias ( β y 0u ). β es función de
los (i=1 hasta n) y 0u es un error aleatorio posterior a n. Por lo tanto, 0cov( , ) 0iu u
por el supuesto de no autocorrelación de los errores y 0ˆcov , 0u
0X β - β
Modelo de Regresión Lineal Múltiple: Inferencia 120
2
0
2
2
2
2
2 2
2
ˆvar( ) var
ˆ ˆ
ˆ ˆ
ˆ ˆ
ˆvar
1
e
E
E
E
0
0 0
0 0
0 0
0 0
-1
0 0
-1
0 0
X β - β
X β - β X β - β
X β - β β - β X
X β - β β - β X
X β X
X X X X
X X X X
¿Cómo se distribuye 0e ?
0 0
2
2
2
0
0 0
ˆ
~N 0,
ˆ~N ,
~ 0, 1
~ 0,var
e u
e N
e N e
0
-1
-1
0 0
X β - β
u I
β β XX
X X X X
0 1DS e -1
0 0X X X X
Si se cumple que:
i.
0 0
0
~ (0,1)e E e
NDS e
ii. 2ˆn k
e e
Modelo de Regresión Lineal Múltiple: Inferencia 121
iii. 2
2
2
ˆ~ n k
n k
Entonces
0n-kt
ˆ 1
e
-1
0 0X X X X
, ó 0
n-k
0
~tˆ
e
DS e
Intervalo de confianza para el error de predicción
Esto nos permite hacer un intervalo para el error de predicción.
0/ 2 / 2
0
/ 2 0 0 / 2 0
1ˆ
ˆ ˆ 1
eP t t
DS e
P t DS e e t DS e
0 / 2 0ˆ( ) ( )IC e t DS e
Intervalo de confianza para 0Y
Como 0 0 0ˆe Y Y , podemos obtener un intervalo de confianza para 0Y
0 0 0
0 0 / 2 0
0 0 / 2 0
ˆ
ˆˆ
ˆˆ
IC e INT Y Y
IC Y Y t DS e
IC Y Y t DS e
TAREA: Demostrar que el intervalo de predicción para una regresión simple es
2
0
0 0 / 2 2
1ˆ ˆ 1i
X XY Y t
N x
En algunos casos interesa predecir ˆ /E Y X
Modelo de Regresión Lineal Múltiple: Inferencia 122
0
0 0 0
ˆ
ˆ ˆˆ
E Y
e E Y E Y
0
0 0 0
X β
X β X β X β β
12
0
12
ˆvar vare
0 0 0
0 0
X β β X XX X
X X X X
8. Ejercicio4
Para estimar la demanda de combustible diesel (gasoil) en República Dominicana,
se consideró que esta depende del precio real del combustible, y de una medida de
la actividad económica o ingreso, para lo cual se utilizó el PIB real. El modelo a
estimar es del tipo log-log.
Considere los siguientes resultados de una estimación mediante mínimos
cuadrados para la demanda de gasoil en República Dominicana, para el periodo
1997q1 2006q1:
LOG(QDiesel
t) = 8.2163 - 0.0442*LOG(PDiesel
t/IPCt) + 0.1196*LOG(PIB real)t -
0.0788*LOG(PIB realt-1) + 0.2658*LOG(PIB realt-2) + 0.4901*LOG(PIB realt-3) -
0.2139*LOG(Oferta de electricidadt)
R2 = 0.655129; SRC = 0.089947
La matriz de varianzas y covarianzas de los coeficientes está dada por:
C(1) C(2) C(3) C(4) C(5) C(6) C(7)
C(1) 3.1871 0.1231 -0.1451 -0.1027 -0.0702 -0.1046 0.0108
C(2) 0.1231 0.0108 -0.0097 -0.0048 -0.0073 -0.0105 0.0095
C(3) -0.1451 -0.0097 0.0241 0.0054 -0.0054 0.0106 -0.0092
C(4) -0.1027 -0.0048 0.0054 0.0161 0.0033 -0.0075 -0.0025
C(5) -0.0702 -0.0073 -0.0054 0.0033 0.0209 0.0093 -0.0106
C(6) -0.1046 -0.0105 0.0106 -0.0075 0.0093 0.0261 -0.0141
C(7) 0.0108 0.0095 -0.0092 -0.0025 -0.0106 -0.0141 0.0194
4 Tomado de Francos, Martin (2006) “Estimación de la demanda de combustibles en la República Dominicana”.
Unidad de Análisis Económico, Texto de discusión No. 6, Santo Domingo.
Modelo de Regresión Lineal Múltiple: Inferencia 123
a) Realice la prueba de significancia individual de cada uno de los betas.
b) Realice la prueba de significancia global del modelo.
c) Considere la regresión auxiliar:
LOG(QDiesel
t) = C(1) + C(2)*LOG(PDiesel
t/IPCt) + C(3)*LOG(PIB real)t -
C(4)*LOG(PIB realt-1) + C(5)*LOG(PIB realt-2) + [1-C(3)-C(4)-C(5)]*LOG(PIB
realt-3) - C(7)*LOG(Oferta de electricidadt)
C(1) C(2) C(3) C(4) C(5) C(7)
Coeficiente 7.30579 -0.106925 0.279455 -0.20198 0.217272 -0.279354
R2 = 0.609596; SRC = 0.101822
Realice una prueba para comprobar la hipótesis de que la elasticidad ingreso de
largo plazo es unitaria. Verifique la analogía del resultado utilizando las 3
alternativas:
Mediante el desarrollo del test C beta
Residuos libres y restringidos
Coeficiente de determinación
Capítulo 6
Modelos de Regresión con Variables
Cualitativas
En los temas anteriores, las variables dependiente e independiente del modelo de
regresión tuvieron un significado cuantitativo, (como el salario por hora, años de
escolaridad, etc.) por lo que la magnitud de la variable proporciona información
útil.
En algunas ocasiones, es necesario incorporar factores cualitativos como el sexo
(hombre o mujer), región (Norte, Suroeste, Sureste), etc. En estos casos se utiliza
una variable explicativa que sólo puede tomar dos valores: 1 ó 0. Estas variables
se llaman variables binarias, ficticias, dicotómicas o dummy.
1. Interpretación
Consideremos el siguiente modelo
(1.1) 1i i isalario femenino u
Donde
salario, representa el salario por hora en US$
femenino es una variable que toma valor 1 si la persona es mujer y 0 en el resto de
casos.
Salario esperado de las mujeres: 1iE salario
Salario esperado de los hombres: iE salario
Supongamos que obtenemos la siguiente estimación:
Modelo de Regresión con variables cualitativas 125
Variable dependiente: SALARIO Método: MICO Muestra: 1 526
Variable Coeficiente Error estándar t-estadístico Probabilidad
C 7.099489 0.210008 33.80578 0.0000 FEMENINO -2.511830 0.303409 -8.278688 0.0000
En este caso el salario promedio para los hombres es de US$7.09, mientras el de
las mujeres es menor al de los hombres en US$2.51, para un salario promedio de
US$4.58 (=7.09-2.51). Los coeficientes que acompañan a la variable explicativa
miden la diferencia respecto a la variable con la cual se compara, en este caso el
salario de los hombres.
Supongamos ahora que tenemos otra variable llamada masculino, la cual toma
valores de 1 cuando es hombre y 0 en el resto ¿qué pasa si queremos estimar el
modelo siguiente?
(1.2) 1 2i i i isalario femenino masculino u
En este caso no va a ser posible estimar el modelo, debido a que existe colinealidad
perfecta en las variables, ya que la suma de las variables femenino y masculino será
igual a 1, valor de la variable explicativa que implícitamente acompaña a la
constante de la regresión.
En las regresiones con variables cualitativas, la regla es que si la variable
cualitativa tiene m categorías, sólo puede incluirse m-1 variables dicotómicas, al
menos que se elimine el intercepto.
Una alternativa de es estimar el modelo (1.2) es eliminar el intercepto:
(1.3) 1 2i i i isalario femenino masculino u
En este caso, para el ejemplo anterior, tendríamos los resultados siguientes:
Variable dependiente: SALARIO Método: MICO Muestra: 1 526
Variable Coeficiente Error estándar
t-estadístico Probabilidad
FEMENINO 4.587659 0.218983 20.94980 0.0000 MASCULINO 7.099489 0.210008 33.80578 0.0000
Modelo de Regresión con variables cualitativas 126
Ahora, los coeficientes representan directamente el salario medio para hombres y
para mujeres.
2. Modelos alternativos
2.1 La única variable explicativa es dummy
(2.1) 1 2i i iN S u para 1,2,....i n
Donde:
Ni es la nota en el curso de Econometría
Si es una variable dummy que representa el sexo del alumno
0si es hombre
1 si es mujeriS
¿Cuál es la nota esperada de econometría para las alumnas mujeres?
1 2/ mujer / 1i iE N E N S
¿Cuál es la nota esperada de econometría para los alumnos hombres?
1/ hombre / 0i iE N E N S
Ni
1
1 + 2
i
2
Supuestos:
2 > 0
Modelo de Regresión con variables cualitativas 127
2.2 Una variable cualitativa y otra cuantitativa
En relación al modelo presentado en (2.1), la nota en econometría podría ser
función del índice académico acumulado al semestre anterior (IA)
(2.2) 1 2 3i i i iN S IA u
¿Cuál es la nota esperada de econometría para las alumnas mujeres?
1 2 3/ mujer / 1i i iE N E N S IA
¿Cuál es la nota esperada de econometría para los alumnos hombres?
1 3/ hombre / 0i i iE N E N S IA
2.3 Interacción entre una variable cuantitativa y una cualitativa
Volviendo al modelo con una variable cuantitativa y una cualitativa de la ecuación
(2.2), supongamos que el IA depende del sexo. Entonces:
(2.3) 1 2 3 4i i i i i iN S IA IA S u
¿Cuál es la nota esperada de econometría para las alumnas mujeres?
Ni
1+3IAi
IAi
2
Supuestos:
2 > 0
3= para ambos sexos
1 + 2+3IAi
Modelo de Regresión con variables cualitativas 128
1 2 3 4/ mujer / 1i i iE N E N S IA
¿Cuál es la nota esperada de econometría para los alumnos hombres?
1 3/ hombre / 0i i iE N E N S IA
El coeficiente 2 se llama intercepto diferencial y el coeficiente
4 pendiente
diferencial.
2.4 Dos variables cualitativas
La nota en econometría podría ser función del sexo y de la región (por ejemplo si
es de zona urbana o rural).
0zona urbana
1 zona ruraliR
(2.4) 1 2 3i i i iN S R u para 1,2,....i n
¿Cuál es la nota esperada para las alumnas mujeres de zona rural?
1 2 3/ mujer, rural / 1, 1i iE N E N S R
Ni
1+3IAi
IAi
2
Supuestos:
2 > 0
4 > 0
1 + 2+(3+4)IAi
1
Modelo de Regresión con variables cualitativas 129
¿Cuál es la nota esperada para las alumnas mujeres de zona urbana?
1 2/ mujer, urbana / 1, 0i iE N E N S R
¿Cuál es la nota esperada para los alumnos hombres de zona rural?
1 3/ hombre, rural / 0, 1i iE N E N S R
¿Cuál es la nota esperada para los alumnos hombres de zona urbana?
1/ hombre, urbana / 0, 0i iE N E N S R
2.5 Variables cualitativas politómicas
Supongamos ahora que la nota depende de la nacionalidad
1 R.D.
0resto
1EE.UU.
0 resto
1España
0 resto
i
i
i
RD
US
ES
(2.5) 1 2 3 4i i i i iN RD US ES u
¿Cuál es la nota esperada si el alumno es de RD?
1 2iE N
¿Cuál es la nota esperada si el alumno es de EE.UU.?
1 3iE N
¿Y si es del resto del mundo (diferente de RD, EE.UU ó España)?
1iE N
Modelo de Regresión con variables cualitativas 130
3. Variables dummy para desestacionalizar
En general, las series de tiempo económicas tienen cuatro componentes:
(3.1) Z C T S I
Z es la serie original
C es el ciclo
T es la tendencia (en función del tiempo)
S es la estacionalidad (en función del calendario)
I es la parte irregular
Veamos la siguiente serie para el “dinero real”
0
10
20
30
40
50
60
86 88 90 92 94 96 98 00 02 04
M1A/IPC
Sabemos que el comportamiento de largo plazo del dinero (componente tendencia-
ciclo) depende de una variable escala (ingreso) y del costo de mantenerlo (tasas de
interés nominal). Pero además la trayectoria del dinero está afectada por factores
estacionales, como por ejemplo el aumento de la demanda de dinero en diciembre
por las navidades.
Los efectos estacionales los podríamos aproximar a través de variables dummy así:
Modelo de Regresión con variables cualitativas 131
(3.2) 1 2 3 4 1 5 2 15 11ln ln ...i i
MY i D D D u
P
1
2
1si es el mes de enero
0 resto
1si es el mes de febrero
0 resto
D
D
, y así respectivamente hasta D11
4. Variables dummy para detectar cambio estructural.
Alternativa al test de Chow
Supongamos la siguiente ecuación para en consumo privado en la República
Dominicana:
(4.1) 1 2 i iCP Y u
Si usted supone que hay cambio estructural a partir de 1990 debido a las reformas
macroeconómicas realizadas ese año. En este caso tendríamos:
1970-1990 1 2,I I
1991-2004 1 2,II II
Si definimos 1
0economía sin reforma (1970-1990)
1economía con reforma (1991-2004D
Podemos entonces plantear el modelo:
(4.2) 1 2 3 4i i i i iCP D Y D Y u
Si realizamos la siguiente prueba hipótesis:
0 :H 2 4 0
1 :H 2 4 ó 0
Esto es equivalente al test de cambio estructural presentado por Chow, sin
embargo, tiene la ventaja que permite indicar en forma precisa cuál parámetro es
diferente, si cambia el intercepto, la pendiente o ambos.
Modelo de Regresión con variables cualitativas 132
De igual modo, también es posible realizar pruebas individuales:
0 :H 2 0
1 :H 2 0
0 :H 4 0
1 :H 4 0
Capítulo 7
Multicolinealidad
1. 0BDescripción
La multicolinealidad es un problema de la muestra, no de especificación del
modelo. Al no controlar las variables explicativas experimentalmente, ellas pueden
tener una alta correlación, por lo cual se hace difícil discernir cuál es el efecto
individual de cada una de ellas.
Considere el siguiente diagrama, donde los círculos representan las variaciones de
las variables Y, X2 y X3.
A medida que mayor es el área entre la variable dependiente y las explicativas
(área 1 y 2) mayor es la información común y menor la varianza de los
coeficientes.
y x3
1
2
x2
y x3
3
5
x2
4
Multicolinealidad 134
Sin embargo, cuanto mayor sea el área común entre las variables explicativas (área
4), mayor será la colinealidad de las variables y mayor será la varianza de los
estimadores.
Asimismo, según se agregan variables explicativas, los parámetros del modelo son
calculados cada vez con menos información, provocando un incremento en las
varianzas de los estimadores.
Originalmente, el término multicolinealidad significó la existencia de una relación
perfecta o exacta entre algunas o todas las variables explicativas de un modelo de
regresión. Para la regresión con k variables que incluye las variables explicativas
X1, X2, ..., Xk (donde X1= 1 para todas las observaciones que den cabida al término
intercepto), se dice que existe una relación lineal exacta si se satisface la siguiente
condición:
1 1 2 2 0k kX X X (1.1)
Donde λ1, λ2 ... λk son constantes tales que no todas ellas son simultáneamente
iguales a cero.
Sin embargo, hoy en día, el término se utiliza en un sentido más amplio, para
incluir tanto el caso de multicolinealidad perfecta de X(1.1)X, como también el caso
en el cual hay variables intercorrelacionadas pero no en forma perfecta, de la
siguiente manera:
1 1 2 2 0k k iX X X v (1.2)
donde vi es un término de error estocástico.
La diferencia entre ambos tipos de multicolinealidad la podemos ver a través del
siguiente ejemplo:
Si tenemos λ2 ≠ 0 , entonces X(1.1)X puede escribirse como:
1 32 1 3
2 2 2
ki i i kiX X X X
(1.3)
Multicolinealidad 135
que muestra la forma como X2 está exactamente relacionada de manera lineal con
las otras variables, o como ésta puede derivarse a partir de una combinación lineal
de otras variables X. En esta situación el coeficiente de correlación entre la variable
X2 y la combinación lineal del lado derecho debe ser igual a uno.
En forma similar, si λ2 ≠ 0, X(1.2)X puede escribirse como:
1 32 1 3
2 2 2 2
1ki i i ki iX X X X v
(1.4)
Lo cual muestra que X2 no es una combinación lineal exacta de otras X porque está
determinada por el término de error estocástico νi.
Hasta ahora nos hemos referido a la multicolinealidad como lineal. Modelos como
el siguiente no se considerarían en este grupo:
2 3
0 1 2 3i i i i iY X X X u (1.5)
Donde Y= costo de producción y X= producción. Las variables X2
i y X3
i están
funcionalmente relacionadas con Xi, pero la relación no es lineal. Por lo tanto,
estrictamente modelos como éste no violan el supuesto de no multicolinealidad, sin
embargo, el coeficiente de correlación entre las tres variables será alto, por lo que
se hará difícil la estimación de los parámetros de X(1.5)X con mayor precisión.
El modelo clásico de regresión simple supone que no hay multicolinealidad entre
las X por lo siguiente: Si la Multicolinealidad es perfecta, los coeficientes de la
regresión de las variables X son indeterminados y sus errores estándar son infinitos.
Si la multicolinealidad es menos que perfecta, aunque los coeficientes sean
determinados, poseen grandes errores estándar, lo cual significa que los mismos no
pueden ser estimados con gran precisión o exactitud.
La multicolinealidad puede deberse a los factores siguientes:
El método de recolección de información. La muestra se obtuvo en un
intervalo limitado de valores de la población.
Restricciones sobre el modelo o en la población objeto de muestreo. Por
ejemplo, si estimamos el modelo de consumo incluyendo como variables
explicativas el ingreso corriente y la riqueza, estas pueden ser válidas en el
Multicolinealidad 136
modelo teórico, pero van a presentar alta colinealidad, porque familias de
altos ingresos suelen tener mayor riqueza.
Especificación del modelo. En el caso que el modelo tenga términos
polinomiales.
Un modelo sobredeterminado. O sea, cuando tiene más variables
explicativas que el número de observaciones.
2. 1BEstimación en presencia de Multicolinealidad Perfecta
En este caso, como mencionamos anteriormente, los coeficientes de regresión
serán indeterminados. Esto se puede demostrar mediante el modelo de regresión
con tres variables en desvíos:
2 2 3 3
ˆ ˆ ˆi i i iy x x u (2.1)
Sabemos que en el modelo de regresión múltiple:
2
2 3 3 2 3
2 22 2
2 3 2 3
ˆ i i i i i i i
i i i i
y x x y x x x
x x x x
(2.2)
Si suponemos que X3i = λX2i, donde λ es una constante diferente de cero,
sustituyendo esto en X(2.2)X tenemos:
2 2 2
2 2 2 2
2 22 2 2 2 2
2 2 2
0ˆ0
i i i i i i
i i i
y x x y x x
x x x
(2.3)
que es una expresión indeterminada.
Debemos recordar que 2 es el cambio en el valor promedio de Y cuando X2
aumenta en una unidad, manteniendo X3 constante. Pero si estas dos variables son
perfectamente colineales, a medida que X2 cambia, también X3 lo hace por el factor
λ. Por lo tanto, no hay forma de separar las influencias individuales de cada
variable en la variable dependiente para la muestra dada.
En conclusión, en el caso de multicolinealidad perfecta no se puede obtener una
solución única para los coeficientes de regresión individual. Si sustituimos X3i = λ
X2i obtenemos lo siguiente:
Multicolinealidad 137
2 2 3 2
2 3 2
2
ˆ ˆ ˆ( )
ˆ ˆ ˆ( )
ˆ ˆ
i i i i
i i
i i
y x x u
x u
x u
(2.4)
donde
2 3
ˆ ˆˆ ( ) (2.5)
Aplicando la fórmula MICO a X(2.4)X se obtiene:
2
2 3 2
2
ˆ ˆˆ ( )i i
i
x y
x
(2.6)
Como vemos podemos obtener el estimador individual de , pero no de 2 y
3 .
Si utilizamos del valor de =0.8 y λ = 2 tenemos de X(2.5)X que:
2 3
ˆ ˆ0.8 2 (2.7)
Entonces si seleccionamos un valor arbitrario para 3 , tendremos un valor para
2 .
Y si seleccionamos otro valor para 3 tendremos otro valor para
2 . Entonces no
existiría un valor único para 2 .
3. 2BEstimación en presencia de Multicolinealidad Alta pero
Imperfecta:
El caso de multicolinealidad perfecta es casi imposible de observarse en la
práctica, especialmente para el caso de información económica relacionada con
series de tiempo. Continuando con el modelo para tres variables en desvíos ahora
podemos tener:
3 2i i ix x v (3.1)
donde λ ≠ 0 y donde vi es un término de error estocástico tal que 2 0i ix v
En este caso la estimación de los coeficientes de regresión 2 y 3 puede ser
realizada sustituyendo X(3.1)X en X(2.2)X, y obtenemos:
Multicolinealidad 138
2 2 2 2
2 2 2 2 2
2 22 2 2 2 2 2
2 2 2
2 2 2 2
2 2 2 2
22 2 2 2 2 2
2 2 2
ˆ i i i i i i i i i i i
i i i i
i i i i i i i i i
i i i i
y x x v y x y v x x v
x x v x
y x x v y x y v x
x x v x
(3.2)
donde se utiliza el hecho de que 2 0i ix v . Podemos hacer lo mismo con 3 .
En este caso, el coeficiente es determinado. Sin embargo, vale destacar que si vi es
muy cercano a cero la colinealidad es casi perfecta.
4. 3BConsecuencias de la Multicolinealidad
En los casos de casi o alta multicolinealidad es probable que se presenten las
siguientes consecuencias:
1. Varianzas y covarianzas grandes, aun cuando los estimadores MICO son
MELI.
2. Intervalos de confianza tienden a ser muy anchos, lo cual lleva a aceptar
cualquier hipótesis nula (de significancia individual); esto se debe a la
alta varianza.
3. Asimismo, la razón “t” de uno o más coeficientes tiende a ser
estadísticamente no significativa.
Ahora bien, cuando existe multicolinealidad el hecho de que la razón “t” sea
baja, no significa que inevitablemente que hay que excluir la variable
explicativa.
4. Por otro lado, sin embargo, se puede obtener un R2 alto, que implica
significancia global, aun teniendo test “t” bajos.
5. Los estimadores MICO y sus errores estándar pueden ser sensibles a
pequeños cambios en la información (incluir o no una variable, etc.).
6BDemostración estimador MICO con varianza y covarianza grandes:
Para el modelo X(2.1)X las varianzas y covarianzas de 2 y 3 están dadas por:
2
2 2 2
2 23
ˆvar1ix r
(4.1)
Multicolinealidad 139
2
3 2 2
3 23
ˆvar1ix r
(4.2)
2
232 3 2 2 2
23 2 3
ˆ ˆcov1 i i
r
r x x
(4.3)
Donde r23 es el coeficiente de correlación entre X2 y X3.
De estas ecuaciones se entiende que a medida que r23 tiende a 1, o sea, a medida
que la colinealidad aumenta, la varianza del coeficiente aumenta. En el límite,
cuando r23 = 1 la varianza es infinita. Por el mismo argumento también aumenta la
covarianza entre ambos coeficientes.
La velocidad con la cual aumentan la varianza y covarianza puede verse con el
factor inflador de varianza (FIV), que para el modelo X(2.1)X (2 variables
explicativas) se define como:
2
23
1
1FIV
r
(4.4)
El mismo muestra como la varianzas de un coeficiente es inflada por la presencia
de la multicolinealidad. Cuando r223 tiende a 1, el FIV~ ∞. Si no hay colinealidad
entre las variables el FIV será 1.
Para el caso del modelo de k variables, la varianza de un coeficiente puede ser
expresada como:
2
2 2
1ˆvar1
j
j jx R
(4.5)
y
2
1FIV=
1 jR (4.6)
Sustituyendo X(4.6)X en X(4.5)X:
Multicolinealidad 140
2
2ˆvar FIVj j
jx
(4.7)
Que muestra que la varianza del estimador es directamente proporcional al FIV.
5. 4BDetección de la Multicolinealidad:
No se tiene un método único de detectarla o de medir su fuerza. Lo que existen son
ciertas reglas prácticas, algunas informales y otras formales, como son:
1. Un R2 alto y test “t” no significativos. Este es un síntoma clásico de
multicolinealidad. Aunque es un diagnóstico razonable, tiene la desventaja
de que es muy fuerte, en el sentido de que la multicolinealidad se considera
dañina únicamente cuando no se pueden separar la totalidad de las
influencias de las variables explicativas sobre la variable Y.
2. Altas correlaciones entre parejas de regresores. Esto se puede ver
mediante el coeficiente de correlación de orden cero entre los regresores. Si
es alrededor de 0.8 o más, el problema se puede considerar como grave.
Sin embargo, hay que tener cuidado. Las correlaciones de orden cero altas son
una condición suficiente pero no necesaria para la existencia de
multicolinealidad debido a que ésta puede existir, a pesar de que las
correlaciones de orden cero sean relativamente bajas. ¿Por qué? El coeficiente
de correlación simple muestra solamente la correlación entre 2 variables, sin
embargo puede existir una relación entre más de 2 variables explicativas.
3. Regresiones auxiliares. Una forma de encontrar cual variable está
altamente correlacionada con las otras, es efectuar la regresión de cada Xj
sobre las variables X restantes y calcular el R2 correspondiente, que se
designa R2
j. Cada una de estas regresiones se denomina regresión auxiliar.
Siguiendo la relación entre F y R2 tenemos:
2 3
2 3
2
2
2
1
1
j k
j k
X X X X
j
X X X X
R
kFR
n k
(5.1)
Multicolinealidad 141
que sigue una distribución F con k-2 y n-k+1 g. de l.
El R2Xj∙X2.X3...Xk es el coeficiente de determinación en la regresión de la variable
Xj sobre las X restantes.
Si F calculado > que F crítico se dice que el Xj particular es colineal con las
demás X restantes, en caso contrario no es colineal, y por tanto podemos
mantener la variable en el modelo.
En lugar de probar formalmente todos los R2 auxiliares, podemos adoptar la
regla práctica de Klein que sugiere que la multicolinealidad puede ser un
problema complicado solamente si el R2 obtenido de una regresión auxiliar es
mayor que el R2 global.
4. Factores de Tolerancia y de Inflación de Varianza. Mientras mayor es el
FIV, mayor problema o colinealidad tiene la variable Xj. Como regla
práctica, si el FIV > 10 se dice que la variable es altamente colineal.
Otros autores utilizan la medida de tolerancia para detectar el problema. Esta se
define como:
2 11
FIVj j
j
TOL R (5.2)
TOLj = 1 si Xj no está correlacionado con los otros regresores, TOLj = 0 si está
perfectamente correlacionado.
Sin embargo, FIV alto no es condición necesaria ni suficiente para tener
varianza y errores estándar altos. Esto es porque como se puede ver en X(4.7)X, la
ˆvar j depende de tres factores: 2 2, jx y FIVj los cuales pueden ser
contrarrestados entre si.
6. 5B¿Qué hacer?
Existen 2 opciones básicas: incorporar información adicional ó ¡no hacer nada! Se
pueden llevar a cabo las siguientes prácticas:
1. Aumentar la muestra. Ya que la multicolinealidad se puede deber a la
“micronumerosidad” o que la muestra haya sido extraída de un pequeño
Multicolinealidad 142
intervalo de la población, aumentar la muestra puede ayudar a aumentar la
ortogonalidad de las variables. Dado que:
2 2
2 2 2
ˆvar1 var 1
j
j j j jx R n X R
Cuando aumentamos la muestra aumentamos 2
jx , y por tanto disminuye
la varianza de ˆj .
Sin embargo, en economía muchas veces puede ser difícil aumentar la
muestra, bien porque puede ser muy costoso ó porque no existen los
registros estadísticos necesarios.
2. Especificar una relación entre parámetros. Si se tiene algún dato debido a
la teoría o a una regresión previa de la relación entre por ejemplo X2i y X3i se
puede imponer esta restricción en la regresión.
Por ejemplo el caso de la función de producción Cobb-Douglas linelizada:
1 2 2 3 3ln ln lni i i iY X X u (6.1)
Si suponemos rendimientos constantes a escala: 2 3 1
Entonces imponemos esta restricción en la ecuación antes de estimarla. Cabe
señalar que estas restricciones deben basarse en algún fundamento teórico.
3. Incorporar estimadores de otros estudios. Conocida como mezcla de
datos.
Por ejemplo, si queremos estimar la demanda de un bien y tenemos
informaciones de series de tiempo, podríamos utilizar la siguiente ecuación:
1 2 3ln ln lnt t t tY P I u (6.2)
Donde Q = cantidad vendida, P = precio promedio, I = ingreso.
Necesitamos estimar las elasticidades, pero P e I tienen alta colinealidad.
Una solución posible es calcular la elasticidad ingreso mediante datos de
Multicolinealidad 143
corte transversal, (como información generada a través de un grupo de
consumidores). Supongamos que la elasticidad ingreso calculada de esta
forma es igual a 1.1. Entonces la ecuación de series de tiempo puede
estimarse como:
1 2ln ln 1.1lnt t t tY P I u (6.3)
4. Eliminación de variables y sesgo de especificación. Una solución a la
multicolinealidad es eliminar una de las variables colineales. Sin embargo,
este método puede causar sesgo de especificación o error de especificación.
Lo cual es peor que el problema de multicolinealidad.
5. Transformación de variables. Supongamos que tenemos unos datos de
series de tiempo. Si tenemos la relación:
1 2 2 3 3t t t tY X X u (6.4)
Si esta relación se cumple en t, también se cumple en t-1:
1 1 2 2 1 3 3 1 1t t t tY X X u (6.5)
Restando ambas ecuaciones tenemos la ecuación en primeras diferencias:
1 2 2 2 1 3 3 3 1( ) ( )t t t t t t tY Y X X X X v (6.6)
Podemos eliminar multicolinealidad porque aunque X2 y X3 estén
correlacionadas, no necesariamente lo van a estar sus diferencias. Sin
embargo (6.6) puede tener el problema de que los errores están serialmente
correlacionados, con lo cual el remedio podría ser peor que la enfermedad.
6. Otros métodos. Técnicas estadísticas multivariadas como análisis de
factores y componentes principales. Estos no los veremos porque exceden
los límites de este curso.
7. ¡No hacer nada! Siempre que el único objetivo de la regresión sea el
pronóstico, la multicolinealidad no es un problema grave, ya que mientras
más alto el R2, mejor la predicción. La multicolinealidad no afecta las
propiedades de los estimadores, pues éstos siguen siendo MELI; la varianza
Multicolinealidad 144
es grande pero mínima. Simplemente asumimos que la multicolinealidad es
un problema muestral, la realidad es así y la muestra tiene éstos problemas.
Pero esto puede suceder siempre que los valores de las variables explicativas
para los cuales se desean las predicciones obedezcan a las mismas
dependencias lineales casi exactas de la matriz X (de los factores) de diseño
original, que es una condición difícil de conseguir en la práctica.
Capítulo 8
Heterocedasticidad
1. Naturaleza
Uno de los supuestos importantes del modelo clásico de regresión lineal es que la
varianza de cada término de error ui, condicional a los valores seleccionados de las
variables explicativas, es un número constante que llamamos σ2. Esto es lo que se
conoce como el supuesto de homocedasticidad:
2 2, 1,2,3...iE u i n (1.1)
2( ')E uu I (1.2)
Gráficamente la homocedasticidad en el modelo con dos variables se puede
observar en el primer gráfico de la siguiente página. Se observa que la varianza de
Y condicional a las Xi dadas permanece igual sin importar los valores que tome la
variable X. Esto se refleja en una varianza constante para la regresión, o sea
var(Yi)= σ2.
En contraste, si vemos el segundo gráfico, éste muestra que la varianza condicional
de Y aumenta a medida que X aumenta. Las varianzas no son las mismas, y por lo
tanto existe heterocedasticidad. Ahora 2 2
i iE u , entonces la varianza de ui ya
no es constante.
La heterocedasticidad es más probable de encontrar en estudios de corte transversal
que en aquellos de series de tiempo. Un ejemplo de este problema sería en un
estudio de corte transversal del ingreso y los gastos familiares, se esperaría que los
individuos de ingresos bajos gasten a un ritmo constante mientras que los de
ingresos altos tengan patrones de gastos relativamente volátiles.
Heterocedasticidad 146
1
X
Y = 1 +2Xi
Y
X3 X5 X4 X1 X2
X3 X5 X4 X1 X2
1
X
Y = 1 +2Xi
Y
Heterocedasticidad 147
Existen varias razones por las cuales las varianzas de ui pueden ser variables, como
son:
a) Con base en modelos de aprendizaje sobre errores: a medida que la gente
aprende, con el tiempo, sus errores de comportamiento se hacen menores,
entonces la varianza tiende a reducir.
b) A medida que aumentan los ingresos, la gente posee más ingreso discrecional:
por lo tanto, tiene mayores posibilidades de selección con respecto a la forma
de disponer de su ingreso.
c) A medida que mejoran las técnicas de recolección de la información, es posible
que la varianza se reduzca.
d) La heterocedasticidad puede surgir como resultado de la presencia de factores
atípicos (outliers): La inclusión de una variable de este tipo puede alterar los
resultados de la regresión, especialmente si la muestra es pequeña.
e) La heterocedasticidad puede surgir por la mala especificación del modelo: Al
omitir una variable relevante para el modelo por ejemplo. Una mala
especificación puede hacer que los residuos obtenidos den la impresión de que
existe heterocedasticidad.
2. Estimación en presencia de heterocedasticidad
Vamos a considerar el modelo clásico con dos variables, pero ahora vamos a
suponer que se viola el supuesto de homocedasticidad,:
1 2i i iY X u (2.1)
Y aplicando la fórmula conocida de MICO tenemos:
2 2ˆ i i
i
x y
x
(2.2)
Sustituyendo (2.1) en (2.2), utilizando ki y sus propiedades:
Heterocedasticidad 148
2 1 2
1 2
1 2
2 2
ˆ
ˆ
i i i i i
i i i i i
i i i i i
i i
k Y k X u
k k X k u
k k X k u
k u
Aplicando el operador de esperanza:
2 2 2ˆ
i i i iE E k u k E u
2 2ˆE
Por tanto, aun bajo la presencia de heterocedasticidad, el estimador sigue siendo
insesgado. Obtengamos ahora su varianza:
21
2 2
2 2 2
2
1 1 2 2
1 1 2 2 1 1 2 2
2 2 2 2
1 1 1 2 1 2 1 3 1 3 2 2 2 1 2 1
2 2
1 1 1 2 1 2 1 3 1 3
0 0
ˆ ˆvar
...
... ...
... ...
...
i i
n n
n n n n
E E k u
E k u k u k u
E k u k u k u k u k u k u
E k u k k u u k k u u k u k k u u
k E u k k E u u k k E u u
2 22
2 2 2 2
2 2 2 1 2 1
0
22 2
2 2 2
22 2
...
n
n n
i iii i i
i i i
k E u k k E u u k E u
xxk
x x
La varianza ahora es:
2 2
2 22
ˆvari i
i
x
x
(2.3)
que difiere de la fórmula habitual bajo el supuesto de homocedasticidad:
Heterocedasticidad 149
2
2 2ˆvar
ix
(2.4)
Suponga que 2 2
i ik donde σ2 es una constante y ki son ponderaciones
conocidas, pero no necesariamente iguales. Si sustituimos en (2.3), tenemos:
2 2 2 2 22
2 2 2 2 22 2
ˆvari i i i i i
i ii i
x x k x k
x xx x
Donde el primer término del lado derecho es la varianza del estimador MICO de β2
bajo el supuesto de homocedasticidad.
¿Cuál es la relación de 2ˆvar bajo homocedasticad y bajo heterocedasticidad?
Si el segundo término del lado derecho es mayor que uno, 2 2
i i ix k x la
varianza heterocedástica será mayor a la homocedástica, por lo que si utilizamos
esta última, subestimamos la varianza heterocedástica, inflando los estadísticos t y
F. Si 2 2
i i ix k x , ocurre lo contrario. Por tanto, la subestimación o
sobreestimación de la varianza de β2, depende de la relación entre σ2 y la variable
Xi.
En cuanto al modelo general expresado en forma matricial, cuando se viola el
supuesto de homocedasticidad:
2
1 1 2 11
2
2 2 1 2 2
1 2 1
21 1 2
211
222 22
2
( )
( )'
( )
0 00 0
0 00 0
0 00 0
n
n
n n
n n n n nn n
nn
E u E u u E u uu
u E u u E u E u uE E u u u
u E u u E u u E u
uu
Heterocedasticidad 150
Sabemos que YX'XX'β1ˆ
y uXβY . Sustituyendo tenemos:
1
1 1
1
ˆ
β X'X X' Xβ u
X'X X'Xβ X'X X'u
β X'X X'u
Aplicando el operador de esperanza:
1ˆ( )
ˆ( )
E E E
E
β β X'X X'u
β β
Por lo tanto β es insesgado, a pesar de la presencia de heterocedasticidad, debido a
que este supuesto no es necesario para demostrar insesgamiento. Ahora veamos la
varianza:
1 1
1 1
1 1
1 12
ˆ ˆ ˆ ˆ ˆvar cov ( ) ( ) '
ˆ ˆ '
'
'
'
E E E
E
E
E
E
β β β β β
β β β β
X'X X'u X'X X'u
X'X X'uu X X'X
X'X X' uu X X'X
X'X X' ΩX X'X
1 12ˆvar cov
β X'X X'ΩX X'X (2.5)
Esta varianza se diferencia de las encontradas bajo el supuesto de homocedasticidad, donde
12ˆvar cov
β X'X
Heterocedasticidad 151
3. ¿Que pasa con el estimador MICO en presencia de
heterocedasticidad?
El estimador MICO, ya no es el mejor estimador lineal insesgado (MELI).
Mantiene la propiedad de linealidad e insesgadez, pero ya no es el mejor de los
estimadores, pues no tiene la varianza mínima. Por lo tanto este estimador sería
consistente pero no eficiente.
Lo que sucede es que la estimación MICO en presencia de heterocedasticidad, trata
con igual ponderación una observación de una población de varianza elevada y una
de varianza pequeña, cuando lo más razonable sería dar más ponderación a las
observaciones provenientes de poblaciones con menores varianzas respecto de las
de mayor varianza. Esto afecta los distintos tests y la inferencia se hace inválida.
Si utilizamos el estimador MICO ignorando heterocedasticidad, entonces el
estimador MICO de la 2ˆvar será un estimador sesgado, que además subestima
o sobreestima la varianza, por lo tanto las pruebas t y F usuales y los intervalos de
confianza resultarán erróneos. El sesgo viene dado porque el estimador de 2 ,
2 2ˆie n k , no es insesgado cuando se viola el supuesto de
homocedasticidad.
Por tanto, utilizar el estimador MICO en presencia de heterocedasticidad puede
provocar errores importantes. Para evitarlos, se utiliza un método de estimación
alternativo: Mínimos Cuadrados Generalizados.
ˆ ˆvar varMCG MICOHeterocedástico
β β
4. Mínimos Cuadrados Generalizados (MCG)
Este método de estimación tiene en cuenta la existencia de varianzas no
homocedásticas, y por lo tanto nos permite obtener estimadores que sí serán MELI.
Lo que hace el método de MCG es ponderar de forma diferente las observaciones,
dando mayor ponderación a las observaciones con menor varianza, ya que estas
son más precisas para señalar por donde pasa la función de regresión poblacional.
Heterocedasticidad 152
Si consideramos nuevamente el modelo de dos variables ya visto:
1 2i i iY X u (4.1)
que podemos rescribir como:
1 01 2i i iY X X u (4.2)
Donde X0i = 1.
Si las varianzas heterocedásticas son conocidas dividimos a ambos lados por σi:
01 2
i i i i
i i i i
Y X X u
(4.3)
Esto podemos rescribirlo como:
0
* * * * * *
1 2i i iiY X X u (4.4)
Las variables X con “*” quieren decir las variables transformadas y los beta “*”
son para diferenciarlos de los MICO.
Para ver el propósito de transformar las variables, veamos la siguiente
característica del error transformado:
22
* *
22
2 2
var
11
ii i
i
ii
i i
uu E u E
E u
(4.5)
Dado que 2
i es conocida y 2
i iE u
La varianza de *var( )iu es igual a la unidad, o sea es una constante, por lo tanto es
homocedástica. Entonces si se aplica la estimación MICO al modelo transformado,
se producirán estimadores MELI. Por lo tanto *
1 y *
2 son eficientes.
Heterocedasticidad 153
En resumen, MCG es MICO sobre las variables transformadas que satisfacen
los supuestos estándar de mínimos cuadrados. Los estimadores así obtenidos
se conocen como estimadores MCG y éstos son los estimadores que son MELI.
Para obtener los estimadores MCG se minimiza los residuos al cuadrado del
modelo transformado:
2
*2 * * * * *
1 0 2ˆmin i i i ie Y X X (4.6)
2
2 * * *
1 0 2ˆmin i i i i i iwe w Y X X
donde wi = 1/ 2
i , es decir las observaciones son ponderadas inversamente
proporcional por la varianza de ui.
2
* *
1 2*
1
* *
1 2
* *
1 2
* * * *
1 2
* * * *
1 2
ˆ ˆ2 ( )( 1) 0ˆ
ˆ ˆ( ) 0
ˆ ˆ 0
ˆ ˆ 0
ˆ ˆ 0
ie
i i
i i i
i i i
i i i i i
i i
nn
w ew Y X
w Y X
wY w w X
Y X
Y X
Despejando 1 tenemos:
* * * *
1 2ˆ ˆY X (4.7)
Resolviendo para 2 :
*1
2
* *
1 2*
2
* * 2
1 2
ˆ
* * * * 2
2 2
ˆ ˆ2 ( )( ) 0ˆ
ˆ ˆ 0
ˆ ˆ 0
i i
i i i i
i i i i i i i
i i i i i i i
w ew Y X X
wY X w X w X
wY X Y X w X w X
(4.8)
Heterocedasticidad 154
* * * * 2
2 2
* * 2
2 2
* * 2
2 2
* 2
2
*
2
ˆ ˆ
ˆ ˆ
ˆ ˆ
ˆ
ˆ
i i i i i i i
i i i i
i i i i i i i
i i
i i i i i i i i
i i i i i
i i
i i i i i i i i
i i i i i
i i
i i
wY X Y X w X w X
wY w XwY X w X w X
w w
wY w X w X w XwY X w X
w w
wY w X w X w XwY X w X
w w
wY X
2
*
2 2ˆ
i i i i
i
i
i i i i
i i
i
i i i i i i i i i
i i i i i i i
wY w X
w
w X w Xw X
w
w wY X w wY w X
w w X w X w X
El estimador MCG de *
2 es:
*
2 22
ˆ i i i i i i i i
i i i i i
w w X Y w X wY
w w X w X
(4.9)
donde wi = 1/ 2
i . Su varianza está dada por:
*
2 22
ˆvari
i i i i i
w
w w X w X
(4.10)
4.1 Derivación MCG en forma matricial
Heterocedasticidad 155
Sabemos que uXβY y bajo el supuesto de heterocedasticidad 2'E uu .
Necesitamos modificar el modelo, de forma tal que el error sea homocedástico, por
tanto supongamos una matriz T que transforma los datos:
TY = TXβ +Tu
= TXβ + v (4.11)
Donde v Tu y requerimos que 2'E vv I
2 2var 'E E E v vv Tuu'T' T uu' T' T ΩT' TΩT'
Donde necesitamos TΩT'= I , por tanto 1 1 Ω T T' y:
1 Ω T'T (4.12)
La matriz T debe cumplir el requisito (4.12), para que pueda cumplirse el supuesto
de homocedasticidad del modelo trasnformado (4.11).
Los estimadores MCG equivalen a los estimadores MICO sobre el modelo
transformado (4.11):
1 1
1 1
1 1 1 1
1 1
ˆ ' '
' ' ' '
' '
' '
' ' ' '
' '
-1
MCG
-1
-1
-1
-1 -1
-1
β = TX TX TX TY
X T TX X T TY
X Ω X X Ω Y
= X Ω X X Ω Xβ +u
X Ω X X Ω Xβ X Ω X X Ω u
β X Ω X X Ω u
(4.13)
Propiedades del estimador MCG
Sesgo
1 1ˆ ' '
ˆ
E E E
E
-1
MCG
MCG
β = β X Ω X X Ω u
β = β
(4.14)
Heterocedasticidad 156
Varianza
1 1 1 1
1 1 1 1
1 1 1 1
1
ˆ ˆ ˆ ˆ ˆvar ( ) ( ) '
ˆ ˆ '
' ' ' ' '
' ' ' '
' ' ' '
'
E E E
E
E
E
E
MCG MCG MCG MCG MCG
MCG MCG
-1 -1
-1 -1
-1 -1
β β β β β
β β β β
X Ω X X Ω u X Ω X X Ω u
X Ω X X Ω uu Ω X X Ω X
X Ω X X Ω uu Ω X X Ω X
X Ω X1 2 1 1
2 1
' '
'
-1 -1
-1
X Ω ΩΩ X X Ω X
X Ω X
2 1ˆvar ' -1
MCGβ X Ω X (4.15)
Puede demostrarse que (4.15) cumple con el teorema de Gauss-Markov.
Estimador de σ2
El estimador de 2 es:
2 ˆ ˆ'ˆ
n k
v v (4.16)
Donde ˆˆ MCG
v TY TXβ , y sustituyendo en (4.16):
Heterocedasticidad 157
2
1
ˆ ˆ'ˆ ˆ'ˆ
ˆ ˆ' '
ˆ ˆ'
n k n k
n k
n k
MCG MCG
MCG MCG
MCG MCG
TY TXβ TY TXβv v
Y Xβ T T Y Xβ
Y Xβ Ω Y Xβ
1
2
ˆ ˆ'ˆ
n k
MCG MCGY Xβ Ω Y Xβ
(4.17)
Diferencia entre MICO y MCG:
MCG minimiza una suma ponderada de residuos al cuadrado donde wi actúa como
un ponderador, en cambio que MICO minimiza la SRC sin ponderar. Como lo que
tratamos es de estimar una función de regresión poblacional (FRP), la idea es
ponderar con un peso relativamente mayor las observaciones más cercanas a la
media (poblacional), que aquellas que están más dispersas.
Como en (4.6) se minimiza la SRC ponderados, estos estimadores se conocen
como Mínimos cuadrados ponderados (MCP), que son un caso particular de los
MCG (veremos otra aplicación de MCG en el caso de autocorrelación).
5. Detección de la heterocedasticidad
Métodos informales:
Naturaleza del problema: con mucha frecuencia, la naturaleza del problema
en estudio sugiere la posibilidad de que exista heterocedasticidad,
principalmente cuando se trabaja con datos de corte transversal.
Método gráfico: Una vez estimado el modelo, la inspección y análisis de los
residuos permite detectar la presencia de heterocedasticidad, dado que
pueden considerarse como “proxies” de las perturbaciones aleatorias:
1 2i i ie Y X
Heterocedasticidad 158
La representación gráfica de los residuos al cuadrado (o en valor absoluto) frente a
los valores de las variables explicativas puede permitir valorar la presencia de
heterocedasticidad y, en su caso, la posible causa de ésta. Una pauta clara de
crecimiento o decrecimiento del cuadrado de los residuos indicaría un
crecimiento/decrecimiento de la varianza de las perturbaciones aleatorias con la
variable en cuestión. Otra opción útil en el caso de 2 o más variables explicativas
es graficar los residuos al cuadrado (o en valor absoluto) respecto a los valores
estimados de la variable dependiente.
Un ejemplo claro de presencia de heterocedasticidad se observa en los siguientes
diagramas:
Métodos Formales:
Existen diversos test de hipótesis que pueden plantearse para valorar el fenómeno
de la heterocedasticidad, pero pueden clasificarse en dos grupos:
Heterocedasticidad 159
a. Los que parten de asignar una estructura concreta (heterocedasticidad
directa):
Goldfeld y Quandt (1965)
Glejser (1969)
Park (1966)
Breusch, Pagan & Godfrey (1978, 1979)
b. Los que no suponen una estructura concreta (heterocedasticidad indirecta):
White (1980)
Test de homogeneidad de varianzas de Barlett (1949)
5.1 Prueba de Park
Park formaliza el método gráfico sugiriendo que 2
i es algún tipo de función de la
variable explicativa Xi.
La forma funcional que sugiere es:
2 2 iv
i iX e
2 2ln ln lni i iX v
Esta prueba se realiza en dos etapas:
1. Se corre la regresión por MICO ignorando la heterocedasticidad en los datos, y
se recupera el error estimado ˆiu .
2. Como generalmente no conocemos 2
i utilizamos 2ˆiu como proxy y corremos la
siguiente regresión:
2 2ˆln ln lni i iu X v
Si β es significativo, existe heterocedasticidad en los datos. En caso contrario
se acepta el supuesto de homocedasticidad.
Esta prueba tiene un inconveniente, y es que el término de error iv puede ser
heterocedástico.
5.2 Prueba de Glejser
Heterocedasticidad 160
Esta prueba es similar a la de Park, pero a diferencia de ésta, no se restringe la
heterocedasticidad a una sola forma funcional, y propone varias formas que ésta
podría adoptar. Los pasos para aplicar esta prueba son los siguientes:
1. Se realiza la estimación MCO del modelo original y se obtienen los residuos.
2. Se realiza la regresión de los valores absolutos de los residuos frente a los
valores de la exógena que parece causar la heterocedasticidad. En sus
experimentos Glejser utilizó las formas funcionales siguientes:
1 2ˆ
i i iu X v (6.1)
1 2ˆ
i i iu X v (6.2)
1 2ˆ
i i iu X v (6.3)
1 2
1ˆ
i i
i
u vX
(6.4)
1 2ˆ
i i iu X v (6.5)
2
1 2ˆ
i i iu X v (6.6)
La significación estadística, valorada mediante el estadístico “t” del coeficiente,
indicará tanto la presencia de heterocedasticidad (la variabilidad no es constante)
como su estructura (depende de X).
Sin embargo presenta inconvenientes, ya que el término de error iv tiene
problemas pues su valor esperado es distinto de cero, está correlacionado y puede
presentar heterocedasticidad1. No obstante, Glejser ha encontrado que para
muestras grandes, los cuatro primeros modelos son satisfactorios. Tiene la ventaja
de que trata de estimar la verdadera forma de la heterocedasticidad.
Por otro lado modelos como el (6.5) y (6.6) son no-lineales en los parámetros, por
lo cual no pueden ser estimados por MICO.
5.3 Prueba de Goldfeld-Quandt
Este método es aplicable si se supone que la varianza heterocedástica está
relacionada monotónicamente con una de las variables explicativas del modelo de
regresión.
1 Ver Goldfeld, S. M. and R. E. Quandt (1972). Capítulo 3. Nonlinear Methods in Econometrics. Amsterdam, North
Holland Publishing Company.
Heterocedasticidad 161
Esta prueba se hace mediante los siguientes pasos:
1. Ordenar las observaciones de acuerdo a los valores de Xi, empezando por el
valor de X más bajo.
2. Omitir “c” observaciones centrales, que han sido especificadas a priori y dividir
las observaciones restantes (n-c) en dos submuestras, cada una de (n-c)/2
observaciones.
3. Correr las regresiones MICO por separado cada submuestra y luego obtener las
SRC1 y SRC2 respectivas. Donde la primera corresponde al grupo de varianzas
pequeñas y la segunda al de varianzas grandes. Con ( )
2
n ck
o
( 2 )
2
n c k
grados. de libertad.
4. Calcular el estadístico2:
2
2
1 1
2
2
SRCn c
kSRC
FSRC SRC
n ck
ó
2
2
2
21 1
ˆ2ˆ
2
SRCn c
kF
SRCn c
k
Donde ,
2 2
n c n ck k
F F
Si el F calculado es mayor que el crítico, se rechaza la hipótesis nula de
homocedasticidad3.
El numero “c” de observaciones a excluir debe ser aproximadamente una cuarta
parte de la muestra, o sea c=n/4.
Si se tiene un modelo de regresión múltiple, y no hay seguridad de cual varible X
es la causante de la heterocedasticidad, se debe realizar la prueba sobre cada una de
las varibles explicativas.
2 El mayor valor debe incluirse en el numerador, por lo que debe comprobarse que SRC2>SRC1, en caso contrario se
debe incluir SRC1 en el numerador.
3 Si SRC2>SRC1, la hipótesis alterna es que la relación heterocedástica de X es creciente, en cambio si SRC1>SRC2,
la hipótesis alterna es que la relación heterocedástica de X es creciente y viceversa.
Heterocedasticidad 162
5.4 Prueba de White
Para esta prueba se procede de la siguiente forma:
1. Se realiza la estimación por MICO del modelo original y se obtienen
los residuos. Supongamos que nuestro modelo es:
1 2 2 3 3i i i iY X X u (6.7)
2. Se realiza la regresión auxiliar de los cuadrados de los residuos frente
a todas las exógenas, sus cuadrados y los productos cruzados:
2 2 2
1 2 2 3 3 4 2 5 3 6 2 3i i i i i i i ie X X X X X X v (6.8)
3. Se obtiene el coeficiente de determinación de la regresión auxiliar y el
producto de éste por el número de observaciones se distribuye, bajo la
hipótesis nula de homocedasticidad, como una ji-cuadrado con p
grados de libertad, siendo p el número de regresores en la regresión
auxiliar, o sea p=k-1 (cinco en nuestro caso). Si el producto nR2 es
mayor que 2
p al nivel de confianza fijado, entonces se rechaza la
hipótesis de homocedasticidad y se admite la presencia de
heterocedasticidad.
6. Soluciones al problema de heterocedasticidad.
6.1 Cuando 2
i es conocida
En este caso el método más directo de corregir la heterocedasticidad es utilizar
Mínimos Cuadrados Generalizados (MCG) conocidos también como Mínimos
cuadrados Ponderados (MCP), ya que los estimadores obtenidos por este método
son MELI.
6.2 Cuando 2
i es no conocida
Varianzas y errores estándar consistentes con heterocedasticidad de White
Cuando no conocemos 2
i White ha demostrado que existe una forma de obtener
estimaciones que sean asintóticamente válidas. Existen diversos paquetes que
presentan los errores varianzas y errores estándar bajo la corrección de
Heterocedasticidad 163
heterocedasticidad de White en forma simultánea con los de MICO. Los errores
estándar de White pueden ser mayores o menores que los de MICO.
Supuestos razonables sobre el patrón de heterocedasticidad
Una desventaja del método de White, además de ser un método para muestras
grandes, es que los estimadores obtenidos por este medio pueden no ser tan
eficientes como aquellos obtenidos por métodos que transforman la información
para reflejar tipos específicos de heterocedasticidad.
Una alternativa al método de White, es hacer supuestos sobre el patrón de
heterocedasticidad y aplicar la transformación de MCG, los cuales pasan ahora a
llamarse Mínimos Cuadrados Generalizados Factibles (MCGF).
Pueden tenerse diversos supuestos sobre el patrón de heterocedasticidad, y
dependiendo de éstos se hace la transformación al modelo original:
Supuesto 1: la varianza del error es proporcional a X2
i: 2 2 2
i iE u X
2 2 2
2
1
2
2
2 2
3
2
var
0 0 0
0 0 0
0 0 0
0 0 0 0
i i
n
u X
X
X
X
X
Ω
Heterocedasticidad 164
2
1
2
2
2
3
2
1 0 0 0
10 0 0
10 0 0
10 0 0 0n
X
X
X
X
-1Ω
Dado que 1 Ω T'T, entonces:
1
2
3
1 0 0 0
10 0 0
10 0 0
10 0 0 0n
X
X
X
X
T
Estimamos el modelo transformado ó ponderado TY = TXβ +Tu =TXβ+ v , lo
cual equivale a transformar el modelo original de la siguiente forma:
12
1 2
1
i i
i i i
i
i
Y u
X X X
vX
Por lo tanto, la varianza es:
2
2
2 2 2 2
2 2
( )
1 1
ii
i
i i
i i
uE v E
X
E u XX X
Heterocedasticidad 165
que implica que la varianza es homocedástica.
Supuesto 2: la varianza del error es proporcional a Xi: 2 2
i iE u X
2 2
1
2
2
3
var
0 0 0
0 0 0
0 0 0
0 0 0 0
i i
n
u X
X
X
X
X
Ω
1
2
3
1 0 0 0
10 0 0
10 0 0
10 0 0 0n
X
X
X
X
-1Ω
Dado que 1 Ω T'T, entonces:
1
2
3
1 0 0 0
10 0 0
10 0 0
10 0 0 0n
X
X
X
X
T
Heterocedasticidad 166
Estimamos el modelo transformado ó ponderado TY = TXβ +Tu =TXβ+ v , lo
cual equivale a transformar el modelo original de la siguiente forma:
12
1 2
1
i ii
i i i
i i
i
Y uX
X X X
X vX
Por lo tanto, la varianza es:
2
2
2 2 2
( )
1 1
ii
i
i i
i i
uE v E
X
E u XX X
que implica que la varianza es homocedástica.
Supuesto 3: la varianza del error es proporcional al cuadrado del valor medio de
Y: 22 2
i iE u E Y .
22 2
2
1
2
2
2 2
3
2
var
0 0 0
0 0 0
0 0 0
0 0 0 0
i i
n
u E Y
E Y
E Y
E Y
E Y
Ω
Heterocedasticidad 167
2
1
2
2
2
3
2
1 0 0 0
10 0 0
10 0 0
10 0 0 0n
E Y
E Y
E Y
E Y
-1Ω
Dado que 1 Ω T'T, entonces:
1
2
3
1 0 0 0
10 0 0
10 0 0
10 0 0 0n
E Y
E Y
E Y
E Y
T
Estimamos el modelo transformado ó ponderado TY = TXβ +Tu =TXβ+ v , lo
cual equivale a transformar el modelo original de la siguiente forma:
Se transforma el modelo original de la siguiente forma:
12
1 2
1
i i i
i i i i
ii
i i
Y X u
E Y E Y E Y E Y
Xv
E Y E Y
Se puede demostrar que en este caso también, 2 2( )iE v .
Heterocedasticidad 168
Por otra parte, una transformación logarítmica tal como 1 2log logi i iY X u
con gran frecuencia reduce la heterocedasticidad cuando se compara con la
regresión sin logaritmos.
Capítulo 9
Autocorrelación
Uno de los supuestos formulados para el Modelo Clásico de Regresión Lineal, es
que no existe autocorrelación del término estocástico iu de la función de regresión
poblacional. En este capítulo veremos cual es la naturaleza de la autocorrelación,
sus las consecuencias teóricas y prácticas, como detectar su presencia y como
remediar el problema.
1. Definición
El término autocorrelación se puede definir como “la correlación entre miembros
de series de observaciones ordenadas en el tiempo (como series de tiempo) o en el
espacio (como datos de corte transversal)”1. En el contexto de regresión, el método
clásico supone que tal autocorrelación de los errores iu no existe.
El modelo clásico supone 0i jE u u i j
Mientras que la autocorrelación implica 0i jE u u i j
Podemos observar los patrones de autocorrelación, observando las gráficas de los
errores en el tiempo, o bien los errores en el periodo t versus el errores en t-s,
donde s es el orden del rezago de correlación.
2. Causas de la autocorrelación
Algunas de las causas de la autocorrelación se deben a:
1 Maurice G. Kendall y William R. Buckland, A Dictionary of Statistical Terms, Hafner Publishing Company, New
York, 1971, p. 8.
Autocorrelación 170
Error de especificación: Forma Funcional Incorrecta. Si el modelo
verdadero de una función de costos es:
2
1 2 3i i i iY X X u
donde Y = Costo marginal, X = producción, pero estimamos:
1 2i i iY X v
Entonces el patrón de errores será sistemático, como se muestra en la siguiente
gráfica:
Algo similar ocurre cuando la muestra presenta cambio estructural, los residuos
pueden presentar patrones sistemáticos antes y después del cambio estructural.
Error de especificación: Omisión de una variable relevante. El no incluir en
el modelo una variable autocorrelacionada provocará un residuo
autocorrelacionado.
Si el modelo es 1 2 2 3 3t t t tY X X u
Pero estimamos 1 2 2t t tY X v
Forma funcional estimada
Errores positivos o negativos
Verdadera forma
Co
sto
mar
gin
al
Producción
Autocorrelación 171
donde: 3 3t t tv u X
Si 3X presenta autocorrelación, entonces tv estará autocorrelacionada, en
consecuencia, la solución es incorporar 3X .
En adelante, supondremos que la autocorrelación no está provocada por errores de
especificación
Influencia prolongada de shocks. En las series de tiempo, los shocks en
general persisten por más de un período. Por ejemplo, en el caso de un
terremoto, probablemente este afectará la actividad económica durante varios
de los periodos siguientes a que éste ocurra.
Inercia. También conocida como lentitud, es una característica relevante en la
mayoría de las series de tiempo económicas, las cuales suelen presentar ciclos
que se repiten a través del tiempo, y en el que se hechos pasados tienen efectos
en el presente.
Rezagos. Hay modelos que requieren rezagos tanto de la variable dependiente
como de una o varias de las explicativas2. Si esta relación es ignorada al
momento de hacer la regresión, el error recogerá este patrón sistemático de la
serie, presentando autocorrelación.
“Manipulación” de datos. En ocasiones los datos trimestrales son el resultado
de promediar los datos de los meses pertinentes, lo cual crea un suavizamiento y
elimina fluctuaciones de la información mensual. En otros casos, a falta de
alguna observación, esta se suele interpolar o extrapolar en base a los datos de
la muestra y algunos supuestos.
El Fenómeno de la Telaraña. La oferta de muchos productos agrícolas se
refleja lo éste fenómeno, donde la oferta reacciona al precio con un rezago de
un periodo debido a que la implementación de las decisiones de oferta toman
tiempo, lo cual suele expresarse como 1 2 1t t toferta P u . Si tras el
periodo t, existen excedentes de producción, los agricultores reducirán entonces
su producción para el periodo t+1, produciéndose el patrón de la telaraña.
2 Por ejemplo, el consumo de un periodo, no sólo depende del ingreso en dicho periodo, sino también del consumo
en el periodo anterior, debido a que las personas suelen tener hábitos en el consumo.
Autocorrelación 172
Autocorrelación espacial. En datos de corte transversal regional, un shock
aleatorio que afecta la actividad económica de una región puede causar que la
actividad económica de regiones adjuntas corran la misma suerte, es decir,
ocurre el efecto vecindad.
3. Estimación en presencia de autocorrelación
Debemos suponer el mecanismo que genera las tu ya que el supuesto de que
0t t sE u u para 0s es muy general. Podemos pensar en las siguientes
formas:
Autorregresivo de primer orden [ AR(1) ]
Se define como:
1t t tu u (3.1)
con 1 1 , donde se conoce como coeficiente de autocorrelación de primer
orden y t es un error estocástico conocido como ruido blanco, el cual cumple con
las siguientes propiedades:
2
0
var
cov , 0 0
t
t
t t s
E
s
(3.2)
Podemos demostrar, tomando la definición de coeficiente de correlación que3:
1 1 1
11
cov
varvar var
t t t t t t
tt t
E u E u u E u u u
uu u
Demostrar:
2
2var
1tu
,
2
2cov ,
1
s
t t su u
, ( , ) s
t t scorr u u
3 Suponemos que 0tE u y la varianza sigue siendo constante, por lo que 1var vart tu u . equivale al
coeficiente de pendiente de una regresión entre tu y 1tu .
Autocorrelación 173
El nombre de autorregresivo se debe a que es una regresión del error ut sobre el
mismo, pero con rezago. Se dice que es de primer orden, porque solamente está
regresado con el primer rezago, así un esquema autorregresivo de orden p, se
representa como:
1 1 2 2 ...t t t p t p tu u u u , donde 1 1t p (3.3)
Media Móvil de primer orden [ MA(1) ]
Se define como:
1t t tu v v
donde v es un término de perturbación aleatorio con media cero y varianza
constante; y es una constante tal que 1 . La media móvil de primer orden
MA(1), equivale a un promedio de dos variables aleatorias adyacentes. Existen
también procesos MA de órdenes mayores.
ARMA ( 1,1 )
Es una combinación de procesos autorregresivos de primer orden y media móvil de
primer orden, el cual se representa como:
1 1t t t tu u v v
Concepto de estacionariedad
Una variable es no estacionaria cuando la relación entre las observaciones de t y t-
1 se tiene un 1 . Durante este curso, supondremos siempre, que -1 y
1 , al menos que se indique lo contrario. Los shocks de una variable no
estacionarios, son permanentes ¿por qué?
3.1 Estimación utilizando MICO
Supongamos por su simplicidad y amplia utilización, que el proceso de generación
de los errores es un AR(1); el estimador MICO sigue siendo:
Autocorrelación 174
2 2ˆ t t
t
x y
x
(3.4)
Sin embargo, su varianza ahora es:
1 2
2 2 1 22 11 1 1
2 2 21 2 2 2
1 1 1
2ˆvar .......
n n
t t t tnt t n
n n nAR
t tt t t
t t t
x x x xx x
x xx x x
(3.5)
Podemos contrastar (3.5) con la varianza sin autocorrelación dada por
2
2 2ˆvar
tx
(3.6)
Vemos que (3.5) es igual a (3.6) más un término que depende de y de las
covarianzas muestrales entre los valores que toma X. A priori, no se puede afirmar
que 2ˆvar es mayor o menor que 2
1
ˆvarAR
.
En presencia de autocorrelación nuevamente 2 no es MELI; es lineal e insesgado,
pero ya no es eficiente, pues no tiene la mínima varianza.
3.2 Estimador de Mínimos Cuadrados Generalizados (MCG)
Al igual que con heterocedasticidad, podemos utilizar el MCG para obtener
estimadores que sean MELI, ya que incorpora información adicional sobre las
varianzas-covarianzas, en el procesos de estimación mediante la transformación de
variables.
Bajo un proceso AR(1) es posible demostrar que el estimador MELI de 2 está
dado por:
1 1
22
2
1
2
ˆ
n
t t t tMCG t
n
t t
t
x x y y
C
x x
Autocorrelación 175
2
22
1
2
ˆvar MCG
n
t t
t
D
x x
donde C y D son factores de corrección de la primera observación que pueden ser
ignorados en la práctica.
Una forma intuitiva de obtener los estimadores es la siguiente. Supongamos un
modelo de regresión de dos variables:
1 2t t tY X u (3.7)
rezagando (3.7) en un período, tenemos
1 1 2 1 1t t tY X u (3.8)
Multiplicando (3.8) por ρ se obtiene:
1 1 2 1 1t t tY X u (3.9)
Si restamos (3.9) de (3.7):
1 1 2 2 1 1
1 2 1
1 2
( ) (1 ) ( )
(1 ) ( )
t t t t t t
t t t
t t t
Y Y X X u u
X X
Y X
1 2t t tY X (3.10)
donde 1t t tu u , *
1 1 1 , *
1t t tY Y Y , *
1t t tX X X .
Este modelo se conoce como ecuación en diferencias generalizada o
cuasidiferencias y equivale a Mínimos Cuadrados Generalizado (MCG).
Autocorrelación 176
4. Consecuencias de utilizar MICO en presencia de
autocorrelación
Si admitimos la autocorrelación y usamos 21
ˆvarAR
, es probable que los
intervalos de confianza sean más amplios que si usamos MCG. Por lo tanto 2 es
insesgado y consistente, pero no eficiente.
Ahora bien, si utilizamos MICO ignorando la autocorrelación, la situación es aún
más grave:
Es probable que la varianza de los residuos
2
2ˆ
ˆ2
tu
n
subestime la
verdadera varianza.
Por lo tanto, es posible que se sobreestime R2.
Aunque no se subestimara 2 , puede que 2ˆvar subestime a 2
1
ˆvarAR
.
Las pruebas t y F dejan de ser válidas y de ser aplicadas nos llevarán a
conclusiones erróneas sobre la significancia estadística.
Para un proceso de autocorrelación AR(1), puede mostrarse que:
12 1
2
2 1
22
1ˆ
2
n
t ttn
tt
x xn
xE
n
(4.1)
Si 11
2
1
n
t tt
n
tt
x x
x
y son positivos (algo muy probable), entonces 2 2ˆE , es decir,
la formula usual de la varianza de los residuos en promedio subestimará la
verdadera varianza, o sea que será sesgada hacia abajo, y lo mismo ocurrirá con
2ˆvar .
Asimismo, aun no sea subestimada, según lo mostrado anteriormente comparando
(3.5) y (3.6), la 2ˆvar será un estimador sesgado de 2
1
ˆvarAR
.
Autocorrelación 177
5. Detección de la autocorrelación
5.1 Método gráfico
El simple análisis de los residuos obtenidos puede confirmar la presencia de
errores mal comportados. Los residuos y los residuos estandarizados con el tiempo.
5.2 Prueba de Durbin-Watson
El estadístico Durbin-Watson se define como:
2
1
2
2
2
ˆ ˆ
ˆ
t n
t t
t
t n
t
t
u u
d
u
(5.1)
A diferencia de las pruebas t, F o Ji-cuadrado no hay un valor crítico único que
lleve al rechazo o aceptación de H0. Se usa en cambio un límite inferior dL y un
límite superior dU tales que si el valor d cae por fuera de estos valores críticos,
puede tomarse una decisión con respecto a la presencia de autocorrelación positiva
o negativa.
Los límites de d son 0 y 4. Estos pueden establecerse expandiendo la fórmula de d
anterior:
x
ui
t
ui
t x
x
x
x
x x
x
x
x
x x
x x
x x
x x
Autocorrelación 178
2 2
1 1
2
ˆ ˆ ˆ ˆ2
ˆ
t t t t
t
u u u ud
u
(5.2)
si hacemos 2 2
1ˆ ˆ
t tu u , ya que apenas difieren en una observación, entonces
2 2 2
1 1 1 1
2 2
1
2
ˆ ˆ ˆ ˆ ˆ ˆ ˆ2 2 2
ˆ ˆ
ˆ ˆ2 1
ˆ
t t t t t t t
t t
t t
t
u u u u u u ud
u u
u ud
u
Definiendo 1
2
ˆ ˆˆ
ˆ
t t
t
u u
u
como el coeficiente de autocorrelación muestral de
primer orden, luego:
ˆ2 1d
Como 1 1 , entonces 0 4d
Regla práctica
si d = 2 no hay autocorrelación,
0 dL dU 2 4 -dU 4 –dL 4
Zo
na
de
Ind
ecis
ión
Zo
na
de
Indec
isió
n
Rec
haz
o H
o
Auto
corr
elac
ión
(+
)
No
rechazo
Ho o H0*
Rec
haz
o H
o*
Auto
corr
elac
ión
(-
)
Ho No hay autocorrelación positiva de primer orden
Ho* No hay autocorrelación negativa de primer orden
Autocorrelación 179
si = +1 entonces d=0, por lo tanto hay autocorrelación +
si = -1 entonces d=4, por lo tanto hay autocorrelación –
Pasos:
1. Efectuar regresión por MICO y obtener residuos.
2. Calcular d
3. Encontrar valores críticos dL y dU.
4. Seguir las reglas de decisión del gráfico anterior.
Este estadístico es calculado con los residuos de la regresión MICO y es usado
para probar autocorrelación de primer orden.
Cabe destacar que este test es válido bajo las condiciones siguientes:
1. Hay constante en la regresión.
2. Las variables explicativas, son no estocásticas, es decir, son fijas en
muestreo repetitivo.
3. Los errores ut se generan por un proceso AR(1), o sea autocorrelación de
primer orden.
4. El modelo no incluye variable endógena rezagada.
5. No hay observaciones faltantes.
5.3 Prueba h de Durbin
Cuando tenemos un modelo con variable endógena rezagada no podemos utilizar el
Durbin-Watson, pero tenemos como alternativa la prueba h de Durbin.
Ho: ρ = 0
H1: ρ ≠ 0
2
ˆˆ1
nh
n Var
donde 2 es el coeficiente asociado a Yt-1 (la variable endógena rezagada) y
~ (0,1)h N por lo que:
[-1.96 1.96] 0.95P h
Si h calculado > 1.96, entonces se rechaza H0 al 5%.
Autocorrelación 180
5.4 Prueba Breusch-Godfrey sobre autocorrelación de orden superior
Esta prueba es similar a la prueba de White de Heterocedasticiad, y es una prueba
de multiplicadores de Lagrange para detectar autocorrelación de orden general. En
esta prueba la hipótesis nula de un proceso AR(ρ), es: ρ1 = ρ2=...= ρp= 0.
Pasos de esta prueba:
1. Estimar por MICO y obtener los residuos.
2. Efectuar la regresión de los residuos estimados sobre todas las X, más
1 2ˆ ˆ ˆ, , ,t t t pu u u
. Si p = 4, se introducirían los ˆtu con cuatro rezagos.
3. Para muestras grandes B-G han demostrado que:
2 2( ) pn p R
Si 2 2( ) > pn p R , se rechaza Ho, por lo tanto hay autocorrelación.
5.5 Estadísticos de Box-Pierce y Ljung-Box
Una alternativa para probar la existencia de autocorrelación, es el estadístico Q de
Box y Pierce (1970). Para probar la hipótesis nula de que no existe autocorrelación
de orden p, se calcula estadístico Q y se compara con una ji-cuadrado de p grados
de libertad.
2 2
1
ˆp
BP
s p
s
Q n
(5.3)
Donde
1
2
1
ˆ
p
t t s
t ss p
t
t s
e e
e
(5.4)
Con n=tamaño de la muestra, s= las autocorrelaciones y p=orden de la
autocorrelación de la hipótesis nula4.
Una variante del estadístico de Box y Pierce es el propuesto por Ljung-Box (LB)
que se define como:
4 Si el la serie representa los residuos de una estimación ARIMA, el número apropiado de grados de libertad debe
ser ajustado para representar el numero de autocorrelaciones menos el numero de términos AR y MA.
Autocorrelación 181
2
2
1
ˆ2
pLB s
p
s
Q n nn s
(5.5)
Aunque para muestras grandes, tanto el estadístico Q de BP como LB siguen la
distribución ji-cuadrada con p grados de libertad, se ha encontrado que la
estadística de LB posee mejores propiedades de muestra pequeña que el estadístico
de BP.
6. Corrección de Autocorrelación
¿Qué hacemos si hay autocorrelación?
Verificar que la misma no es consecuencia de variables omitidas (ej. ausencia
de rezagos), o forma funcional incorrecta.
Para corregir autocorrelación se puede utilizar una transformación del modelo
original, utilizando los mínimos cuadrados generalizados.
Para muestras grandes se puede utilizar el método de Newey-West.
Puede utilizarse MICO en algunos casos, siempre que no se necesite hacer
inferencia sobre los coeficientes
A continuación, veamos detalladamente algunas formas de corregir
autocorrelación.
En el caso de que conozcamos ρ, aplicamos MCG según lo presentado en la
ecuación (3.10). El problema es que la mayoría de las veces no conocemos ρ,
entonces tendremos que buscar la forma de estimarlo, para luego utilizar los
Mínimos Cuadrados Generalizados Factibles (MCGF). Una vez obtenido un
estimador de ρ, para aplicar MCGF sólo tendríamos que incluirlo en la estimación
de la ecuación (3.10).
6.1 Estimación a través de los residuos
Si tenemos un proceso AR(1) 1t t tu u , podemos hacer una regresión entre
los residuos para encontrar un estimador de :
1ˆˆ ˆ
t t tu u v
En este caso no es necesario incluir intersección, porque la suma de los errores
sabemos por definición son iguales a cero.
Autocorrelación 182
6.2 Método basado en el estadístico d de Durbin-Watson
puede ser estimado a partir del estadístico D-W. Sabemos que ˆ2 1d . Si
despejamos , tenemos:
ˆ 1 / 2d (6.1)
El inconveniente es que sólo es válido para muestras grandes. Para evitar este
problema Theil-Nagar propusieron la siguiente modificación:
2
2
2 2
1ˆ
dn
n k
(6.2)
donde n = número total de observaciones, k = número de coeficientes a ser
estimados (incluyendo intersección).
Luego de obtenido se procede a estimar la ecuación (3.10), o sea en diferencias
generalizada.
6.3 Método Iterativo de Cochrane-Orcutt
Como su nombre lo indica, deben de seguirse ciertos pasos:
1) Se estima modelo por MICO y se obtienen los residuos.
2) Luego se estima por MICO la siguiente regresión: 1ˆˆ ˆ
t t tu u
3) Con efectúese la ecuación en diferencia generalizada (3.10)
1 2t t tY X
4) Como no sabemos si es el mejor estimador de ρ sustituimos los valores
1 y 2 en la regresión original y obtenemos los nuevos residuos ˆtu
5) Se estima la regresión 1ˆˆ ˆ
t t tu u w
, con esta ˆ se vuelve a hacer el
proceso desde el paso 3 repetidas veces hasta que en 2 corridas consecutivas
los ρ estimados difieran poco.
6.4 Método de la Malla Hildreth y Lu
Se define un conjunto de valores posibles de ρ entre –1 y 1, donde los intervalos
entre los distintos valores de ρ son de 0.1.
Para cada se corre el modelo en diferencias generalizado y se computa la 2ˆtu .
Se elige un valor de que minimice la suma de cuadrados residuales (o sea que
maximizamos R2).
Capítulo 10
Especificación de modelos
Uno de los supuestos del modelo clásico de regresión lineal es que el modelo que
utilizamos está correctamente especificado, o sea que no hay error o sesgo en la
especificación. La discusión sobre especificación de modelos econométricos es
amplia y abarca diferentes corrientes de pensamiento, por lo que a continuación
nos concentraremos en las consecuencias de tener un modelo mal especificado,
posible detección del problema y algunas técnicas conocidas para especificar
modelos de manera “correcta”.
Existen cuatro posibles errores de especificación
Omitir una variable relevante (variables omitidas).
Inclusión de variables irrelevantes (variables intrusas).
Forma funcional incorrecta.
Errores de medición de los datos
En un pasado los econometristas tendían a asumir que el modelo provisto por la
economía teórica representaba precisamente el mecanismo del mundo real para
generar los datos. En este sentido se veía el rol del econometrista en proveer
“buenos” estimadores para los parámetros del modelo. Cualquier incertidumbre
acerca de la especificación del modelo, la tendencia era utilizar la econometría para
“buscar” el mecanismo de la generación de los datos en el mundo real. Esta visión
de la econometría es obsoleta y hoy se reconoce que los modelos econométricos
son “falsos” y que no se debe esperar o pretender encontrar la verdad a través de la
econometría.
1. Atributos de un buen modelo
Un modelo que está bien especificado tiene los siguientes atributos:
Especificación de modelos 184
Parsimonia. Maximizar la explicación del fenómeno, maximizando la
simplificación. Mientras más simple el modelo mejor.
Identificabilidad. Dadas las observaciones, los coeficientes estimados deben
ser únicos.
Bondad del ajuste. R2 alto
1, signos correctos de los coeficientes y
significativos según las pruebas t y F, etc. Pero ¡cuidado con el uso
indiscriminado de variables con la única finalidad de aumentar el R2! (data
mining2).
Plausibilidad teórica. Los coeficientes deben tener consistencia con el modelo
teórico planteado. Aun teniendo un R2
alto, un modelo puede tener los signos
incorrectos.
Poder predictivo. El R2 es un indicador del ajuste dentro de muestra, pero
también importa predecir fuera de muestra, dentro y fuera del periodo.
Estabilidad. Inexistencia de cambio estructural y coeficientes estables.
2. Consecuencias de los errores de especificación
2.1 Variables Omitidas
Si el verdadero modelo es
1 2 2 3 3i i i iY X X u (1)
Pero el modelo utilizado es:
1 2 2i i iY X v (2)
donde X3 es la variable omitida.
Si expresamos (1) y (2) en desvíos
2 2 3 3i i i iy x x u u
2 2i i iy x v v
Al estimar 2 tenemos:
1 Debemos recordar que MICO maximiza el R
2, ya que minimiza los errores al cuadrado.
2 Ames y Reiter (1961) encuentran que en promedio el R
2 de una regresión entre una variable económica y su rezago
es 0.7.
Especificación de modelos 185
2 2 2 2 3 3
2 2 2
2 2
2
2 2 3 2 3 2
2
2
3 2 3 2
2 2
2
ˆ i i i i i i
i i
i i i i i
i
i i i i
i
x y x x x u u
x x
x x x x u u
x
x x x u u
x
Si aplicamos la esperanza
3 2 3
2 2 2
2
ˆ i i
i
x xE
x
Las consecuencias de omitir X3 son las siguientes:
1. Si la variable omitida está correlacionada con al variable incluida, los
coeficientes estimados son sesgados e inconsistentes.
2. Aún cuando X2 y X3 no estén correlacionados, 1 es aun sesgado, aunque 2
sea insesgado3.
3. Si X2 y X3 están correlacionados, la varianza del estimador será menor que
del verdadero modelo.
Modelo original:
2
2 2 2
2 2,3
ˆvar( )1ix r
Modelo estimado: 2
2 2
2
ˆvar( )ix
2 2ˆˆvar( ) var( ) , dado que 2
2,30 1r
Como el estimador 2 es sesgado pero tiene varianza menor que el estimador
2 , existe un tradeoff, en el que se podría utilizar el criterio del error
cuadrático medio.
4. La varianza de la perturbación σ2 está estimada incorrectamente.
3Dado 1 2 2
ˆ ˆY X , y 1 2 2 3 3ˆ ˆ ˆY X X , si aplicamos el operador de esperanza, 1 2 2
ˆE Y X , (porque
2 3 0x x ) en cambio 1 2 2 3 3ˆE Y X X
Especificación de modelos 186
2
2ˆ( ) ( )
i
u
eE E
n k r n k r
e'e
r es el número de variables omitidas. La SRC es mayor (porque se omite una
variable relevante), mientras que el efecto contrario sobre el denominador es
marginal, por lo que el estimador de la varianza está sesgado al alza.
5. En consecuencia, los intervalos de confianza y pruebas de hipótesis en
relación a estos parámetros no serán precisos y nos pueden llevar a
conclusiones erradas4.
2.2 Inclusión de una variable irrelevante
Suponiendo que el verdadero modelo es
1 2 2i i iY X u (3)
pero se utiliza el siguiente:
1 2 2 3 3i i i iY X X v (4)
donde X3 es la variable intrusa.
Las consecuencias de incurrir en este error de especificación son las siguientes
1. Los estimadores MICO de los parámetros del modelo incorrecto son todos
insesgados y consistentes.
2. La varianza del error 2 está correctamente computada.
2
2
( ) ( )
ieE E
n k s n k s
e'e
s es el número de variables intrusas La caída en la SRC no es muy grande,
porque la variable es intrusa (explica poco) mientras que en el denominador
se produce una variación marginal en sentido contrario.
4 Adicionalmente los estimadores de las varianzas,
22
2 2
2 2
ˆ ˆ 22 222 2,3
ˆ ˆó1
u v
iixx r
.
Especificación de modelos 187
3. Los procedimientos usuales de intervalos de confianza y de prueba de
hipótesis siguen siendo válidos.
4. Pero la varianza estimada para los parámetros son más grandes que las del
modelo original, por lo que son ineficientes.
Modelo original: 2
2 2
2
ˆvar( )ix
Modelo estimado:
2
2 2 2
2 2,3
ˆvar( )1ix r
Dado que 2
2,30 1r (siempre habrá alguna relación entre las variables),
entonces 2 2ˆˆvar var .
En resumen, la inclusión de una variable irrelevante tiene menores costos que
omitir una variable; esto no quiere decir que sea poco costoso, pues la varianza del
estimador es mayor.
3. Pruebas de errores de especificación
3.1 Examen de residuos
Pueden ser examinados, especialmente en información de corte transversal, para
detectar errores de especificación en los modelos, tales como la omisión de una
variable importante o la definición de una forma funcional incorrecta. Si en
realidad tales errores existen, una gráfica de los residuos permitirá apreciar
patrones distinguibles.
3.2 El estadístico Durbin-Watson
Si tenemos un d estimado muy bajo, sugiere que hay correlación positiva en los
residuos estimados.
La correlación positiva observada en los residuos refleja simplemente el hecho de
que hay una o más variables pertenecientes al modelo que están incluidas en el
término de error y necesitan ser desechadas de éste y ser incluidas como variables
explicativas.
Especificación de modelos 188
Para aplicar este método de probar mala especificación se procede de la siguiente
manera:
1. Obtener los residuales MICO.
2. Si se cree que el modelo supuesto está mal especificado porque excluye una
variable explicativa relevante, por ejemplo Z, ordenar los residuales
obtenidos en el paso 1 de acuerdo con los valores crecientes de Z.
3. Calcular el estadístico d con los residuos así ordenados mediante la fórmula
conocida5.
4. Con base a las tablas de D-W, si el valor d estimado es significativo,
entonces se puede aceptar la hipótesis de la mala especificación.
3.3 Prueba RESET de Ramsey
Ramsey ha propuesto una prueba general de errores de especificación conocida
como RESET (Regression Specification Error Test ó prueba de error de
especificación en la regresión).
Si suponemos por ejemplo una función de costos es lineal a la producción de la
siguiente forma:
1 2i i iY X u (5)
Ahora los pasos considerados en RESET:
1. A partir del modelo seleccionado, se obtiene Y y R2 (ecuación restringida)
2. Se vuelve a estimar la regresión introduciendo como variables explicativas,
formas funcionales de Y como uno o varios regresores adicionales, como
por ejemplo:
2 3
1 2 3 4ˆ ˆ
i i i i iY X Y Y u (6)
Obtenemos el R2 de la regresión auxiliar (ecuación no restringida)
3. Entonces, bajo la hipótesis nula de que el modelo está bien especificado, se
puede utilizar la siguiente prueba F:
5
2
12
2
1
ˆ ˆ
ˆ
n
t tt
n
tt
u ud
u
Especificación de modelos 189
2 2
,21
( )
NR R
R n k
NR
R R
RF FR
n k
4. Con esto comprobamos si el incremento en el R2 al utilizar (6) es
significativo. Si el F calculado es significativo, se rechaza la hipótesis nula,
vale decir que el modelo está especificado incorrecto.
La ventaja de esta prueba es que es fácil de aplicar, sin embargo al no especificarse
un modelo alterno también es una desventaja pues no nos proporciona ayuda en la
selección de una alternativa.
3.4 Prueba del Multiplicador de Lagrange (ML) para agregar variables
Supongamos una función cúbica de costos
2 3
1 2 3 4i i i i iY X X X (7)
Si se compara la función lineal de costos (5) con una función cúbica de costos (7),
la primera es una versión restringida de la última. La regresión restringida supone
que los coeficientes de los términos de producción elevados al cuadrado y al cubo
son iguales a cero 3 4 0 . Para probar esto, la prueba ML se realiza de la
siguiente manera:
1. Estimar la regresión restringida (5) mediante MICO y obtener los residuos.
2. Si la regresión no restringida (7) resulta ser la verdadera regresión, los
residuos obtenidos al correr la ecuación restringida (5) deben estar
relacionados con los términos de la producción elevada al cuadrado y al
cubo.
3. Esto sugiere que se efectúe la regresión de los ˆiu obtenidos en el paso 1
sobre todos los regresores (incluyendo los de la regresión restringida) lo que
significa:
2 3
1 2 3 4ˆ
i i i i iu X X X v
4. Para un tamaño de muestra grande, Engle ha demostrado que 2 2asi
RnR ,
donde R es el número de restricciones.
Especificación de modelos 190
5. Si el valor ji cuadrado obtenido excede al valor ji cuadrado crítico se rechaza
la regresión restringida. De lo contrario no se rechaza.
3.5 Detección de la presencia de variables innecesarias
Si tenemos el siguiente modelo:
1 2 2 3 3i i i k ki iY X X X u
Puede ser que no tengamos seguridad de que la variable Xk pertenezca a este
modelo. Asimismo, si no tenemos seguridad que X3 y X4 pertenezcan al modelo.
En este caso podemos averiguar de forma sencilla de probando la significancia de
βk mediante un test t y un test F para probar si β3=β4=0.
4. Errores de medición
4.1 En la variable Y
Si consideramos el siguiente modelo:
i i iY X u (8)
donde iY = gasto de consumo permanente (no observado)
Xi = ingreso anual
ui = término de perturbación estocástica
Puesto que iY no pueda medirse directamente, puede utilizarse una variable de
gasto observable Yi, tal que:
i i tY Y (9)
donde t denota los errores de medición en iY . Por consiguiente, en lugar de
estimar (8) se estima:
( )
( )
i i i i
i i i i
i i i
i i
Y X u
Y X u
X u
X v
(10)
donde vi es un término de error compuesto que contiene el término de error
poblacional y el término de error de medición.
Especificación de modelos 191
Bajo los supuestos 0i iE u E , cov , 0i iX u , cov , 0i iX , los errores
de medición en la variable Y no deshacen la propiedad de insesgamiento de los
estimadores MICO.
Sin embargo, las varianzas y los errores estándar del β estimado de (8) y (10) serán
diferentes:
Modelo (8) 2
2ˆvar( ) u
ix
Modelo (10) 2 2 2
2 2ˆvar( ) v u
i ix x
La última varianza es más grande que la primera. Por consiguiente aunque los
errores de medición en la variable dependiente aún producen estimaciones
insesgadas de los parámetros y de sus varianzas, las varianzas estimadas son ahora
ineficientes (más grandes) que en el caso en el cual no existen errores de medición.
4.2 En la variable X
Suponiendo que se tiene:
i i iY X u (11)
donde iY = gasto de consumo
*
iX = ingreso permanente (no observado)
ui = término de perturbación estocástica
La variable que observamos es el ingreso corriente, i i iX X w , donde iw
representa el error de medición en iX . Entonces en lugar de estimar (11) se
estima:
( )
( )
i i i i
i i i
i i
Y X w u
X u w
X z
(12)
donde iz es una combinación del termino de perturbación y del error de medición.
Si suponemos que E( iz )= 0 :
Especificación de modelos 192
2
2
cov( , )i i i i i i
i i i i i i i i
i i i i i i
w
z X E z E z X E X
E u w E u w X w E X w
E u w w E u w w
Ahora la variable explicativa y el término de error de (12) están correlacionados, lo
cual viola el supuesto del modelo clásico de regresión lineal de que la variable
explicativa no está correlacionada con el término de error estocástico. Si este
supuesto se viola, los estimadores MICO no solamente están sesgados, sino que
son también inconsistentes, es decir permanecen sesgados aun si el tamaño de la
muestra, n, aumenta indefinidamente.
Por consiguiente, los errores de medición constituyen un grave problema cuando
están presentes en las variables explicativas, porque su presencia hace imposible la
estimación consistente de los parámetros.
Solución
Se puede suponer que 2
w es pequeña comparada con 2
x , en otras palabras, para
los fines prácticos se puede suponer que no existe el problema y proceder con la
estimación MICO usual. El problema con esto es que no es posible observar o
medir 2
w y 2
x fácilmente, por lo tanto no hay forma de juzgar sus magnitudes
relativas.
Otro medio sugerido es el conocido como variables instrumentales (VI) o
aproximadas, utilizando variables que estén altamente correlacionadas con las
variables X originales, pero no estén correlacionadas con los errores ecuacionales y
de medición. Si es posible encontrar tales variables, entonces se puede obtener una
estimación consistente de β. Pero es mucho más fácil hablar de esto que hacerlo.
No es fácil encontrar buenas variables aproximadas.
5. Criterios para la selección de modelos
5.1 El criterio R2
Es una de las medidas de bondad de ajuste y se define como:
Especificación de modelos 193
2 1
SCE SCT SCE SCRR
SCT SCT SCT
Desventajas
Mide la bondad de ajuste dentro de la muestra, pero no garantiza un buen
pronóstico fuera de la muestra
Para comparar, la variable dependiente debe ser la misma
No disminuye cuando se agregan variables al modelo
5.2 R2 ajustado
Debido a este último inconveniente Henry Theil desarrollo la R2 ajustada:
2 21 11
n kR R
n
Aunque continúa siendo necesario que la variable regresada sea la misma para
poder hacer comparaciones.
5.3 Criterio de información de Akaike (AIC)
La idea también es imponer penalización por añadir regresoras al modelo:
2k SRC
AICn n
donde k es el número de regresoras y n el número de observaciones. Al comparar
entre modelos, se preferirá el que tenga menor AIC.
5.4 Criterio de información de Schwarz (SIC)
El criterio de Schwarz impone una penalización mayor a la de AIC, y equivale a:
ln lnk SRC
SIC nn n
Al igual que con el criterio de Akaike, se preferirá el modelo que tenga un menor
valor de SIC.
Es preciso destacar, que ninguno de los criterios es superior a los demás.
Especificación de modelos 194
6. Estabilidad del modelo
6.1 Mínimos cuadrados recursivos
Anteriormente hemos vistos la prueba de Chow para la estabilidad estructural del
modelo. El problema de esta prueba es cuando no conocemos el punto de inflexión
del cambio estructural.
La estimación recursiva consiste en estimar repetidamente el modelo especificado
para distintos tamaños muestrales. Si el modelo tiene k parámetros, se utiliza una
muestra de las primeras k observaciones para estimar los parámetros, luego se
agrega la siguiente observación y se estiman los parámetros, repitiendo este
proceso hasta llegar a la última observación (T). En cada estimación obtenemos un
vector de estimadores que nos permite a su vez calcular la predicción de la variable
endógena para el periodo siguiente y el error de predicción correspondiente. De
este modo, con las sucesivas estimaciones, generamos las series de los llamados
coeficientes recursivos y residuos recursivos. La idea es que si no hay cambio
estructural las estimaciones de los parámetros se mantendrán constantes al ir
aumentando la muestra secuencialmente y los residuos no se desviarán
ampliamente de cero.
Residuos recursivos
Los residuos recursivos son los errores de predicción un periodo hacia delante
calculados en cada etapa de la estimación recursiva. Por ejemplo, si utilizamos t-1
observaciones, el vector de estimadores se denomina:
1 1 1 1 1ˆ
t t t t t -1
β X 'X X 'Y (13)
Donde 1tX denota la matriz de orden t-1 por k de regresores del período 1 al
período t-1; 1tY el vector correspondiente a las observaciones de la variable
dependiente del periodo 1 al t-1; 1ˆ
tβ es el vector de los coeficientes estimados con
las observaciones 1 hasta t-1.
Con estos coeficientes podemos pronosticar el valor de la variable dependiente en
el período t. El pronóstico es 1ˆ
t tx β , donde t
x es el vector fila de observaciones
sobre los regresores en el período t. Entonces, el error de predicción un periodo
hacia delante equivale a:
Especificación de modelos 195
1
1, 1 2, 1 2, , 1 ,
ˆ
ˆ ˆ ˆ...
t t t t
t t t t k t k t
f Y
Y X X
x β (14)
La varianza del error de predicción equivale a:
12 2
1 11tf t t t t
x X 'X x (15)
Se define el residuo recursivo para la observación t como:
1
12
1 1 1
ˆ-
1t
t t t tt
ft t t t
f Yw
x β
x X 'X x
(16)
Conceptualmente los residuos recursivos se interpretan como el cociente del error
de pronóstico y su error estándar.
Se pueden calcular los residuos recursivos desde la observación t=k+1 hasta T, los
cuales bajo el supuesto de normalidad de ui y estabilidad estructural se distribuyen
como una normal con media cero y varianza constante 20,tw N .
Si comparamos (gráficamente por ejemplo) los residuos recursivos junto con sus
bandas de confianza ( 2 veces la desviación estándar), podemos detectar
inestabilidad en los parámetros cuando uno o varios residuos exceden los límites
de confianza.
Estadístico CUSUM
La prueba CUSUM está basada en la suma acumulada de los residuos recursivos.
En esta prueba existe inestabilidad si la suma acumulada está fuera del intervalo
crítico.
El estadístico CUSUM es:
1 ; t=k+1,....T
T
i
i kt
w
Ws
(17)
Especificación de modelos 196
Donde “s” es el error estándar de la regresión estimada con todas las observaciones
disponibles.
Si el vector β permanece constante en el tiempo, 0tE W ; sin embargo, si β
cambia, tW tenderá a divergir de cero. El análisis se realiza comparando los
residuos tW frente al tiempo con sus bandas de confianza que, para el nivel de
confianza de 95% se obtiene de las rectas que unen los puntos:
1
2, 0.945k t k
y 1
2, 3 0.948( )T T k
La hipótesis nula de estabilidad estructural se rechaza si el valor del estadístico tW
sale fuera de las bandas, es decir, si es estadísticamente distinto de cero.
Estadístico CUSUM de los cuadrados (CUSUMQ)
Esta prueba está basada en el estadístico:
2
1
2
1
t=k+1,.....T
t
i
i kt T
i
i k
w
S
w
(18)
Bajo la hipótesis nula de estabilidad de los parámetros, el estadístico tS tiene
esperanza igual a:
tt k
E ST k
La cual varía entre cero cuando t=k, y la unidad cuando t=T. El contraste se
realiza al igual que en el caso de CUSUM, comparando los residuos tS , con sus
bandas de confianza, por lo que los movimientos de tS fuera de las líneas críticas
sugieren inestabilidad en los parámetros.
Coeficientes recursivos
Si se comparamos los valores estimados de los parámetros cada vez que agregamos
una observación, con un intervalo de confianza (±2 su desviación estándar), se
Especificación de modelos 197
observará como cambian a medida que se agregan observaciones. Si el modelo es
estable las variaciones de los valores estimados serán mínimas y aleatorias; en
cambio si los valores cambian en forma significativa indicaría un cambio
estructural.
6.2 Prueba de predicción de Chow
Esta es una versión de la prueba de Chow para comprobar el poder predictivo de
un modelo de regresión. Esta prueba es especialmente útil cuando el número de
observaciones luego del quiebre es menor que k.
Supongamos que tenemos el modelo:
1 2t t tC Y u
donde C = consumo y Y = ingreso para el período 1970-2005 (n = 36). Si
dividimos la muestra en dos periodos (I y II) donde:
Periodo I: 1970-2002 (n = 32)
Periodo II: 2003-2005 (n = 2)
Estimando los parámetros con las observaciones del primer grupo 1ˆ I y 2
ˆ I ,
podemos utilizarlos para predecir los valores del consumo ( C ) correspondientes al
resto de la muestra (2003-2005). Si no hay un cambio estructural en los valores de
los parámetros, los valores del consumo estimado (C ) para el periodo 2003-2005
en base a los estimadores 1ˆ I y 2
ˆ I , no deberían de ser distintos de los valores
observados (C) para dicho periodo.
Para estos fines, bajo la hipótesis nula de estabilidad de los parámetros ( I II ,
podemos utilizar el estadístico F:
2 1
2,
1
R NR
n n kNR
SRC SRCn
F FSRC
n k
donde n1 = número de observaciones del periodo I
n2 = número de observaciones del periodo II
SRCR = es la SRC de la ecuación estimada para todo el periodo (n1+ n2)
SRCNR = es la SRC de la ecuación estimada para el periodo I (n1)
En resumen:
Especificación de modelos 198
1. Estimamos la regresión para el periodo completo (regresión restringida)
calculamos la SRC.
2. Estimamos la regresión para el primer periodo y calculamos SRC.
3. Calculamos el estadístico F y si este es mayor que el F de tabla, rechazamos la
hipótesis nula de estabilidad de los parámetros.
7. Principios generales para la especificación6
Aunque la controversia entre distintas escuelas sobre la metodología econométrica
podría no resolverse nunca, según Kennedy el debate ha sido fructífero y algunos
principios generales han emergido para la especificación de modelos:
1. La teoría económica debe ser el fundamento y la guía para encontrar la
especificación. Sin embargo, usar los datos para ayudar a mejorar una teoría
económica puede ser de utilidad, siempre y cuando el investigador no utilice los
mismos datos para probar la teoría.
2. Los residuos deben ser ruido blanco, en caso contrario debe evaluarse como
reflejo de una mala especificación.
3. A pesar de que testing down7, conlleva menos sesgo que testing up
8, empezar
con un modelo completamente general no es posible. En consecuencia, en la
práctica es necesario utilizar una mezcla de testing up y testing down. Sobre la
base del aprendizaje de este proceso, un modelo más complicado puede ser
propuesto y luego repetir el proceso.
4. Las pruebas de especificación tienen un mejor desempeño probando
simultáneamente varias especificaciones erróneas en vez de probar una por una.
Con esto se elimina el problema de que una especificación errónea afecte
adversamente las pruebas de otras especificaciones.
5. Los modelos deben ser expuestos a una batería de pruebas de especificación9
antes de ser aceptados. Es importante poder contar con un subconjunto de la
muestra, para poder hacer pruebas prediciendo fuera de muestra.
6. El modelo deber abarcar modelos rivales, en el sentido que puede predecir los
resultados que obtendría el modelo rival.
7. Debe reportarse los rangos de resultados correspondiente a diferentes
especificaciones razonables (análisis de sensibilidad) en vez de proveer sólo los
resultados de la especificación adoptada, y los pasos tomados para la selección
de esa especificación.
6 Tomado de Peter Kennedy, “A Guide to Econometrics”, Fifth Edition (2003), MIT Press. Pags. 85-86.
7 Iniciar la estimación de una forma general hasta llegar a una particular reduciendo el número de variables.
8 Iniciar la estimación de una forma particular hasta llegar a una general aumentando el número de variables
9 Esta batería abarca pruebas de variables omitidas (restricciones F y t), cambio estructural, autocorrelación,
heterocedasticidad, especificación (RESET), residuos recursivos, etc.