Download - Apuntes de Econometría I

APUNTES DE ECONOMETRÍA

Profesor

Martín Francos Rodríguez

Versión: 1.1

Fecha: 13 de noviembre de 2010

Contenido

Capítulo Tema Página

1 Introducción 1

2 Modelo clásico de regresión lineal simple: Estimación 12

3 Modelo clásico de regresión lineal múltiple: Estimación 58

4 Modelo clásico de regresión lineal simple: Inferencia 74

5 Modelo clásico de regresión lineal múltiple: Inferencia 98

6 Modelo con variables independientes cualitativas 124

7 Multicolinealidad 133

8 Heterocedasticidad 145

9 Autocorrelación 169

10 Especificación de modelos 183

ii

Prólogo

A continuación se presenta una recopilación de mis apuntes de clase de

econometría en la Pontificia Universidad Católica Madre y Maestra desde el año

2003.

Este libro está dirigido particularmente a estudiantes de economía, para un curso de

un semestre, tanto para estudiantes de pregrado, como para un curso introductorio

a nivel de maestría.

El propósito de estos apuntes, no es sustituir ninguno de los libro habituales

utilizados por los profesores de econometría en los cursos mencionados

anteriormente, sino presentar de forma detallada y concisa, algunos aspectos

teóricos y demostraciones, que otros textos habituales en estos cursos suelen dejar

en un segundo plano.

Martín Francos Rodríguez, MA

Profesor Departamento de Economía

Pontificia Universidad Católica Madre y Maestra

Capítulo 1

Introducción

1. ¿Qué es la Econometría?

Es una pregunta que algunos libros de texto suelen eludir o contestar vagamente.

Etimológicamente significa “medición económica”, pero aunque la medición es

parte importante de la econometría, el alcance de esta disciplina es mucho mayor.

Para tener una mayor profundidad sobre su alcance, veamos a continuación

algunas definiciones:

“…consiste en la aplicación de la estadística matemática a la información

económica para dar soporte empírico a los modelos construidos por la

economía matemática”1

“La econometría pude ser definida como la ciencia social en la cual las

herramientas de la teoría económica, las matemáticas y la inferencia

estadística son aplicadas al análisis de los fenómenos económicos”2

“Es la aplicación de métodos estadísticos y matemáticos al análisis de los

datos económicos con el propósito de otorgar contenido empírico a las

teorías económicas, verificándolas o refutándolas”3

Algunos comentarios sobre la Econometría y los econometristas se refieren a:

1 Samuelson P.A., T.C. Koopmans y J. R. N. Stone, “Report of the Evaluative Committee for Econometrica”,

Econometrica, vol 22, núm 2, abril de 1954, pp.141-146 2 Goldberger, Arthur, Econometric Theroy, John Wiley & Songs, Nueva York, 1964

3 Maddala, G.S. (1996). Introducción a la Econometría. 2da. Edición. Prentice Hall.

Introducción a la econometría 2

“El arte del econometrista consiste en encontrar el conjunto de supuestos que

sean suficientemente específicos y realistas, de tal forma que le permitan

aprovechar de la mejor manera los datos que tiene a su disposición”4.

“Los econometristas... son una ayuda en el esfuerzo por disipar la mala

imagen pública de la economía (cuantitativa o de otro tipo) considerada

como una materia en la cual se abren latas vacías, suponiendo la existencia

de abrelatas, para revelar un contenido que será interpretado por diez

economistas de once maneras diferentes”5.

Podemos resumir los distintos elementos aportados por las definiciones en:

“Aquella rama que otorga a la economía como ciencia, un carácter empírico

mediante el estudio de la aplicación de métodos estadísticos al análisis y

predicción de fenómenos económicos”.

No obstante ello, las herramientas desarrolladas por esta disciplina tienen

aplicaciones en muchos campos distintos al económico.

Los econometristas son al mismo tiempo:

Economistas: interpretan o crean teorías para probar empíricamente

Matemáticos: formula matemáticamente su teoría

Estadísticos aplicados: buscan datos para luego tratar de estimar relaciones

económicas

Estadísticos teóricos: desarrollan técnicas útiles para resolver problemas

empíricos

La econometría no significa estadística económica, ni teoría económica ni

aplicación de las matemáticas y estadística a la economía. Econometría es una

unificación de las tres áreas.

A diferencia del estadístico, el econometrista está preocupado por los problemas

causados por la violación de los supuestos estadísticos clásicos, la naturaleza de las

relaciones económicas y la falta de experimentos controlados.

4 Malinvaud, E. Statistical Methods of Econometrics, Rand McNally, Chicago, 1966, p.514

5 Darnell, Adrian y J. Lynne Evans, The Limits of Econometrics, Edward Elgar Publishing, Hants, Inglaterra 1990.


2. Modelos económicos y econométricos

2.1 ¿Qué es un modelo?

Un modelo es una representación simplificada de algún fenómeno, utilizado con

fines explicativos o predictivos. Tienen origen en alguna teoría, y aunque sufren

algunas modificaciones, conservan lo esencial de la teoría. Los modelos constan

de una o varias ecuaciones matemáticas que describen la teoría que los origina.

2.2 ¿Qué es un modelo económico?

Es un conjunto de supuestos que aproximadamente describen el comportamiento

de una economía (o de un sector). Por ejemplo la función de producción Cobb

Douglas, LAKY .

Para poder testear este modelo, es necesario incorporarle elementos estocásticos.

Esto lo convertirá de un modelo económico en uno econométrico.

2.3 ¿Qué es un modelo econométrico?

Es un conjunto de ecuaciones de comportamiento derivadas de un modelo

económico que involucra:

Variables observables

Elementos estocásticos o shocks, que recogen errores de medición en las

variables observadas y factores que no pueden ser recogidos por el modelo.

Esto hace que la variable objetivo varíe no sólo porque lo hacen las variables

explicativas, sino por cierta aleatoriedad del comportamiento humano o del

contexto.

El modelo determinístico LAKY , se transforma en modelo econométrico:

ueLAKY .

El término eu será una variable aleatoria con determinadas propiedades, por lo que

deberemos especificar la distribución de probabilidad de u y las consecuencias de

estas sobre la estimación.


3. Tipos de econometría

La econometría puede ser dividida en dos amplias categorías:

Econometría Teórica. Se ocupa del desarrollo de métodos apropiados para

medir las relaciones económicas especificadas por los modelos econométricos.

En este sentido deben especificarse los supuestos del método, sus propiedades y

las consecuencias de las violaciones de los supuestos.

Econometría Aplicada. Utiliza las herramientas de la econometría teórica para

estudiar algunos campos especiales de la economía y los negocios (funciones de

producción, funciones de demanda y oferta, etc.)

4. Metodología de la econometría

Los pasos utilizados por la econometría se resumen en:

i. Planteamiento de la teoría o de la hipótesis

ii. Especificación del modelo matemático de la teoría

iii. Especificación del modelo econométrico de la teoría

iv. Obtención de datos

v. Estimación de los parámetros del modelo econométrico

vi. Pruebas de hipótesis

vii. Pronóstico o predicción

viii. Formulación o control de políticas

Veamos a continuación con detalle en que consiste cada uno de los pasos.

Pasos Descripción

Planteamiento de la teoría Teoría Keynesiana del Consumo: El consumo

aumenta a medida que el ingreso aumenta, pero no

en la misma cuantía del aumento en su ingreso. Es

decir, que la propensión marginal a consumir es

mayor que cero, pero, menor que uno.

Especificación del modelo

matemático

Según el planteamiento de Keynes:

YYfC 21)( , donde 10 2 .

Especificación del modelo

econométrico

La especificación del modelo econométrico

incluye un componente estocástico o de error:

uYC 21


Obtención de datos Boletines, Internet, encuestas, etc. En nuestro

ejemplo las Cuentas Nacionales del BC son una

fuente.

Estimación del modelo YC ˆ7194.08.231ˆ

Prueba de Hipótesis A priori se esperaba que β2<1, por lo que es

necesario probar que el valor obtenido es

estadísticamente menor que 1. Además se puede

testear si los coeficientes son estables en el tiempo.

Proyección o predicción

Utilización del modelo para fines de control o de

política

El diagrama que representa la metodología de la econometría se puede resumir en:

Veamos un ejemplo:

1. Teoría económica

2. Modelo matemático

3. Modelo econométrico

Información

a priori

8. Formular políticas

4. Obtención de

datos

5. Estimación del modelo

7. Predicción

6. Pruebas de hipótesis


Al anterior diagrama se pueden presentar algunas críticas:

Hay feedback entre 1 y 6: no es cierto que solo se “testean teorías”, los

resultados econométricos influyen en las teorías.

Hay feedback entre 3 y 5 con 4: también hay aportes en datos

Hay feedback entre 6 y 2: como resultado de los test econométricos es

posible replantear modelos econométricos

Podemos replantear el diagrama, incluyendo la retroalimentación de la manera

siguiente:

1. Función de producción

Cobb-Douglas

2. Y=AKαL

β

3. Y=AKαL

βe

Revisión de

resultados

obtenidos en

otros estudios

similares,

nacionales e

internacionales

8. Formular políticas

4. Conseguir los datos

de PIB (Y) y Empleo

(L) del Banco Central.

Construir una serie de

Capital (K). 5. Estimación de y

7. Dadas las estimaciones

de K y L, pronostico cual

será el PIB del próximo año

6. Verifico hipótesis

respecto a los

parámetros.

Ej: Test + = 1


¿Qué constituye un test para la teoría económica?

Signos de los coeficientes son correctos.

El test más válido: “que una teoría económica genere mejores predicciones

que una alternativa.

Estabilidad de los coeficientes estimados (Crítica de Lucas)

La econometría no es un elemento para derribar teorías, sino para conocer la

realidad. Si los datos no se ajustan a lo esperado en teoría, lo único que se puede

decir es que estos datos no verifican la teoría. Es un error común concluir que la

equivocada es la realidad, si esta no coincide con el modelo.

Fuentes de error en la elaboración del modelo:

El modelo no se ajusta a la realidad.

Mala formulación del modelo

No se dispone de buena calidad y/o cantidad de datos.

Teoría Económica

Modelo Econométrico

Estimación

Prueba de Especificación y examen

de Diagnóstico

¿Es el modelo adecuado?

Si

Prueba de alguna hipótesis

Uso del modelo para predicción y políticas

No

Datos


5. Origen y Concepto de regresión

5.1 Origen

Proviene de un estudio de Francis Galton (1886) en el que la estatura promedio de

los niños que nacían de padres con una determinada estatura tendía a moverse o

“regresar” hacia la altura promedio de la población total. Ello aún cuando existía

una tendencia a que los padres altos tuvieran hijos altos y padres bajos tuvieran

hijos bajos. Galton dijo que existía una “regresión a la mediocridad”

5.2 Concepto

Una curva de regresión establece una relación entre una variable explicada o

dependiente (Y) y las explicativas o independientes (X).

El objetivo es predecir o estimar el valor medio poblacional de Y conocidos los

valores de las variables explicativas X. O sea establecer el valor de esperado de Y,

dado el valor de las X.

Matemáticamente, XYEY /ˆ el valor estimado de Y será la esperanza

condicional de Y dado X.

Ejemplos:

La relación entre el Consumo y el Ingreso disponible de las familias

La relación entre el desempleo y el nivel de los salarios reales

La relación entre las notas de un grupo de alumnos y el número de horas de

estudio

6. Variables y notación

En general llamamos a las variables utilizadas como:

Variable dependiente, la cual denotaremos con la letra Y, es la variable que

queremos explicar o predecir

Variable(s) independiente(s), que denotaremos con Xk, donde k es el número

de variables explicativas.

Estas variables en ocasiones reciben otros nombres los cuales se presentan a

continuación:


Y X1, X2…. Xk

Dependiente Independiente

Predicha Predictores

Regresada Regresores

Explicada Explicativas

Causada Causante

Endógena Exógena

Objetivo Control

Término aleatorio o estocástico, el cual denotaremos como u y puede tomar

cualquier conjunto de valores, con una probabilidad dada.

7. Regresión vs. Causalidad

El concepto de regresión implica una relación estadística entre una o más variables

X y Y, pero la existencia de una relación estadística, no implica que exista una

relación de causalidad entre las variables.

La explicación de la causalidad debe venir dado a priori por la teoría. De aquí la

importancia del rol de la teoría en la econometría.

8. Tipos de datos

Los tipos de datos que se manejan en econometría y que veremos a continuación

en detalle son:

Corte transversal (Cross-section)

Combinación de cortes transversales

Series de tiempo (Times series)

Datos de panel (Panel Data)

8.1 Datos de Corte Transversal (Cross-section)

Los datos de corte transversal o Cross-section son observaciones de una o más

variables recogidas en un mismo periodo de tiempo. En la tabla siguiente, por

ejemplo, se muestra un grupo de variables representativas de una encuesta de “n”

trabajadores, a través de las cuales podríamos estudiar como es afectado el salario

por variables como años de escolaridad, años de experiencia y el sexo del

trabajador.


Observación Salario Educación Experiencia Sexo

1 3.10 11 2 1

2 3.24 12 22 1

3 3.00 11 2 0

. . . . .

. . . . .

. . . . .

. . . . .

n 3.50 14 5 1

8.2 Combinación de cortes transversales

Como su nombre lo dice, es una combinación de muestras de cortes transversales

para las mismas variables tomadas en diferentes periodos de tiempo. Supongamos

que para los datos mostrados en el ejemplo anterior, tenemos otra muestra con

datos de un año posterior para las mismas variables; en este caso podríamos

aumentar nuestra muestra sobre los efectos de la educación, experiencia y sexo

sobre el salario de los trabajadores.

8.3 Series de Tiempo (Time Series)

Las series de tiempo son observaciones sobre los valores que toman una o más

variables a lo largo de cierto periodo de tiempo. Ej. el IPC, el PIB, etc. Estos datos

tienen un orden cronológico y suelen estar relacionados con su historia reciente y/o

mostrar patrones estacionales. A continuación se presenta una tabla con datos de

Consumo e Ingreso disponible:

Observación Año Consumo Ingreso

Disponible

1 1970 90 110

2 1971 200 225

3 1972 130 130

. . . .

. . . .

34 2003 115 125


8.4 Datos de Panel o longitudinales (Panel Data)

Los datos de panel son combinaciones de series de tiempo con corte transversal,

pero a diferencia de la combinación de cortes transversales, una misma variable de

corte transversal es seguida a través del tiempo. En otras palabras, los datos de

panel dan seguimiento en el tiempo, a las mismas unidades transversales.

Por ejemplo, supongamos que para 150 ciudades, tenemos datos de homicidios,

desempleo y población en dos años diferentes 1986 y 1990. En este caso

podríamos evaluar, no sólo como afectan el desempleo y el tamaño de la población

en el número de homicidios, sino también como cambian el comportamiento a

través del tiempo.

Obs Ciudad Año Homicidios Desempleo Población

1 1 1986 5 8.7 2

2 1 1990 8 7.2 22

3 2 1986 2 5.4 2

4 2 1990 1 5.5 .

. . . . .

299 150 1986 25 4.3 .

300 150 1990 32 5.2 5

Capítulo 2

Modelo de Regresión Lineal Simple:

Estimación

En este capítulo veremos como se estima el Modelo de Regresión Lineal Simple,

los supuestos y las propiedades de este modelo. Antes de iniciar en detalle, es

preciso explicar algunos conceptos como las relaciones estocásticas y

determinísticas, linealidad, función de regresión poblacional y función de regresión

muestral.

1. Relación Estocástica Vs. Determinística

Las relaciones entre las variables pueden ser determinísticas o estocásticas. En el

caso de la primera, son relaciones matemáticas, en el caso de las segunda son

estadísticas. Veamos:

Relación determinística: 0.70.3 L KY . Si dividimos entre L y aplicamos

logarimo tenemos:

)ln(3.0)ln(

3.0

3.0

3.07.03.0

LK

LY

L

K

L

K

L

LK

L

Y

Graficamente tendríamos:

Ln(K/L) X 12 14 20 5

Ln(Y/L) Y 3.6 4.2 6 1.5

Modelo de Regresión Lineal Simple: Estimación 13

0

1

2

3

4

5

6

7

0 5 10 15 20 25

Ln (K/L)

Ln

(Y

/L

)

Relación estocástica: Si u es una variable aleatoria

u

eL

K

L

eLK

L

Y

eLKY

LK

LY

uu

u

)ln(3.0)ln(

3.07.03.0

7.03.0

Ahora, ln(Y/L) no sólo depende de ln(K/L) sino también de una variable aleatoria.

Supongamos que u= +1 con prob 0.5 y -1 con prob 0.5.

LN(K/L) LN(Y/L)

si u = 1

Y/L

si u = -1

X Y Y

12 4.6 2.6

14 5.2 3.2

20 7 5

5 2.5 0.5

10 4 2

Supongamos ahora que u es una variable aleatoria continua que tiene una

distribución normal estandarizada (con esperanza 0 y varianza 1). Entonces por

cada valor de K/L tendremos infinitos valores de Y/L, dependiendo del valor de u.

0

1

2

3

4

5

6

7

8

0 10 20 30


En términos generales en econometría tendremos una relación estocástica entre la

variable dependiente (Yi) y la explicativa (Xi). La siguiente relación tiene dos

componentes:

Yi=α+βXi+u

Componente determinístico: α+βXi, donde α y β son los coeficientes de la

regresión. Sus valores serán estimados a partir de los datos disponibles para

X e Y.

Componente estocástico: u

Fuentes de error u

Variables omitidas. Aunque el ingreso sea el mayor determinante del

consumo, no es el único. Otras variables como la tasa de interés o las

tenencias de activos líquidos pueden influir en el consumo. La omisión de

estas variables constituye un error de especificación. Existen otras variables

que también influyen de manera no sistemática como las variaciones del

clima, cambios de gustos, terremotos, epidemias.

Error de medición. Puede ser que la variable explicada no sea medida

exactamente, por las dificultades de recolectar los datos o porque es

imposible de medir y se utiliza una variable proxy.

Indeterminación humana. Algunos piensan que las acciones de la

conducta humana bajo iguales circunstancia difieren de manera aleatoria

(sesgo de respuesta).

Ln

(Y/L

)

Ln(K/L)

E(u)=0

E(u)=0

E(u)=0


2. Concepto de linealidad

En una ecuación lineal todas las variables están elevadas a la primera potencia, y

sin multiplicarse entre sí.

Pero en econometría es necesario distinguir entre linealidad en los parámetros y

linealidad de las variables.

Linealidad en las variables: La(s) variable(s) sólo aparecen elevadas a

potencia de 1. Contra ejemplo: 2

21)/( iXXYE .

Linealidad en los parámetros: Lo(s) parámetros(s) sólo aparecen elevadas

a potencia de 1. Contra ejemplo: iXXYE 21)/( .

De ahora en adelante, cuando nos refiramos al término regresión lineal, significará

una regresión lineal en los parámetros.

3. Función de regresión poblacional

Supongamos ahora que el salario de un empleado depende de la educación, siendo

el salario mayor cuanto mayor es la educación. Supongamos que tenemos los

datos de salario por hora (en dólares) y los años de educación de una “población”

de empleados, los cuales se muestran en la tabla siguiente:

X Educación (años)

Y 8 9 10 11 12 13 14 15 16 17

Sal

ario

po

r ho

ra (

US

$)

3.77 4.46 5.36 6.26 7.16 8.06 8.96 9.86 10.76 11.66

4.40 4.67 7.05 7.95 8.00 9.75 10.65 11.55 12.45 13.35

4.09 5.30 6.10 7.00 7.69 8.80 9.70 10.60 11.50 12.40

5.73 4.99 5.57 7.10 9.33 8.27 9.17 10.07 10.97 11.87

5.42 6.63 6.20 6.79 9.02 8.90 9.80 10.70 12.62 12.50

3.80 6.32 5.89 8.43 7.60 8.59 9.49 12.03 12.11 12.19

6.37 5.93 7.53 8.12 9.97 10.23 11.13 11.72 13.57 14.73

7.27 7.49 8.54 9.92 10.82 10.67 14.47

8.17 9.07 9.58 10.48 12.67

10.87 11.77 E(Y/X) 4.80 5.70 6.60 7.70 8.40 9.30 10.20 11.10 12.00 12.90

Para un número dado de años de educación (X) existen diferentes niveles de salario

por hora (Y). Por ejemplo, para un nivel dado de 8 años de educación, existen


empleados con salarios por hora de 3.77, 4.40, 4.09, 5.73, 5.42, 3.80 y 6.37

dólares, sin embargo, el salario esperado de un empleado con 8 años de educación

es 4.80 US$/hora.

Se puede apreciar en los datos, que los salarios son mayores, mientras más años de

ecuación tiene el trabajador.

2

4

6

8

10

12

14

16

7 8 9 10 11 12 13 14 15 16 17

Educación (años)

Sa

lari

o p

or

ho

ra (

US

$)

= E(Y/X i )

La recta que une todas las medias condicionales, se llama función de regresión

poblacional (FRP). La media condicional E(Y/Xi) es una función de Xi.

Matemáticamente podemos expresar el concepto de los párrafos anteriores como

E(Y/X)=f(X).


Pero ¿qué forma funcional tiene f(X)? La respuesta de esta pregunta va a depender

en gran medida de la teoría.

Supongamos que f(X) es función lineal de X, entonces la FRP es:

1 2/ i iE Y X X (3.1)

donde β1 y β2 son parámetros no conocidos pero fijos llamados coeficientes de

regresión y el subíndice i representa las observaciones de la muestra.

Sin embargo para un Xi dado, el Yi se desvía de la E(Y/Xi), por un término de

error estocástico ó perturbación estocástica ui.

( / )i i iu Y E Y X

Entonces,

1 2

/i i i

i

Y E Y X u

X u

(3.2)

Educación 8 9 10

Sal

ario

4.80

5.70

6.60

FRP


Entonces, la variable dependiente Yi tiene dos componentes:

i. esperado E(Y/Xi) o sistemático

ii. aleatorio o no sistemático ui

4. Función de regresión muestral (FRM)

En la práctica, la mayoría de las veces no vamos a conocer la población, sino que

vamos a tener una muestra de la población, a partir de la cual estimaremos la FRP,

la cual llamaremos función de regresión muestral (FRM):

1 2ˆ ˆˆ

iY X (4.1)

Donde las variables con “^” denotan que es un estimador del parámetro.

Yi

X i

FRP: E(Y/ X i ) = β1 + β2 X i

X 1 X 2

Y1

Y2

β1

β2

u1

u2

E(Y/X)


Dado que no conocemos la población sino muestras, la estimación de la E(Y/Xi)

dependerá de la muestra elegida. En el caso del ejemplo de los salarios y la

educación, si obtenemos dos muestras al azar de la “población”, el resultado sería

similar al gráfico de más abajo. ¿Cuál es la verdadera FRM? No lo sabemos.

1

3

5

7

9

11

13

15

7 9 11 13 15 17

Educación (años)

Sa

lari

o (

US

$/h

ora

)

muestra 1 muestra 2

FRM 1 FRM 2

Y

X

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Y

X

X

X X

X

X

Población Muestra


La diferencia entre los Yi poblacionales y los estimados iY , es lo que llamaremos

residuos.

1 2

ˆ

ˆ ˆ

ˆ

i i i

i i i

i i

e Y Y

e Y X

e u

(4.2)

Asimismo, como ˆi i iY Y e , entonces:

1 2ˆ ˆ

i i iY X e (4.3)

Existen diferencias entre ui y ei

ui

es no observable (no conocemos la población)

es una variable aleatoria a la que se le supone cierta distribución de

probabilidad

ei

es observable (se dispone de valores)

satisface ciertas propiedades que veremos más adelante

β1

β1 ^

Yi

Y1 ^

FRM: Yi = β1 + β2 X

i

^ ^ ^

u1 e1

E(Y/ X i )

Y1

2

2 ^

Xi

FRP:

E(Y/ X i ) = β1 + β2 X i


¿Cómo calcular 1 y 2 ?

¿Método de momentos?

¿Máxima Verosimilitud?

¿Método de Mínimos Cuadrados Ordinarios (MICO)?

El método de MICO posee algunas propiedades estadísticas atractivas que veremos

más adelante.

5. ¿Cómo seleccionar entre estimadores?

Podemos tener varios estimadores para un mismo parámetro, el problema es elegir

cuál de estos es el mejor.

Para elegir entre varios estimadores de un parámetro, existen varios criterios que

nos pueden ayudar, los cuales se presentan a continuación:

Insesgamiento

Un estimador es insesgado de si el valor esperado del estimador es igual al

verdadero ˆE . Esto no significa que ˆ , sino que si calculamos el

estimador correspondiente para muestras repetidas, “en promedio” estaremos sobre

el parámetro poblacional.

Eficiencia

Un estimador es más eficiente, mientras más pequeña sea su varianza.

En el caso del gráfico siguiente, tanto A como B son estimadores insesgados de θ,

pero B es más eficiente que A.


Ahora bien, ¿que pasa si tengo un estimador insesgado y otro sesgado, pero con

menor varianza?

Error cuadrático medio (ECM)

El ECM de un estimador se define como:

2

2ˆ ˆ ˆ( ) var( )ECM E sesgo

2

2

2 2

2 2

2

ˆ ˆECM( ) ( )

ˆ ˆ ˆ( ( ) ( ) )

ˆ ˆ ˆ ˆ ˆ ˆ( ( )) ( ( ) ) 2( ( ))( ( ) )

ˆ ˆ ˆ ˆ ˆ ˆ( ( )) ( ( ) ) 2( ( ))( ( ) )

ˆ ˆ ˆ ˆ ˆ ˆ ˆvar( ) ( ( ) ) 2 ( ) ( ) ( ) (

E

E E E

E E E E E

E E E E E E E

E E E E E E

2

2 2

2

ˆ)

ˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆvar( ) ( ( ) ) 2 ( ) ( ) ( ) ( ) ( ) ( )

ˆ ˆ ˆ ˆvar( ) ( ( ) ) 0 var( ) ( ( ) )

ˆvar( )

E E E E E E E

E E

sesgo

Función de densidad

de probabilidad

Estimador B

Estimador A

Resto y sumo ˆE para

mantener la igualdad


En caso que tengamos un estimador insesgado y otro sesgado, pero con menor

varianza, debemos elegir el que tenga menor ECM.

En muchos problemas econométricos es imposible encontrar estimadores con las

propiedades anteriores. Sin embargo, muchas veces se puede justificar la

utilización de un estimador en base a sus propiedades asintóticas.

Consistencia

Un estimador es consistente si se aproxima al verdadero valor de a medida

que el tamaño de la muestra se hace más grande.1

Eficiencia asintótica

Si un estimador es consistente y su varianza asintótica es menor que la de otros

estimadores, entonces es asintóticamente eficiente.

1 Formalmente se expresa como ˆlim 1

nP

, donde P indica probabilidad y δ>0. También se pude

expresar como ˆlimp , donde plim significa probabilidad en el límite.

Función de densidad

de probabilidad

Estimador B

Estimador A


Otros

Kennedy considera además de los expuestos, otros criterios como:

Costo computacional

Minimizar errores cuadrados

Mayor R-cuadrado

6. Método de Mínimos Cuadrados Ordinarios (MICO)

Nuestro objetivo es encontrar la recta que pasé lo mas cerca de nuestras

observaciones, para lo cual deberíamos de minimizar la suma de los errores ó

residuos. Pero minimizar cuales errores ¿Min Σe? o ¿Min Σe2?

La diferencia entre minimizar Σe ó Σe2, está en que de la primera manera estamos

ponderando igual un residuo (desviación) pequeña que una grande, mientras que si

minimizamos la suma de residuos al cuadrado estamos ponderando más las

desviaciones más grandes.

Lo que hace MICO, es minimizar la sumatoria de errores al cuadrado, ei2 (para

dar peso proporcional a residuos más grandes). O sea, minimizaremos la suma de

los cuadrados de las “distancias verticales” desde los puntos a la recta.

Función de densidad de

probabilidad

n = 100

n = 1000

n = 20


Sabemos que ˆi i ie Y Y y iii XYe 21

ˆˆ , entonces:

22

2

1 2

1 2

ˆ

ˆ ˆ

ˆ ˆ,

i i i

i i

i i

i

e Y Y

Y X

f

6.1 Derivación

Planteando el problema de minimización:

2 2

1 2ˆ ˆmin ( )i i i

i i

e Y X (6.1)

0ˆ

0ˆ

0ˆ

0ˆ

2

2

2

2

1

2

2

2

1

2

i

i

i

i

e

e

e

e

Resolviendo para 1 :

1 2

1

1 2

1 2

1 2

ˆ ˆ2 ( )( 1) 0ˆ

ˆ ˆ( ) 0

ˆ ˆ1 0

ˆ ˆ 0

ie

i i

i i

i i

nn

QY X

Y X

Y X

Y X

(6.2)

CNPO

CNSO


Despejando 1 tenemos:

1 2ˆ ˆY X (6.3)

También podemos expresar (6.2) como:

0

0)1(2ˆ

1

i

i

e

eQ


1

1 2

2

2

1 2

ˆ

2

2 2

ˆ ˆ2 ( )( ) 0ˆ

ˆ ˆ 0

ˆ ˆ 0

i i i

i i i i

i i i i

QY X X

Y X X X

Y X Y X X X

(6.4)

2

2 2

2

2 2

2

2 2

2 2

2

ˆ ˆ

ˆ ˆ

ˆ ˆ

ˆ

i i i i

i i i

i i i

i i i

Y X Y X X X

Y X Y X nX X

Y X nYX XnX X

Y X nYX X nX


2 2 2ˆ i i

i

Y X nYX

X nX

(6.5)

También podemos expresar (6.4) como:

Esta es la 1ª

condición que se

debe cumplir para

minimizar la

suma de

cuadrados de los

residuos.


2

2 ( 1) 0ˆ

0

i i

i i

Qe X

e X

(6.6)

A las dos condiciones se les llama generalmente Ecuaciones Normales.

Podemos plantear (6.5) de dos maneras alternativas:

i. Recordando las fórmulas de la covarianza y la varianza muestral y

transformándolas:

( )( ) ( )cov( , )

1 1

1 1 1 1 1 1 1 1

1

i i i i i i

xy

i i i i i i

i i

X X Y Y X Y X Y XY XYS X Y

n n

X Y X Y X Yn n n n n nY X XY YX XY XY

n n n n n n n n n n

X Y nXY

n

El último término es similar al numerador de (6.5).

11

2

1

2

1

2

11

222222

222

2

n

XnX

n

XnXX

n

XnXXX

n

XXXX

n

XXXX

n

XXS

i

Xn

n

Xn

iii

iiiii

x

i

El último término es similar al denominador de (6.5).

Por lo tanto, podemos expresar 2 como:

2 2 2 2 2ˆ

( 1)

i i XY XY

i X X

Y X nYX nS S

X nX n S S

(6.7)

Esta es la 2ª

condición que se

debe cumplir para

minimizar la suma

de cuadrados de los

residuos


ii. Dada la expresión anterior, podemos plantear 2 como:

2 22 2

( )( )

1ˆ( )

1

i i

i iXY

iX i

X X Y Yx yS n

X XS x

n

, donde i ix X X y i iy Y Y .

TAREA: Verificar que las condiciones necesarias de segundo orden, corresponden

con las de un mínimo.

Ejemplo

Supongamos que conocemos los datos de

producción y horas trabajadas de 10

trabajadores de una fábrica en un momento

de tiempo (corte transversal). Definimos Y

= producto, X = horas de trabajo.

1 2

8

9.6

ˆ ˆi i

X

Y

Y X e

2 2 2 2

789 10 9.6 8ˆ 0.75668 10 8

i i

i

Y X nYX

X nX

1 2

2

ˆ ˆ

ˆ9.6 8

9.6 0.75 8 3.6

Y X

ˆ 3.6 0.75i iY X

6.2 Propiedades de la regresión MICO (Corolarios)

Los errores se compensan, o sea, tienen media cero

De la primera ecuación normal tenemos:

Obs. X Y X2 Y

2 XY

1 10 11 100 121 110

2 7 10 49 100 70

3 10 12 100 144 120

4 5 6 25 36 30

5 8 10 64 100 80

6 8 7 64 49 56

7 6 9 36 81 54

8 7 10 49 100 70

9 9 11 81 121 99

10 10 10 100 100 100

80 96 668 952 789


1

2 ( 1) 0ˆ

0

i

i

Qe

e

(6.2)

La regresión siempre pasa por el punto ),( YX

1 2

1 2

1 2

ˆ ˆ

ˆ ˆ

ˆ ˆ 0

i i i

i i i

i i

Y X e

Y X e

Y n X

1 2ˆ ˆY X (6.8)

El valor medio de Y estimado es igual al valor medio de Y observado.

1 2ˆ ˆ

ˆ

ˆ

ˆ

i i i

i i i

i i i

i i

Y X e

Y Y e

Y Y e

Y eY

n n

ˆY Y (6.9)

La regresión se puede expresar en desvíos

De (4.3) y (6.8) tenemos

1 2ˆ ˆ

i i iY X e

1 2ˆ ˆY X

Restando (4.3) – (6.8)


1 2 1 2

2

ˆ ˆ ˆ ˆ

ˆ ( )

i i i

i i i

Y Y X e X

Y Y X X e

2ˆ

i i iy x e (6.10)

2ˆˆ

i iy x (6.11)

Los residuos no están correlacionados con el valor estimado de Yi ni con los

valores explicativos

1

1

1

1

cov( , ) ( )( )

( )( )

0 0

i in

i in

i i in

in

X e X X e e

X X e

X e Xe

X e

(6.12)

1

1

1

ˆ ˆ ˆcov( , ) ( )( )

ˆ ˆ( )( )

ˆ ˆ 0

i in

i in

i i in

Y e Y Y e e

Y Y e

Ye Ye

(6.13)

1

1 11 2

ˆ

12 2

12 2

ˆ ˆˆ ( )

ˆ ˆ( )

ˆ ˆ

i i i in n

i in

i i i in

Ye X e

Y X X e

Ye X e X e

Descomposición en suma de cuadrados

Sabemos que: ˆi i iY Y e y ˆY Y . Restando las dos expresiones anteriores

obtenemos:


ˆ î iY Y Y Y e

lo que en desvíos respecto de la media puede expresarse como:

î i iy y e

Dado que 2ˆˆ

i iy x , entonces 2ˆ

i i iy x e .

Elevando al cuadrado:

2 22

2

2 2 2 2 2

2 2

ˆ ˆ

ˆ ˆ ˆ ˆ2 2

i i i i i

i i i i i i i i

y x e y e

x x e e y y e e

Aplicando sumatorias:

2 2 2 2 2 2

2 2

2 2 2 2 2

2 2

2 2 2 2 2

2

ˆ ˆ ˆ ˆ2 2

ˆ ˆ ˆ ˆ2 2

ˆ ˆ

i i i i i i i i i

i i i i i i i i

i i i i

y x x e e y y e e

x x e e y y e e

x e y e

Definimos

2

iy : Suma de cuadrados totales (SCT)

22

2

2 ˆˆ ii xy : Suma de cuadrados explicados (SCE)

2

ie : Suma de cuadrados residuales (SCR)

Por lo que SCT = SCE + SCR

También podemos definir SCE como:

2 2

2 2 2 2

2 222 22

ˆ î i i i i ii ii i i i i

i ii

x y x y x yx ySCE x x x x y

x xx


7. Coeficiente de determinación (R2)

Es una medida de la bondad de ajuste, y mide la proporción de la variación total de

Y que es explicada por el modelo de regresión, o sea:

2 1SCE SCT SCR SCR

RSCT SCT SCT

(7.1)

Sustituyendo por los valores definidos en la sección precedente

2 2 2 2

22

2 2 2

ˆˆ1

i i i

i i i

y x eSCER

SCT y y y

(7.2)

Características:

0≤R2≤1

Es una medida de bondad absoluta del modelo ya que mide que proporción

de la varianza total (varianza de Y) es explicada por el modelo de regresión

(por X).

Es una medida de bondad relativa entre modelos. Me permite comparar si

la capacidad explicativa es mayor incluyendo una variable Z en vez de X2.

Sin embargo, debe tenerse cuidado al comparar modelos, pues no es posible

hacerlo cuando la variable dependiente tiene diferentes unidades de medida en los

modelos comparados. Por ejemplo, no es posible comparar entre si el R2 de los

modelos ,Y f K L y ln ,Y f K L , puesto que la variable dependiente tiene la

unidad de medida y por lo tanto las SRC serán de magnitudes diferentes.

Otra forma de expresar el R2:

2

22

2 2

22

2 2

22

2

,2 2 2 2

ˆi i

i

x y

ixi

i i

i i XYX Y

i i X Y

xxR

y y

x y Sr

y x S S

(7.3)

2 Veremos que existen otras medidas de bondad de ajuste mejores que el R-cuadrado.


Es decir, en el modelo de regresión simple, el R2 es igual al cuadrado del

coeficiente de correlación simple3.

Propiedades de rX,Y:

Esta entre -1 y 1

Simetría rxy=ryx

Es independiente del origen y de la escala (a diferencia de la covarianza)

Si X y Y son estadísticamente independientes r=0, aunque r=0 no implica

independencia estadística.

Es una medida de asociación lineal, no tiene sentido utilizarla en

asociaciones no lineales.

No implica una relación causa-efecto.

En relación al modelo de regresión el R2 tiene más significado que el coeficiente de

correlación, ya que mide que porcentaje de la variación de la variable dependiente

es explicada por la(s) variable(s) independiente(s).

8. Supuestos del modelo clásico de regresión lineal

Cuando derivamos los estimadores MICO no fue necesario realizar supuestos

sobre la muestra o la distribución de ui.

En la sección anterior vimos una serie de criterios deseados por los econometristas

acerca de los estimadores. Estas características no pueden ser determinantes hasta

que no se realicen un conjunto de muestras repetidas de los estimadores, sobre

cómo fueron generadas las muestras. Desafortunadamente un estimador no tiene

las mismas características para todas las formas en que puede ser generado. Esto

significa que bajo algunos situaciones, un estimador tiene propiedades deseables

pero en otras situaciones no.

El modelo clásico de regresión lineal, consiste en una serie de supuestos acerca de

cómo son generados los datos. Modificando estos supuestos, se pueden crear

diferentes situaciones de estimación, bajo las cuales MICO no es óptimo.

3 Recordemos que el coeficiente de correlación es una medida de asociación lineal entre X y Y que equivale a:

,

,

i iX Y

X Y

X Y i i

x ySr

S S x y


Para verificar las propiedades estadísticas de los estimadores derivados,

requerimos ciertos supuestos

Los supuestos describen la forma del modelo y las relaciones entre sus partes, a

partir de los cuales se pueden establecer los procedimientos de estimación e

inferencia adecuados.

Los supuestos clásicos del modelo de regresión son:

1. El modelo de regresión es lineal en los parámetros y se encuentra bien

especificado.

2. Los valores de X son fijos en muestreo repetido. La covarianza entre ui y Xi

es cero. cov(ui/Xj)=0.

3. El valor medio de ui es igual a cero. E(ui/Xi)=0

4. Homocedasticidad o igual varianza de ui. var(ui/Xi)=σ2.

5. No autocorrelación entre los ui. cov(ui/uj)=0

6. El número de observaciones debe ser mayor que el de variables

independientes y no hay relación lineal exacta entre las X. No hay

multicolinealidad perfecta.

8.1 El modelo de regresión es lineal en los parámetros y se encuentra bien especificado.

Esto quiere decir, tal como hemos visto, que el modelo es lineal en los parámetros,

aunque puede no serlo en cuanto a las variables. Además el modelo está bien

especificado, con cual significa que:

No hay variables omitidas

No hay variables intrusas

Forma funcional correcta

8.2 Los valores de X son fijos en muestreo repetido.

Este supuesto implica que si se repitiera la selección de muestras se podría

considerar que las variables independientes serían las mismas.

Este es un supuesto bastante fuerte, porque supone que las variables X no son

aleatorias; es posible mantener fijo el valor de X, y repetir el experimento,

obteniendo en cada observación, un valor de la variable aleatoria Y. De esta

manera Cov(u,X)=0.


8.3 El valor esperado de ui es igual a cero.

La perturbación aleatoria ui puede tomar valores positivos o negativos, pero no

existe razón para esperar que sea sistemáticamente positiva o negativa.

Dado que X es fija, XuXEXYE ii 2121 )(/ , este supuesto también

implica que todo lo que no está incluido en el modelo, se supone que no afecta en

forma sistemática el valor promedio de Y, porque se compensan los errores.

8.4 Homocedasticidad o igual varianza de ui.

Se supone que las perturbaciones se distribuyen con igual dispersión (varianza)

respecto a la media.

2

2

2

0

)()var(

i

iii

uE

uEuEu

Cuando este supuesto no se cumple, decimos que existe heterocedasticidad.

f(ui)

Y

X

X3

X2

X1

E(Y/ X i ) = 1 + 2 X i

Homocedasticidad


Ejemplo: supongamos que deseamos explicar el gasto en consumo de las familias

en función de su ingreso. Si los datos se refieren a una muestra de corte

transversal, el supuesto de homocedasticidad no tiene mucho sentido, ya que indica

que independientemente del nivel de ingreso, los gastos de cada familia se desvían

del modelo con la misma dispersión. Lo lógico es pensar que a mayores niveles de

ingreso, hay un mayor espacio para que las familias distribuyan su ingreso.

8.5 No autocorrelación entre los ui.

Significa que no existe ninguna tendencia a que los errores asociados con una

observación estén relacionados a los errores de otra. Si en un momento de tiempo

o en un individuo de la muestra se genera un error positivo, esto no nos da ninguna

información sobre si el próximo error será positivo o negativo.

Este supuesto implica que los errores no tienen un patrón de comportamiento

sistemático.

Bajo este supuesto, si ut y ut-1 están correlacionados, Yt no sólo depende de Xt, sino

también de ut-1.

Formalmente este supuesto se expresa:

f(ui)

Y

X

X3

X2

X1

E(Y/ X i ) = 1 + 2 X i

Heterocedasticidad


0,

)()(),cov(

ji

jjiiji

uuE

uEuuEuEuu

8.6 El número de observaciones debe ser mayor que el de variables independientes y no hay relación lineal exacta entre las X. No hay multicolinealidad perfecta.

Que el número de observaciones sea mayor que las variables independientes, es

una condición matemática necesaria para poder estimar los betas. Por ejemplo, en

el caso del modelo simple, para poder trazar una línea recta, tenemos que estimar

1 y 2 , por lo que necesitamos al menos dos pares de puntos.

ui

ui

uj

j

uj

No existe

correlación

*

*

*

* * *

* *

*

u

i

ui

uj

j

uj

*

*

*

*

*

*

*

*

*

*

Correlación

Positiva

u

i

ui

uj

j

uj

Correlación

Negativa

*

* * *

* *

* *

*


Asimismo, se requiere también que no exista una relación perfectamente lineal

entre dos o más variables explicativas.

9. Propiedades Estadísticas de los estimadores MICO

9.1 Linealidad

2 2 2 2ˆ i ii i i i i

i i i

x Y Yx y xY Y x

x x x

Dado que la 0ix entonces

2 2ˆ i i

i

xY

x

(9.1)

Si definimos el ponderador 2

ii

i

xk

x

, con las propiedades siguientes:

a) No estocástico

b) 0ik

c) 2

2

1i

i

kx

d) 1i i i ik x k X

Sustituyendo el ponderador en (9.1), tenemos que:

2 2ˆ i i

i i

i

xYk Y

x

(9.2)

Se muestra que 2 es un estimador que puede expresarse de forma lineal, donde ki

son las ponderaciones de esta combinación lineal.

Tarea: verificar estas propiedades.

(Gujarati Apéndice 3A.2)


9.2 Insesgamiento

Sabemos que 1 2i i iY X u , entonces sustituyendo en (9.2) tenemos:

2 1 2

1 2

1 2

î i i i i

i i i i i

i i i i i

k Y k X u

k k X k u

k k X k u

2 2

î ik u (9.3)

Aplicando el operador de esperanza:

2 2 2ˆ

i i i iE E k u k E u

2 2Ê (9.4)

Por lo tanto, 2 es un estimador insesgado. Esto quiere decir que 2 se puede

alejar del verdadero 2 en una muestra, pero si repetimos muchas veces el

experimento, estaremos en promedio sobre el verdadero valor del parámetro.

Recordar: el estimador insesgado no es necesariamente el mejor estimador. (¿por

qué?)

De la misma manera se puede demostrarse que 1 es también un estimador

insesgado.

Tarea: Demostrar que 1 es insesgado.

9.3 Eficiencia

Calculo de varianzas y covarianza

Necesitamos calcular primero las varianzas de los estimadores MICO.


2

2 2 2ˆ ˆ ˆvar E E

Sabemos que 2 2ˆE , entonces sustituyendo:

2

2 2 2ˆ ˆvar E

(9.5)

De (9.3), sabemos que:

2 2

2 2

ˆ

ˆ

i i

i i

k u

k u

, sustituyendo en (9.5) tenemos:

2 2

2 1 1 2 2

1 1 2 2 1 1 2 2

2 2 2 2

1 1 1 2 1 2 1 3 1 3 2 2 2 2 1 1

ˆvar ...

... ...

... ...

i i n n

n n n n

E k u E k u k u k u

E k u k u k u k u k u k u

E k u k k u u k k u u k u k u k u

Vamos a tener:

n términos 2 2i ik u , o sea

2 2

1

n

i ik u

( 1)

2

n n términos 2kiuikjuj, o sea

( 1)

2

1

2

n n

i i j jk u k u

( 1)

22 2

2

1 1

ˆvar 2

n nn

i i i i j jE k u k k u u

Recordando

2 2( )

( ) 0

i

i j

E u

E u u

y ki es no aleatorio o no estocástico,


( 1)

22 2

2

1 1

22 2 2

2 21

ˆvar 2

1

n nn

i i i j i j

n

i

i i

k E u k k E u u

kx x

2

2 2ˆvar

ix

(9.6)

Características de la varianza:

La varianza de 2 es directamente proporcional a 2 (varianza de u) e

inversamente proporcional a 2

ix (varianza de X)

Dado 2 , cuanto mayor sea la variabilidad de la variable X, màs centrado

estará el estimador del verdadero valor.

Dada la varianza de Xi, a mayor 2 (mayor variabilidad de los datos a

explicar o mayor variabilidad del error aleatorio), mayor será la varianza del

estimador.

Tarea: demostrar que

2 22 2

1 2 2

1ˆvar( )i

i i

X X

n x x n

(9.7)

Ahora vamos a calcular la covarianza entre 1 y 2

1 2 1 1 2 2

1 1 2 2

ˆ ˆ ˆ ˆ ˆ ˆcov , ( ) ( )

ˆ ˆ

E E E

E

(9.8)

Sabemos que 1 2

1 2

ˆ ˆY X

Y X u

con lo que 1 1 :


1

1 1 2 1

ˆ

1 2 2 1

2 2

ˆ ˆ

ˆ

ˆ

Y

Y X

X u X

X u

Sustituyendo en (9.8) tenemos:

1 2 2 2 2 2

2 2 2 2 2 2

2

2 2

2

1 2 1 1 2 22

22

2

ˆ ˆ ˆ ˆcov ,

ˆ ˆ ˆ

ˆ

1... ...

iu

i in

n n n

i

i

i

E X u

E X E u

X E E k u

X E u u u k u k u k ux n

X kx

2

1 2 22ˆ ˆ ˆcov , var

i

X Xx

(9.9)

Características de la covarianza:

Tanto 1 como 2 , dependen entre si.

El signo depende de X , si 0X la covarianza es negativa y viceversa.

Tanto las varianzas como la covarianza de los estimadores, dependen de datos

conocidos 2, , , ...i iX X n X y de un parámetro desconocido 2 .

Como no conocemos 2 , porque es un parámetro poblacional, no conoceremos los

valores de las verdaderas varianzas. Estimaremos 2 y eso nos permitirá estimar

las varianzas de 1 y 2 .

Los productos cruzados son

iguales a cero, por el supuesto de

no autocorrelación. E(uiuj)=0


Estimador de σ2

Recordando la ecuación (3.2),

1 2i i iY X u (9.10)

dividiendo entre n y aplicando sumatoria para todo i

1 2

i i iY X u

n n n

1 2Y X u (9.11)

restando (9.10)-(9.11) tenemos,

1 1 2i i iY Y X X u u

2i i iy x u u (9.12)

Recordemos de (6.10) que:

2ˆˆi i i i ie y y y x (9.13)

sustituyendo (9.12) en (9.13)

2 2 2

2 2

ˆˆ

ˆ

i i i i i i i

i i i

e x u u y x u u x

e x u u

Elevando al cuadrado:

22

2 2

22 2

2 2 2 2

ˆ

ˆ ˆ2

i i i

i i i i

e x u u

x u u x u u

Sumando para todo i


2 22 2

2 2 2 2ˆ ˆ2i i i i ie x u u x u u

Aplicando esperanza

2 22 2

2 2 2 2

2 22

2 2 2 2

ˆ ˆ2

ˆ ˆ2

i i i i i

i i i i

A B C

E e E x E u u E x u u

x E E u u E x u u

2

iE e A B C (9.14)

Vamos a desarrollar cada uno de los términos por separado:

2

2 2

222 2 2

2 2 2

ˆvar( )

ˆ

xi

i i

i

A x E xx

2

2 2 2

2 2

2 2 2 2

2 2 2 2 2

2

2 2 2

2

2

2

2 2

2

i i i

i i

i i i

nu

i i

i

i i

i

B E u u E u u u u

E u u u u

E u u u nu E u u nu nu

E u nu nu E u nu

uE u nE u E u nE

n

E uE u n

2

2 2 22 2

2

2 1

i nn

n n n

n

El supuesto

utilizado es

que las ui

son no

correlaciona

das


2 2

0

1 1 2 2 1 1 2 2

2 2 2

1 1 1 2 2 2 1 1

ˆ2 2

2

2 ... ...

2 ... ...

i i

i i i i i i i

k u

i i i i

n n n n

n n n n n n n

C E x u u E k u x u u x

E k u x u

E k u k u k u x u x u x u

k x E u k x E u k x E u k x E u u

2 2 2

1

2 2 2i i i ik x k x

Sustituyendo los resultados de A, B y C en (9.14)

2 2 2 2

2 2

( 1) 2

(1 1 2) ( 2)

iE e A B C n

n n

2 2( 2)iE e n (9.15)

Si definimos que el estimador de la varianza del término de perturbación 2 se

basa en la varianza de los residuos corregido por los grados de libertad perdidos en

la estimación de los parámetros, es decir:

2

2ˆ( 2)

ie

n

(9.16)

El resultado de (9.15) nos asegura que estamos definiendo un estimador insesgado

de 2 , porque:

2

2

2 2 2

( 2)

2

1 1ˆ ( 2)

2 2 2

i

i

n

eE E E e n

n n n

Entonces (9.16) es un estimador insesgado de 2 .


Varianzas estimadas

Sabemos de (9.6) que 2

22

ˆ2 2ˆvar

ix

y de (9.16) que

2

2ˆ( 2)

ie

n

.

Entonces sustituyendo (9.16) en (9.6) tenemos la varianza estimada de 2

estimado:

2

2

22( 2)2

ˆ 2 2 2

ˆˆ

( 2)

ie

n i

i i i

e

x x n x

(9.17)

Sustituyendo para 1 :

1

2 22 2 2

ˆ 2 2

1ˆ ˆ ˆi

i i

X X

n x x n

(9.18)

Tarea: Hallas las varianzas estimadas para el ejemplo de la página 28.

10. Teorema de Gauss-Markov

Hipótesis: Si se cumplen los siguientes supuestos clásicos:

1. La variable explicativa X está dada (es no estocástica o no aleatoria).

2. 0iu i

3. ,i ju u

2

0

si i j

si i j

, homocedasticidad y no autocorrelación

4. No hay errores de especificación.

TESIS: Los estimadores MICO son de mínima varianza entre los estimadores

lineales e insesgados. MICO, son los mejores estimadores lineales

insesgados (MELI).


Demostración

Sabemos que 2 es lineal 2ˆ

i ik Y e insesgado 2 2ˆE

y que

2

2 2ˆvar( )

ix

.

Supongamos que existe otro estimador *

2 lineal de 2 .

Entonces para que sea lineal *

2 deberá ser igual a *

2 i iwY donde iw es

algún ponderador.

Calculemos *

2 y veamos qué condición debemos exigirle a iw para que *

2

sea insesgado

*

2 1 2 1 2

1 2

i i i i i i i

i i i

E w E Y w E X w X

w w X

Para que *

2 sea insesgado se debe cumplir 0

1

i

i i i i

w

w X w x

Veamos las condiciones que tiene que cumplir iw para que la varianza sea

mínima:

2

* 2 2 2 2 2

2var( ) var vari i i i i iwY w Y w w

Sumando y restando 2

i

i

x

x al término con sumatoria:


22

2 2

2 2 2 2

2 2

2

2 2 2 2

2 2

2 2 2

2 2 2

2

2

i i i ii i

i i i i

i i i ii i

i i i i

i i i ii

i i i

x x x xw w

x x x x

x x x xw w

x x x x

x x w x xw

x x x

i

2

22

22

2 2 2 2

22 2 22

El término entre paréntesis es cero,Ya que para que exista insesgamiento

Se requiere que: x 1

1 12

i

i

i

iii i i i

i i ii

w

x

xxw x w x

x x xx

2

2* 2

2 2 2var i

i

i i

xw

x x

(10.1)

Necesitamos minimizar esto, pero el segundo sumando

2

2

ix

es un número, es

una constante; entonces, minimizar *

2var es equivalente a minimizar

2

2

ii

i

xw

x

y este cuadrado se minimiza cuando la base es igual a cero, es

decir, se minimiza cuando: 20i

i

i

xw

x

o sea 2

ii

i

xw

x

.

La condición que minimiza la varianza es que 2

ii

i

xw

x

, que es una condición

igual a la de MICO, por lo que *

2 2 .

2

*

2 22ˆvar var

ix


Este teorema asegura que si existe otro estimador (*

2 ) con similares propiedades

al que tiene MICO (linealidad e insesgamiento), para que la varianza de *

2 sea

mínima, este estimador debe ser el estimador MICO.

Como consecuencia, MICO es el mejor estimador entre los estimadores lineales e

insesgados.

Hasta este punto hemos demostrado que los estimadores MICO tienen propiedades

importantes:

Linealidad.

Insesgamiento.

Mínima varianza dentro de la familia de estimadores lineales e insesgados

(eficientes entre los estimadores lineales e insesgados).

Tarea: Verificar cuales de los supuestos del MCRL son necesarios para cada una

de las propiedades (linealidad, insesgamiento y mínima varianza)

11. Regresión sin intercepto (a través del origen)

En el algunas ocasiones tendremos que estimar regresiones como 2i i iY X u , en

las cuales no existe el término del intercepto, las cuales son llamadas regresiones a

través del origen.

Derivación del estimador 2

Ahora tenemos que,

2ˆ

i i ie Y X

Procedemos a elevar al cuadrado y sumar para todo i

2

2

2ˆ

i i ie Y X

Planteando el problema de minimización y resolviendo


22

2

2

2

2

ˆmin

ˆ2 0ˆ

i i i

i

i i i

e Y X

d eY X X

d

2

2

2

ˆ 0

ˆ 0

i i i

i i i

Y X X

Y X X

Despejando obtenemos:

2 2ˆ i i

i

Y X

X

(11.1)

Sesgo y varianza

Si sustituimos 2i i iY X u en (11.1), tenemos

2

2 2

2

2

2

2 2

ˆ i i i

i

i i i

i

i i

i

X u X

X

X X u

X

X u

X

(11.2)

Aplicando esperanza a 2

2 2 22ˆ i i

i

X uE E

X

, por lo tanto es un estimador insesgado

Ahora veamos la varianza cuál es la varianza


2

2 2 2

2

2 2

2

2 22

2

2

ˆ ˆ ˆvar

ˆ

i i

i

i i

i

E E

E

X uE

X

X uE

X

Desarrollando el término dentro del corchete, tomando en cuenta que Xi es no

estocástica y las ui son homocedásticas y no correlacionadas, obtenemos:

2

2 2ˆvar

iX

(11.3)

donde ahora, ya que sólo pérdemos un grado de libertad para calcular 2

ie , el

estimador de 2 es:

2

2ˆ( 1)

ie

n

(11.4)

Comparemos con los resultados del modelo con intercepto:

Regresión sin

intercepto

Regresión con

intercepto

Estimador de 2 2 2

ˆ i i

i

Y X

X

2 2ˆ i i

i

y x

x

Varianza de 2

2

2 2ˆvar

iX

2

2 2ˆvar

ix

Estimador de 2 2

2ˆ( 1)

ie

n

2

2ˆ( 2)

ie

n


La diferencia consiste en que el modelo de regresión sin intercepto se utilizan

sumatorias sencillas, mientras que el modelo con intercepto se utilizan sumas

ajustadas por la media (en desvíos).

11.2 Características del modelo sin intercepto

La sumatoria de los errores es diferente de cero 0ie

En el modelo de regresión con intercepto, de la primera ecuación normal,

concluimos que 0ie . En el caso del modelo sin intercepto, no sucede esto,

sino que 0ie . Supongamos que 0ie , entonces:

2

2

2

2

ˆ

ˆ

ˆ

ˆ

i i i

i i i

i i

i

i

Y X e

Y X e

Y X

Y

X

2ˆ Y

X (11.5)

Este estimador de 2 , es diferente al encontrado anteriormente en (11.1). Dado

que el estimador de (11.1) se demostró que era insesgado, el encontrado en (11.5)

no puede serlo.

En el modelo a través del origen, no se cumple 0ie , aunque si podemos

concluir que 0i iX e . (¿Por qué?)

El R2 en el modelo de regresión a través del origen (R

2 simple)

Para el modelo con intercepto R2 según (7.1) equivale a:

2

2

21 1

i

i

eSCRR

SCT y

(11.6)


donde 2 2 2 2

2ˆ

i i ie y x , o sea SRC≤STC, por lo que R2 es siempre positivo.

Pero en el modelo sin intercepto, se puede demostrar que 2 2 2 2

2ˆ

i i ie Y X ,

pero no existe garantía de que SRC≤STC, lo cual implica que el R2

como lo

conocemos pueda ser negativo.

En el caso del modelo de regresión a través del origen se puede calcular el llamado

R2 simple (aunque no es directamente comparable con R

2 convencional):

2

2

2 2

i i

i i

X YR

X Y

(11.7)

Debido a las características especiales del modelo sin intercepto es preciso ser

cauteloso al utilizarlo. Al menos que haya gran certeza de su conveniencia, es

mejor utilizar el modelo usual con intercepción, debido a:

Si el intercepto se incluye y resulta estadísticamente no significativo, en la

práctica, es como si tuviéramos una regresión por el origen4.

Si el modelo tiene un intercepto, pero no lo incluimos, incurrimos en el

sesgo de especificación, uno de los supuestos clásicos.

11.3 Estimación “con” versus “sin” intercepto

Supongamos que el proceso generador de Y está dado por la ecuación XX.

1 2i i iY X u

Llamemos 2 al estimador MICO de 2 de una regresión sin intercepto. ¿Qué

sucede si utilizamos 2 estimado de una regresión sin intercepto? En el gráfico

tenemos una muestra de 10 observaciones donde el verdadero modelo incluye

intercepto, y las rectas de regresión estimadas con 2 modelos: uno con intercepto y

otro sin intercepto. ¿A qué se debe la diferencia entre 2 y 2 ?

4 Sin embargo, es preciso señalar que si el intercepto efectivamente está ausente (de la FRP), entonces es más

preciso el estimador de la pendiente.


Dado que 2 procede de una regresión cuyo intercepto es cero, tiene una mayor

pendiente, ya que está forzado a partir del origen. Se puede demostrar que 2 es

sesgado.

Tarea: demuestre que 2 es sesgado.

12. Diferentes formas funcionales de los modelos de regresión

Hemos supuesto que el modelo de regresión es lineal en los parámetros, mas sin

embargo puede ser o no lineal en las variables. A continuación se consideran

algunos modelos no lineales en las variables. Dado que estos modelos continúan

siendo lineales en los parámetros, pueden ser estimados utilizando MICO.

12.1 Modelo doble logarítmico, log-log o log-lineal

Supongamos el siguiente modelo exponencial, 2

1exp iu

i iY X , si aplicamos las

propiedades de los logaritmos tenemos

1 2

ln ln lni i i

Y X u

(12.1)

Si derivamos (logarítmicamente) respecto de la variable X,


2

2

2

ln

ln

%

%

d Y

d X

YY XY

X X YX

Y

X

Donde 2 es una elasticidad constante e indica el cambio % en la variable Y

provocado ante un cambio % de la variable X.

12.2 Modelo log-lin

Consideremos ahora que 0 1 exp tt u

tY Y r . Aplicando logaritmo tenemos

0ln ln ln 1t tY Y t r u (12.2)

que podemos expresar también como

1 2ln t tY t u (12.3)

donde 1 0lnY y 2 ln 1 r .

Supongamos que en (12.3) la variable explicativa no es el tiempo, sino X.

Entonces tenemos

1 2ln i i iY X u (12.4)

Diferenciamos respecto a X,

2

2

2

ln

%

d Y

dX

dYY

dX

Y

X


En este caso 2

es una semielasticidad, e indica el cambio % en Y ante un cambio

en unidades (absoluto) de la variable X.

12.3 Modelo lin-log

Supongamos el siguiente modelo, donde ahora la variable en logaritmo está en el

lado derecho

1 2ln lni i iY X u (12.5)

Diferenciamos respecto a la variable del coeficiente de pendiente (X) y tenemos,

2

2

2

ln

%

dY

d X

dY

dXX

Y

X

En este modelo 2

busca explicar cambios absolutos en Y ante cambios % de X.

13. Ejercicios

1. La función de producción de una industria que tiene retornos constantes a escala

se puede representar como 1LAKY .

a) ¿Puede estimarse el parámetro α mediante mínimos cuadrados ordinarios? Si la

respuesta es afirmativa, explique cómo.

b) Se tiene la siguiente matriz de varianzas y covarianzas, para una muestra de 27

empresas. LN(Y)-LN(L) LN(K)-LN(L)

LN(Y)-LN(L) 0.0611 0.0809

LN(K)-LN(L) 0.0809 0.2229


Además se sabe que la sumatoria ln 45.3594Q

L y ln 45.4213K

L .

Encuentre los estimadores de los parámetros, para la función de producción del

sector. (Pista: recuerde las fórmulas de la varianza y covarianza muestral).

c) Si la suma de residuos al cuadrado es igual a 0.8557, encuentre el estimador de

la varianza, las varianzas estimadas de los coeficientes y el coeficiente de

determinación

2. Considere los siguientes datos obtenidos de una muestra aleatoria, y calcule los

estimadores de la pendiente para un modelo con intercepto y otro sin intercepto.

Comente las diferencias entre ambos estimadores.

Obs. X Y X2 Y

2 XY

1 4.5 6.1 20.3 37.6 27.6

2 2.0 4.0 4.0 15.7 7.9

3 1.0 2.8 1.0 7.8 2.8

4 0.0 2.8 0.0 8.1 0.0

5 3.5 5.0 12.3 24.9 17.5

6 3.0 4.7 9.0 21.7 14.0

7 1.5 3.6 2.3 12.7 5.3

8 2.5 4.3 6.3 18.6 10.8

9 4.0 5.7 16.0 32.6 22.8

10 5.5 6.8 30.3 46.4 37.5

27.5 45.8 101.3 226.1 146.2

Capítulo 3

Modelo de Regresión Lineal

Múltiple: Estimación

El modelo de regresión simple no siempre es útil, pues comúnmente la variable

explicada es afectada por más de una variable. En este capítulo se presenta el

modelo de regresión lineal múltiple, (MRLM) tanto en su versión de álgebra lineal

como matricial, la derivación de los estimadores, sus propiedades y los supuestos

del modelo clásico de regresión.

1. Notación

El MRLM se representa de la forma siguiente:

1 2 2 3 3 ....i i i k ki iY X X X u (1)

1 es el intercepto

k es el coeficiente parcial

k es el número de regresores y también el número de variables

k-1 es el número de variables explicativas

i es la iésima observación de una población n

1.1 Interpretación de los coeficientes

Si tomamos la esperanza condicional de (2) obtenemos:

1 1 2 2 3 3/ ... ....i k i i k kiE Y X X X X X (2)1

1 Esta ecuación equivale a la Función de Regresión Poblacional del modelo de regresión múltiple.

Modelo de Regresión Lineal Múltiple: Estimación 59

Entonces 2

mide el cambio en el valor esperado de Y, por unidad de cambio en

X2, permaneciendo el resto de Xk constantes (ceteris paribus). O sea, mide el

efecto “directo” o “neto” en E(Y) sobre un cambio en X2. El concepto de Xk

constantes significa que no se hacen cambios sobre el resto de variables Xk2; no

significa que todas las iésimas observaciones de las variables Xk son iguales a cero,

sino que se dejó la muestra constante con el mismo valor.

1 es el intercepto, que al igual que el modelo simple, indica el valor esperado

(promedio) sobre Yi, de las variables excluidas del modelo.

1.2 Enfoque matricial

Generalizando la ecuación (1) para cada una de las n observaciones, tenemos un

sistema de n ecuaciones simultáneas:

1 1 2 21 3 31 1 1

2 1 2 22 3 32 2 2

1 2 2 3 3

....

....

....

k k

k k

n n n k kn n

Y X X X u

Y X X X u

Y X X X u

Estas ecuaciones se pueden representar de forma matricial:

1 21 31 1 1 1

2 22 32 2 2 2

2 3

1

1

1

11 1

k

k

n n n kn k n

Y X X X u

Y X X X u

Y X X X u

nn kn k

uY βX

Y es el vector columna de la variable dependiente con dimensiones nx1.

X es la matriz de orden nxk que contiene k-1 variables explicativas y la primera

columna de 1 que representan el intercepto. También se llama matriz de

información.

β vector columna de kx1 con los parámetros del modelo.

u vector columna de nx1 con los términos de perturbación.

2 El concepto es el mismo que el de una derivada parcial.


El modelo de regresión se denota matricialmente de la manera siguiente:

Y Xβ u (3)

2. Estimadores MICO

2.1 Derivación

Primero vamos a derivar los estimadores utilizando el álgebra lineal, al igual que

en el modelo simple y luego veremos la derivación matricial.

1 2 2 3 3ˆ ˆ ˆ ˆˆ ....i i i k kiY X X X (4)

Al igual que para el modelo de regresión simple, dada la FRM del modelo de

regresión múltiple (4), para obtener los estimadores MICO, debemos de minimizar

la sumatoria de los errores al cuadrado.

2

1

2

2

2

2 2

1 2 2 3 3

ˆ 1 2 2 3 3

ˆ 1 2 2 3 3 2

ˆ 1 2 2 3 3

ˆ ˆ ˆ ˆmin ( .... )

ˆ ˆ ˆ ˆ2 ( .... )( 1) 0

ˆ ˆ ˆ ˆ2 ( .... )( ) 0

ˆ ˆ ˆ ˆ2 ( .... )

i

i

i

k

i i i i k ki

i i

e

i i i k ki

i

e

i i i k ki i

i

e

i i i k ki

e Y X X X

Y X X X

Y X X X X

Y X X X

( ) 0ki

i

X

(5)

De la primera Ecuación Normal podemos obtener:

1 2 2 3 3

1 2 2 3 3

1 2 2 3 3

ˆ ˆ ˆ ˆ( .... ) 0

ˆ ˆ ˆ ˆ.... 0

ˆ ˆ ˆ ˆ.... 0

i i i k ki

i

i i i k ki

i i i i i

i i i k ki

Y X X X

Y X X X

Y X X X

1 2 2 3 3ˆ ˆ ˆ ˆ....i i i k kiY X X X (6)


Si tomamos la presentación del modelo en desvíos y resolvemos el problema de

minimización de los errores al cuadrado, tenemos unas CPO similares a las

anteriores.

kikiii xxxy ˆ....ˆˆˆ3322

2

2

2

2 2

2 2 3 3

ˆ 2 2 3 3 2

ˆ 2 2 3 3

ˆ ˆ ˆmin ( .... )

ˆ ˆ ˆ2 ( .... )( ) 0

ˆ ˆ ˆ2 ( .... )( ) 0

i

i

k

i i i i k ki

i i

e

i i i k ki i

i

e

i i i k ki ki

i

e y x x x

y x x x x

y x x x x

Luego, al igual que para el modelo simple se despejan los betas estimados. Por

simplicidad, supongamos que el modelo tiene solamente 2 variables explicativas

(k=3), o sea 1 2 2 3 3i i i iY X X u . Tomemos las Ecuaciones Normales de 2

y 3 , y haciendo algunas manipulaciones algebraicas:

Ecuación Normal de 2

2

2

2

2 2 3 3 2

2

2 2 3 3 2

2

2 2 3 3 2

2

2 2 3 3 2

ˆ ˆ( )( ) 0

ˆ ˆ( ) 0

ˆ ˆ 0

ˆ ˆ

i

i

i

i i i i

i

i i i i

i

i i i i

i i i i

y x x x

y x x x x

y x x x x

y x x x x

Ecuación Normal de 3


3

3

3

2 2 3 3 3

2

3 2 3 3

2

3 2 3 3

2

3 2 3 3

ˆ ˆ( )( ) 0

ˆ ˆ( ) 0

ˆ ˆ 0

ˆ ˆ

i

i

i

i i i i

i

i i i

i

i i i

i i i

y x x x

y x x x

y x x x

y x x x

Si despejamos 3 de la última expresión de ambas ecuaciones normales y las

igualamos, podemos despejar y obtener 2 y 3 .

3

2 3

2

2 3 2 3

2 22 2

2 3

ˆ i

i i

i i i i i i

i i

y x x y x x x

x x x x

(7)

2

3 2

2

3 2 3 2

3 22 2

3 2

ˆ i

i i

i i i i i i

i i

y x x y x x x

x x x x

(8)

Derivación matricial del modelo general

A partir de las Ecuaciones Normales (5):

2

1

2

22

2

2 2

1 2 2 3 3

ˆ 1 2 2 3 3

2

ˆ 2 1 2 2 3 3 2 2

ˆ 1 2 2 3 3

ˆ ˆ ˆ ˆmin ( .... )

ˆ ˆ ˆ ˆ.... 0

ˆ ˆ ˆ ˆ.... 0

ˆ ˆ ˆ

i

i

i

i

k

i i i i k ki

i i

e

i i i k ki

e

i i i i i k ki i

e

i ki ki i ki i

e Y X X X

Y n X X X

Y X X X X X X X

Y X X X X X

2ˆ.... 0kiki kX X

despejando los términos con Y


2

1 2 2 3 3

2

2 1 2 2 3 3 2 2

2

1 2 2 3 3

ˆ ˆ ˆ ˆ....

ˆ ˆ ˆ ˆ....

ˆ ˆ ˆ ˆ....

i

ki

i i i k ki

i i i i i k ki i

i ki ki i ki i ki k

Y n X X X

Y X X X X X X X

Y X X X X X X X

(9)

Matricialmente (9) equivale a:

11 2

2

21 22 23 2 2 2 2 2 2

2

1 2 3 2

ˆ1 1 1 1

ˆ

ˆ

i ki

n i i i ki

k k k kn n ki ki i kik

Y n X X

X X X X Y X X X X

X X X X Y X X X X

(10)

Dadas las definiciones de matrices siguientes:

1

2

1

1

n

n n

Y

Y

Y

Y

1

21

1

ˆ

ˆˆ

ˆ

n

k kx

β

21 31 1

22 33 2

2 3

1

1

1

k

k

nxk

n n kn nxk

X X X

X X X

X X X

X 21 22 23 2

1 2 3

1 1 1 1

'n

kxn

k k k kn k n

X X X X

X X X X

X

2

2

2 2 2

2

2

i ki

i i i ki

kxk

ki ki i ki kxk

n X X

X X X X

X X X X

X'X

Podemos expresar (10) como:

βXX'YX' ˆ


Si 1XX' existe, puedo premultiplicar por 1

XX' y obtenemos:

βYX'XX'

βXX'XX'YX'XX'

I

ˆ

ˆ

1

11

1ˆ

β X'X X'Y (11)

Importante: Una condición necesaria para poder estimar los parámetros es que la

matriz X'X sea invertible (no singular), o sea que sea una matriz cuadrada con

determinante diferente de cero.

Otra forma de encontrar β

De (3) sabemos que uXβY y de la misma forma eβXY ˆ , donde β es el

vector kx1 de los estimadores MICO y e es el vector kx1 de los residuos.

La notación matricial de 2

ie , equivale a ee' , por lo tanto el problema de

minimización de los errores al cuadrado se convierte en:

ˆ ˆmin ( )'( ) e'e Y Xβ Y Xβ (12)

Antes de continuar, recordemos algunas propiedades de operaciones con matrices:

11

' ' '

' ' '

' '

' '

si ', entonces es simétrica

A B A B

AB B A

A A

A A

A A A


Luego, aplicamos las operaciones con matrices a (12)3:

ˆ ˆmin ( ) '( )

ˆ ˆ( ' ' ')( )

ˆ ˆ ˆ ˆ' ' ' ' ' '

ˆ ˆ ˆ' 2 ' ' ' '

e'e Y Xβ Y Xβ

Y β X Y Xβ

Y Y Y Xβ β X Y β X Xβ

Y Y β X Y β X Xβ

Ahora derivamos matricialmente para encontrar el vector β :

ˆ ˆ ˆ' ' 2 ' ' '0

ˆ ˆ ˆ ˆ

ˆ

ˆ

ˆ

ˆ

-1

e e Y Y β X Y β X'Xβ

β β β β

0 - 2X'Y + 2X'Xβ = 0

2X'Xβ 2X'Y

X'Xβ X'Y

β = X'X X'Y

(13)4

1ˆ

β X'X X'Y (14)

3. Propiedades de la regresión por MICO

Así como para el modelo simple, para el modelo de regresión múltiple se puede

demostrar que:

1. La línea de regresión pasa a través de las medias 2 3, , ... kY X X X .

2. El valor medio de Y estimado es igual al valor medio de Y observado ˆY Y

3. La sumatoria de los residuos es igual a cero 0ie .

4. Los residuos no están correlacionados con las Xk. 0i ie X ó X'e = 0 .5

3 Los términos ˆY'Xβ y β'X'Y equivalen a un escalar por ser de orden 1x1, donde uno es el transpuesto del otro, por

lo que puedo sustituirlo por ˆ2β'X'Y

4 El término ˆ ˆβ'X'Xβ equivale a una forma cuadrática, donde

ˆ ˆˆ2

ˆ

β'X'XβX'Xβ

β.


5. Los residuos no están correlacionados con Y .

6. La regresión se puede expresar en desvíos.

4. Descomposición de la suma de cuadrados

Recordando del modelo simple:

2 2 2 2 2 2

2ˆ ˆ

i i i i i

SCT SCE SCR

y x e y e

2 2 2 2

2

( )i i iSTC y Y Y Y nY

nY

Y'Y

(15)

Si definimos Yy' = (Y - )', entonces la STC también es igual a 2nYy'y = Y'Y

2 2 2 2

2 2

ˆˆ ˆˆ ( )

ˆ ˆˆ ˆ

i i iSEC y Y Y Y nY

nY nY

Y'Y β'X'Xβ

(16)

2

iSRC e e'e (17)

Entonces, el coeficiente de determinación R2 equivale a:

2

2

2

SCE nYR

SCT nY

β'X'Xβ

Y'Y (18)

De manera alternativa:

2

21 1 1

SCE SCT SCE SCRR

SCT SCT SCT nY

e'e e'e

Y'Y y'y (19)

Pero en el modelo de regresión múltiple hay un problema. A medida que se

agregan variables aunque no sean significativas (algo explican), disminuye

ee'2

ieSRC y R2 aumenta.

5 En otras palabras, el vector de errores es ortogonal a la matriz X.


Una forma de resolver el problema es ajustando el R2 por el número de grados de

libertad de la manera siguiente:

2

2

11 1 1 1

1 11

SCRnn k n k n kR

SCT nY n k

n nn

e'e e'e

e'e

y'yY'Y y'y (20)

Esta expresión la llamamos R2 ajustado.

Sustituimos (19) en (20) tenemos la relación entre ambos coeficientes.

2 2 11 1

nR R

n k

(21)

Propiedades del 2R

2 2R R . Son iguales cuando la correlación es perfecta

Si aumenta el tamaño muestral, dado k, el 2R tiende a 2R

Dado n, al aumentar el número de variables explicativas, ( 2R - 2R ) aumenta

2R puede ser negativo

5. Supuestos clásicos del modelo de regresión múltiple

Al igual que en el modelo simple, requerimos una serie de supuestos para

determinar las propiedades estadística de los estimadores MICO.

Estos supuestos clásicos para el modelo de regresión múltiple son equivalentes a

los del modelo simple y se pueden expresar en notación escalar o matricial.

Supuesto Notación escalar Notación matricial

El modelo es

lineal en los

parámetros y está

bien especificado

1 2 2 ....i i k ki iY X X u Y Xβ u

Las X son fijas en

muestreo repetido

X2,X3,…Xk son fijas o no

estocásticas

La matriz knX es no

estocástica o de números

fijos


El valor esperado

de la perturbación

ui es igual a cero

E(ui)=0 1( ) nE u 0

Homocedasticidad

y no

autocorrelación 2

0cov( , ) ( , )i j i j

i ju u E u u

i j

2( ')E uu I

No

multicolinealidad,

o sea no hay

relación lineal

exacta entre la

variables X

0...3322 kikii XXX y

1 2 ... 0k

El rango de X es igual a

k, ( ) k X , donde kn,

siendo k es el número de

columnas linealmente

independientes en X

5.1 El modelo de regresión es lineal en los parámetros y se encuentra bien especificado.

Las implicancias de este supuesto son las mismas que en el modelo simple: el

modelo es lineal en los parámetros, no hay variables omitidas, no hay variables

intrusas y tiene la forma funcional correcta.

5.2 Los valores de X son fijos en muestreo repetido

La matriz n kX es no estocástica. Nuestro análisis es condicional a X, que se

supone fija y la única fuente de variación de Y viene dada por el término

estocástico.

5.3 El valor esperado de ui es igual a cero

11

22

0

0

0nn

E uu

E uuE

E uu

(22)

Entonces ( ) ( ) ( )E E E Y/X Xβ +u Xβ u Xβ . Es decir se cometen errores

pero en promedio estaremos sobre los valores esperados.


5.4 Homocedasticidad y no autocorrelación

2

1 1 2 11

2

2 2 1 2 2

1 2 1

21 1 2

2

2

2 2

2

( )

( )'

( )

1 0 00 0

0 1 00 0

0 0 10 0

n

n

n n

n n n n nn n

E u E u u E u uu

u E u u E u E u uE E u u u

u E u u E u u E u

uu

I

(23)

5.5 No multicolinealidad

Este es un requisito que permite invertir X'X y que es necesario para obtener los

estimadores MICO.

El rango6 de una matriz es el máximo número de columnas (o filas) linealmente

independientes. Para que una columna (fila) sea linealmente independiente (LI),

éste no debe ser resultado de ninguna combinación lineal de las demás.

En nuestro caso, el rango de X es ( ) k X , donde kn, siendo k es el número de

columnas linealmente independientes en X .

Si 0...3322 kikii XXX y k es cero, existe colinealidad entre las Xk.

De forma matricial se expresa λ'X = 0, donde λ' es un vector fila de 1xk y X un

vector columna de kx1.

Para el caso del modelo con dos variables explicativas X2 y X3, se puede plantear

matemáticamente este supuesto como:

6 Propiedades del rango de una matriz:

El número máximo de filas LI es igual al número máximo de columnas LI.

Rango min ,m n m n A

Rango A = Rango 'A

Si rango m nA m=n, entonces A es no singular y su inversa existe y es única.

Rango X'X = Rango 'XX = Rango X .


2 2 3 3 0i iX X , si 1 ó 2 es cero, existe colinealidad entre X2 y X3.

A medida que mayor es el área entre la variable dependiente y las explicativas

(área 1 y 2) mayor es la información común y menor la varianza de los

coeficientes.

Sin embargo, cuanto mayor sea el área común entre las variables explicativas (área

4), mayor será la colinealidad de las variables y mayor será la varianza de los

estimadores.

A medida que se agregan variables explicativas los parámetros del modelo son

calculados cada vez con menos información, provocando un incremento en las

varianzas de los estimadores.

6. Propiedades de los estimadores

6.1 Linealidad

El estimador 1ˆ

β X'X X'Y es lineal en Y, ya que cada elemento de β es una

combinación lineal de elementos de Y, ponderadas por los X, los cuales

suponemos fijos.

y x3

1

2

x2

y x3

3

5

x2

4


6.2 Insesgamiento

Sabemos de (14) que YX'XX'β1ˆ

y de (3) uXβY . Sustituyendo (3) en

(14) tenemos:

1

1 1

1

ˆ

β X'X X' Xβ u

X'X X'Xβ X'X X'u

β X'X X'u

(24)


1ˆ( )

ˆ( )

E E E

E

β β X'X X'u

β β

(25)

Por lo tanto β es insesgado.

6.3 Eficiencia

La expresión matricial de la varianza y la covarianza la tenemos en la matriz

varianza-covarianza.

Despejando en (24) tenemos que:

1ˆ

β β X'X X'u


1 1

1 1

1 1

1 12

1 12

12

ˆ ˆ ˆ ˆ ˆvar cov ( ) ( ) '

ˆ ˆ '

'

'

'

E E E

E

E

E

E

I

β β β β β

β β β β

X'X X'u X'X X'u

X'X X'uu X X'X

X'X X' uu X X'X

X'X X' X X'X

X'X X'X X'X

X'X

12ˆvar cov

β X'X (26)

La cual se puede representar como:

1 1 2 1

2 1 2 2

1 2

ˆ ˆ ˆ ˆ ˆvar cov , cov ,

ˆ ˆ ˆ ˆ ˆcov , var cov ,ˆvar cov

ˆ ˆ ˆ ˆ ˆcov , cov , var

k

k

k k kkxk

β (27)

Por otro lado, se puede demostrar que un estimador insesgado de 2 es:

2

2ˆ ie

n k n k

e'e (28)

Las expresiones de las varianzas de la forma algebraica para un modelo con k=3

corresponden a:


2

2 2 2

2 23

ˆvar( )(1 )ix r

y

2

3 2 2

3 23

ˆvar( )(1 )ix r

Donde

2

3

2

2

2

322

23xx

xxr , es un coeficiente de determinación (R

2)

de una regresión

entre las variables explicativas.

2

3

2

223

2

2332

)1()ˆˆcov(

ii xxr

r

Características de la varianza de los estimadores

A medida que 23r aumenta, aumenta la varianza de los parámetros estimados

2 y 3 , reflejando el problema de multicolinealidad.

Las varianzas de 2 y 3 son proporcionales a 2 .

Las varianzas de 2 y 3 son inversamente proporcionales a las variabilidad

de sus respectivas variables.

7. Teorema de Gauss-Markov

Capítulo 4

Modelo de Regresión Lineal Simple:

Inferencia

Hasta ahora nos hemos ocupado solamente de la estimación de los parámetros del

modelo de regresión lineal simple, lo cual hicimos a través del método de MICO.

Bajo los supuestos del modelo clásico, pudimos probar que los estimadores MICO,

satisfacen varias propiedades estadísticas deseables, siendo los de mínima varianza

entre los estimadores lineales e insesgados (son MELI).

Pero los estimadores MICO son variables aleatorias, que cambiarán según la

muestra. Nuestro objetivo no es solamente estimar la FRM, sino poder hacer

inferencia respecto de la FRP.

Para poder hacer inferencia sobre los estimadores, es necesario conocer sus

distribuciones de probabilidad, algo que no hemos estudiado hasta ahora.

La Inferencia Estadística nos sirve para saber:

Que tan cerca están 1 y 2 de los parámetros poblacionales

Que tan cerca está i del verdadero E(Y/Xi)

1. Repaso Breve de algunos teoremas de Inferencia

1.1 Teorema 1. Teorema del Límite Central

Este teorema indica que la distribución de la suma de variables aleatorias tiende a

una distribución Normal cuando la cantidad de variables es muy grande.

Modelo de Regresión Lineal Simple: Inferencia 75

Sean X1,X2,..Xn una muestra de n variables aleatorias independientes e

idénticamente distribuidas (IID) que se toman de una población con media μ y

varianza finita 2 . La media muestral X tiene una distribución con media μ y

varianza finita 2 n que tiende hacia una distribución normal conforme n tiende a

∞. Veamos:

1

1 n

i

i

X Xn

1

1 n

i

i

E X Xn

2

2

2 21 1

1 1 1var( ) var var

n n

i i

i i

X X X nn n n n

Entonces a medida que n aumenta indefinidamente 2

~ ,n

nX N

, es decir X se

acerca a la distribución normal con media y varianza 2

n . Este resultado se

cumple independientemente del la FDP de X.

En otras palabras, si definimos nnZ X , tendrá como límite una

distribución normal estándar:

lim ~ 0,1

ann

nn

n

n XXZ N

1.2 Teorema 2

Si Z1, Z2,…Zn, son variables aleatorias que se distribuyen normal e independientes,

de forma que Zi~ 2,i i , entonces Z = 22, iiiiii kkNZk

O sea, la combinación lineal de variables aleatorias independientes y normalmente

distribuidas, poseen una distribución normal.


1.3 Teorema 3

Una covarianza nula entre dos variables aleatorias que se distribuyen Normal,

implica independencia estadística. F(x,y) = f(x)·f(y)

1.4 Teorema 4. Formación de la distribución Chi-Cuadrado

Si Z1, Z2,…Zn son variables aleatorias independientes que se distribuyen N(0,1),

entonces 2 2 2 2 2

1 2 ... ~i n nZ Z Z Z .

2 2>P La probabilidad de

que cualquier valor de la Chi-

cuadrado sea mayor a 2 es igual

al área que se acumula arriba y a la

derecha de 2

Exactamente el 95% de una

distribución Chi-cuadrado caen

entre 2975.0

y 2025.0

.

1.5 Teorema 5. Propiedad reproductiva de la Chi-cuadrado

Si iZ son variables aleatorias independientes y iZ ~ 2

ik , entonces, iZ ~ 2

ik .

O sea la suma de variables aleatorias independientes y distribuidas Chi-cuadrado

con k grados de libertad, poseen una distribución Chi-cuadrado, cuyos grados de

libertad es la suma de todos los grados de libertad.

1.6 Teorema 6

Si 2S es la varianza de una muestra aleatoria de tamaño n tomada de una

población normal que tiene la varianza 2 , entonces el estadístico 2

2

( 1)2 n S

tiene una distribución Chi-cuadrado con n-1 grados de libertad.

0 2


2

2

1

22

1

1

1

ni

i

n

i

i

X XS

n

n S X X

222

1 1

22

1

22

22

22

22

22

22

1

2

2

2

2

2

2

n n

i i

i i

n

i i

i

i i

i i

i i

i

i

i

i

n S X X X X

X X X X

X X X X

X X X n X

X X X n X

n XX X n n X

n

X X n X n X

X n X

n

222

222

2 2 2

1

1

i

i

S X n X

n XXn S

Si 2~N ,iX , el término

2

2

iX

, equivale a la sumatoria al cuadrado de

una variable que se distribuye normal estandarizada N(0,1), lo cual según el

Teorema 4 equivale a una Chi-cuadrado con n grados de libertad. Los términos del

lado derecho tienen n y 1 grados de libertad cada uno, por lo que 2

2)1(

Sn, se

distribuye como Chi-cuadrado con n-1 grados de libertad.


1.7 Teorema 7. Formación de la distribución t-student

2

1

2 1 12

2

1 2

~ (0,1)

~ ~

, son independientes

k n kZn

Z NZ Z n

Z t tZ

Z Z

1.8 Teorema 8

Si X es la media de una muestra aleatoria de tamaño n que se toma de una

población normal con media y varianza finita y desconocida 2 , pero varianza

estimada 2S , entonces el 1~ nS

n

Xt t

se distribuye t-student con (n-1) grados

de libertad.

1.9 Teorema 9. Formación de la distribución F de Fischer

11

1

2 1 22

2

2

1

2

2 ,

~

~ ~

independiente de 1 2

kZ

k

k k kZk

Z

Z F F

Z Z

-t/2 t/2 0

/2

P(-t/2 < t < t/2) = 1 -


>P F F la probabilidad de que cualquier valor de la F sea mayor a F es

igual al área que se acumula arriba y a la derecha de F .

1.10 Teorema 10.

El cuadrado de una variable aleatoria con distribución t-student con k grados de

libertad, tiene una distribución F, con 1 grado de libertad en el numerador y k en el

denominador.

2

1,k kt F

2. El supuesto de normalidad 2~ 0,iu N

Para obtener los estimadores de 1 y 2 que sean MELI, no hicimos ningún

supuesto sobre la distribución de probabilidades de u.

Ahora, para tener intervalos de confianza para los parámetros y probar cualquier

hipótesis requerimos el supuesto 0,iu N 2~ i

2.1 ¿Por qué suponemos distribución normal?

Existen varias razones:

0 F


1. El argumento más común es que como u es la suma de muchos factores

distintos no observados que influyen en Y, por el teorema del límite central1,

llegamos a la conclusión de que u tiene una distribución normal.

2. Una variante del teorema del límite central, establece que aunque el número

de variables no se muy grande o no sea estrictamente independiente, su suma

puede ser aún normal

3. La distribución de probabilidad de los estimadores MICO puede derivarse

fácilmente, como veremos en la próxima sección

4. La distribución normal es una distribución sencilla, con tan sólo dos

parámetros: media y varianza

5. Podemos hacer pruebas de hipótesis (t, F, 2) sobre los verdaderos

parámetros

Existen diversas críticas sobre este supuesto:

1. Los factores que afectan a u pueden tener distribuciones poblacionales muy

distintas. Aunque puede sostenerse el teorema central del límite, los

resultados van a depender de cuantos factores afecten a u y que tan

diferentes sean sus distribuciones.

2. Supone además que todos los factores afectan a u en forma lineal y aditiva

3. La normalidad es un problema empírico (no teórico). Por ejemplo, como el

salario siempre es mayor que cero, estrictamente hablando no tiene una

distribución normal; además hay leyes de salario mínimo que hacen que una

parte de la población gane exactamente el mínimo. Una solución es

transformar la variable, por ejemplo utilizando logaritmos [log(salario)], lo

cual puede generar una distribución que se acerque más a la normal

2.2 ¿Qué consecuencias tiene suponer que 2~ 0,iu N ?

1. iu normal y no correlacionados, es decir, los ui son independientes.

2. 1 2i i iY X u , por lo que Yi es una combinación lineal de variables

aleatorias que se distribuyen normal, o sea, Yi se distribuirá normal.

1 2 1 2

21 2var var var

i i i i

i i i i

Y X u X

Y X u u

1 El teorema central del límite demuestra que si existe un gran número de variables aleatorias independientes e

idénticamente distribuidas, entonces, la distribución de su suma tiende a ser normal a medida que el número de

variables se incrementa indefinidamente.


Por lo que 21 2 ,i iY N X

3. Recordemos que 2 2ˆ

i ik u , entonces 2 también es combinación

lineal de variables aleatorias normales, o sea que 2 es una variable

aleatoria que se distribuye normal.

2

2

2 2

22

ˆ2 2

2

ˆ2 2

ˆ

ˆvar

ˆ ~ ,

u

ix

N

4. Estandarizando,

2

1

2 22

ˆ

1 11

ˆ

ˆ~ 0,1

ˆ~ 0,1

Z N

Z N

5. Recordando el Teorema 6, podríamos probar que:

2

2

22

ˆ2~

n

n

(1)

6. Sabemos que:

2

2 2

ˆ

ˆ~ 0,1N

; donde

2

2

ˆ 2 2

u u

i ix x


Entonces,

2

2 22 2

2

ˆˆ~ 0,1

i

u

i

xN

x

(2)

Podríamos probar que (1) y (2) son independientes. Aplicando el Teorema 7:

22 2

22

2

ˆ

~ˆ2

2

i

un

u

u

x

t tn

n

(3)

Reorganizando (3) y simplificando:

2

2

2 2 2

2 2 2 2 2 2

2 2

22

22 2 2 2 2 2

ˆ

ˆ2

ˆ ˆ ˆ

ˆˆ ˆ2 1

2

ˆ ˆ ˆ

ˆ ˆˆ

ˆ

i i i

u u u

uu u

uuu

i

uu

i

x x x

tn

n

x

x

Es decir:

2

2 2

2

ˆ

ˆ

ˆnt

, y por similar procedimiento

1

1 1

2

ˆ

ˆ

ˆnt


Esto nos permitirá obtener intervalos de confianza y realizar prueba de hipótesis

sobre 1 y 2 .

3. Intervalos de confianza para 1

y 2

Estamos buscando 2 2 2ˆ ˆ 1P , es decir que la

probabilidad de que 2

esté entre dos valores sea 1 . Vamos a buscar un

intervalo alrededor del cual estará contenido el verdadero parámetro. Donde

llamaremos 1 al nivel de confianza y al nivel de significancia.

Antes de encontrar el intervalo de confianza para 1

y 2

, es preciso recordar que:

1. El intervalo no dice la probabilidad de que 2 esté en el intervalo con una

probabilidad de 1 ; sino que la probabilidad de construir un intervalo

que contenga 2

es de 1 .

2. El intervalo es aleatorio; va a depender de la muestra

3. Si se construyen intervalos de confianza, en promedio 1 van a

contener el verdadero valor

4. Una vez obtenido un 2

, no puedo decir que el intervalo contiene al

verdadero parámetro con probabilidad 1 , sino que la probabilidad es 1

ó 0. El intervalo es aleatorio (depende de la muestra), pero después que se

utilizó una muestra, el intervalo queda fijo y por tanto la probabilidad de que

el verdadero valor esté en el intervalo es cero o uno (“está o no está”).

Dado que

2

2 2

2

ˆ

ˆ

ˆnt

, entonces exactamente el 1 de esta

distribución t con n-2 grados de libertad, estará entre los valores –tα/2

y tα/2

.


2 2

2 2

2

2 2 2

2 2

2 2

ˆ

1

ˆ

1ˆ

n n n

n n

P t t t

P t t

2 2

2 2

2 2

2 2

ˆ ˆ2 2 2 2

ˆ ˆ2 2 2 2 2

ˆˆ ˆ 1

ˆ ˆˆ ˆ 1

n n

n n

P t t

P t t

Por lo que finalmente:

2 2

2 2

2 2

2 2

ˆ ˆ2 2 2 2 2

ˆ ˆ2 2 2 2 2

ˆ ˆˆ ˆ 1

ˆ ˆˆ ˆ 1

n n

n n

P t t

P t t

Esto implica que el intervalo de confianza para 2 es:

2

2ˆ2 2 2

ˆ ˆnIC t

De forma similar:

2

1ˆ1 1 2

ˆ ˆnIC t

Interpretación: Dado un nivel de confianza de 1 , el 1 de las veces, el

intervalo contendrá el verdadero parámetro.

4. Prueba de Hipótesis

Nos interesa verificar si las observaciones muestrales son compatibles con

determinada hipótesis. Por ejemplo:


0 2

1 2

:

:

H b

H b

Para eso desarrollamos un procedimiento que nos permita decidir si se rechaza o

no esa hipótesis en base a la información muestral.

Hay dos enfoques de la prueba de hipótesis:

4.1 Enfoque del intervalo de confianza

Supongamos que construimos un intervalo de confianza para 2 . Luego es posible

discutir si el valor b que me estoy planteando como hipótesis nula cae o no dentro

del intervalo.

Es decir, buscamos un intervalo 2

ˆ2 22

ˆ ˆIC t y luego:

0

0

.

Re .

Si b IC No rechazar H

Si b IC chazar H

El tamaño del intervalo de confianza va a depender del nivel de confianza y de

la varianza del estimador. ¿Cómo podemos reducir el intervalo de confianza?

Reduciendo el nivel de confianza (aumentando )

Aumentando la muestra, para disminuir la varianza del estimador

4.2 Enfoque de pruebas de significancia

Rechazo H0

No rechazo H0

Rechazo H0

2

ˆ2 22

ˆ ˆt

2ˆ2 2

2

ˆ ˆt


El procedimiento se basa en utilizar un estimador y su distribución, considerando

que ésta se cumple bajo la hipótesis nula.

Sabemos que

2

2 2

2

ˆ

ˆ

ˆnt

, entonces bajo la hipótesis nula

2

22

ˆ

ˆ

ˆn

bt

2

2 2

2

2 2ˆ

ˆ ˆ22 2

ˆ1

ˆ

ˆˆ ˆ 1

bP t t

P t b t

2 2

ˆ ˆ22 2

ˆˆ ˆ 1P b t b t

Por lo que finalmente:

2 2

ˆ ˆ22 2

ˆˆ ˆ 1P b t b t

Esto determina la región de aceptación y rechazo de la hipótesis:

Región de aceptación 2

ˆ2

ˆb t


Entonces rechazamos 0H si:

0Rec

c

c

t tchazo H si t t

t t

Como

2

2

ˆ

ˆ

ˆ

bt

, rechazo Ho si

2

2

ˆ

ˆ

ˆ

b

c>t

Test de 1 Cola

H0: 2 = b2

H1: 2 > b2

Rechazo H0 si t > tc

Bajo Ho: 2

22

ˆ

ˆ

ˆn

bt

“Acepto” H0 (no rechazo H0)

Rechazo H0, 2 2

ˆ2ˆ ˆb t < Rechazo H0,

22ˆ2

ˆ ˆb t >

0

f(t)


Test de 2 colas

H0: 2 = b2

H1: 2 b2

Rechazo H0 si t > tc

Aceptar o Rechazar la Ho

Al momento de realizar un dictamen sobre la hipótesis nula, este debe de emitirse

como “Rechaza H0”, o “No rechaza H0”.

No se puede “aceptar” una hipótesis nula, puesto que no conocemos el verdadero

valor, sino que hacemos una inferencia de este.

Además, las hipótesis nulas “aceptadas”, pueden ser muchas dependiendo de

cuales hipótesis esté planteando.

tc

tc - tc

/2 /2


Error tipo I y tipo II

H0 es cierto H0 es falso

Rechazo H0 Error tipo I

No rechazo H0 Error tipo II

Si 2 cae en alguna de las colas de la distribución (Rechazo H0), puede ser por dos

razones.

a) La hipótesis nula es cierta, pero se ha elegido una muestra equivocada

b) La hipótesis nula es efectivamente falsa

La probabilidad de cometer un error de tipo I está dada por α, el nivel de

significancia.

La probabilidad de cometer un error tipo II esta dada por , en tanto que la

probabilidad de no cometer este error (1-) se denomina potencia de la prueba.

Lo deseable sería minimizar simultáneamente tanto los errores tipo I como tipo II,

pero como se puede apreciar en los gráficos esto no es posible. En la práctica por

lo general el error tipo I es más grave, por lo que se trata de minimizar primero este

error y luego el error tipo II.

2 bajo H1

2 bajo H0

= P (Error Tipo I) = P (Rechazar H0/ H0 es cierto)


Valor-p (P-value)

En ocasiones, en lugar de seleccionar un α arbitrario (como 1%, 5% o 10%), se

puede obtener el valor p o nivel exacto de significancia, el cual se define como el

nivel más bajo de significancia al cual puede rechazarse la hipótesis nula, o la

probabilidad exacta de cometer un error tipo I.

Regla práctica de “2-t”

Si el número de grados de libertad es 20 y el nivel de significancia α, se fija en

0.05, entonces la hipótesis nula 2=0 se puede rechazar si el valor t calculado

excede en valor absoluto a 2.

= P (Error Tipo II) = P (No rechazar H0/ H0 es falso)

tc

tc

2 bajo H0

2 bajo H0

2 bajo H1

2 bajo H1

α


5. Análisis de Varianza (ANOVA)

El test de ANOVA es un test de significancia global del modelo en su conjunto.

Intenta medir el ajuste de la recta de regresión con el conjunto de datos

provenientes de la muestra.

Este test, para el caso del modelo de regresión lineal simple2, tiene como hipótesis

nula:

H0: 2 = 0

H1: 2 0

Sabemos que 2

2 2

ˆ

ˆ~ 0,1N

(4)

Si elevamos (4) al cuadrado tenemos que (5) se distribuye chi-cuadrado con un

grado de libertad.

2

2

2 2 212

ˆ

ˆ

~

(5)

Sustituyendo la varianza estimada de 2 :

2 22

2 2 2 2 212 2

2

ˆ ˆ

~i

u u

i

x

x

(6)

También sabemos del Teorema 6 que

22

22

ˆ2~

n

n

, por lo que:

2 Para el modelo de regresión simple, tanto la hipótesis como el estadístico son los mismos que en el test de

significancia, debido a que sólo existe una variable explicativa. En el caso del modelo de regresión múltiple, que

veremos posteriormente, la hipótesis nula es que todos los coeficientes de las variables explicativas, son iguales a

cero.


2

222 2

22 2 2

2ˆ2~

ie

n i

n

n en

(7)

Se puede demostrar que (6) y (7) son independientes, por lo que:

2

22 2

2

1, 22

2

ˆ

1

2

i

u

n

i

u

x

F Fe

n

~ (8)

Simplificando obtenemos:

22

2 2

1, 22

ˆ

2

i

n

i

xF F

e

n

~ (9)

Si sustituimos la hipótesis nula en (9):

2 22

1, 22

ˆ

2

i

n

i

xF F

e

n

~ (10)

Recordando, cuando descompusimos la suma de cuadrados teníamos:

2 2 2 2

2ˆ

i i iy x e

SCT SCE SCR

Asociado a cada suma de cuadrados existen sus respectivos grados de libertad:

SCT: tiene n-1 grados de libertad, pues se pierde un grado de libertad al

calcular la media de Y.


SCE: un sólo grado de libertad de calcular 2

SCR: tiene n-2 grados de libertad, pues se pierden dos grados de libertad en

las ecuaciones normales.

Tabla ANOVA

Suma de

cuadrados

Grados de

libertad

Suma promedio

de cuadrados

Regresión SCE 1 SCE/1

Residuo SCR n-2 SCR/n-2

Total SCT n-1

El numerador de (10) es la SCE y el denominador es la SCR divida por sus grados

de libertad.

1, 2

2

n

SCEF F

SCRn

~ (11)

Entonces, rechazo H0 si el valor calculado del estadístico F, es mayor que 1, 2nF .

La intuición de este test, indica que el modelo es significativo en su conjunto, si el

“efecto explicado por el modelo” es suficientemente grande respecto del “residuo”.

En el caso del ejemplo anterior, si 1, 2nF F> rechazo que H0, o sea que rechazo

2=0 si el “aporte de X” respecto del residuo es considerable.

Otra forma alternativa de expresar (11):

1, 2

22 2 2

2

1 11

2

n

SCESCE SCE STCF

SCR SCT SCE SCT SCE SCT SCEn

n n STC nSTC

nF

SCE

STC n

2

22

2

R= = =

RR= = ~

R


6. Prueba de Normalidad

Las pruebas de hipótesis e intervalos de confianza estudiados, tienen como punto

de partida el supuesto de normalidad del residuo, por lo que si u no es normal,

estas pruebas no son válidas.

Existen diferentes test que permiten verificar si los residuos calculados para una

muestra en particular (ei) provienen de una distribución normal. Uno de ellos es el

test de Jarque-Bera.

6.1 Test de Jarque Bera

Esta es una prueba asintótica que se basa en el tercer y cuarto momento de la

distribución (asimetría y curtosis respectivamente).

Recordando:

Coeficiente de simetría:

3

3

E X XS

tercer momento alrededor de la media

desviación estandar elevada al cubo

Coeficiente de curtosis:

4

4

E X XC

cuarto momento alrededor de la media

segundo momento elevado al cuadrado

En el caso de una distribución normal, el coeficiente de simetría es cero (S=0) y el

de curtosis 3 (C=3).

Bajo la hipótesis nula de que los residuos están normalmente distribuidos, Jarque y

Bera demostraron que asintóticamente el estadístico JB sigue una distribución chi-

cuadrado con dos grados de libertad.

(12)

2222

3

6 24

CSJB n

~


Es decir, si JB es mayor que una chi-cuadrado con 2 g.l, rechazo la hipótesis nula,

o sea, rechazo normalidad.

6.2 ¿Qué pasa si los errores no se distribuyen normal?

La normalidad exacta de los estimadores MICO depende crucialmente de la

distribución del error en la población (u). Si los errores u1, u2, ...., un son

elecciones aleatorias de alguna distribución que no es la normal, las j no estarán

distribuidas en forma normal, lo que significa que los estadísticos t y F no tendrán

distribuciones t y F, respectivamente. Este es un problema potencialmente grave

porque nuestra inferencia depende de que seamos capaces de obtener valores

críticos o valores p de las distribuciones t o F.

Recuerde que el supuesto de normalidad de u es equivalente a decir que la

distribución de Y dadas X1,, X2, ....Xn, es normal. Puesto que se observa Y pero no u,

es mucho más fácil verificar si Y sigue una distribución normal, algo que como

vimos, no siempre sucede.

La inferencia basada en los estadísticos t y F exige el supuesto de normalidad. En

caso contrario ¿quiere decir que no debemos utilizar el estadístico t para

determinar qué variables son significativas estadísticamente? La respuesta es no.

Aunque las Yi no provienen de una distribución normal, llegamos a la conclusión a

partir del teorema central del límite, que los estimadores MICO están distribuidos

aproximadamente en forma normal, por lo menos para tamaños de muestra

grandes.

Si el tamaño de la muestra no es muy grande, entonces la distribución t es una

aproximación insuficiente de la distribución del estadístico t cuando u no está

distribuida normal. Pero, por desgracia, no hay reglas generales sobre qué tan

grande debe ser la muestra para que una aproximación sea lo suficientemente

buena. Algunos econometristas piensan que n = 30 es satisfactorio, pero puede no

ser suficiente para todas las distribuciones posibles de u. Dependiendo de la

distribución de u, se necesitarían más observaciones para que tenga efecto el

teorema del límite central. Además, la calidad de la aproximación no sólo depende

de n, sino también de los gl3. En resumen, si el tamaño de la muestra no es muy

3 Como veremos en el modelo de regresión múltiple, con más variables independientes en el modelo, es necesario

una muestra mayor para aprovechar la aproximación t, debido a que los g.l. están determinado por n – k, donde k es

el número de regresores en el modelo.


grande y u no se distribuye normal, debemos de tener mucho cuidado al momento

de hacer inferencia sobre los estimadores.

7. Predicción

7.1 Predicción media

Se refiere a la predicción del valor de la media condicional de Y correspondiente a

un valor escogido de X, (como X0), el cual es el punto sobre la fecha de la FRP.

Dado un valor de Xi= X0, la verdadera predicción media de E(Y0/X0) es

0 0 1 2 0ˆ ˆ( / )E Y X X (13)

El cual se puede estimar a partir de:

0 1 2 0ˆ ˆY X (14)

Si sacamos el valor esperado de (14), dado X:

0 1 2 0

1 2 0

0 0 0

ˆ ˆˆ( )

ˆ( ) ( / )

E Y E E X

X

E Y E Y X

(15)

Por lo que 0Y es un predictor insesgado de E(Y0/X0). Ahora aplicando las

propiedades de la varianza a (14), sustituyendo por sus respectivas fórmulas y

simplificando:

0 1 2 0 1 2 0

2 0

2

ˆ ˆ ˆ ˆˆvar( ) var var 2cov

1

i

Y X X

X X

n x

(16)


7.2 Predicción individual. Error de pronóstico

La predicción individual se refiere a la predicción de un valor individual Y

correspondiente a X0.

Para predecir un valor de Y individual, correspondiente a Xi= X0, podemos utilizar

la ecuación (14).

El error de predicción es 0 0ˆY Y :

0 0 1 2 0 0 1 2 0

1 1 2 2 0 0

ˆ ˆˆ

ˆ ˆ

Y Y X u X

X u

(17)

Sacando la esperanza del error de predicción

0 0 1 1 2 2 0 0ˆ ˆˆ 0E Y Y E E X E u (18)

Elevando (17) al cuadrado y tomando esperanza tenemos:

22

0 0 1 1 2 2 0 0

2

1 1 1 1 2 2 0 1 1 0

22 2

2 2 0 2 2 0 0 0

22

0 0 1 1 2 0 2

ˆ ˆˆ

ˆ ˆ ˆ ˆ2 2

ˆ ˆ2

ˆ ˆ ˆ ˆˆ var 2cov , var

Y Y X u

X u

X X u u

E Y Y X

(19)

Sustituyendo las varianzas por sus respectivas fórmulas y simplificando:

2 0

0 0 2

1ˆvar( ) 1i

X XY Y

n x

(20)

8. Ejemplo

Capítulo 5

Modelo de Regresión Lineal

Múltiple: Inferencia

En el Modelo de Regresión Lineal Múltiple o Modelo de Regresión General, hasta

ahora no hemos usado el supuesto de que las iu siguen una distribución normal

multivariante. Si suponemos 2~ 0,N u Ι podremos derivar algunas

distribuciones.

1. Recordando

1.1 Distribución de β

Dado que ˆ -1

β = β + ΧΧ Χu , entonces β por ser combinación lineal de variables

aleatorias es también una variable aleatoria que se distribuye normal multivariante.

Esperanza: ˆ β = β

Varianza:

11 12 1

12 22

2 2

1

ˆvar

k

k kk

a a a

a a

a a

-1β ΧΧ

Modelo de Regresión Lineal Múltiple: Inferencia 99

Luego 2ˆ N -1

β ~ β, ΧΧ

Esto es, 2ˆj j jj~ N , a donde

jja es el j-ésimo elemento de la diagonal

principal de -1

ΧΧ .

Por lo que ˆ

~ 0,1j j

jj

Na

Este resultado no es muy útil por si mismo, porque no conocemos 2 .

1.2 Distribuciones derivadas de u

Dado que 2~ 0,N u Ι , esto significa que cada iu se distribuye normal e

independiente con media cero y varianza 2 .

Luego, 2 2 2

21 2

2 2 2~n

n

u u u

, con lo que

2

2

1~ n

u u

1

2 2~ n

u Ι u

Este resultado, nos sirve para recordar como se forman las distribuciones derivadas

de una normal multivariante. Sin embargo, tampoco es útil por si mismo ya que no

conocemos u .

1.3 Distribución de 2

e e

Hemos visto los siguientes resultados:

e =Μu , como 2~ 0,N u Ι , por lo que e también se distribuye normal.

e e = uΜu

-1

Μ= Ι - Χ ΧΧ Χ , siendo simétrica e idempotente1.

1 Una matriz es idempotente es una matriz que es igual a su cuadrado, es decir: A es idempotente si A · A = A


Tr Rg n k Μ Μ . Como M es idempotente,la traza2 es igual al

rango; de aquí se deriva que M tiene n-k valores propios3.

Sea B una matriz que tenga por columnas los vectores propios de M y D

una matriz que tiene los valores propios en la diagonal y cero el resto.

1 2 n

Β y

1

2

0 0

0 0

0 0 0

0 0 0

0 0 n

D

Sabemos que:

nΒΒ =ΒΒ = Ι

ΒΜΒ=D Dado que los valores propios de un a matriz idempotente son cero o uno,

sabemos que D tiene n-k valores propios 1 y k valores propios igual a cero.

2 La traza de una matriz cuadrada A es la suma de los elementos de la diagonal principal.

3 En álgebra lineal, un escalar λ se llama valor propio ó valor característico de una función lineal A, si existe un

vector x distinto de cero, tal que Ax = λx. El vector x se llama vector propio o autovector. Los vectores propios de

un operador lineal son los vectores diferentes de cero que, cuando son transformados por el operador, dan lugar a un

múltiplo escalar de sí mismo. El escalar entonces se llama el valor propio asociado al vector propio.

Por ejemplo, considere la matriz:

0 1 1

1 1 0

1 0 1

A

que representa un operador lineal R³ → R³. Uno puede comprobar que:

1 2 1

1 2 2 1

1 2 1

A


1 0 0

0 1

1

0

0 0

n-k k

k k

Ι 0D =

0 0

Definamos: y =Β u

Luego, premultiplicando por B tenemos que, Βy =ΒΒu = Ιu

u = Βy

Dado que y =Β u , y será una variable que se distribuye normal multivariada.

Encontramos la esperanza y la varianza de y .

Esperanza: 0E E E y Βu =Β u

Varianza:

2 2 2

var E E E E E

y y - y y - y = yy = Β uu Β = Β Ε uu Β

Β ΙΒ = Β Β = Ι

Es decir que 2N y ~ 0, Ι , con lo que cada ~N 0,1iy

se distribuye normal

estandarizada e independiente.

Sabemos que:

Du u

e e = uΜu = y Β ΜΒy y ΒΜΒy


1

2

1 2 1

1

2 2 2 2

1 2

1

1 0 0

0 1

1

0

0 0

0 0

n k n k n n k

n k

n

n k

n k i

y

y

y y y y y y

y

y

y y y y

2

1

n k

iy

e e

Como ~ 0,1iyN

, luego

2

2

1

~n k

in k

y

2

2 2 2 i21 2 1

2 2 2 2

y

~

n k

n kn k

y y y

2

2~ n k

e e

2. Pruebas de Hipótesis Individuales

Sabemos que:

i. ˆ

~ 0,1j j

jj

Na

pero es desconocida

ii. 2

2 2

-- ~ n k

n kn k

e ee e

iii. puede demostrase que i e ii son independientes


Definimos:

2

ˆ ˆ

ˆ~

ˆ ˆ

j j j j

jj jj j j

n k

jj

a at t

e e a

n k

Por lo tanto, para las pruebas de significancia individual procedemos de igual

manera la estudiada para el modelo de regresión simple.

3. Prueba de Significación global en el Modelo Múltiple:

Análisis de Varianza (ANOVA)

El test de ANOVA es un test de significancia global del modelo, por lo que la

hipótesis nula y alterna se expresan de la manera siguiente:

0 2 3: 0k

1 : Al menos algún i es distinto de 0

Por otra parte, sabemos que:

i. 2 2

1/ ~ kSCE

ii. 2

2 2~ n k

SCR

e e

iii. Puede demostrarse que i. y ii. son independientes.

Por lo tanto: 2

-1, -2

/

1 1 ~/

k n k

SCE SCE

k kF FSCRSCR

n kn k

Asimismo,


2

2

-1, -2

/1 1 1 ~

1 1 1/k n k

SCE SCE RSCT n k Rk k kF F

SCR SCT SCE SCT SCE k RSCTn k n k SCT n k

Este test indica que el modelo es significativo en su conjunto, si el “efecto

explicado por el modelo” es suficientemente grande respecto al “ruido”, a lo

residual. Si el F calculado es mayor que el F de tabla, rechazo que

2 3 0k , o sea el “aporte de las X” respecto al residuo es considerable.

¿Cuán considerable? El límite nos lo da el valor de tabla.

Grados de Libertad

Asociado a cada suma de cuadrados hay grados de libertad.

Variación Suma de

Cuadrados

Grados de

Libertad

Suma Promedio

de Cuadrados

Regresión SEC k-1 SCE/(k-1)

Residuo SRC n-k SCR/(n-k)

Total STC n-1 SCT/(n-1)

Suma total de cuadrados (STC): Tiene n-1 grados de libertad. Esto surge

como consecuencia de la pérdida de un grado de libertad, necesario para

calcular Y .

0 Fk-1,n-k

1-

Rechazo H0 si F

calculado es mayor

que F de tabla


Suma de residuos al cuadrado (SRC): Tiene n-k grados de libertad. Se

pierden k grados de libertad que son necesarios para asegurar que se

cumplan las ecuaciones normales. Estas condiciones son:

1

12 22 2 2 2

3 3

1 2

1 1 1 0

0

0

0

i

n i i

i i

k k nk n i ik

e e

e e

e e

e e

Χ e

Suma explicada al cuadrados (SEC): Tiene k-1 grados de libertad ya que se

encuentra en función de todos los parámetros estimados, excepto el

intercepto.

4. Test General para probar restricciones lineales de

parámetros

Supongamos que estamos interesados en estimar una función de producción Cobb-

Douglas:

1 2 3ln ln lni i i iL K u

Repasemos distintas hipótesis a probar:

Ejemplo 1:

Si queremos testear

0 2

1 2

: 0

: 0

podemos expresar esta restricción en forma matricial

0

1

:

:

Cβ = r

Cβ r

donde 0 1 0C


1

2 2

3

0 1 0

Cβ

r = 0

Ejemplo 2:

Si queremos testear

0 2 3

1 2 3

: 1

: 1

debemos definir la matriz C y el vector r

0

1

:

:

Cβ = r

Cβ r

donde 0 1 1C

1

2 2 3

3

0 1 1

Cβ

r = 1 (en este caso un vector de 1x1, o sea un escalar)

Ejemplo 3:

Si queremos testear

0 2 3

1 2 3

:

:

0

1

:

:

Cβ = r

Cβ r

donde 0 1 1 C

1

2 2 3

3

0 1 1

Cβ

r = 0


Ejemplo 4:

0 2 3: 0

1 : Algúni distinto de 0

1

2

2

3

3

0 1 0

0 0 1

0

0

Cβ

r

Ejemplo 5:

1 2 3 4 5ln ln ln ln lni i i i i iL K Z W u

0 4 5: 0

1 : Algún i distinto de 0

1

2

4

3

5

4

5

0 0 0 1 0

0 0 0 0 1

0

0

Cβ

r

Existen distintas formas de desarrollar los test de hipótesis

4.1 Mediante el desarrollo del test ˆCβ ?

Sabemos que:

2ˆ~ ,N -1

β β ΧΧ


La distribución de probabilidad de una combinación lineal de β será también

normal.

Debemos encontrar los parámetros de la distribución.

ˆ ˆ Cβ C β Cβ

2

ˆ ˆ ˆ ˆ ˆvar

ˆ ˆ ˆ ˆ

ˆ ˆ

E E

E E

E

-1

Cβ Cβ -Cβ Cβ -Cβ Cβ -Cβ β C - β C

C β - β β - β C C β - β β - β C

C β - β β - β C C ΧΧ C

2

2

ˆ~ ,

ˆ ~ 0,

N

N

-1

-1

Cβ Cβ C ΧΧ C

Cβ -Cβ C ΧΧ C

Si H0 es cierta: Cβ = r 2ˆ ~ 0,N -1

Cβ - r C ΧΧ C

Se puede demostrar que dado:

i. 2 2ˆ ˆ ~ R

-1-1

Cβ - r C ΧΧ C Cβ - r ; ya que estamos sumando R

normales (0,1) elevadas al cuadrado, donde R es el número de restricciones

involucradas bajo la hipótesis nula.

ii. 2

2

2 2

ˆ~ n k

n k

e e

iii. i y ii. son independientes.

Entonces:


2

,

2

ˆ ˆ

~ R n kR F

n k

-1-1

Cβ - r C ΧΧ C Cβ - r

e e

1

2

,

1 ˆ ˆˆ ~ R n kFR

-1Cβ - r C ΧΧ C Cβ - r

Volvamos al Ejemplo 1

Siguiendo con el ejemplo de la función de producción Cobb-Douglas, retomemos

la prueba de algunas hipótesis importantes:

0 2

1 2

: 0

: 0

0 1 0C =

r = 0

R = 1

2

,

1 ˆ ˆˆR n kF

R

-1-1

Cβ - r C ΧΧ C Cβ - r ~

0 FR,n-k

1-

Rechazo H0 si F

calculado es mayor

que F de tabla


1

11 12 13

2

2 21 22 23 2 1, 3

31 321 33

1

2

2 21 22 23 2 1, 3

12

2 22 2 1, 3

01 ˆ ˆˆ 0 1 0 1 ~1

0

0

ˆ ˆˆ 1 ~

0

ˆ ˆˆ ~

n

n

n

a a a

a a a F

a a a

a a a F

a F

2

21, 32

22

ˆ~

ˆnF

a

4.2 Mediante el cálculo de los residuos libres y restringidos.

Se puede demostrar que:

ˆ ˆ

-1-1 1

e e - e e = Cβ -Cβ C XX C Cβ -Cβ

donde e e es suma de cuadrados restringida, es decir, los obtenidos de la regresión

en la que se impone H0 (la restricción).

Entonces, tenemos que:

2

-2~

n k

e e y 2

-( )2~

n k R

e e

Por lo tanto

2 2

n- k-R2~ Rn k

e e - e e

Dado que:

i. 2

R2~

e e - e e


ii. 2

n-k2~

e e

iii. ambos son independientes

Entonces:

, -

/~

/R n k

RF

n k

e e - e e

e e

Para realizar el test se procede de la manera siguiente:

1. Se estima regresión restringida (imponiendo que se cumpla la hipótesis nula) y

se obtiene la SCR restringida.

2. Se estima regresión libre (sin imponer que se cumpla la hipótesis nula) y se

obtiene la SCR libres.

3. Se calcula el estadístico /

/

RF

n k

e e - e e

e e. Si F>FTABLA, rechazo H0 (Rechazo

que la restricción sea válida, si la suma se reduce mucho al calcular dicho

estadístico)

4.3 Mediante el coeficiente de determinación, R2

Una tercera forma equivalente de probar la misma hipótesis es la siguiente:

0 FR,n-k

1-

Rechazo H0


2 2 2 2

2 2

2 2 2 2

2 2

2 2

,2

1 1

1

1 1 1 1

1 1

~1

i i

i

R n k

R y R y

R RFR y

n k n k

R R R R

R R

R R

n k n k

R R

R FR

n k

e e e e

e e

4.4 Ejemplos

Supongamos que estamos interesados en estimar el siguiente modelo:

1 2 2 3 3 i i i iY X X u

con los siguientes datos:

3

1

8

3

5

Y

1 3 5

1 1 4

1 5 6

1 2 4

1 4 6

X , luego 1

23.7 4.5 8

4.5 1 1.5

8 1.5 2.5

X X

Con estos datos podemos estimar la regresión:

Dependent Variable: Y

Method: Least Squares

Sample: 1 5

Included observations: 5

Variable Coefficient Std. Error t-Statistic Prob.


C 4.000000 4.474930 0.893869 0.4657

X2 2.500000 0.866025 2.886751 0.1020

X3 -1.500000 1.369306 -1.095445 0.3876

R-squared 0.946429 Mean dependent var 4.000000

Adjusted R-squared 0.892857 S.D. dependent var 2.645751

S.E. of regression 0.866025 Akaike info criterion 2.833904

Sum squared resid 1.500000 Schwarz criterion 2.599567

Log likelihood -4.084761 F-statistic 17.66667

Durbin-Watson stat 1.666667 Prob(F-statistic) 0.053571

y podemos calcular 2 2( -1) 2.645751 4 28YSCT n

2* 28*0.946429 26.5SCE STC R

Significación conjunta de X2 y X3

0 2 3H : 0

/ 1 26.5/3 117.67

/ 1.5/5 3

SCE kF

SCR n k

Como F0.95(2,2)=19, la F muestral es menor que el valor crítico no rechazo H0.

Significación de X3

0 3H : 0

Una forma de probarlo es con un test de hipótesis simple. Observando la salida de

Eviews se concluye que este parámetro es no significativo.

Otra forma de probar esto es estimando la regresión restringida (es decir aquella

donde se supone válida la hipótesis nula).

Dependent Variable: Y

Method: Least Squares

Sample: 1 5

Included observations: 5


Variable Coefficient Std. Error t-Statistic Prob.

C -0.800000 0.938083 -0.852803 0.4564

X2 1.600000 0.282843 5.656854 0.0109

R-squared 0.914286 Mean dependent var 4.000000

Adjusted R-squared 0.885714 S.D. dependent var 2.645751

S.E. of regresión 0.894427 Akaike info criterion 2.903908

Sum squared resid 2.400000 Schwarz criterion 2.747683

Log likelihood -5.259770 F-statistic 32.00000

Durbin-Watson stat 1.366667 Prob(F-statistic) 0.010938

Como ahora la SCR=2.4 2.4 e e

Luego, podemos utilizar el estadístico:

/ 2.4 1.5/11.2

/ 1.5/5 3

RF

n k

e e - e e

e e

F0.95(1,2)=18.51, la F muestral es menor que el valor crítico no rechazo H0.

Los coeficientes de X2 y X3 son de igual magnitud pero de signo opuesto

0 2 3H : 0

o en términos generales:

0 1 1C r=0 con R=1

Sabemos que:


2

2

, -

1ˆ

1 1

2 2

3 3

1 ˆ ˆˆ ~

ˆ ˆ20.02 3.37 6 0

1 ˆ ˆ0 1 1 0 0 1 1 3.37 0.75 1.125 1 0 1 11

ˆ ˆ6 1.125 1.875 1

R n kF FR

-1

-1-1

X X

Cβ - r C XX C Cβ - r

1

21

0

0

2.5 1.5 3.37 6 0.75 1.125 1.125 1.875 1 2.5 1.5

1

11 0.75 1.125 1.125 1.875 1 2.66

0.375

Dado que el valor del test F es muy pequeño, no rechazo la hipótesis nula.

5. Región de confianza conjunta para 2 y 3

Sabemos que 2

,

1 ˆ ˆR n kF

R

-1-1

Cβ - r C ΧΧ C Cβ - r ~ , luego podemos

utilizar este resultado para construir regiones de confianza de los test. Distintas

especificaciones de R, darán diferentes regiones de confianza para grupos de

parámetros.

Supongamos que nos interesa conocer la región en que se cumple que 2 y 3 son

conjuntamente significativos.

0 2 3H : 0

Luego

0 1 0

0 0 1C

y R=2


ˆ ˆ /1 ˆ ˆˆ

/

RF

R n k

-1-1

-1-12

Cβ -Cβ C XX C Cβ -CβCβ -Cβ σ C XX C Cβ -Cβ

e e

Utilizando los datos del ejemplo de la sección anterior:

1 1

1 11

2 2 2

33 3

ˆ ˆ26.7 4.5 8 0 0

0 1 0 0 1 0 0 1 0ˆ ˆ4.5 1 1.5 1 00 0 1 0 0 1 0 0 1

ˆ ˆ8 1.5 2.5 0 1

F

X'X

1

2

3

1

2 2

2 2 3 3

3 3

1

2 2

2 2 3 3

3 3

2

0.75

0 0ˆ4.5 1 1.51 ˆ ˆ 1 0ˆ8 1.5 2.51.5

0 1

ˆ1 1.51 ˆ ˆˆ1.5 2.51.5

2

2 3

3

2 2

2 3 2 3 2 3

2.510 612.5 1.5

1.56 41.5

26.5 32 18 12 10 4

1.5

Eligiendo, por ejemplo, el valor crítico de F al 5% tenemos:

Pr{F<F0.95}=0.95, y F(2,2)=19

Entonces, haciendo

F= F0.95 se tiene 2 2

2 3 2 3 2 326.5 32 18 12 10 419

1.5

, es decir

2 2

2 3 2 3 2 310 4 12 32 18 2 0

Esta es la ecuación correspondiente a una elipse.

Este procedimiento permite establecer una elipse de confianza al 95% para los

parámetros que son desconocidos. La elipse está centrada en el punto estimado

2ˆ 2.5 y 3

ˆ 1.5 .


-12

-8

-4

0

4

8

12

-8 -4 0 4 8

C(3

)

C(2)

El origen (0,0) se encuentra dentro de la elipse, lo que significa que, con un 95%

de confianza, no se puede rechazar la hipótesis de que ambos parámetros son cero

en forma conjunta.

Es importante observar:

Que la elipse cambia de forma en función de la covarianza entre los

parámetros estimados 2 y 3 . Si cov( 2 , 3 )<0 la elipse se inclina hacia la

izquierda, mientras que si cov( 2 , 3 )>0 se inclina hacia la derecha.

Que los límites que se obtienen en forma conjunta para 2 y 3 son distintos

a los que se obtienen en intervalos de confianza individuales. Es

perfectamente posible que utilizando test individuales se concluya que los

parámetros son individualmente no significativos, pero testeando

conjuntamente la hipótesis de que ambos parámetros son cero esta sea

rechazada por obtener un elipse tal que el punto (0,0) esté fuera de la misma.

En ese caso uno puede decir que al menos uno de los parámetros tiene

suficiente influencia sobre la variable explicativa, pero no puede asignar esa

influencia a uno de los parámetros en particular.


6. Prueba de estabilidad estructural: Prueba de Chow.

7. Predicción

Para predecir debemos recurrir a los parámetros estimados dentro de la muestra:

1 2 2 3 3ˆ ˆ ˆ ˆˆ ...

ˆˆ

i i i k ikY X X X

nx1 nxk kx1Y = X β

i=1….n

El interés en general es pronosticar el valor de Y en un período posterior a n (por

ejemplo el período que denominaremos 0).

Si el interés está en predecir 0Y se hablará de predicción individual. Si,

alternativamente, se predice E( 0Y /X), hablaremos de predicción media o promedio.

Ambas alternativas dan lugar a la misma predicción puntual, pero diferentes

intervalos de confianza, ya que difieren en la varianza del error de predicción. Ello

por cuanto en ambos casos se utiliza para predecir la siguiente ecuación:

0 1 2 02 3 03 0ˆ ˆ ˆ ˆˆ ... k kY X X X

Es fácil probar que 0Y es un estimador insesgado de 0E Y X

E( 0Y )=E( 0Y ) (porque 0Y e 0Y son variables aleatorias.)

0 1 2 02 0 0... k kY X X u (verdadero valor)

0 0 1 2 02 0 0

1 2 02 0 0 1 2 02 0

/ ...

... ...

k k

k k k k

E Y X E X X u

X X E u X X

0 0 1 2 02 0

1 2 02 0 1 2 02 0

ˆ ˆ ˆˆ / ...

ˆ ˆ ˆ... ...

k k

k k k k

E Y X E X X

E E X E X X X

Es decir: 0Y en promedio estará sobre 0Y promedio.


El punto clave es realizar una proyección correcta de las variables explicativas y

verificar si es correcto usar ˆi históricos hacia delante.

Que E(0Y )=E(

0Y ) (no hay sesgo), no implica que no haya error de predicción.

Error de predicción = 0 0 0ˆe Y Y (es un escalar)

0 1 2 02 0 0 1 2 02 0

011 1 1

ˆ ˆ ˆ... ...

ˆ( )

k k k k

kxxk x

e X X u X X

e

0 0

X β - β +u

¿Cuál es el valor esperado del error de predicción?

0 0 0

0

ˆ ˆ 0

0

E e E u E E u

E e

0 0X β - β X β - β

¿Cuál es la varianza de 0e ?

0

0 0 0

ˆvar var

ˆ ˆvar var var 2cov

e

e u u

0 0

0 0

X β - β +u

X β - β X β - β

La covarianza está en función de dos variables aleatorias ( β y 0u ). β es función de

los (i=1 hasta n) y 0u es un error aleatorio posterior a n. Por lo tanto, 0cov( , ) 0iu u

por el supuesto de no autocorrelación de los errores y 0ˆcov , 0u

0X β - β


2

0

2

2

2

2

2 2

2

ˆvar( ) var

ˆ ˆ

ˆ ˆ

ˆ ˆ

ˆvar

1

e

E

E

E

0

0 0

0 0

0 0

0 0

-1

0 0

-1

0 0

X β - β

X β - β X β - β

X β - β β - β X

X β - β β - β X

X β X

X X X X

X X X X

¿Cómo se distribuye 0e ?

0 0

2

2

2

0

0 0

ˆ

~N 0,

ˆ~N ,

~ 0, 1

~ 0,var

e u

e N

e N e

0

-1

-1

0 0

X β - β

u I

β β XX

X X X X

0 1DS e -1

0 0X X X X

Si se cumple que:

i.

0 0

0

~ (0,1)e E e

NDS e

ii. 2ˆn k

e e


iii. 2

2

2

ˆ~ n k

n k

Entonces

0n-kt

ˆ 1

e

-1

0 0X X X X

, ó 0

n-k

0

~tˆ

e

DS e

Intervalo de confianza para el error de predicción

Esto nos permite hacer un intervalo para el error de predicción.

0/ 2 / 2

0

/ 2 0 0 / 2 0

1ˆ

ˆ ˆ 1

eP t t

DS e

P t DS e e t DS e

0 / 2 0ˆ( ) ( )IC e t DS e

Intervalo de confianza para 0Y

Como 0 0 0ˆe Y Y , podemos obtener un intervalo de confianza para 0Y

0 0 0

0 0 / 2 0

0 0 / 2 0

ˆ

ˆˆ

ˆˆ

IC e INT Y Y

IC Y Y t DS e

IC Y Y t DS e

TAREA: Demostrar que el intervalo de predicción para una regresión simple es

2

0

0 0 / 2 2

1ˆ ˆ 1i

X XY Y t

N x

En algunos casos interesa predecir ˆ /E Y X


0

0 0 0

ˆ

ˆ ˆˆ

E Y

e E Y E Y

0

0 0 0

X β

X β X β X β β

12

0

12

ˆvar vare

0 0 0

0 0

X β β X XX X

X X X X

8. Ejercicio4

Para estimar la demanda de combustible diesel (gasoil) en República Dominicana,

se consideró que esta depende del precio real del combustible, y de una medida de

la actividad económica o ingreso, para lo cual se utilizó el PIB real. El modelo a

estimar es del tipo log-log.

Considere los siguientes resultados de una estimación mediante mínimos

cuadrados para la demanda de gasoil en República Dominicana, para el periodo

1997q1 2006q1:

LOG(QDiesel

t) = 8.2163 - 0.0442*LOG(PDiesel

t/IPCt) + 0.1196*LOG(PIB real)t -

0.0788*LOG(PIB realt-1) + 0.2658*LOG(PIB realt-2) + 0.4901*LOG(PIB realt-3) -

0.2139*LOG(Oferta de electricidadt)

R2 = 0.655129; SRC = 0.089947

La matriz de varianzas y covarianzas de los coeficientes está dada por:

C(1) C(2) C(3) C(4) C(5) C(6) C(7)

C(1) 3.1871 0.1231 -0.1451 -0.1027 -0.0702 -0.1046 0.0108

C(2) 0.1231 0.0108 -0.0097 -0.0048 -0.0073 -0.0105 0.0095

C(3) -0.1451 -0.0097 0.0241 0.0054 -0.0054 0.0106 -0.0092

C(4) -0.1027 -0.0048 0.0054 0.0161 0.0033 -0.0075 -0.0025

C(5) -0.0702 -0.0073 -0.0054 0.0033 0.0209 0.0093 -0.0106

C(6) -0.1046 -0.0105 0.0106 -0.0075 0.0093 0.0261 -0.0141

C(7) 0.0108 0.0095 -0.0092 -0.0025 -0.0106 -0.0141 0.0194

4 Tomado de Francos, Martin (2006) “Estimación de la demanda de combustibles en la República Dominicana”.

Unidad de Análisis Económico, Texto de discusión No. 6, Santo Domingo.


a) Realice la prueba de significancia individual de cada uno de los betas.

b) Realice la prueba de significancia global del modelo.

c) Considere la regresión auxiliar:

LOG(QDiesel

t) = C(1) + C(2)*LOG(PDiesel

t/IPCt) + C(3)*LOG(PIB real)t -

C(4)*LOG(PIB realt-1) + C(5)*LOG(PIB realt-2) + [1-C(3)-C(4)-C(5)]*LOG(PIB

realt-3) - C(7)*LOG(Oferta de electricidadt)

C(1) C(2) C(3) C(4) C(5) C(7)

Coeficiente 7.30579 -0.106925 0.279455 -0.20198 0.217272 -0.279354

R2 = 0.609596; SRC = 0.101822

Realice una prueba para comprobar la hipótesis de que la elasticidad ingreso de

largo plazo es unitaria. Verifique la analogía del resultado utilizando las 3

alternativas:

Mediante el desarrollo del test C beta

Residuos libres y restringidos

Coeficiente de determinación

Capítulo 6

Modelos de Regresión con Variables

Cualitativas

En los temas anteriores, las variables dependiente e independiente del modelo de

regresión tuvieron un significado cuantitativo, (como el salario por hora, años de

escolaridad, etc.) por lo que la magnitud de la variable proporciona información

útil.

En algunas ocasiones, es necesario incorporar factores cualitativos como el sexo

(hombre o mujer), región (Norte, Suroeste, Sureste), etc. En estos casos se utiliza

una variable explicativa que sólo puede tomar dos valores: 1 ó 0. Estas variables

se llaman variables binarias, ficticias, dicotómicas o dummy.

1. Interpretación

Consideremos el siguiente modelo

(1.1) 1i i isalario femenino u

Donde

salario, representa el salario por hora en US$

femenino es una variable que toma valor 1 si la persona es mujer y 0 en el resto de

casos.

Salario esperado de las mujeres: 1iE salario

Salario esperado de los hombres: iE salario

Supongamos que obtenemos la siguiente estimación:

Modelo de Regresión con variables cualitativas 125

Variable dependiente: SALARIO Método: MICO Muestra: 1 526

Variable Coeficiente Error estándar t-estadístico Probabilidad

C 7.099489 0.210008 33.80578 0.0000 FEMENINO -2.511830 0.303409 -8.278688 0.0000

En este caso el salario promedio para los hombres es de US$7.09, mientras el de

las mujeres es menor al de los hombres en US$2.51, para un salario promedio de

US$4.58 (=7.09-2.51). Los coeficientes que acompañan a la variable explicativa

miden la diferencia respecto a la variable con la cual se compara, en este caso el

salario de los hombres.

Supongamos ahora que tenemos otra variable llamada masculino, la cual toma

valores de 1 cuando es hombre y 0 en el resto ¿qué pasa si queremos estimar el

modelo siguiente?

(1.2) 1 2i i i isalario femenino masculino u

En este caso no va a ser posible estimar el modelo, debido a que existe colinealidad

perfecta en las variables, ya que la suma de las variables femenino y masculino será

igual a 1, valor de la variable explicativa que implícitamente acompaña a la

constante de la regresión.

En las regresiones con variables cualitativas, la regla es que si la variable

cualitativa tiene m categorías, sólo puede incluirse m-1 variables dicotómicas, al

menos que se elimine el intercepto.

Una alternativa de es estimar el modelo (1.2) es eliminar el intercepto:

(1.3) 1 2i i i isalario femenino masculino u

En este caso, para el ejemplo anterior, tendríamos los resultados siguientes:

Variable dependiente: SALARIO Método: MICO Muestra: 1 526

Variable Coeficiente Error estándar

t-estadístico Probabilidad

FEMENINO 4.587659 0.218983 20.94980 0.0000 MASCULINO 7.099489 0.210008 33.80578 0.0000


Ahora, los coeficientes representan directamente el salario medio para hombres y

para mujeres.

2. Modelos alternativos

2.1 La única variable explicativa es dummy

(2.1) 1 2i i iN S u para 1,2,....i n

Donde:

Ni es la nota en el curso de Econometría

Si es una variable dummy que representa el sexo del alumno

0si es hombre

1 si es mujeriS

¿Cuál es la nota esperada de econometría para las alumnas mujeres?

1 2/ mujer / 1i iE N E N S

¿Cuál es la nota esperada de econometría para los alumnos hombres?

1/ hombre / 0i iE N E N S

Ni

1

1 + 2

i

2

Supuestos:

2 > 0


2.2 Una variable cualitativa y otra cuantitativa

En relación al modelo presentado en (2.1), la nota en econometría podría ser

función del índice académico acumulado al semestre anterior (IA)

(2.2) 1 2 3i i i iN S IA u


1 2 3/ mujer / 1i i iE N E N S IA


1 3/ hombre / 0i i iE N E N S IA

2.3 Interacción entre una variable cuantitativa y una cualitativa

Volviendo al modelo con una variable cuantitativa y una cualitativa de la ecuación

(2.2), supongamos que el IA depende del sexo. Entonces:

(2.3) 1 2 3 4i i i i i iN S IA IA S u


Ni

1+3IAi

IAi

2

Supuestos:

2 > 0

3= para ambos sexos

1 + 2+3IAi


1 2 3 4/ mujer / 1i i iE N E N S IA


1 3/ hombre / 0i i iE N E N S IA

El coeficiente 2 se llama intercepto diferencial y el coeficiente

4 pendiente

diferencial.

2.4 Dos variables cualitativas

La nota en econometría podría ser función del sexo y de la región (por ejemplo si

es de zona urbana o rural).

0zona urbana

1 zona ruraliR

(2.4) 1 2 3i i i iN S R u para 1,2,....i n

¿Cuál es la nota esperada para las alumnas mujeres de zona rural?

1 2 3/ mujer, rural / 1, 1i iE N E N S R

Ni

1+3IAi

IAi

2

Supuestos:

2 > 0

4 > 0

1 + 2+(3+4)IAi

1


¿Cuál es la nota esperada para las alumnas mujeres de zona urbana?

1 2/ mujer, urbana / 1, 0i iE N E N S R

¿Cuál es la nota esperada para los alumnos hombres de zona rural?

1 3/ hombre, rural / 0, 1i iE N E N S R

¿Cuál es la nota esperada para los alumnos hombres de zona urbana?

1/ hombre, urbana / 0, 0i iE N E N S R

2.5 Variables cualitativas politómicas

Supongamos ahora que la nota depende de la nacionalidad

1 R.D.

0resto

1EE.UU.

0 resto

1España

0 resto

i

i

i

RD

US

ES

(2.5) 1 2 3 4i i i i iN RD US ES u

¿Cuál es la nota esperada si el alumno es de RD?

1 2iE N

¿Cuál es la nota esperada si el alumno es de EE.UU.?

1 3iE N

¿Y si es del resto del mundo (diferente de RD, EE.UU ó España)?

1iE N


3. Variables dummy para desestacionalizar

En general, las series de tiempo económicas tienen cuatro componentes:

(3.1) Z C T S I

Z es la serie original

C es el ciclo

T es la tendencia (en función del tiempo)

S es la estacionalidad (en función del calendario)

I es la parte irregular

Veamos la siguiente serie para el “dinero real”

0

10

20

30

40

50

60

86 88 90 92 94 96 98 00 02 04

M1A/IPC

Sabemos que el comportamiento de largo plazo del dinero (componente tendencia-

ciclo) depende de una variable escala (ingreso) y del costo de mantenerlo (tasas de

interés nominal). Pero además la trayectoria del dinero está afectada por factores

estacionales, como por ejemplo el aumento de la demanda de dinero en diciembre

por las navidades.

Los efectos estacionales los podríamos aproximar a través de variables dummy así:


(3.2) 1 2 3 4 1 5 2 15 11ln ln ...i i

MY i D D D u

P

1

2

1si es el mes de enero

0 resto

1si es el mes de febrero

0 resto

D

D

, y así respectivamente hasta D11

4. Variables dummy para detectar cambio estructural.

Alternativa al test de Chow

Supongamos la siguiente ecuación para en consumo privado en la República

Dominicana:

(4.1) 1 2 i iCP Y u

Si usted supone que hay cambio estructural a partir de 1990 debido a las reformas

macroeconómicas realizadas ese año. En este caso tendríamos:

1970-1990 1 2,I I

1991-2004 1 2,II II

Si definimos 1

0economía sin reforma (1970-1990)

1economía con reforma (1991-2004D

Podemos entonces plantear el modelo:

(4.2) 1 2 3 4i i i i iCP D Y D Y u

Si realizamos la siguiente prueba hipótesis:

0 :H 2 4 0

1 :H 2 4 ó 0

Esto es equivalente al test de cambio estructural presentado por Chow, sin

embargo, tiene la ventaja que permite indicar en forma precisa cuál parámetro es

diferente, si cambia el intercepto, la pendiente o ambos.


De igual modo, también es posible realizar pruebas individuales:

0 :H 2 0

1 :H 2 0

0 :H 4 0

1 :H 4 0

Capítulo 7

Multicolinealidad

1. 0BDescripción

La multicolinealidad es un problema de la muestra, no de especificación del

modelo. Al no controlar las variables explicativas experimentalmente, ellas pueden

tener una alta correlación, por lo cual se hace difícil discernir cuál es el efecto

individual de cada una de ellas.

Considere el siguiente diagrama, donde los círculos representan las variaciones de

las variables Y, X2 y X3.

A medida que mayor es el área entre la variable dependiente y las explicativas

(área 1 y 2) mayor es la información común y menor la varianza de los

coeficientes.

y x3

1

2

x2

y x3

3

5

x2

4

Multicolinealidad 134

Sin embargo, cuanto mayor sea el área común entre las variables explicativas (área

4), mayor será la colinealidad de las variables y mayor será la varianza de los

estimadores.

Asimismo, según se agregan variables explicativas, los parámetros del modelo son

calculados cada vez con menos información, provocando un incremento en las

varianzas de los estimadores.

Originalmente, el término multicolinealidad significó la existencia de una relación

perfecta o exacta entre algunas o todas las variables explicativas de un modelo de

regresión. Para la regresión con k variables que incluye las variables explicativas

X1, X2, ..., Xk (donde X1= 1 para todas las observaciones que den cabida al término

intercepto), se dice que existe una relación lineal exacta si se satisface la siguiente

condición:

1 1 2 2 0k kX X X (1.1)

Donde λ1, λ2 ... λk son constantes tales que no todas ellas son simultáneamente

iguales a cero.

Sin embargo, hoy en día, el término se utiliza en un sentido más amplio, para

incluir tanto el caso de multicolinealidad perfecta de X(1.1)X, como también el caso

en el cual hay variables intercorrelacionadas pero no en forma perfecta, de la

siguiente manera:

1 1 2 2 0k k iX X X v (1.2)

donde vi es un término de error estocástico.

La diferencia entre ambos tipos de multicolinealidad la podemos ver a través del

siguiente ejemplo:

Si tenemos λ2 ≠ 0 , entonces X(1.1)X puede escribirse como:

1 32 1 3

2 2 2

ki i i kiX X X X

(1.3)


que muestra la forma como X2 está exactamente relacionada de manera lineal con

las otras variables, o como ésta puede derivarse a partir de una combinación lineal

de otras variables X. En esta situación el coeficiente de correlación entre la variable

X2 y la combinación lineal del lado derecho debe ser igual a uno.

En forma similar, si λ2 ≠ 0, X(1.2)X puede escribirse como:

1 32 1 3

2 2 2 2

1ki i i ki iX X X X v

(1.4)

Lo cual muestra que X2 no es una combinación lineal exacta de otras X porque está

determinada por el término de error estocástico νi.

Hasta ahora nos hemos referido a la multicolinealidad como lineal. Modelos como

el siguiente no se considerarían en este grupo:

2 3

0 1 2 3i i i i iY X X X u (1.5)

Donde Y= costo de producción y X= producción. Las variables X2

i y X3

i están

funcionalmente relacionadas con Xi, pero la relación no es lineal. Por lo tanto,

estrictamente modelos como éste no violan el supuesto de no multicolinealidad, sin

embargo, el coeficiente de correlación entre las tres variables será alto, por lo que

se hará difícil la estimación de los parámetros de X(1.5)X con mayor precisión.

El modelo clásico de regresión simple supone que no hay multicolinealidad entre

las X por lo siguiente: Si la Multicolinealidad es perfecta, los coeficientes de la

regresión de las variables X son indeterminados y sus errores estándar son infinitos.

Si la multicolinealidad es menos que perfecta, aunque los coeficientes sean

determinados, poseen grandes errores estándar, lo cual significa que los mismos no

pueden ser estimados con gran precisión o exactitud.

La multicolinealidad puede deberse a los factores siguientes:

El método de recolección de información. La muestra se obtuvo en un

intervalo limitado de valores de la población.

Restricciones sobre el modelo o en la población objeto de muestreo. Por

ejemplo, si estimamos el modelo de consumo incluyendo como variables

explicativas el ingreso corriente y la riqueza, estas pueden ser válidas en el


modelo teórico, pero van a presentar alta colinealidad, porque familias de

altos ingresos suelen tener mayor riqueza.

Especificación del modelo. En el caso que el modelo tenga términos

polinomiales.

Un modelo sobredeterminado. O sea, cuando tiene más variables

explicativas que el número de observaciones.

2. 1BEstimación en presencia de Multicolinealidad Perfecta

En este caso, como mencionamos anteriormente, los coeficientes de regresión

serán indeterminados. Esto se puede demostrar mediante el modelo de regresión

con tres variables en desvíos:

2 2 3 3

ˆ ˆ ˆi i i iy x x u (2.1)

Sabemos que en el modelo de regresión múltiple:

2

2 3 3 2 3

2 22 2

2 3 2 3

ˆ i i i i i i i

i i i i

y x x y x x x

x x x x

(2.2)

Si suponemos que X3i = λX2i, donde λ es una constante diferente de cero,

sustituyendo esto en X(2.2)X tenemos:

2 2 2

2 2 2 2

2 22 2 2 2 2

2 2 2

0ˆ0

i i i i i i

i i i

y x x y x x

x x x

(2.3)

que es una expresión indeterminada.

Debemos recordar que 2 es el cambio en el valor promedio de Y cuando X2

aumenta en una unidad, manteniendo X3 constante. Pero si estas dos variables son

perfectamente colineales, a medida que X2 cambia, también X3 lo hace por el factor

λ. Por lo tanto, no hay forma de separar las influencias individuales de cada

variable en la variable dependiente para la muestra dada.

En conclusión, en el caso de multicolinealidad perfecta no se puede obtener una

solución única para los coeficientes de regresión individual. Si sustituimos X3i = λ

X2i obtenemos lo siguiente:


2 2 3 2

2 3 2

2

ˆ ˆ ˆ( )

ˆ ˆ ˆ( )

ˆ ˆ

i i i i

i i

i i

y x x u

x u

x u

(2.4)

donde

2 3

ˆ ˆˆ ( ) (2.5)

Aplicando la fórmula MICO a X(2.4)X se obtiene:

2

2 3 2

2

ˆ ˆˆ ( )i i

i

x y

x

(2.6)

Como vemos podemos obtener el estimador individual de , pero no de 2 y

3 .

Si utilizamos del valor de =0.8 y λ = 2 tenemos de X(2.5)X que:

2 3

ˆ ˆ0.8 2 (2.7)

Entonces si seleccionamos un valor arbitrario para 3 , tendremos un valor para

2 .

Y si seleccionamos otro valor para 3 tendremos otro valor para

2 . Entonces no

existiría un valor único para 2 .

3. 2BEstimación en presencia de Multicolinealidad Alta pero

Imperfecta:

El caso de multicolinealidad perfecta es casi imposible de observarse en la

práctica, especialmente para el caso de información económica relacionada con

series de tiempo. Continuando con el modelo para tres variables en desvíos ahora

podemos tener:

3 2i i ix x v (3.1)

donde λ ≠ 0 y donde vi es un término de error estocástico tal que 2 0i ix v

En este caso la estimación de los coeficientes de regresión 2 y 3 puede ser

realizada sustituyendo X(3.1)X en X(2.2)X, y obtenemos:


2 2 2 2

2 2 2 2 2

2 22 2 2 2 2 2

2 2 2

2 2 2 2

2 2 2 2

22 2 2 2 2 2

2 2 2

ˆ i i i i i i i i i i i

i i i i

i i i i i i i i i

i i i i

y x x v y x y v x x v

x x v x

y x x v y x y v x

x x v x

(3.2)

donde se utiliza el hecho de que 2 0i ix v . Podemos hacer lo mismo con 3 .

En este caso, el coeficiente es determinado. Sin embargo, vale destacar que si vi es

muy cercano a cero la colinealidad es casi perfecta.

4. 3BConsecuencias de la Multicolinealidad

En los casos de casi o alta multicolinealidad es probable que se presenten las

siguientes consecuencias:

1. Varianzas y covarianzas grandes, aun cuando los estimadores MICO son

MELI.

2. Intervalos de confianza tienden a ser muy anchos, lo cual lleva a aceptar

cualquier hipótesis nula (de significancia individual); esto se debe a la

alta varianza.

3. Asimismo, la razón “t” de uno o más coeficientes tiende a ser

estadísticamente no significativa.

Ahora bien, cuando existe multicolinealidad el hecho de que la razón “t” sea

baja, no significa que inevitablemente que hay que excluir la variable

explicativa.

4. Por otro lado, sin embargo, se puede obtener un R2 alto, que implica

significancia global, aun teniendo test “t” bajos.

5. Los estimadores MICO y sus errores estándar pueden ser sensibles a

pequeños cambios en la información (incluir o no una variable, etc.).

6BDemostración estimador MICO con varianza y covarianza grandes:

Para el modelo X(2.1)X las varianzas y covarianzas de 2 y 3 están dadas por:

2

2 2 2

2 23

ˆvar1ix r

(4.1)


2

3 2 2

3 23

ˆvar1ix r

(4.2)

2

232 3 2 2 2

23 2 3

ˆ ˆcov1 i i

r

r x x

(4.3)

Donde r23 es el coeficiente de correlación entre X2 y X3.

De estas ecuaciones se entiende que a medida que r23 tiende a 1, o sea, a medida

que la colinealidad aumenta, la varianza del coeficiente aumenta. En el límite,

cuando r23 = 1 la varianza es infinita. Por el mismo argumento también aumenta la

covarianza entre ambos coeficientes.

La velocidad con la cual aumentan la varianza y covarianza puede verse con el

factor inflador de varianza (FIV), que para el modelo X(2.1)X (2 variables

explicativas) se define como:

2

23

1

1FIV

r

(4.4)

El mismo muestra como la varianzas de un coeficiente es inflada por la presencia

de la multicolinealidad. Cuando r223 tiende a 1, el FIV~ ∞. Si no hay colinealidad

entre las variables el FIV será 1.

Para el caso del modelo de k variables, la varianza de un coeficiente puede ser

expresada como:

2

2 2

1ˆvar1

j

j jx R

(4.5)

y

2

1FIV=

1 jR (4.6)

Sustituyendo X(4.6)X en X(4.5)X:


2

2ˆvar FIVj j

jx

(4.7)

Que muestra que la varianza del estimador es directamente proporcional al FIV.

5. 4BDetección de la Multicolinealidad:

No se tiene un método único de detectarla o de medir su fuerza. Lo que existen son

ciertas reglas prácticas, algunas informales y otras formales, como son:

1. Un R2 alto y test “t” no significativos. Este es un síntoma clásico de

multicolinealidad. Aunque es un diagnóstico razonable, tiene la desventaja

de que es muy fuerte, en el sentido de que la multicolinealidad se considera

dañina únicamente cuando no se pueden separar la totalidad de las

influencias de las variables explicativas sobre la variable Y.

2. Altas correlaciones entre parejas de regresores. Esto se puede ver

mediante el coeficiente de correlación de orden cero entre los regresores. Si

es alrededor de 0.8 o más, el problema se puede considerar como grave.

Sin embargo, hay que tener cuidado. Las correlaciones de orden cero altas son

una condición suficiente pero no necesaria para la existencia de

multicolinealidad debido a que ésta puede existir, a pesar de que las

correlaciones de orden cero sean relativamente bajas. ¿Por qué? El coeficiente

de correlación simple muestra solamente la correlación entre 2 variables, sin

embargo puede existir una relación entre más de 2 variables explicativas.

3. Regresiones auxiliares. Una forma de encontrar cual variable está

altamente correlacionada con las otras, es efectuar la regresión de cada Xj

sobre las variables X restantes y calcular el R2 correspondiente, que se

designa R2

j. Cada una de estas regresiones se denomina regresión auxiliar.

Siguiendo la relación entre F y R2 tenemos:

2 3

2 3

2

2

2

1

1

j k

j k

X X X X

j

X X X X

R

kFR

n k

(5.1)


que sigue una distribución F con k-2 y n-k+1 g. de l.

El R2Xj∙X2.X3...Xk es el coeficiente de determinación en la regresión de la variable

Xj sobre las X restantes.

Si F calculado > que F crítico se dice que el Xj particular es colineal con las

demás X restantes, en caso contrario no es colineal, y por tanto podemos

mantener la variable en el modelo.

En lugar de probar formalmente todos los R2 auxiliares, podemos adoptar la

regla práctica de Klein que sugiere que la multicolinealidad puede ser un

problema complicado solamente si el R2 obtenido de una regresión auxiliar es

mayor que el R2 global.

4. Factores de Tolerancia y de Inflación de Varianza. Mientras mayor es el

FIV, mayor problema o colinealidad tiene la variable Xj. Como regla

práctica, si el FIV > 10 se dice que la variable es altamente colineal.

Otros autores utilizan la medida de tolerancia para detectar el problema. Esta se

define como:

2 11

FIVj j

j

TOL R (5.2)

TOLj = 1 si Xj no está correlacionado con los otros regresores, TOLj = 0 si está

perfectamente correlacionado.

Sin embargo, FIV alto no es condición necesaria ni suficiente para tener

varianza y errores estándar altos. Esto es porque como se puede ver en X(4.7)X, la

ˆvar j depende de tres factores: 2 2, jx y FIVj los cuales pueden ser

contrarrestados entre si.

6. 5B¿Qué hacer?

Existen 2 opciones básicas: incorporar información adicional ó ¡no hacer nada! Se

pueden llevar a cabo las siguientes prácticas:

1. Aumentar la muestra. Ya que la multicolinealidad se puede deber a la

“micronumerosidad” o que la muestra haya sido extraída de un pequeño


intervalo de la población, aumentar la muestra puede ayudar a aumentar la

ortogonalidad de las variables. Dado que:

2 2

2 2 2

ˆvar1 var 1

j

j j j jx R n X R

Cuando aumentamos la muestra aumentamos 2

jx , y por tanto disminuye

la varianza de ˆj .

Sin embargo, en economía muchas veces puede ser difícil aumentar la

muestra, bien porque puede ser muy costoso ó porque no existen los

registros estadísticos necesarios.

2. Especificar una relación entre parámetros. Si se tiene algún dato debido a

la teoría o a una regresión previa de la relación entre por ejemplo X2i y X3i se

puede imponer esta restricción en la regresión.

Por ejemplo el caso de la función de producción Cobb-Douglas linelizada:

1 2 2 3 3ln ln lni i i iY X X u (6.1)

Si suponemos rendimientos constantes a escala: 2 3 1

Entonces imponemos esta restricción en la ecuación antes de estimarla. Cabe

señalar que estas restricciones deben basarse en algún fundamento teórico.

3. Incorporar estimadores de otros estudios. Conocida como mezcla de

datos.

Por ejemplo, si queremos estimar la demanda de un bien y tenemos

informaciones de series de tiempo, podríamos utilizar la siguiente ecuación:

1 2 3ln ln lnt t t tY P I u (6.2)

Donde Q = cantidad vendida, P = precio promedio, I = ingreso.

Necesitamos estimar las elasticidades, pero P e I tienen alta colinealidad.

Una solución posible es calcular la elasticidad ingreso mediante datos de


corte transversal, (como información generada a través de un grupo de

consumidores). Supongamos que la elasticidad ingreso calculada de esta

forma es igual a 1.1. Entonces la ecuación de series de tiempo puede

estimarse como:

1 2ln ln 1.1lnt t t tY P I u (6.3)

4. Eliminación de variables y sesgo de especificación. Una solución a la

multicolinealidad es eliminar una de las variables colineales. Sin embargo,

este método puede causar sesgo de especificación o error de especificación.

Lo cual es peor que el problema de multicolinealidad.

5. Transformación de variables. Supongamos que tenemos unos datos de

series de tiempo. Si tenemos la relación:

1 2 2 3 3t t t tY X X u (6.4)

Si esta relación se cumple en t, también se cumple en t-1:

1 1 2 2 1 3 3 1 1t t t tY X X u (6.5)

Restando ambas ecuaciones tenemos la ecuación en primeras diferencias:

1 2 2 2 1 3 3 3 1( ) ( )t t t t t t tY Y X X X X v (6.6)

Podemos eliminar multicolinealidad porque aunque X2 y X3 estén

correlacionadas, no necesariamente lo van a estar sus diferencias. Sin

embargo (6.6) puede tener el problema de que los errores están serialmente

correlacionados, con lo cual el remedio podría ser peor que la enfermedad.

6. Otros métodos. Técnicas estadísticas multivariadas como análisis de

factores y componentes principales. Estos no los veremos porque exceden

los límites de este curso.

7. ¡No hacer nada! Siempre que el único objetivo de la regresión sea el

pronóstico, la multicolinealidad no es un problema grave, ya que mientras

más alto el R2, mejor la predicción. La multicolinealidad no afecta las

propiedades de los estimadores, pues éstos siguen siendo MELI; la varianza


es grande pero mínima. Simplemente asumimos que la multicolinealidad es

un problema muestral, la realidad es así y la muestra tiene éstos problemas.

Pero esto puede suceder siempre que los valores de las variables explicativas

para los cuales se desean las predicciones obedezcan a las mismas

dependencias lineales casi exactas de la matriz X (de los factores) de diseño

original, que es una condición difícil de conseguir en la práctica.

Capítulo 8

Heterocedasticidad

1. Naturaleza

Uno de los supuestos importantes del modelo clásico de regresión lineal es que la

varianza de cada término de error ui, condicional a los valores seleccionados de las

variables explicativas, es un número constante que llamamos σ2. Esto es lo que se

conoce como el supuesto de homocedasticidad:

2 2, 1,2,3...iE u i n (1.1)

2( ')E uu I (1.2)

Gráficamente la homocedasticidad en el modelo con dos variables se puede

observar en el primer gráfico de la siguiente página. Se observa que la varianza de

Y condicional a las Xi dadas permanece igual sin importar los valores que tome la

variable X. Esto se refleja en una varianza constante para la regresión, o sea

var(Yi)= σ2.

En contraste, si vemos el segundo gráfico, éste muestra que la varianza condicional

de Y aumenta a medida que X aumenta. Las varianzas no son las mismas, y por lo

tanto existe heterocedasticidad. Ahora 2 2

i iE u , entonces la varianza de ui ya

no es constante.

La heterocedasticidad es más probable de encontrar en estudios de corte transversal

que en aquellos de series de tiempo. Un ejemplo de este problema sería en un

estudio de corte transversal del ingreso y los gastos familiares, se esperaría que los

individuos de ingresos bajos gasten a un ritmo constante mientras que los de

ingresos altos tengan patrones de gastos relativamente volátiles.

Heterocedasticidad 146

1

X

Y = 1 +2Xi

Y

X3 X5 X4 X1 X2

X3 X5 X4 X1 X2

1

X

Y = 1 +2Xi

Y


Existen varias razones por las cuales las varianzas de ui pueden ser variables, como

son:

a) Con base en modelos de aprendizaje sobre errores: a medida que la gente

aprende, con el tiempo, sus errores de comportamiento se hacen menores,

entonces la varianza tiende a reducir.

b) A medida que aumentan los ingresos, la gente posee más ingreso discrecional:

por lo tanto, tiene mayores posibilidades de selección con respecto a la forma

de disponer de su ingreso.

c) A medida que mejoran las técnicas de recolección de la información, es posible

que la varianza se reduzca.

d) La heterocedasticidad puede surgir como resultado de la presencia de factores

atípicos (outliers): La inclusión de una variable de este tipo puede alterar los

resultados de la regresión, especialmente si la muestra es pequeña.

e) La heterocedasticidad puede surgir por la mala especificación del modelo: Al

omitir una variable relevante para el modelo por ejemplo. Una mala

especificación puede hacer que los residuos obtenidos den la impresión de que

existe heterocedasticidad.

2. Estimación en presencia de heterocedasticidad

Vamos a considerar el modelo clásico con dos variables, pero ahora vamos a

suponer que se viola el supuesto de homocedasticidad,:

1 2i i iY X u (2.1)

Y aplicando la fórmula conocida de MICO tenemos:

2 2ˆ i i

i

x y

x

(2.2)

Sustituyendo (2.1) en (2.2), utilizando ki y sus propiedades:


2 1 2

1 2

1 2

2 2

ˆ

ˆ

i i i i i

i i i i i

i i i i i

i i

k Y k X u

k k X k u

k k X k u

k u


2 2 2ˆ

i i i iE E k u k E u

2 2ˆE

Por tanto, aun bajo la presencia de heterocedasticidad, el estimador sigue siendo

insesgado. Obtengamos ahora su varianza:

21

2 2

2 2 2

2

1 1 2 2

1 1 2 2 1 1 2 2

2 2 2 2

1 1 1 2 1 2 1 3 1 3 2 2 2 1 2 1

2 2

1 1 1 2 1 2 1 3 1 3

0 0

ˆ ˆvar

...

... ...

... ...

...

i i

n n

n n n n

E E k u

E k u k u k u

E k u k u k u k u k u k u

E k u k k u u k k u u k u k k u u

k E u k k E u u k k E u u

2 22

2 2 2 2

2 2 2 1 2 1

0

22 2

2 2 2

22 2

...

n

n n

i iii i i

i i i

k E u k k E u u k E u

xxk

x x

La varianza ahora es:

2 2

2 22

ˆvari i

i

x

x

(2.3)

que difiere de la fórmula habitual bajo el supuesto de homocedasticidad:


2

2 2ˆvar

ix

(2.4)

Suponga que 2 2

i ik donde σ2 es una constante y ki son ponderaciones

conocidas, pero no necesariamente iguales. Si sustituimos en (2.3), tenemos:

2 2 2 2 22

2 2 2 2 22 2

ˆvari i i i i i

i ii i

x x k x k

x xx x

Donde el primer término del lado derecho es la varianza del estimador MICO de β2

bajo el supuesto de homocedasticidad.

¿Cuál es la relación de 2ˆvar bajo homocedasticad y bajo heterocedasticidad?

Si el segundo término del lado derecho es mayor que uno, 2 2

i i ix k x la

varianza heterocedástica será mayor a la homocedástica, por lo que si utilizamos

esta última, subestimamos la varianza heterocedástica, inflando los estadísticos t y

F. Si 2 2

i i ix k x , ocurre lo contrario. Por tanto, la subestimación o

sobreestimación de la varianza de β2, depende de la relación entre σ2 y la variable

Xi.

En cuanto al modelo general expresado en forma matricial, cuando se viola el

supuesto de homocedasticidad:

2

1 1 2 11

2

2 2 1 2 2

1 2 1

21 1 2

211

222 22

2

( )

( )'

( )

0 00 0

0 00 0

0 00 0

n

n

n n

n n n n nn n

nn

E u E u u E u uu

u E u u E u E u uE E u u u

u E u u E u u E u

uu


Sabemos que YX'XX'β1ˆ

y uXβY . Sustituyendo tenemos:

1

1 1

1

ˆ

β X'X X' Xβ u

X'X X'Xβ X'X X'u

β X'X X'u


1ˆ( )

ˆ( )

E E E

E

β β X'X X'u

β β

Por lo tanto β es insesgado, a pesar de la presencia de heterocedasticidad, debido a

que este supuesto no es necesario para demostrar insesgamiento. Ahora veamos la

varianza:

1 1

1 1

1 1

1 12

ˆ ˆ ˆ ˆ ˆvar cov ( ) ( ) '

ˆ ˆ '

'

'

'

E E E

E

E

E

E

β β β β β

β β β β

X'X X'u X'X X'u

X'X X'uu X X'X

X'X X' uu X X'X

X'X X' ΩX X'X

1 12ˆvar cov

β X'X X'ΩX X'X (2.5)

Esta varianza se diferencia de las encontradas bajo el supuesto de homocedasticidad, donde

12ˆvar cov

β X'X


3. ¿Que pasa con el estimador MICO en presencia de

heterocedasticidad?

El estimador MICO, ya no es el mejor estimador lineal insesgado (MELI).

Mantiene la propiedad de linealidad e insesgadez, pero ya no es el mejor de los

estimadores, pues no tiene la varianza mínima. Por lo tanto este estimador sería

consistente pero no eficiente.

Lo que sucede es que la estimación MICO en presencia de heterocedasticidad, trata

con igual ponderación una observación de una población de varianza elevada y una

de varianza pequeña, cuando lo más razonable sería dar más ponderación a las

observaciones provenientes de poblaciones con menores varianzas respecto de las

de mayor varianza. Esto afecta los distintos tests y la inferencia se hace inválida.

Si utilizamos el estimador MICO ignorando heterocedasticidad, entonces el

estimador MICO de la 2ˆvar será un estimador sesgado, que además subestima

o sobreestima la varianza, por lo tanto las pruebas t y F usuales y los intervalos de

confianza resultarán erróneos. El sesgo viene dado porque el estimador de 2 ,

2 2ˆie n k , no es insesgado cuando se viola el supuesto de

homocedasticidad.

Por tanto, utilizar el estimador MICO en presencia de heterocedasticidad puede

provocar errores importantes. Para evitarlos, se utiliza un método de estimación

alternativo: Mínimos Cuadrados Generalizados.

ˆ ˆvar varMCG MICOHeterocedástico

β β

4. Mínimos Cuadrados Generalizados (MCG)

Este método de estimación tiene en cuenta la existencia de varianzas no

homocedásticas, y por lo tanto nos permite obtener estimadores que sí serán MELI.

Lo que hace el método de MCG es ponderar de forma diferente las observaciones,

dando mayor ponderación a las observaciones con menor varianza, ya que estas

son más precisas para señalar por donde pasa la función de regresión poblacional.


Si consideramos nuevamente el modelo de dos variables ya visto:

1 2i i iY X u (4.1)

que podemos rescribir como:

1 01 2i i iY X X u (4.2)

Donde X0i = 1.

Si las varianzas heterocedásticas son conocidas dividimos a ambos lados por σi:

01 2

i i i i

i i i i

Y X X u

(4.3)

Esto podemos rescribirlo como:

0

* * * * * *

1 2i i iiY X X u (4.4)

Las variables X con “*” quieren decir las variables transformadas y los beta “*”

son para diferenciarlos de los MICO.

Para ver el propósito de transformar las variables, veamos la siguiente

característica del error transformado:

22

* *

22

2 2

var

11

ii i

i

ii

i i

uu E u E

E u

(4.5)

Dado que 2

i es conocida y 2

i iE u

La varianza de *var( )iu es igual a la unidad, o sea es una constante, por lo tanto es

homocedástica. Entonces si se aplica la estimación MICO al modelo transformado,

se producirán estimadores MELI. Por lo tanto *

1 y *

2 son eficientes.


En resumen, MCG es MICO sobre las variables transformadas que satisfacen

los supuestos estándar de mínimos cuadrados. Los estimadores así obtenidos

se conocen como estimadores MCG y éstos son los estimadores que son MELI.

Para obtener los estimadores MCG se minimiza los residuos al cuadrado del

modelo transformado:

2

*2 * * * * *

1 0 2ˆmin i i i ie Y X X (4.6)

2

2 * * *

1 0 2ˆmin i i i i i iwe w Y X X

donde wi = 1/ 2

i , es decir las observaciones son ponderadas inversamente

proporcional por la varianza de ui.

2

* *

1 2*

1

* *

1 2

* *

1 2

* * * *

1 2

* * * *

1 2

ˆ ˆ2 ( )( 1) 0ˆ

ˆ ˆ( ) 0

ˆ ˆ 0

ˆ ˆ 0

ˆ ˆ 0

ie

i i

i i i

i i i

i i i i i

i i

nn

w ew Y X

w Y X

wY w w X

Y X

Y X


* * * *

1 2ˆ ˆY X (4.7)


*1

2

* *

1 2*

2

* * 2

1 2

ˆ

* * * * 2

2 2

ˆ ˆ2 ( )( ) 0ˆ

ˆ ˆ 0

ˆ ˆ 0

i i

i i i i

i i i i i i i

i i i i i i i

w ew Y X X

wY X w X w X

wY X Y X w X w X

(4.8)


* * * * 2

2 2

* * 2

2 2

* * 2

2 2

* 2

2

*

2

ˆ ˆ

ˆ ˆ

ˆ ˆ

ˆ

ˆ

i i i i i i i

i i i i

i i i i i i i

i i

i i i i i i i i

i i i i i

i i

i i i i i i i i

i i i i i

i i

i i

wY X Y X w X w X

wY w XwY X w X w X

w w

wY w X w X w XwY X w X

w w

wY w X w X w XwY X w X

w w

wY X

2

*

2 2ˆ

i i i i

i

i

i i i i

i i

i

i i i i i i i i i

i i i i i i i

wY w X

w

w X w Xw X

w

w wY X w wY w X

w w X w X w X

El estimador MCG de *

2 es:

*

2 22

ˆ i i i i i i i i

i i i i i

w w X Y w X wY

w w X w X

(4.9)

donde wi = 1/ 2

i . Su varianza está dada por:

*

2 22

ˆvari

i i i i i

w

w w X w X

(4.10)

4.1 Derivación MCG en forma matricial


Sabemos que uXβY y bajo el supuesto de heterocedasticidad 2'E uu .

Necesitamos modificar el modelo, de forma tal que el error sea homocedástico, por

tanto supongamos una matriz T que transforma los datos:

TY = TXβ +Tu

= TXβ + v (4.11)

Donde v Tu y requerimos que 2'E vv I

2 2var 'E E E v vv Tuu'T' T uu' T' T ΩT' TΩT'

Donde necesitamos TΩT'= I , por tanto 1 1 Ω T T' y:

1 Ω T'T (4.12)

La matriz T debe cumplir el requisito (4.12), para que pueda cumplirse el supuesto

de homocedasticidad del modelo trasnformado (4.11).

Los estimadores MCG equivalen a los estimadores MICO sobre el modelo

transformado (4.11):

1 1

1 1

1 1 1 1

1 1

ˆ ' '

' ' ' '

' '

' '

' ' ' '

' '

-1

MCG

-1

-1

-1

-1 -1

-1

β = TX TX TX TY

X T TX X T TY

X Ω X X Ω Y

= X Ω X X Ω Xβ +u

X Ω X X Ω Xβ X Ω X X Ω u

β X Ω X X Ω u

(4.13)

Propiedades del estimador MCG

Sesgo

1 1ˆ ' '

ˆ

E E E

E

-1

MCG

MCG

β = β X Ω X X Ω u

β = β

(4.14)


Varianza

1 1 1 1

1 1 1 1

1 1 1 1

1

ˆ ˆ ˆ ˆ ˆvar ( ) ( ) '

ˆ ˆ '

' ' ' ' '

' ' ' '

' ' ' '

'

E E E

E

E

E

E

MCG MCG MCG MCG MCG

MCG MCG

-1 -1

-1 -1

-1 -1

β β β β β

β β β β

X Ω X X Ω u X Ω X X Ω u

X Ω X X Ω uu Ω X X Ω X

X Ω X X Ω uu Ω X X Ω X

X Ω X1 2 1 1

2 1

' '

'

-1 -1

-1

X Ω ΩΩ X X Ω X

X Ω X

2 1ˆvar ' -1

MCGβ X Ω X (4.15)

Puede demostrarse que (4.15) cumple con el teorema de Gauss-Markov.

Estimador de σ2

El estimador de 2 es:

2 ˆ ˆ'ˆ

n k

v v (4.16)

Donde ˆˆ MCG

v TY TXβ , y sustituyendo en (4.16):


2

1

ˆ ˆ'ˆ ˆ'ˆ

ˆ ˆ' '

ˆ ˆ'

n k n k

n k

n k

MCG MCG

MCG MCG

MCG MCG

TY TXβ TY TXβv v

Y Xβ T T Y Xβ

Y Xβ Ω Y Xβ

1

2

ˆ ˆ'ˆ

n k

MCG MCGY Xβ Ω Y Xβ

(4.17)

Diferencia entre MICO y MCG:

MCG minimiza una suma ponderada de residuos al cuadrado donde wi actúa como

un ponderador, en cambio que MICO minimiza la SRC sin ponderar. Como lo que

tratamos es de estimar una función de regresión poblacional (FRP), la idea es

ponderar con un peso relativamente mayor las observaciones más cercanas a la

media (poblacional), que aquellas que están más dispersas.

Como en (4.6) se minimiza la SRC ponderados, estos estimadores se conocen

como Mínimos cuadrados ponderados (MCP), que son un caso particular de los

MCG (veremos otra aplicación de MCG en el caso de autocorrelación).

5. Detección de la heterocedasticidad

Métodos informales:

Naturaleza del problema: con mucha frecuencia, la naturaleza del problema

en estudio sugiere la posibilidad de que exista heterocedasticidad,

principalmente cuando se trabaja con datos de corte transversal.

Método gráfico: Una vez estimado el modelo, la inspección y análisis de los

residuos permite detectar la presencia de heterocedasticidad, dado que

pueden considerarse como “proxies” de las perturbaciones aleatorias:

1 2i i ie Y X


La representación gráfica de los residuos al cuadrado (o en valor absoluto) frente a

los valores de las variables explicativas puede permitir valorar la presencia de

heterocedasticidad y, en su caso, la posible causa de ésta. Una pauta clara de

crecimiento o decrecimiento del cuadrado de los residuos indicaría un

crecimiento/decrecimiento de la varianza de las perturbaciones aleatorias con la

variable en cuestión. Otra opción útil en el caso de 2 o más variables explicativas

es graficar los residuos al cuadrado (o en valor absoluto) respecto a los valores

estimados de la variable dependiente.

Un ejemplo claro de presencia de heterocedasticidad se observa en los siguientes

diagramas:

Métodos Formales:

Existen diversos test de hipótesis que pueden plantearse para valorar el fenómeno

de la heterocedasticidad, pero pueden clasificarse en dos grupos:


a. Los que parten de asignar una estructura concreta (heterocedasticidad

directa):

Goldfeld y Quandt (1965)

Glejser (1969)

Park (1966)

Breusch, Pagan & Godfrey (1978, 1979)

b. Los que no suponen una estructura concreta (heterocedasticidad indirecta):

White (1980)

Test de homogeneidad de varianzas de Barlett (1949)

5.1 Prueba de Park

Park formaliza el método gráfico sugiriendo que 2

i es algún tipo de función de la

variable explicativa Xi.

La forma funcional que sugiere es:

2 2 iv

i iX e

2 2ln ln lni i iX v

Esta prueba se realiza en dos etapas:

1. Se corre la regresión por MICO ignorando la heterocedasticidad en los datos, y

se recupera el error estimado ˆiu .

2. Como generalmente no conocemos 2

i utilizamos 2ˆiu como proxy y corremos la

siguiente regresión:

2 2ˆln ln lni i iu X v

Si β es significativo, existe heterocedasticidad en los datos. En caso contrario

se acepta el supuesto de homocedasticidad.

Esta prueba tiene un inconveniente, y es que el término de error iv puede ser

heterocedástico.

5.2 Prueba de Glejser


Esta prueba es similar a la de Park, pero a diferencia de ésta, no se restringe la

heterocedasticidad a una sola forma funcional, y propone varias formas que ésta

podría adoptar. Los pasos para aplicar esta prueba son los siguientes:

1. Se realiza la estimación MCO del modelo original y se obtienen los residuos.

2. Se realiza la regresión de los valores absolutos de los residuos frente a los

valores de la exógena que parece causar la heterocedasticidad. En sus

experimentos Glejser utilizó las formas funcionales siguientes:

1 2ˆ

i i iu X v (6.1)

1 2ˆ

i i iu X v (6.2)

1 2ˆ

i i iu X v (6.3)

1 2

1ˆ

i i

i

u vX

(6.4)

1 2ˆ

i i iu X v (6.5)

2

1 2ˆ

i i iu X v (6.6)

La significación estadística, valorada mediante el estadístico “t” del coeficiente,

indicará tanto la presencia de heterocedasticidad (la variabilidad no es constante)

como su estructura (depende de X).

Sin embargo presenta inconvenientes, ya que el término de error iv tiene

problemas pues su valor esperado es distinto de cero, está correlacionado y puede

presentar heterocedasticidad1. No obstante, Glejser ha encontrado que para

muestras grandes, los cuatro primeros modelos son satisfactorios. Tiene la ventaja

de que trata de estimar la verdadera forma de la heterocedasticidad.

Por otro lado modelos como el (6.5) y (6.6) son no-lineales en los parámetros, por

lo cual no pueden ser estimados por MICO.

5.3 Prueba de Goldfeld-Quandt

Este método es aplicable si se supone que la varianza heterocedástica está

relacionada monotónicamente con una de las variables explicativas del modelo de

regresión.

1 Ver Goldfeld, S. M. and R. E. Quandt (1972). Capítulo 3. Nonlinear Methods in Econometrics. Amsterdam, North

Holland Publishing Company.


Esta prueba se hace mediante los siguientes pasos:

1. Ordenar las observaciones de acuerdo a los valores de Xi, empezando por el

valor de X más bajo.

2. Omitir “c” observaciones centrales, que han sido especificadas a priori y dividir

las observaciones restantes (n-c) en dos submuestras, cada una de (n-c)/2

observaciones.

3. Correr las regresiones MICO por separado cada submuestra y luego obtener las

SRC1 y SRC2 respectivas. Donde la primera corresponde al grupo de varianzas

pequeñas y la segunda al de varianzas grandes. Con ( )

2

n ck

o

( 2 )

2

n c k

grados. de libertad.

4. Calcular el estadístico2:

2

2

1 1

2

2

SRCn c

kSRC

FSRC SRC

n ck

ó

2

2

2

21 1

ˆ2ˆ

2

SRCn c

kF

SRCn c

k

Donde ,

2 2

n c n ck k

F F

Si el F calculado es mayor que el crítico, se rechaza la hipótesis nula de

homocedasticidad3.

El numero “c” de observaciones a excluir debe ser aproximadamente una cuarta

parte de la muestra, o sea c=n/4.

Si se tiene un modelo de regresión múltiple, y no hay seguridad de cual varible X

es la causante de la heterocedasticidad, se debe realizar la prueba sobre cada una de

las varibles explicativas.

2 El mayor valor debe incluirse en el numerador, por lo que debe comprobarse que SRC2>SRC1, en caso contrario se

debe incluir SRC1 en el numerador.

3 Si SRC2>SRC1, la hipótesis alterna es que la relación heterocedástica de X es creciente, en cambio si SRC1>SRC2,

la hipótesis alterna es que la relación heterocedástica de X es creciente y viceversa.


5.4 Prueba de White

Para esta prueba se procede de la siguiente forma:

1. Se realiza la estimación por MICO del modelo original y se obtienen

los residuos. Supongamos que nuestro modelo es:

1 2 2 3 3i i i iY X X u (6.7)

2. Se realiza la regresión auxiliar de los cuadrados de los residuos frente

a todas las exógenas, sus cuadrados y los productos cruzados:

2 2 2

1 2 2 3 3 4 2 5 3 6 2 3i i i i i i i ie X X X X X X v (6.8)

3. Se obtiene el coeficiente de determinación de la regresión auxiliar y el

producto de éste por el número de observaciones se distribuye, bajo la

hipótesis nula de homocedasticidad, como una ji-cuadrado con p

grados de libertad, siendo p el número de regresores en la regresión

auxiliar, o sea p=k-1 (cinco en nuestro caso). Si el producto nR2 es

mayor que 2

p al nivel de confianza fijado, entonces se rechaza la

hipótesis de homocedasticidad y se admite la presencia de

heterocedasticidad.

6. Soluciones al problema de heterocedasticidad.

6.1 Cuando 2

i es conocida

En este caso el método más directo de corregir la heterocedasticidad es utilizar

Mínimos Cuadrados Generalizados (MCG) conocidos también como Mínimos

cuadrados Ponderados (MCP), ya que los estimadores obtenidos por este método

son MELI.

6.2 Cuando 2

i es no conocida

Varianzas y errores estándar consistentes con heterocedasticidad de White

Cuando no conocemos 2

i White ha demostrado que existe una forma de obtener

estimaciones que sean asintóticamente válidas. Existen diversos paquetes que

presentan los errores varianzas y errores estándar bajo la corrección de


heterocedasticidad de White en forma simultánea con los de MICO. Los errores

estándar de White pueden ser mayores o menores que los de MICO.

Supuestos razonables sobre el patrón de heterocedasticidad

Una desventaja del método de White, además de ser un método para muestras

grandes, es que los estimadores obtenidos por este medio pueden no ser tan

eficientes como aquellos obtenidos por métodos que transforman la información

para reflejar tipos específicos de heterocedasticidad.

Una alternativa al método de White, es hacer supuestos sobre el patrón de

heterocedasticidad y aplicar la transformación de MCG, los cuales pasan ahora a

llamarse Mínimos Cuadrados Generalizados Factibles (MCGF).

Pueden tenerse diversos supuestos sobre el patrón de heterocedasticidad, y

dependiendo de éstos se hace la transformación al modelo original:

Supuesto 1: la varianza del error es proporcional a X2

i: 2 2 2

i iE u X

2 2 2

2

1

2

2

2 2

3

2

var

0 0 0

0 0 0

0 0 0

0 0 0 0

i i

n

u X

X

X

X

X

Ω


2

1

2

2

2

3

2

1 0 0 0

10 0 0

10 0 0

10 0 0 0n

X

X

X

X

-1Ω

Dado que 1 Ω T'T, entonces:

1

2

3

1 0 0 0

10 0 0

10 0 0

10 0 0 0n

X

X

X

X

T

Estimamos el modelo transformado ó ponderado TY = TXβ +Tu =TXβ+ v , lo

cual equivale a transformar el modelo original de la siguiente forma:

12

1 2

1

i i

i i i

i

i

Y u

X X X

vX

Por lo tanto, la varianza es:

2

2

2 2 2 2

2 2

( )

1 1

ii

i

i i

i i

uE v E

X

E u XX X


que implica que la varianza es homocedástica.

Supuesto 2: la varianza del error es proporcional a Xi: 2 2

i iE u X

2 2

1

2

2

3

var

0 0 0

0 0 0

0 0 0

0 0 0 0

i i

n

u X

X

X

X

X

Ω

1

2

3

1 0 0 0

10 0 0

10 0 0

10 0 0 0n

X

X

X

X

-1Ω


1

2

3

1 0 0 0

10 0 0

10 0 0

10 0 0 0n

X

X

X

X

T




12

1 2

1

i ii

i i i

i i

i

Y uX

X X X

X vX

Por lo tanto, la varianza es:

2

2

2 2 2

( )

1 1

ii

i

i i

i i

uE v E

X

E u XX X

que implica que la varianza es homocedástica.

Supuesto 3: la varianza del error es proporcional al cuadrado del valor medio de

Y: 22 2

i iE u E Y .

22 2

2

1

2

2

2 2

3

2

var

0 0 0

0 0 0

0 0 0

0 0 0 0

i i

n

u E Y

E Y

E Y

E Y

E Y

Ω


2

1

2

2

2

3

2

1 0 0 0

10 0 0

10 0 0

10 0 0 0n

E Y

E Y

E Y

E Y

-1Ω


1

2

3

1 0 0 0

10 0 0

10 0 0

10 0 0 0n

E Y

E Y

E Y

E Y

T



Se transforma el modelo original de la siguiente forma:

12

1 2

1

i i i

i i i i

ii

i i

Y X u

E Y E Y E Y E Y

Xv

E Y E Y

Se puede demostrar que en este caso también, 2 2( )iE v .


Por otra parte, una transformación logarítmica tal como 1 2log logi i iY X u

con gran frecuencia reduce la heterocedasticidad cuando se compara con la

regresión sin logaritmos.

Capítulo 9

Autocorrelación

Uno de los supuestos formulados para el Modelo Clásico de Regresión Lineal, es

que no existe autocorrelación del término estocástico iu de la función de regresión

poblacional. En este capítulo veremos cual es la naturaleza de la autocorrelación,

sus las consecuencias teóricas y prácticas, como detectar su presencia y como

remediar el problema.

1. Definición

El término autocorrelación se puede definir como “la correlación entre miembros

de series de observaciones ordenadas en el tiempo (como series de tiempo) o en el

espacio (como datos de corte transversal)”1. En el contexto de regresión, el método

clásico supone que tal autocorrelación de los errores iu no existe.

El modelo clásico supone 0i jE u u i j

Mientras que la autocorrelación implica 0i jE u u i j

Podemos observar los patrones de autocorrelación, observando las gráficas de los

errores en el tiempo, o bien los errores en el periodo t versus el errores en t-s,

donde s es el orden del rezago de correlación.

2. Causas de la autocorrelación

Algunas de las causas de la autocorrelación se deben a:

1 Maurice G. Kendall y William R. Buckland, A Dictionary of Statistical Terms, Hafner Publishing Company, New

York, 1971, p. 8.

Autocorrelación 170

Error de especificación: Forma Funcional Incorrecta. Si el modelo

verdadero de una función de costos es:

2

1 2 3i i i iY X X u

donde Y = Costo marginal, X = producción, pero estimamos:

1 2i i iY X v

Entonces el patrón de errores será sistemático, como se muestra en la siguiente

gráfica:

Algo similar ocurre cuando la muestra presenta cambio estructural, los residuos

pueden presentar patrones sistemáticos antes y después del cambio estructural.

Error de especificación: Omisión de una variable relevante. El no incluir en

el modelo una variable autocorrelacionada provocará un residuo

autocorrelacionado.

Si el modelo es 1 2 2 3 3t t t tY X X u

Pero estimamos 1 2 2t t tY X v

Forma funcional estimada

Errores positivos o negativos

Verdadera forma

Co

sto

mar

gin

al

Producción


donde: 3 3t t tv u X

Si 3X presenta autocorrelación, entonces tv estará autocorrelacionada, en

consecuencia, la solución es incorporar 3X .

En adelante, supondremos que la autocorrelación no está provocada por errores de

especificación

Influencia prolongada de shocks. En las series de tiempo, los shocks en

general persisten por más de un período. Por ejemplo, en el caso de un

terremoto, probablemente este afectará la actividad económica durante varios

de los periodos siguientes a que éste ocurra.

Inercia. También conocida como lentitud, es una característica relevante en la

mayoría de las series de tiempo económicas, las cuales suelen presentar ciclos

que se repiten a través del tiempo, y en el que se hechos pasados tienen efectos

en el presente.

Rezagos. Hay modelos que requieren rezagos tanto de la variable dependiente

como de una o varias de las explicativas2. Si esta relación es ignorada al

momento de hacer la regresión, el error recogerá este patrón sistemático de la

serie, presentando autocorrelación.

“Manipulación” de datos. En ocasiones los datos trimestrales son el resultado

de promediar los datos de los meses pertinentes, lo cual crea un suavizamiento y

elimina fluctuaciones de la información mensual. En otros casos, a falta de

alguna observación, esta se suele interpolar o extrapolar en base a los datos de

la muestra y algunos supuestos.

El Fenómeno de la Telaraña. La oferta de muchos productos agrícolas se

refleja lo éste fenómeno, donde la oferta reacciona al precio con un rezago de

un periodo debido a que la implementación de las decisiones de oferta toman

tiempo, lo cual suele expresarse como 1 2 1t t toferta P u . Si tras el

periodo t, existen excedentes de producción, los agricultores reducirán entonces

su producción para el periodo t+1, produciéndose el patrón de la telaraña.

2 Por ejemplo, el consumo de un periodo, no sólo depende del ingreso en dicho periodo, sino también del consumo

en el periodo anterior, debido a que las personas suelen tener hábitos en el consumo.


Autocorrelación espacial. En datos de corte transversal regional, un shock

aleatorio que afecta la actividad económica de una región puede causar que la

actividad económica de regiones adjuntas corran la misma suerte, es decir,

ocurre el efecto vecindad.

3. Estimación en presencia de autocorrelación

Debemos suponer el mecanismo que genera las tu ya que el supuesto de que

0t t sE u u para 0s es muy general. Podemos pensar en las siguientes

formas:

Autorregresivo de primer orden [ AR(1) ]

Se define como:

1t t tu u (3.1)

con 1 1 , donde se conoce como coeficiente de autocorrelación de primer

orden y t es un error estocástico conocido como ruido blanco, el cual cumple con

las siguientes propiedades:

2

0

var

cov , 0 0

t

t

t t s

E

s

(3.2)

Podemos demostrar, tomando la definición de coeficiente de correlación que3:

1 1 1

11

cov

varvar var

t t t t t t

tt t

E u E u u E u u u

uu u

Demostrar:

2

2var

1tu

,

2

2cov ,

1

s

t t su u

, ( , ) s

t t scorr u u

3 Suponemos que 0tE u y la varianza sigue siendo constante, por lo que 1var vart tu u . equivale al

coeficiente de pendiente de una regresión entre tu y 1tu .


El nombre de autorregresivo se debe a que es una regresión del error ut sobre el

mismo, pero con rezago. Se dice que es de primer orden, porque solamente está

regresado con el primer rezago, así un esquema autorregresivo de orden p, se

representa como:

1 1 2 2 ...t t t p t p tu u u u , donde 1 1t p (3.3)

Media Móvil de primer orden [ MA(1) ]

Se define como:

1t t tu v v

donde v es un término de perturbación aleatorio con media cero y varianza

constante; y es una constante tal que 1 . La media móvil de primer orden

MA(1), equivale a un promedio de dos variables aleatorias adyacentes. Existen

también procesos MA de órdenes mayores.

ARMA ( 1,1 )

Es una combinación de procesos autorregresivos de primer orden y media móvil de

primer orden, el cual se representa como:

1 1t t t tu u v v

Concepto de estacionariedad

Una variable es no estacionaria cuando la relación entre las observaciones de t y t-

1 se tiene un 1 . Durante este curso, supondremos siempre, que -1 y

1 , al menos que se indique lo contrario. Los shocks de una variable no

estacionarios, son permanentes ¿por qué?

3.1 Estimación utilizando MICO

Supongamos por su simplicidad y amplia utilización, que el proceso de generación

de los errores es un AR(1); el estimador MICO sigue siendo:


2 2ˆ t t

t

x y

x

(3.4)

Sin embargo, su varianza ahora es:

1 2

2 2 1 22 11 1 1

2 2 21 2 2 2

1 1 1

2ˆvar .......

n n

t t t tnt t n

n n nAR

t tt t t

t t t

x x x xx x

x xx x x

(3.5)

Podemos contrastar (3.5) con la varianza sin autocorrelación dada por

2

2 2ˆvar

tx

(3.6)

Vemos que (3.5) es igual a (3.6) más un término que depende de y de las

covarianzas muestrales entre los valores que toma X. A priori, no se puede afirmar

que 2ˆvar es mayor o menor que 2

1

ˆvarAR

.

En presencia de autocorrelación nuevamente 2 no es MELI; es lineal e insesgado,

pero ya no es eficiente, pues no tiene la mínima varianza.

3.2 Estimador de Mínimos Cuadrados Generalizados (MCG)

Al igual que con heterocedasticidad, podemos utilizar el MCG para obtener

estimadores que sean MELI, ya que incorpora información adicional sobre las

varianzas-covarianzas, en el procesos de estimación mediante la transformación de

variables.

Bajo un proceso AR(1) es posible demostrar que el estimador MELI de 2 está

dado por:

1 1

22

2

1

2

ˆ

n

t t t tMCG t

n

t t

t

x x y y

C

x x


2

22

1

2

ˆvar MCG

n

t t

t

D

x x

donde C y D son factores de corrección de la primera observación que pueden ser

ignorados en la práctica.

Una forma intuitiva de obtener los estimadores es la siguiente. Supongamos un

modelo de regresión de dos variables:

1 2t t tY X u (3.7)

rezagando (3.7) en un período, tenemos

1 1 2 1 1t t tY X u (3.8)

Multiplicando (3.8) por ρ se obtiene:

1 1 2 1 1t t tY X u (3.9)

Si restamos (3.9) de (3.7):

1 1 2 2 1 1

1 2 1

1 2

( ) (1 ) ( )

(1 ) ( )

t t t t t t

t t t

t t t

Y Y X X u u

X X

Y X

1 2t t tY X (3.10)

donde 1t t tu u , *

1 1 1 , *

1t t tY Y Y , *

1t t tX X X .

Este modelo se conoce como ecuación en diferencias generalizada o

cuasidiferencias y equivale a Mínimos Cuadrados Generalizado (MCG).


4. Consecuencias de utilizar MICO en presencia de

autocorrelación

Si admitimos la autocorrelación y usamos 21

ˆvarAR

, es probable que los

intervalos de confianza sean más amplios que si usamos MCG. Por lo tanto 2 es

insesgado y consistente, pero no eficiente.

Ahora bien, si utilizamos MICO ignorando la autocorrelación, la situación es aún

más grave:

Es probable que la varianza de los residuos

2

2ˆ

ˆ2

tu

n

subestime la

verdadera varianza.

Por lo tanto, es posible que se sobreestime R2.

Aunque no se subestimara 2 , puede que 2ˆvar subestime a 2

1

ˆvarAR

.

Las pruebas t y F dejan de ser válidas y de ser aplicadas nos llevarán a

conclusiones erróneas sobre la significancia estadística.

Para un proceso de autocorrelación AR(1), puede mostrarse que:

12 1

2

2 1

22

1ˆ

2

n

t ttn

tt

x xn

xE

n

(4.1)

Si 11

2

1

n

t tt

n

tt

x x

x

y son positivos (algo muy probable), entonces 2 2ˆE , es decir,

la formula usual de la varianza de los residuos en promedio subestimará la

verdadera varianza, o sea que será sesgada hacia abajo, y lo mismo ocurrirá con

2ˆvar .

Asimismo, aun no sea subestimada, según lo mostrado anteriormente comparando

(3.5) y (3.6), la 2ˆvar será un estimador sesgado de 2

1

ˆvarAR

.


5. Detección de la autocorrelación

5.1 Método gráfico

El simple análisis de los residuos obtenidos puede confirmar la presencia de

errores mal comportados. Los residuos y los residuos estandarizados con el tiempo.

5.2 Prueba de Durbin-Watson

El estadístico Durbin-Watson se define como:

2

1

2

2

2

ˆ ˆ

ˆ

t n

t t

t

t n

t

t

u u

d

u

(5.1)

A diferencia de las pruebas t, F o Ji-cuadrado no hay un valor crítico único que

lleve al rechazo o aceptación de H0. Se usa en cambio un límite inferior dL y un

límite superior dU tales que si el valor d cae por fuera de estos valores críticos,

puede tomarse una decisión con respecto a la presencia de autocorrelación positiva

o negativa.

Los límites de d son 0 y 4. Estos pueden establecerse expandiendo la fórmula de d

anterior:

x

ui

t

ui

t x

x

x

x

x x

x

x

x

x x

x x

x x

x x


2 2

1 1

2

ˆ ˆ ˆ ˆ2

ˆ

t t t t

t

u u u ud

u

(5.2)

si hacemos 2 2

1ˆ ˆ

t tu u , ya que apenas difieren en una observación, entonces

2 2 2

1 1 1 1

2 2

1

2

ˆ ˆ ˆ ˆ ˆ ˆ ˆ2 2 2

ˆ ˆ

ˆ ˆ2 1

ˆ

t t t t t t t

t t

t t

t

u u u u u u ud

u u

u ud

u

Definiendo 1

2

ˆ ˆˆ

ˆ

t t

t

u u

u

como el coeficiente de autocorrelación muestral de

primer orden, luego:

ˆ2 1d

Como 1 1 , entonces 0 4d

Regla práctica

si d = 2 no hay autocorrelación,

0 dL dU 2 4 -dU 4 –dL 4

Zo

na

de

Ind

ecis

ión

Zo

na

de

Indec

isió

n

Rec

haz

o H

o

Auto

corr

elac

ión

(+

)

No

rechazo

Ho o H0*

Rec

haz

o H

o*

Auto

corr

elac

ión

(-

)

Ho No hay autocorrelación positiva de primer orden

Ho* No hay autocorrelación negativa de primer orden


si = +1 entonces d=0, por lo tanto hay autocorrelación +

si = -1 entonces d=4, por lo tanto hay autocorrelación –

Pasos:

1. Efectuar regresión por MICO y obtener residuos.

2. Calcular d

3. Encontrar valores críticos dL y dU.

4. Seguir las reglas de decisión del gráfico anterior.

Este estadístico es calculado con los residuos de la regresión MICO y es usado

para probar autocorrelación de primer orden.

Cabe destacar que este test es válido bajo las condiciones siguientes:

1. Hay constante en la regresión.

2. Las variables explicativas, son no estocásticas, es decir, son fijas en

muestreo repetitivo.

3. Los errores ut se generan por un proceso AR(1), o sea autocorrelación de

primer orden.

4. El modelo no incluye variable endógena rezagada.

5. No hay observaciones faltantes.

5.3 Prueba h de Durbin

Cuando tenemos un modelo con variable endógena rezagada no podemos utilizar el

Durbin-Watson, pero tenemos como alternativa la prueba h de Durbin.

Ho: ρ = 0

H1: ρ ≠ 0

2

ˆˆ1

nh

n Var

donde 2 es el coeficiente asociado a Yt-1 (la variable endógena rezagada) y

~ (0,1)h N por lo que:

[-1.96 1.96] 0.95P h

Si h calculado > 1.96, entonces se rechaza H0 al 5%.


5.4 Prueba Breusch-Godfrey sobre autocorrelación de orden superior

Esta prueba es similar a la prueba de White de Heterocedasticiad, y es una prueba

de multiplicadores de Lagrange para detectar autocorrelación de orden general. En

esta prueba la hipótesis nula de un proceso AR(ρ), es: ρ1 = ρ2=...= ρp= 0.

Pasos de esta prueba:

1. Estimar por MICO y obtener los residuos.

2. Efectuar la regresión de los residuos estimados sobre todas las X, más

1 2ˆ ˆ ˆ, , ,t t t pu u u

. Si p = 4, se introducirían los ˆtu con cuatro rezagos.

3. Para muestras grandes B-G han demostrado que:

2 2( ) pn p R

Si 2 2( ) > pn p R , se rechaza Ho, por lo tanto hay autocorrelación.

5.5 Estadísticos de Box-Pierce y Ljung-Box

Una alternativa para probar la existencia de autocorrelación, es el estadístico Q de

Box y Pierce (1970). Para probar la hipótesis nula de que no existe autocorrelación

de orden p, se calcula estadístico Q y se compara con una ji-cuadrado de p grados

de libertad.

2 2

1

ˆp

BP

s p

s

Q n

(5.3)

Donde

1

2

1

ˆ

p

t t s

t ss p

t

t s

e e

e

(5.4)

Con n=tamaño de la muestra, s= las autocorrelaciones y p=orden de la

autocorrelación de la hipótesis nula4.

Una variante del estadístico de Box y Pierce es el propuesto por Ljung-Box (LB)

que se define como:

4 Si el la serie representa los residuos de una estimación ARIMA, el número apropiado de grados de libertad debe

ser ajustado para representar el numero de autocorrelaciones menos el numero de términos AR y MA.


2

2

1

ˆ2

pLB s

p

s

Q n nn s

(5.5)

Aunque para muestras grandes, tanto el estadístico Q de BP como LB siguen la

distribución ji-cuadrada con p grados de libertad, se ha encontrado que la

estadística de LB posee mejores propiedades de muestra pequeña que el estadístico

de BP.

6. Corrección de Autocorrelación

¿Qué hacemos si hay autocorrelación?

Verificar que la misma no es consecuencia de variables omitidas (ej. ausencia

de rezagos), o forma funcional incorrecta.

Para corregir autocorrelación se puede utilizar una transformación del modelo

original, utilizando los mínimos cuadrados generalizados.

Para muestras grandes se puede utilizar el método de Newey-West.

Puede utilizarse MICO en algunos casos, siempre que no se necesite hacer

inferencia sobre los coeficientes

A continuación, veamos detalladamente algunas formas de corregir

autocorrelación.

En el caso de que conozcamos ρ, aplicamos MCG según lo presentado en la

ecuación (3.10). El problema es que la mayoría de las veces no conocemos ρ,

entonces tendremos que buscar la forma de estimarlo, para luego utilizar los

Mínimos Cuadrados Generalizados Factibles (MCGF). Una vez obtenido un

estimador de ρ, para aplicar MCGF sólo tendríamos que incluirlo en la estimación

de la ecuación (3.10).

6.1 Estimación a través de los residuos

Si tenemos un proceso AR(1) 1t t tu u , podemos hacer una regresión entre

los residuos para encontrar un estimador de :

1ˆˆ ˆ

t t tu u v

En este caso no es necesario incluir intersección, porque la suma de los errores

sabemos por definición son iguales a cero.


6.2 Método basado en el estadístico d de Durbin-Watson

puede ser estimado a partir del estadístico D-W. Sabemos que ˆ2 1d . Si

despejamos , tenemos:

ˆ 1 / 2d (6.1)

El inconveniente es que sólo es válido para muestras grandes. Para evitar este

problema Theil-Nagar propusieron la siguiente modificación:

2

2

2 2

1ˆ

dn

n k

(6.2)

donde n = número total de observaciones, k = número de coeficientes a ser

estimados (incluyendo intersección).

Luego de obtenido se procede a estimar la ecuación (3.10), o sea en diferencias

generalizada.

6.3 Método Iterativo de Cochrane-Orcutt

Como su nombre lo indica, deben de seguirse ciertos pasos:

1) Se estima modelo por MICO y se obtienen los residuos.

2) Luego se estima por MICO la siguiente regresión: 1ˆˆ ˆ

t t tu u

3) Con efectúese la ecuación en diferencia generalizada (3.10)

1 2t t tY X

4) Como no sabemos si es el mejor estimador de ρ sustituimos los valores

1 y 2 en la regresión original y obtenemos los nuevos residuos ˆtu

5) Se estima la regresión 1ˆˆ ˆ

t t tu u w

, con esta ˆ se vuelve a hacer el

proceso desde el paso 3 repetidas veces hasta que en 2 corridas consecutivas

los ρ estimados difieran poco.

6.4 Método de la Malla Hildreth y Lu

Se define un conjunto de valores posibles de ρ entre –1 y 1, donde los intervalos

entre los distintos valores de ρ son de 0.1.

Para cada se corre el modelo en diferencias generalizado y se computa la 2ˆtu .

Se elige un valor de que minimice la suma de cuadrados residuales (o sea que

maximizamos R2).

Capítulo 10

Especificación de modelos

Uno de los supuestos del modelo clásico de regresión lineal es que el modelo que

utilizamos está correctamente especificado, o sea que no hay error o sesgo en la

especificación. La discusión sobre especificación de modelos econométricos es

amplia y abarca diferentes corrientes de pensamiento, por lo que a continuación

nos concentraremos en las consecuencias de tener un modelo mal especificado,

posible detección del problema y algunas técnicas conocidas para especificar

modelos de manera “correcta”.

Existen cuatro posibles errores de especificación

Omitir una variable relevante (variables omitidas).

Inclusión de variables irrelevantes (variables intrusas).

Forma funcional incorrecta.

Errores de medición de los datos

En un pasado los econometristas tendían a asumir que el modelo provisto por la

economía teórica representaba precisamente el mecanismo del mundo real para

generar los datos. En este sentido se veía el rol del econometrista en proveer

“buenos” estimadores para los parámetros del modelo. Cualquier incertidumbre

acerca de la especificación del modelo, la tendencia era utilizar la econometría para

“buscar” el mecanismo de la generación de los datos en el mundo real. Esta visión

de la econometría es obsoleta y hoy se reconoce que los modelos econométricos

son “falsos” y que no se debe esperar o pretender encontrar la verdad a través de la

econometría.

1. Atributos de un buen modelo

Un modelo que está bien especificado tiene los siguientes atributos:

Especificación de modelos 184

Parsimonia. Maximizar la explicación del fenómeno, maximizando la

simplificación. Mientras más simple el modelo mejor.

Identificabilidad. Dadas las observaciones, los coeficientes estimados deben

ser únicos.

Bondad del ajuste. R2 alto

1, signos correctos de los coeficientes y

significativos según las pruebas t y F, etc. Pero ¡cuidado con el uso

indiscriminado de variables con la única finalidad de aumentar el R2! (data

mining2).

Plausibilidad teórica. Los coeficientes deben tener consistencia con el modelo

teórico planteado. Aun teniendo un R2

alto, un modelo puede tener los signos

incorrectos.

Poder predictivo. El R2 es un indicador del ajuste dentro de muestra, pero

también importa predecir fuera de muestra, dentro y fuera del periodo.

Estabilidad. Inexistencia de cambio estructural y coeficientes estables.

2. Consecuencias de los errores de especificación

2.1 Variables Omitidas

Si el verdadero modelo es

1 2 2 3 3i i i iY X X u (1)

Pero el modelo utilizado es:

1 2 2i i iY X v (2)

donde X3 es la variable omitida.

Si expresamos (1) y (2) en desvíos

2 2 3 3i i i iy x x u u

2 2i i iy x v v

Al estimar 2 tenemos:

1 Debemos recordar que MICO maximiza el R

2, ya que minimiza los errores al cuadrado.

2 Ames y Reiter (1961) encuentran que en promedio el R

2 de una regresión entre una variable económica y su rezago

es 0.7.


2 2 2 2 3 3

2 2 2

2 2

2

2 2 3 2 3 2

2

2

3 2 3 2

2 2

2

ˆ i i i i i i

i i

i i i i i

i

i i i i

i

x y x x x u u

x x

x x x x u u

x

x x x u u

x

Si aplicamos la esperanza

3 2 3

2 2 2

2

ˆ i i

i

x xE

x

Las consecuencias de omitir X3 son las siguientes:

1. Si la variable omitida está correlacionada con al variable incluida, los

coeficientes estimados son sesgados e inconsistentes.

2. Aún cuando X2 y X3 no estén correlacionados, 1 es aun sesgado, aunque 2

sea insesgado3.

3. Si X2 y X3 están correlacionados, la varianza del estimador será menor que

del verdadero modelo.

Modelo original:

2

2 2 2

2 2,3

ˆvar( )1ix r

Modelo estimado: 2

2 2

2

ˆvar( )ix

2 2ˆˆvar( ) var( ) , dado que 2

2,30 1r

Como el estimador 2 es sesgado pero tiene varianza menor que el estimador

2 , existe un tradeoff, en el que se podría utilizar el criterio del error

cuadrático medio.

4. La varianza de la perturbación σ2 está estimada incorrectamente.

3Dado 1 2 2

ˆ ˆY X , y 1 2 2 3 3ˆ ˆ ˆY X X , si aplicamos el operador de esperanza, 1 2 2

ˆE Y X , (porque

2 3 0x x ) en cambio 1 2 2 3 3ˆE Y X X


2

2ˆ( ) ( )

i

u

eE E

n k r n k r

e'e

r es el número de variables omitidas. La SRC es mayor (porque se omite una

variable relevante), mientras que el efecto contrario sobre el denominador es

marginal, por lo que el estimador de la varianza está sesgado al alza.

5. En consecuencia, los intervalos de confianza y pruebas de hipótesis en

relación a estos parámetros no serán precisos y nos pueden llevar a

conclusiones erradas4.

2.2 Inclusión de una variable irrelevante

Suponiendo que el verdadero modelo es

1 2 2i i iY X u (3)

pero se utiliza el siguiente:

1 2 2 3 3i i i iY X X v (4)

donde X3 es la variable intrusa.

Las consecuencias de incurrir en este error de especificación son las siguientes

1. Los estimadores MICO de los parámetros del modelo incorrecto son todos

insesgados y consistentes.

2. La varianza del error 2 está correctamente computada.

2

2

( ) ( )

ieE E

n k s n k s

e'e

s es el número de variables intrusas La caída en la SRC no es muy grande,

porque la variable es intrusa (explica poco) mientras que en el denominador

se produce una variación marginal en sentido contrario.

4 Adicionalmente los estimadores de las varianzas,

22

2 2

2 2

ˆ ˆ 22 222 2,3

ˆ ˆó1

u v

iixx r

.


3. Los procedimientos usuales de intervalos de confianza y de prueba de

hipótesis siguen siendo válidos.

4. Pero la varianza estimada para los parámetros son más grandes que las del

modelo original, por lo que son ineficientes.

Modelo original: 2

2 2

2

ˆvar( )ix

Modelo estimado:

2

2 2 2

2 2,3

ˆvar( )1ix r

Dado que 2

2,30 1r (siempre habrá alguna relación entre las variables),

entonces 2 2ˆˆvar var .

En resumen, la inclusión de una variable irrelevante tiene menores costos que

omitir una variable; esto no quiere decir que sea poco costoso, pues la varianza del

estimador es mayor.

3. Pruebas de errores de especificación

3.1 Examen de residuos

Pueden ser examinados, especialmente en información de corte transversal, para

detectar errores de especificación en los modelos, tales como la omisión de una

variable importante o la definición de una forma funcional incorrecta. Si en

realidad tales errores existen, una gráfica de los residuos permitirá apreciar

patrones distinguibles.

3.2 El estadístico Durbin-Watson

Si tenemos un d estimado muy bajo, sugiere que hay correlación positiva en los

residuos estimados.

La correlación positiva observada en los residuos refleja simplemente el hecho de

que hay una o más variables pertenecientes al modelo que están incluidas en el

término de error y necesitan ser desechadas de éste y ser incluidas como variables

explicativas.


Para aplicar este método de probar mala especificación se procede de la siguiente

manera:

1. Obtener los residuales MICO.

2. Si se cree que el modelo supuesto está mal especificado porque excluye una

variable explicativa relevante, por ejemplo Z, ordenar los residuales

obtenidos en el paso 1 de acuerdo con los valores crecientes de Z.

3. Calcular el estadístico d con los residuos así ordenados mediante la fórmula

conocida5.

4. Con base a las tablas de D-W, si el valor d estimado es significativo,

entonces se puede aceptar la hipótesis de la mala especificación.

3.3 Prueba RESET de Ramsey

Ramsey ha propuesto una prueba general de errores de especificación conocida

como RESET (Regression Specification Error Test ó prueba de error de

especificación en la regresión).

Si suponemos por ejemplo una función de costos es lineal a la producción de la

siguiente forma:

1 2i i iY X u (5)

Ahora los pasos considerados en RESET:

1. A partir del modelo seleccionado, se obtiene Y y R2 (ecuación restringida)

2. Se vuelve a estimar la regresión introduciendo como variables explicativas,

formas funcionales de Y como uno o varios regresores adicionales, como

por ejemplo:

2 3

1 2 3 4ˆ ˆ

i i i i iY X Y Y u (6)

Obtenemos el R2 de la regresión auxiliar (ecuación no restringida)

3. Entonces, bajo la hipótesis nula de que el modelo está bien especificado, se

puede utilizar la siguiente prueba F:

5

2

12

2

1

ˆ ˆ

ˆ

n

t tt

n

tt

u ud

u


2 2

,21

( )

NR R

R n k

NR

R R

RF FR

n k

4. Con esto comprobamos si el incremento en el R2 al utilizar (6) es

significativo. Si el F calculado es significativo, se rechaza la hipótesis nula,

vale decir que el modelo está especificado incorrecto.

La ventaja de esta prueba es que es fácil de aplicar, sin embargo al no especificarse

un modelo alterno también es una desventaja pues no nos proporciona ayuda en la

selección de una alternativa.

3.4 Prueba del Multiplicador de Lagrange (ML) para agregar variables

Supongamos una función cúbica de costos

2 3

1 2 3 4i i i i iY X X X (7)

Si se compara la función lineal de costos (5) con una función cúbica de costos (7),

la primera es una versión restringida de la última. La regresión restringida supone

que los coeficientes de los términos de producción elevados al cuadrado y al cubo

son iguales a cero 3 4 0 . Para probar esto, la prueba ML se realiza de la

siguiente manera:

1. Estimar la regresión restringida (5) mediante MICO y obtener los residuos.

2. Si la regresión no restringida (7) resulta ser la verdadera regresión, los

residuos obtenidos al correr la ecuación restringida (5) deben estar

relacionados con los términos de la producción elevada al cuadrado y al

cubo.

3. Esto sugiere que se efectúe la regresión de los ˆiu obtenidos en el paso 1

sobre todos los regresores (incluyendo los de la regresión restringida) lo que

significa:

2 3

1 2 3 4ˆ

i i i i iu X X X v

4. Para un tamaño de muestra grande, Engle ha demostrado que 2 2asi

RnR ,

donde R es el número de restricciones.


5. Si el valor ji cuadrado obtenido excede al valor ji cuadrado crítico se rechaza

la regresión restringida. De lo contrario no se rechaza.

3.5 Detección de la presencia de variables innecesarias

Si tenemos el siguiente modelo:

1 2 2 3 3i i i k ki iY X X X u

Puede ser que no tengamos seguridad de que la variable Xk pertenezca a este

modelo. Asimismo, si no tenemos seguridad que X3 y X4 pertenezcan al modelo.

En este caso podemos averiguar de forma sencilla de probando la significancia de

βk mediante un test t y un test F para probar si β3=β4=0.

4. Errores de medición

4.1 En la variable Y

Si consideramos el siguiente modelo:

i i iY X u (8)

donde iY = gasto de consumo permanente (no observado)

Xi = ingreso anual

ui = término de perturbación estocástica

Puesto que iY no pueda medirse directamente, puede utilizarse una variable de

gasto observable Yi, tal que:

i i tY Y (9)

donde t denota los errores de medición en iY . Por consiguiente, en lugar de

estimar (8) se estima:

( )

( )

i i i i

i i i i

i i i

i i

Y X u

Y X u

X u

X v

(10)

donde vi es un término de error compuesto que contiene el término de error

poblacional y el término de error de medición.


Bajo los supuestos 0i iE u E , cov , 0i iX u , cov , 0i iX , los errores

de medición en la variable Y no deshacen la propiedad de insesgamiento de los

estimadores MICO.

Sin embargo, las varianzas y los errores estándar del β estimado de (8) y (10) serán

diferentes:

Modelo (8) 2

2ˆvar( ) u

ix

Modelo (10) 2 2 2

2 2ˆvar( ) v u

i ix x

La última varianza es más grande que la primera. Por consiguiente aunque los

errores de medición en la variable dependiente aún producen estimaciones

insesgadas de los parámetros y de sus varianzas, las varianzas estimadas son ahora

ineficientes (más grandes) que en el caso en el cual no existen errores de medición.

4.2 En la variable X

Suponiendo que se tiene:

i i iY X u (11)

donde iY = gasto de consumo

*

iX = ingreso permanente (no observado)

ui = término de perturbación estocástica

La variable que observamos es el ingreso corriente, i i iX X w , donde iw

representa el error de medición en iX . Entonces en lugar de estimar (11) se

estima:

( )

( )

i i i i

i i i

i i

Y X w u

X u w

X z

(12)

donde iz es una combinación del termino de perturbación y del error de medición.

Si suponemos que E( iz )= 0 :


2

2

cov( , )i i i i i i

i i i i i i i i

i i i i i i

w

z X E z E z X E X

E u w E u w X w E X w

E u w w E u w w

Ahora la variable explicativa y el término de error de (12) están correlacionados, lo

cual viola el supuesto del modelo clásico de regresión lineal de que la variable

explicativa no está correlacionada con el término de error estocástico. Si este

supuesto se viola, los estimadores MICO no solamente están sesgados, sino que

son también inconsistentes, es decir permanecen sesgados aun si el tamaño de la

muestra, n, aumenta indefinidamente.

Por consiguiente, los errores de medición constituyen un grave problema cuando

están presentes en las variables explicativas, porque su presencia hace imposible la

estimación consistente de los parámetros.

Solución

Se puede suponer que 2

w es pequeña comparada con 2

x , en otras palabras, para

los fines prácticos se puede suponer que no existe el problema y proceder con la

estimación MICO usual. El problema con esto es que no es posible observar o

medir 2

w y 2

x fácilmente, por lo tanto no hay forma de juzgar sus magnitudes

relativas.

Otro medio sugerido es el conocido como variables instrumentales (VI) o

aproximadas, utilizando variables que estén altamente correlacionadas con las

variables X originales, pero no estén correlacionadas con los errores ecuacionales y

de medición. Si es posible encontrar tales variables, entonces se puede obtener una

estimación consistente de β. Pero es mucho más fácil hablar de esto que hacerlo.

No es fácil encontrar buenas variables aproximadas.

5. Criterios para la selección de modelos

5.1 El criterio R2

Es una de las medidas de bondad de ajuste y se define como:


2 1

SCE SCT SCE SCRR

SCT SCT SCT

Desventajas

Mide la bondad de ajuste dentro de la muestra, pero no garantiza un buen

pronóstico fuera de la muestra

Para comparar, la variable dependiente debe ser la misma

No disminuye cuando se agregan variables al modelo

5.2 R2 ajustado

Debido a este último inconveniente Henry Theil desarrollo la R2 ajustada:

2 21 11

n kR R

n

Aunque continúa siendo necesario que la variable regresada sea la misma para

poder hacer comparaciones.

5.3 Criterio de información de Akaike (AIC)

La idea también es imponer penalización por añadir regresoras al modelo:

2k SRC

AICn n

donde k es el número de regresoras y n el número de observaciones. Al comparar

entre modelos, se preferirá el que tenga menor AIC.

5.4 Criterio de información de Schwarz (SIC)

El criterio de Schwarz impone una penalización mayor a la de AIC, y equivale a:

ln lnk SRC

SIC nn n

Al igual que con el criterio de Akaike, se preferirá el modelo que tenga un menor

valor de SIC.

Es preciso destacar, que ninguno de los criterios es superior a los demás.


6. Estabilidad del modelo

6.1 Mínimos cuadrados recursivos

Anteriormente hemos vistos la prueba de Chow para la estabilidad estructural del

modelo. El problema de esta prueba es cuando no conocemos el punto de inflexión

del cambio estructural.

La estimación recursiva consiste en estimar repetidamente el modelo especificado

para distintos tamaños muestrales. Si el modelo tiene k parámetros, se utiliza una

muestra de las primeras k observaciones para estimar los parámetros, luego se

agrega la siguiente observación y se estiman los parámetros, repitiendo este

proceso hasta llegar a la última observación (T). En cada estimación obtenemos un

vector de estimadores que nos permite a su vez calcular la predicción de la variable

endógena para el periodo siguiente y el error de predicción correspondiente. De

este modo, con las sucesivas estimaciones, generamos las series de los llamados

coeficientes recursivos y residuos recursivos. La idea es que si no hay cambio

estructural las estimaciones de los parámetros se mantendrán constantes al ir

aumentando la muestra secuencialmente y los residuos no se desviarán

ampliamente de cero.

Residuos recursivos

Los residuos recursivos son los errores de predicción un periodo hacia delante

calculados en cada etapa de la estimación recursiva. Por ejemplo, si utilizamos t-1

observaciones, el vector de estimadores se denomina:

1 1 1 1 1ˆ

t t t t t -1

β X 'X X 'Y (13)

Donde 1tX denota la matriz de orden t-1 por k de regresores del período 1 al

período t-1; 1tY el vector correspondiente a las observaciones de la variable

dependiente del periodo 1 al t-1; 1ˆ

tβ es el vector de los coeficientes estimados con

las observaciones 1 hasta t-1.

Con estos coeficientes podemos pronosticar el valor de la variable dependiente en

el período t. El pronóstico es 1ˆ

t tx β , donde t

x es el vector fila de observaciones

sobre los regresores en el período t. Entonces, el error de predicción un periodo

hacia delante equivale a:


1

1, 1 2, 1 2, , 1 ,

ˆ

ˆ ˆ ˆ...

t t t t

t t t t k t k t

f Y

Y X X

x β (14)

La varianza del error de predicción equivale a:

12 2

1 11tf t t t t

x X 'X x (15)

Se define el residuo recursivo para la observación t como:

1

12

1 1 1

ˆ-

1t

t t t tt

ft t t t

f Yw

x β

x X 'X x

(16)

Conceptualmente los residuos recursivos se interpretan como el cociente del error

de pronóstico y su error estándar.

Se pueden calcular los residuos recursivos desde la observación t=k+1 hasta T, los

cuales bajo el supuesto de normalidad de ui y estabilidad estructural se distribuyen

como una normal con media cero y varianza constante 20,tw N .

Si comparamos (gráficamente por ejemplo) los residuos recursivos junto con sus

bandas de confianza ( 2 veces la desviación estándar), podemos detectar

inestabilidad en los parámetros cuando uno o varios residuos exceden los límites

de confianza.

Estadístico CUSUM

La prueba CUSUM está basada en la suma acumulada de los residuos recursivos.

En esta prueba existe inestabilidad si la suma acumulada está fuera del intervalo

crítico.

El estadístico CUSUM es:

1 ; t=k+1,....T

T

i

i kt

w

Ws

(17)


Donde “s” es el error estándar de la regresión estimada con todas las observaciones

disponibles.

Si el vector β permanece constante en el tiempo, 0tE W ; sin embargo, si β

cambia, tW tenderá a divergir de cero. El análisis se realiza comparando los

residuos tW frente al tiempo con sus bandas de confianza que, para el nivel de

confianza de 95% se obtiene de las rectas que unen los puntos:

1

2, 0.945k t k

y 1

2, 3 0.948( )T T k

La hipótesis nula de estabilidad estructural se rechaza si el valor del estadístico tW

sale fuera de las bandas, es decir, si es estadísticamente distinto de cero.

Estadístico CUSUM de los cuadrados (CUSUMQ)

Esta prueba está basada en el estadístico:

2

1

2

1

t=k+1,.....T

t

i

i kt T

i

i k

w

S

w

(18)

Bajo la hipótesis nula de estabilidad de los parámetros, el estadístico tS tiene

esperanza igual a:

tt k

E ST k

La cual varía entre cero cuando t=k, y la unidad cuando t=T. El contraste se

realiza al igual que en el caso de CUSUM, comparando los residuos tS , con sus

bandas de confianza, por lo que los movimientos de tS fuera de las líneas críticas

sugieren inestabilidad en los parámetros.

Coeficientes recursivos

Si se comparamos los valores estimados de los parámetros cada vez que agregamos

una observación, con un intervalo de confianza (±2 su desviación estándar), se


observará como cambian a medida que se agregan observaciones. Si el modelo es

estable las variaciones de los valores estimados serán mínimas y aleatorias; en

cambio si los valores cambian en forma significativa indicaría un cambio

estructural.

6.2 Prueba de predicción de Chow

Esta es una versión de la prueba de Chow para comprobar el poder predictivo de

un modelo de regresión. Esta prueba es especialmente útil cuando el número de

observaciones luego del quiebre es menor que k.

Supongamos que tenemos el modelo:

1 2t t tC Y u

donde C = consumo y Y = ingreso para el período 1970-2005 (n = 36). Si

dividimos la muestra en dos periodos (I y II) donde:

Periodo I: 1970-2002 (n = 32)

Periodo II: 2003-2005 (n = 2)

Estimando los parámetros con las observaciones del primer grupo 1ˆ I y 2

ˆ I ,

podemos utilizarlos para predecir los valores del consumo ( C ) correspondientes al

resto de la muestra (2003-2005). Si no hay un cambio estructural en los valores de

los parámetros, los valores del consumo estimado (C ) para el periodo 2003-2005

en base a los estimadores 1ˆ I y 2

ˆ I , no deberían de ser distintos de los valores

observados (C) para dicho periodo.

Para estos fines, bajo la hipótesis nula de estabilidad de los parámetros ( I II ,

podemos utilizar el estadístico F:

2 1

2,

1

R NR

n n kNR

SRC SRCn

F FSRC

n k

donde n1 = número de observaciones del periodo I

n2 = número de observaciones del periodo II

SRCR = es la SRC de la ecuación estimada para todo el periodo (n1+ n2)

SRCNR = es la SRC de la ecuación estimada para el periodo I (n1)

En resumen:


1. Estimamos la regresión para el periodo completo (regresión restringida)

calculamos la SRC.

2. Estimamos la regresión para el primer periodo y calculamos SRC.

3. Calculamos el estadístico F y si este es mayor que el F de tabla, rechazamos la

hipótesis nula de estabilidad de los parámetros.

7. Principios generales para la especificación6

Aunque la controversia entre distintas escuelas sobre la metodología econométrica

podría no resolverse nunca, según Kennedy el debate ha sido fructífero y algunos

principios generales han emergido para la especificación de modelos:

1. La teoría económica debe ser el fundamento y la guía para encontrar la

especificación. Sin embargo, usar los datos para ayudar a mejorar una teoría

económica puede ser de utilidad, siempre y cuando el investigador no utilice los

mismos datos para probar la teoría.

2. Los residuos deben ser ruido blanco, en caso contrario debe evaluarse como

reflejo de una mala especificación.

3. A pesar de que testing down7, conlleva menos sesgo que testing up

8, empezar

con un modelo completamente general no es posible. En consecuencia, en la

práctica es necesario utilizar una mezcla de testing up y testing down. Sobre la

base del aprendizaje de este proceso, un modelo más complicado puede ser

propuesto y luego repetir el proceso.

4. Las pruebas de especificación tienen un mejor desempeño probando

simultáneamente varias especificaciones erróneas en vez de probar una por una.

Con esto se elimina el problema de que una especificación errónea afecte

adversamente las pruebas de otras especificaciones.

5. Los modelos deben ser expuestos a una batería de pruebas de especificación9

antes de ser aceptados. Es importante poder contar con un subconjunto de la

muestra, para poder hacer pruebas prediciendo fuera de muestra.

6. El modelo deber abarcar modelos rivales, en el sentido que puede predecir los

resultados que obtendría el modelo rival.

7. Debe reportarse los rangos de resultados correspondiente a diferentes

especificaciones razonables (análisis de sensibilidad) en vez de proveer sólo los

resultados de la especificación adoptada, y los pasos tomados para la selección

de esa especificación.

6 Tomado de Peter Kennedy, “A Guide to Econometrics”, Fifth Edition (2003), MIT Press. Pags. 85-86.

7 Iniciar la estimación de una forma general hasta llegar a una particular reduciendo el número de variables.

8 Iniciar la estimación de una forma particular hasta llegar a una general aumentando el número de variables

9 Esta batería abarca pruebas de variables omitidas (restricciones F y t), cambio estructural, autocorrelación,

heterocedasticidad, especificación (RESET), residuos recursivos, etc.

Download - Apuntes de Econometría I

Top Related