tema 5: regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o...

38
Tema 5: Regresión con datos de sección cruzada Universidad Complutense de Madrid 2013 1

Upload: others

Post on 08-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Tema 5: Regresión con datos de sección

cruzada

Universidad Complutense de Madrid2013

1

Page 2: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Introducción (I)En este tema se trata el incumplimiento de dos hipótesisdel MLG, aparentemente no relacionadas, que son: lavarianza no constante del error (heteroscedasticidad) yla no normalidad del error. Un tercer problemarelacionado con los dos anteriores, es la presencia dedatos “atípicos” en la muestra.Estos problemas están relacionados por diversosmotivos:

(1) Existen distribuciones no normales que producenheteroscedasticidad (por ejemplo, las variables log-normales que no son normales en nivel, pero sí en log)

(2) Cuando contrastamos normalidad con datosheteroscedásticos, frecuentemente se rechaza la nula

2

Page 3: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Introducción (II)(3) Muchas veces, la presencia de datos atípicos (outliers)

provoca la presencia de heteroscedasticidad y/o nonormalidad. La solución aquí es la detección y eltratamiento adecuado de los atípicos.

El esquema a seguir en estos temas es el siguiente:(a) ¿Cúando surgen típicamente estos problemas?(b) ¿Cúales son sus consecuencias sobre el estimador

MCO y sus propiedades estadísticas?(c) ¿Qué procedimientos gráficos y/o estadísticos existen

para la detección?(d) ¿Cómo se resuelven?

3

Page 4: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

No normalidad (I)Cuando usamos datos económicos, la no normalidadsurge al modelizar variables que toman valores positivos(que toman valores muy cerca y muy lejos del cero) Porejemplo, variables como salarios, precios, tamaños deempresas, etc. Si los datos de la variable a explicar noson normales, es muy difícil que el error se distribuyacomo una normal. Las propiedades de linealidad,insesgadez y eficiencia (en el sentido del Teorema deGauss-Markov) se mantienen, pero …

Los contrastes de hipótesis habituales, los intervalos deconfianza o la predicción por intervalo de la variableendógena dejan de ser válidos. Esta es la consecuenciamás importante de que los datos no sean normales.

4

Page 5: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

No normalidad (II)

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0 10 20 30 40 50 60 70

Den

sida

d

wage

wageN(6.3067,4.6606)

Estadístico para el contraste de normalidad:Chi-cuadrado(2) = 1760.382, valor p = 0.00000

Ejemplo: En la figura de la izquierda semuestra el histograma de la sección cru-zada de salarios (wage) en dólares porhora de 1260 trabajadores americanos.

La línea de puntos muestra la función dedistribución de una variable estrictamenteNormal con la misma media y varianzaque la variable de salarios.

Se observa que la distribución de salariospresenta asimetría a la derecha, ya quehan de ser siempre positivos y tiene másapuntamiento que la normal (es decir,tiene exceso de curtosis). Los residuos deuna regresión que explique esta variable,frecuentemente no seguirán una normal.

Muchas variables de “tamaño” presentan este tipo de histograma

5

Page 6: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

No normalidad (III)

‐15

‐10

‐5

0

5

10

15

29‐12‐89

09‐01‐92

12‐01‐94

19‐01‐96

26‐01‐98

27‐01‐00

28‐01‐02

29‐01‐04

18‐01‐06

Rend

imien

to % IB

EX35

Día

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

-10 -5 0 5 10

Den

sida

d

IBEX_35

IBEX_35N(0.04447,1.3105)

Estadístico para el contraste de normalidad:Chi-cuadrado(2) = 2112.697, valor p = 0.00000

A veces, la heteroscedasticidad es unacaracterística estructural de los datos. Porejemplo, el rendimiento de los activosfinancieros cuando los observamos con altafrecuencia (datos diarios, intradiarios)

En la primera figura de la derecha semuestra la evolución diaria del rendimientoporcentual del IBEX-35 y en la figura deabajo se dibuja su distribución de frecuenciasfrente a la normal.

Lo relevante es observar el alto exceso decurtosis de los datos financieros, debidofundamentalmente a la alternancia entreperíodos de alta volatilidad y baja volatilidad(ver los dos círculos del gráfico de arriba).Esto hace que no podamos hablar dehomoscedasticidad.

6

Page 7: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

No normalidad (IV)

0

0.005

0.01

0.015

0.02

0.025

0.03

0.035

150 200 250 300 350

Den

sida

d

GESTATION

GESTATIONN(279.1,16.01)

Estadístico para el contraste de normalidad:Chi-cuadrado(2) = 454.599, valor p = 0.00000

1.5

2

2.5

3

3.5

4

4.5

5

150 200 250 300 350BW

T

GESTATION

BWT con respecto a GESTATION (con ajuste mínimo-cuadrático)

Y = -0.305 + 0.0132X

La presencia de outliers en la muestra crea laapariencia de heteroscedasticidad y/o nonormalidad.

Por otro lado, los outliers son un problema en símismos, ya que unos pocos datos atípicospueden cambiar significativamente lasestimaciones y en este sentido, hablamos deobservaciones influyentes.

Los dos gráficos de la derecha muestran ladistribución de los datos de Días de Gestación(Gretl – Wooldrige) y su relación con el Peso delniño recién nacido. Se observan unos valores deDías de Gestación sospechosamente muypequeños (lo que hace que la distribución tengaasimetría a la izquierda). A su vez, esos pocosdatos atípicos en Gestación pueden tener unpeso importante en la estimación por MCO. Silos eliminamos cambia la pendiente de la recta. 7

Page 8: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

No normalidad (V)El contraste más conocido y utilizado de normalidad es el quedesarrollaron Jarque-Bera (JB), en donde, bajo la hipótesis nulatenemos normalidad [en concreto, que el coeficiente de asimetría(CA) es cero y la curtosis (CK) es 3]. Estos momentos de 3º y 4ºorden son:

que son combinados en el estadístico de contraste siguiente:

Si el valor del JB para la muestra supera el valor crítico de ladistribución chi-cuadrado con dos grados de libertad (al nivel designificación escogido) se rechaza la nula de normalidad.

ˆˆˆ

ni x

i x

XCAn

ms=

æ ö- ÷ç ÷= ç ÷ç ÷çè øå

3

1

1 ˆˆˆ

ni x

i x

XCKn

ms=

æ ö- ÷ç ÷= ç ÷ç ÷çè øå

4

1

1

ˆ ˆ( )

H

CA CKJB n cæ ö- ÷ç ÷= +ç ÷ç ÷÷çè ø

2 222

0

36 24

8

Page 9: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

No normalidad (VI)• La mejor forma de tratar la no normalidad de los datos,

depende de la causa del mismo. Así,

• (1) Si la variable sólo toma valores positivos, latransformación logarítmica puede inducir normalidad

• (2) Si el problema es la heteroscedasticidad, eltratamiento de la misma es más complicado y se verá enlas siguientes secciones del tema actual.

• (3) Si el problema es la presencia de outliers, la soluciónes detectarlos y, en ocasiones, eliminarlos de lamuestra. 9

Page 10: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (I)

• Si los datos son temporales, las formas más comunes de heteroscedasticidad son:

100

200

300

400

500

600

700

1950 1952 1954 1956 1958 1960

Airlin

e

‐15

‐10

‐5

0

5

10

15

29‐12

‐89

09‐01

‐92

12‐01

‐94

19‐01

‐96

26‐01

‐98

27‐01

‐00

28‐01

‐02

29‐01

‐04

18‐01

‐06

Rend

imien

to % IB

EX35

Día

Ejemplo: Nº de pasajeros que vuelames a mes en una compañía aérea.

Se observa que la varianza crece amedida que crece la media de laserie.

Ejemplo: Rendimiento (en %)diario del IBEX-35

Se observan días de altavarianza seguidos de otros depoca volatilidad 10

Page 11: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (II)Con datos de sección cruzada, laheteroscedasticidad surge muchasveces al tratar con “unidades” dediferente tamaño. Estas unidadespueden ser familias, empresas, países,etc.

Los dos gráficos de la derechamuestran algunos resultados de laestimación de la relación del GastoPúblico sanitario y el PIB (GDP) de unconjunto de países de la OCDE. Esimportante notar la existencia de paísesgrandes y pequeños en esta muestra.

El gráfico (X-Y) de los residuos MCOresultantes de la regresión versus elPIB muestra cómo la dispersión de losmismos crece con el PIB (GDP).

0

100

200

300

400

500

600

0 2000 4000 6000 8000 10000

Gasto Pú

blico

 Sanitario

GDP (MMill USD)

-10

-5

0

5

10

15

20

25

30

35

40

0 1000 2000 3000 4000 5000 6000 7000 8000

resi

duo

GDP

Residuos de la regresión (= GSAN_PUB observada - estimada)

11

Page 12: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (III)Si el error del MLG no tiene varianza constante, elestimador MCO de los parámetros es lineal einsesgado, pero no eficiente. Bajo las hipótesisdeseables, escribimos:

y bajo heterocedasticidad

O en términos matriciales

que sigue siendo una matriz diagonal si no hayautocorrelación en los errores, sólo heteroscedasticidad.

Y X 2 2[ ] , 1,2,...iE i n 2 2[ ] , 1, 2,...,i iE i n

21

22

2

0 0[ ] 0 0

0 0

T

n

E

12

b

Page 13: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (IV)El estimador MCO del MLG tiene la expresión:

O bien, y por tanto, esinsesgado bajo heteroscedasticidad. Es decir, laesperanza del estimador no depende de la matriz devarianzas del error, sólo de la esperanza del error que escero por hipótesis. No obstante, la varianza delestimador ahora es:

que no coincide con

1ˆ ( )T TX X X Y 1ˆ ( )T TX X X

1 1ˆvar[ ] ( ) ( )T T TX X X X X X 2 1ˆvar[ ] ( )TX X 13

Page 14: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (V)Implicaciones en la estimación: Si existe heteroscedasticidad,

y por tanto,

En MCO minimizamos

pero si las varianzas de los datos difieren entre sí, sería mejorasignar un peso más pequeño a las observaciones con mayorvarianza y un peso más grande a las que tienen menor varianza. Sepuede usar un criterio de estimación de Mínimos CuadradosPonderados de la forma que el objetivo es minimizar la suma decuadrados de residuos ponderados:

donde las ponderaciones decrecen a medida que crece lavarianza del error. Habrá que ver la forma óptima de escoger esospesos.

2 2[ ] , 1,2,...,i iE i n 2var[ ]i iy

2

1

ˆ[ ]n

Ti i

iy x

2 2

1

ˆ[ ]n

Ti i i

iw y x

iw

14

Page 15: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (VI)Posibles modelos de heteroscedasticidad: Unaposibilidad es que la varianza del error estédirectamente relacionada (lineal o no linealmente) conuna variable explicativa del modelo. Por ejemplo:

donde suele ser una variable de tamaño. En estecaso, es muy fácil saber cómo ponderar el modelo yaplicar MCO al modelo ponderado será eficiente. Si elmodelo original es:

El modelo ponderado se construye dividiéndolo portérmino a término.

2 2 21var[ ] [ ] , 1, 2,...,i i iE x i n

0 1 1 2 2i i i iy x x

1ix

15

1ix

Page 16: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (VII)Es decir:

donde el nuevo error tiene esperanza nula

y varianza constante

Aplicar MCO en el modelo ponderado (transformado) eseficiente. Sólo hay que transformar adecuadamente losdatos de la variable endógena y los de las exógenas yvolver a aplicar MCO al nuevo modelo para recuperar laeficiencia.

Obsérvese que el término constante del modelo ponderadono coincide con el del modelo original.

0 21 2

1 1 1 1

i i i

i i i i

y xx x x x

1

ii

i

vx

2 221

2 21 1

var[ ]var[ ] i ii

i i

xvx x

16

Page 17: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (VIII)Desviaciones típicas de White Si la forma funcional de laheterocedasticidad no es conocida, o tan simple como en el ejemploanterior, sabemos que los contrastes habría que llevarlos a cabousando una estimación de la matriz de varianzas-covarianzassiguiente:

Si suponemos que no hay autocorrelación en los errores, aunque sí hay heterocedasticidad, la matriz es diagonal con elementos en la diagonal principal. Entonces, la matriz de varianzas-covarianzas anterior se puede escribir:

donde es el vector (kx1) de valores de las explicativas en la observación i-ésima.

1 1ˆvar[ ] ( ) ( )T T TX X X X X X

W , , . . . , ns s s2 2 21 2

1 2 1

1

ˆvar[ ] ( ) ( )n

T T Ti i i

i

X X x x X X

ix 17

Page 18: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (IX)Un estimador del parámetro es el cuadrado de los residuosMCO obtenidos como . Por tanto, una estimación deesa matriz de varianzas de los estimadores MCO de es:

denominada estimación de la matriz de varianzas-covarianzas deWhite. La raíz cuadrada de los elementos de su diagonal principalse denominan desviaciones típicas (o errores estándar) de White.La matriz de varianzas -covarianzas de White es un estimadorconsistente de la siguiente matriz:

is2

ˆˆ Ti i iy xe b= -

b

1 2 1

1

ˆˆ ˆvar[ ] ( ) ( )n

T T Ti i i

i

X X x x X X

1 2 1

1

ˆvar[ ] ( ) ( )n

T T Ti i i

i

X X x x X X

18

Page 19: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heterocedasticidad (X)Detección: Disponemos de procedimientos gráficos yestadísticos de detección de heteroscedasticidad.

(A)Gráficos: Si los datos son de sección cruzada, sepueden dibujar los residuos MCO resultantes delmodelo original versus alguna(s) variable(s)explicativa(s) (las candidatas a causar el problema)ordenadas de menor valor a mayor valor. Por ejemplo,con respecto al tamaño de los países, tamaño de lasempresas, población o nivel de renta de las familias.

En estos gráficos, lo habitual es ver mayor dispersiónen los residuos a medida que crece el tamaño de laentidad o la renta familiar, etc. 19

Page 20: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (XI)(B) Gráficos: Si los datos son temporales, un gráfico muyusado es el denominado Rango-Media. En la figura deabajo se muestra el gráfico Rango-Media para la seriemensual de pasajeros de una compañía aérea.

Se divide la muestra en submues-tras de idéntico tamaño, por ejem-plo, de 12 meses.Se calcula paracada una de las submuestras lamedia y la desviación típica local.Se observa una asociación positiva(a mayor media, mayor dispersión)

40

60

80

100

120

140

160

180

200

220

240

100 150 200 250 300 350 400 450 500

rang

o

media

gráfico rango-media de Airline con ajuste mínimo-cuadrático

20

Page 21: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (XII)

(B) Estadísticos: existen muchos, veremos sólo dos(B.1) Contraste de Breusch-Pagan Está basado en quela forma de la heteroscedasticidad es del tipo

donde las variables son las queexplican las diferencias que hay en las varianzas de loserrores y h es cualquier función (en principio, lineal). Lahipótesis nula de ausencia de heteroscedasticidad secorresponde con las (p-1) restricciones siguientes:

2 Ti ih z

21, , ...,Ti i ipz z z

2 3 ... 0p 21

Page 22: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (XIII)Pasos del contraste:Paso 1: Se aplica MCO al modelo original ignorando que existen problemas con el fin de recuperar los residuos

Paso 2: Se lleva a cabo una regresión auxiliar en donde se relacionan los residuos MCO al cuadrado en función de las variables z. Es decir, se usa como estimador de la varianza de los errores los residuos MCO al cuadrado:

Paso 3: Se calcula de la regresión del Paso 2. Este estadístico sigue una bajo la nula (es asintótico).

Y X

ˆˆ Y X

21 2 2ˆ ....i i p ip iz z

12p

2nR22

Page 23: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (XIV)(B.2) Contraste de White. Un problema del test deBreusch-Pagan, es que deben conocerse las variables zque hacen que cambie la varianza del error. En el caso deque estas variables sean desconocidas, White proponesustituirlas por: (1) todas las variables explicativas delmodelo, (2) sus cuadrados y (3) sus productos cruzados desegundo orden.Ejemplo: Sea el modeloPaso 1: Se estima el modelo anterior por MCO y serecuperan los residuos,Paso 2: Se lleva a cabo la regresión auxiliar siguiente:

0 1 1 2 2i i i iy x x

0 1 1 2 2ˆ ˆ ˆ

i i i iy x x

2 2 20 1 1 2 2 3 1 4 2 5 1 2i i i i i i i ix x x x x x

23

Page 24: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Heteroscedasticidad (XV)Paso 3: Se calcula de la regresión auxiliar anterior,donde, en este caso:

Este test también es asintótico, es decir, su distribución escierta si el tamaño de la muestra es suficientemente grande.Los grados de libertad son 5 en este caso, ya que en laregresión auxiliar hay 5 pendientes.Intuición del contraste: Si el R-cuadrado de esa regresiónauxiliar tiende a cero, las variables x’s y sus cuadrados, noexplican apenas el cuadrado de los residuos, indicando queno existe heteroscedasticidad. Si el R-cuadrado tiende a 1,como n es muy grande, el valor del estadístico es grande yse rechaza la nula. Es decir, las x’s y sus cuadrados (y/oproductos cruzados), explican bien el cuadrado de losresiduos.

2nR2 2

5nR

24

Page 25: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Datos atípicos e influyentes (I)

-15

-10

-5

0

5

10

15

20

25

30

-5 0 5 10

Influ

ence

1

x

Influence1 versus x (with least squares fit)

Y = 2.14 + 1.54X A

B

C

Una observación “j” se dice que es atípica si elvalor de la variable dependiente difiere muchodel que esperaríamos tener viendo el patróngeneral que siguen las demás.

Hay tres tipos de observaciones atípicas:

(1) Relaciones atípicas en el eje de ordenadas(puntos A y B de la Figura de la derecha)

(2) Relaciones atípicas en el eje de abcisas(3) Relaciones atípicas en el eje de ordenadas y

de abcisas (punto C de la Figura)

Pueden surgir varios problemas al existir datosatípicos:

(a) La posible apariencia de no normalidad y/oheteroscedasticidad.

(b) Se distorsionan los resultados MCO, al ser elpeso de estos datos excesivo en la estimación.

Usando datos simulados, sedibuja en el plano X-Y la nube depuntos junto con los resultados dela estimación MCO de un modelolineal simple.

25

jy

Page 26: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Datos atípicos e influyentes (II)

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

-30 -20 -10 0 10 20

Dens

ity

uhat2

uhat2N(2.1916e-015,5.9883)

Test statistic for normality:Chi-square(2) = 65.635 [0.0000]

Como se muestra en la información de arriba, la estimación por MCO delmodelo que relaciona Influence1 sobre x, genera dos residuos muy altos(uno de signo positivo y otro de signo negativo). Esto genera un exceso decurtosis en la distribución de los residuos.

Obsérvese cómo el contraste de normalidad a través del estadístico deJarque-Bera rechaza contundentemente la nula de normalidad.

26

Page 27: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Datos atípicos e influyentes (III)

-10

-5

0

5

10

15

-4 -2 0 2 4 6

Bas

eDat

a

x

BaseData versus x (with least squares fit)

Y = 2.19 + 1.59X

-15

-10

-5

0

5

10

15

-4 -2 0 2 4 6

Influen

ce4

x

Influence4 versus x (with least squares fit)

Y = 1.47 + 1.19X

En el primer gráfico se muestra la recta deregresión estimada al usar la variableInfluence1, eliminando los puntos A, B y C de lamuestra. Cabe señalar que:(1) No se rechaza la hipótesis nula de

normalidad de los residuos (JB = 1.35, p-valor = 0.51)

(2) Los coeficientes estimados son muysimilares a los obtenidos cuando seincluyen los puntos A, B y C. Por tanto, sondatos atípicos pero no influyentes.

En el segundo gráfico se muestra la recta deregresión estimada usando la variableInfluence1, eliminando sólo los puntos A y C.Cabe señalar que:(1) Se rechaza claramente la normalidad de los

residuos (JB = 65.64, p-valor = 0.0)(2) Los coeficientes estimados cambian mucho,

luego B es un dato influyente de la muestra,cuando se eliminan los puntos A y C.

27

B

Page 28: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Detección (I)Existen distintos métodos:(A) Dibujar el histograma y fijarse en los datos que se alejan

mucho de la media. No obstante, en una distribuciónnormal, un 5% de la muestra puede ser atípica (estar enlas colas).

(B) También se puede caracterizar un “dato influyente” en laregresión usando la denominada matriz H, definidacomo:

La parte explicada de la Y: y el elemento j-ésimo de la diagonal principal de H es:

donde es un vector (1xk) que se corresponde con la fila j-ésima de la matriz X de tamaño (nxk). 28

( )T TH X X X X-= 1

ˆ ˆ ( )T TY X X X X X Y HYb -= = =1

( )T Tj j jh x X X x-= 1

Tjx

Page 29: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Detección (II)Al valor se le denomina “influencia” o “apalancamiento” de la observación j y cumple algunas propiedades como: (1)

(2)

por lo que la influencia media es k/n. Un valor de porencima de k/n indica que ese dato es influyente.

Un valor de “grande” significa que los valores de lasvariables explicativas en el instante j son “inusuales”comparados con el valor medio de este valor h en toda lamuestra.

jh

jh£ £0 1

n

jj

h k=

=å1

jh

29

jh

Page 30: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Detección (III)(C)Para contrastar si una observación “j” es atípicapuede considerarse el siguiente modelo deregresión, donde se incluye una variable dummypara la propia observación:

siendo y . La hipótesis nula de que el dato j-ésimo se ajusta al patrón que generó el resto de los datos es

30

, , ,...,Ti i ji iy x D i nb g e= + + = 1 2

jjD =1 ,jiD i j= " ¹0

:H g =0 0

Page 31: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Detección (IV)La regresión anterior puede escribirse de formamatricial como:

donde es un vector (nx1) con elementos Por ejemplo,

El estimador MCO de en esa regresión tiene la expresión: donde y son los residuos MCO. 31

jY X Db g e= + +

jD , , ,...,jiD i n=12

. .

n

DD

D

D

é ù é ùê ú ê úê ú ê úê ú ê ú= =ê ú ê úê ú ê úê ú ê ú

ë ûë û

1 1

1 21

1

1

0

0

ˆ j

jhe

g =-1

ˆ ˆTj jDe e= e

Page 32: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Detección (V)El valor del estadístico t de significación individual del parámetro es:

donde , es decir, es la estimación MCOde la varianza residual del modelo. La observaciónj-ésima es un outlier si el parámetro essignificativo, es decir, si el residuo o el valores suficientemente grande. Ese ratio t es llamadoresiduo “estudentizado”,

32

g

ˆˆ

jn k

j

t th

e

s - -=-

11

ˆ SRn k

s =- -

2

1

gˆje jh

*ˆ jt e=

Page 33: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Detección (VI)Nótese que los outliers no siempre se puedendetectar a partir del gráfico de los residuos MCOEs decir, puede ser pequeño incluso si elresiduo estudentizado es grande. En la regresión

las estimaciones MCO de los parámetros , lavarianza residual y la suma de cuadrados deresiduos son las mismas que obtendríamos sieliminamos la observación j de la muestra. El R-cuadrado no coincide ya que la ST con toda lamuestra no es la misma que la ST sin ese dato. 33

eˆje

, , ,...,Ti i ji iy x D i nb g e= + + = 1 2

Page 34: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Detección (VII)Influencia sobre los parámetros estimados: La influenciade las observaciones individuales sobre las estimaciones delos se puede calcular de la siguiente manera. En elmodelo:

sea el estimador MCO de bajo la restricción de quey el vector de residuos resultantes es . Sean y

los estimadores MCO de y con la dummy incluida ylos residuos son denotados por .El estadístico decontraste es el siguiente:

y es conocido como el estadístico de Cook.

( ) ( )T

j k n k

j jD F

k es-

é ù é ù- -ê ú ê úë û ë û=2

,

ˆ ˆ ˆ ˆ

ˆ

b b b bTX X

34

b

jY X Db g e= + +

b bg = 0 e ˆ ( )jb

g bˆ( )je

g

Page 35: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Detección (VIII)Influencia sobre los valores ajustados “dffits”: La influencia de la observación j-ésima sobre losvalores ajustados de la Y viene dada por ladistancia: donde yEn el instante j-ésimo es fácil probar que ladistancia:

y como la varianza de es igual a unamedida sin escala de la diferencia en los valoresajustados se puede calcular como:

35

ˆ ˆ ( )Y Y j- ˆ ˆY Xb= ˆ ˆ( ) ( )Y j X jb=

ˆ ˆ ˆ( ) jj j j

j

hy y j

he- =

-1ˆ jy ˆ jhs2

*ˆ ˆ ( )ˆ

ˆj j j

j jjj

y y j hdffits

hhe

s

-= =

-1

Page 36: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Detección (IX)

0

0.2

0.4

0.6

0.8

1

5 10 15 20 25

leverage

-2-1.5

-1-0.5

0 0.5

1 1.5

2

5 10 15 20 25

influence

En la regresión de X sobre Influence1, Gretl muestra algunos resultados de “apalancamiento” e influencia. La observación 23 es detectada como atípica (leverage alto, h = 0.428). Las observaciones 24 y 25 son influyentes, donde influence es aunque no son atípicas (leverage bajo, h= 0.075).

36

ˆ ˆ ˆ( ) jj j j

j

hy y j

he- =

-1

Page 37: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Resumen (I)En MCO, las desviaciones de la relación que se postulaentre la variable dependiente y las variables explicativas,se penalizan de forma cuadrática. Esto implica que lasobservaciones que se desvían mucho del “patrón general”pueden tener una “influencia” excesiva en la estimación delos parámetros. Para investigar la existencia de datosinfluyentes y reducir su influencia, se pueden hacer variascosas:(1) Inspeccionar el histograma de los residuos MCO y

contrastar su normalidad con el estadístico de Jarque-Bera.

(2) Detectar estos datos calculando la “influencia”, como seha visto antes, en el método de detección (C)

37

Page 38: Tema 5: Regresión con datos de sección cruzada · provoca la presencia de heteroscedasticidad y/o no normalidad. La solución aquí es la detección y el tratamiento adecuado de

Resumen (II)

(3) Si hay datos que se alejan del patrón general, se debeintentar entender las causas. A veces, estos datos seeliminan, pero puede que sugieran que hay variablesexplicativas relevantes que se han omitido o que loserrores siguen otra distribución diferente a la normal.

(4) A veces, la existencia de datos atípicos y/o influyentessupone un aspecto relevante de los datos y la solución noes eliminarlos, sino limitar su peso o su influencia en laestimación del modelo usando métodos robustos.

38