tema vi: el modelo de regresiÓn lienal simple vi.1 ...€¦ · el modelo de regresión lineal...

32
El modelo de regresión lineal simple Tema VI 546 TEMA VI: EL MODELO DE REGRESIÓN LIENAL SIMPLE VI.1.- Introducción. VI.2.- El modelo de regresión lineal simple. Propiedades. VI.3.- Obtención de los estimadores por mínimos Cuadrados Ordinarios. VI.3.1.- Planteamiento general. VI.3.2.- El estimador mínimo cuadrático ordinario del modelo de regresión lineal simple. VI.3.3.- Propiedades de los errores mínimo cuadráticos ordinarios. VI.3.4.- Propiedades de los estimadores mínimo cuadrático ordinarios. VI.4.- Estudio de la bondad del ajuste. VI.4.1.- La covarianza. VI.4.2.- El coeficiente de correlación lineal simple. VI.4.3.- El coeficiente de determinación. VI.5.- Un caso particular del modelo de regresión lineal simple. Obtención de la tendencia de una serie por regresión.

Upload: phamminh

Post on 25-Sep-2018

224 views

Category:

Documents


0 download

TRANSCRIPT

El modelo de regresión lineal simple

Tema VI 546

TEMA VI: EL MODELO DE REGRESIÓN LIENAL SIMPLE

VI.1.- Introducción.

VI.2.- El modelo de regresión lineal simple. Propiedades.

VI.3.- Obtención de los estimadores por mínimos Cuadrados

Ordinarios.

VI.3.1.- Planteamiento general.

VI.3.2.- El estimador mínimo cuadrático ordinario del

modelo de regresión lineal simple.

VI.3.3.- Propiedades de los errores mínimo

cuadráticos ordinarios.

VI.3.4.- Propiedades de los estimadores mínimo

cuadrático ordinarios.

VI.4.- Estudio de la bondad del ajuste.

VI.4.1.- La covarianza.

VI.4.2.- El coeficiente de correlación lineal simple.

VI.4.3.- El coeficiente de determinación.

VI.5.- Un caso particular del modelo de regresión lineal

simple. Obtención de la tendencia de una serie por

regresión.

ESTADÍSTICA II

Tema VI 547

VI.1.- Introducción.

El modelo de regresión se introduce en esta última parte

del programa de la asignatura Estadística II por dos

razones:

1.- Por que es una caso particular de realización de

inferencia estadística.

2.- Para enlazar la materia estadística con la materia

econométrica que se cursará en cuarto curso de la carrera.

Es por esta segunda razón por la cual el enfoque que se le

dará a estos dos temas de regresión será del tipo

econométrico.

Lo primero sería por tanto, definir que entendemos por

econometría. La Econometría la podemos definir como la

medición de la economía. Esto implica la cuantificación de

los hechos y las relaciones económicas. Es evidente que

para alcanzar este fin es necesario tener en cuenta la

teoría económica, la observación y la medición de la

realidad y el uso de distintas técnicas estadísticas. Es

por ello que clásicamente se habla de que la econometría

se asienta sobre tres pilares: la teoría económica, la

evidencia empírica y las técnicas estadísticas.

De esta manera, la teoría económica nos dice que el

consumo depende del nivel de renta de la siguiente manera:

en donde, Ct es el consumo en el período t, Yt es la renta

Ecuación 1

u+Y*+=C ttt βα

El modelo de regresión lineal simple

Tema VI 548

en el período t, ut es lo que llamaremos perturbación

aleatoria y α y ß son los parámetros.

Estudiemos más a fondo la expresión (1). Estamos

interesados en estudiar el comportamiento del consumo. La

teoría económica nos dice que para explicar el consumo una

variable de interés es el nivel de renta, pero

evidentemente no es la única. Es decir, el consumo no solo

depende del nivel de renta, sino que depende de otras

muchas variables (nivel de consumo anterior, de las

expectativas futuras sobre obtención de rentas, etc...).

es por ello que aparece en (1) la variable ut, la que hemos

denominado perturbación aleatoria. Esta variable se

caracteriza por el hecho de no ser observable y se puede

interpretar como que en ella se recogen todas aquellas

variables que influyen en la variable consumo pero que no

están especificadas en el modelo debido a que la

importancia de cada una de ellas individualmente es muy

pequeña con respecto al peso de la variable renta. Como

veremos más adelante el comportamiento de esta variable

jugará un papel muy importante en el desarrollo del

proceso de inferencia.

Además de Yt, Ct y ut en el modelo tenemos un elemento más

que son los parámetros α y ß. Estos parámetros son los que

miden cuantitativamente la relación que existe entre el

consumo y la renta. El parámetro α nos mide cuanto vale el

consumo cuanto no se dispone de ninguna renta (Yt=0), ß nos

mide en cuanto se incrementa el consumo al incrementarse

el nivel de renta en una unidad. Gráficamente en una

representación cartesiana del consumo y la renta, α nos da

la ordenada en el origen y ß nos da la pendiente de la

recta

ESTADÍSTICA II

Tema VI 549

Los valores de α y ß son desconocidos.

El problema inferencial se plantea por la necesidad de

obtener un valor estimado para los parámetros del modelo

con el fin de estimar valores del consumo para cualquier

valor de la renta, para realizar análisis estructural,

para predecir el comportamiento futuro del consumo, etc...

VI.2.- El modelo de regresión lineal simple.Hipótesis

Llamaremos modelo de regresión lineal simple a un modelo

en donde se liga a dos variables y a un término de

perturbación aleatoria mediante una relación lineal. De

forma genérica, el modelo de regresión simple es de la

forma

Consumo

Renta"

ß

El modelo de regresión lineal simple

Tema VI 550

Ecuación 2

u+X*+=Y ttt βα

en donde t toma valores desde t={1,2,3,...,T}, Yt es la

variable que queremos explicar, y que llamaremos variable

endógena, Xt es una variable genérica, que denominaremos

variable exógena y es la encargada de explicar el

comportamiento de la variable endógena, α y ß son los

parámetros del modelo y ut es la perturbación aleatoria del

modelo. A la expresión (2) se le denomina recta de

regresión poblacional

En consecuencia, el volumen de datos con los que vamos a

trabajar viene dado por los datos correspondientes a las

variables Yt y Xt cuya representación gráfica se puede

realizar mediante en diagrama de dispersión.

El diagrama de dispersión de dos variables no es más que

la representación gráfica en un sistema de coordenadas de

los puntos (xt, yt), en donde t puede indicar distintos

instantes del tiempo, en cuyo caso Xt e Yt serían series

temporales, o t puede indicar distintos individuos, en

cuyo caso se dice que las variables Xt e Yt contienen datos

de corte transversal.

El problema que se nos plantea es el de estimar el valor

de α y ß del modelo (2) a partir de los datos de la tabla

1

Tabla 1

ESTADÍSTICA II

Tema VI 551

Xt x1 x2 x3 ... xT

Yt

y1

y2

y3

...

yT

Para ello es necesario, en una primera fase, especificar

una serie de hipótesis sobre el comportamiento del modelo

(2) y de los elementos que lo componen. Estas son las

hipótesis básicas del modelo de regresión lineal.

Hipótesis primera: El modelo está bien especificado. Es

decir, la única variable relevante en la explicación de la

variable endógena es la variable X, además, la relación

que existe entre la variable endógena y exógena es del

tipo lineal tal y como indica el modelo (2).

Hipótesis segunda: La variable exógena es una variable no

aleatoria, es determinista. En consecuencia, la esperanza

de X es X.

Hipótesis tercera: No existen errores de medida en los

datos de las variables Y y X.

Hipótesis cuarta: Los parámetros del modelo son fijos, y

no existe cambio estructural en el período muestral.

Hipótesis quinta: Comportamiento del término de

perturbación aleatoria.

Hipótesis 5.1.- La media de la perturbación aleatoria

vale cero. Es decir, en términos medios, la

perturbación aleatoria tiene un efecto nulo sobre la

variable endógena.

Hipótesis 5.2.- Perturbación aleatoria

El modelo de regresión lineal simple

Tema VI 552

incorrelacionada. Es decir, el valor que tome la

perturbación aleatoria en un instante del tiempo es

independiente del valor que tome en cualquier otro

instante del tiempo.

Hipótesis 5.3.- Hipótesis de Homocedasticidad. La

varianza de la perturbación aleatoria es constante

para todo los instantes del tiempo o para todos los

individuos.

Hipótesis 5.4.- Hipótesis de normalidad. La

perturbación aleatoria se distribuye como una

variable Normal.

Teniendo en cuenta la hipótesis quinta, podemos llegar a

que la perturbación aleatoria, bajo las hipótesis básicas

del modelo de regresión lineal cumplen que

)N(0,u 2ut σ⇒

VI.3.- Obtención de los estimadores por Mínimos Cuadrados

Ordinarios.

VI.3.1.- Planteamiento general.

Sean X e Y dos variables que mantienen una dependencia

estadística de la forma

f(X)Y ≈

El principio de mínimos cuadrados ordinarios pretende

encontrar una ecuación funcional, de la forma

ESTADÍSTICA II

Tema VI 553

que verifique que la media de los cuadrados de las

diferencias tomadas paralelamente al eje de ordenadas

entre los distintos puntos observados (xt, yt) y dicha

función sea mínimo.

Es decir, si partimos del siguiente diagrama de dispersión

podemos definir et como

y-y=e ttt ˆ

Es decir, et es la diferencia que existe entre el verdadero

valor de Y en el instante t y el valor que toma la forma

funcional, que denominaremos Y estimada. et en realidad es

el error que cometemos si usamos Y estimada en vez de Y

real. Por tanto, a et le llamaremos error de estimación o

residuo de la regresión, y si observamos la expresión (2)

(ecuación 2) vemos que et es una forma de estimar el

término de perturbación aleatoria ut.

Por consiguiente el principio de mínimos cuadrados

f(x)=Y

El modelo de regresión lineal simple

Tema VI 554

consistirá en minimizar la expresión

La idea que encierra el principio de mínimos cuadrados

ordinarios es muy simple. Una vez determinada que tipo de

relación funcional es la que mejor se ajusta a la nube de

puntos, el principio de mínimos cuadrados ordinarios (MCO)

lo que hace es buscar aquellos valores de los parámetros α

y ß que hacen que los et sean más pequeños. Cuanto más

pequeños son, es evidente, que la forma funcional se

ajusta mejor a la nube de puntos. Como los residuos pueden

ser positivos y negativos, si utilizamos directamente sus

valores en la expresión de A tendríamos sumandos positivos

y negativos con lo cual su suma tendería a tomar el valor

0. Por ello es por lo que se utilizan los residuos al

cuadrado.

VI.3.2.- El estimador mínimo cuadrático ordinario del modelo de regresión

simple.

Sean X e Y dos variables cuya relación viene dada por la

ecuación 2. Aplicando el principio de mínimos cuadrados

ordinarios estimaríamos una función dada por

en donde a es el estimador del parámetro αα , y b es el

estimador del parámetro ββ . A la ecuación anterior se le

denomina recta de regresión estimada.

e=A 2t

T

1=t∑

X*b +a = Y ttˆ

ESTADÍSTICA II

Tema VI 555

En este caso, por tanto la ecuación a estimar viene dada

por

x*b +a = y ttˆ

y aplicando el principio de mínimos cuadrados,

minimizaríamos

Para el caso concreto de relación lineal, y teniendo en

cuenta que

x*b -a - y = y - y = e ttttt ˆ

minimizaremos la expresión

)x*b-a-y(e = A 2tt

T

1=t

2t

T

1=t

= ∑∑

Para ello, las dos condiciones necesarias vienen dadas por

e=A 2t

T

1=t∑

1) MSMa

'0 2) MSMb

'0

1) MSMa

'&2jT

t'1(yt&a&b(xt)'0

jT

t'1(y t&a&b(x t)'0

jT

t'1yt&j

T

t'1a&bj

T

t'1xt'0

a '1T

(jT

t'1yt&bj

T

t'1x t)

2) MSMb

'&2jT

t'1(yt&a&b(x t)(xt'0

jT

t'1yt(x t&a(j

T

t'1xt&b(j

T

t'1x 2

t '0

El modelo de regresión lineal simple

Tema VI 556

sustituyendo el valor de a obtenemos

Por tanto, los estadísticos a través de los cuales

estimaremos los valores de α y β vienen dados por las

expresiones de a y b determinadas en las líneas

anteriores.

Ejemplo. Ajustar por mínimos cuadrados ordinarios una

recta de regresión a la siguiente distribución

bidimensional, siendo Y la variable dependiente, y por

tanto, a explicar

Xi

27

27

30

30

33

33

)xx

xyxy

x*b-)xxyxy

xxxyxy

2t

T

1=t

2t

T

1=t

t

T

1=tt

T

1=t

tt

T

1=t

2t

T

1=t

2t

T

1=t

t

T

1=tt

T

1=t

tt

T

1=t

2t

T

1=tt

T

1=tt

T

1=tt

T

1=ttt

T

1=t

(*T1

-

**T1-*

= b

0=(*b*T1

+)(T1

-*

0=*b-*)]*b-(*T1[-*

∑∑

∑∑∑

∑∑∑∑∑

∑∑∑∑∑

ESTADÍSTICA II

Tema VI 557

Yi

100

110

110

120

120

130

Solución.

xi

yi

xiyi

xi2

27

100

2.700,00

729,00

27

110

2.970,00

729,00

30

110

3.300,00

900,00

30

120

3.600,00

900,00

33

120

3.960,00

1.089,00

33

130

4.290,00

1.089,00

180

690

20.820,00

5.436,00

El modelo de regresión lineal simple

Tema VI 558

por tanto, la recta de regresión viene dada por

x*3.33 + 15.1 = y

Observar que para cada valor de la variable X obtenemos un

valor estimado de la variable Y.

La interpretación del 15.1 y 3.33 es la siguiente. Si la

variable X toma el valor cero, el valor estimado de Y es

15.1, es decir, el valor estimado del parámetro α. Si la

variable X se incrementa en una unidad, la variable Y se

incrementará en 3.33 unidades.

VI.3.3.- Propiedades de los errores mínimo cuadráticos ordinarios.

En el proceso de minimización realizado para la obtención

de los estimadores mínimo cuadráticos ordinarios hemos

visto que se cumple

0=)x*b-a-y( tt

T

1=t∑

y

0=x*)x*b-a-y( ttt

T

1=t∑

A estas ecuaciones se les conoce como ecuaciones normales

del modelo de regresión simple. En base a ellas se

15.1=180]*3.33-[69061

=a

3.33=)(180

61

-5436

(690)(180)61

-20820=b

2

ESTADÍSTICA II

Tema VI 559

demuestra de forma inmediata:

1.-La suma de los errores mínimo cuadráticos ordinarios

vale cero. Por la primera ecuación y teniendo en cuenta

que

et=yt-a-b*xt

2.-Los errores mínimo cuadráticos ordinarios están

incorrelacionados con la variable exógena, es decir, la

covarianza entre et y xt es cero.

La covarianza entre et y xt viene dada por

)-e)(-x(=)e,xCov( etxt

T

1=ttt µµ∑

en donde µx y µe son las medias de X y de e

respectivamente. Como hemos visto en la primera propiedad,

la media de los errores MCO es cero, por tanto, la

expresión anterior la podemos desarrollar de la siguiente

forma

y si tenemos en cuenta la segunda condición normal

llegamos a la conclusión de que la covarianza entre X y e

es nula.

VI.3.4.- Propiedades de los estimadores mínimos cuadrados ordinarios.

exeex=e)-x(

=)-e)(-x(=)e,xCov(

tt

T

1=t

t

T

1=txtt

T

1=ttxt

T

1=t

etxt

T

1=ttt

*=+* ∑∑∑∑

µµ

µµ

El modelo de regresión lineal simple

Tema VI 560

Los estimadores MCO presentan tres propiedades a

considerar:

1.-Son combinaciones lineales de la variable Y

2.-Son insesgados. Es decir, la esperanza matemática del

estimador coincide con el valor del parámetro.

3.-Son óptimos. Es decir, dentro de todo el conjunto

posible de estimados insesgados de los parámetros α y ß ,

los estimadores MCO son los que presentan una menor

varianza.

Demostraremos ahora la primera propiedad, dejaremos la

segunda para el tema de regresión múltiple y la tercera

para cursos más avanzados.

1.- Los estimadores MCO son combinaciones lineales de los

valores de Y.

Hemos visto que b, el estimador de ß, lo podemos calcular

como

expresión esta última que podemos escribir como

)x-x(

)y-y)(x-x(=b

2t

T

1=t

tt

T

1=t

Desarrollando podemos expresar b como

)x(x

xyT1

-yx=b

2t

T

1=t

2t

T

1=t

t

T

1=tt

T

1=ttt

T

1=t

T1

- ∑∑

∑∑∑

ESTADÍSTICA II

Tema VI 561

yc = y * )x-x(

)x-x(=b tt

T

1=tt

2i

T

1=t

tT

1=t

*∑∑

en donde se puede ver que b es una combinación lineal de

los valores de la variable Y.

Teniendo en cuenta este resultado y la expresión que nos

permite estimar el parámetro α, llegamos a que a se puede

expresar también como una combinación lineal de los

valores de la variable Y. Veamos como

yd=y*)c*x-T1

(

xyc

y

xy(T1

=a

tt

T

1=ttt

T

1=t

t

T

1=ttt

T

1=t

t

T

1=tt

T

1=tt

T

1=t

*=

=T

**-T

=)-

∑∑

∑∑

∑∑∑

En consecuencia, tanto a como b, estimadores MCO son

combinaciones lineales de los valores de la variable

endógena.

VI.4.- Estudio de la bondad del ajuste.

Hasta ahora hemos partido de unos datos que eran

utilizados para definir una relación funcional entre dos

variables. De forma implícita se suponía que había una

relación entre las variables X e Y, y la regresión lo que

hacía era buscar la relación que mejor explicase el

comportamiento de la variable Y en función de la variable

X. Esta era la recta de regresión estimada. Es decir,

supongamos que nuestro trabajo consiste en abrir una zanja

El modelo de regresión lineal simple

Tema VI 562

de treinta metros cúbicos. Las herramientas con las que

contamos son un bolígrafo y una pala pequeña de

jardinería. La regresión lo que nos diría es cual de las

dos herramientas es la mejor para realizar el trabajo,

aunque ello no significa que sea la adecuada para el

mismo. Esto es, la regresión nos diría que utilizásemos la

pala de jardinería, ya que entre las dos opciones es la

mejor, lo cual no elimina que ambas sean malas

herramientas.

Por tanto, lo que hemos hecho hasta ahora es buscar la

recta que mejor se ajusta a la nube de puntos

correspondiente al diagrama de dispersión, entendiendo por

mejor ajuste a aquel que hace que la suma de los errores

al cuadrado es más pequeña. Pero esta recta, que es la

mejor posible, puede no ser lo suficientemente buena.

El estudio de la correlación comprende:

a.- Saber si existe alguna relación entre la variable

explicada y la explicativa.

b.- Si existe, saber en que grado están relacionadas.

Por tanto, la regresión por si sola no es suficiente, ya

que, es verdad que busca la mejor relación, pero esta

puede ser muy mala.

Veamos algunas medidas que tiene como finalidad

cuantificar el grado de relación existente entre dos

variables. Estas son:

Covarianza.

Coeficiente de correlación lineal simple.

ESTADÍSTICA II

Tema VI 563

Bondad del ajuste.

1.-Varianza del error de regresión.

2.-Coeficiente de determinación.

Las dos primeras medidas fueron estudiadas en cursos

previos de estadística y solo se introducen aquí como

repaso o recordatorio de lo ya estudiado.

VI.4.1.- La covarianza.

La covarianza se ha definido, en notación no agrupada y

utilizando un solo subíndice como

Como ya se ha visto, la covarianza nos da la dispersión de

las dos variables con respecto a las medias aritméticas de

las distribuciones marginales. Analicemos más

detalladamente el significado de la covarianza.

Supongamos que partimos del diagrama de dispersión

representado en el gráfico adjunto.

)(*)(*1-* yxT

yx*T1

=

=)y-y(*)x-x(T1

=S

t

T

1=t

t

T

1=t2tt

T

1=t

tt

T

1=txy

∑∑∑

El modelo de regresión lineal simple

Tema VI 564

Como se puede observar se ha realizado una traslación de

los ejes originales (X,Y) con origen en o al origen o'

situados sobre los valores medios de las variables

originales, obteniendo unos nuevos ejes (X',Y'). La

traslación viene dada por

y - y = y

x - x = x

tt

tt

pudiendo expresar la covarianza como

denotamos por I, II, III y IV los nuevos cuadrantes

referidos al origen o'.

Todos los puntos del cuadrante I son positivos, tanto en la

yx*T1 = S tt

T

1=txy * ′′∑

ESTADÍSTICA II

Tema VI 565

ordenada como en la abcisa, por lo tanto, su producto será

positivo. También serán positivos los productos de las

componentes del cuadrante III al ser, tanto las ordenadas

como las abcisas, negativas. Por el contrario, los

productos correspondientes a los cuadrantes II y IV tienen

signo negativo.

Por otra parte, la nube de puntos expuesta en la gráfica

anterior coresponde a una tendencia monótona creciente. Es

decir, al irse incrementado X, Y tiende a crecer. En este

caso se dice que X e Y mantienen una relación positiva.

Teorema: Si X e Y tienen una relación positiva, entonces

Sxy es mayor que cero. Cuanto mayor sea la relación

positiva, la covarianza tenderá a tomar valores mayores.

La demostración es inmediata a partir del análisis del

gráfico y teniendo en cuenta que la covarianza la podemos

dividir en dos partes

Si la relación es positiva habrá más puntos en los

cuadrantes I y III que en el II y IV, por tanto A será

IVy II IIIy I

cuadrantes cuadrantes

los de puntos los de puntos

B+A=y*x + y*x = S ttttxy

⇓⇓

∑∑ ′′′′

El modelo de regresión lineal simple

Tema VI 566

mayor que B1 y por consiguiente Sxy será positiva.

El siguiente gráfico muestra el diagrama de dispersión de

dos variables cuando su relación es negativa, esto es, es

monótona decreciente, al incrementar la variable X, Y

tiende a incrementarse.

Como se puede observar se han realizado las mismas

transformaciones que para el caso previo trasladando el

origen de coordenadas del punto o al punto o'.

Teorema: Si X e Y tienen una relación negativa, entonces

su covarianza será menor que cero. Cuanto mayor sea la

relación negativa, más se alejará su covarianza de cero

por la izquierda (valores negativos).

1 Recordemos que A contiene únicamente elementos con signo positivo y B contiene elementos todos ellos de signo negativo.

ESTADÍSTICA II

Tema VI 567

En el siguiente gráfico se muestra el diagrama de

dispersión de dos variables entre las que no hay relación

lineal. Como se puede observar para el valor medio de X, Y

puede tomar el valor mínimo o el valor máximo del rango

posible de valores.

Sobre los datos originales, y su correspondiente gráfico,

se realizó una traslación al punto definido por el vector

de medias.

Teorema: Si la relación existente entre X e Y tiende a ser

nula, su covarianza tiende a tomar el valor cero.

Teorema: La covarianza está acotada:

El modelo de regresión lineal simple

Tema VI 568

Por lo tanto, simpre hablando en términos de relación

lineal:

óptima es relaciónLa

fuerte.y positiva es

Y e X entre relaciónLa S*S SSi yxxy ⇒⇒

óptima es relaciónLa

fuerte.y negativa es

Y e X entre relaciónLa S*S- SSi yxxy ⇒⇒

nula.a ser tiende

Y e X entre relaciónLa 0 SSi xy ⇒⇒

En consecuencia, una primera medida para determinar si

existe correlación o no, y en que grado, puede ser la

covarianza. Sin embargo, la covarianza tiene dos problemas

importantes para esta finalidad:

1.- No tiene unos límites iguales para todas las

distribuciones. Es decir, está acotada pero sus límites

dependen de las desviaciones típicas de las variables y

por tanto varian con las mismas.

2.- La covarianza es variable ante cambios de variable.

Por tanto, debemos seguir buscando una medida que reúna

las siguientes características:

a.- Dará información sobre la existencia o no de una

relación entre las variables.

b.- Dirá que tipo de relación es esta, positiva o

negativa.

S*S S S*S - yxxyyx ≤≤

ESTADÍSTICA II

Tema VI 569

c.- Esta medida será invariante ante cambios de variable.

d.- Tomará valores entre unos extremos fijos sean cuales

sean las variables estudiadas.

VI.4.2.- Coeficiente de correlación lineal simple.

Esta medida se ha definido como el cociente entre la

covarianza entre dos variables y el producto de sus

correspondientes desviaciones típicas.

Sean X e Y dos variables, llamaremos coeficiente de

correlación lineal de X e Y, y lo denotaremos por r a:

S * SS =r

yx

xy

en donde Sxy es la covarianza entre la variable X y la

variable Y, Sx es la desviación típica de X y Sy es la

desviación típica de Y.

Veamos si cumple las propiedades anteriormente citadas:

Los extremos de r son iguales para todas las variables.

Sabemos que

Dividiendo por un número positivo, las desigualdades no

cambian. Por tanto si dividimos por el producto de las

desviaciones típicas obtenemos:

S * SS * S

S * SS

S * S

S * S -yx

yx

yx

xy

yx

yx ≤≤

con lo que

1 r 1- ≤≤

S * S S S * S - yxxyyx ≤≤

El modelo de regresión lineal simple

Tema VI 570

Por lo tanto r siempre toma valores en el intervalo [-

1,1], para todo par de variables.

r nos da información sobre el nivel de relación entre las

variables.

óptimapositiva Relación S * S S 1 r Si yxxy ⇒→⇒→

óptimanegativa Relación S * S- S 1- r Si yxxy ⇒→⇒→

nula Relación 0 S 0 r Si xy ⇒→⇒→

r es invariante ante cambios de variable (demostrar).

VI.4.3.- El coeficiente de determinación.

El coeficiente de determinación es una medida que nos

informan si, en términos globales, el ajuste es bueno o

malo.

Hasta ahora hemos definido el coeficiente de correlación

lineal, y se utilizará para saber si una determinada

función es representativa de la relación entre dos

variables. Pero el coeficiente de correlación tiene una

limitación, únicamente es válido para el caso de

relaciones lineales.

Para solventar este problema se define la Bondad del

ajuste. La Bondad del ajuste nos informará de la

representatividad de una curva para la explicación de una

relación entre dos variables.

ESTADÍSTICA II

Tema VI 571

Lo que haremos es usar la variable error de regresión, o

residuo MCO, esto es, lo que hemos denotado por ei. Es

lógico pensar que cuanto más pequeños sean los ei, mayor

será la representativadad de la función f(x).

Llamaremos por tanto Bondad del ajuste al grado de

representatividad de una curva a una nube de puntos.

Para el estudio de la bondad del ajuste podemos

encontrarnos con distintos estadísticos.

VI.4.3.1.-Varianza residual.

Llamaremos varianza residual, y la denotaremos por Se2, a

la varianza de la variable residuo. Es decir,

El modelo de regresión lineal simple

Tema VI 572

Si tenemos en cuenta que la media de los errores MCO es

cero, la varianza residual viene expresada como

Por tanto, si la varianza residual tiende a cero ello

significa que cada valor de los ei tiende a tomar el valor

de su media, esto es, cero. Pero si cada ei tiende a cero,

ello significa que la nube de puntos está muy próxima a la

función estimada.

Por otra parte, recordemos que si X e Y son dos variables

estadísticas incorrelacionadas, la varianza de la variable

suma de ambas es igual a la suma de las varianzas de cada

una de ellas. Es decir,

Ejercicio: Demostrar el resultado anterior.

También se puede demostrar que los errores MCO y los

valores de yi estimada están incorrelacionados. Esto es,

Ejercicio: Demostrar el resultado anterior.

Y dado que

e+y=y ttt ˆ

)e - e( * T1 = S 2

t

T

1=t

2e ∑

e * T1 = S 2

t

T

1=t

2e ∑

S + S = S 2y

2x

2y+x

0 = S ye ˆ

ESTADÍSTICA II

Tema VI 573

la varianza de Y (Sy2) se puede descomponer en la varianza

de Y estimada más la varianza residual. Es decir,

Ejercicio: Demostrar el resultado anterior.

Por tanto, podemos decir que las variaciones de Y vienen

explicadas, bien por la regresión, esto es, por las

variaciones de Y estimada, o bien por los errores. Es

evidente que cuanto mayor sea la parte explicada por los

errores, la bondad del ajuste tiende a ser peor. Por el

contrario, cuanto menor sea la varianza de los residuos,

ello implica que la varianza de la regresión tiende a ser

igual a la varianza de la variable Y, y por tanto, la

bondad del ajuste será mejor.

VI.4.3.2.- Coeficiente de Determinación.

La varianza residual tiene problemas de interpretación

similares a los que presenta la covarianza. Esto es, está

afectado por las unidades de medida, es variante antes

cambios de variable y no tiene límites fijos para todas

las variables. Por todo ello se define un nuevo

estadístico que no presente los problemas mencionados.

Este estadístico es el coeficiente de determinación.

Llamaremos coeficiente de determinación y lo

representaremos por R2 a

SS - 1 =

SS = R 2

y

2e

2y

2y2

El coeficiente de determinación presenta las siguientes

S + S = S 2e

2y

2y ˆ

El modelo de regresión lineal simple

Tema VI 574

propiedades:

1.- R2 toma valores en el intervalo [0,1].

Teniendo en cuenta que Se2 es menor o igual a Sy2 podemos

escribir

0=1-1= SS - 1

SS -1 = R 2

y

2y

2y

2e2 ≥

Por tanto R2 es siempre mayor o igual a 0, y podemos

demostrar (ejercicio para los alumnos) que es menor o

igual a 1.

2.- Como se puede deducir de la definición del coeficiente

de determinación, este mide la proporción de variabilidad

de la variable endógena que viene explicada por la

regresión. De esta manera, si R2 = 0.81, significa que el

81% de las variaciones de la variable endógena vienen

explicadas por la regresión.

En base a ello, la interpretación genérica del coeficiente

de determinación es la siguiente:

2.1.- Si R2 tiende a 0, la bondad del ajuste es mala puesto

que la regresión tiende a explicar el 0% de las

variaciones de la variable endógena.

2.2.- Si R2 tiende a 1, la bondad del ajuste es óptima,

puesto que la totalidad de las variaciones de la variable

endógena vienen explicadas por la regresión.

VI.5.- Un caso particular del modelo de regresión lineal simple.

Obtención de la tendencia de una serie por regresión.

Un caso particular del modelo de regresión lineal simple

es cuando se aplica para obtener la tendencia de una

serie. Recordemos que cuando se estudiaron las series

ESTADÍSTICA II

Tema VI 575

temporales estudiamos el método de las medias móviles para

la obtención de la tendencia. Otro método alternativo es

mediante el uso de la regresión. En concreto, con este

método, definiremos como tendencia a la serie estimada

mediante la regresión entre la variable en estudio y la

variable tiempo.

Veamos un ejemplo sencillo. La siguiente tabla muestra los

datos de ocupados en una cierta ciudad durante los últimos

3 años para cada uno de los trimestres de cada año.

Trimestre-año Número de ocupados

X

Variable tiempo

t

I-95 250 1

II-95 262 2

III-95 255 3

IV-95 270 4

I-96 278 5

II-96 290 6

III-96 260 7

IV-96 310 8

I-97 325 9

II-97 350 10

III-97 330 11

IV-97 360 12

Obsérvese que hemos creado una variable que denotamos por

t y no es más que una variable que toma valores desde 1

hasta N en donde N es el número total de obseraciones de

la variable X.

Para obtener la tendencia por regresión tendremos que

estimar el modelo

u+t*+=X ttt βα

en donde X es el número de ocupados,t el tiempo, u la

El modelo de regresión lineal simple

Tema VI 576

perturbación aleatoria y α y β los parámetros. La

tendencia por regresión vendrá dada por

tt t*ba=X +^

en donde a y b son los estimadores mínimo cuadráticos

ordinarios.

Si realizamos la estimación, veremos que a=230.7273 y

b=9.888112. Estos estimadores nos permiten obtener una X

estimada que toma los valores que se muestran en la tabla

Trimestre

año

Número de ocupados

X

Variable tiempo

t

Tendencia

ttt*=X 888112.97273.230

^

+

I-95 250 1 240.612

II-95 262 2 250.504

III-95 255 3 260.392

IV-95 270 4 270.280

I-96 278 5 280.168

II-96 290 6 290.056

III-96 260 7 299.944

IV-96 310 8 309.832

I-97 325 9 319.720

II-97 350 10 329.608

III-97 330 11 339.497

IV-97 360 12 349.385

Siendo su gráfico el siguiente

ESTADÍSTICA II

Tema VI 577

Si calculamos la bondad del ajuste veríamos que el R2 =

0.8485, lo que significa que el 84.85% de las variaciones

del número de ocupados son explicadas por la regresión, lo

cual implica que disponemos de una medida que nos informa

de si la tendencia es representativa de la serie original

o no. Esta información no la tenemos disponible con el

método de medias móviles. Además, tal y como veremos en el

tema siguiente, con este método no solo podemos determinar

la tendencia si no que también podremos estimar cual podrá

ser la evolución futura de la tendencia de la variable.

Número de ocupados y tendencia

200

220

240260280

300

320340

360

380

1 2 3 4 5 6 7 8 9 10 11 12

Tendencia Serie Original