regresion y correlacion lineales · coef. de correlación lineal de pearson el coeficiente de...

26
1 REGRESION Y CORRELACION LINEALES

Upload: others

Post on 31-Jan-2020

120 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

1

REGRESION Y CORRELACION

LINEALES

Page 2: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

2

Relaciones entre variables y regresión

• El término regresión fue introducido por Galton (1889) refiriéndose a la “ley de la regresión universal”:

– “Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.”

• Regresión a la media – Su trabajo se centraba en la descripción de los rasgos

físicos de los descendientes (una variable) a partir de los de sus padres (otra variable).

– Pearson realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo:

• Altura del hijo = 85cm + 0,5 altura del padre (aprox.)

• Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos.

Francis Galton

Karl Pearson

Page 3: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

3

Regresión

• Describir la relación entre dos variables numéricas

• El análisis de regresión sirve para predecir una medida en función

de otra medida (o varias).

– Y = Variable dependiente

• predicha

• explicada

– X = Variable independiente

• predictora

• explicativa

– ¿Es posible descubrir una relación?

• Y = f(X) + error

– f es una función de un tipo determinado

– el error es aleatorio, pequeño, y no depende de X

Page 4: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

4

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

Diagramas de dispersión , nube de puntos o “Scaterplot”

Mid

e 1

87 c

m.

Mide 161 cm.

Pesa 76 kg.

Pesa 50 kg.

Tenemos las alturas y los pesos de 30 individuos representados en un

diagrama de dispersión.

Variable independiente x (altura)

Variable dependiente y (peso)

Page 5: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

5

REGRESION LINEAL SIMPLE

Finalidad

Estimar los valores de y (variable

dependiente) a partir de los valores

de x (variable independiente)

Modelo

xy

y

x

y

a q

Ordenada en

el origen

(intercepto)

=tg q coeficiente de regresión

(pendiente)

x

y x

yb

Page 6: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

6

Fuerte relación

directa.

30

40

50

60

70

80

90

100

140 150 160 170 180 190 200

No hay relacion

30

80

130

180

230

280

330

140 150 160 170 180 190 200

Relación directa e inversa

Cierta relación

inversa

0

10

20

30

40

50

60

70

80

140 150 160 170 180 190 200

Para valores de X por encima de la

media tenemos valores de Y por

encima y por debajo en proporciones

similares.

Para los valores de X mayores que la

media le corresponden valores de Y

menores. Esto es relación inversa o

decreciente.

•Para los valores de X mayores que la media

le corresponden valores de Y mayores

también.

•Para los valores de X menores que la media

le corresponden valores de Y menores

también. : relación directa.

Page 7: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

7

COVARIANZA

Es una medida de la variación lineal conjunta de dos variables

+

+ y

x

N

xμx

yμy

xy

))((s

s xy < 0 asociación lineal con pendiente negativa

s xy = 0 ausencia de asociación lineal

s xy > 0 asociación lineal con pendiente positiva

n

xxyy

))((cov

Estimación de s xy

Es un estimador sesgado

centroide

x

y

xx

yy

Page 8: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

8

El signo de la covarianza nos dice si el aspecto

de la nube de puntos es creciente o no, pero no

nos dice nada sobre el grado de relación entre

las variables.

Coef. de correlación lineal de Pearson

El coeficiente de correlación lineal de Pearson de dos variables, r,

indica si los puntos tienen una tendencia a disponerse

alineadamente (excluyendo rectas horizontales y verticales).

r

r (Rho ) en la poblaciòn

Valor en la muestra

Page 9: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

9

yxxy sssr /

CORRELACION LINEAL

Finalidad

Medir la intensidad de la asociación lineal entre dos variables

aleatorias

coeficiente de correlación

covarianza poblacional

coeficiente de

determinación

Proporción de varianza compartida por las

dos variables

r 2

yxxy sssr /

r 2

Page 10: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

10

• Es adimensional

• Sólo toma valores entre -1y +1

• Las variables NO estàn correlacionadas r=0

• Relación lineal perfecta entre dos variables r = +1 o r=-1

– Excluimos los casos de puntos alineados horiz. o verticalmente.

• Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.

– Siempre que no existan observaciones anómalas.

Propiedades de r

-1 +1 0

Relación

inversa

perfecta Relación

directa

casi

perfecta

Variables

NO correlacionadas

Page 11: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

11

Y = 0.134 X + 2.1220

2

4

6

8

10

12

14

16

0 10 20 30 40 50 60 70 80 90X

Y

Y = 0.134 X + 2.122

0

2

4

6

8

10

12

14

16

0 10 20 30 40 50 60 70 80 90

X

Y

Y = X

0

2

4

6

8

10

12

14

16

0 2 4 6 8 10 12 14 16

X

Y

Y = X0

2

4

6

8

10

12

14

16

0 2 4 6 8 10 12 14 16X

Y

Correlación positiva

Correlación negativa

r = + 1 0 r +1

-1 r 0 r = - 1

Page 12: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

12

#¡DIV/0!

0

2

4

6

8

10

12

14

16

0 1 2 3 4 5 6

X

YY = 0.093 X + 4.335

0

2

4

6

8

10

12

14

16

20 25 30 35 40 45 50 55 60

X

Y

Y = 4

0

1

2

3

4

5

6

7

8

20 25 30 35 40 45 50 55 60

X

Y

r = 0

Ausencia de correlación

Page 13: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

13

Animación: Evolución de r y diagrama de dispersión

Page 14: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

14

21

2

r

nrtcalc

ESTIMACION DE r (rho)

Los residuos ( e ) deben ser :

Se compara con el valor

critico (t tabulado)

CONSIDERACIONES PARA LA VALIDEZ DEL TEST

yx ssCovr

.

0: rHo

PRUEBA DE

Normales

Homocedasticos

Independientes

Testar la Ho: r = 0 equivale a ensayar la Ho: = 0

Page 15: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

15

Animación: Residuos del modelo de regresión

Page 16: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

16

ESTADISTICOS USUALES

Varianza residual (insesgada)

2

2

2

2)ˆ(2.

ˆ

nn

yyxys

Error tipico de estimación de y 2.

ˆ.

ˆxysxys

Error tipico de estimación de b SCXxysb

s .ˆˆ

Coeficiente

de Determinación R2 )12

R(0 SCtotal

nSCRegresió2R

2

22 1

Y

e

S

SR

Page 17: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

17

¿Cómo medir la bondad de una regresión?

Imaginemos un diagrama de dispersión, y vamos

a tratar de comprender en primer lugar qué es

el error residual, su relación con la varianza de Y,

y de ahí, cómo medir la bondad de un ajuste.

Page 18: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

18

Interpretación de la variabilidad en Y

Y En primer lugar olvidemos que existe

la variable X. Veamos cuál es la

variabilidad en el eje Y.

La franja sombreada indica la zona

donde varían los valores de Y.

Proyección sobre el eje Y = olvidar X

2 YS

Page 19: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

19

Interpretación del residuo ( )

Y

Fijémonos ahora en los errores de predicción

(líneas verticales). Los proyectamos sobre el

eje Y.

Se observa que los errores de predicción,

residuos, están menos dispersos que la

variable Y original.

Cuanto menos dispersos sean los

residuos,

mejor será la bondad del ajuste.

yy ˆ

2

eS

Page 20: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

20

Resumiendo: La dispersión del error residual será una fracción de

la dispersión original de Y

Cuanto menor sea la dispersión del error

residual mejor será el ajuste de regresión.

Bondad de un ajuste

2

22 1

Y

e

S

SR

Y

22 Ye SS

Eso hace que definamos

como medida de

bondad de un ajuste de

regresión, o coeficiente

de determinación a:

Page 21: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

21

A medida que los valores se alejan del centroide ( , )

las estimaciones de y son más imprecisas

Consecuencia sobre las estimaciones de y

y

x

xy

faja de

confianza

para

y

x

faja de

confianza

para

xy

x y

bstb ˆ

bstb ˆb

Page 22: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

22

P Q

Buen ajuste a la recta en el intervalo PQ

NO implica que la relación sea lineal fuera del mismo

Page 23: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

23

La recta de regresión de y sobre x no es la misma que la de x sobre y , salvo

que todos los puntos estén sobre la recta

y

x

xey

x

ye

Page 24: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

24

Precauciones en la interpretación de r

r significativo NO implica relación de causalidad entre las

variables

r = 0 NO implica ausencia de asociación entre las variables

t x

y

x

y y

x

r = 0 r = 0

Page 25: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

25

Los problemas de regresión y de correlación lineales

se parecen pero difieren

En la finalidad

En las variables

REGRESION CORRELACION

x variable

independiente fija

NO hay distinción entre

variable dependiente e

independiente

y variable

dependiente aleatoria

x e y son variables

aleatorias

Page 26: REGRESION Y CORRELACION LINEALES · Coef. de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables, r, indica si los puntos tienen una tendencia

26

Cálculos en correlación y regresión

Entrar x Hallar y Borrar la memoria estadística x xs

Entrar y Hallar y Borrar la memoria estadística y ys

Entrar los productos (x y) Hallar yx

Calcular: yxyxCov .

yx ssCovr

. Testar: 0: rHo

bxay xbya x

ys

rsb