Tema 2: La recta de regresión por mínimos cuadrados - I
Biología sanitaria - UAH
Marcos Marvá Ruiz
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 1 / 1
La recta de regresiónConsideramos dos variables cuantitativas medidas sobre los mismos individuos
X Yx1 y1x2 y2x3 y3· · · · · ·xn yn
Queremos relacionar dos variables cuantitativas:1 Variable explicativa (independiente)2 Variable respuesta (dependiente)
Construir modelo ideal del tipo y = f (x)
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 2 / 1
La recta de regresiónConocemos relaciones funcionales
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
−1.0 −0.5 0.0 0.5 1.0
−0.
20.
20.
4
−1.0 −0.5 0.0 0.5 1.0
−1.
0−
0.5
0.0
0.5
−1.0 −0.5 0.0 0.5 1.0
02
46
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 3 / 1
La recta de regresiónObserva las siguientes nubes de puntos: ¿hay relación entre cada par de variables?
40 50 60 70
100
200
300
400
500
600
700
Framingham
Edad
Col
este
rol t
otal
15 20 25 30 35 40 45
2030
4050
Leptograpsus variegatus
Longitud caparazón
Anc
hura
cap
araz
ón
10 20 30 40 50
010
0020
0030
0040
00
Hayas, parcela Navarra
Diámetro medio
Pie
s/H
a
Fuentes de ruido: variabilidad individual, variables no consideradas
Las relaciones y = f (x): son unívocas pero obvian el ruido
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 4 / 1
Número de “cricks” que hace un grillo y la temperatura ambiente
Big bang theory
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 5 / 1
En la realidad hay señal + ruidoNo todos los individios responden igual a un estímuloVariables no consideradas
<!– Las relaciones y = f (x) son unívocas pero obvian el ruido –>
0.0 0.4 0.8
2.5
3.5
4.5
0.0 0.4 0.8
0.00
0.15
0.0 0.4 0.8
−4
02
4
Izq. y centro: mucha señal y poco ruido. Dcha: poca señal y mucho ruido.
Empezaremos con rectas
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 6 / 1
La recta de regresiónIdeas buscar una recta
y(x) = b0 + b1 · x
que ‘’mejor describa” la nube de puntos
Hay que comprender:1 Cómo elegir la "mejor" recta2 En qué sentido es la mejor3 Que, a veces, la mejor recta sigue siendo muy mala
Sección 10.2 del libro
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 7 / 1
La recta de regresiónEn rojo: valores observados En verde: valores predichos
Residuo = observado - predicho
Buscar b0 y b1 que minimizan la media de los residuos (errores) al cuadrado
Interpretación geométrica del EC fichero GeoGebra
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 8 / 1
La recta de regresiónComparar los valores observados para la variable respuesta
y1, y2, · · · , yn
con los valores predichos por la recta
y1, y2, · · · , yn
Objetivo: minimizar error cuadrático asociado a la recta y = b0 + b1x
EC =n∑
i=1
(yi − yi )2 =n∑
i=1
(yi − b0 − b1 · xi )2
Recuerda:
xi , yi , yi son números concretos
Cada elección de b0 y b1 produce residuos diferentes
El error cuadrático medio ECM muestral es:
ECM = ECn − 1
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 9 / 1
Recta de regresión (o de mínimos cuadrados). Covarianza.
Dado el conjunto de puntos (x1, y1), (x2, y2), (x3, y3), . . . , (xn, yn), Los val-ores que minimizan el ECM son
b1 = Cov(x , y)s2
x, b0 = y − Cov(x , y)
s2x
· x .
donde
Cov(x , y) =
n∑i=1
(xi − x)(yi − y)
n − 1es la covarianza muestral. Al sustituir en y = b0 + b1x se tiene la rectade regresión o de mínimos cuadrados que, al reordenar términos, estádada por
(y − y) = Cov(x , y)s2
x· (x − x),
La recta de regresión pasa por el punto (x , y)
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 10 / 1
Ejemplo: medidas des carazón de ciertos cangrejos
Longitud (mm) 81 97 103 123 150 182 195Anchura (mm) 54.5 59.5 63.5 67.5 72.0 78.5 83.0
80 100 120 140 160 180
5560
6570
7580
Longitud
Anc
hura
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 11 / 1
Ejemplo: medidas des carazón de ciertos cangrejos
Longitud (mm) 81 97 103 123 150 182 195Anchura (mm) 54.5 59.5 63.5 67.5 72.0 78.5 83.0
partir de estos datos calculamos
x = mean(x) ≈ 133, s2x = var(x) ≈ 1922.333
y = mean(y) ≈ 68.36, Cov(x , y) = cov(x,y) ≈ 443.42Por lo tanto, la recta de regresión es
Anchura(mm) = 37.7 + 0.23 · longitud(mm)
80 100 120 140 160 180
5565
75
Longitud
Anc
hura
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 12 / 1
Observaciones: usos de la recta de regresiónla recta de regresión es
Anchura(mm) = 37.7 + 0.23 · longitud(mm)
Usos de la recta de regresión
Predecir valores no observados: ¿anchura para ‘longitud‘=140?
Interpretar la pendiente
ExtrapolaciónNunca, bajo ningún concepto, puedes usar de la recta para predecir valores de ycorrespondientes a valores de x fuera del recorrido de x en la muestra. Hacer eso sedenomina extrapolación, y es uno de los errores más graves que pueden cometerse usandola recta de regresión.
Recuerda que
Una predicción debe ir acompañada de una estimación del error que se comete.Volveremos sobre esto más adelante.
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 13 / 1
Observaciones: usos de la recta de regresiónLa recta es una buena aproximación local
Biología sanitaria - UAH Tema 2: La recta de regresión por mínimos cuadrados - I Marcos Marvá Ruiz 14 / 1