variables cuantitativas, relaciones entre estas, y el ls...

63
Variables cuantitativas, relaciones entre estas, y el LS regression Aniel Nieves-Gonz´ alez Instituto de estad´ ısticas AnielNieves-Gonz´alez Quatitative variables and the LS problem

Upload: others

Post on 08-Feb-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • Variables cuantitativas, relaciones entre estas, yel LS regression

    Aniel Nieves-González

    Instituto de estad́ısticas

    Aniel Nieves-González Quatitative variables and the LS problem

  • Variables cuantitativas y relaciones entre estas (Section2.1, 2.2)

    Recuerde que informalmente...Una variable aleatoria (cuantitativa) es una asociaciónentre los miembros del espacio muestral (conjunto deobjetos que nos interesa estudiar) y los números reales.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Variables cuantitativas y relaciones entre estas (Section2.1, 2.2)

    Definition (Response variable)

    Una variable que mide el resultado de un estudio es un responsevariable. También es llamada variable dependiente.

    Definition (Explanatory variable)

    Variable que explica o influencia los cambios en el responsevariable. También es llamada variable independiente.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Variables cuantitativas y relaciones entre estas (Section2.1, 2.2)

    Definition (Scatter Plot)

    Gráfica que muestra la relación entre dos variables aleatoriasmedidas sobre el mismo conjunto de individuos.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Section 2.1, 2.2

    Dos variables (var.) están asociadas positivamente sivalores sobre el prom. de una acompañan a valores sobre elpromedio de otra, y valores por debajo del prom. tienden aocurrir juntos.

    Dos var. están asociadas negativamente si valores sobreel prom. de una acompañan a valores bajo el promedio deotra, y vice versa.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Section 2.1, 2.2

    Dos variables (var.) están asociadas positivamente sivalores sobre el prom. de una acompañan a valores sobre elpromedio de otra, y valores por debajo del prom. tienden aocurrir juntos.Dos var. están asociadas negativamente si valores sobreel prom. de una acompañan a valores bajo el promedio deotra, y vice versa.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Section 2.1, 2.2

    Dos variables (var.) están asociadas positivamente sivalores sobre el prom. de una acompañan a valores sobre elpromedio de otra, y valores por debajo del prom. tienden aocurrir juntos.Dos var. están asociadas negativamente si valores sobreel prom. de una acompañan a valores bajo el promedio deotra, y vice versa.

    1 1.2 1.4 1.6 1.8 22

    2.2

    2.4

    2.6

    2.8

    3

    X

    Y

    0 0.2 0.4 0.6 0.8 1−2

    −1.5

    −1

    −0.5

    0

    X

    Y

    0 0.2 0.4 0.6 0.8 10.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    X

    Y

    0 0.2 0.4 0.6 0.8 1−1

    0

    1

    2

    3

    4

    5

    6

    X

    Y

    Aniel Nieves-González Quatitative variables and the LS problem

  • Section 2.1, 2.2

    El concepto de correlación mide cuantitativamente ladirección y fuerza de una relación lineal entre dos variables.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Section 2.1, 2.2

    Definition (Correlación)

    Suponga q. tiene n datos de las variables X y Y . Denotamosdichos datos como {x1, . . . , xn} y {y1, . . . , yn} respectivamente.Sea X̄ y sxla media aritmética y la desviación estándar para losdatos de X. Análogamente Ȳ y sy para con Y . Lacorrelación, denotada como r, entre X y Y es

    r =1

    n− 1

    n∑i=1

    (xi − X̄sx

    )(yi − Ȳsy

    )

    Aniel Nieves-González Quatitative variables and the LS problem

  • Observe:r no hace distinción entre var. dependente e independiente.

    r solo aplica a variables cuantitativas.r no tiene unidades (“dimensionless”).r > 0⇒ relación lineal positivar < 0⇒ relación lineal negativa|r| ≤ 1 (i.e. −1 ≤ r ≤ 1).r ≈ 0⇒ relación lineal débil.r ≈ −1 o r ≈ 1 implica relación lineal fuerte.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Observe:r no hace distinción entre var. dependente e independiente.r solo aplica a variables cuantitativas.

    r no tiene unidades (“dimensionless”).r > 0⇒ relación lineal positivar < 0⇒ relación lineal negativa|r| ≤ 1 (i.e. −1 ≤ r ≤ 1).r ≈ 0⇒ relación lineal débil.r ≈ −1 o r ≈ 1 implica relación lineal fuerte.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Observe:r no hace distinción entre var. dependente e independiente.r solo aplica a variables cuantitativas.r no tiene unidades (“dimensionless”).

    r > 0⇒ relación lineal positivar < 0⇒ relación lineal negativa|r| ≤ 1 (i.e. −1 ≤ r ≤ 1).r ≈ 0⇒ relación lineal débil.r ≈ −1 o r ≈ 1 implica relación lineal fuerte.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Observe:r no hace distinción entre var. dependente e independiente.r solo aplica a variables cuantitativas.r no tiene unidades (“dimensionless”).r > 0⇒ relación lineal positiva

    r < 0⇒ relación lineal negativa|r| ≤ 1 (i.e. −1 ≤ r ≤ 1).r ≈ 0⇒ relación lineal débil.r ≈ −1 o r ≈ 1 implica relación lineal fuerte.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Observe:r no hace distinción entre var. dependente e independiente.r solo aplica a variables cuantitativas.r no tiene unidades (“dimensionless”).r > 0⇒ relación lineal positivar < 0⇒ relación lineal negativa

    |r| ≤ 1 (i.e. −1 ≤ r ≤ 1).r ≈ 0⇒ relación lineal débil.r ≈ −1 o r ≈ 1 implica relación lineal fuerte.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Observe:r no hace distinción entre var. dependente e independiente.r solo aplica a variables cuantitativas.r no tiene unidades (“dimensionless”).r > 0⇒ relación lineal positivar < 0⇒ relación lineal negativa|r| ≤ 1 (i.e. −1 ≤ r ≤ 1).

    r ≈ 0⇒ relación lineal débil.r ≈ −1 o r ≈ 1 implica relación lineal fuerte.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Observe:r no hace distinción entre var. dependente e independiente.r solo aplica a variables cuantitativas.r no tiene unidades (“dimensionless”).r > 0⇒ relación lineal positivar < 0⇒ relación lineal negativa|r| ≤ 1 (i.e. −1 ≤ r ≤ 1).r ≈ 0⇒ relación lineal débil.

    r ≈ −1 o r ≈ 1 implica relación lineal fuerte.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Observe:r no hace distinción entre var. dependente e independiente.r solo aplica a variables cuantitativas.r no tiene unidades (“dimensionless”).r > 0⇒ relación lineal positivar < 0⇒ relación lineal negativa|r| ≤ 1 (i.e. −1 ≤ r ≤ 1).r ≈ 0⇒ relación lineal débil.r ≈ −1 o r ≈ 1 implica relación lineal fuerte.

    Por último: r mide fuerza de relaciones lineales solamente. Yal igual que X̄ no es resistente a outliers.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo 1: Calculando r

    Suponga los siguientes datos y calcule r.

    rapidez (speed) 20 30 40 50 60MPG 24 28 30 28 24

    Sea X ≡ ‘rapidez en mph’, Y ≡ ‘MPG’, y n = 5.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo 1: Calculando r

    Suponga los siguientes datos y calcule r.

    rapidez (speed) 20 30 40 50 60MPG 24 28 30 28 24

    Sea X ≡ ‘rapidez en mph’, Y ≡ ‘MPG’, y n = 5.

    X̄ =1n

    n∑i=1

    xi =20 + 30 + 40 + 50 + 60

    5=

    2005

    = 40

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo 1: Calculando r

    Suponga los siguientes datos y calcule r.

    rapidez (speed) 20 30 40 50 60MPG 24 28 30 28 24

    Sea X ≡ ‘rapidez en mph’, Y ≡ ‘MPG’, y n = 5.

    s2x =1

    n− 1

    n∑i=1

    (xi − X̄)2 =(−20)2 + (−10)2 + (0) + (−10)2 + (10)2

    4

    =400 + 100 + 0 + 100 + 400

    4=

    10004

    = 250

    ⇒ sx = 15.81

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo 1: Calculando r

    Suponga los siguientes datos y calcule r.

    rapidez (speed) 20 30 40 50 60MPG 24 28 30 28 24

    Sea X ≡ ‘rapidez en mph’, Y ≡ ‘MPG’, y n = 5.Análogamente:

    Ȳ =1n

    n∑i=1

    yi =1345

    = 26.8

    s2y =1

    n− 1

    n∑i=1

    (yi − Ȳ )2 =7.84 + 1.44 + 10.24 + 1.44 + 7.84

    4

    =28.8

    4= 7.2

    ⇒ sy = 2.683

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo 1: Calculando r

    Con X̄ = 40, Ȳ = 26.8, sx = 15.81, y sy = 2.683 tenemos

    r =1

    n− 1

    n∑i=1

    (xi − X̄sx

    )(yi − Ȳsy

    )=

    (−20)(−2.8) + (−10)(1.2) + 0 + (10)(1.2) + (20)(−2.8)4(15.81)(2.683)

    = 0

    Por tanto tenemos una relación lineal débil (no-linealrealmente).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo 1: Calculando r

    Si miramos una gráfica de los datos tenemos...

    20 25 30 35 40 45 50 55 6024

    25

    26

    27

    28

    29

    30

    X [mph]

    Y [M

    PG

    ]MPG versus rapidez

    Aniel Nieves-González Quatitative variables and the LS problem

  • En R podemos calcular la correlación (r) ejecutando:x = c(20,30,40,50,60)y = c(24,28,30,28,24)r = cor(x,y)

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression (regresión por cuadradosmı́nimos), sección 2.3

    En esencia el problema de cuadrados mı́nimos (o least squares(LS) problem o LS regression) es un problema de minimización,el cual se puede escribir como:

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression (regresión por cuadradosmı́nimos), sección 2.3

    En esencia el problema de cuadrados mı́nimos (o least squares(LS) problem o LS regression) es un problema de minimización,el cual se puede escribir como:

    minp

    n∑i=1

    (F (xi,p)− yi)2 + �

    donde:{(x1, y1), . . . , (xn, yn)} son los datos (note las dos variablesX y Y )

    p son los parametros (constantes del modelo matemático).F (xi,p) es el modelo matématico. Note que F depende delos datos y de los parámetros.En este caso el modelo matemático representará a larelación entre las dos variables X y Y .� representa error.Lo que minimizamos es la distancia vertical (a lo largo deeje de y) entre modelo y datos.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression (regresión por cuadradosmı́nimos), sección 2.3

    En esencia el problema de cuadrados mı́nimos (o least squares(LS) problem o LS regression) es un problema de minimización,el cual se puede escribir como:

    minp

    n∑i=1

    (F (xi,p)− yi)2 + �

    donde:{(x1, y1), . . . , (xn, yn)} son los datos (note las dos variablesX y Y )p son los parametros (constantes del modelo matemático).

    F (xi,p) es el modelo matématico. Note que F depende delos datos y de los parámetros.En este caso el modelo matemático representará a larelación entre las dos variables X y Y .� representa error.Lo que minimizamos es la distancia vertical (a lo largo deeje de y) entre modelo y datos.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression (regresión por cuadradosmı́nimos), sección 2.3

    En esencia el problema de cuadrados mı́nimos (o least squares(LS) problem o LS regression) es un problema de minimización,el cual se puede escribir como:

    minp

    n∑i=1

    (F (xi,p)− yi)2 + �

    donde:{(x1, y1), . . . , (xn, yn)} son los datos (note las dos variablesX y Y )p son los parametros (constantes del modelo matemático).F (xi,p) es el modelo matématico. Note que F depende delos datos y de los parámetros.

    En este caso el modelo matemático representará a larelación entre las dos variables X y Y .� representa error.Lo que minimizamos es la distancia vertical (a lo largo deeje de y) entre modelo y datos.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression (regresión por cuadradosmı́nimos), sección 2.3

    En esencia el problema de cuadrados mı́nimos (o least squares(LS) problem o LS regression) es un problema de minimización,el cual se puede escribir como:

    minp

    n∑i=1

    (F (xi,p)− yi)2 + �

    donde:{(x1, y1), . . . , (xn, yn)} son los datos (note las dos variablesX y Y )p son los parametros (constantes del modelo matemático).F (xi,p) es el modelo matématico. Note que F depende delos datos y de los parámetros.En este caso el modelo matemático representará a larelación entre las dos variables X y Y .

    � representa error.Lo que minimizamos es la distancia vertical (a lo largo deeje de y) entre modelo y datos.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression (regresión por cuadradosmı́nimos), sección 2.3

    En esencia el problema de cuadrados mı́nimos (o least squares(LS) problem o LS regression) es un problema de minimización,el cual se puede escribir como:

    minp

    n∑i=1

    (F (xi,p)− yi)2 + �

    donde:{(x1, y1), . . . , (xn, yn)} son los datos (note las dos variablesX y Y )p son los parametros (constantes del modelo matemático).F (xi,p) es el modelo matématico. Note que F depende delos datos y de los parámetros.En este caso el modelo matemático representará a larelación entre las dos variables X y Y .� representa error.

    Lo que minimizamos es la distancia vertical (a lo largo deeje de y) entre modelo y datos.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression (regresión por cuadradosmı́nimos), sección 2.3

    minp

    n∑i=1

    (F (xi,p)− yi)2 + �

    donde:{(x1, y1), . . . , (xn, yn)} son los datos (note las dos variablesX y Y )p son los parametros (constantes del modelo matemático).F (xi,p) es el modelo matématico. Note que F depende delos datos y de los parámetros.En este caso el modelo matemático representará a larelación entre las dos variables X y Y .� representa error.Lo que minimizamos es la distancia vertical (a lo largo deeje de y) entre modelo y datos.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression

    Para propósitos del curso, F (el modelo) será lineal, esto es,

    F (xi, α, β) = αxi + β función lineal

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression

    Para propósitos del curso, F (el modelo) será lineal, esto es,

    F (xi, α, β) = αxi + β función lineal

    Definition (Regresión lineal)

    Una regresión lineal es una linea recta (¡mire arriba!) quedescribe como una variable dependiente cambia a medida quecambia la variable independiente.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression

    Definition (Regresión lineal)

    Una regresión lineal es una linea recta (¡mire arriba!) quedescribe como una variable dependiente cambia a medida quecambia la variable independiente.

    Observe que:Para la regresión por LS es importante distinguir entrevar. independiente y dependiente.

    La pendiente (slope) del LS regression es

    α = rsysx

    =

    (1

    n− 1

    n∑i=1

    (xi − X̄sx

    )(yi − Ȳsy

    ))sysx

    y el intercepto en y (y-intercept) es

    β = Ȳ − αX̄

    (La demostración va más alla de los objetivos del curso.)

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression

    Definition (Regresión lineal)

    Una regresión lineal es una linea recta (¡mire arriba!) quedescribe como una variable dependiente cambia a medida quecambia la variable independiente.

    Observe que:Para la regresión por LS es importante distinguir entrevar. independiente y dependiente.La pendiente (slope) del LS regression es

    α = rsysx

    =

    (1

    n− 1

    n∑i=1

    (xi − X̄sx

    )(yi − Ȳsy

    ))sysx

    y el intercepto en y (y-intercept) es

    β = Ȳ − αX̄

    (La demostración va más alla de los objetivos del curso.)Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression

    Observe también que:La linea de regresión siempre pasa por

    (X̄, Ȳ

    ).

    r2 es la fracción de variación en Y que se explica por laregresión lineal de Y en X. Esto es:

    r2 =variacion en ŷ a medida que cambia x

    variacion total en y

    =suma de cuadrados debido a regresión

    suma total de cuadrados

    =∑n

    i=1(ŷi − Ȳ )2∑ni=1(yi − Ȳ )2

    donde ŷi es el la predicción obtenida de la linea deregresión (ŷi = αxi + β).Note que para el caso de perfecta correlación lineal (r = 1 or = −1) r2 = 1. O sea que r2 mide que tan exitosa fue lacorrelación.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression

    Observe también que:La linea de regresión siempre pasa por

    (X̄, Ȳ

    ).

    r2 es la fracción de variación en Y que se explica por laregresión lineal de Y en X. Esto es:

    r2 =variacion en ŷ a medida que cambia x

    variacion total en y

    =suma de cuadrados debido a regresión

    suma total de cuadrados

    =∑n

    i=1(ŷi − Ȳ )2∑ni=1(yi − Ȳ )2

    donde ŷi es el la predicción obtenida de la linea deregresión (ŷi = αxi + β).

    Note que para el caso de perfecta correlación lineal (r = 1 or = −1) r2 = 1. O sea que r2 mide que tan exitosa fue lacorrelación.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression

    Observe también que:La linea de regresión siempre pasa por

    (X̄, Ȳ

    ).

    r2 es la fracción de variación en Y que se explica por laregresión lineal de Y en X. Esto es:

    r2 =variacion en ŷ a medida que cambia x

    variacion total en y

    =suma de cuadrados debido a regresión

    suma total de cuadrados

    =∑n

    i=1(ŷi − Ȳ )2∑ni=1(yi − Ȳ )2

    donde ŷi es el la predicción obtenida de la linea deregresión (ŷi = αxi + β).Note que para el caso de perfecta correlación lineal (r = 1 or = −1) r2 = 1. O sea que r2 mide que tan exitosa fue lacorrelación.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression: residual

    Definition (Residual)

    residual = yi − ŷ para cada i

    donde yi es al i-ésimo dato y ŷ = αx+ β (esto es la prediccióndel linear LS regression).

    Note que la media de los residuales es cero.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression: residual

    Los residuales pueden ilustrarse en una gráfica de residualvs. variable independiente. En esta nos fijamos:

    Patrones curvos: estos implican relación no lineal.Dispersión decresiente o cresiente sobre la media: indicanpredicciones menos certeras a medida que x crece/decrese.Puntos individuales con residual grande: outliersPuntos extremos a lo largo de eje de x pero sin residualgrande: observación influyente (para el LSP).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression: residual

    Los residuales pueden ilustrarse en una gráfica de residualvs. variable independiente. En esta nos fijamos:

    Patrones curvos: estos implican relación no lineal.

    Dispersión decresiente o cresiente sobre la media: indicanpredicciones menos certeras a medida que x crece/decrese.Puntos individuales con residual grande: outliersPuntos extremos a lo largo de eje de x pero sin residualgrande: observación influyente (para el LSP).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression: residual

    Los residuales pueden ilustrarse en una gráfica de residualvs. variable independiente. En esta nos fijamos:

    Patrones curvos: estos implican relación no lineal.Dispersión decresiente o cresiente sobre la media: indicanpredicciones menos certeras a medida que x crece/decrese.

    Puntos individuales con residual grande: outliersPuntos extremos a lo largo de eje de x pero sin residualgrande: observación influyente (para el LSP).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression: residual

    Los residuales pueden ilustrarse en una gráfica de residualvs. variable independiente. En esta nos fijamos:

    Patrones curvos: estos implican relación no lineal.Dispersión decresiente o cresiente sobre la media: indicanpredicciones menos certeras a medida que x crece/decrese.Puntos individuales con residual grande: outliers

    Puntos extremos a lo largo de eje de x pero sin residualgrande: observación influyente (para el LSP).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Least-squares regression: residual

    Los residuales pueden ilustrarse en una gráfica de residualvs. variable independiente. En esta nos fijamos:

    Patrones curvos: estos implican relación no lineal.Dispersión decresiente o cresiente sobre la media: indicanpredicciones menos certeras a medida que x crece/decrese.Puntos individuales con residual grande: outliersPuntos extremos a lo largo de eje de x pero sin residualgrande: observación influyente (para el LSP).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Fig. 2.18 del texto

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo:

    Considere el “stock market”. Algúnos piensan que elcomportamiento del stock market a principios del año predice loque ocurriá el resto del año. Ahora, suponga que X es lavariable independiente y Y la dependiente donde:

    X ≡ taza de cambio en el stock market index en eneroY ≡ taza de cambio en el stock market index en el resto del año

    1 Calcule la linea de regresión:

    α = rsysx

    = (0.596)0.15350.0536

    = 1.7068

    β = Ȳ − αX̄ = 0.0907− (1.7068)(0.0175) = 0.0608

    ⇒ ŷi = 1.7068xi + 0.06082 Calcule r2. ¿Cómo interpretamos?

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo:

    Los datos en los últimos 38 años se resumen como sigue:X̄ = 0.0175, Ȳ = 0.0907, sx = 0.0536, sy = 0.1535, y r = 0.596

    1 Calcule la linea de regresión:

    α = rsysx

    = (0.596)0.15350.0536

    = 1.7068

    β = Ȳ − αX̄ = 0.0907− (1.7068)(0.0175) = 0.0608

    ⇒ ŷi = 1.7068xi + 0.06082 Calcule r2. ¿Cómo interpretamos?

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo:

    Los datos en los últimos 38 años se resumen como sigue:X̄ = 0.0175, Ȳ = 0.0907, sx = 0.0536, sy = 0.1535, y r = 0.596

    1 Calcule la linea de regresión:

    α = rsysx

    = (0.596)0.15350.0536

    = 1.7068

    β = Ȳ − αX̄ = 0.0907− (1.7068)(0.0175) = 0.0608

    ⇒ ŷi = 1.7068xi + 0.0608

    2 Calcule r2. ¿Cómo interpretamos?

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo:

    Los datos en los últimos 38 años se resumen como sigue:X̄ = 0.0175, Ȳ = 0.0907, sx = 0.0536, sy = 0.1535, y r = 0.596

    1 Calcule la linea de regresión:

    α = rsysx

    = (0.596)0.15350.0536

    = 1.7068

    β = Ȳ − αX̄ = 0.0907− (1.7068)(0.0175) = 0.0608

    ⇒ ŷi = 1.7068xi + 0.06082 Calcule r2. ¿Cómo interpretamos?

    Aniel Nieves-González Quatitative variables and the LS problem

  • Ejemplo:

    Los datos en los últimos 38 años se resumen como sigue:X̄ = 0.0175, Ȳ = 0.0907, sx = 0.0536, sy = 0.1535, y r = 0.596

    1 Calcule la linea de regresión:

    α = rsysx

    = (0.596)0.15350.0536

    = 1.7068

    β = Ȳ − αX̄ = 0.0907− (1.7068)(0.0175) = 0.0608

    ⇒ ŷi = 1.7068xi + 0.06082 Calcule r2. ¿Cómo interpretamos? r2 = 0.3552. O sea un

    35.5% de la variación en Y se explica (linealmente) por lavariación en X.

    Aniel Nieves-González Quatitative variables and the LS problem

  • Otro ejemplo

    Considere los datos del primer y del cuarto panel del ejemplo 1:

    1 1.2 1.4 1.6 1.8 22

    2.2

    2.4

    2.6

    2.8

    3

    X

    Y

    0 0.2 0.4 0.6 0.8 1−2

    −1.5

    −1

    −0.5

    0

    X

    Y

    0 0.2 0.4 0.6 0.8 10.1

    0.2

    0.3

    0.4

    0.5

    0.6

    0.7

    0.8

    0.9

    1

    X

    Y

    0 0.2 0.4 0.6 0.8 1−1

    0

    1

    2

    3

    4

    5

    6

    X

    Y

    Aniel Nieves-González Quatitative variables and the LS problem

  • Otro ejemplo

    Usando “software” obtenemos lo siguiente

    1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 21.8

    2

    2.2

    2.4

    2.6

    2.8

    3

    X

    Y

    Data

    Regression line (r2 = 1)

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−2

    −1

    0

    1

    2

    3

    4

    5

    6

    X

    Y

    Data

    Regression line (r2 = 0.9326)

    Aniel Nieves-González Quatitative variables and the LS problem

  • Otro ejemplo

    Usando “software” obtenemos lo siguiente

    1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2

    −15

    −10

    −5

    0

    5

    10

    15

    x

    Res

    idua

    l Dat

    a1

    0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

    −15

    −10

    −5

    0

    5

    10

    15

    x

    Res

    idua

    l Dat

    a4

    Aniel Nieves-González Quatitative variables and the LS problem

  • Otro ejemplo

    Aunque el ejemplo se hizo usando la palataforma deprogramación MATLAB, existen otras herramientas:

    lenguage de programación R.

    Excell (spreadsheet)Calc (spreadsheet).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Otro ejemplo

    Aunque el ejemplo se hizo usando la palataforma deprogramación MATLAB, existen otras herramientas:

    lenguage de programación R.Excell (spreadsheet)

    Calc (spreadsheet).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Otro ejemplo

    Aunque el ejemplo se hizo usando la palataforma deprogramación MATLAB, existen otras herramientas:

    lenguage de programación R.Excell (spreadsheet)Calc (spreadsheet).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Detalles sobre correlación y regresión lineal

    1 Regresión y correlación describen relaciones lineales.

    2 No son medidas robustas, sino sensitivas a outliers yvalores extremos.

    3 La regresión se construye para el rango donde hay datos.¡Cuidado con la extrapolación! Esto es, hacer prediccionesmás allá del rango para el cual hay datos para la var. ind.

    4 Correlaciones basadas en datos que son promedios tiendena resultar en mayor correlación que si se usan dato deindividuos.

    5 Regresión y correlación se enfocan en relaciones entre dosvariables. Pero en ocaciones la relación se explica por unatercera variable (lurking variable) que no estuvoconsiderada en el estudio.

    6 Asociación (correlación) no implica causalidad (mireejem. 2.18).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Detalles sobre correlación y regresión lineal

    1 Regresión y correlación describen relaciones lineales.2 No son medidas robustas, sino sensitivas a outliers y

    valores extremos.

    3 La regresión se construye para el rango donde hay datos.¡Cuidado con la extrapolación! Esto es, hacer prediccionesmás allá del rango para el cual hay datos para la var. ind.

    4 Correlaciones basadas en datos que son promedios tiendena resultar en mayor correlación que si se usan dato deindividuos.

    5 Regresión y correlación se enfocan en relaciones entre dosvariables. Pero en ocaciones la relación se explica por unatercera variable (lurking variable) que no estuvoconsiderada en el estudio.

    6 Asociación (correlación) no implica causalidad (mireejem. 2.18).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Detalles sobre correlación y regresión lineal

    1 Regresión y correlación describen relaciones lineales.2 No son medidas robustas, sino sensitivas a outliers y

    valores extremos.3 La regresión se construye para el rango donde hay datos.

    ¡Cuidado con la extrapolación! Esto es, hacer prediccionesmás allá del rango para el cual hay datos para la var. ind.

    4 Correlaciones basadas en datos que son promedios tiendena resultar en mayor correlación que si se usan dato deindividuos.

    5 Regresión y correlación se enfocan en relaciones entre dosvariables. Pero en ocaciones la relación se explica por unatercera variable (lurking variable) que no estuvoconsiderada en el estudio.

    6 Asociación (correlación) no implica causalidad (mireejem. 2.18).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Detalles sobre correlación y regresión lineal

    1 Regresión y correlación describen relaciones lineales.2 No son medidas robustas, sino sensitivas a outliers y

    valores extremos.3 La regresión se construye para el rango donde hay datos.

    ¡Cuidado con la extrapolación! Esto es, hacer prediccionesmás allá del rango para el cual hay datos para la var. ind.

    4 Correlaciones basadas en datos que son promedios tiendena resultar en mayor correlación que si se usan dato deindividuos.

    5 Regresión y correlación se enfocan en relaciones entre dosvariables. Pero en ocaciones la relación se explica por unatercera variable (lurking variable) que no estuvoconsiderada en el estudio.

    6 Asociación (correlación) no implica causalidad (mireejem. 2.18).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Detalles sobre correlación y regresión lineal

    1 Regresión y correlación describen relaciones lineales.2 No son medidas robustas, sino sensitivas a outliers y

    valores extremos.3 La regresión se construye para el rango donde hay datos.

    ¡Cuidado con la extrapolación! Esto es, hacer prediccionesmás allá del rango para el cual hay datos para la var. ind.

    4 Correlaciones basadas en datos que son promedios tiendena resultar en mayor correlación que si se usan dato deindividuos.

    5 Regresión y correlación se enfocan en relaciones entre dosvariables. Pero en ocaciones la relación se explica por unatercera variable (lurking variable) que no estuvoconsiderada en el estudio.

    6 Asociación (correlación) no implica causalidad (mireejem. 2.18).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Detalles sobre correlación y regresión lineal

    1 Regresión y correlación describen relaciones lineales.2 No son medidas robustas, sino sensitivas a outliers y

    valores extremos.3 La regresión se construye para el rango donde hay datos.

    ¡Cuidado con la extrapolación! Esto es, hacer prediccionesmás allá del rango para el cual hay datos para la var. ind.

    4 Correlaciones basadas en datos que son promedios tiendena resultar en mayor correlación que si se usan dato deindividuos.

    5 Regresión y correlación se enfocan en relaciones entre dosvariables. Pero en ocaciones la relación se explica por unatercera variable (lurking variable) que no estuvoconsiderada en el estudio.

    6 Asociación (correlación) no implica causalidad (mireejem. 2.18).

    Aniel Nieves-González Quatitative variables and the LS problem

  • Preguntas...

    Aniel Nieves-González Quatitative variables and the LS problem