técnicas multivariadas avanzadasclopez/tecnicas/mas_alla... · 2014. 11. 4. · funciones paso,...

28

Upload: others

Post on 01-Feb-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Técnicas Multivariadas Avanzadas

    Más alla de la linealidad

    Ms Carlos López de Castilla Vásquez

    Universidad Nacional Agraria La Molina

    2014-2

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Introducción

    Introducción

    Las relaciones entre variables casi nunca son lineales.

    Sin embargo el supuesto de linealidad casi siempre es

    su�ciente.

    Existen algunas alternativas como la regresión polinomial, las

    funciones paso, splines, regresión local y los modelos aditivos

    generalizados.

    Estos métodos ofrecen gran �exibilidad sin perder la esencia e

    interpretabilidad de los modelos lineales.

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Regresión PolinomialFunciones pasoPolinomios por partes

    Regresión Polinomial

    yi = β0 + β1xi + β2x2i + β3x

    3i + · · ·+ βdxdi + �i

    20 30 40 50 60 70 80

    50

    100

    150

    200

    250

    300

    Age

    Wage

    Degree−4 Polynomial

    20 30 40 50 60 70 80

    0.0

    00.0

    50.1

    00.1

    50.2

    0

    Age

    | | || | ||| | ||| | | ||| | || | | |||

    |

    || || ||| | | | || || || | || |

    |

    || | | |

    |

    | || || || | | || | ||| || ||| | | |

    |

    | || | ||| || | || |||| || || ||| || || ||| |||| || | | | ||

    |

    || || ||| ||| || || ||| || ||| | || ||| |||| ||| || | | | ||| || |||| |||| || || | ||||| | || || || | ||| | || ||| || | || ||

    |

    ||| | || | || || | || | ||| || || | || ||| |

    |

    | | |||| ||| | || | |||| ||| || || ||| | | || || |||||| || | || || | || || | | || || || | || ||| || | || || ||||| ||||| || || || || | |||| || || ||| | || || || |

    |

    | |||| ||| || || || ||| | | ||

    |

    || |

    |

    | || || || ||| || || | || || || | || ||| || | ||| || | || || || | |||| || | |||| | |||| || | | | ||||

    |

    | || || || || || |

    |

    | |||| || || |||| | || || || ||| | || |||| || |

    |

    | | |||| || || || |

    |

    || |||| ||| ||

    |

    ||| || |||| | || || | | |||

    |

    ||| || | || | || | || || ||||| | | ||| |

    |

    | | || || ||| ||| | || |

    |

    || | || || | |||| || | || || | ||| || || || || |||| || | ||||| | | |||| | || ||| || ||| |

    |

    | ||| | || || | | || |

    |

    | | | ||| |||| || || | | || || | |||| | | | ||| | || | |||| ||| | |

    |

    || ||||| ||| | | || || || || || || || |

    |

    | || || || | ||| || || | || || |||| |||| |

    |

    | || || ||| || | | ||| || || | ||| ||| || || |

    |

    ||| || || || || || | | ||| | || ||| || || | |||| || | |

    |

    || || ||||| || | || || ||| | ||| | || ||| ||||| || ||||| ||| | ||| ||| | || || || ||| || || | | || |

    |

    | || |||| ||| | |||

    |

    | | | | || | ||| | | || | |||| || ||| || | ||| || | ||| ||

    |

    || || |||| | ||| | || | | ||| |||| || ||| || || || | | || | || | || || || || | | || || | |

    |

    || ||| ||||| ||| ||| || ||||| || || | ||| || | | || | ||| | | ||| || || || || | ||| ||| || || |||

    |

    | || || ||| | | ||| | |||| | || || ||||

    |

    | | || | || | || | |||

    |

    | || || ||| | | ||| ||| | || ||| || || ||| | |||| | ||| | ||| | || | || | || | | || || || || || |||| || | | || | | | |||| || | ||| | || ||| || || ||| ||

    |

    ||| ||| | || || || | | || | || || || || || || | || || | || || |

    |

    | || ||| || |

    | |

    | ||| | || || |

    |

    | |||| ||| | |||| ||

    |

    | ||| ||| ||| |||| |

    |

    | || || || || ||| | | | || || | ||| || | || | || | |||| | ||| ||| ||

    |

    | | ||||| ||| | | || || | | |||| | |||| ||| ||| | || | || || || | || | || || ||| | || ||| | || || ||| | | | |||| | || | | ||| ||| |||| | | ||| | |||| | || | || || | ||

    |

    | || ||||| || ||| ||| || | | ||||| || |||| || | | ||| | || || || ||| |||| |||| | | || || || | ||| | || || || | | || || || |||| || ||| || ||| || |

    |

    | || || |||| || | ||| | ||| || | || |||| |||| ||| | | | || ||| | || | | ||

    |

    || |||| ||| ||| || | | |||| ||| |||| || |||| || || ||| |||| | ||| | |

    |

    || | || || || | ||| | || ||| || ||| | || || ||| | || || || | || ||| | || || |||| || || | || ||| ||

    |

    || || | || || || | || | ||| | ||| || | || || ||| || ||| ||| || | || || | | || || || ||| || || || | ||| || | |||

    |

    || | |

    |

    ||| | | | || ||| || | ||||| | | || || || | | || || || | | || ||| | |||| |

    |

    ||||| | | | || || | | ||| || | | || | || | ||| || |||| | ||| | || || ||||| | || ||| ||| | || || || || || ||| | ||||| || || ||| ||| || | | || || || ||

    |

    | || | | || | || || | || || || | |||| | | | ||| | | ||

    |

    | | || ||

    |

    || | | ||| || ||| || || | || || || || | | || ||| || ||| || || || ||| | ||| || ||| || ||| | ||| | | | || || | ||| ||| || | ||

    |

    |||| |

    |

    || | |||| ||| | || || ||| || ||| | |||| || |

    |

    || ||| ||| | ||| | || | | | ||| || | || || ||| | | | ||| || || ||| || | ||| | || |||| | |||| | ||| || || || || || | ||| || || | | ||| || || |||| ||| || | || ||| || | ||| |

    |

    | || | |||

    |

    | | || || | ||| || |

    |

    | | ||| || || || | | || | ||| | | ||| || | | || | | || ||||| || || |||| | ||| | | || || | | || | | |

    |

    || || |||| | || |||| |

    ||

    | | | ||||| |||

    |

    || |||| | |||| || |

    |

    | | || ||||| ||||| | || || || | || ||| ||| | || ||| || ||| || | || || ||| || | | | || || ||| | || || | || || |

    |

    | || ||

    |

    || || ||| || | | | || |||| || |||| ||| || |||| || || | ||| | |||

    |

    || ||| | |

    | |

    || || | ||| || ||| | | |||| | ||| | |||| || ||| || || | ||| | ||| | |||| || | || |||| | ||||| ||| | | ||| | ||| || ||| || | ||| || ||| | ||| || | ||| | | || || || || | ||| || || || |||| ||| | ||| || || |||| || |||

    |

    | |||

    |

    | ||

    |

    | |

    |

    |

    |

    | | | || || |||

    |

    |||| ||

    |

    || || || || || || | | ||||| | ||| || | ||| ||| || ||| || | | || || | || | || ||| |||| || || ||| |||| ||| ||| ||| | | || |

    |

    | ||| || || || ||| ||| | ||| | || || ||| || || ||| ||

    |

    | ||| | || | || || |||| || ||| || | | ||| || | || ||| || || | || ||

    |

    | | ||| || | | | ||

    |

    | | || | | ||| | || | || | ||| || || ||| | | || |

    |

    || ||| || || | || || |||| || || || | || || | || ||| | || ||| | || ||| || || | | || || ||| || || || ||| |||| |

    Pr(Wage>

    250|A

    ge)

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Regresión PolinomialFunciones pasoPolinomios por partes

    Regresión Polinomial

    Se crean nuevas variables: X1 = X , X2 = X2, etc y luego se

    estima el modelo de regresión usando MCO.

    El interés principal no esta en los coe�cientes sino en los

    valores estimados para un valor x0:

    f̂ (x0) = β̂0 + β̂1x0 + β̂2x20 + β̂3x

    30 + β̂4x

    40

    Como f̂ (x0) es una función lineal de los β̂l se puede obtener laexpresión para la variancia V (f̂ (x0)).

    En la grá�ca anterior se observan las estimaciones puntuales y

    los intervalos correspondientes a:

    f̂ (x0)± 2SE (f̂ (x0))

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Regresión PolinomialFunciones pasoPolinomios por partes

    Regresión Polinomial

    Para determinar d puede usarse validación cruzada.

    Es posible aplicar una ecuación polinomial a la regresión

    logística, por ejemplo:

    Pr(yi > 250|xi ) =exp{β0 + β1xi + β2x2i + · · ·+ βdxdi }

    1+ exp{β0 + β1xi + β2x2i + · · ·+ βdxdi }

    Para obtener intervalos de con�anza se calculan los limites en

    la escala logit y luego se convierten en probabilidades.

    Advertencia: Los modelos polinomiales son malos para

    extrapolación.

    En R: y~poly(x,degree=3).

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Regresión PolinomialFunciones pasoPolinomios por partes

    Funciones paso

    Se puede cortar la variables en diferentes regiones, por ejemplo:

    C1(X ) = I (X < 35) · · · C4(X ) = I (X ≥ 65)

    20 30 40 50 60 70 80

    50

    100

    150

    200

    250

    300

    Age

    Wage

    Piecewise Constant

    20 30 40 50 60 70 80

    0.0

    00.0

    50.1

    00.1

    50.2

    0

    Age

    | | || | ||| | ||| | | ||| | || | | |||

    |

    || || ||| | | | || || || | || |

    |

    || | | |

    |

    | || || || | | || | ||| || ||| | | |

    |

    | || | ||| || | || |||| || || ||| || || ||| |||| || | | | ||

    |

    || || ||| ||| || || ||| || ||| | || ||| |||| ||| || | | | ||| || |||| |||| || || | ||||| | || || || | ||| | || ||| || | || ||

    |

    ||| | || | || || | || | ||| || || | || ||| |

    |

    | | |||| ||| | || | |||| ||| || || ||| | | || || |||||| || | || || | || || | | || || || | || ||| || | || || ||||| ||||| || || || || | |||| || || ||| | || || || |

    |

    | |||| ||| || || || ||| | | ||

    |

    || |

    |

    | || || || ||| || || | || || || | || ||| || | ||| || | || || || | |||| || | |||| | |||| || | | | ||||

    |

    | || || || || || |

    |

    | |||| || || |||| | || || || ||| | || |||| || |

    |

    | | |||| || || || |

    |

    || |||| ||| ||

    |

    ||| || |||| | || || | | |||

    |

    ||| || | || | || | || || ||||| | | ||| |

    |

    | | || || ||| ||| | || |

    |

    || | || || | |||| || | || || | ||| || || || || |||| || | ||||| | | |||| | || ||| || ||| |

    |

    | ||| | || || | | || |

    |

    | | | ||| |||| || || | | || || | |||| | | | ||| | || | |||| ||| | |

    |

    || ||||| ||| | | || || || || || || || |

    |

    | || || || | ||| || || | || || |||| |||| |

    |

    | || || ||| || | | ||| || || | ||| ||| || || |

    |

    ||| || || || || || | | ||| | || ||| || || | |||| || | |

    |

    || || ||||| || | || || ||| | ||| | || ||| ||||| || ||||| ||| | ||| ||| | || || || ||| || || | | || |

    |

    | || |||| ||| | |||

    |

    | | | | || | ||| | | || | |||| || ||| || | ||| || | ||| ||

    |

    || || |||| | ||| | || | | ||| |||| || ||| || || || | | || | || | || || || || | | || || | |

    |

    || ||| ||||| ||| ||| || ||||| || || | ||| || | | || | ||| | | ||| || || || || | ||| ||| || || |||

    |

    | || || ||| | | ||| | |||| | || || ||||

    |

    | | || | || | || | |||

    |

    | || || ||| | | ||| ||| | || ||| || || ||| | |||| | ||| | ||| | || | || | || | | || || || || || |||| || | | || | | | |||| || | ||| | || ||| || || ||| ||

    |

    ||| ||| | || || || | | || | || || || || || || | || || | || || |

    |

    | || ||| || |

    | |

    | ||| | || || |

    |

    | |||| ||| | |||| ||

    |

    | ||| ||| ||| |||| |

    |

    | || || || || ||| | | | || || | ||| || | || | || | |||| | ||| ||| ||

    |

    | | ||||| ||| | | || || | | |||| | |||| ||| ||| | || | || || || | || | || || ||| | || ||| | || || ||| | | | |||| | || | | ||| ||| |||| | | ||| | |||| | || | || || | ||

    |

    | || ||||| || ||| ||| || | | ||||| || |||| || | | ||| | || || || ||| |||| |||| | | || || || | ||| | || || || | | || || || |||| || ||| || ||| || |

    |

    | || || |||| || | ||| | ||| || | || |||| |||| ||| | | | || ||| | || | | ||

    |

    || |||| ||| ||| || | | |||| ||| |||| || |||| || || ||| |||| | ||| | |

    |

    || | || || || | ||| | || ||| || ||| | || || ||| | || || || | || ||| | || || |||| || || | || ||| ||

    |

    || || | || || || | || | ||| | ||| || | || || ||| || ||| ||| || | || || | | || || || ||| || || || | ||| || | |||

    |

    || | |

    |

    ||| | | | || ||| || | ||||| | | || || || | | || || || | | || ||| | |||| |

    |

    ||||| | | | || || | | ||| || | | || | || | ||| || |||| | ||| | || || ||||| | || ||| ||| | || || || || || ||| | ||||| || || ||| ||| || | | || || || ||

    |

    | || | | || | || || | || || || | |||| | | | ||| | | ||

    |

    | | || ||

    |

    || | | ||| || ||| || || | || || || || | | || ||| || ||| || || || ||| | ||| || ||| || ||| | ||| | | | || || | ||| ||| || | ||

    |

    |||| |

    |

    || | |||| ||| | || || ||| || ||| | |||| || |

    |

    || ||| ||| | ||| | || | | | ||| || | || || ||| | | | ||| || || ||| || | ||| | || |||| | |||| | ||| || || || || || | ||| || || | | ||| || || |||| ||| || | || ||| || | ||| |

    |

    | || | |||

    |

    | | || || | ||| || |

    |

    | | ||| || || || | | || | ||| | | ||| || | | || | | || ||||| || || |||| | ||| | | || || | | || | | |

    |

    || || |||| | || |||| |

    ||

    | | | ||||| |||

    |

    || |||| | |||| || |

    |

    | | || ||||| ||||| | || || || | || ||| ||| | || ||| || ||| || | || || ||| || | | | || || ||| | || || | || || |

    |

    | || ||

    |

    || || ||| || | | | || |||| || |||| ||| || |||| || || | ||| | |||

    |

    || ||| | |

    | |

    || || | ||| || ||| | | |||| | ||| | |||| || ||| || || | ||| | ||| | |||| || | || |||| | ||||| ||| | | ||| | ||| || ||| || | ||| || ||| | ||| || | ||| | | || || || || | ||| || || || |||| ||| | ||| || || |||| || |||

    |

    | |||

    |

    | ||

    |

    | |

    |

    |

    |

    | | | || || |||

    |

    |||| ||

    |

    || || || || || || | | ||||| | ||| || | ||| ||| || ||| || | | || || | || | || ||| |||| || || ||| |||| ||| ||| ||| | | || |

    |

    | ||| || || || ||| ||| | ||| | || || ||| || || ||| ||

    |

    | ||| | || | || || |||| || ||| || | | ||| || | || ||| || || | || ||

    |

    | | ||| || | | | ||

    |

    | | || | | ||| | || | || | ||| || || ||| | | || |

    |

    || ||| || || | || || |||| || || || | || || | || ||| | || ||| | || ||| || || | | || || ||| || || || ||| |||| |

    Pr(Wage>

    250|A

    ge)

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Regresión PolinomialFunciones pasoPolinomios por partes

    Funciones paso

    Se requiere de un conjunto de variables dummy para

    representar cada grupo.

    Se pueden establecer interacciones que son fáciles de

    interpretar, por ejemplo:

    I (Year < 2005) · Age I (Year ≥ 2005) · Age

    considera diferentes funciones lineales en cada grupo.

    En R: I(year

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Regresión PolinomialFunciones pasoPolinomios por partes

    Polinomios por partes

    Se pueden usar polinomios diferentes en las regiones de�nidas

    por los knots, por ejemplo:

    yi =

    {β01 + β11xi + β21x

    2i + β31x

    3i + �i xi < ci

    β02 + β12xi + β22x2i + β32x

    3i + �i xi ≥ ci

    Es necesario agregar restricciones a los polinomios, por

    ejemplo para lograr continuidad.

    Los splines permiten obtener la mayor cantidad de continuidad.

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Regresión PolinomialFunciones pasoPolinomios por partes

    Polinomios por partes

    20 30 40 50 60 70

    50

    100

    150

    200

    250

    Age

    Wage

    Piecewise Cubic

    20 30 40 50 60 70

    50

    100

    150

    200

    250

    Age

    Wage

    Continuous Piecewise Cubic

    20 30 40 50 60 70

    50

    100

    150

    200

    250

    Age

    Wage

    Cubic Spline

    20 30 40 50 60 70

    50

    100

    150

    200

    250

    Age

    Wage

    Linear Spline

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Splines lineales

    Un spline lineal con knots en ξk , k = 1, · · · ,K es unpolinomio lineal por partes que es continuo en cada knot.

    Se puede representar este modelo como:

    yi = β0 + β1b1(xi ) + β2b2(xi ) + · · ·+ βK+3bK+3(xi ) + �i

    donde los bk son funciones base:

    b1(xi ) = xi

    bk+1(xi ) = (xi − ξk)+ k = 1, · · · ,K + 2

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Splines lineales

    La notación ()+ representa la parte positiva, es decir:

    (xi − ξk)+ ={xi − ξk xi > ξk0 xi ≤ ξk

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Splines cúbicos

    Un spline cúbico es un polinomio cúbico por partes que tiene

    derivadas continuas de orden dos o más en cada knot ξk parak = 1, · · · ,K .Se puede representar este modelo como:

    yi = β0 + β1b1(xi ) + β2b2(xi ) + · · ·+ βK+3bK+3(xi ) + �i

    donde los bk son funciones base:

    b1(xi ) = xi

    b2(xi ) = x2i

    b3(xi ) = x3i

    bk+3(xi ) = (xi − ξk)3+ k = 1, · · · ,K

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Splines cúbicos

    La notación ()+ representa la parte positiva, ahora:

    (xi − ξk)3+ ={(xi − ξk)3 xi > ξk0 xi ≤ ξk

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Splines cúbicos naturales

    Los splines tienen mucha varianza fuera del rango de los

    predictores.

    Un spline cúbico natural considera 4 restricciones adicionales

    para que la función sea lineal en la frontera manteniendo los

    mismos grados de libertad de un spline cúbico regular.

    Estas restricciones permiten que un spline cúbico natural

    generalmente produzca estimaciones más estables en la

    frontera.

    Se pueden estimar splines en R usando bs(x, ...) parasplines de cualquier grado y ns(x, ...) para splinescúbicos naturales dentro de la librería splines.

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Splines cúbicos naturales

    20 30 40 50 60 70

    50

    10

    01

    50

    20

    02

    50

    Age

    Wa

    ge

    Natural Cubic Spline

    Cubic Spline

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Splines cúbicos naturales

    20 30 40 50 60 70 80

    50

    100

    150

    200

    250

    300

    Age

    Wage

    Natural Cubic Spline

    20 30 40 50 60 70 80

    0.0

    00.0

    50.1

    00.1

    50.2

    0

    Age

    | | || | ||| | ||| | | ||| | || | | |||

    |

    || || ||| | | | || || || | || |

    |

    || | | |

    |

    | || || || | | || | ||| || ||| | | |

    |

    | || | ||| || | || |||| || || ||| || || ||| |||| || | | | ||

    |

    || || ||| ||| || || ||| || ||| | || ||| |||| ||| || | | | ||| || |||| |||| || || | ||||| | || || || | ||| | || ||| || | || ||

    |

    ||| | || | || || | || | ||| || || | || ||| |

    |

    | | |||| ||| | || | |||| ||| || || ||| | | || || |||||| || | || || | || || | | || || || | || ||| || | || || ||||| ||||| || || || || | |||| || || ||| | || || || |

    |

    | |||| ||| || || || ||| | | ||

    |

    || |

    |

    | || || || ||| || || | || || || | || ||| || | ||| || | || || || | |||| || | |||| | |||| || | | | ||||

    |

    | || || || || || |

    |

    | |||| || || |||| | || || || ||| | || |||| || |

    |

    | | |||| || || || |

    |

    || |||| ||| ||

    |

    ||| || |||| | || || | | |||

    |

    ||| || | || | || | || || ||||| | | ||| |

    |

    | | || || ||| ||| | || |

    |

    || | || || | |||| || | || || | ||| || || || || |||| || | ||||| | | |||| | || ||| || ||| |

    |

    | ||| | || || | | || |

    |

    | | | ||| |||| || || | | || || | |||| | | | ||| | || | |||| ||| | |

    |

    || ||||| ||| | | || || || || || || || |

    |

    | || || || | ||| || || | || || |||| |||| |

    |

    | || || ||| || | | ||| || || | ||| ||| || || |

    |

    ||| || || || || || | | ||| | || ||| || || | |||| || | |

    |

    || || ||||| || | || || ||| | ||| | || ||| ||||| || ||||| ||| | ||| ||| | || || || ||| || || | | || |

    |

    | || |||| ||| | |||

    |

    | | | | || | ||| | | || | |||| || ||| || | ||| || | ||| ||

    |

    || || |||| | ||| | || | | ||| |||| || ||| || || || | | || | || | || || || || | | || || | |

    |

    || ||| ||||| ||| ||| || ||||| || || | ||| || | | || | ||| | | ||| || || || || | ||| ||| || || |||

    |

    | || || ||| | | ||| | |||| | || || ||||

    |

    | | || | || | || | |||

    |

    | || || ||| | | ||| ||| | || ||| || || ||| | |||| | ||| | ||| | || | || | || | | || || || || || |||| || | | || | | | |||| || | ||| | || ||| || || ||| ||

    |

    ||| ||| | || || || | | || | || || || || || || | || || | || || |

    |

    | || ||| || |

    | |

    | ||| | || || |

    |

    | |||| ||| | |||| ||

    |

    | ||| ||| ||| |||| |

    |

    | || || || || ||| | | | || || | ||| || | || | || | |||| | ||| ||| ||

    |

    | | ||||| ||| | | || || | | |||| | |||| ||| ||| | || | || || || | || | || || ||| | || ||| | || || ||| | | | |||| | || | | ||| ||| |||| | | ||| | |||| | || | || || | ||

    |

    | || ||||| || ||| ||| || | | ||||| || |||| || | | ||| | || || || ||| |||| |||| | | || || || | ||| | || || || | | || || || |||| || ||| || ||| || |

    |

    | || || |||| || | ||| | ||| || | || |||| |||| ||| | | | || ||| | || | | ||

    |

    || |||| ||| ||| || | | |||| ||| |||| || |||| || || ||| |||| | ||| | |

    |

    || | || || || | ||| | || ||| || ||| | || || ||| | || || || | || ||| | || || |||| || || | || ||| ||

    |

    || || | || || || | || | ||| | ||| || | || || ||| || ||| ||| || | || || | | || || || ||| || || || | ||| || | |||

    |

    || | |

    |

    ||| | | | || ||| || | ||||| | | || || || | | || || || | | || ||| | |||| |

    |

    ||||| | | | || || | | ||| || | | || | || | ||| || |||| | ||| | || || ||||| | || ||| ||| | || || || || || ||| | ||||| || || ||| ||| || | | || || || ||

    |

    | || | | || | || || | || || || | |||| | | | ||| | | ||

    |

    | | || ||

    |

    || | | ||| || ||| || || | || || || || | | || ||| || ||| || || || ||| | ||| || ||| || ||| | ||| | | | || || | ||| ||| || | ||

    |

    |||| |

    |

    || | |||| ||| | || || ||| || ||| | |||| || |

    |

    || ||| ||| | ||| | || | | | ||| || | || || ||| | | | ||| || || ||| || | ||| | || |||| | |||| | ||| || || || || || | ||| || || | | ||| || || |||| ||| || | || ||| || | ||| |

    |

    | || | |||

    |

    | | || || | ||| || |

    |

    | | ||| || || || | | || | ||| | | ||| || | | || | | || ||||| || || |||| | ||| | | || || | | || | | |

    |

    || || |||| | || |||| |

    ||

    | | | ||||| |||

    |

    || |||| | |||| || |

    |

    | | || ||||| ||||| | || || || | || ||| ||| | || ||| || ||| || | || || ||| || | | | || || ||| | || || | || || |

    |

    | || ||

    |

    || || ||| || | | | || |||| || |||| ||| || |||| || || | ||| | |||

    |

    || ||| | |

    | |

    || || | ||| || ||| | | |||| | ||| | |||| || ||| || || | ||| | ||| | |||| || | || |||| | ||||| ||| | | ||| | ||| || ||| || | ||| || ||| | ||| || | ||| | | || || || || | ||| || || || |||| ||| | ||| || || |||| || |||

    |

    | |||

    |

    | ||

    |

    | |

    |

    |

    |

    | | | || || |||

    |

    |||| ||

    |

    || || || || || || | | ||||| | ||| || | ||| ||| || ||| || | | || || | || | || ||| |||| || || ||| |||| ||| ||| ||| | | || |

    |

    | ||| || || || ||| ||| | ||| | || || ||| || || ||| ||

    |

    | ||| | || | || || |||| || ||| || | | ||| || | || ||| || || | || ||

    |

    | | ||| || | | | ||

    |

    | | || | | ||| | || | || | ||| || || ||| | | || |

    |

    || ||| || || | || || |||| || || || | || || | || ||| | || ||| | || ||| || || | | || || ||| || || || ||| |||| |

    Pr(Wage>

    250|A

    ge)

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Ubicación de los knots

    Una estrategia es decidir primero el número de knots K yluego usar algunos cuantiles apropiados para los valores

    observados de X .

    Un spline cúbico con K knots tiene K + 4 parámetros o gradosde libertad.

    Un spline natural con K knots tiene K grados de libertad.

    En el siguiente grá�co se muestra un polinomio de grado 15 y

    un spline cúbico natural con 15 grados de libertad usando

    ns(age, df=15) y poly(age, deg=15).

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Ubicación de los knots

    20 30 40 50 60 70 80

    50

    10

    01

    50

    20

    02

    50

    30

    0

    Age

    Wa

    ge

    Natural Cubic Spline

    Polynomial

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Suavización por Splines

    Considere el siguiente criterio para estimar una función

    suavizada g(x) a partir de una data:

    ming∈S

    n∑i=1

    (yi − g(xi ))2 + λˆ

    g �(t)2dt

    El primer término es RSS y busca que g(x) se aproxime a ladata en cada xi .

    El segundo término es una penalidad por aspereza y controla

    que tan rugosa es g(x) y se regula a través de un parámetrode sintonización λ ≥ 0.

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Suavización por Splines

    Cuanto menor sea el valor de λ más rugosa sera la función yeventualmente interpola cada yi cuando λ = 0. Conformeλ→∞ la función g(x) se vuelve lineal.La solución al problema anterior es un spline cúbico natural

    con knots en cada valor único de xi .

    La penalidad por aspereza se controla usando λ.

    La suavización por splines evita el problema de selección de los

    knots ya que solo debe elegirse λ.

    Los detalles del algoritmo son algo complejos para ser descritos

    en esta presentación. En R se usa smooth.spline().

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Suavización por Splines

    El vector de n valores estimados puede ser escrito como:

    ĝλ = Sλy

    donde Sλ es una matriz n × n determinada por xi y λ.Los grados de libertad efectivos están dados por:

    dfλ =n∑

    i=1

    {Sλ}ii

    En R: smooth.spline(age,df=10).

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Suavización por Splines

    Para elegir λ se usa el error por validación cruzada dejandouno afuera:

    RSSCV (λ) =n∑

    i=1

    (yi − ĝ (−i)λ (xi ))2

    =n∑

    i=1

    [yi − ĝλ(xi )1− {Sλ}ii

    ]2Se uso smooth.spline(age,wage)para obtener elsiguiente grá�co.

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Suavización por Splines

    20 30 40 50 60 70 80

    05

    01

    00

    20

    03

    00

    Age

    Wa

    ge

    Smoothing Spline

    16 Degrees of Freedom

    6.8 Degrees of Freedom (LOOCV)

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Regresión local

    Usando una función peso de manera local se estima una recta

    por cada región de�nida en X usando mínimos cuadradosponderados. En R se usa: loess().

    0.0 0.2 0.4 0.6 0.8 1.0

    −1.0

    −0.5

    0.0

    0.5

    1.0

    1.5

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    O

    O

    OOO

    O

    O

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    OO

    O

    O

    OO

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    OO

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    O

    O

    OOO

    O

    O

    O

    O

    0.0 0.2 0.4 0.6 0.8 1.0

    −1.0

    −0.5

    0.0

    0.5

    1.0

    1.5

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    O

    O

    OOO

    O

    O

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    OO

    O

    O

    OO

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    OO

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    O

    OO

    O

    O

    O

    O

    OO

    O

    O

    OO

    O

    O

    Local Regression

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Splines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Regresión local

    20 30 40 50 60 70 80

    05

    01

    00

    20

    03

    00

    Age

    Wa

    ge

    Local Linear Regression

    Span is 0.2 (16.4 Degrees of Freedom)

    Span is 0.7 (5.3 Degrees of Freedom)

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Modelos Aditivos GeneralizadosGAMs para clasi�cación

    Modelos Aditivos Generalizados

    Los GAM permiten mayor �exibilidad al considerar no

    linealidad en las variables reteniendo la estructura aditiva de

    los modelos lineales:

    yi = β0 + f1(xi1) + f2(xi2) + · · ·+ fp(xip) + �i

    2003 2005 2007 2009

    −3

    0−

    20

    −1

    00

    10

    20

    30

    20 30 40 50 60 70 80

    −5

    0−

    40

    −3

    0−

    20

    −1

    00

    10

    20

    −3

    0−

    20

    −1

    00

    10

    20

    30

    40

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Modelos Aditivos GeneralizadosGAMs para clasi�cación

    Modelos Aditivos Generalizados

    Se puede estimar un GAM usando por ejemplo splines

    naturales:

    lm(wage~ns(year.df=5)+ns(age.df=5)+educ).

    Los coe�cientes no son de mucho interés en cambio la función

    estimada si.

    Se puede considerar términos mixtos, lineales o no lineales, y

    usar anova() para comparar los modelos resultantes.

    Es posible usar suavización por splines o regresión local:

    gam(wage~s(year.df=5)+lo(age,span=.5)+educ).

    Se pueden incorporar suavizadores bivariados o interacciones

    de la forma ns(age,df=5):ns(year,df=5).

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

  • IntroducciónRegresión Polinomial

    SplinesModelos Aditivos Generalizados

    Modelos Aditivos GeneralizadosGAMs para clasi�cación

    GAMs para clasi�cación

    log

    (p(X)

    1− p(X)

    )= β0 + f1(X1) + f2(X2) + · · ·+ fp(Xp) + �i

    2003 2005 2007 2009

    −4

    −2

    02

    4

    20 30 40 50 60 70 80

    −8

    −6

    −4

    −2

    02

    −4

    −2

    02

    4

    HS Coll

    f 1(year)

    f 2(age)

    f 3(edu

    cation)

    year ageeducation

    Ms Carlos López de Castilla Vásquez Técnicas Multivariadas Avanzadas

    IntroducciónIntroducción

    Regresión PolinomialRegresión PolinomialFunciones pasoPolinomios por partes

    SplinesSplines lineales y cúbicosSplines cúbicos naturalesSuavización por SplinesRegresión local

    Modelos Aditivos GeneralizadosModelos Aditivos GeneralizadosGAMs para clasificación