modelos aditivos generalizados con p-splines · contenidoi 1 introduccion 2 p-splines bases,...

231
Modelos Aditivos Generalizados con P-splines Maria Durban Universidad Carlos III de Madrid Departamento de Estadistica 60 a RBras, Presidente Prudente, 2015 Material http://www.est.uc3m.es/durban/esp/web/cursos/GAMs/GAMs.html Maria Durban (UC3M) GAMs 1 / 139

Upload: others

Post on 29-Jul-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Modelos Aditivos Generalizados con P-splines

Maria Durban

Universidad Carlos III de MadridDepartamento de Estadistica

60a RBras, Presidente Prudente, 2015

Materialhttp://www.est.uc3m.es/durban/esp/web/cursos/GAMs/GAMs.html

Maria Durban (UC3M) GAMs 1 / 139

Page 2: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido I

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 3: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

http://www.est.uc3m.es/durban/esp/web/cursos/GAMs/GAMs.html

Page 4: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 5: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Introduccion

I Un modelo lineal es deseable porque es simple de ajustar, se entiendefacilmente, y existen muchas tecnicas disponibles para contrastar las hipotesisdel modelo.

I Sin embargo, en muchos casos, los datos no estan relacionados de forma linealI Un modelo de regresion no-lineal clasico tendria la siguiente forma:

y = f (Xβ) + ε

donde β = (β1, . . . βp)′ es un vector de parametros, que han de ser estimados, y

X es la matriz que contiene las variables predictoras.I La funcion f (.), relaciona el valor medio de la variable respuesta y con las

variables predictoras, y su forma esta especificada a priori .I A veces la estructura de los datos es tan complicada que es muy dificil encontrar

una funcion que estime la relacion existente de forma correcta

Maria Durban (UC3M) GAMs 5 / 139

Page 6: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Introduccion

I Un modelo lineal es deseable porque es simple de ajustar, se entiendefacilmente, y existen muchas tecnicas disponibles para contrastar las hipotesisdel modelo.

I Sin embargo, en muchos casos, los datos no estan relacionados de forma linealI Un modelo de regresion no-lineal clasico tendria la siguiente forma:

y = f (Xβ) + ε

donde β = (β1, . . . βp)′ es un vector de parametros, que han de ser estimados, y

X es la matriz que contiene las variables predictoras.I La funcion f (.), relaciona el valor medio de la variable respuesta y con las

variables predictoras, y su forma esta especificada a priori .I A veces la estructura de los datos es tan complicada que es muy dificil encontrar

una funcion que estime la relacion existente de forma correcta

Maria Durban (UC3M) GAMs 5 / 139

Page 7: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Introduccion

I Un modelo lineal es deseable porque es simple de ajustar, se entiendefacilmente, y existen muchas tecnicas disponibles para contrastar las hipotesisdel modelo.

I Sin embargo, en muchos casos, los datos no estan relacionados de forma linealI Un modelo de regresion no-lineal clasico tendria la siguiente forma:

y = f (Xβ) + ε

donde β = (β1, . . . βp)′ es un vector de parametros, que han de ser estimados, y

X es la matriz que contiene las variables predictoras.I La funcion f (.), relaciona el valor medio de la variable respuesta y con las

variables predictoras, y su forma esta especificada a priori .I A veces la estructura de los datos es tan complicada que es muy dificil encontrar

una funcion que estime la relacion existente de forma correcta

Maria Durban (UC3M) GAMs 5 / 139

Page 8: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Introduccion

I Un modelo lineal es deseable porque es simple de ajustar, se entiendefacilmente, y existen muchas tecnicas disponibles para contrastar las hipotesisdel modelo.

I Sin embargo, en muchos casos, los datos no estan relacionados de forma linealI Un modelo de regresion no-lineal clasico tendria la siguiente forma:

y = f (Xβ) + ε

donde β = (β1, . . . βp)′ es un vector de parametros, que han de ser estimados, y

X es la matriz que contiene las variables predictoras.I La funcion f (.), relaciona el valor medio de la variable respuesta y con las

variables predictoras, y su forma esta especificada a priori .I A veces la estructura de los datos es tan complicada que es muy dificil encontrar

una funcion que estime la relacion existente de forma correcta

Maria Durban (UC3M) GAMs 5 / 139

Page 9: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Introduccion

I Un modelo lineal es deseable porque es simple de ajustar, se entiendefacilmente, y existen muchas tecnicas disponibles para contrastar las hipotesisdel modelo.

I Sin embargo, en muchos casos, los datos no estan relacionados de forma linealI Un modelo de regresion no-lineal clasico tendria la siguiente forma:

y = f (Xβ) + ε

donde β = (β1, . . . βp)′ es un vector de parametros, que han de ser estimados, y

X es la matriz que contiene las variables predictoras.I La funcion f (.), relaciona el valor medio de la variable respuesta y con las

variables predictoras, y su forma esta especificada a priori .I A veces la estructura de los datos es tan complicada que es muy dificil encontrar

una funcion que estime la relacion existente de forma correcta

Maria Durban (UC3M) GAMs 5 / 139

Page 10: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Introduccion0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

−1

−0.5

0

0.5

1Fixed weights of differences

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−1

−0.5

0

0.5

1Exponentially varying weights of differences

Figure 13: Smoothing of simulated data (dots) with and without exponentiallyvarying weights on the differences in the penalty. Upper: uniform weights; lower:varying weights. Parameters optimized with grid search and leave-one-out cross-validation. Full line: fitted curve (100 cubic B-splines, second order penalty); brokenline: true curve.

position k. It follows, for large λ, α will be a smooth series, except for a kink atposition k. If both vk and vk−1 are zero, α will be smooth, except for a jump atαk. Depending on the number of knots, the kink or jump will show up in a moreor less smoothed way in the fitted curve. Of course, combinations of multiple kinksand jumps can be introduced this way.

In some application a gradually changing smoothness may be sufficient. This canbe accomplished by taking vk = eγk. Both λ and γ are optimized by cross-validationor AIC. Of course, this applies equally well to TPF. An example of smoothing withan exponential change of the weights in the penalty is shown in Figure 13, usingsimulated data: a sine function with changing frequency and amplitude. If we useuniform weights and optimize λ with leave-one-out cross-validation (which givesoptimal λ? = 0.1), we get a result that gives rather strong fluctuations of the fittedcurve in the low-frequency part and misses the data in the high-frequency part. If weintroduce weights eγk and optimize both γ and λ, we get a more reasonable result.A grid search gave (approximate) optimal values γ? = 0.2 and λ? = 3× 10−4. Thismeans that, with the 100 knots used here, the largest weight is about 5× 108 timeslarger than the smallest.

Sometimes it is fruitful to have multiple difference penalties, of different orders,or to add an extra ridge penalty. Marx and Eilers (2002) found, in the contextof multivariate calibration by penalized signal regression, markedly improved cross-validation behavior. Aldrin (2006) investigated the use of both first and second orderpenalties in additive models based on P-splines, and found improved prediction.

21

Maria Durban (UC3M) GAMs 6 / 139

Page 11: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Introduccion

Una posible solucion: regression no-parametrica.

I El modelo general de regresion no-parametrica ise escribe de forma similar alanterior, pero f no tiene una forma explicita:

y = f (X) + ε = f (x1, . . . xp) + ε

I La mayoria de los metodos de regresion no-parametrica asumen que f (.) es unafuncion continua y suave, y que εi ∼ NID(0, σ2) (aunque esto Ultimo puederelajarse de forma sencilla).

Maria Durban (UC3M) GAMs 7 / 139

Page 12: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Introduccion

Una posible solucion: regression no-parametrica.

I El modelo general de regresion no-parametrica ise escribe de forma similar alanterior, pero f no tiene una forma explicita:

y = f (X) + ε = f (x1, . . . xp) + ε

I La mayoria de los metodos de regresion no-parametrica asumen que f (.) es unafuncion continua y suave, y que εi ∼ NID(0, σ2) (aunque esto Ultimo puederelajarse de forma sencilla).

Maria Durban (UC3M) GAMs 7 / 139

Page 13: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 14: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Recordamos....Suavizado por splines

Spline:I Trozo de flexible de madera, goma o metal utilizado para dibujar curvas.I Pesos en ciertos puntos para imponer la curvatura.

Maria Durban (UC3M) GAMs 9 / 139

Page 15: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Recordamos....Suavizado por splines

Dos grandes enfoquesI splines de suavizado (‘smoothing splines’) Green y Silverman, 1994.:

Xutilizan tantos parametros como observaciones.Ximplementacion no eficiente cuando el n. de datos es muy elevado.

I splines de regresion (‘regression splines’):Xajuste mediante minimos cuadrados una vez que se han seleccionado eln. de nodos,Xseleccion de los nodos mediante algoritmos complejos.

Maria Durban (UC3M) GAMs 10 / 139

Page 16: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Recordamos....Suavizado por splines

Dos grandes enfoquesI splines de suavizado (‘smoothing splines’) Green y Silverman, 1994.:

Xutilizan tantos parametros como observaciones.Ximplementacion no eficiente cuando el n. de datos es muy elevado.

I splines de regresion (‘regression splines’):Xajuste mediante minimos cuadrados una vez que se han seleccionado eln. de nodos,Xseleccion de los nodos mediante algoritmos complejos.

Maria Durban (UC3M) GAMs 10 / 139

Page 17: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

IntroduccionSplines con Penalizaciones

P-splines (Eilers and Marx, 1996)X Combinan lo mejor de ambos enfoques:

I utilizan menos parametros que los splines de suavizadoI Se introduce una penalizacionsobre los parametros para controlar la

suavidad de la curvaI la seleccion de los nodos no es tan determinante como en los splines de

regresion.

Maria Durban (UC3M) GAMs 11 / 139

Page 18: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

IntroduccionSplines con Penalizaciones

ÃÂÿPor que utilizar P-splines?I Son splines de rango bajo, i.e. “tamano de la base <<< dimension de

los datos”, al contrario que los splines de suavizado donde hay tantos nodoscomo datos⇒ trabajar con matrices de alta dimension.

I El n. de nodos ≤ 40, computacionalmente eficiente, sobre todo cuando setrabaja con gran cantidad de datos.

I La introduccion de penalizaciones relaja la importancia de la eleccion delnÃÂÃÂo y la localizacion de los nodos (Rice and Wu, 2001).

I La correspondencia entre los P-splines y el BLUP en un modelo mixto permite,en algunos casos, utilizar la metodologia de los modelos mixtos y uso desoftware como PROC MIXED en SAS y lme() en S-PLUS y R.

Maria Durban (UC3M) GAMs 12 / 139

Page 19: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

IntroduccionSplines con Penalizaciones

ÃÂÿPor que utilizar P-splines?I Son splines de rango bajo, i.e. “tamano de la base <<< dimension de

los datos”, al contrario que los splines de suavizado donde hay tantos nodoscomo datos⇒ trabajar con matrices de alta dimension.

I El n. de nodos ≤ 40, computacionalmente eficiente, sobre todo cuando setrabaja con gran cantidad de datos.

I La introduccion de penalizaciones relaja la importancia de la eleccion delnÃÂÃÂo y la localizacion de los nodos (Rice and Wu, 2001).

I La correspondencia entre los P-splines y el BLUP en un modelo mixto permite,en algunos casos, utilizar la metodologia de los modelos mixtos y uso desoftware como PROC MIXED en SAS y lme() en S-PLUS y R.

Maria Durban (UC3M) GAMs 12 / 139

Page 20: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

IntroduccionSplines con Penalizaciones

ÃÂÿPor que utilizar P-splines?I Son splines de rango bajo, i.e. “tamano de la base <<< dimension de

los datos”, al contrario que los splines de suavizado donde hay tantos nodoscomo datos⇒ trabajar con matrices de alta dimension.

I El n. de nodos ≤ 40, computacionalmente eficiente, sobre todo cuando setrabaja con gran cantidad de datos.

I La introduccion de penalizaciones relaja la importancia de la eleccion delnÃÂÃÂo y la localizacion de los nodos (Rice and Wu, 2001).

I La correspondencia entre los P-splines y el BLUP en un modelo mixto permite,en algunos casos, utilizar la metodologia de los modelos mixtos y uso desoftware como PROC MIXED en SAS y lme() en S-PLUS y R.

Maria Durban (UC3M) GAMs 12 / 139

Page 21: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

IntroduccionSplines con Penalizaciones

ÃÂÿPor que utilizar P-splines?I Son splines de rango bajo, i.e. “tamano de la base <<< dimension de

los datos”, al contrario que los splines de suavizado donde hay tantos nodoscomo datos⇒ trabajar con matrices de alta dimension.

I El n. de nodos ≤ 40, computacionalmente eficiente, sobre todo cuando setrabaja con gran cantidad de datos.

I La introduccion de penalizaciones relaja la importancia de la eleccion delnÃÂÃÂo y la localizacion de los nodos (Rice and Wu, 2001).

I La correspondencia entre los P-splines y el BLUP en un modelo mixto permite,en algunos casos, utilizar la metodologia de los modelos mixtos y uso desoftware como PROC MIXED en SAS y lme() en S-PLUS y R.

Maria Durban (UC3M) GAMs 12 / 139

Page 22: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesP-splines unidimensionales

Supongamos que tenemos n pares de datos (xi, yi) y estamos interesados en ajustar el modelo

yi = f (xi) + εi εi ∼ N(0, σ2)

donde f ( ) es una funcion suave de los datos.

EL ARCHIVO bases.R

Datos simuladosn <- 200x <- seq(0,1,length=n)y <- sin(3*pi*x) + 0.5*rnorm(n)plot(x,y,pch=1,bty="l",col=12)lines(x,sin(3*pi*x),col=6)

f (x) = sin(3πx)

0.0 0.2 0.4 0.6 0.8 1.0

−1

01

2

x

y

Maria Durban (UC3M) GAMs 13 / 139

Page 23: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesP-splines unidimensionales

ObjetivoEstimar la funcion f (x) = sin(3πx) mediante splines con penalizaciones(P-splines) introducidos Eilers and Marx (1996) y que recientemente hanalcanzado gran popularidad (Ruppert et al., 2003).

Metodologia1 utilizar una base para la regresion, y2 modificar la funcion de verosimilitud introduciendo una penalizacion

basada en diferencias entre coeficientes adyacentes.

Maria Durban (UC3M) GAMs 14 / 139

Page 24: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesP-splines unidimensionales

ObjetivoEstimar la funcion f (x) = sin(3πx) mediante splines con penalizaciones(P-splines) introducidos Eilers and Marx (1996) y que recientemente hanalcanzado gran popularidad (Ruppert et al., 2003).

Metodologia1 utilizar una base para la regresion, y2 modificar la funcion de verosimilitud introduciendo una penalizacion

basada en diferencias entre coeficientes adyacentes.

Maria Durban (UC3M) GAMs 14 / 139

Page 25: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesP-splines unidimensionales

ObjetivoEstimar la funcion f (x) = sin(3πx) mediante splines con penalizaciones(P-splines) introducidos Eilers and Marx (1996) y que recientemente hanalcanzado gran popularidad (Ruppert et al., 2003).

Metodologia1 utilizar una base para la regresion, y2 modificar la funcion de verosimilitud introduciendo una penalizacion

basada en diferencias entre coeficientes adyacentes.

Maria Durban (UC3M) GAMs 14 / 139

Page 26: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 27: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesBases y nodos

Datos NormalesX Modelo de regresion:

y = Ba + ε , ε ∼ N(0, σ2I)

donde B = B(x) es la base de regresion construida a partir de x.

BasesLa base para la regresion se puede calcular de muchas maneras, y de hecho hay dosgrandes grupos dentro de los estadisticos que utilizan los P-splines:

I los que utilizan las bases polinomios truncados y losI las bases de B-splinesI otras como thin plate regression splines, splines ciclicos, etc..

Maria Durban (UC3M) GAMs 16 / 139

Page 28: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesBases y nodos

Datos NormalesX Modelo de regresion:

y = Ba + ε , ε ∼ N(0, σ2I)

donde B = B(x) es la base de regresion construida a partir de x.

BasesLa base para la regresion se puede calcular de muchas maneras, y de hecho hay dosgrandes grupos dentro de los estadisticos que utilizan los P-splines:

I los que utilizan las bases polinomios truncados y losI las bases de B-splinesI otras como thin plate regression splines, splines ciclicos, etc..

Maria Durban (UC3M) GAMs 16 / 139

Page 29: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesBases y Nodos

B-splines, De Boor (1977) y Dierckx (1993)Esta formado por trozos de polinomios conectados entre si.

B-splines de grado pI Consiste en p + 1 trozos de polinomio

de orden p.I Se unen en p nodos internosI En los puntos de union las derivadas

hasta el orden p− 1 son continuas.I El B-spline es positivo en el dominio

expandido por p + 2 nodos y 0 en esresto. −3 −2 −1 0 1 2 3

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

NotaLos B-splines no “padecen” los efectos de frontera comunes en otros metodos de suavizado,como algunos kernels, en los que al extender la curva ajustada fuera del dominio de los datosesta tiende hacia cero.

Maria Durban (UC3M) GAMs 17 / 139

Page 30: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesBases y Nodos

B-splines, De Boor (1977) y Dierckx (1993)Esta formado por trozos de polinomios conectados entre si.

B-splines de grado pI Consiste en p + 1 trozos de polinomio

de orden p.I Se unen en p nodos internosI En los puntos de union las derivadas

hasta el orden p− 1 son continuas.I El B-spline es positivo en el dominio

expandido por p + 2 nodos y 0 en esresto. −3 −2 −1 0 1 2 3

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

NotaLos B-splines no “padecen” los efectos de frontera comunes en otros metodos de suavizado,como algunos kernels, en los que al extender la curva ajustada fuera del dominio de los datosesta tiende hacia cero.

Maria Durban (UC3M) GAMs 17 / 139

Page 31: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesBases y Nodos

De Boor (2001) presenta un algoritmo para el calculo de los B-splines, estealgoritmo se puede simplificar facilmente en software como MATLAB, S-PLUSy R.

Por ejemplo, la funcion para el calculo de una base de B-splines de gradobdeg con ndx nodos seria:

Bases.Rlibrary(splines)bspline = function(x, xl, xr, ndx, bdeg)dx = (xr-xl)/ndxknots = seq(xl-bdeg*dx, xr+bdeg*dx, by=dx)B = spline.des(knots,x,bdeg+1,0*x)designB

Maria Durban (UC3M) GAMs 18 / 139

Page 32: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesBases y Nodos

B-splines de regresionI B-spline de regresion: f (x) = Ba, donde θ es un vector de coeficientesI Estimacion se puede hacer por minimos cuadrados, de modo que:

m«ın ‖y− Ba‖2 → a = (B′B)−1B′y

y = Ba

la curva ajustada f (x) = Ba dependera del tamano de la base.

cuando el n. de nodos = n. de datos obtenemos una curva que interpolalos datos.

Maria Durban (UC3M) GAMs 19 / 139

Page 33: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesBases y Nodos

B-splines de regresionI B-spline de regresion: f (x) = Ba, donde θ es un vector de coeficientesI Estimacion se puede hacer por minimos cuadrados, de modo que:

m«ın ‖y− Ba‖2 → a = (B′B)−1B′y

y = Ba

la curva ajustada f (x) = Ba dependera del tamano de la base.

cuando el n. de nodos = n. de datos obtenemos una curva que interpolalos datos.

Maria Durban (UC3M) GAMs 19 / 139

Page 34: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesB-spline sin penalizacion

Maria Durban (UC3M) GAMs 20 / 139

Page 35: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesB-spline sin penalizacion

Curva estimada con 3, 10 y 30 nodos

0.0 0.2 0.4 0.6 0.8 1.0

−1

01

2

x

y

0.0 0.2 0.4 0.6 0.8 1.0−

2−

10

12

x

y

3 nodos10 nodos30 nodos

Maria Durban (UC3M) GAMs 21 / 139

Page 36: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPenalizaciones

Para solucionar esta situacion, O’Sullivan (1986) introdujo una penalizacionen la segunda derivada de la curva, de modo que la funcion objetivo paso aser:

S(a; y, λ) = (y− Ba)′(y− Ba) + λ

∫x

(B′′a

)2dx

La integral de la segunda derivada de la curva ajustada al cuadrado es unapenalizacion bastante comÃÂÃÂon (por ejemplo en los splines de suavizado),sin embargo, no hay nada de particular en la segunda derivada, se puedeutilizar derivadas de cualquier orden.

Maria Durban (UC3M) GAMs 22 / 139

Page 37: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPenalizaciones

Para solucionar esta situacion, O’Sullivan (1986) introdujo una penalizacionen la segunda derivada de la curva, de modo que la funcion objetivo paso aser:

S(a; y, λ) = (y− Ba)′(y− Ba) + λ

∫x

(B′′a

)2dx

La integral de la segunda derivada de la curva ajustada al cuadrado es unapenalizacion bastante comÃÂÃÂon (por ejemplo en los splines de suavizado),sin embargo, no hay nada de particular en la segunda derivada, se puedeutilizar derivadas de cualquier orden.

Maria Durban (UC3M) GAMs 22 / 139

Page 38: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPenalizaciones

La penalizacion se anade a los minimos cuadrados para modular el ajuste.

Novedad de los P-splinesI La penalizacion es discreta yI se penalizan los coeficientes directamente, en vez de penalizar la curva

(penalizamos a en vez de Ba) lo que reduce la dimensionalidad del problema.I

Eilers and Marx (1996)Utilizan una penalizacion basada en la diferencias de orden d entre los coeficientesadyacentes de la bases de B-splines.

I Este tipo de penalizacion es mas flexible ya que es independiente del grado delpolinomio utilizado para construir los B-splines.

I Es es una buena aproximacion discreta a la integral de la d-esima derivada alcuadrado.

Maria Durban (UC3M) GAMs 23 / 139

Page 39: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPenalizaciones

La penalizacion se anade a los minimos cuadrados para modular el ajuste.

Novedad de los P-splinesI La penalizacion es discreta yI se penalizan los coeficientes directamente, en vez de penalizar la curva

(penalizamos a en vez de Ba) lo que reduce la dimensionalidad del problema.I

Eilers and Marx (1996)Utilizan una penalizacion basada en la diferencias de orden d entre los coeficientesadyacentes de la bases de B-splines.

I Este tipo de penalizacion es mas flexible ya que es independiente del grado delpolinomio utilizado para construir los B-splines.

I Es es una buena aproximacion discreta a la integral de la d-esima derivada alcuadrado.

Maria Durban (UC3M) GAMs 23 / 139

Page 40: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPenalizaciones

La penalizacion se anade a los minimos cuadrados para modular el ajuste.

Novedad de los P-splinesI La penalizacion es discreta yI se penalizan los coeficientes directamente, en vez de penalizar la curva

(penalizamos a en vez de Ba) lo que reduce la dimensionalidad del problema.I

Eilers and Marx (1996)Utilizan una penalizacion basada en la diferencias de orden d entre los coeficientesadyacentes de la bases de B-splines.

I Este tipo de penalizacion es mas flexible ya que es independiente del grado delpolinomio utilizado para construir los B-splines.

I Es es una buena aproximacion discreta a la integral de la d-esima derivada alcuadrado.

Maria Durban (UC3M) GAMs 23 / 139

Page 41: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPenalizaciones

La penalizacion se anade a la funcion de minimos cuadrados, dando lugar a unafuncion de minimos cuadrados penalizados.

‖y− Ba‖2 + λ∑

j

(∆dj)2

︸ ︷︷ ︸P

donde ∆d es el operador diferencia de orden d.

I En general se utiliza d = 2, aunque se puede utilizar ordenes superiores oinferiores, dependiendo de la variabilidad de la curva y de la cantidad de ruido enlos datos.

I La suavidad de la curva, ahora depende del parametro de suavizado λ y no tantodel numero de nodos

Maria Durban (UC3M) GAMs 24 / 139

Page 42: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPenalizaciones

La penalizacion se anade a la funcion de minimos cuadrados, dando lugar a unafuncion de minimos cuadrados penalizados.

‖y− Ba‖2 + λ∑

j

(∆dj)2

︸ ︷︷ ︸P

donde ∆d es el operador diferencia de orden d.

I En general se utiliza d = 2, aunque se puede utilizar ordenes superiores oinferiores, dependiendo de la variabilidad de la curva y de la cantidad de ruido enlos datos.

I La suavidad de la curva, ahora depende del parametro de suavizado λ y no tantodel numero de nodos

Maria Durban (UC3M) GAMs 24 / 139

Page 43: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPenalizaciones

Por ejemplo,

∆aj = aj − aj−1 (Primer orden)

∆2aj = aj − 2aj−1 + aj−2 (Segundo orden)

...

y en forma matricial

D1 =

−1 1 0 0 · · ·

0 −1 1 0 · · ·0 0 −1 1 · · ·...

......

.... . .

or D2 =

1 −2 1 0 · · ·0 1 −2 1 · · ·0 0 1 −2 · · ·...

......

.... . .

La penalizacion es entonces P = λD′D

Maria Durban (UC3M) GAMs 25 / 139

Page 44: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPenalizaciones

Por ejemplo,

∆aj = aj − aj−1 (Primer orden)

∆2aj = aj − 2aj−1 + aj−2 (Segundo orden)

...

y en forma matricial

D1 =

−1 1 0 0 · · ·

0 −1 1 0 · · ·0 0 −1 1 · · ·...

......

.... . .

or D2 =

1 −2 1 0 · · ·0 1 −2 1 · · ·0 0 1 −2 · · ·...

......

.... . .

La penalizacion es entonces P = λD′D

Maria Durban (UC3M) GAMs 25 / 139

Page 45: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesEl efecto de λ

I Penalizacion de orden 2

Maria Durban (UC3M) GAMs 26 / 139

Page 46: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesCoeficientes

I Ahora, para estimar los coeficientes, anadimos la penalizacion a la funcion deminimos cuadrados, es decir, la estimacion se lleva a cabo mediante minimoscuadrados penalizados:

m«ın (y− Ba)′ (y− Ba) + λa′D′Da

I Los coeficientes estimados:

aλ = (B′B + λD′D)−1B′y

I Cuanto mayor sea λ mas proximos a cero estan los coeficientesI si es 0, estamos en un caso de regresion con B-splinesI si λ→∞ estariamos ajustando un polinomio de grado p− 1.

Maria Durban (UC3M) GAMs 27 / 139

Page 47: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesCoeficientes

I Ahora, para estimar los coeficientes, anadimos la penalizacion a la funcion deminimos cuadrados, es decir, la estimacion se lleva a cabo mediante minimoscuadrados penalizados:

m«ın (y− Ba)′ (y− Ba) + λa′D′Da

I Los coeficientes estimados:

aλ = (B′B + λD′D)−1B′y

I Cuanto mayor sea λ mas proximos a cero estan los coeficientesI si es 0, estamos en un caso de regresion con B-splinesI si λ→∞ estariamos ajustando un polinomio de grado p− 1.

Maria Durban (UC3M) GAMs 27 / 139

Page 48: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesEstimacion de parametros y grados de libertad

aλ = (B′B + λP)−1B′y⇒ f (x) = Ba

ImportanteLa ecuacion anterior depende de λ, el parametro de suavizado, el cual, por elmomento vamos a suponer conocido (mas adelante abordaremos el tema de laestimacion de dicho parametro).

El otro parametro que queda por estimar es la varianza residual, σ2, la estimacion deeste parametro depende de los grados de liberdad del modelo.

Maria Durban (UC3M) GAMs 28 / 139

Page 49: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesEstimacion de parametros y grados de libertad

aλ = (B′B + λP)−1B′y⇒ f (x) = Ba

ImportanteLa ecuacion anterior depende de λ, el parametro de suavizado, el cual, por elmomento vamos a suponer conocido (mas adelante abordaremos el tema de laestimacion de dicho parametro).

El otro parametro que queda por estimar es la varianza residual, σ2, la estimacion deeste parametro depende de los grados de liberdad del modelo.

Maria Durban (UC3M) GAMs 28 / 139

Page 50: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesEstimacion de parametros y grados de libertad

aλ = (B′B + λP)−1B′y⇒ f (x) = Ba

ImportanteLa ecuacion anterior depende de λ, el parametro de suavizado, el cual, por elmomento vamos a suponer conocido (mas adelante abordaremos el tema de laestimacion de dicho parametro).

El otro parametro que queda por estimar es la varianza residual, σ2, la estimacion deeste parametro depende de los grados de liberdad del modelo.

Maria Durban (UC3M) GAMs 28 / 139

Page 51: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines y PenalizacionesEstimacion de parametros y grados de libertad

Grados de libertad efectivosPara definir los grados de libertad en este tipo de modelos, la opcion maslogica es utilizar una definicion analoga a la que se utiliza en los modelos deregresion parametricos:

d.f . = traza(H) donde y = Hy

En este caso:H = B(B′B + λP)−1B′

por lo qued.f . = traza(H) = traza(B′B + λP)−1B′B

y la traza de esa matriz variara dependiendo del parametro de suavizado.

Maria Durban (UC3M) GAMs 29 / 139

Page 52: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines y PenalizacionesEstimacion de parametros y grados de libertad

Estimacion de la varianza residualEn el caso de errores gaussianos, nuevamente utilizamos la equivalenciacon el caso de regresion lineal:

σ2 =‖y− Ba‖2

n− traza(H),

aunque este estimador no es insesgado, ya que depende del sesgointroducido por el suavizado, es el que se utiliza normalmente.

Maria Durban (UC3M) GAMs 30 / 139

Page 53: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines y PenalizacionesSeleccion del parametro de suavizado

Seleccion de λI El papel λ en los P-splines, es el mismo que tiene en cualquier otro

metodo de suavizado: controlar la suavidad de la curva, pero aqui lo quehace es penalizar los coeficientes que estan muy separados entre si.

Cuanto mayor sea λ, mas se aproximaran los coeficientes a cero, de modoque si λ→∞ nos aproximamos a un ajuste polinomico.Cuando λ→ 0 estaremos utilizando minimos cuadrados ordinarios.

Maria Durban (UC3M) GAMs 31 / 139

Page 54: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines y PenalizacionesSeleccion del parametro de suavizado

Seleccion de λI El papel λ en los P-splines, es el mismo que tiene en cualquier otro

metodo de suavizado: controlar la suavidad de la curva, pero aqui lo quehace es penalizar los coeficientes que estan muy separados entre si.

Cuanto mayor sea λ, mas se aproximaran los coeficientes a cero, de modoque si λ→∞ nos aproximamos a un ajuste polinomico.Cuando λ→ 0 estaremos utilizando minimos cuadrados ordinarios.

Maria Durban (UC3M) GAMs 31 / 139

Page 55: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines y PenalizacionesSeleccion del parametro de suavizado

Seleccion de λI El papel λ en los P-splines, es el mismo que tiene en cualquier otro

metodo de suavizado: controlar la suavidad de la curva, pero aqui lo quehace es penalizar los coeficientes que estan muy separados entre si.

Cuanto mayor sea λ, mas se aproximaran los coeficientes a cero, de modoque si λ→∞ nos aproximamos a un ajuste polinomico.Cuando λ→ 0 estaremos utilizando minimos cuadrados ordinarios.

Maria Durban (UC3M) GAMs 31 / 139

Page 56: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines y PenalizacionesSeleccion del parametro de suavizado

Criterios de Seleccion de λI Podemos utilizar AIC, GCV, BIC, etc. Por ejemplo:

GCV =n×∑n

i=1(yi − yi)2

(n− traza(H))2 ; H = B(B′B + λD′D)−1B′

AIC = n× log

(n∑

i=1

(yi − yi)2

)+ 2log (traza(H))

VentajaEn los P-splines es mucho mas rapido calcular la traza de esa matriz que conotro tipo de suavizadores.

Maria Durban (UC3M) GAMs 32 / 139

Page 57: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines y PenalizacionesSeleccion del parametro de suavizado

Criterios de Seleccion de λI Podemos utilizar AIC, GCV, BIC, etc. Por ejemplo:

GCV =n×∑n

i=1(yi − yi)2

(n− traza(H))2 ; H = B(B′B + λD′D)−1B′

AIC = n× log

(n∑

i=1

(yi − yi)2

)+ 2log (traza(H))

VentajaEn los P-splines es mucho mas rapido calcular la traza de esa matriz que conotro tipo de suavizadores.

Maria Durban (UC3M) GAMs 32 / 139

Page 58: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines y PenalizacionesSeleccion del parametro de suavizado

Curvas ajustadas para distintos valores de λ

EL ARCHIVO lambdas.R

0.0 0.2 0.4 0.6 0.8 1.0

−10

12

x

y

Page 59: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPropiedades a destacar de los P-splines con bases de B-spline

PropiedadesI No tienen efecto de frontera (como le ocurre a los kernels), el efecto de

frontera es el que hace que al extender la curva fuera del dominio de x lacurva caiga rapidamente hacia 0.

I Ajustan de forma exacta los polinomios: si la curva es polinomica, unP-spline la recuperara exactamente.

I Se conservan los momentos: la media y la varianza de los valoresajustados sera la misma que la de los datos sea cual sea el parametrode suavizado, al contrario que los kernels que tienden a aumentar lavarianza cuanto mayor es el suavizado.

Maria Durban (UC3M) GAMs 34 / 139

Page 60: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPropiedades a destacar de los P-splines con bases de B-spline

PropiedadesI No tienen efecto de frontera (como le ocurre a los kernels), el efecto de

frontera es el que hace que al extender la curva fuera del dominio de x lacurva caiga rapidamente hacia 0.

I Ajustan de forma exacta los polinomios: si la curva es polinomica, unP-spline la recuperara exactamente.

I Se conservan los momentos: la media y la varianza de los valoresajustados sera la misma que la de los datos sea cual sea el parametrode suavizado, al contrario que los kernels que tienden a aumentar lavarianza cuanto mayor es el suavizado.

Maria Durban (UC3M) GAMs 34 / 139

Page 61: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPropiedades a destacar de los P-splines con bases de B-spline

PropiedadesI No tienen efecto de frontera (como le ocurre a los kernels), el efecto de

frontera es el que hace que al extender la curva fuera del dominio de x lacurva caiga rapidamente hacia 0.

I Ajustan de forma exacta los polinomios: si la curva es polinomica, unP-spline la recuperara exactamente.

I Se conservan los momentos: la media y la varianza de los valoresajustados sera la misma que la de los datos sea cual sea el parametrode suavizado, al contrario que los kernels que tienden a aumentar lavarianza cuanto mayor es el suavizado.

Maria Durban (UC3M) GAMs 34 / 139

Page 62: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPropiedades a destacar de los P-splines con bases de B-spline

PropiedadesI La seleccion y localizacion de los nodos no esta hecha de antemano,

como en el caso de los smoothing splines,si se elige un nÃÂÃÂo suficientemente grande de nodos es suficiente conelegirlos de forma equidistante.Autores como Ruppert (2002) aconsejan elegir los nodos K nodos en losK-quantiles de x, es decir que cada nodo tk seria el cuantil k/(K + 1) de x.En cuanto al nÃÂÃÂo de nodos, la mayoria de los autores utilizan comoregla:

numero de nodos = min40, valores ÃÂÃÂonicos de x/4

Maria Durban (UC3M) GAMs 35 / 139

Page 63: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPropiedades a destacar de los P-splines con bases de B-spline

PropiedadesI La seleccion y localizacion de los nodos no esta hecha de antemano,

como en el caso de los smoothing splines,si se elige un nÃÂÃÂo suficientemente grande de nodos es suficiente conelegirlos de forma equidistante.Autores como Ruppert (2002) aconsejan elegir los nodos K nodos en losK-quantiles de x, es decir que cada nodo tk seria el cuantil k/(K + 1) de x.En cuanto al nÃÂÃÂo de nodos, la mayoria de los autores utilizan comoregla:

numero de nodos = min40, valores ÃÂÃÂonicos de x/4

Maria Durban (UC3M) GAMs 35 / 139

Page 64: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPropiedades a destacar de los P-splines con bases de B-spline

PropiedadesI La seleccion y localizacion de los nodos no esta hecha de antemano,

como en el caso de los smoothing splines,si se elige un nÃÂÃÂo suficientemente grande de nodos es suficiente conelegirlos de forma equidistante.Autores como Ruppert (2002) aconsejan elegir los nodos K nodos en losK-quantiles de x, es decir que cada nodo tk seria el cuantil k/(K + 1) de x.En cuanto al nÃÂÃÂo de nodos, la mayoria de los autores utilizan comoregla:

numero de nodos = min40, valores ÃÂÃÂonicos de x/4

Maria Durban (UC3M) GAMs 35 / 139

Page 65: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Splines con PenalizacionesPropiedades a destacar de los P-splines con bases de B-spline

PropiedadesI La seleccion y localizacion de los nodos no esta hecha de antemano,

como en el caso de los smoothing splines,si se elige un nÃÂÃÂo suficientemente grande de nodos es suficiente conelegirlos de forma equidistante.Autores como Ruppert (2002) aconsejan elegir los nodos K nodos en losK-quantiles de x, es decir que cada nodo tk seria el cuantil k/(K + 1) de x.En cuanto al nÃÂÃÂo de nodos, la mayoria de los autores utilizan comoregla:

numero de nodos = min40, valores ÃÂÃÂonicos de x/4

Maria Durban (UC3M) GAMs 35 / 139

Page 66: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 67: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

P-splines como modelos mixtos

La gran revolucion de los P-splines producida en los ultimos anos es debida ala posibilidad de escribir un modelo no-parametrico o semiparametrico dondese utilizan P-splines como un modelo mixto (o modelo con efectos aleatorios).

Ventajas del enfoqueI Utilizar toda la metodologia desarrollada para los modelos mixtos, yI utilizar el software para modelos mixtos que esta disponible en la

mayoria de los programas estadisticos.

Maria Durban (UC3M) GAMs 37 / 139

Page 68: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

P-splines como modelos mixtos

La gran revolucion de los P-splines producida en los ultimos anos es debida ala posibilidad de escribir un modelo no-parametrico o semiparametrico dondese utilizan P-splines como un modelo mixto (o modelo con efectos aleatorios).

Ventajas del enfoqueI Utilizar toda la metodologia desarrollada para los modelos mixtos, yI utilizar el software para modelos mixtos que esta disponible en la

mayoria de los programas estadisticos.

Maria Durban (UC3M) GAMs 37 / 139

Page 69: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

P-splines como modelos mixtosI Partimos del modelo:

y = Ba + ε ε ∼ N(0, σ2I)

y buscamos reparametrizarlo:

y = Xβ + Zα + ε, ε ∼ N (0, Iσ2) yα ∼ N (0,G),

I Para ello necesitamos una trasformacion Ω, de modo que BΩ = [X : Z] , y

G = τ 2k I

I Hay muchas posibilidades, la mas frecunete es:

Ω = UΣ−1/2

donde U y Σ son matrices que forman parte de la descomposicion en valoressingulares de la matriz de penalizacion D′D.

I el parametro de suavizado es λ = σ2/σ2u , lo cual hace que sea posible estimar el

parametro de suavizado junto con los otros parametros del modelo

Maria Durban (UC3M) GAMs 38 / 139

Page 70: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

P-splines como modelos mixtosI Partimos del modelo:

y = Ba + ε ε ∼ N(0, σ2I)

y buscamos reparametrizarlo:

y = Xβ + Zα + ε, ε ∼ N (0, Iσ2) yα ∼ N (0,G),

I Para ello necesitamos una trasformacion Ω, de modo que BΩ = [X : Z] , y

G = τ 2k I

I Hay muchas posibilidades, la mas frecunete es:

Ω = UΣ−1/2

donde U y Σ son matrices que forman parte de la descomposicion en valoressingulares de la matriz de penalizacion D′D.

I el parametro de suavizado es λ = σ2/σ2u , lo cual hace que sea posible estimar el

parametro de suavizado junto con los otros parametros del modelo

Maria Durban (UC3M) GAMs 38 / 139

Page 71: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

P-splines como modelos mixtosEjemplo

Casos de leucemia linfoblastica agudaI Estudio llevado a cabo en la Universidad de Harvard con ninas afectadas por

leucemia linfoblastica aguda.I La obesidad y la corta estatura son efectos comunes en los adolescentes que

padecen o han padecido esta enfermedad. Los tratamientos que se aplicanintentan reducir al maximo este tipo de efectos secundarios sin comprometer sueficacia.

I Se estudiaron 618 ninos entre los anos 1987 y 1995 y se aplicaron tres terapiasdistintas: Terapia intracraneal sin radiacion, terapia intracraneal con radiacionconvencional y terapia intracraneal con radiacion dos veces al dia. Se midio laaltura de los ninos aproximadamente cada 6 meses.

Maria Durban (UC3M) GAMs 39 / 139

Page 72: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

P-splines como modelos mixtosEjemplo

Casos de leucemia linfoblastica agudaI Estudio llevado a cabo en la Universidad de Harvard con ninas afectadas por

leucemia linfoblastica aguda.I La obesidad y la corta estatura son efectos comunes en los adolescentes que

padecen o han padecido esta enfermedad. Los tratamientos que se aplicanintentan reducir al maximo este tipo de efectos secundarios sin comprometer sueficacia.

I Se estudiaron 618 ninos entre los anos 1987 y 1995 y se aplicaron tres terapiasdistintas: Terapia intracraneal sin radiacion, terapia intracraneal con radiacionconvencional y terapia intracraneal con radiacion dos veces al dia. Se midio laaltura de los ninos aproximadamente cada 6 meses.

Maria Durban (UC3M) GAMs 39 / 139

Page 73: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

P-splines como modelos mixtosEjemplo

Casos de leucemia linfoblastica agudaI Estudio llevado a cabo en la Universidad de Harvard con ninas afectadas por

leucemia linfoblastica aguda.I La obesidad y la corta estatura son efectos comunes en los adolescentes que

padecen o han padecido esta enfermedad. Los tratamientos que se aplicanintentan reducir al maximo este tipo de efectos secundarios sin comprometer sueficacia.

I Se estudiaron 618 ninos entre los anos 1987 y 1995 y se aplicaron tres terapiasdistintas: Terapia intracraneal sin radiacion, terapia intracraneal con radiacionconvencional y terapia intracraneal con radiacion dos veces al dia. Se midio laaltura de los ninos aproximadamente cada 6 meses.

Maria Durban (UC3M) GAMs 39 / 139

Page 74: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

P-splines como modelos mixtosEjemplo

Curva estimada para la altura de una nina en distintos instantes

10 12 14

age

135

140

145

150

155

160

heig

ht

La curva ajustada se descompone en una linea recta (si utilizamos una penalizacion de orden dos, opolinomios truncados de orden uno), mas una parte que no es lineal, en el contexto de los modelos mixtos estocorresponderia al efecto aleatorio.

Maria Durban (UC3M) GAMs 40 / 139

Page 75: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 76: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Estimacion

P-splines como modelos mixtosEstimacion

y = Xβ + Zα + ε, ε ∼ N (0, Iσ2) α ∼ N (0,G)

I Xβ es el termino de efectos fijos y Z es la matriz de efectos aleatorios conmatriz de covarianza G y componentes de la varianza τ 2

k .I La estimacion de los efectos fijos y aleatorios se obtiene resolviendo(

βα

)=

(X′X X′ZZ′X Z′Z + G−1

)−1( X′

Z′)

y,

β = (X′V−1

X)−1X′V−1

y

u = σ2uZ′V

−1(y− Xβ)

V−1 =1σ2 (I − Z(Z′Z + (σ2/σ2

u)Ic−2)−1Z′)

Maria Durban (UC3M) GAMs 42 / 139

Page 77: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Estimacion

P-splines como modelos mixtosEstimacion

y = Xβ + Zα + ε, ε ∼ N (0, Iσ2) α ∼ N (0,G)

I Xβ es el termino de efectos fijos y Z es la matriz de efectos aleatorios conmatriz de covarianza G y componentes de la varianza τ 2

k .I La estimacion de los efectos fijos y aleatorios se obtiene resolviendo(

βα

)=

(X′X X′ZZ′X Z′Z + G−1

)−1( X′

Z′)

y,

β = (X′V−1

X)−1X′V−1

y

u = σ2uZ′V

−1(y− Xβ)

V−1 =1σ2 (I − Z(Z′Z + (σ2/σ2

u)Ic−2)−1Z′)

Maria Durban (UC3M) GAMs 42 / 139

Page 78: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Estimacion

P-splines como modelos mixtosEstimacion

y = Xβ + Zα + ε, ε ∼ N (0, Iσ2) α ∼ N (0,G)

I Xβ es el termino de efectos fijos y Z es la matriz de efectos aleatorios conmatriz de covarianza G y componentes de la varianza τ 2

k .I La estimacion de los efectos fijos y aleatorios se obtiene resolviendo(

βα

)=

(X′X X′ZZ′X Z′Z + G−1

)−1( X′

Z′)

y,

β = (X′V−1

X)−1X′V−1

y

u = σ2uZ′V

−1(y− Xβ)

V−1 =1σ2 (I − Z(Z′Z + (σ2/σ2

u)Ic−2)−1Z′)

Maria Durban (UC3M) GAMs 42 / 139

Page 79: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Estimacion

P-splines como modelos mixtosEstimacion

REMLEl metodo estandar para la estimacion de los parametros de la varianza (ypor lo tanto λ) es el metodo de maxima verosimilitud restringida (REML).

`R(σ2u , σ

2ε) = −1

2log |V| − 1

2log |X′V−1X| − 1

2y′(V−1 − V−1X(X′V−1X)−1X′V−1)y,

donde V = σ2uZZ′ + σ2I.

Maria Durban (UC3M) GAMs 43 / 139

Page 80: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 81: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos Correlados

P-splines como modelos mixtosDatos Correlados

I Si intentamos ajustar una curva sin tener en cuenta la correlacion que hay en losdatos,

los metodos de seleccion del parametro de suavizado van a elegir un valordel parametro menor al que correspondela curva no va a ser suave

I Si quisieramos estimar tanto λ como los parametros que determinan laestructura de correlacion, necesitariamos hacerlo de forma iterativa⇒ elresultado final muy sensible a la eleccion de los parametros iniciales.

Maria Durban (UC3M) GAMs 45 / 139

Page 82: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos Correlados

P-splines como modelos mixtosDatos Correlados

I Si intentamos ajustar una curva sin tener en cuenta la correlacion que hay en losdatos,

los metodos de seleccion del parametro de suavizado van a elegir un valordel parametro menor al que correspondela curva no va a ser suave

I Si quisieramos estimar tanto λ como los parametros que determinan laestructura de correlacion, necesitariamos hacerlo de forma iterativa⇒ elresultado final muy sensible a la eleccion de los parametros iniciales.

Maria Durban (UC3M) GAMs 45 / 139

Page 83: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos Correlados

P-splines como modelos mixtosDatos Correlados

I Si intentamos ajustar una curva sin tener en cuenta la correlacion que hay en losdatos,

los metodos de seleccion del parametro de suavizado van a elegir un valordel parametro menor al que correspondela curva no va a ser suave

I Si quisieramos estimar tanto λ como los parametros que determinan laestructura de correlacion, necesitariamos hacerlo de forma iterativa⇒ elresultado final muy sensible a la eleccion de los parametros iniciales.

Maria Durban (UC3M) GAMs 45 / 139

Page 84: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos Correlados

P-splines como modelos mixtosDatos Correlados

I Si intentamos ajustar una curva sin tener en cuenta la correlacion que hay en losdatos,

los metodos de seleccion del parametro de suavizado van a elegir un valordel parametro menor al que correspondela curva no va a ser suave

I Si quisieramos estimar tanto λ como los parametros que determinan laestructura de correlacion, necesitariamos hacerlo de forma iterativa⇒ elresultado final muy sensible a la eleccion de los parametros iniciales.

Maria Durban (UC3M) GAMs 45 / 139

Page 85: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos Correlados

P-splines como modelos mixtosDatos Correlados

X Con los P-splines como modelos mixtos es inmediato el introducir unaestructura de correlacion y estimarla simultaneamente a la curva suave.

I El modelo seguiria siendo el mismo:

y = Xβ + Zu + ε u ∼ N(0, σ2uIc−2) ε ∼ N(0, σ2R),

donde R representa la correlacion entre los datos, y la matriz V = σ2uZZ′ + σ2R.

Maria Durban (UC3M) GAMs 46 / 139

Page 86: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos Correlados

P-splines como modelos mixtosDatos Correlados

X Con los P-splines como modelos mixtos es inmediato el introducir unaestructura de correlacion y estimarla simultaneamente a la curva suave.

I El modelo seguiria siendo el mismo:

y = Xβ + Zu + ε u ∼ N(0, σ2uIc−2) ε ∼ N(0, σ2R),

donde R representa la correlacion entre los datos, y la matriz V = σ2uZZ′ + σ2R.

Maria Durban (UC3M) GAMs 46 / 139

Page 87: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos Correlados

P-splines como modelos mixtosDatos correlados

Curvas estimadas para los datos de temperatura

0 20 40 60 80 100

6070

8090

Time

Tem

p

La Figura muestra datos de temperatura de Nueva York tomados en 111 dias consecutivos, la curva negracorresponde a la estimacion ignorando la estructura de correlacion en los datos y la verde se obtieneasumiendo un proceso AR(1).

Maria Durban (UC3M) GAMs 47 / 139

Page 88: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 89: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines MultidimensionalesModelos Aditivos (Hastie and Tibshirani, 1987)

Modelo Aditivo 2d

y = f (x1) + f (x2) + ε,

donde x1 y x2 son variables explicativas.

Popularidad de estos modelosI la hipotesis de aditividad controla los posibles problemas

computacionales que surgen a la hora de estimar las curvas.Esta hipotesis es demasiado restrictiva cuando, por ejemplo, los datosestan situados en un array y en vez de un modelo aditivo necesitaremossuavizar los datos mediante un superficie no aditiva.

Maria Durban (UC3M) GAMs 49 / 139

Page 90: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines MultidimensionalesModelos Aditivos (Hastie and Tibshirani, 1987)

Modelo Aditivo 2d

y = f (x1) + f (x2) + ε,

donde x1 y x2 son variables explicativas.

Popularidad de estos modelosI la hipotesis de aditividad controla los posibles problemas

computacionales que surgen a la hora de estimar las curvas.Esta hipotesis es demasiado restrictiva cuando, por ejemplo, los datosestan situados en un array y en vez de un modelo aditivo necesitaremossuavizar los datos mediante un superficie no aditiva.

Maria Durban (UC3M) GAMs 49 / 139

Page 91: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines MultidimensionalesModelos Aditivos (Hastie and Tibshirani, 1987)

Modelo Aditivo 2d

y = f (x1) + f (x2) + ε,

donde x1 y x2 son variables explicativas.

Popularidad de estos modelosI la hipotesis de aditividad controla los posibles problemas

computacionales que surgen a la hora de estimar las curvas.Esta hipotesis es demasiado restrictiva cuando, por ejemplo, los datosestan situados en un array y en vez de un modelo aditivo necesitaremossuavizar los datos mediante un superficie no aditiva.

Maria Durban (UC3M) GAMs 49 / 139

Page 92: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines MultidimensionalesCaso 2d

Ejemplo array en 2dI Datos: yij, i = 1, . . . , n1, j = 1, . . . , n2,I En un array con n1 filas y n2 columnas, yI Variables explicativas: x′1 = (x11, . . . , x1n1) y x′2 = (x21 , . . . , x2n2).

I Sea B1 una matriz n1 × c1 de B-splines para el suavizado a lo largo de x1,y B2 una matriz n1 × c2 de B-splines para el suavizado a lo largo de x2.

I Definimos la matriz de bases en 2 dimensiones como su producto deKronecker,

B = B2 ⊗ B1

Maria Durban (UC3M) GAMs 50 / 139

Page 93: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines MultidimensionalesCaso 2d

Ejemplo array en 2dI Datos: yij, i = 1, . . . , n1, j = 1, . . . , n2,I En un array con n1 filas y n2 columnas, yI Variables explicativas: x′1 = (x11, . . . , x1n1) y x′2 = (x21 , . . . , x2n2).

I Sea B1 una matriz n1 × c1 de B-splines para el suavizado a lo largo de x1,y B2 una matriz n1 × c2 de B-splines para el suavizado a lo largo de x2.

I Definimos la matriz de bases en 2 dimensiones como su producto deKronecker,

B = B2 ⊗ B1

Maria Durban (UC3M) GAMs 50 / 139

Page 94: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines MultidimensionalesCaso 2d

Ejemplo array en 2dI Datos: yij, i = 1, . . . , n1, j = 1, . . . , n2,I En un array con n1 filas y n2 columnas, yI Variables explicativas: x′1 = (x11, . . . , x1n1) y x′2 = (x21 , . . . , x2n2).

I Sea B1 una matriz n1 × c1 de B-splines para el suavizado a lo largo de x1,y B2 una matriz n1 × c2 de B-splines para el suavizado a lo largo de x2.

I Definimos la matriz de bases en 2 dimensiones como su producto deKronecker,

B = B2 ⊗ B1

Maria Durban (UC3M) GAMs 50 / 139

Page 95: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines MultidimensionalesCaso 2d

Bases de B-splines en 2 dimensiones: B = B2 ⊗ B1

5

1015

20

x12

46

810

1214

16

x2

00.

10.

20.

30.

40.

52-

d B

-spl

ine

Maria Durban (UC3M) GAMs 51 / 139

Page 96: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines MultidimensionalesCaso 2d

I La matriz de penalizaciones viene dada por:

P = λ1Ic2 ⊗ D′1D1 + λ2D′2D2⊗, Ic1

λ1 y λ2 son generalmente diferentes (modelo no-isotropico),permite la posibilidad de que el suavizado sea mayor en una dimension queen la otra (detalles y ejemplos en Durban et al., 2002 y Currie et al., 2004).

Maria Durban (UC3M) GAMs 52 / 139

Page 97: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines MultidimensionalesCaso 2d

I La matriz de penalizaciones viene dada por:

P = λ1Ic2 ⊗ D′1D1 + λ2D′2D2⊗, Ic1

λ1 y λ2 son generalmente diferentes (modelo no-isotropico),permite la posibilidad de que el suavizado sea mayor en una dimension queen la otra (detalles y ejemplos en Durban et al., 2002 y Currie et al., 2004).

Maria Durban (UC3M) GAMs 52 / 139

Page 98: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines Multidimensionales

I Extension a 3 o mas dimensiones, utilizando el producto de kroneckerpara la base, y anadiendo mas terminos a la penalizacion

I Esta descomposicion de la base, hace que de forma sencilla se puedanajustar modelos del tipo:

y = f (x1) + f (x2) + f (x1, x2) + ε

I Aplicable al caso de datos dispersos (mas adelante).

Maria Durban (UC3M) GAMs 53 / 139

Page 99: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines Multidimensionales

I Extension a 3 o mas dimensiones, utilizando el producto de kroneckerpara la base, y anadiendo mas terminos a la penalizacion

I Esta descomposicion de la base, hace que de forma sencilla se puedanajustar modelos del tipo:

y = f (x1) + f (x2) + f (x1, x2) + ε

I Aplicable al caso de datos dispersos (mas adelante).

Maria Durban (UC3M) GAMs 53 / 139

Page 100: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Caso multidimensional

P-splines Multidimensionales

I Extension a 3 o mas dimensiones, utilizando el producto de kroneckerpara la base, y anadiendo mas terminos a la penalizacion

I Esta descomposicion de la base, hace que de forma sencilla se puedanajustar modelos del tipo:

y = f (x1) + f (x2) + f (x1, x2) + ε

I Aplicable al caso de datos dispersos (mas adelante).

Maria Durban (UC3M) GAMs 53 / 139

Page 101: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

P-splines Multidimensionalescomo modelos mixtos

Scottish Crop Research Institute (SCRI, Reino Unido)Los datos que provienen de un ensayo de campo llevado a cabo con cereales con el objetivo deestudiar las tendencias espaciales que aparecen en los cultivos debido a la situacion de losmismos.

Page 102: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

P-splines Multidimensionalescomo modelos mixtos

Superficies ajustadas para los datos del SCRII En la figura vemos a la izquierda el ajuste de un modelo aditivo y a la derecha el modelo

con interaccion.

Fila

Columna

linear predictor

Fila

Columna

linear predictor

I Los ajustes son distintos. El modelo aditivo impone una estructura muy restrictiva a lasuperficie ajustada.

Page 103: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 104: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los Modelos Lineales Generalizados

GLM con PenalizacionesI Estos modelos fueron introducidos por Marx and Eilers (1998), en el

caso unidimensional yI Durban et al. (2002) y Currie et al. (2004), en el caso bidimensional.

Maria Durban (UC3M) GAMs 57 / 139

Page 105: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los Modelos Lineales Generalizados

FormulacionI Sea µ = E[η], y suponemos que existe una funcion g() tal que η = g(µ) = Ba.I Minimizar la verosimilitud penalizada

`p(a) = `(a)− 12λa′D′Da,

donde `(a) es la verosimilitud ordinaria.I La version penalizada del “scoring algorithm”:

(B′WδB + λD′D)a = B′WδBa + B′(y− µ).

I Wδ es diagonal con elementos w−1ii = (∂ηi/∂µi)

2var(yi).

Maria Durban (UC3M) GAMs 58 / 139

Page 106: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los Modelos Lineales Generalizados

FormulacionI Sea µ = E[η], y suponemos que existe una funcion g() tal que η = g(µ) = Ba.I Minimizar la verosimilitud penalizada

`p(a) = `(a)− 12λa′D′Da,

donde `(a) es la verosimilitud ordinaria.I La version penalizada del “scoring algorithm”:

(B′WδB + λD′D)a = B′WδBa + B′(y− µ).

I Wδ es diagonal con elementos w−1ii = (∂ηi/∂µi)

2var(yi).

Maria Durban (UC3M) GAMs 58 / 139

Page 107: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los Modelos Lineales Generalizados

FormulacionI Sea µ = E[η], y suponemos que existe una funcion g() tal que η = g(µ) = Ba.I Minimizar la verosimilitud penalizada

`p(a) = `(a)− 12λa′D′Da,

donde `(a) es la verosimilitud ordinaria.I La version penalizada del “scoring algorithm”:

(B′WδB + λD′D)a = B′WδBa + B′(y− µ).

I Wδ es diagonal con elementos w−1ii = (∂ηi/∂µi)

2var(yi).

Maria Durban (UC3M) GAMs 58 / 139

Page 108: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los Modelos Lineales Generalizados

FormulacionI Sea µ = E[η], y suponemos que existe una funcion g() tal que η = g(µ) = Ba.I Minimizar la verosimilitud penalizada

`p(a) = `(a)− 12λa′D′Da,

donde `(a) es la verosimilitud ordinaria.I La version penalizada del “scoring algorithm”:

(B′WδB + λD′D)a = B′WδBa + B′(y− µ).

I Wδ es diagonal con elementos w−1ii = (∂ηi/∂µi)

2var(yi).

Maria Durban (UC3M) GAMs 58 / 139

Page 109: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los Modelos Lineales Generalizados

Seleccion de variablesI La seleccion del parametro de suavizado y el calculo de los intervalos de

confianza de hace de manera similar al caso de datos GaussianosI La seleccion de varibles (comparacion de modelos) puede hacerse mediante

criterios de informacion como AIC o BIC, o mediante test approximados como losutilizados en el paquete mgcv

I Test de la razon de verosimilitud

γ = 2(l(η0)− l(η0))

.γ ≈ χ2

EDF1−EDF0

si λ conocido.

Maria Durban (UC3M) GAMs 59 / 139

Page 110: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los Modelos Lineales Generalizados

Seleccion de variablesI La seleccion del parametro de suavizado y el calculo de los intervalos de

confianza de hace de manera similar al caso de datos GaussianosI La seleccion de varibles (comparacion de modelos) puede hacerse mediante

criterios de informacion como AIC o BIC, o mediante test approximados como losutilizados en el paquete mgcv

I Test de la razon de verosimilitud

γ = 2(l(η0)− l(η0))

.γ ≈ χ2

EDF1−EDF0

si λ conocido.

Maria Durban (UC3M) GAMs 59 / 139

Page 111: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los Modelos Lineales Generalizados

Seleccion de variablesI La seleccion del parametro de suavizado y el calculo de los intervalos de

confianza de hace de manera similar al caso de datos GaussianosI La seleccion de varibles (comparacion de modelos) puede hacerse mediante

criterios de informacion como AIC o BIC, o mediante test approximados como losutilizados en el paquete mgcv

I Test de la razon de verosimilitud

γ = 2(l(η0)− l(η0))

.γ ≈ χ2

EDF1−EDF0

si λ conocido.

Maria Durban (UC3M) GAMs 59 / 139

Page 112: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los GLMM

GLMMI Si los modelos con penalizaciones admiten una representacion como

modelos mixtos, la extension natural seran los modelos lineales mixtosgeneralizados (GLMM).

I Coull et al. (2001) y Parise et al. (2001) entre otros, han mostrado comolos P-splines con polinomios truncados como bases se pueden utilizar eneste contexto y como usar el macro glmmix en SAS para ajustar dichosmodelos.

Maria Durban (UC3M) GAMs 60 / 139

Page 113: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos no-gaussianos

Modelos para datos no-gaussianosExtension a los GLMM

GLMMI Si los modelos con penalizaciones admiten una representacion como

modelos mixtos, la extension natural seran los modelos lineales mixtosgeneralizados (GLMM).

I Coull et al. (2001) y Parise et al. (2001) entre otros, han mostrado comolos P-splines con polinomios truncados como bases se pueden utilizar eneste contexto y como usar el macro glmmix en SAS para ajustar dichosmodelos.

Maria Durban (UC3M) GAMs 60 / 139

Page 114: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 115: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software

SoftwareUso y programacion en R

Dado que se puede ver un modelo con P-splines como un modelo mixto⇒utilizar la funcion lme() para ajustar este tipo de modelos.

Funcion lme()I Permite incluir efectos aleatorios,I estructuras de covarianza y correlacion,I Permite ajustar modelos aditivos,I analizar datos longitudinales, etc.

Implica la creacion de todas las matrices que intervienen en el modelo,aunque permite ver de forma clara lo que esta haciendo el programa.

Maria Durban (UC3M) GAMs 62 / 139

Page 116: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software

SoftwareUso y programacion en R

Dado que se puede ver un modelo con P-splines como un modelo mixto⇒utilizar la funcion lme() para ajustar este tipo de modelos.

Funcion lme()I Permite incluir efectos aleatorios,I estructuras de covarianza y correlacion,I Permite ajustar modelos aditivos,I analizar datos longitudinales, etc.

Implica la creacion de todas las matrices que intervienen en el modelo,aunque permite ver de forma clara lo que esta haciendo el programa.

Maria Durban (UC3M) GAMs 62 / 139

Page 117: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software

SoftwareUso y programacion en R

Dado que se puede ver un modelo con P-splines como un modelo mixto⇒utilizar la funcion lme() para ajustar este tipo de modelos.

Funcion lme()I Permite incluir efectos aleatorios,I estructuras de covarianza y correlacion,I Permite ajustar modelos aditivos,I analizar datos longitudinales, etc.

Implica la creacion de todas las matrices que intervienen en el modelo,aunque permite ver de forma clara lo que esta haciendo el programa.

Maria Durban (UC3M) GAMs 62 / 139

Page 118: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software

SoftwareUso y programacion en R

Dado que se puede ver un modelo con P-splines como un modelo mixto⇒utilizar la funcion lme() para ajustar este tipo de modelos.

Funcion lme()I Permite incluir efectos aleatorios,I estructuras de covarianza y correlacion,I Permite ajustar modelos aditivos,I analizar datos longitudinales, etc.

Implica la creacion de todas las matrices que intervienen en el modelo,aunque permite ver de forma clara lo que esta haciendo el programa.

Maria Durban (UC3M) GAMs 62 / 139

Page 119: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software

SoftwareUso y programacion en R

Otros paquetes/funciones basados en lme()I mgcv,I SemiPar,I funcion glmmPQL() (para el caso de datos que no son normales).

I Veremos funciones escritas especificamente para el caso de suavizadomultidimensional.

I La idea es que os familiariceis con todas las herramientas disponiblespara que podais elegir aquella que os sea mas ÃÂÃÂotil en cada caso.

Maria Durban (UC3M) GAMs 63 / 139

Page 120: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software

SoftwareUso y programacion en R

Otros paquetes/funciones basados en lme()I mgcv,I SemiPar,I funcion glmmPQL() (para el caso de datos que no son normales).

I Veremos funciones escritas especificamente para el caso de suavizadomultidimensional.

I La idea es que os familiariceis con todas las herramientas disponiblespara que podais elegir aquella que os sea mas ÃÂÃÂotil en cada caso.

Maria Durban (UC3M) GAMs 63 / 139

Page 121: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 122: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

mgcv (Wood, 2006)I Contiene 2 funciones que permiten utilizar P-splines:

gamgamm

I gamm permite incluir efectos aleatorios, correlacionI gam Elige el parametro de suavizado mediante GCV o REMLI En ambos casos podemos imponer un cierto parametro de suavizado sin que

sea elegido por la propia funcion.

Maria Durban (UC3M) GAMs 65 / 139

Page 123: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

mgcv (Wood, 2006)I Contiene 2 funciones que permiten utilizar P-splines:

gamgamm

I gamm permite incluir efectos aleatorios, correlacionI gam Elige el parametro de suavizado mediante GCV o REMLI En ambos casos podemos imponer un cierto parametro de suavizado sin que

sea elegido por la propia funcion.

Maria Durban (UC3M) GAMs 65 / 139

Page 124: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

mgcv (Wood, 2006)I Contiene 2 funciones que permiten utilizar P-splines:

gamgamm

I gamm permite incluir efectos aleatorios, correlacionI gam Elige el parametro de suavizado mediante GCV o REMLI En ambos casos podemos imponer un cierto parametro de suavizado sin que

sea elegido por la propia funcion.

Maria Durban (UC3M) GAMs 65 / 139

Page 125: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

mgcv (Wood, 2006)I Contiene 2 funciones que permiten utilizar P-splines:

gamgamm

I gamm permite incluir efectos aleatorios, correlacionI gam Elige el parametro de suavizado mediante GCV o REMLI En ambos casos podemos imponer un cierto parametro de suavizado sin que

sea elegido por la propia funcion.

Maria Durban (UC3M) GAMs 65 / 139

Page 126: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

mgcv (Wood, 2006)I Contiene 2 funciones que permiten utilizar P-splines:

gamgamm

I gamm permite incluir efectos aleatorios, correlacionI gam Elige el parametro de suavizado mediante GCV o REMLI En ambos casos podemos imponer un cierto parametro de suavizado sin que

sea elegido por la propia funcion.

Maria Durban (UC3M) GAMs 65 / 139

Page 127: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

mgcv (Wood, 2006)I Contiene 2 funciones que permiten utilizar P-splines:

gamgamm

I gamm permite incluir efectos aleatorios, correlacionI gam Elige el parametro de suavizado mediante GCV o REMLI En ambos casos podemos imponer un cierto parametro de suavizado sin que

sea elegido por la propia funcion.

Maria Durban (UC3M) GAMs 65 / 139

Page 128: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

Libreria mgcv (Wood, 2006)I La base que utiliza por defecto, son los thin plate regression splines.I Sin embargo, es posible utilizar otras bases como splines cÃÂÃÂobicos, o

B-splines.I Se puede elegir el nÃÂÃÂo de nodos y el orden de la penalizacion.

gamm(formula,random=NULL,correlation=NULL,family=gaussian())

I Los 2 primeros argumentos son similares a los de lme,I permite especificar la parte no-parametrica del modelo de forma mas sencilla.I permite incluir estructuras de correlacion en el modelo, ademas de distribuciones

no Gaussianas.

gam(formula,method="GCV”,family=gaussian())

Maria Durban (UC3M) GAMs 66 / 139

Page 129: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

Libreria mgcv (Wood, 2006)I La base que utiliza por defecto, son los thin plate regression splines.I Sin embargo, es posible utilizar otras bases como splines cÃÂÃÂobicos, o

B-splines.I Se puede elegir el nÃÂÃÂo de nodos y el orden de la penalizacion.

gamm(formula,random=NULL,correlation=NULL,family=gaussian())

I Los 2 primeros argumentos son similares a los de lme,I permite especificar la parte no-parametrica del modelo de forma mas sencilla.I permite incluir estructuras de correlacion en el modelo, ademas de distribuciones

no Gaussianas.

gam(formula,method="GCV”,family=gaussian())

Maria Durban (UC3M) GAMs 66 / 139

Page 130: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

Maria Durban (UC3M) GAMs 67 / 139

Page 131: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

Maria Durban (UC3M) GAMs 67 / 139

Page 132: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

Maria Durban (UC3M) GAMs 67 / 139

Page 133: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

Maria Durban (UC3M) GAMs 67 / 139

Page 134: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

Maria Durban (UC3M) GAMs 67 / 139

Page 135: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

Maria Durban (UC3M) GAMs 67 / 139

Page 136: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

Maria Durban (UC3M) GAMs 67 / 139

Page 137: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

Maria Durban (UC3M) GAMs 67 / 139

Page 138: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

Maria Durban (UC3M) GAMs 67 / 139

Page 139: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

gamm()I Para especificar los terminos de suavizado se utiliza la funcion s(), sus

argumentos son:

k= Tamano de la base, nunca debe ser menor que el orden de la penalizacion.fx= indica si estamos utilizando un spline de regresion con grados de libertad

fijos (TRUE), o si estamos utilizando P-splines (FALSE)bs= Tipo de base que estamos utilizando, opciones:

cr: cubic regression splinescc: periodic splinestp: thin plate regression splinesps: P-splines con bases de B-splines

m= orden de la penalizacionby= permite multiplicar curvas por factores

Maria Durban (UC3M) GAMs 67 / 139

Page 140: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

Resultados gammI Tiene dos componentes: $lme y $gam, cada uno de ellos contiene los objetos propios de

cada una de esas dos funciones.

ABRIMOS EL ARCHIVO girl1mgcv.R

library(mgcv)girl=read.table("girl.txt",header=TRUE)y=girl$heightx=girl$agefit = gam(y~s(x,k=5,m=2,bs="ps")) # elige el parametro de suavizado

# con GCVfit1 = gamm(y~s(x,k=5,m=2,bs="ps")) # elige el parametro de suavizado

# con REMLfit1$lmefit1$gamfit1$gam$sp[1] 0.0002114203fit$sp[1] 0.0002235214

Maria Durban (UC3M) GAMs 68 / 139

Page 141: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

9 10 11 12 13 14 15

135

140

145

150

155

160

x

yGCVREML

Maria Durban (UC3M) GAMs 69 / 139

Page 142: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Software gamm() y gam()

SoftwareLa funcion gamm()

plot(fit2$gam)

9 10 11 12 13 14 15

−1

5−

10

−5

05

10

15

x

s(x,

5.4

5)

Maria Durban (UC3M) GAMs 70 / 139

Page 143: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 144: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones

Aplicaciones

ObjetivoI Ver como es posible incluir metodos de suavizado con P-splines a los

modelos que se utilizan mas frecuentemente.

Maria Durban (UC3M) GAMs 72 / 139

Page 145: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 146: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

Modelo semiparametricoy = β0 + β1x1 + . . .+ βj−1xj−1 + f (xj) + ε

I La forma de ajustar el modelo es exactamente igual a la que hemos visto anteriormente,simplemente construimos la matriz X de forma que incluya todas las variablesindependientes.

Caso especialI La parte parametrica incluye un factor con dos o mas niveles.

I Al igual que en el caso de regresion lineal nos podemos plantear:

Ajustar dos rectas paralelas (modelo aditivo) ono paralelas (modelo con interaccion).

I Ademas, nos podemos preguntar si la cantidad de suavizado es la misma en el caso deque las curvas no sean paralelas.

Maria Durban (UC3M) GAMs 74 / 139

Page 147: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

Modelo semiparametricoy = β0 + β1x1 + . . .+ βj−1xj−1 + f (xj) + ε

I La forma de ajustar el modelo es exactamente igual a la que hemos visto anteriormente,simplemente construimos la matriz X de forma que incluya todas las variablesindependientes.

Caso especialI La parte parametrica incluye un factor con dos o mas niveles.

I Al igual que en el caso de regresion lineal nos podemos plantear:

Ajustar dos rectas paralelas (modelo aditivo) ono paralelas (modelo con interaccion).

I Ademas, nos podemos preguntar si la cantidad de suavizado es la misma en el caso deque las curvas no sean paralelas.

Maria Durban (UC3M) GAMs 74 / 139

Page 148: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

Modelo semiparametricoy = β0 + β1x1 + . . .+ βj−1xj−1 + f (xj) + ε

I La forma de ajustar el modelo es exactamente igual a la que hemos visto anteriormente,simplemente construimos la matriz X de forma que incluya todas las variablesindependientes.

Caso especialI La parte parametrica incluye un factor con dos o mas niveles.

I Al igual que en el caso de regresion lineal nos podemos plantear:

Ajustar dos rectas paralelas (modelo aditivo) ono paralelas (modelo con interaccion).

I Ademas, nos podemos preguntar si la cantidad de suavizado es la misma en el caso deque las curvas no sean paralelas.

Maria Durban (UC3M) GAMs 74 / 139

Page 149: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

Modelo semiparametricoy = β0 + β1x1 + . . .+ βj−1xj−1 + f (xj) + ε

I La forma de ajustar el modelo es exactamente igual a la que hemos visto anteriormente,simplemente construimos la matriz X de forma que incluya todas las variablesindependientes.

Caso especialI La parte parametrica incluye un factor con dos o mas niveles.

I Al igual que en el caso de regresion lineal nos podemos plantear:

Ajustar dos rectas paralelas (modelo aditivo) ono paralelas (modelo con interaccion).

I Ademas, nos podemos preguntar si la cantidad de suavizado es la misma en el caso deque las curvas no sean paralelas.

Maria Durban (UC3M) GAMs 74 / 139

Page 150: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

Modelo semiparametricoy = β0 + β1x1 + . . .+ βj−1xj−1 + f (xj) + ε

I La forma de ajustar el modelo es exactamente igual a la que hemos visto anteriormente,simplemente construimos la matriz X de forma que incluya todas las variablesindependientes.

Caso especialI La parte parametrica incluye un factor con dos o mas niveles.

I Al igual que en el caso de regresion lineal nos podemos plantear:

Ajustar dos rectas paralelas (modelo aditivo) ono paralelas (modelo con interaccion).

I Ademas, nos podemos preguntar si la cantidad de suavizado es la misma en el caso deque las curvas no sean paralelas.

Maria Durban (UC3M) GAMs 74 / 139

Page 151: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

Modelo semiparametricoy = β0 + β1x1 + . . .+ βj−1xj−1 + f (xj) + ε

I La forma de ajustar el modelo es exactamente igual a la que hemos visto anteriormente,simplemente construimos la matriz X de forma que incluya todas las variablesindependientes.

Caso especialI La parte parametrica incluye un factor con dos o mas niveles.

I Al igual que en el caso de regresion lineal nos podemos plantear:

Ajustar dos rectas paralelas (modelo aditivo) ono paralelas (modelo con interaccion).

I Ademas, nos podemos preguntar si la cantidad de suavizado es la misma en el caso deque las curvas no sean paralelas.

Maria Durban (UC3M) GAMs 74 / 139

Page 152: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

Datos del archivo onions.txtI Datos de I.S.Rogers (South Australian Dept. of Agriculture & Fisheries).I El objetivo del estudio era establecer la relacion entre la produccion de

una planta de cebolla y la densidad de plantas cultivadas. Hay tresvariables:

Densidad (plantas/m2)Produccion (gramos/planta)Localidad

Maria Durban (UC3M) GAMs 75 / 139

Page 153: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos SemiparametricosGrafico de los datos sobre produccion de cebollas en dos localidades, en azul corresponden a

Virginia y en verde a Purnong Landing.

50 100 150

3.5

4.0

4.5

5.0

5.5

Densidad

log(

Pro

ducc

ion)

I Se observa que las cebollas cultivadas en Purnong Landing producen mas que lascultivadas en Virginia

Maria Durban (UC3M) GAMs 76 / 139

Page 154: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

La Figura muestra cierta curvatura en cada una de las localidades, lo quesugeriria el modelo:

log(Produccioni) = β1Localidadi + f (Densidadi) + εi

ABRIMOS EL ARCHIVO onions.RPara ajustar este modelo el codigo seria:

L=factor(Localidad)fit1=gam(log(Produccion)~L+s(Densidad,k=20,m=2,bs="ps"))

Maria Durban (UC3M) GAMs 77 / 139

Page 155: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

> summary(fit1)Formula:log(Produccion) ~ L + s(Densidad, k = 20, bs = "ps", m = 2)

Parametric coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.85011 0.01688 287.39 <2e-16 ***L1 -0.33284 0.02409 -13.82 <2e-16 ***---

Approximate significance of smooth terms:edf Ref.df F p-value

s(Densidad) 4.568 19 72.76 <2e-16 ***---

R-sq.(adj) = 0.946 Deviance explained = 94.9%-REML = -54.242 Scale est. = 0.011737 n = 84

Maria Durban (UC3M) GAMs 78 / 139

Page 156: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

50 100 150

3.5

4.0

4.5

5.0

5.5

Densidad

log(

Pro

ducc

ion)

Maria Durban (UC3M) GAMs 79 / 139

Page 157: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

I En este caso ambas curvas son paralelas, pero no tenemos por queasumir este modelo.

I al igual que en el caso de regresion lineal podemos plantearnos lainteraccion entre Localidad y Densidad.

No tenemos por que suponer que el descenso de la produccion cuandoaumenta la densidad es el mismo en las dos localidades.

Modelo con interaccion:

log(Produccioni) = f (Densidadi)L(i) + εi

donde

L(i) =

0 si el i-esimo dato fue recogido en Purnong Landing1 si el i-esimo dato fue recogido en Virginia

Maria Durban (UC3M) GAMs 80 / 139

Page 158: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

I En este caso ambas curvas son paralelas, pero no tenemos por queasumir este modelo.

I al igual que en el caso de regresion lineal podemos plantearnos lainteraccion entre Localidad y Densidad.

No tenemos por que suponer que el descenso de la produccion cuandoaumenta la densidad es el mismo en las dos localidades.

Modelo con interaccion:

log(Produccioni) = f (Densidadi)L(i) + εi

donde

L(i) =

0 si el i-esimo dato fue recogido en Purnong Landing1 si el i-esimo dato fue recogido en Virginia

Maria Durban (UC3M) GAMs 80 / 139

Page 159: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

I En este caso ambas curvas son paralelas, pero no tenemos por queasumir este modelo.

I al igual que en el caso de regresion lineal podemos plantearnos lainteraccion entre Localidad y Densidad.

No tenemos por que suponer que el descenso de la produccion cuandoaumenta la densidad es el mismo en las dos localidades.

Modelo con interaccion:

log(Produccioni) = f (Densidadi)L(i) + εi

donde

L(i) =

0 si el i-esimo dato fue recogido en Purnong Landing1 si el i-esimo dato fue recogido en Virginia

Maria Durban (UC3M) GAMs 80 / 139

Page 160: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

I En este caso ambas curvas son paralelas, pero no tenemos por queasumir este modelo.

I al igual que en el caso de regresion lineal podemos plantearnos lainteraccion entre Localidad y Densidad.

No tenemos por que suponer que el descenso de la produccion cuandoaumenta la densidad es el mismo en las dos localidades.

Modelo con interaccion:

log(Produccioni) = f (Densidadi)L(i) + εi

donde

L(i) =

0 si el i-esimo dato fue recogido en Purnong Landing1 si el i-esimo dato fue recogido en Virginia

Maria Durban (UC3M) GAMs 80 / 139

Page 161: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos Semiparametricos

I En este caso ambas curvas son paralelas, pero no tenemos por queasumir este modelo.

I al igual que en el caso de regresion lineal podemos plantearnos lainteraccion entre Localidad y Densidad.

No tenemos por que suponer que el descenso de la produccion cuandoaumenta la densidad es el mismo en las dos localidades.

Modelo con interaccion:

log(Produccioni) = f (Densidadi)L(i) + εi

donde

L(i) =

0 si el i-esimo dato fue recogido en Purnong Landing1 si el i-esimo dato fue recogido en Virginia

Maria Durban (UC3M) GAMs 80 / 139

Page 162: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos SemiparametricosEl codigo seria:fit2=gam(log(Produccion)~L+s(Densidad,k=20,m=2,by=L))Formula:log(Produccion) ~ L + s(Densidad, k = 20, bs = "ps", m = 2, by = L)

Parametric coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 4.84407 0.01603 302.12 <2e-16 ***L1 -0.33003 0.02271 -14.54 <2e-16 ***---

edf Ref.df F p-values(Densidad):L0 3.097 18 37.62 <2e-16 ***s(Densidad):L1 4.728 17 52.10 <2e-16 ***---R-sq.(adj) = 0.952 Deviance explained = 95.7%

AIC(fit1)[1] -125.8341> AIC(fit2)[1] -132.25

Maria Durban (UC3M) GAMs 81 / 139

Page 163: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos semiparametricos

AplicacionesModelos SemiparametricosCurvas ajustadas utilizando interaccion en el modelo (la linea discontinua corresponde a unmodelo sin interaccion

50 100 150

3.5

4.0

4.5

5.0

5.5

Densidad

log(

Pro

ducc

ion)

Maria Durban (UC3M) GAMs 82 / 139

Page 164: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 165: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos aditivos

AplicacionesModelos Aditivos

Mortalidad por enfermedades respiratorias relacionadas con la polucion

I Archivo milan.txtI 5 variables:

dia: Dia en el que se tomaron los datos.temp: Temperatura media diaria.humed: Humedad relativa.resp.mort: Muertes por problemas respiratorios.NTP: Numero de particulas suspendidas en el aire.

X Buscamos establecer la relacion entre las variables meteorologicas y lasmuertes por cuestiones respiratorias.

Maria Durban (UC3M) GAMs 84 / 139

Page 166: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos aditivos

AplicacionesModelos Aditivos

Mortalidad por enfermedades respiratorias relacionadas con la polucion

I Archivo milan.txtI 5 variables:

dia: Dia en el que se tomaron los datos.temp: Temperatura media diaria.humed: Humedad relativa.resp.mort: Muertes por problemas respiratorios.NTP: Numero de particulas suspendidas en el aire.

X Buscamos establecer la relacion entre las variables meteorologicas y lasmuertes por cuestiones respiratorias.

Maria Durban (UC3M) GAMs 84 / 139

Page 167: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos aditivos

AplicacionesModelos Aditivos

Modelo√mort.resp = β0 + β1NTP + f (dia) + f (temp) + f (humed) + ε

Maria Durban (UC3M) GAMs 85 / 139

Page 168: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos aditivos

AplicacionesModelos Aditivos

En R (aditivo.R)

milan=read.table("milan.txt",header=TRUE)milan=milan[1:365,]attach(milan)

y=sqrt(resp.mort)

x1=NTPx2=diax3=tempx4=humed

library(mgcv)

fit.aditivo=gam(y~x1+s(x2,k=20,bs="ps",m=2)+s(x3,k=20,bs="ps",m=2)+s(x4,k=20,bs="ps",m=2))

Maria Durban (UC3M) GAMs 86 / 139

Page 169: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos aditivos

AplicacionesModelos Aditivos

Archivo aditivo.Rfit.aditivo=gamm(y~x1+s(x2,k=20,bs="ps",m=2)+s(x3,k=20,bs="ps",m=2)

+s(x4,k=20,bs="ps",m=2))par(mfrow=c(2,2))plot(fit.aditivo$gam)

0 100 200 300

−1.0

0.0

1.0

x2

s(x2

,5.9

1)

0 5 10 20 30

−1.0

0.0

1.0

x3

s(x3

,2.6

)

20 40 60 80

−1.0

0.0

1.0

x4

s(x4

,1)

En el archivo lme_aditivo.R se muestra como ajustar el modelo aditivo con la funcion lme ycalcular las curvas.

Maria Durban (UC3M) GAMs 87 / 139

Page 170: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Modelos aditivos

AplicacionesModelos Aditivos

Archivo aditivo.Rsummary(fit.aditivo)Formula:y ~ x1 + s(x2, k = 20, bs = "ps", m = 2) + s(x3, k = 20, bs = "ps",

m = 2) + s(x4, k = 20, bs = "ps", m = 2)

Parametric coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.6664877 0.1058152 15.749 <2e-16 ***x1 -0.0006259 0.0006641 -0.943 0.347---Signif. codes: 0 â***â 0.001 â**â 0.01 â*â 0.05 â.â 0.1 â â 1

Approximate significance of smooth terms:edf Ref.df F p-value

s(x2) 15.950 17.200 4.015 2.12e-07 ***s(x3) 3.672 4.729 1.599 0.1624s(x4) 1.000 1.000 3.092 0.0796 .

Maria Durban (UC3M) GAMs 88 / 139

Page 171: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 172: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos correlados

AplicacionesDatos correlados

I Datos de Pandit and Wu (1983)I Archivo madera.txt, corresponden a 320 medidas tomadas en la

superficie de un bloque de madera, las medidas corresponden a laprofundidad de las muescas que aparecen en la madera cuando se pulecon una piedra circular.

Maria Durban (UC3M) GAMs 90 / 139

Page 173: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos correlados

AplicacionesDatos correladosEfecto del lijado en un trozo de madera

I La Figura muestra como cambia el tamano de la muesca con relacion al radio de la piedra.

0 50 100 150 200 250 300

7080

9010

011

012

0

distancia

prof

undi

dad

X Pandit and Wu (1983) asumieron que la tendencia era a priori circular y utilizaron 3 parametros(dos para el centro y uno para el radio) para ajustarla, e iteraron entre la estimacion de estatendencia y la estructura de los errores.

Maria Durban (UC3M) GAMs 91 / 139

Page 174: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos correlados

AplicacionesDatos correlados

Con el uso de los P-splines es posible flexibilizar la estructura de la tendencia y estimarsimultaneamente ambos efectos (algo que es muy dificil si no se utiliza la representacion de losP-splines como modelos mixtos).

Comenzamos por ajustar un modelo de suavizado, ignorando la estructura de correlacion en losdatos:

cor.gamm=gamm(profundidad~s(distancia, k=40, bs="ps",m=2))

Maria Durban (UC3M) GAMs 92 / 139

Page 175: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos correlados

Curva ajustada (izquierda) y autocorrelacion de los residuos delmodelo (derecha)

0 50 100 150 200 250 300

−30

−20

−10

010

20

distancia

s(di

stan

cia,

27.0

2)

0 5 10 15 20 25

−0.

20.

00.

20.

40.

60.

81.

0

Lag

AC

F

Series cor1.gamm$gam$resid

X Ignorar la estructura de correlacion tiene dos efectos:I una curva que no es suave yI unos residuos que no son incorrelados.

Page 176: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos correlados

Para solucionar el problema podemos introducir una estructura de autocorrelacion enel modelo, por ejemplo un AR(1) y un AR(2).

Id=factor(rep(1,320))

cor1.gamm=gamm(profundidad~s(distancia, k=40, bs="ps",m=2),correlation=corARMA(form=~distancia|Id,p=1,q=0))

cor2.gamm=gamm(profundidad~s(distancia, k=40, bs="ps",m=2),correlation=corARMA(form=~distancia|Id,p=2,q=0))

Page 177: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos correlados

Curva ajustada (izquierda) y autocorrelacion de los residuos delmodelo con autocorrelacion (derecha)

0 50 100 150 200 250 300

7080

9010

011

012

0

distancia

prof

undi

dad

0 5 10 15 20 250.

00.

20.

40.

60.

81.

0

Lag

AC

F

Series residuos

Al asumir un proceso AR(2) para el termino de error, es posible separar la correlaciona corto plazo y la tendencia global, y no hay restos de correlacion en los residuos.

Page 178: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos correlados

Podemos comparar los modelos ajustados mediante el test de maximaverosimilitud para confirmar que es necesario un modelo AR(2) para eltermino de error:

anova(cor.gamm$lme,cor1.gamm$lme,cor2.gamm$lme)

Model df AIC BIC logLik Test L.Ratio p-valuecor.gamm$lme 1 4 1853.437 1868.510 -922.7185cor1.gamm$lme 2 5 1660.112 1678.954 -825.0561 1 vs 2 195.32478 <.0001cor2.gamm$lme 3 6 1643.742 1666.352 -815.8711 2 vs 3 18.37015 <.0001

Page 179: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 180: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos multidimensionales

AplicacionesDatos multidimensionales

Ejemplo 2: Analisis de datos de mortalidadI Datosa: para cada ano entre 1947 y 1999 y cada edad (entre 11 y 100

anos) se dispone del numero de polizas cobradas (muertes) y delnumero de polizas que hay (exposicion o multiplicador de la tasa).

I Los datos se organizan en matrices Y y E cuyas filas estan indexadaspor edad y las columnas por anos, y definimos la mortalidad como:

R = Y/E

aContinuous Mortality Investigation Bureau (CMIB) del Reino Unido

Maria Durban (UC3M) GAMs 98 / 139

Page 181: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Datos sobre mortalidad en el Reino Unido

Page 182: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

I Datos: archivo mortalidad.txt.I Codigo archivo mortalidad.R.

mortalidad=read.table("mortalidad.txt",header=TRUE)attach(mortalidad)

library(mgcv)off=log(exposicion)

X Como los datos corresponden al numero de muertes, estamos en el caso de unmodelo lineal generalizado con distribucion de Poisson (seccion 4.1).

Page 183: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

I Hemos de tener en cuenta el numero de polizas existentes en ese momento, esdecir, buscamos un modelo para la tasa de mortalidad:

log(y/e) = f (x, y)⇒ log(y) = log(e)︸ ︷︷ ︸offset

+f (x, y)

I Podemos plantear 2 modelos:

1 Modelo aditivo2 Modelo bidimensional

Page 184: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos multidimensionales

I Modelo aditivo suave para Edad-Periodo:

fit=gamm(muertes~s(edad,k=20,bs="ps",m=2)+s(periodo,k=20,bs="ps",m=2)+offset(off),family="poisson",niterPQL=30)

Este modelo ajusta la misma curva para todas las edades y la mismapara todos los anos.

Page 185: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos multidimensionales

Curvas ajustadas para edad y periodo con un modelo aditivo

edad

perio

do

linear predictor

Page 186: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos multidimensionales

Curva ajustada periodo con un modelo aditivo para dos grupos de edad

Periodo

log(m

u)

1950 1960 1970 1980 1990 2000

-7.8

-7.6

-7.4

-7.2

-7.0

-6.8

-6.6

-6.4

Periodo

log(m

u)

1950 1960 1970 1980 1990 2000

-5.0

-4.8

-4.6

-4.4

-4.2

Edad: 34 Edad: 60

I Vemos claramente que no es apropiado asumir que el descenso en la mortalidad a lo largode los anos es el mismo para todas las edades.

I En el caso de los 34 anos, el modelo no es capaz de ajustar correctamente el hecho deque en los ultimos anos el comportamiento de los jovenes haya ralentizado el descenso dela mortalidad.

I En el caso de los 60 anos, el modelo tiende a subestimar la mortalidad en los primerosanos y a sobrestimarla recientemente.

Page 187: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos multidimensionales

Curva ajustada periodo con un modelo aditivo para dos grupos de edad

Periodo

log(m

u)

1950 1960 1970 1980 1990 2000

-7.8

-7.6

-7.4

-7.2

-7.0

-6.8

-6.6

-6.4

Periodo

log(m

u)

1950 1960 1970 1980 1990 2000

-5.0

-4.8

-4.6

-4.4

-4.2

Edad: 34 Edad: 60

I Vemos claramente que no es apropiado asumir que el descenso en la mortalidad a lo largode los anos es el mismo para todas las edades.

I En el caso de los 34 anos, el modelo no es capaz de ajustar correctamente el hecho deque en los ultimos anos el comportamiento de los jovenes haya ralentizado el descenso dela mortalidad.

I En el caso de los 60 anos, el modelo tiende a subestimar la mortalidad en los primerosanos y a sobrestimarla recientemente.

Page 188: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos multidimensionales

Curva ajustada periodo con un modelo aditivo para dos grupos de edad

Periodo

log(m

u)

1950 1960 1970 1980 1990 2000

-7.8

-7.6

-7.4

-7.2

-7.0

-6.8

-6.6

-6.4

Periodo

log(m

u)

1950 1960 1970 1980 1990 2000

-5.0

-4.8

-4.6

-4.4

-4.2

Edad: 34 Edad: 60

I Vemos claramente que no es apropiado asumir que el descenso en la mortalidad a lo largode los anos es el mismo para todas las edades.

I En el caso de los 34 anos, el modelo no es capaz de ajustar correctamente el hecho deque en los ultimos anos el comportamiento de los jovenes haya ralentizado el descenso dela mortalidad.

I En el caso de los 60 anos, el modelo tiende a subestimar la mortalidad en los primerosanos y a sobrestimarla recientemente.

Page 189: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos multidimensionales

I Modelo de suavizado bidimensional:

fit2=gamm(muertes~te(edad,periodo,k=c(10,10),bs=c("ps","ps"),m=2)+offset(off) ,family="poisson",niterPQL=30)

Superficie ajustada con un modelo bidimensional

edad

perio

do

linear predictorX Se pueden apreciar las diferencias sobre todo en las edades tempranas y en losancianos

Page 190: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesDatos multidimensionales

Curva ajustada con un modelo bidimensional para dos grupos de edad

Periodo

log

(mu

)

1950 1960 1970 1980 1990 2000

-7.6

-7.4

-7.2

-7.0

-6.8

-6.6

-6.4

Periodo

log

(mu

)

1950 1960 1970 1980 1990 2000

-5.0

-4.8

-4.6

-4.4

-4.2

Edad: 34 Edad: 60

X Vemos como ahora el modelo ajusta correctamente las curvas para las distintasedades.

Page 191: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos multidimensionales

AplicacionesDatos multidimensionales

Ejemplo 3: Datos espacio-temporales-Polucion por OzonoI 45 estacione meteorologicasI Medias mensuales de niveles de O3 (en µg/m3)I desde Enero de 1999 a Diciembre 2005 (t = 1, ..., 84)

0 5 10 15 20 25

4045

5055

6065

Monitoring stations

Latitude

Long

itude

++

++

+

+ ++

+

+

++

+

++

+

++

+

+

+

++

+

+

+

+

++

+

+

+

+

++

+

+

+

+

+

10

25

30

2000 2002 2004 2006

2040

6080

100

120

140

Time series plot of three selected stations

Years

O3

Station n. 10Station n. 25Station n. 30

Monitoring stations Time series plot

Source: EEA

Maria Durban (UC3M) GAMs 107 / 139

Page 192: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos multidimensionales

Spatial 2d + time

fs(x1, x2) + ft(xt)

0 5 10 15 20 25

4045

5055

6065

Latitude

Long

itude

40

50

60

70

80

90

1999 2000 2001 2002 2003 2004 2005

−20

−10

010

20

yearf(

time)

X Space-time interaction is not considered

X time smooth trend is additive

Maria Durban (UC3M) GAMs 108 / 139

Page 193: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos multidimensionales

Spatial 2d + time-space + time interaction

Play animation =

+ +

y f(space)

f(time)

1999 : 1

f(space,time)

Maria Durban (UC3M) GAMs 109 / 139

Page 194: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos multidimensionales

AplicacionesDatos multidimensionales

Aditivo VS ANOVAAjuste modelo aditivo Ajuste modelo ANOVA

fs(x1, x2) + fs(xt) fs(x1, x2) + ft(xt) + fst(x1, x2, xt)

2000 2002 2004 2006

020

4060

8010

012

014

0

Space and time main effects PS−ANOVA fit and forecast

Years

O3

Station n. 10Station n. 25Station n. 30

2000 2002 2004 2006

020

4060

8010

012

014

0

Spatio−temporal PS−ANOVA fit and forecast

Years

O3

Station n. 10Station n. 25Station n. 30

X Modelo aditivo Asume una superficie espacial suave para las estaciones que permanece constante a lolargo del tiempo.

X Modelo ANOVA Captura las catacteristicas individuales de las estaciones a lo largo del tiempo.

Maria Durban (UC3M) GAMs 110 / 139

Page 195: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Contenido

1 Introduccion

2 P-splinesBases, Penalizaciones, Nodos y coeficientesP-splines como modelos mixtosEstimacionDatos CorreladosP-splines MultidimensionalesModelos aditivos generalizados con P-splines

3 Softwaregamm() y gam()

4 AplicacionesModelos semiparametricosModelos aditivosDatos correladosDatos multidimensionalesDatos longitudinales

Page 196: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Datos longitudinalesI Muy frecuentes en aplicaciones medicas y biologicas.I En general, corresponden a medidas tomadas a varios individuos en distintos

instantes de tiempo.

Se caracterizan por la dependencia que hay entre las medidas repetidashechas a un mismo individuo.

Maria Durban (UC3M) GAMs 112 / 139

Page 197: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Como modelos mixtosI Cada individuo se representa como la suma de la media de la poblacion

(que varia con el tiempo) y que se modela como un efecto fijo, y unpolinomio de grado bajo (generalmente una linea) en la que loscoeficientes son aleatorios y sirve para modelar la variabilidadindividual (Laird and Ware, 1982).

Estos modelos pueden no ser apropiados (ej. cuando las trayectoriasindividuales sean una funcion no-lineal del tiempo).

Maria Durban (UC3M) GAMs 113 / 139

Page 198: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Como modelos mixtosI Cada individuo se representa como la suma de la media de la poblacion

(que varia con el tiempo) y que se modela como un efecto fijo, y unpolinomio de grado bajo (generalmente una linea) en la que loscoeficientes son aleatorios y sirve para modelar la variabilidadindividual (Laird and Ware, 1982).

Estos modelos pueden no ser apropiados (ej. cuando las trayectoriasindividuales sean una funcion no-lineal del tiempo).

Maria Durban (UC3M) GAMs 113 / 139

Page 199: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Datos sobre el estudio de distintas terapias para la leucemiainfantil

I Estos datos han sido modificados para preservar la confidencialidad de los mismos y seencuentran en el archivo leucemia.txt.

I El archivo tiene 4 columnas:

caso: Indica a que nina corresponden los datostratamiento: Toma valores 1, 2 o 3 segun el tipo de tratamiento quereciben.altura: Altura en centimetrosedad: Edad en anos.

I Tomamos 197 ninas que fueron diagnosticadas de leucemia linfoblastica aguda entre los 2y los 9 anos.

I La altura de estas ninas se midio en diferentes momentos y en total se recogieron 1988observaiones.

I El nÃÂÃÂo de observaciones por nina varia entre 1 y 21.

Maria Durban (UC3M) GAMs 114 / 139

Page 200: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Datos sobre el estudio de distintas terapias para la leucemiainfantil

I Estos datos han sido modificados para preservar la confidencialidad de los mismos y seencuentran en el archivo leucemia.txt.

I El archivo tiene 4 columnas:

caso: Indica a que nina corresponden los datostratamiento: Toma valores 1, 2 o 3 segun el tipo de tratamiento quereciben.altura: Altura en centimetrosedad: Edad en anos.

I Tomamos 197 ninas que fueron diagnosticadas de leucemia linfoblastica aguda entre los 2y los 9 anos.

I La altura de estas ninas se midio en diferentes momentos y en total se recogieron 1988observaiones.

I El nÃÂÃÂo de observaciones por nina varia entre 1 y 21.

Maria Durban (UC3M) GAMs 114 / 139

Page 201: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos LongitudinalesXAltura de las ninas a lo largo del tiempo para cada uno de los tres tratamientos

age (years)

heig

ht (c

m)

80

100

120

140

160

5 10 15 20

hyperfractionated radiation

NO radiation

5 10 15 20

5 10 15 20

standard radiation

I Observamos como cuando llega la pubertad, la relacion deja de ser lineal.I El codigo de los modelos que vamos a ajustar se puede encontrar en los archivos

longitudinal.R y longitudinal2.R.

Maria Durban (UC3M) GAMs 115 / 139

Page 202: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Modelo con ordenada en el origen aleatoria

yij = β0 + β1xij +L∑

l=2

γltril + Ui + εij

Ui ∼ N(0, σ2U) , εij ∼ N(0, σε)

siendo

1 ≤ i ≤ 1971 ≤ j ≤ ni

donde

tril =

1 si la nina i-esima recibe el tratamiento l0 en otro caso

X Este modelo lo que supone es que todas las ninas tienen una tasa de crecimiento lineal e igualpara todas, y la variabilidad entre las ninas se tiene en cuenta mediante un efecto aleatorio Ui.

Maria Durban (UC3M) GAMs 116 / 139

Page 203: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Modelo con ordenada en el origen aleatoria

yij = β0 + β1xij +L∑

l=2

γltril + Ui + εij

Ui ∼ N(0, σ2U) , εij ∼ N(0, σε)

siendo

1 ≤ i ≤ 1971 ≤ j ≤ ni

donde

tril =

1 si la nina i-esima recibe el tratamiento l0 en otro caso

X Este modelo lo que supone es que todas las ninas tienen una tasa de crecimiento lineal e igualpara todas, y la variabilidad entre las ninas se tiene en cuenta mediante un efecto aleatorio Ui.

Maria Durban (UC3M) GAMs 116 / 139

Page 204: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

En el archivo longitudinal.REl codigo seria:

library(nlme)

leucemia=read.table("leucemia.txt",header=TRUE)

attach(leucemia)

model1 = lme(altura~factor(tratamiento)+edad,random=list(caso=pdIdent(~1)))

Maria Durban (UC3M) GAMs 117 / 139

Page 205: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos LongitudinalesRectas ajustadas para las ninas que reciben el radiacionhiperfraccionada

5 10 15

8010

012

014

016

018

0

edad

altu

ra

X El modelo no explica de forma adecuada la trayectoria individual de las ninas.

Maria Durban (UC3M) GAMs 118 / 139

Page 206: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Una extension natural del modelo anterior seria:

Modelo aditivo mixto

yij =

L∑l=2

γltril + f (xij) + Ui + εij Ui ∼ N(0, σ2U) εij ∼ N(0, σε)

donde f es una funcion suave que refleja la tendencia de crecimiento de lasninas.

Maria Durban (UC3M) GAMs 119 / 139

Page 207: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Utilizando la funcion gamm()library(mgcv)

fit2.gamm=gamm(altura~factor(tratamiento)+s(edad,k=40,bs="ps",m=2),random=list(caso=pdIdent(~1)))

Maria Durban (UC3M) GAMs 120 / 139

Page 208: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesP-splines para datos Longitudinales

Curvas ajustadas para las ninas que reciben la radiacionconvencional.

5 10 15

8010

012

014

016

0

edad

altura

I El modelo aditivo mixto es demasiado simplista.I Ademas asumir que las curvas sean paralelas y con la misma forma no permite explicar las

trayectorias individuales de forma correcta.

Page 209: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Modelo con diferencias individuales linealesI Es una extension simple del modelo anteriorI asume que las diferencias individuales vienen dadas no solo mediante la ordenada en el

origen, sino tambien por la pendiente:

yij =L∑

l=2

γltril + f (xij) + ai1 + ai2xij + εij εij ∼ N(0, σε)

donde(ai1, ai2)T ∼ N(0,Σ)

Maria Durban (UC3M) GAMs 122 / 139

Page 210: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Modelo con diferencias individuales linealesI Es una extension simple del modelo anteriorI asume que las diferencias individuales vienen dadas no solo mediante la ordenada en el

origen, sino tambien por la pendiente:

yij =L∑

l=2

γltril + f (xij) + ai1 + ai2xij + εij εij ∼ N(0, σε)

donde(ai1, ai2)T ∼ N(0,Σ)

Maria Durban (UC3M) GAMs 122 / 139

Page 211: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Modelo con diferencias individuales linealesI Es una extension simple del modelo anteriorI asume que las diferencias individuales vienen dadas no solo mediante la ordenada en el

origen, sino tambien por la pendiente:

yij =L∑

l=2

γltril + f (xij) + ai1 + ai2xij + εij εij ∼ N(0, σε)

donde(ai1, ai2)T ∼ N(0,Σ)

Maria Durban (UC3M) GAMs 122 / 139

Page 212: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesP-splines para datos Longitudinales

I Utilizando la funcion gamm():

fit3.gamm=gamm(altura~factor(tratamiento)+s(edad,k=40,bs="ps",m=2),random=list(caso=pdSymm(~edad)))

I Utilizando la funcion lme():

X=model.matrix(altura~factor(tratamiento)+edad)Z.block3=list(Id=pdIdent(~Z-1),caso=pdSymm(~edad))data.fr = groupedData( altura ~ X[,-1]|Id,

data =data.frame(altura,X,Z,caso,edad))model3 = lme(altura~X[,-1],data=data.fr,random=Z.block3)

Page 213: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesP-splines para datos LongitudinalesCurvas ajustadas para las ninas que reciben el radiacion convencional, la linea solidacorresponde al modelo con pendiente aleatoria.

5 10 15

8010

012

014

016

0

edad

altu

ra

Este modelo permite que las curvas no solo se muevan en direccion vertical, sino que tambienoscilen, aun asi es posible relajar aun mas el modelo.

Page 214: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

I Uno de los objetivos del estudio era comparar los efectos a largo plazo de las tres terapias,de modo que seria interesante ajustar una curva distinta para cada tratamiento.

I Para hacerlo utilizamos una interaccion entre un factor y un predictor continuo.

Maria Durban (UC3M) GAMs 125 / 139

Page 215: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

I Uno de los objetivos del estudio era comparar los efectos a largo plazo de las tres terapias,de modo que seria interesante ajustar una curva distinta para cada tratamiento.

I Para hacerlo utilizamos una interaccion entre un factor y un predictor continuo.

Maria Durban (UC3M) GAMs 125 / 139

Page 216: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Interaccion de curva por factor

yij = fzi(xij) + ai1 + ai2xij + εij εij ∼ N(0, σ2ε)

donde tril = 1 si tri = l y 0 en otro caso.

Maria Durban (UC3M) GAMs 126 / 139

Page 217: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones IP-splines para datos Longitudinales

En R:I Utilizando la funcion gamm():

fit4.gamm=gamm(altura~factor(tratamiento)+s(edad,k=40,bs="ps",m=2,by=factor(tratamiento)),random=list(caso=pdSymm(~edad)))

Page 218: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

AplicacionesP-splines para datos Longitudinales

Curvas ajustadas para los distintos tratamientos

5 10 15

100

120

140

160

edad

altu

ra

tratamiento 1tratamiento 2tratamiento 3

Page 219: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Los modelos mas flexibles son aquellos que permiten que las diferencias especificas individuales sean unafuncion no-parametrica (ver Ruppert et al. (2003)).

Curvas especificas para cada individuo mediante P-splines

yij =L∑

l=2

γltril + f (xij) + gi(xij) + εij εij ∼ N(0, σε)

I Cada curva individual gi() tiene dos componentes:uno lineal yotro no-parametrico

I Ambos componentes son aleatorios, a diferencia de lo que hacen otros autores como Brumback andRice (1998).

I Este nuevo enfoque soluciona los problemas computacionales a los que daba lugar el hecho detener que estimar 2m parametros para la parte lineal.

Maria Durban (UC3M) GAMs 129 / 139

Page 220: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Los modelos mas flexibles son aquellos que permiten que las diferencias especificas individuales sean unafuncion no-parametrica (ver Ruppert et al. (2003)).

Curvas especificas para cada individuo mediante P-splines

yij =L∑

l=2

γltril + f (xij) + gi(xij) + εij εij ∼ N(0, σε)

I Cada curva individual gi() tiene dos componentes:uno lineal yotro no-parametrico

I Ambos componentes son aleatorios, a diferencia de lo que hacen otros autores como Brumback andRice (1998).

I Este nuevo enfoque soluciona los problemas computacionales a los que daba lugar el hecho detener que estimar 2m parametros para la parte lineal.

Maria Durban (UC3M) GAMs 129 / 139

Page 221: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

Los modelos mas flexibles son aquellos que permiten que las diferencias especificas individuales sean unafuncion no-parametrica (ver Ruppert et al. (2003)).

Curvas especificas para cada individuo mediante P-splines

yij =L∑

l=2

γltril + f (xij) + gi(xij) + εij εij ∼ N(0, σε)

I Cada curva individual gi() tiene dos componentes:uno lineal yotro no-parametrico

I Ambos componentes son aleatorios, a diferencia de lo que hacen otros autores como Brumback andRice (1998).

I Este nuevo enfoque soluciona los problemas computacionales a los que daba lugar el hecho detener que estimar 2m parametros para la parte lineal.

Maria Durban (UC3M) GAMs 129 / 139

Page 222: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

AplicacionesP-splines para datos Longitudinales

I Nuestro interes en el analisis de estos datos son:Los efectos de los tratamientos en la altura a lo largo del tiempo ylas respuestas individuales al tratamiento.

Maria Durban (UC3M) GAMs 130 / 139

Page 223: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Curvas estimadas para las medias poblacionales (izquierda) y curvas de contraste con intervalosde confianza (derecha)

5 10 15

Edad

100

120

140

160

Altu

ra (e

n cm

)

terapia 1terapia 2terapia 3

5 10 15

Edad

-20

-15

-10

-50

5

Dife

renc

ia

terapia 3 vs 1terapia 2 vs 1

Todos los grupos siguen el mismo patron, pero la ninas que no recibieron radiacion (tratamiento1) son mas altas que las de los otros dos grupos. En particular, este grupo es significativamentemas alto que los demas cuando las ninas llegan a la adolescencia.

Page 224: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Efectos aleatorios estimados correspondientes a las curvas individuales del modelo para cadanina.

5 10 15

−20

−10

010

20

edad

Efec

tos al

eator

ios

X Se aprecia que los efectos para algunas ninas son claramente no-lineales.

Page 225: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Curvas individuales de 6 ninas (linea continua) con I.C. al 95 % junto con la curva media delgrupo (linea discontinua)

5 10 15

Edad

100

120

140

160

Altu

ra (e

n cm

)

5 10 15

Edad

100

120

140

160

Altu

ra (e

n cm

)

5 10 15

Edad

100

120

140

160

Altu

ra (e

n cm

)

5 10 15

Edad

100

120

140

160

Altu

ra (e

n cm

)

5 10 15

Edad

100

120

140

160

Altu

ra (e

n cm

)

5 10 15

Edad

100

120

140

160

Altu

ra (e

n cm

)X Las curvas medias de las terapias no representan de forma adecuada la altura individual delas ninas, mostrando la perdida de informacion que tendriamos sobre las trayectorias individualessi no hubieramos incluido las curvas individuales en el modelo.

Page 226: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

Bibliografia IBreslow, N. and Clayton, D. (1993). Approximate inference in generalized

linear mixed models. Journal of the American Statistical Association,88:9–25.

Brezger, A., Kneib, T., and Lang, S. (2005). Bayesx: Analysing bayesianstructured additive regression models. Journal of Statistical Software,14(11).

Brumback, B. and Rice, J. (1998). Smoothing spline models for the analysisof nested and crossed samples of curves. Journal of the AmericanStatistical Association, 93:961–994.

Coull, B., Schwartz, J., and Wand, M. (2001). Respiratory health and airpollution: Additive mixed model analyses. Biostatistics, 2:337–349.

Crainiceanu, C., Ruppert, D., Claeskens, G., and Wand, M. (2004). Restrictedlikelihood ratio in non-parametric longitudinal models. Statistica Sinica,14:713–729

Crainiceanu, C., Ruppert, D., and Vogelsang, T. (2002). Probabilty that themle of a variance component is zero with applications to likelihood ratiotests. Working Paper.

Maria Durban (UC3M) GAMs 134 / 139

Page 227: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

Bibliografia IICurrie, I., Durban, M., and Eilers, P. (2004). Smoothing and forecasting

mortality rates. Statistical Modelling (en prensa).De Boor, C. (1977). Package for calculating with B-splines. Journal of

Numerical Analysis, 14:441–472.De Boor, C. (2001). A practical guide to splines. Applied Mathematical

Sciences. Springer-Verlag, New York.Dierckx, P. (1993). Curve and surface fitting with splines. Clarendon, Oxford.Durban, M., Currie, I., and Eilers, P. (2002). Using P-splines to smooth

two-dimensional Poisson data. In Stasinopoulos, M. and Toulouimi, G.,editors, Proceedings of the 17th International Workshop on StatisticalModelling, pages 207–214, Crete, Greece.

Eilers, P. and Marx, B. (1996). Flexible smoothing with B-splines andpenalties. Statistical Science, 11:89–121.

Green, P. and Silverman, B. (1994). Nonparametric Regression andGeneralized Linear Models. Monographs on Statistics and AppliedProbability. Chapman & Hall, London.

Maria Durban (UC3M) GAMs 135 / 139

Page 228: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

Bibliografia IIIHastie, T. and Tibshirani, R. (1986). Generalized additive models. Statistical

Science, 1:297–318.Hastie, T. and Tibshirani, R. (1987). Generalized additive models: Some

applications. Journal of the American Statistical Association, 82:371–386.Kneib, T. (2005). Mixed Model Based Inference in Structured Additive

Regression. PhD thesis, Department of Statistics, Ludwig-MaximiliansUniversity, Munich.

Laird, N. and Ware, J. (1982). Random-effects models for longitudinal data.Biometrics, 38:963–974.

Lang, S. and Brezger, A. (2004). Bayesian p-splines. Journal ofComputational and Graphical Statistics, 13.

Marx, B. and Eilers, P. (1998). Direct generalized additive modeling withpenalized likelihood. Computational Statistics and Data Analysis,28:193–209.

Ngo, L. and Wand, M. (2004). Smoothing with mixed model software. Journalof Statistical Software, 9(1).

Maria Durban (UC3M) GAMs 136 / 139

Page 229: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

Bibliografia IVNychka, D. (1988). Confidence intervals for smoothing splines. Journal of the

American Statistical Association, 83:1134–43.O’Sullivan, F. (1986). A statistical perspective on ill-posed inverse problems.

Statistical Sciences, 1:505–527.Pandit, S. and Wu, S.-M. (1983). Time series and system analysis with

applications. Wiley, New York.Parise, H., Ruppert, D., Ryan, L., and Wand, M. (2001). Incorporation of

historical controls using semiparametric mixed models. Journal of the RoyalStatistical Society, C, 50:31–42.

Rice, J. and Wu, C. O. (2001). Nonparametric mixed effects models forunequally sampled noisy curves. Biometrics, 57:253–259.

Ruppert, D. (2002). Selecting the number of knots for penalized splines.Journal of computational and Graphical Statistics, 11:735–757.

Ruppert, D., Wand, M., and Carroll, R. (2003). Semiparametric Regression.Cambridge Series in Statistical and Probabilistic Mathematics. CambridgeUniversity Press.

Maria Durban (UC3M) GAMs 137 / 139

Page 230: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

Bibliografia VSelf, S. and Liang, K. (1987). Asymptotic properties of maximum likelihood

estimators and likelihood ratio tests under nonstandard conditions. Journalof the American Statistical Association, 82:605–610.

Speed, T. (1991). Comment on "BLUP is a good thing: The estimation ofrandom effects", by robinson, g.k. Statistical Science, 6:15–51.

Stram, D. and Lee, J. (1994). Variance components testing in the longitudinalmixed effects model. Biometrics, 50:1171–1177.

Verbyla, A., Cullis, B., Kenward, M., and Welham, S. (1999). The analysis ofdesigned experiments and longitudinal data using smoothing splines.Applied Statistics, 48:269–312.

Wahba, G. (1983). Bayesian confidence intervals for the cross-validatedsmoothing spline. J. Roy. Stat. Soc. B, 45:133–150.

Wand, M. (2003). Smoothing and mixed models. Computational Statistics,18:223–249.

Wood, N. (2003). Thin plate splines regression. Journal of the RoyalStatistical Society, 65(1):95–114.

Maria Durban (UC3M) GAMs 138 / 139

Page 231: Modelos Aditivos Generalizados con P-splines · ContenidoI 1 Introduccion 2 P-splines Bases, Penalizaciones, Nodos y coeficientes P-splines como modelos mixtos Estimacion Datos Correlados

Aplicaciones Datos longitudinales

Bibliografia VI

Wood, S. (2006). mgcv 1.3. r package. cran.r-project.org.

Wood, S. (2006). On confidence intervals for gams based on penalizedregression splines. Australian New Zealand Journal of Statistics ,48(49:445-464

Maria Durban (UC3M) GAMs 139 / 139