![Page 1: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/1.jpg)
Datos atípicos y estimación robusta enregresión lineal
Ricardo A. Maronna
Universidad de La Plata y U.B.A
![Page 2: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/2.jpg)
1 El modelo lineal
Modelo lineal con datos (X;y) con X 2 Rn�p; y 2 Rn:
y = X� + e;
donde
� � 2Rp es el vector de parametros desconocidos,
� e 2 Rn es un vector aleatorio con elementos ei independientes e identi-camente distribuidos (i.i.d.) con distribucion F; con media 0 y varianza�2:
![Page 3: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/3.jpg)
Llamaremos xi =�xi1; :::; xip
�a las �las de X:
El método clásico de estimación en el modelo lineal es el de mínimos cuadrados(MC).
Sea r (�) el vector de residuos correspondientes a un candidato �; con elemen-tos ri (�):
r (�) = y �X�:
Entonces el estimador de MC b� se de�ne comokr (�)k2 =
nXi=1
ri (�)2=min
![Page 4: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/4.jpg)
El estimador cumple las ecuaciones normales
X b� = nXi=1
ri� b��xi = 0:
En el caso de estimación de posición (p = 1; xi = 1; i = 1; :::; n) b� es elpromedio y:
![Page 5: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/5.jpg)
2 El efecto de los valores atípicos
Se sabe que una pequeña proporción de observaciones atípicas (�outliers�)pueden alterar drásticamente los resultados de la estimación.
Ejemplo simulado: regresión simple.
yi = 2 + xi + ei; xi = 1; :::; 20; ei � N (0; 1)
Estimadores de MC con su desvío estimado:
b�1 = 1:463 (0:457); b�2 = 1:035 (0:038)Divido los dos últimos yi por 0.6, y MC resultab�1 = 3:100 (1:105); b�2 = 0:794 (0:092)
![Page 6: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/6.jpg)
Se ve que un 10% de outliers modi�ca los estimadores e �in�a� sus desvíosestimados.
5 10 15 20
510
1520
x
y1
Ajuste de MC sin los outliers (azul) y con ellos (rojo)
![Page 7: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/7.jpg)
Existen numerosos métodos (�diagnósticos�) para detectar outliers.
Están basados en variaciones de MC y proporcionan al usuario una base numéricao grá�ca para decidir qué observaciones considerar como atípicas.
Usualmente estas observaciones son eliminadas y el estimador recalculado.
Esto puede llevar a descubrir nuevos puntos sospechosos...
![Page 8: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/8.jpg)
3 Algunos diagnósticos simples
Primero la notación. Sea b� el estimador MC. El vector de valores ajustados esby = X b� = Hy
donde H es la �hat matrix�
H = X�X0X
��1X:
El vector de residuos es
r = y�by:Los elementos diagonales de H; h1; :::; hn 2 (0; 1) se llaman �valores depalanca� (�leverage values�).
![Page 9: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/9.jpg)
Un hi cerca de 1 indica un punto �in�uyente�. La in�uencia puede ser parabien (si es �bueno�) o para mal (si es un outlier).
Tres diagnósticos sencillos:
1. El grá�co de cuantiles normales �QQ plot�
Se gra�can los ri ordenados vs. los cuantiles de la normal standard.
2. El grá�co de residuos vs. valores ajustados
Este grá�co es mejor que el de ri vs yi:
![Page 10: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/10.jpg)
3. Los residuos �leave-one-out�(o �PRESS statistic�o �Cross Validation (CV)residuals�)
Sea b��i el estimador de MC calculado sin (xi; yi) : Entonces el residuo de�leave-one-out� es r�i = yi � x0i b��iSe puede mostrar que
r�i =ri
1� hi:
Los r�i dan más información sobre los outliers que los ri: Si hay un solo outlier,lo detectan.
Pero si hay varios, pueden fallar (�masking�). Ya se verá...
En el ejemplo:
![Page 11: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/11.jpg)
2 1 0 1 2
40
24
Normal QQ Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
2 1 0 1 2
100
050
Normal QQ Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Residuos (arriba) y residuos CV (abajo)
![Page 12: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/12.jpg)
Pese a su utilidad, estos métodos tienen algunos inconvenientes:
� La eliminación requiere una decisión subjetiva (salvo que se cuente coninformación externa suplementaria). ¿Cuándo es un dato lo �bastanteatípico�para ser eliminado?
� El usuario o el autor de losdatos puede pensar que �las observacionesdeberían hablar por sí mismas�, y por lo tanto resistirse a su eliminación.
� Hay un riesgo de eliminar observaciones �buenas�, lo que lleva a subestimarla variabilidad.
![Page 13: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/13.jpg)
� Como los resultados dependen de las decisiones subjetivas del usuario, esdifícil determinar el comportamiento estadístico del procedimiento com-pleto.
![Page 14: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/14.jpg)
4 Estimación robusta
El enfoque de la estimación robusta apunta a desarrollar estimadores que nosean afectados por los outliers.
Se desea que estos estimadores posean dos propiedades:
� e�ciencia: si todos los datos son �buenos�, el estimador debe parecerse aMC
� robustez: si hay una pequeña proporción de outliers, el estimador debeparecerse a MC sin los outliers.
![Page 15: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/15.jpg)
Ambas propiedades pueden de�nirse con precisión y cuanti�carse (se omitendetalles).
Un enfoque fructífero para combinar ambos objetivos es el los �M-estimadores�(generalizaciones de Máxima Verosimilitud), que minimizan una función de losresiduos distinta de la cuadrática:
nXi=1
�(ri (�)) = min
donde � es una �función de pérdida�adecuada.
Notemos que MC corresponde a � (t) = t2:
![Page 16: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/16.jpg)
Un estimador más antiguo que MC es el L1 (�Least Absolute Deviations�.LAD) con � (t) = jtj:
En el caso de posición b� es la mediana med (y) :En el ejemplo anterior, el estimador L1 dan
b�1 = 2:737; b�2 = 0:928;cerca de los �verdaderos��1 = 2; �2 = 1:
![Page 17: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/17.jpg)
5 10 15 20
510
1520
x
y1
Ejemplo anterior más el ajuste L1 (negro)
Se ve que L1 es sólo afectado ligeramente por los outliers.
Existen algoritmos muy ràpidos para calcular L1:
![Page 18: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/18.jpg)
Entonces; ¿por qué no usar siempre L1?
Una razón: porque es poco e�ciente. Su e�ciencia es � 0:64:
O sea que si los datos son �buenos�uno está aprovechando aproximadamente2/3 de ellos.
![Page 19: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/19.jpg)
Lo que se desea es
�ALTA EFICIENCIA y ALTA ROBUSTEZ�
Esto se puede alcanzar con una � (t) �suave�que sea aproximadamente cuadráticapara t cerca de 0, pero que crezca más lentamente que t2 para t grande.
Con una � suave: derivando la de�nición del M-estimador resultan las �ecua-ciones de estimación�
nXi=1
(ri)xi = 0; con = �0:
En las ecuaciones normales de MC es (t) = t: Para L1 es (t) = sign (t)
![Page 20: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/20.jpg)
La � de Huber (1964) es un intermedio entre MC y L1:
�k(x) =
(x2 si jxj � k
2k jxj � k2 si jxj > k
con derivada
k(x) =
(x si jxj � k
sgn(x)k si jxj > k:
donde la constante k se elige para regular la e�ciencia.
Casos límites: k !1 da MC y k ! 0 da L1:
![Page 21: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/21.jpg)
x
rho
3 2 1 0 1 2 3
0.0
1.0
2.0
3.0
k k
x
psi
3 2 1 0 1 2 3
1.0
0.0
0.5
1.0
k k
� y de Huber
Aquí se ve la �negociación�del estimador de Huber.
![Page 22: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/22.jpg)
Los M-estimadores con no decreciente (y por lo tanto � convexa) son llama-dos �monótonos�.
Tienen evidentes ventajas computacionales.
![Page 23: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/23.jpg)
5 Cálculo del M-estimador
Sea W (t) = (t) =t; la �función de peso�. Sea wi =W (ri) :
Entonces las ecuaciones de estimación pueden escribirse como
nXi=1
wirixi =nXi=1
wixi�yi � x0i�
�= 0;
o sea, ¡las ecuaciones normales de MC, con pesos!
![Page 24: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/24.jpg)
Esto sugiere un método iterativo para calcular el estimador: partiendo de un �inicial,
� calcular los ri;
� con ellos los wi;
� de ahí un nuevo � (MC ponderados),... etc.
El algoritmo (�Iterative Reweighted Least Squares (IRWLS)�) converge rápi-damente a un minimo local.
La � de Huber es convexa, por lo cual la solución es única.
![Page 25: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/25.jpg)
El punto de partida sólo afecta el número de iteraciones, pero no el resultado.
Lo mejor es usar L1 como punto de partida.
![Page 26: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/26.jpg)
En realidad falta un elemento: el estimador debe ser equivariante por escala:si reemplazo y por 10y; debo tener b� 10 b�:Para eso se amplía la de�nición:
nXi=1
�
�rib��= min;
donde b� es una escala que se estima previamente.Sea b�L1 el estimador L1: Entonces b� es una escala robusta de sus residuos:
b� = 1:481mediana ����r � b�L1�����donde el factor 1.481 se pone para obtener consistencia en el caso normal.
![Page 27: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/27.jpg)
6 Los datos con �alto leverage�(o �alta in�uen-
cia�)
Parecería que está todo bien, pero....
Retomamos el ejemplo inicial.
A las 20 xi originales les agregamos -30, -20, 50; y a las yi agregamos 0, 5, 20.
Calculamos MC y L1:
![Page 28: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/28.jpg)
20 0 20 40
05
1015
20
x2
y2
Alto leverage: MC (rojo) y L1 (negro)
Aquí vemos la in�uencia nefasta de los xi �grandes� (�high leverage points�).
Esto ocurre con todos los M-estimadores monótonos.
![Page 29: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/29.jpg)
La razón es que en las ecuaciones de estimación
nXi=1
(ri)xi = 0
la in�uencia de los residuos grandes está controlada (por ser acotada) perola de las xi �grandes�no.
![Page 30: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/30.jpg)
Los diagnósticos tampoco muestran nada:
2 1 0 1 2
62
24
6
Normal QQ Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
2 1 0 1 2
100
050
100
Normal QQ Plot
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Residuos (arriba) y residuos CV (abajo)
![Page 31: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/31.jpg)
La mejor solución: usar una � acotada, lo que implica (t) �redescendiente�(tendiendo a 0 para t!1).
Puede probarse que el estimador resultante es resistente a outliers de �altoleverage�.
![Page 32: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/32.jpg)
Un estimador muy usado: �Bisquare� (o �biweight�) de Tukey.
�(x) =
8<: 1�h1� (x=k)2
i3si jxj � k
1 si jxj > k
con derivada
(x) = x
"1�
�x
k
�2#2I(jxj � k):
y función de peso
W (x) =
"1�
�x
k
�2#2I(jxj � k)
donde I (A) es el indicador de A:
![Page 33: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/33.jpg)
x
rho
6 4 2 0 2 4 6
0.0
0.2
0.4
0.6
0.8
1.0
x
psi
6 4 2 0 2 4 6
0.2
0.0
0.2
� y del estimador bisquare
![Page 34: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/34.jpg)
x
weig
ht
3 2 1 0 1 2 3
0.5
0.6
0.7
0.8
0.9
1.0
Huber
x
weig
ht
6 4 2 0 2 4 6
0.0
0.2
0.4
0.6
0.8
1.0
bisquare
Funciones de peso W de Huber y bisquare
![Page 35: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/35.jpg)
Pero las buenas propiedades del estimador valen para el mínimo absoluto, yéste es imposible de calcular (el problema no es convexo).
Se necesita un estimador inicial para las iteraciones del IRWLS, y para la b�:Tiene que ser robusto. Si se parte de MC, el resultado puede ser casi tan malocomo MC.
![Page 36: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/36.jpg)
7 MM-estimadores (Yohai 1987)
Se necesita un estimador inicial b�ini robusto (pero no necesariamente e�ciente).Con sus residuos se calcula b�:Se ejecuta IRWLS partiendo de b�ini:Se prueba que el resultado es tan bueno como si se obtuviera el minimo absoluto.
![Page 37: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/37.jpg)
20 0 20 40
05
1015
20
x2
y2
Alto leverage: ajuste MM
Se ve que MM no es afectado para nada por los tres outliers.
![Page 38: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/38.jpg)
8 El estimador inicial para MM
Hace falta un estimador que no requiera una escala.
Solución: minimizar una escala robusta S de los residuos
S (r (�)) = min
Lo más obvio es tomar la mediana: S (r) = med (jrj) (�Least Median ofSquares�) (Rousseeuw 1984).
Pero es demasiado ine�ciente (e�ciencia asintótica =0).
![Page 39: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/39.jpg)
M-estimador de escala: S (r) es solución de
nXi=1
�
�riS
�= �;
donde � = 0:5 y � puede ser la � bisquare.
Si � (t) = t2 y � = 1 resulta
S (r) =
vuut1n
nXi=1
r2i
Estos son los llamados S-estimadores (Rousseeuw y Yohai 1984).
![Page 40: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/40.jpg)
El S-estimador inicial b�ini también implica un problema no convexo por lo quenecesita un punto de partida �no demasiado malo�.
Durante mucho tiempo se usaron métodos basados en submuestras.
Lentos para p grande, y aleatorios.
Actualmente: método determinista rápido Peña y Yohai 1999).
![Page 41: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/41.jpg)
9 Implementación
El estimador resultante puede depender mucho de los detalles de su imple-mentación.
En R: usar la función lmRob del paquete robust disponible en CRAN.
NO usar la función lmrob del paquete robustbase: no es con�able.
![Page 42: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/42.jpg)
Referencias
Maronna, R.A., Martin, R.D. y Yohai, V.J (2006). Robust Statistics: Theoryand Methods. John Wiley and Sons, New York.
Peñaa, D. y Yohai, V.J. (1999). A fast procedure for outlier diagnostics in largeregression problems. J.A.S.A., 94, , 434�445.
Rousseeuw, P.J. (1984). Least median of squares regression. J.A.S.A. , 79,871-880.
Rousseeuw, P.J. y Yohai, V.J. (1984). Robust regression by means of S-estimators, En Robust and Nonlinear Time Series, J. Franke, W. Härdle andR. D. Martin (eds.). Lectures Notes in Statistics 26, 256�272, Springer Verlag,New York.
![Page 43: Datos atípicos y estimación robusta en regresión lineal](https://reader031.vdocuments.pub/reader031/viewer/2022012408/616a3aa211a7b741a35037b7/html5/thumbnails/43.jpg)
Yohai, V.J. (1987). High breakdown-point and high e¢ ciency robust estimatesfor regression. Ann. Statist., 15, 642�656.