boosting presentación 19 05 14

Post on 28-Dec-2014

99 Views

Category:

Engineering

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

Revisión de tema de la técnica de ensamble Boosting

TRANSCRIPT

BOOSTING

John J. Sprockel D. MISyC

Departamento de Ingeniería de Sistemas Facultad de Ingeniería

Pontificia Universidad Javeriana

AGENDA

1.   Aspectos históricos 2.   Definición de Boosting

a.   Proceso del Boosting b.  Esquema del algoritmo c.   Descripción del algoritmo AdaBoost

3.   Minimización exponencial del error 4.   Caso de multiples clases 5.   Presentación de un artículo 6.   Bibliografía

ASPECTOS HISTÓRICOS

1984 Valiant L - Modelo de aprendizaje "PAC"

1988 Kearns M, Valiant L - si aprendices débiles juntos mejoran su rendimiento

1989 Schapire - Primer algoritmo de boosting de tiempo polinomial

1990 Freund desarrolla un algoritmo más eficiente que nunca tuvo una aplicación practica

1995 Freund y Schapire introducen AdaBoost

DEFINICIÓN DE BOOSTING

Combina múltiples clasificadores Produce una forma de comité Con mejor desempeño que el de cada uno por separado

Es una técnica poderosa Aprendices débiles (weak learners)

DEFINICIÓN DE BOOSTING

Diferencia con bagging (comité): -Entrenamiento de clasificadores en secuencia . -Se usa para entrenamiento una forma ponderada del conjunto de datos en el cual el coeficiente de pesos asociado con cada punto de datos depende del desempeño del clasificador anterior.

PROCESO DE BOOSTING

Clasificación con dos casos: los datos de entrada: x1, …,xN variables objetivo binarias t1, …, tN donde tn ∈ {-1, 1}. (original y)

Cada punto de datos tiene un parámetro p o n d e r a d o a s o c i a d o w n ( D t ( i ) ) , inicialmente se fija para todos en 1/N

PROCESO DE BOOSTING

Clasificación con dos casos: Debemos suponer que tenemos un procedimiento disponible para entrenar un clasificador de base usando los datos ponderados para dar una función y(x)∈ {-1, 1}.(Original ht(xi))

PROCESO DE BOOSTING

Los coeficientes ponderados (wn) son ajustados de acuerdo con el desempeño del clasificador entrenado previamente a fin de dar mayor peso a los puntos de datos mal clasificados.

PROCESO DE BOOSTING

Cuando se han entrenado el número deseado de clasificadores base, se combinan para formar un comité mediante coeficientes que dan un peso diferente a diferentes clasificadores base.

ESQUEMA DEL ALGORITMO DE BOOSTING

Bishop CM. Pattern Recognition and Machine Learning. 2006

ALGORITMO AdaBoost

Bishop CM. Pattern Recognition and Machine Learning. 2006

Medición ponderada del error

ALGORITMO AdaBoost

Bishop CM. Pattern Recognition and Machine Learning. 2006

Corrección de los coeficientes ponderados

MINIMIZACIÓN EXPONENCIAL DEL ERROR

Se busca minimizar E, producto de: Donde fm(xn) es un clasificador definido en términos de una combinación lineal de clasificadores de base yl(x) de la forma:

MINIMIZACIÓN EXPONENCIAL DEL ERROR

En vez de una minimización global, se supone que los clasificadores de base y sus coeficientes (α) son fijos. Así:

MINIMIZACIÓN EXPONENCIAL DEL ERROR

Si denotamos con los puntos correctamente clasificados y a los errados, se obtiene:

MINIMIZACIÓN EXPONENCIAL DEL ERROR

Después de haber obtenido αm y ym(x), se actualizan los pesos según: Dado qué

Derivándose de ahí la ecuación 14.19

MINIMIZACIÓN EXPONENCIAL DEL ERROR

Existe una posibilidad escasa de sobre-entrenamiento (overfitting).

Relaciones posibles del Boosting: -  S V M ( m á r g e n e s d e l c o n j u n t o d e

entrenamiento) -  Teoría de juegos.

-  Programación lineal -  Aprendizaje en línea

MINIMIZACIÓN EXPONENCIAL DEL ERROR

Relación con SVM: Consideración de ambos de maximizar el m a r g e n m í n i m o e n e l c o n j u n t o d e entrenamiento:

El denominador en: Boosting SVM

MINIMIZACIÓN EXPONENCIAL DEL ERROR

La forma más directa es el AdaBoost.M1, es adecuada cuando el clasificador débil es suficientemente robusto para dar una buena precisión.

Si esta es menor del 50% se requieren métodos más sofisticados como AdaBoost.MH que funciona creando un conjunto de problemas binarios. Otras formas son el LogitBoost y MultiBoost.

CASO DE MÚLTIPLES CLASES

1.  Rapidez 2.  Simple 3.  Fácil de programar

4.  No tiene parámetros para afinar (tune, T) 5.  No requiere un conocimiento previo del

clasificador débil

6.  Viene con ciertas garantías teóricas

VENTAJAS

1.  El desempeño en un problema particular depende de los datos y del clasificador débil.

a.  Es sensible a datos incompletos

b.  Falla con hipótesis débiles complejas o cuando son muy débiles.

2.  Es particularmente susceptible al ruido.

DESVENTAJAS

BIBLIOGRAFIA

1.  Bishop CM. Chapter 14. Combining Models. In Bishop CM. Pattern Recognition and Machine Learning. Singapur, Springer 2006. pp 653- 676.

2.  Freund Y, Schapire R. A Short Introduction to Boosting. Journal of Japanese Society for Artificial Intelligence, 14(5):771-780, September, 1999.

3.  Meir R, Ratch G. An Introduction to Boosting and Leveraging. In S. Mendelson, A.J. Smola (Eds.): Advanced Lectures on Machine Learning, LNAI 2600, pp. 118–183, 2003.

4.  J. Friedman, T. Hastie, and R. Tibshirani. Additive logistic regression: a statistical view of boosting. The Annals of Statistics, 28(2):337-407, 2000.

5.  Mandal I, Sairam N. Accurate Prediction of Coronary Artery Disease Using Reliable Diagnosis System. Journal of Medical Systems. 2012;36(5):3353–73.

top related