random forests - teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/rf_presentation.pdf ·...

62
Árboles de decisión Random Forests Complementos : métodos derivados Ejemplo de utilización : predicción de repitencia escolar Random Forests Teoría y ejemplos Romain Gouron 1 1 Departamiento de Ingenería Matemática Doble titulo Ecole Centrale de Nantes (Francia) Conferencia 9, GLAM, 2016 Romain Gouron Random Forests

Upload: others

Post on 07-Jan-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Random ForestsTeoría y ejemplos

Romain Gouron1

1Departamiento de Ingenería MatemáticaDoble titulo Ecole Centrale de Nantes (Francia)

Conferencia 9, GLAM, 2016

Romain Gouron Random Forests

Page 2: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 3: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 4: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Árboles de decisiónDefinición

DefiniciónUn árbol de decisión es un clasificador - en forma de árbol - tál que:

En cada nodo se prueban los featuresHay una rama por cada valor del feature probadoLas hojas simbolizan las categorías (output)

Romain Gouron Random Forests

Page 5: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Árboles de decisiónEjemplo

Figura: Ejemplo de árbol de decisión

Romain Gouron Random Forests

Page 6: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Árboles de decisiónCaracteristicas

VentajesLos árboles de decisión :

funcionan bien con datos cualitativos (si el numero de featureses razonable)son interpretables

Romain Gouron Random Forests

Page 7: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Árboles de decisiónInterpretabilidad

Figura: Árbol interpretable

Romain Gouron Random Forests

Page 8: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Árboles de decisiónA qué hace un buen árbol?

Caracterización de un buen árbolUn buen árbol es un árbol que hace sus preguntas en un ordeneconómico - i.e. que tiene ramas tan cortas como posible.

Romain Gouron Random Forests

Page 9: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Árboles de decisiónEjemplo

Figura: Ejemplo de árbol de decisión

Romain Gouron Random Forests

Page 10: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Árboles de decisiónEjemplo de mal árbol

Figura: Árbol malo : podría ser más separador

Romain Gouron Random Forests

Page 11: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 12: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Árboles de decisiónQue preguntas hacerse al construir un árbol ?

Como construir un árbol ?Como elegir el feature de división ?Como manejar los features continuos ?Como definir el tamaño del árbol ?

Eso depende del algoritmo elegido. Los principales son CART y CHAID.Ocupan reglas que veremos más adelante.

Romain Gouron Random Forests

Page 13: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesConstrucción

Árboles de decisiónResumen

Lo importanteAprendizaje supervisadoPro : un árbol permite construir reglas a partir del conjunto dedatos para ordenarloContra : fuerte propensión al overfitting

Romain Gouron Random Forests

Page 14: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 15: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random Forests : Contexto

Marco históricoRandom Forests, por L. Breiman, 2001

IdeaGenerar un numero importante de árboles, entrenarlos y calcular elpromedio de su salida.

Romain Gouron Random Forests

Page 16: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestsPor qué se llaman así? Que tan aleatorio son ?

Construcción de los RFA cada árbol se le asigna :

una parte aleatoria de los datos (tree bagging)una parte aleatoria de los features (feature sampling)

Formula de los RFRF = tree bagging + feature sampling

Romain Gouron Random Forests

Page 17: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestConstrucción de los RF

Tree BaggingLa construcción de B árboles se hace con sigue :

Se tiran al azar, y con reposición, B muestras del problema(X,Y), que notamos (Xb,Yb) (b ∈ {1..B})Se entrena un árbol sobre cada par (Xb,Yb)

Eso baja el overfitting

Romain Gouron Random Forests

Page 18: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestTree Bagging - Ejemplo

Figura: Tree Bagging con datos del Titanic

Romain Gouron Random Forests

Page 19: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestConstrucción de los RF

Feature SamplingSobre los n features, cada árbol tiene acceso a solamente una parte(típicamente

√n).

Esto baja la correlación entre los árboles (notado por el coeficienteρ).

Romain Gouron Random Forests

Page 20: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestTree bagging & Feature Sampling : Efecto sobre la varianza

Varianza de N árboles

El promedio de N variables aleatorias iid tiene varianza σ2

NSi los árboles no son independientes (hipótesis clásica) :

Vforest = ρσ2 + (1− ρ)σ2

N (1)

Romain Gouron Random Forests

Page 21: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestVarianza del RF

Figura: Factores influyendo sobre la varianza del RF

Romain Gouron Random Forests

Page 22: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 23: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestQue se minimiza en un RF ?

Criterios de splitExisten dos criterios para hacer una división de ramas (split):

el criterio de Giniel criterio de entropía

Romain Gouron Random Forests

Page 24: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestQue se minimiza en un RF ?

Criterios de GiniPrincipio : tomar la clase la más representada, y ver por quefeature se distingue

Romain Gouron Random Forests

Page 25: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestCriterio de Gini - Ejemplo

Figura: Ejemplo de aplicación del criterio de Gini

Romain Gouron Random Forests

Page 26: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestCriterio de entropía

DefiniciónSea S un conjunto de datos labelizados { +, - }Sea p+ la proporción de populación positiva en S, y p−negativa. Entonces :

Entropía(S) = −p+ log p+ − p− log p− (2)

Ganancia de informaciónSea R un nuevo nodo N dando H nuevas hojas

Ganancia(S,R) = Entropía(S)−∑h∈H

|Sh||S| Entropía(Sh) (3)

Romain Gouron Random Forests

Page 27: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Random ForestCriterio de entropía - Ejemplo

Figura: Bajo que condiciones dignojugar tenis?

Figura: ¿En cual featurehacer el split?

Romain Gouron Random Forests

Page 28: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 29: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Ejemplo de clasificación en Python

Spoiler : muy exitoso

Romain Gouron Random Forests

Page 30: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Ejemplo de implementación

Figura: Implementación de RF con Scikit-learn

Romain Gouron Random Forests

Page 31: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 32: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Definición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

Resumen

Pros y contrasPros :

Fácil de implementarParalelizable

Contra :No interpretableMuchos parámetros para un reglaje fino

Romain Gouron Random Forests

Page 33: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 34: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

Extremely randomized treesContexto

Marco históricoExtremely randomized trees, por Geurts P., Ernst D., Wehenkel L.,2005

Romain Gouron Random Forests

Page 35: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

Extremely randomized trees

DefiniciónEn los RF, en cada árbol :

cantidad de datos y numero de features = aleatorio,criterio de split = determinista

Con extremely randomized Trees, el split incluso es aleatorio.Varios splits son generados aleatoriamente, y se elige el que damejores resultados.

Romain Gouron Random Forests

Page 36: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 37: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

Rotation ForestsContexto

Marco históricoRotation forest: a new classifier ensemble method, por RodriguezJJ., Kuncheva LI., Alonso CJ., 2006

Romain Gouron Random Forests

Page 38: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

DefiniciónIdea :

1 Tomar K muestras de Nk variables (k ∈ {1, ...,K})2 En cada muestra, realizar un analisis en componente principal3 Hacer el ensamblaje de los componentes principales en una

matriz4 Realizar el aprendizaje con esa nueva matriz

Romain Gouron Random Forests

Page 39: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 40: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

AdaBoostContexto

Marco históricoA Short Introduction to Boosting, por Freund & Schapire, 1999

Romain Gouron Random Forests

Page 41: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

AdaBoostComparación con RF

Figura: Esquema de RF Figura: Esquema de AdaBoost

Romain Gouron Random Forests

Page 42: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

AdaBoostComo clasificar esos puntos con clasificador lineales ?

Figura: Puntos a clasificar con el algoritmo AdaBoost

Condición adicionalSolamente se pueden ocupar clasificadores verticales o horizontales

Romain Gouron Random Forests

Page 43: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

AdaBoostComo clasificar esos puntos con clasificador lineales ?

Figura: Clasificación de H1

Romain Gouron Random Forests

Page 44: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

AdaBoostComo clasificar esos puntos con clasificador lineales ?

Figura: Informaciones de H1, entregadas a H2

Romain Gouron Random Forests

Page 45: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

AdaBoostComo clasificar esos puntos con clasificador lineales ?

Figura: Clasificación de H2, con la informaciones de H1

Romain Gouron Random Forests

Page 46: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

AdaBoostComo clasificar esos puntos con clasificador lineales ?

Figura: Informaciones de H1 y H2, entregadas a H3

Romain Gouron Random Forests

Page 47: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

AdaBoostComo clasificar esos puntos con clasificador lineales ?

Figura: Clasificación de H1, H2 y H3

Romain Gouron Random Forests

Page 48: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

Gradient Boosting

IdeaGradient Boosting = AdaBoost + Gradient descent

Romain Gouron Random Forests

Page 49: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

Gradient BoostingFunción de costo

IdeaSe minimiza una función de costo :

J(h) =n∑

i=1j(yi ,H(xi)) (4)

Donde :

H = HK =K∑

k=1hk (5)

En cada paso, se busca comparar los resultados de la función hicon lo "dejado"por hi−1.

Romain Gouron Random Forests

Page 50: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Extremely randomized treesRotation forestGradient boosting y Adaboost

EjemploAl principio, H es igual a h1. Queremos :

∀i ∈ {1...m} h2(xi) ≈ H(xi)− yi (6)

O sea :h2.fit(X,y-H) (7)

Construcción de H

H(xi) := H(xi)−∂J

∂H(xi), ∀i ∈ {1...m} (8)

Romain Gouron Random Forests

Page 51: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 52: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

Datos

Figura: Datos del ministerio

Romain Gouron Random Forests

Page 53: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

Datos

Figura: Datos del ministerioRomain Gouron Random Forests

Page 54: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

Datos

Figura: Datos del ministerio

Romain Gouron Random Forests

Page 55: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 56: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

Figura: Datos (parte izq.)

Figura: Datos (parte der.)

Romain Gouron Random Forests

Page 57: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

Figura: Implementación de RF con Scikit-learn

Romain Gouron Random Forests

Page 58: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

Outline

1 Árboles de decisiónDefinición y propiedadesConstrucción

2 Random ForestsDefinición y propiedadesQue se minimiza en un RF ?Que tan exitoso será un RF en un ejemplo clásico ?Resumen

3 Complementos : métodos derivadosExtremely randomized treesRotation forestGradient boosting y Adaboost

4 Ejemplo de utilización : predicción de repitencia escolarDatos del MINEDUCPlanteamiento del problemaResultados

Romain Gouron Random Forests

Page 59: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

Determinación de parametros - Caso sin asignación deminss y minsl

Figura: Prediccionescon datos de 1erbásico

Figura: Prediccionescon datos de 5tobásico

Figura: Prediccionescon datos de 3ermedio

Romain Gouron Random Forests

Page 60: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

Determinación de los parámetros

Figura: Determinación de minss y minsl en 3m

Romain Gouron Random Forests

Page 61: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Árboles de decisiónRandom Forests

Complementos : métodos derivadosEjemplo de utilización : predicción de repitencia escolar

Datos del MINEDUCPlanteamiento del problemaResultados

ConclusionesPredicciones ciertas a 70%Limitaciones de los datosComo mejorarlas ?

Romain Gouron Random Forests

Page 62: Random Forests - Teoría y ejemplosgames.cmm.uchile.cl/media/uploads/posts/RF_presentation.pdf · 2016-12-19 · forest = ρσ2+(1−ρ) σ2 N (1 ... Random Forests - Teoría y ejemplos

Apéndice For Further Reading

For Further Reading I

E. Biernat, M. Lutz, Y. LeCunData Science : fondamentaux et études de cas.Eyrolles, 2015.

L. Breiman.Random Forests 2001.J.J. Rodriguez, L.I. Kuncheva.Rotation Forests : A New Classifier Ensemble Method.IEEE Transactions on pattern analysis and machineintelligence, VOL. 28, NO. 10, 2001.

P. Geurts, D. Ernst, L .WehenkelExtremely randomized treesSpringer Science, 2006

Romain Gouron Random Forests