de los datos a las predicciones
TRANSCRIPT
![Page 1: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/1.jpg)
Machine Learning en el mundo real De los Datos a las Predicciones
Un caso práctico del sector turístico
Andrés González Responsable Área Big Data
[email protected] Twitter: @data_lytics
![Page 2: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/2.jpg)
CleverTask Solutions SL - Big Data Business Unit 2
Agenda Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
![Page 3: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/3.jpg)
CleverTask Solutions SL - Big Data Business Unit 3
Agenda Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
![Page 4: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/4.jpg)
CleverTask Solutions SL - Big Data Business Unit 4
Sector hotelero
• % ocupación de hoteles.
• Riesgo de cancelación de reservas.
• Ingresos.
![Page 5: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/5.jpg)
CleverTask Solutions SL - Big Data Business Unit 5
Necesidad de negocio
Predecir la NACIONALIDAD de los clientes
ANTES de llegar al hotel
![Page 6: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/6.jpg)
CleverTask Solutions SL - Big Data Business Unit 6
Organizar el personal
Idiomas
![Page 7: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/7.jpg)
CleverTask Solutions SL - Big Data Business Unit 7
Preparar actividades
![Page 8: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/8.jpg)
CleverTask Solutions SL - Big Data Business Unit 8
Organizar las cocinas
![Page 9: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/9.jpg)
CleverTask Solutions SL - Big Data Business Unit 9
Personalizar la estancia
![Page 10: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/10.jpg)
CleverTask Solutions SL - Big Data Business Unit 10
… los detalles marcan la diferencia
En definitiva, porque…
![Page 11: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/11.jpg)
CleverTask Solutions SL - Big Data Business Unit 11
Agenda Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
![Page 12: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/12.jpg)
CleverTask Solutions SL - Big Data Business Unit 12
Machine Learning básico
![Page 13: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/13.jpg)
CleverTask Solutions SL - Big Data Business Unit 13
Machine Learning básico
¿Puedes encontrar patrones en estos datos?
![Page 14: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/14.jpg)
CleverTask Solutions SL - Big Data Business Unit
14
Machine Learning básico
Datos históricos Entrenamiento Predicción
Nuevos datos Re-entrenamiento
![Page 15: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/15.jpg)
CleverTask Solutions SL - Big Data Business Unit 15
“Cocinar” la predicción2
Ir al mercado a por los ingredientes
Limpiarlos
Transformarlos
Cocinar
Probar el plato
![Page 16: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/16.jpg)
CleverTask Solutions SL - Big Data Business Unit 16
“Cocinar” la predicción2
Ir al mercado a por los ingredientes
Limpiarlos
Transformarlos
Cocinar
Probar el plato
Recogida de Datos en “crudo”
Limpieza de Datos
Transformación y Feature Engineering
Aprendizaje y Entrenamiento del Modelo
Evaluación de calidad de las predicciones
![Page 17: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/17.jpg)
CleverTask Solutions SL - Big Data Business Unit 17
Agenda Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
![Page 18: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/18.jpg)
CleverTask Solutions SL - Big Data Business Unit 18
De dónde vienen los datos
Web propia
Webs de Partners
Datos en crudo RAW
![Page 19: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/19.jpg)
CleverTask Solutions SL - Big Data Business Unit 19
Datos RAW
Fichero .xlsx con histórico de
1 año de reservas
Un registro por cada reserva
Características •260.000 reservas •80 campos
•57 categóricos •9 numéricos •10 tipo fecha •3 tipo texto •1 campo erróneo
•Tamaño: 150 MB
![Page 20: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/20.jpg)
CleverTask Solutions SL - Big Data Business Unit 20
Datos RAW
![Page 21: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/21.jpg)
CleverTask Solutions SL - Big Data Business Unit 21
Agenda Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
![Page 22: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/22.jpg)
CleverTask Solutions SL - Big Data Business Unit 22
Proceso
Datos en crudo
Nuevos campos
1 3 4Datos RAW
Transformay Feature
Engineering
Datos limpios
Campos calculados
2Limpieza Modelo
![Page 23: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/23.jpg)
CleverTask Solutions SL - Big Data Business Unit 23
Limpieza de datos
![Page 24: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/24.jpg)
CleverTask Solutions SL - Big Data Business Unit 24
Limpieza de datos
Borrado de filas
• Reservas sin check-in • Reservas canceladas • Registros con errores
Borrado de columnas
• Identificadores vs nombres
• Columnas con pocos datos
Otras acciones
• Dar formato a las fechas • Eliminar acentos • Transformar de .xlsx
a .csv
![Page 25: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/25.jpg)
CleverTask Solutions SL - Big Data Business Unit 25
Dataset limpio
Limpio
•150.000 reservas •46 campos •26 categóricos •9 numéricos •10 tipo fecha •1 tipo texto
•Tamaño: 75MB
Sucio
•260.000 reservas •80 campos
•57 categóricos •9 numéricos •10 tipo fecha •3 tipo texto •1 campo erróneo
•Tamaño: 150 MB
![Page 26: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/26.jpg)
CleverTask Solutions SL - Big Data Business Unit 26
Proceso
Datos en crudo
Nuevos campos
1 3 4Datos RAW
Transformaciones y Feature
Engineering
Datos limpios
Campos calculados
2Limpieza Modelo
![Page 27: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/27.jpg)
CleverTask Solutions SL - Big Data Business Unit 27
Transformaciones
Agrupación de países
•Muchos países a predecir (210)
•Algunos países tienen muy pocas instancias
•Objetivo de cada agrupación: mín. 1% del total de instancias
•Total grupos: 20
Nuevos campos
• ANTELACIÓN_RESERVA (calculado): fecha reserva-fecha entrada
• PAIS_HOTEL (nombre de país)
• ESTRELLAS_HOTEL (1-5)
![Page 28: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/28.jpg)
CleverTask Solutions SL - Big Data Business Unit 28
Dataset limpio
Limpio •150.000 reservas •46 campos •Tamaño: 75MB
Sucio •260.000 reservas •80 campos •Tamaño: 150 MB
Transformado •150.000 registros •49 campos •Tamaño: 80MB
![Page 29: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/29.jpg)
CleverTask Solutions SL - Big Data Business Unit 29
Qué es Feature Engineering
Extraer la señal del ruido
![Page 30: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/30.jpg)
CleverTask Solutions SL - Big Data Business Unit 30
Técnicas de Feature Engineering
• Detectar los campos (features) que son predictores (señal) y eliminar los que no (ruido)
• Campos dependientes (pax, días, pax*días) • Campos supérfluos (número de reserva) • Campos con pocos datos • Campos aleatorios (minuto y segundo de la reserva)
• Conocimiento del sector • Experiencia • Ciclo recursivo
![Page 31: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/31.jpg)
CleverTask Solutions SL - Big Data Business Unit 31
Recursive Feature Engineering
![Page 32: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/32.jpg)
CleverTask Solutions SL - Big Data Business Unit 32
Dataset limpio
Limpio •150.000 reservas •46 campos •Tamaño: 75MB
Sucio •260.000 reservas •80 campos •Tamaño: 150 MB
Transformado •150.000 registros •49 campos •Tamaño: 80MB
Dataset Final •150.000 registros •10 campos
•7 categóricos •2 numéricos •1 fecha
•Tamaño: 55MB
![Page 33: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/33.jpg)
CleverTask Solutions SL - Big Data Business Unit 33
Agenda Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
![Page 34: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/34.jpg)
CleverTask Solutions SL - Big Data Business Unit 34
Proceso
Datos en crudo
Nuevos campos
1 3 4Datos RAW
Transformaciones y Feature
Engineering
Datos limpios
Campos calculados
2Limpieza Modelo
![Page 35: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/35.jpg)
CleverTask Solutions SL - Big Data Business Unit 35
ModeloEntrenamiento
Aprendizaje
![Page 36: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/36.jpg)
CleverTask Solutions SL - Big Data Business Unit 36
Modelo
![Page 37: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/37.jpg)
CleverTask Solutions SL - Big Data Business Unit 37
Agenda Necesidad de negocio1
“Cocinar” la predicción2
Recogida de ingredientes3
Limpieza y Transformaciones4
La receta (el modelo)5
Probar el plato6
![Page 38: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/38.jpg)
CleverTask Solutions SL - Big Data Business Unit 38
Calidad del modelo
![Page 39: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/39.jpg)
CleverTask Solutions SL - Big Data Business Unit 39
Calidad del modelo
80%
20% Evaluación
Training
TestDataset 100%
Modelo
![Page 40: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/40.jpg)
CleverTask Solutions SL - Big Data Business Unit 40
Calidad del modelo
Tasa de acierto Matriz de confusión
![Page 41: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/41.jpg)
CleverTask Solutions SL - Big Data Business Unit 41
Calidad del modelo
54% 75%
![Page 42: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/42.jpg)
CleverTask Solutions SL - Big Data Business Unit 42
Ir al mercado a por los ingredientes
Limpiarlos
Transformarlos
Cocinar
Probar el plato
Recogida de Datos en “crudo” (RAW)
Limpieza de Datos
Transformación y Feature Engineering
Aprendizaje y Entrenamiento del Modelo
Evaluación de calidad de las predicciones
Cocinar una predicción
80%
20%
![Page 43: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/43.jpg)
CleverTask Solutions SL - Big Data Business Unit 43
Otras técnicasEnsembles Clústers
Análisis de pesos Detección de anomalías
![Page 44: De los datos a las predicciones](https://reader030.vdocuments.pub/reader030/viewer/2022032616/55a848e21a28abae108b47d0/html5/thumbnails/44.jpg)
CleverTask Solutions SL - Big Data Business Unit 44
FINemail: [email protected]
Twitter: @data_lytics
www.clevertask.com10 suscripciones PRO gratuitas de 3 meses ($900) Código: BBVADATAWEEK