big data: tendencias 2016 - wordpress.com...big data: tendencias 2016 josé antonio guerrero...
TRANSCRIPT
![Page 2: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/2.jpg)
Mi etapa profesional en Gestión Sanitaria
![Page 3: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/3.jpg)
Estadística Multivariable vs Aprendizaje Automático
![Page 4: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/4.jpg)
MACHINE LEARNING Arthur Samuel (1959): "Field of study that gives computers the ability to learn without being explicitly programmed“
![Page 5: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/5.jpg)
Estadística Multivariable Paramétrica
Hipótesis:
Normalidad No correlación de errores Homocedasticidad No colinealidad
Bondad del ajuste:
Grados de libertad Descomposición de la varianza Estimaciones puntuales y por IC de errores y coeficientes Contraste de hipótesis
X , Y
![Page 6: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/6.jpg)
Asumir hipótesis sobre la distribución de los datos
Mal manejo de la colinealidad (Convergencia y estabilidad de las
soluciones)
La limitación en la forma funcional del modelo
Alta sensibilidad a observaciones extremas
Mal manejo de observaciones desconocidas
Problemas de escalabilidad
Mal manejo variables >> casos
Debilidades
![Page 7: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/7.jpg)
Reproducibles Rápidos de ajustar Modelos interpretables (expresión analítica) Importancia relativa de variables Inferencia (bondad de ajuste, coeficientes)
Fortalezas
![Page 8: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/8.jpg)
![Page 9: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/9.jpg)
![Page 10: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/10.jpg)
![Page 11: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/11.jpg)
![Page 12: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/12.jpg)
![Page 13: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/13.jpg)
9 de cada 10 Científicos de Datos están buscando palabras con ‘V’ en vez de trabajando en Big Data
![Page 14: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/14.jpg)
![Page 15: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/15.jpg)
ML para Big Data Aplicaciones distribuidas
Doug Cutting
Volumen
![Page 16: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/16.jpg)
Volumen
![Page 17: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/17.jpg)
Machine Learning for Spark
![Page 18: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/18.jpg)
Variedad Bases de datos noSQL: Bases documentales: MongoDB, DynamoDB Bases de datos orientadas a columna: Hbase, Cassandra…
![Page 19: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/19.jpg)
Velocidad
John Langford Elmer Fudd Vorpal Rabbit
![Page 20: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/20.jpg)
David Sculley
Sofia – ML
FTRL : Follow the regularized leader
Hashing
Velocidad
![Page 21: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/21.jpg)
Biclustering
![Page 22: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/22.jpg)
Semisupervised Learning: Label propagation
![Page 23: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/23.jpg)
Manifold
Semisupervised Learning: Label propagation
![Page 24: Big Data: Tendencias 2016 - WordPress.com...Big Data: Tendencias 2016 José Antonio Guerrero jaguerrerod@ono.com BuleBar Café 2 Marzo 2016 Mi etapa profesional en Gestión Sanitaria](https://reader033.vdocuments.pub/reader033/viewer/2022042910/5f3e22e7b7b12d723d6b8f21/html5/thumbnails/24.jpg)
Selección de variables – Reducción dimensionalidad PCA (Análisis Componentes Principales) Stepwise Regularización: Lasso Ensembling: Muestreo de variables T-SNE (t-Distributed Stochastic Neighbor Embedding)