el futuro de big data: la calidad del análisis. modelos efectivos y casos de uso
TRANSCRIPT
ContenidosIntroducción Análisis de datos
Valor
Arquitectura
★ Historia★ Problemática★ Soluciones
★ Arquitectura Lambda★ Componentes
★ Lenguaje★ Estadística y deep learning★ Redes★ Geoespacial
★ Análisis★ Ámbitos
Referencias
Introducción
"Data will help us" - Jonathan Harris
Big Data: Historia
“Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications”
http://en.wikipedia.org/wiki/Big_data
- Twitter: 340 millones de tweets diarios (~= 1TB/día)
- Facebook: 800 millones de status diarios
- Instagram: 70 millones de foros diarias
- Google: 1000 millones de consultas diarias
http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-and-volume-from-structuredata-2012
¿Qué es el Big Data? (de verdad)
Big Data: Historia
- Big Data y las 3 ‘V’
- Velocidad
- Volumen
- Variedad
http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
LOS PROBLEMAS: EL VOLUMEN
http://royal.pingdom.com/2010/02/18/amazing-facts-and-figures-about-the-evolution-of-hard-disk-drives/
LOS PROBLEMAS: EL VOLUMEN
http://en.wikipedia.org/wiki/File:Hard_drive_capacity_over_time.png
¿Qué hacemos cuando los datos superan con creces el tamaño de un disco duro?
LOS PROBLEMAS: LA VELOCIDAD
http://en.wikipedia.org/wiki/Moore's_law
¿Qué hacemos cuando los datos llegan a un ritmo superior al que pueden ser analizados?
LOS PROBLEMAS: LA VELOCIDAD
http://arstechnica.com/business/2012/05/bandwidth-explosion-as-internet-use-soars-can-bottlenecks-be-averted/
¿Y si no nos llega el ancho de banda?
Big Data: Soluciones
- Frente al volumen:
- Batch processing: MapReduce (Hadoop)
- Frente a la velocidad:
- Real-time processing: Streaming (Spark)
- Frente a la variedad: NoSQL
El Valor de Big Data:Big Data Analysis
‣Estadístico‣Texto‣Análisis de Redes Sociales‣Análisis GeoEspacial
El Valor de Big Data:Ámbitos de Aplicación
‣Marketing/Publicidad/Comunicación‣Customer Insights‣Growth Hacking‣Salud‣Escalabilidad
Big Data - Arquitectura
http://jameskinley.tumblr.com/post/37398560534/the-lambda-architecture-principles-for
4.La plataforma Big Data: Componentes.Ingestión.
• Sqoop: • Ingestión tipo ‘pull’. BBDD externas (BI) • Modo batch • Crea tablas Hive directamente
• Flume: • Ingestión tipo ‘push’ • Señalización a través de JMS • Configuración a través de HTTP POST • Configuración de tamaños en entrada y salida • Monitor • Señalización + Señales nativas • Particionado • Tolerancia a fallos y esquemas HA
Componentes Big Data: Ingestión
• SQL-‐on-‐hadoop • Formato columnar (Parquet) • SerDes: XML, JSON • Procesos MapReduce • Hive Metastore
Componentes Big Data: (no)SQL
• Diseñada para evitar MapReduce (MPP) • BI • Comparte metastore con Hive • Explota paradigma columnar y particionado • Conector JDBC/ODBC • Diseñada para alta concurrencia
Componentes Big Data: (no)SQL
• ElasticSearch, LogStash, Kibana • ElasticSearch:
• Escalado elástico • Réplicas y sharding • Agregaciones y timelines • 200 Millones por nodo • Open Source • Conector dúplex con Hive
Componentes Big Data: (no)SQL
• Orientación a Data Streaming (< 2 secs) • Procesos en memoria • Hive on Spark (inestable) • Spark SQL
https://blog.cloudera.com/blog/2016/02/new-sql-benchmarks-apache-impala-incubating-2-3-uniquely-delivers-analytic-database-performance/
Componentes Big Data: (no)SQL
Análisis de Datos
Map of Iranian Blogosphere
Minería/Analítica de Datos
Extracción de información subyacente en los datos, para generar conocimiento (normalmente
accionable)
Análisis del lenguaje (I)
★ Conversión de un texto a una serie de ‘features’★ Niveles de interpretación: sintáctico, gramatical,
semántico, discurso★ Ejemplos: Análisis de sentimiento, reconocimiento de
entidades (NER)
★ Abstraer el lenguaje en un conjunto de ‘features’★ Arranca del Information Retrieval (buscadores de
texto)★ Tradicionalmente NLP (Natural Language Processing)
Análisis del lenguaje (II)
SemánticaTokenizar MorfoSyn Gramática
El gato maulla El/DET gato/N maullar/V
El/DET gato/N/Animal maullar/V
SN_Animal = El gato SV = maulla
Análisis del lenguaje: Pipeline
• “Morfo”: Contienen una morfología que nos permite pasar de formas derivadas a raíces (también llamada Normalización)
• Me gusta llegar caminando a los sitios-> Me/gustar/llegar/caminar/a/el/sitio
• “Sintáctico”: Contienen un modelo del lenguaje para identificar el rol sintáctico de cada palabra (también llamado POS-tagging)
• Me/PP gustar/V llegar/V caminar/V a/SP el/DA sitio/NC
• Suelen incorporar gramáticas para análisis gramatical (parsing)
• Algunos incorporan detección de entidades
• Demo ejemplo con Freeling , (PAROLE tag-set)
• También NLTK
Análisis del lenguaje: Morfosintaxis
• Nos permiten analizar la estructura de una frase y buscar patrones
• Ej:
• [Artículo + Nombre ] ==> SN
• [Pronombre + Verbo_agradar ] ==> SV_agradar
• [AdverbioNeg + Pronombre + Verbo_agradar] ==> SV_desagradar
• SN + SV_agradar ===> Sentimiento_positivo
• SN + SV_desagradar => Sentimiento_negativo
• Se suelen apoyar en formas normalizadas y/o taggeadas
• “ser una pena” vs “merece la pena”
• Son (muy) dependientes el lenguaje y del dominio
• Necesitan mucho contexto lingüístico
Análisis del lenguaje: Gramáticas
Análisis del lenguajeAplicaciones
• Detección de Entidades
• Análisis de sentimiento
• Intención de compra
• Minería de perfiles
• Detección de conversaciones
Profile mining‘Podemos’ fanbase jobs
https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309
Profile mining‘PP’ fanbase jobs
https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309
Análisis estadístico
★ Análisis de distribuciones (histogramas)★ Análisis de series temporales★ Correlaciones - Regresiones★ Análisis factorial
Machine Learning
★ Descomposición de una observación en ‘features’★ ‘Clustering’: Basado en distancias entre ‘features’★ ‘Clasificación’: (entre N ‘salidas’). Probabilidad de
que una ‘feature’ pertenezca a una ‘salida’
Análisis de redes
★ Cambio de un paradigma descriptivo (‘features’) a una caracterización basada en las relaciones
★ Métricas:★ Centralidad, análisis de comunidades, modularidad
★ Ejemplos: Motores de recomendación, análisis de flujos, viralidad, caracterización de la audiencia
http://mashable.com/2011/05/06/bin-laden-visualization/
Análisis geoespacial
★ Correlación entre ‘features’ y variables espaciales★ ‘Contagio’ espacial★ ‘Geohashing’ ★ Aplicaciones: ★ Detección de patrones espaciales (migraciones,
manifestaciones, etc..) ★ Geomarketing
Análisis geoespacial
Twitter Feed
DB Hashtag aggregation
Spatial skew
Time skew
Hashtag classfication
Análisis geoespacial
★ Think stats★ Data Algorithms★ Speech and Language Processing★ Understanding Social Networks★ New Science of Cities★ Dataclysm
Referencias