el futuro de big data: la calidad del análisis. modelos efectivos y casos de uso

56
Big Data Analysis Óscar Marín Miró [email protected] 04/05/2016

Upload: escola-universitaria-dinformatica-tomas-cerda

Post on 13-Feb-2017

513 views

Category:

Technology


2 download

TRANSCRIPT

ContenidosIntroducción Análisis de datos

Valor

Arquitectura

★ Historia★ Problemática★ Soluciones

★ Arquitectura Lambda★ Componentes

★ Lenguaje★ Estadística y deep learning★ Redes★ Geoespacial

★ Análisis★ Ámbitos

Referencias

Big Data: Historia

“Big Data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications”

http://en.wikipedia.org/wiki/Big_data

- Twitter: 340 millones de tweets diarios (~= 1TB/día)

- Facebook: 800 millones de status diarios

- Instagram: 70 millones de foros diarias

- Google: 1000 millones de consultas diarias

http://www.slideshare.net/gigaom/the-3vs-of-big-data-variety-velocity-and-volume-from-structuredata-2012

¿Qué es el Big Data? (de verdad)

Big Data: Historia

- Big Data y las 3 ‘V’

- Velocidad

- Volumen

- Variedad

http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf

LOS PROBLEMAS: EL VOLUMEN

http://royal.pingdom.com/2010/02/18/amazing-facts-and-figures-about-the-evolution-of-hard-disk-drives/

LOS PROBLEMAS: EL VOLUMEN

http://en.wikipedia.org/wiki/File:Hard_drive_capacity_over_time.png

¿Qué hacemos cuando los datos superan con creces el tamaño de un disco duro?

LOS PROBLEMAS: LA VELOCIDAD

http://en.wikipedia.org/wiki/Moore's_law

¿Qué hacemos cuando los datos llegan a un ritmo superior al que pueden ser analizados?

LOS PROBLEMAS: LA VELOCIDAD

http://arstechnica.com/business/2012/05/bandwidth-explosion-as-internet-use-soars-can-bottlenecks-be-averted/

¿Y si no nos llega el ancho de banda?

LOS PROBLEMAS: LA VARIEDAD

El problema del join en RDMS

Big Data: Soluciones

- Frente al volumen:

- Batch processing: MapReduce (Hadoop)

- Frente a la velocidad:

- Real-time processing: Streaming (Spark)

- Frente a la variedad: NoSQL

El Valor de Big Data

http://labratrevenge.com/pdx

El Valor de Big Data:Big Data Analysis

‣Estadístico‣Texto‣Análisis de Redes Sociales‣Análisis GeoEspacial

El Valor de Big Data:Ámbitos de Aplicación

‣Marketing/Publicidad/Comunicación‣Customer Insights‣Growth Hacking‣Salud‣Escalabilidad

Big Data - Arquitectura

Big Data - Arquitectura

http://jameskinley.tumblr.com/post/37398560534/the-lambda-architecture-principles-for

Big Data - “Age of Data”

Big Data - Arquitectura

Big Data - Arquitectura

4.La plataforma Big Data: Componentes.Ingestión.

• Sqoop:  • Ingestión  tipo  ‘pull’.  BBDD  externas  (BI)  • Modo  batch  • Crea  tablas  Hive  directamente  

• Flume:  • Ingestión  tipo  ‘push’  • Señalización  a  través  de  JMS  • Configuración  a  través  de  HTTP  POST  • Configuración  de  tamaños  en  entrada  y  salida  • Monitor  • Señalización  +  Señales  nativas  • Particionado  • Tolerancia  a  fallos  y  esquemas  HA

Componentes Big Data: Ingestión

• SQL-­‐on-­‐hadoop  • Formato  columnar  (Parquet)  • SerDes:  XML,  JSON  • Procesos  MapReduce  • Hive  Metastore  

Componentes Big Data: (no)SQL

• Diseñada  para  evitar  MapReduce  (MPP)  • BI  • Comparte  metastore  con  Hive  • Explota  paradigma  columnar  y  particionado  • Conector  JDBC/ODBC  • Diseñada  para  alta  concurrencia

Componentes Big Data: (no)SQL

• ElasticSearch,  LogStash,  Kibana  • ElasticSearch:  

• Escalado  elástico  • Réplicas  y  sharding  • Agregaciones  y  timelines  • 200  Millones  por  nodo  • Open  Source  • Conector  dúplex  con  Hive

Componentes Big Data: (no)SQL

Componentes Big Data: (no)SQL

Componentes Big Data: (no)SQL

• Orientación  a  Data  Streaming  (<  2  secs)  • Procesos  en  memoria  • Hive  on  Spark  (inestable)  • Spark  SQL

https://blog.cloudera.com/blog/2016/02/new-sql-benchmarks-apache-impala-incubating-2-3-uniquely-delivers-analytic-database-performance/

Componentes Big Data: (no)SQL

Análisis de Datos

Map of Iranian Blogosphere

Minería/Analítica de Datos

Extracción de información subyacente en los datos, para generar conocimiento (normalmente

accionable)

Análisis del lenguaje (I)

★ Conversión de un texto a una serie de ‘features’★ Niveles de interpretación: sintáctico, gramatical,

semántico, discurso★ Ejemplos: Análisis de sentimiento, reconocimiento de

entidades (NER)

★ Abstraer el lenguaje en un conjunto de ‘features’★ Arranca del Information Retrieval (buscadores de

texto)★ Tradicionalmente NLP (Natural Language Processing)

Análisis del lenguaje (II)

SemánticaTokenizar MorfoSyn Gramática

El gato maulla El/DET gato/N maullar/V

El/DET gato/N/Animal maullar/V

SN_Animal = El gato SV = maulla

Análisis del lenguaje: Pipeline

• “Morfo”: Contienen una morfología que nos permite pasar de formas derivadas a raíces (también llamada Normalización)

• Me gusta llegar caminando a los sitios-> Me/gustar/llegar/caminar/a/el/sitio

• “Sintáctico”: Contienen un modelo del lenguaje para identificar el rol sintáctico de cada palabra (también llamado POS-tagging)

• Me/PP gustar/V llegar/V caminar/V a/SP el/DA sitio/NC

• Suelen incorporar gramáticas para análisis gramatical (parsing)

• Algunos incorporan detección de entidades

• Demo ejemplo con Freeling , (PAROLE tag-set)

• También NLTK

Análisis del lenguaje: Morfosintaxis

• Nos permiten analizar la estructura de una frase y buscar patrones

• Ej:

• [Artículo + Nombre ] ==> SN

• [Pronombre + Verbo_agradar ] ==> SV_agradar

• [AdverbioNeg + Pronombre + Verbo_agradar] ==> SV_desagradar

• SN + SV_agradar ===> Sentimiento_positivo

• SN + SV_desagradar => Sentimiento_negativo

• Se suelen apoyar en formas normalizadas y/o taggeadas

• “ser una pena” vs “merece la pena”

• Son (muy) dependientes el lenguaje y del dominio

• Necesitan mucho contexto lingüístico

Análisis del lenguaje: Gramáticas

Análisis del lenguajeAplicaciones

• Detección de Entidades

• Análisis de sentimiento

• Intención de compra

• Minería de perfiles

• Detección de conversaciones

LexiconCorpus

Profile mining

Profile mining‘Podemos’ fanbase jobs

https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309

Profile mining‘PP’ fanbase jobs

https://medium.com/@outliers/mineria-de-perfiles-politicos-en-twitter-19972efaf309

Análisis estadístico

★ Análisis de distribuciones (histogramas)★ Análisis de series temporales★ Correlaciones - Regresiones★ Análisis factorial

Machine Learning

★ Descomposición de una observación en ‘features’★ ‘Clustering’: Basado en distancias entre ‘features’★ ‘Clasificación’: (entre N ‘salidas’). Probabilidad de

que una ‘feature’ pertenezca a una ‘salida’

Deep Learning★ Descomposición de una observación en ‘relaciones’★ Modelado de la red final

Deep Learning

Deep Learning

Análisis de redes

★ Cambio de un paradigma descriptivo (‘features’) a una caracterización basada en las relaciones

★ Métricas:★ Centralidad, análisis de comunidades, modularidad

★ Ejemplos: Motores de recomendación, análisis de flujos, viralidad, caracterización de la audiencia

http://mashable.com/2011/05/06/bin-laden-visualization/

Análisis de redes

Análisis de redes

Análisis de redes

Análisis de redes

Comm1Seed

Comm2Seed

Comm3Seed

Análisis de redes

Análisis geoespacial

★ Correlación entre ‘features’ y variables espaciales★ ‘Contagio’ espacial★ ‘Geohashing’ ★ Aplicaciones: ★ Detección de patrones espaciales (migraciones,

manifestaciones, etc..) ★ Geomarketing

Análisis geoespacial

Análisis geoespacial

#sonar2014BCN (general)

Análisis geoespacial

Twitter Feed

DB Hashtag aggregation

Spatial skew

Time skew

Hashtag classfication

Análisis geoespacial

Análisis geoespacial