clase 1: introducciónaidanhogan.com/teaching/gdd-2017/01/gdd2017-01.pdf · gestiÓn de datos...

76
GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan [email protected]

Upload: others

Post on 20-May-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

GESTIÓN DE DATOS (MASIVOS)

DIPLOMADO DE DATOS 2017

Clase 1: Introducción

Aidan Hogan

[email protected]

Page 2: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

EL VALOR DE LOS DATOS

Page 3: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Soho, London, 1854

Page 4: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Cólera: Lo que sabemos hoy en día …

Page 5: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Cólera: Lo que sabíamos en 1854

Page 6: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

1854: La teoría del miasma de Galen

Page 7: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

1854: La caza por el cólera invisible

Page 8: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

John Snow: 1813–1858

Page 9: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

John Snow: 1813–1858

Page 10: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

La encuesta de Soho

Page 11: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Recolección de datos ...

Page 12: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Lo que los datos mostraron …

Page 13: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Lo que los datos mostraron …

Page 14: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

616 muertes, 8 días después …

Page 15: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Lo que aprendimos ...

Page 16: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Cartel cólera ca. 1866 (aviso de hervir el agua)

Page 17: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

30 años antes (del descubrimiento) de V. cholerae

Page 18: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

John Snow: El padre de la Epidemiología

Page 19: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Historias de éxitos de la Epidemiología

Page 20: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Valor de los datos: No sólo Epidemiología

Page 21: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Cuadernos no son suficientemente buenos

Page 22: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

EL CRECIMIENTO DE LOS DATOS

Page 23: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“Big Data”

1 Wiki = 1 Wikipedia

English Wikipedia

≈ 51 GB de datos

(2015 dump)

(Texto; Datos actuales)

(XML; no comprimido)

Page 24: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“Big Data”

Wikimedia Commons

≈ 24 TB de datos

≈ 470.6 Wiki

(2014 dump)

Page 25: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“Big Data”

Sloan Digital Sky Survey

≈ 200 GB / día

≈ 4 Wiki / día

(2013, generados por el SDSS)

Page 26: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“Big Data”

Twitter

≈ 8 TB / día

≈ 157 Wiki / día

(2013, generados)

Page 27: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“Big Data”

Large Hadron Collider

≈ 68 TB / día

≈ 1,370 Wiki / día

(2012, datos de colisiones

generados)

Page 28: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“Big Data”

Facebook

≈ 600 TB / día

≈ 11,764 Wiki / día

(2014, entrada, datos en Hive)

Page 29: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“Big Data”

Vigilancia de la NSA

≈ 29 PB / día

≈ 568,627 Wiki / día

(2013, procesados)

Page 30: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“Big Data”

Google

≈ 100 PB / día

≈ 2,000,000 Wiki / día

(2014, procesados)

Page 31: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“Big Data”

El tráfico de Internet

≈ 2,417 PB / día

≈ 47,000,000 Wiki / día

(2014, estimaciones de Cisco)

Page 32: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Los datos: Un cuello de botella moderno?

Page 33: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Las ‘V’s de “Big Data”

Page 34: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“BIG DATA” EN ACCIÓN …

Page 35: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

La mejor ruta (Waze)

“¿Cuál es ahora la ruta más rápida para llegar a casa?”

• Procesa viajes reales para construir conocimiento

• Participatory Sensing

Page 36: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Prediciendo pre-crimen (PredPol)

“¿Qué áreas de la ciudad tienen una mayor necesidad de

patrullas policíacas a las 13:55 los lunes?”

• Sistema PredPol usado por la policía de Santa Cruz (EEUU)

• Predicciones basadas en análisis de 8 años de datos

Page 37: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Ser elegido presidente (Narwhal)

“¿Quiénes son los votantes indecisos, y cómo los convenzo

de que voten por mí?”

• Perfiles de usuarios construidos e integrados de la Web

• Emails enviados a votantes, basados en sus perfiles

Page 38: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Ganar "Jeopardy" (IBM Watson)

“¿Puede una máquina vencer a los mejores expertos

humanos en Jeopardy?”

• Indexó 200 millones de páginas de contenido

• Un ensamblaje de 100 técnicas

Page 39: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“BIG DATA” NECESITA

“GESTIÓN DE DATOS (MASIVOS)” …

Page 40: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Cada aplicación es distinta …

• Datos pueden ser

– (semi-)estructurados

• (Relational DBs, JSON, XML, CSV)

– sin estructura

• (documentos de texto, tweets, comentarios)

– y cualquier cosa entre medio!

Page 41: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Cada aplicación es distinta …

• Procesamiento puede involucrar

– Gestión de Datos Estructurados

• (indexación, consultas, joins, agregación)

– Procesamiento de Lenguaje Natural

• (búsqueda de texto, clasificación de texto, análisis de

sentimiento, relevancia y similitud, etc.)

– Minería de Datos y Aprendizaje

• (regresión, reconocimiento de patrones, clasificación, detección

de eventos, etc.)

– Y cualquier cosa entre medio.

Page 42: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

¿Por dónde deberíamos empezar?

Page 43: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

GESTIÓN DE DATOS (MASIVOS)

Page 44: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Con doble los datos, necesitamos ...

... y listo?

Page 45: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

La escala es un factor importante …

Tengo un algoritmo.

Tengo una máquina que

puede procesar 1.000

entradas por hora.

Si compro una máquina que es n veces más

potente, ¿cuántas entradas

puedo procesar?

Nota: No la misma

máquina!

Cuadrático O(n2)

usualmente es demasiado

¡Depende del algoritmo!

Page 46: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

La escala es un factor importante …

• ¿Una máquina que es n veces más potente?

• ¿n máquinas que son

igualmente potentes

entre ellas?

vs.

¿Cuál es mejor?

¡Depende de la aplicación!

Page 47: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

La escala es un factor importante …

• Intensivo en los datos (nuestro foco!)

– Algoritmos baratos / Grandes entradas

– p.ej., Google, Facebook, Twitter

• Intensivo en computo (no es nuestro foco!)

– Algoritmos más caros / Entradas más pequeñas

– p.ej., simulaciones de clima, ajedrez, etc.

• No es blanco y negro

Page 48: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

"GESTIÓN DE DATOS (MASIVOS)" NECESITA

"COMPUTACIÓN DISTRIBUIDA"

Page 49: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Computación distribuida

• Necesita más de una máquina

• Google ca. 1998:

Page 50: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Computación distribuida

• Necesita más de una máquina

• Google ca. 2014:

Page 51: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Costos de transporte de los datos (estimaciones)

Memoria Principal

Disco Duro

Disco de Estado Sólido

Red(mismo rack)

30 GB/s 600 MB/s 100 MB/s

Red(a través de

los racks)

1.25 GB/s 5 GB/s

50–150 ns 10–100 μs 5–15 ms 300–600 ns 1–15 μs

(transmisión)

(latencia)

¡Se necesita minimizar los costos de red!(La red da un costo adicional)

(Se reparte la red entre muchas máquinas)

Page 52: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Colocación de los datos

• Hay que pensar cuidadosamente dónde poner

qué datos

Tengo cuatro máquinas para

correr mi página web. Tengo 10

millones de usuarios.

Cada usuario tiene un perfil

personal, fotos, amigos y juegos.

¿Cómo debería dividir los datos

en las máquinas?

¡Depende de la aplicación!

(Pero buenos principios de

diseño aplican universalmente.)

Page 53: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Fallas de red/nodo

• Si tenemos miles de máquinas, ¡hay que pensar

en las fallas!

Page 54: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Colocación de los datos

• Hay que pensar (¡aún más!) cuidadosamente

dónde poner qué datos

Tengo cuatro máquinas para

correr mi página web. Tengo 10

millones de usuarios.

Cada usuario tiene un perfil

personal, fotos, amigos y juegos.

¿Cómo debería dividir los datos

en las máquinas?

¡Depende de la aplicación!

(de nuevo)

(Pero buenos principios de

diseño aplican universalmente.)

Page 55: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Computación distribuida humana

Page 56: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

"COMPUTACIÓN DISTRIBUIDA”

LIMITACIONES Y DESAFÍOS …

Page 57: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

¡Distribución no es siempre aplicable!

Page 58: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Desarrollo distribuido es difícil

• Sistemas Distribuidos pueden ser complejos

• Con múltiples máquinas hay que ocuparse de:– Datos en diferentes localizaciones

– Logs y mensajes en diferentes lugares

– La eficiencia de la red

– ¡Hay que manejar fallas!

– ¡Hay que balancear carga!

• ¡Tareas toman mucho tiempo!– Bugs pueden no ser evidentes por horas

– Muchos datos = muchos contra ejemplos

Page 59: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Frameworks/abstracciones pueden ayudar

Para procesamiento distribuido

(p.ej.)

Page 60: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Frameworks/abstracciones pueden ayudar

Para almacenamiento distribuido

(p.ej.)

Page 61: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

¿CÓMO FUNCIONA(BA) TWITTER?

Page 62: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

“Twitter Timelines at Scale”

Basado en las dispositivas del 2013, del

Arquitecto Principal de Twitter: Raffi Krikorian

Page 63: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

• 150 millones de usuarios activos

• 400 millones de tweets por día

– 4.600 tweets por segundo

– max: 143.199 tweets por segundo

• 300 mil consultas/s por timelines de usuarios

• 6 mil consultas/s por búsqueda personalizada

Big Data en Twitter

¿Qué debería ser la

prioridad al optimizar?

Page 64: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Twitter Timeline

Page 65: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Implementando timelines: Escritura

• 4.600 tweets por segundo (en promedio)

Page 66: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Nodos con alto grado

Page 67: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Implementando timelines: Lectura

• 300.000 consultas por segundo (en promedio)

1ms @p504ms @p99

Page 68: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Búsqueda de texto

Page 69: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Implementando búsqueda de texto

• 6.000 consultas por segundo (en promedio)

Page 70: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Timeline vs. Búsqueda

300.000 peticiones/s4.600 peticiones/s

4.600 peticiones/s 6.000 peticiones/s

Page 71: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Twitter: Arquitectura Completa

Page 72: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

"GESTIÓN DE DATOS"

ACERCA DEL CURSO

Page 73: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

¿Qué es el curso/No es?

• Intensivo en datos | no intensivo en computo

• Tareas distribuidas | no crear redes

• Hardware no especializado | no supercomputadores

• Métodos generales | no algoritmos específicos

• Métodos prácticos | con poco teoría

Page 74: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Estructura del curso

• Primera mitad de la sesión: Clase

• Segunda mitad de la sesión: Práctica

1. Introducción Conteo local de palabras

2. GFS & MapReduce HDFS & Hadoop y Conteo de palabras

3. Hive Contando IMDb co-actores con Hive

4. Spark Analizando series de televisión

5. Crawling & Indices Invertidos Búsqueda sobre Wikipedia

6. TF–IDF & PageRank Búsqueda Ranqueada sobre Wikipedia

7. NoSQL I Cassandra

8. NoSQL II MongoDB

Nota final: 100% prácticas (8 en total, 12,5% cada una)

Page 75: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

En preparación:

Page 76: Clase 1: Introducciónaidanhogan.com/teaching/gdd-2017/01/GdD2017-01.pdf · GESTIÓN DE DATOS (MASIVOS) DIPLOMADO DE DATOS 2017 Clase 1: Introducción Aidan Hogan aidhog@gmail.com

Preguntas?