![Page 1: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/1.jpg)
Familiarización básica a métodos y herramientas
para soluciones de Big Data
@tiangolo
![Page 2: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/2.jpg)
¿Quién les habla?
Sebastián RamírezSENSETA
Inteligencia Artificial sobre Big Data
@tiangolo
![Page 3: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/3.jpg)
¿Por qué “Big Data”?
@tiangolo
![Page 4: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/4.jpg)
Crecimiento exponencial de datos
90% en últimos 2 años
@tiangolo
![Page 5: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/5.jpg)
¿Qué es Big Data?
@tiangolo
![Page 6: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/6.jpg)
3 V de Big Data• Volumen • Velocidad • Variedad
@tiangolo
![Page 7: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/7.jpg)
VolumenTamaño en disco, Bytes
@tiangolo
![Page 8: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/8.jpg)
VelocidadNuevos datos rápidamente
@tiangolo
![Page 9: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/9.jpg)
VariedadMúltiples formatos
@tiangolo
![Page 10: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/10.jpg)
¿Cómo se usa?
@tiangolo
![Page 11: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/11.jpg)
Hadoop
2005Open SourceMap Reduce
HDFS
@tiangolo
![Page 12: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/12.jpg)
Cluster Hadoop
@tiangolo
![Page 13: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/13.jpg)
Hadoop HDFSHadoop Distributed File System
@tiangolo
![Page 14: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/14.jpg)
Hadoop Jobs
@tiangolo
![Page 15: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/15.jpg)
Nodos Hadoop
@tiangolo
![Page 16: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/16.jpg)
Hadoop Map Reduce
@tiangolo
![Page 17: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/17.jpg)
Map function
Reducefunction
Input Splits
Fase “Map” Fase “Reduce”
Map Reduce
@tiangolo
![Page 18: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/18.jpg)
“Ecosistema” Hadoop
@tiangolo
![Page 19: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/19.jpg)
Herramientas adicionales para Big Data
@tiangolo
![Page 20: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/20.jpg)
Distribuciones Hadoop
@tiangolo
![Page 21: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/21.jpg)
Distribuciones de Hadoop(“Ecosistema” Hadoop)
@tiangolo
![Page 22: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/22.jpg)
Hive - SQL
@tiangolo
![Page 23: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/23.jpg)
• 300 Analistas•Acceso tipo SQL•Base de Datos corporativa no resistía
@tiangolo
![Page 24: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/24.jpg)
Hive
•Tipo SQL•Schema on-read (al leer)•Estándar para Bases de Datos en Hadoop
@tiangolo
![Page 25: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/25.jpg)
Hcatalog - SQL
@tiangolo
![Page 26: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/26.jpg)
HCatalog
•Estructura de tablas para múltiples herramientas•Abstracción de ubicaciones•Sopota RCFile, CSV, JSON, y SequenceFile
@tiangolo
![Page 27: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/27.jpg)
Pig - Script
@tiangolo
![Page 28: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/28.jpg)
Pig
•Combinación: Script y SQL•Secuencias de flujos de datos•ETL, transformación•Extensible
@tiangolo
![Page 29: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/29.jpg)
HBase - NoSQL
@tiangolo
![Page 30: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/30.jpg)
HBase
•NoSQL•Columnar•Tiempo Real•Billones de registros•Millones de columnas•No JOINs
@tiangolo
![Page 31: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/31.jpg)
Sqoop - Importar
@tiangolo
![Page 32: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/32.jpg)
Sqoop
•Importar - Exportar•Hive, Hbase…•MySQL, Postgre, Oracle•Extensible
@tiangolo
![Page 33: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/33.jpg)
Solr - Búsquedas
@tiangolo
![Page 34: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/34.jpg)
Solr
•Búscquedas en “Tiempo Real”•Indexa JSON, XML, CSV•Búsquedas avanzadas
@tiangolo
![Page 35: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/35.jpg)
Spark – En memoria
@tiangolo
![Page 36: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/36.jpg)
Spark
•En memoria•Machine Learning y Data Science•Procesos iterativos (repetitivos)
@tiangolo
![Page 37: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/37.jpg)
Ambari – Administración
@tiangolo
![Page 38: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/38.jpg)
Ambari
•Open Source•Monitoreo•Administración
@tiangolo
![Page 39: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/39.jpg)
Otras herramientas…
•MongoDB
•Cassandra
•Impala
•ElasticSearch
•Python Disco…
@tiangolo
![Page 40: Familiarización básica a métodos y herramientas para soluciones de Big Data](https://reader036.vdocuments.pub/reader036/viewer/2022062514/559041061a28ab44328b45bb/html5/thumbnails/40.jpg)
¡Gracias!
Sebastián Ramírez
Twitter: @tiangolo
Linkedin: http://lnkdin.me/p/tiangolo