carga y procesamiento de datos en hdinsight

21
Carga y procesamiento de datos en HDInsight @erincon Haga clic en el icono Haga clic en el icono Haga clic en el icono Eladio Rincón Director Área Relacional [email protected] @yolrod Haga clic en el icono Haga clic en el icono Haga clic en el icono Yolanda Olmedo DPS [email protected] @Daniel_Seara Haga clic en el icono Haga clic en el icono Haga clic en el icono Daniel Seara Mentor [email protected]

Upload: eladio-rincon-herrera

Post on 26-Jul-2015

124 views

Category:

Technology


7 download

TRANSCRIPT

Page 1: Carga y procesamiento de datos en HDInsight

Carga y procesamiento de datos en HDInsight @erincon

Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen

Eladio Rincón

Director Área Relacional

[email protected]

@yolrod

Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen

Yolanda Olmedo

DPS

[email protected]

@Daniel_Seara

Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen

Daniel Seara

Mentor

[email protected]

Page 2: Carga y procesamiento de datos en HDInsight

2

Agenda • Almacenamiento en HDInsight• Carga de datos• Herramientas para la carga de datos

• Estructurados• No estructurados• Especiales• Transformaciones• Hive• Pig• Map Reduce

• Obteniendo resultados

Page 3: Carga y procesamiento de datos en HDInsight

3

• Azure HDInsight cluster• Hortonworks Data Platform

• Arquitectura

HDInsightAlmacenamiento

Page 4: Carga y procesamiento de datos en HDInsight

4

HDInsightEcosistema

Distributed Storage(HDFS)

Query(Hive)

Distributed Processing(Map Reduce)

Scripting(Pig)NoSQL Database

(HBase)

Metadata(HCatalog)

Data

Inte

gra

tion

( OD

BC

/ SQ

OO

P/ R

EST)

Busin

ess In

tellig

ence

(E

xcel, Po

werV

iew

…)

Machine Learning (Mahout)

Graph(Pegasus)

Stats processing (RHadoop)

Pipeline / workflow(Oozie)

Log fi

le

aggre

gatio

n(Flu

me)

PDW

World’s Data (Azure Data Marketplace) AD, System Center

Windows Azure Storage

Page 5: Carga y procesamiento de datos en HDInsight

5

• Bibliotecas .Net que facilitan la tarea• Serialización • JSON• AVRO

– Interacción con HDInsight y Azure

Carga de DatosHerramientas para la carga de Datos

Page 6: Carga y procesamiento de datos en HDInsight

6

DEMOEncontrando lo que necesitamos con NuGet

Page 7: Carga y procesamiento de datos en HDInsight

7

Haga clic en el icono para agregar una imagen

Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen

Haga clic en el icono para agregar una imagen

EscenarioDatos de clima y consumo de cerveza

Analizar grandes volúmenes de información respecto del clima y su correlación de consumo, relacionado con períodos estacionales

Page 8: Carga y procesamiento de datos en HDInsight

8

• Sqoop• Importación/exportación RDMS

Hadoop

• Azure PowerShell • Extensión de PowerShell para

interactuar con Azure• AzureHDInsightSqoopJobDefinition • …

Carga de DatosEstructurados

Page 9: Carga y procesamiento de datos en HDInsight

9

DEMOImportando datos de base de datos a HDInsight

Page 10: Carga y procesamiento de datos en HDInsight

10

• ¡Serialización!• AVRO• JSON• CSV• ORC (Optimized Row Columnar)

• Transformar y almacenar• Herramientas de serialización• Herramientas de almacenamiento en la

nube

Carga de DatosNo Estructurados

Page 11: Carga y procesamiento de datos en HDInsight

11

DEMOLlevando datos no estrcuturados a HDInsight

Icon de tecnología

Page 12: Carga y procesamiento de datos en HDInsight

12

• Definir la estructura de datos necesarios

• “Copiar” entre el origen e instancias de la estructura

• Serializar

Carga de DatosCasos especiales

Page 13: Carga y procesamiento de datos en HDInsight

13

DEMOLlevando datos diferentes a HDInsight

Icon de tecnología

Page 14: Carga y procesamiento de datos en HDInsight

14

• Núcleo de Hadoop• Procesamiento paralelo• Divide trabajo en pequeñas tareas• Tolerancia a fallos

TransformacionesMapReduce

Page 15: Carga y procesamiento de datos en HDInsight

15

TransformacionesMapReduce

MapReduce

Mapper

Mapper

Mapper

Reducer

Reducer

Reducer

Mezclay

ordena

Page 16: Carga y procesamiento de datos en HDInsight

16

• Sistema Data Warehouse para Hadoop

• Consultas Ad-hoc• Lenguaje de consulta como SQL:

HiveQL• Por detrás ejecuta MapReduce

TransformacionesHive

Page 17: Carga y procesamiento de datos en HDInsight

17

• Lenguaje de scripting de alto nivel• Fácil programación extensible• Ejecuta trabajos MapReduce

TransformacionesPig

Page 18: Carga y procesamiento de datos en HDInsight

18

Obteniendo resultadosLeyendo del cluster

Page 19: Carga y procesamiento de datos en HDInsight

¿Preguntas?

19

Page 20: Carga y procesamiento de datos en HDInsight

20

Siéntate a comer con nosotros o tómate un café y aclara tus dudas

¡Gracias!

@erinconDirector Área Relacional

Eladio Rincón

@yolrodDPS

Yolanda Olmedo

@Daniel_SearaMentor

Daniel Seara

Page 21: Carga y procesamiento de datos en HDInsight

Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino

América, ésta es tu oportunidad.

http://summit.solidq.com

Síguenos:

21