carga y procesamiento de datos en hdinsight

Post on 26-Jul-2015

124 Views

Category:

Technology

7 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Carga y procesamiento de datos en HDInsight @erincon

Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen

Eladio Rincón

Director Área Relacional

erincon@solidq.com

@yolrod

Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen

Yolanda Olmedo

DPS

yolmedo@solidq.com

@Daniel_Seara

Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen

Daniel Seara

Mentor

dseara@solidq.com

2

Agenda • Almacenamiento en HDInsight• Carga de datos• Herramientas para la carga de datos

• Estructurados• No estructurados• Especiales• Transformaciones• Hive• Pig• Map Reduce

• Obteniendo resultados

3

• Azure HDInsight cluster• Hortonworks Data Platform

• Arquitectura

HDInsightAlmacenamiento

4

HDInsightEcosistema

Distributed Storage(HDFS)

Query(Hive)

Distributed Processing(Map Reduce)

Scripting(Pig)NoSQL Database

(HBase)

Metadata(HCatalog)

Data

Inte

gra

tion

( OD

BC

/ SQ

OO

P/ R

EST)

Busin

ess In

tellig

ence

(E

xcel, Po

werV

iew

…)

Machine Learning (Mahout)

Graph(Pegasus)

Stats processing (RHadoop)

Pipeline / workflow(Oozie)

Log fi

le

aggre

gatio

n(Flu

me)

PDW

World’s Data (Azure Data Marketplace) AD, System Center

Windows Azure Storage

5

• Bibliotecas .Net que facilitan la tarea• Serialización • JSON• AVRO

– Interacción con HDInsight y Azure

Carga de DatosHerramientas para la carga de Datos

6

DEMOEncontrando lo que necesitamos con NuGet

7

Haga clic en el icono para agregar una imagen

Haga clic en el icono para agregar una imagenHaga clic en el icono para agregar una imagen

Haga clic en el icono para agregar una imagen

EscenarioDatos de clima y consumo de cerveza

Analizar grandes volúmenes de información respecto del clima y su correlación de consumo, relacionado con períodos estacionales

8

• Sqoop• Importación/exportación RDMS

Hadoop

• Azure PowerShell • Extensión de PowerShell para

interactuar con Azure• AzureHDInsightSqoopJobDefinition • …

Carga de DatosEstructurados

9

DEMOImportando datos de base de datos a HDInsight

10

• ¡Serialización!• AVRO• JSON• CSV• ORC (Optimized Row Columnar)

• Transformar y almacenar• Herramientas de serialización• Herramientas de almacenamiento en la

nube

Carga de DatosNo Estructurados

11

DEMOLlevando datos no estrcuturados a HDInsight

Icon de tecnología

12

• Definir la estructura de datos necesarios

• “Copiar” entre el origen e instancias de la estructura

• Serializar

Carga de DatosCasos especiales

13

DEMOLlevando datos diferentes a HDInsight

Icon de tecnología

14

• Núcleo de Hadoop• Procesamiento paralelo• Divide trabajo en pequeñas tareas• Tolerancia a fallos

TransformacionesMapReduce

15

TransformacionesMapReduce

MapReduce

Mapper

Mapper

Mapper

Reducer

Reducer

Reducer

Mezclay

ordena

16

• Sistema Data Warehouse para Hadoop

• Consultas Ad-hoc• Lenguaje de consulta como SQL:

HiveQL• Por detrás ejecuta MapReduce

TransformacionesHive

17

• Lenguaje de scripting de alto nivel• Fácil programación extensible• Ejecuta trabajos MapReduce

TransformacionesPig

18

Obteniendo resultadosLeyendo del cluster

¿Preguntas?

19

20

Siéntate a comer con nosotros o tómate un café y aclara tus dudas

¡Gracias!

@erinconDirector Área Relacional

Eladio Rincón

@yolrodDPS

Yolanda Olmedo

@Daniel_SearaMentor

Daniel Seara

Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino

América, ésta es tu oportunidad.

http://summit.solidq.com

Síguenos:

21

top related