introducción a apache spark

Introducción Apache Spark

Gustavo Arjonesgustavo@socialmetrix.com@arjones

Co-founder & CTO, Socialmetrix

Lic. Ciencias ComputaciónMBA Marketing Servicios

@arjonesgustavo@socialmetrix.com

Brasileño, en ARG desde 2008

Gustavo Arjones

Qué esApache Spark?

Qué es Spark?

Apache Spark™ is a fast and general engine for large-scale data processing.

• Procesamiento In-memory (preferencialmente)

• Framework de Procesamiento Unificado

• Para Ingenieros & Data Scientists

Principales PilaresTask Scheduler• Prepara los jobs a traves de DAG (Directed acyclic

graph)• Enganchan funciones para ejecutar los stages• Cache-aware; considera data utilización & localización

(data locality)• Partitioning-aware para reducir shuffles por la red

RDD (Resilient Distributed Datasets)• Estructura de datos Immutable (In-memory)• Tolerante a fallas (Se reama en caso de falla)• Estructura de datos que puede ser operada en

paralelo•Rica interfaz de Transformations & Actions

Porqué me gusta?

Viene de buen “origen”BDAS, the Berkeley Data Analytics Stack (AMPLAB)

Compacto y poderoso• Escrito en Scala, con wrappers para Python y Java*

API muy expresiva

Ver: https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD

• Aprender, prototipado rápido• Análisis interactivo sobre los datos

Consola interactiva

Plataforma Unificada

• No es necesario copiar datos/ETL entre sistemas

• Varios tipos de procesamientos en el mismo código (claridad)

• Reutilización de código (Batch & Realtime)

• Un único sistema para aprender

• Un único sistema para mantener

Big Deal para Arquitectura Lambda

Plataforma Unificada (lines of code)

Hadoop MapReduce

Storm (Streaming)

Impala (SQL) Giraph (Graph)

Spark0

20000400006000080000

100000120000140000

non-test, non-example source lines

GraphX

StreamingSparkSQL

Spark UI

Código Testeable!• El contexto puede crear RDD

Proyecto muy activo (y ganando tracción)

Proyecto MUY activo (y ganando tracción)

*as of June 1, 2014

Patches0

MapReduce StormYarn Spark

Lines Added0

Lines Removed0

Y más …• Esfuerzo para estandarización de la plataforma

• Certificación para Distros & Apps gratis

• Material de training gratis

• Databricks levantó $47M

• Databricks Cloud???

Y Hadoop?

Modelo Map-Reduce

iter. 1 iter. 2 . . .

HDFSread

HDFSwrite

HDFSread

HDFSwrite

query 1

query 2

query 3

result 1

result 2

result 3

HDFSread

Lento porque necesita replicación, serialización y I/O

iter. 1 iter. 2 . . .

Distributedmemory

query 1

query 2

query 3

one-timeprocessing

10-100× más rápido

Spark (in-memory + DAG execution engine)

Spark y Hadoop pueden ser amigos• YARN / Mesos• Acceso HDFS / S3• Usando Input/Output formats

de Hadoop

DEMOhttp://bit.ly/NardozSparkDemo

Donde aprender más?

Mucha documentación disponible

https://spark.apache.org/documentation.html

http://spark-summit.org/2014/training

http://shop.oreilly.com/product/0636920028512.do

http://arjon.es/tag/spark/

Gracias & Obrigado!

Gustavo Arjones

gustavo@socialmetrix.com@arjones

introducción a apache spark

Technology

introducciÓn a apache spark con python³n_spark.pdf · 3...

acelerando la innovación con apache...

apache spark — Егор Пахомов

apache spark - big data -...

apache spark - installation

apache spark: untersuchung der möglichkeiten zur...

#hstokyo16 apache spark crash course

event driven architecture with apache spark and spring...

apache spark 입문에서 머신러닝까지

· apache spark hortonworks data platform - operación y...

apache spark

apache spark チュートリアル

introducción a apache spark a través de un caso de uso...

apache spark overview part1 (20161107)

apache spark ile twitter’ı izlemek

apache spark : genel bir bakış

introduction to apache spark

apache spark performance observations

apache spark overview part2 (20161117)

apache spark rdd 101