big data apache spark zamena za hadoop ili ne?

Post on 29-Jul-2015

122 Views

Category:

Data & Analytics

3 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Big Data – Apache Spark zamena za Hadoop ili ne?

Darko MarjanovićFounder @Hadoop SrbijaCEO @Things Solver

darko@hadoop-srbija.comdarko@thingsolver.com

Agenda

• Big Data

• Hadoop

• Apache Spark

• Hadoop i/ili Spark

2

Big Data - Šta je to?• Big Data predstavlja podatke koji pristižu

velikom brzinom i one su količine koja prevazilazu mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima.

• Big Data je sve ono što ne može da stane u Excel.

3

Big Data - Dimenzije

4

Big Data - Izvori podataka

• Društvene mreže (Twitter, Facebook…)

• Email, HTML, Click Stream

• Slike, Video, Logovi, Senzorski podaci

• Relacione Baze podataka

5

Big Data - Izvori podataka

6http://wikibon.org/wiki/v/Big_Data_in_the_Aviation_Industry

Big Data - Neki primeri

• Google

• Facebook

• …

7

Arhitektura Big Data Aplikacije

10

Hadoop

• Hadoop Common

• HDFS

• MapReduce

• YARN

11

HDFS

12

MapReduce

13

Hadoop ekosistem• MapReduce (Java, Python, C#…)

• Pig (ETL…)

• Hive, Tajo (Hadoop DWH alat)

• Spark (10x brži MapReduce), Flink

• Storm (Streaming)

• R

• Flume, Sqoop

• …

14

Apache Spark• Apache Spark je platforma za big data

obradu, sa ugrađenim modulima za mašinsko učenje, SQL, streaming i graf obradu.

15

Apache Spark - Osnovni koncepti

• RDD (Resilient Distributed Datasets )

• Kolekcija objekta rasprostranjenih kroz klaster, u RAM-u ili na disku

• Automatski oporavak

• Praralelizam

• Operacije

• Lazy transformacije (Map, Filter, groupBy…)

• Akcije (count, collect, save…)

16

Apache Spark memorija?

• Obrada u memoriji

• Premeštanje na disk ako podaci ne mogu da stanu u memoriju

17

Razvoj Spark Aplikacija

• Java, Scala, Python

• Batch, Streaming, Interactive

• Standalone, YARN…

• Izvori podataka (HDFS, Hive, Cassandra, HBase..)

• SparkSQL, Streaming, MLib, GraphX

18

Primer: Senzorski podaci

19

Primer: Hive

20

Flink, Spark konkurencija

21

Hadoop i Spark• Hadoop HDFS skladište podataka

• Spark VS MapReduce

• Spark na YARN-u

• 2015. Hortonworks ubacio Spark u HDP

22

Da li je potreban Hadoop ako se koristi Spark?

• Ne ako se koristi u “standalone” modu

• Klaster zahteva neki “shared file system”, ne mora HDFS

23databricks.com

Hive(MapReduce) vs Spark test

• Hive = 52.54s

• Spark(Scala) = 4.1s

• Spark(Python) = 26.7s

24

Spark Prednosti• Problemi koji se rešavaju pomoću više

iteracija

• Mašinsko učenje

• Analitika u realnom vremenu

• Brži razvoj jednostavnih aplikacija

25www.techweekeurope.co.uk

Spark VS MapReduce

• Cena

• Količina podataka

• Vreme na tržištu

• Integracija sa ostalim sistemima

26

Spark zamena za Hadoop?• Hadoop VS Spark

• HDFS VS Spark

• YARN VS Spark

• MapReduce VS Spark ?

• Hadoop i Spark

27

Korisni linkovi

• hadoop-srbija.com

• hortonworks.com

• spark.apache.org

• http://goo.gl/ej5CIJ

• hadoop.apache.org

28

Big Data – Apache Spark zamena za Hadoop ili ne?

Darko MarjanovićFounder @Hadoop SrbijaCEO @Things Solver

darko@hadoop-srbija.comdarko@thingsolver.com

top related