arhitektura big data aplikacije (tarabica)

26

Upload: darko-marjanovic

Post on 19-Jul-2015

89 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Arhitektura Big Data aplikacije

Darko Marjanović

Hadoop Srbija

[email protected]

Agenda

• Big Data

• Arhitektura Big Data aplikacije

• Big Data alati

• Primeri: Twitter, IoT

• Integracija Big Data aplikacije

Big Data - Šta je to?

• Big Data predstavlja podatke koji pristižu velikom

brzinom i one su količine koja prevazilazu

mogućnosti tradicionalnog softvera za skladištenje,

obradu i upravljanje podacima.

• Big Data je sve ono što ne može da stane u Excel.

Big Data - Dimenzije

Kompleksnost

podataka

Količina

(Volume)

Brzina

(Velocity)

Kvalitet

(Veracity)

Raznovrsnost

(Variety)

Big Data - Izvori podataka

• Društvene mreže (Twitter, Facebook…)

• Email, HTML, Click Stream

• Slike, Video, Logovi, Senzorski podaci

• Relacione Baze podataka

Slika: RapidMiner.com

Big Data - Izvori podataka

Slika: http://wikibon.org/wiki/v/Big_Data_in_the_Aviation_Industry

Big Data - Neki primeri

• Pivo i pelene

• Pekara koja prodaje više integralnih peciva ako

pada kiša

• Walmart, trudna ćerka

Slika: http://www.mckinsey.com/insights/business_technology/big_data_whats_your_plan

Arhitektura Big Data Aplikacije

Big Data Aplikacija - Cloud

VS Bare Metal

• Cena

• Fleksibilnost

• Administracija

• Performanse

• Kontrola

Big Data alati - Ingestion

• Unos podataka u storage sloj

• Unošenje samo validnih podataka

• Unos podataka u realnom vremenu ili ne

• Korišćenje gotovih alata

Big Data alati - Ingestion

• Sqoop

• Flume

• Kafka

• Storm

Big Data alati - Storage

• Hadoop HDFS - velika brzina upisa, write once read

many…

• NoSQL Baza - brzo čitanje, operativna baza…

Hadoop

• Hadoop Common

• HDFS

• MapReduce

• YARN

Big Data alati - Analytics

• MapReduce (Java, Python, C#…)

• Pig (ETL…)

• Hive, Tajo (Hadoop DWH alat)

• Spark (10x brži MapReduce)

• Storm (Streaming)

• R

• Flink

Pig Primer

Hive Primer

Big Data greške!

• Korišćenje operativne baze (npr. Mongo) kao Big

Data platforme.

• Prebacivanje relacionih baza u Hadoop za potrebe

obrade Hive-om (Hadoop nije zamena za RDBMS).

• Parčanje podataka u više “Data Lake”-ova.

• SQL orijentacija (Big Data analiza je moćnija ako se

kombinuje više alata, Hive(SQL), R, Pig,

MapReduce…)

Obrada Twitter podataka

Big Data i IoT

Integracija sa MS servisima

HDinsight i Visual Studio

http://blogs.msdn.com/b/visualstudio/archive/2014/12/15/incorporate-big-data-within-your-visual-studio-app-using-azure-hdinsight.aspx

Korisni linkovi

• hadoop-srbija.com

• hortonworks.com

• azure.microsoft.com/en-

us/documentation/services/hdinsight/

• cloudera.com

• blogs.msdn.com

Popunite anketu

Arhitektura Big Data aplikacije

Darko Marjanović

Hadoop Srbija

[email protected]