big data: apache spark -novo pojačanje tradicionalnom bi ili ne?

Post on 07-Jan-2017

176 Views

Category:

Software

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Big Data: Apache Spark – novo pojačanje tradicionalnom BI ili ne?

Darko Marjanović

Things Solver

darko@thingsolver.com

• Big Data

• Apache Spark

• Spark i Azure

• Spark i PowerBI

Agenda

Big Data predstavlja podatke koji pristižu velikom brzinom i one su količine koja prevazilazu mogućnosti tradicionalnog softvera za skladištenje, obradu i upravljanje podacima.

Big Data je sve ono što ne može da stane u Excel.

Big Data

• Društvene mreže (Twitter, Facebook…)

• Email, HTML, Click Stream

• Slike, Video, Logovi, Senzorski podaci

• Relacione baze podataka

• Nestrukturirani (Tekst, Slike…)

• Polustrukturirani (JSON)

• Strutkturirani (Relacione baze)

Big Data

Big Data Primer

Apache Spark je platforma za big data obradu, sa ugrađenim modulima za mašinsko učenje, SQL, streaming i graf obradu.

Apache Spark

• RDD (Resilient Distributed Datasets )• Kolekcija objekta rasprostranjenih kroz klaster, u RAM-u ili na disku• Automatski oporavak• Praralelizam

• Operacije• Lazy transformacije (Map, Filter, groupBy…)• Akcije (count, collect, save…)

Apache Spark - Osnovni koncepti

• Obrada u memoriji

• Premeštanje na disk ako podaci ne mogu da stanu u memoriju

Apache Spark memorija?

• Java, Scala, Python

• Batch, Streaming, Interactive

• Standalone, YARN…

• Izvori podataka (HDFS, Hive, Cassandra, HBase..)

• SparkSQL, Streamin, MLib, GraphX

Razvoj Spark Aplikacija

• Problemi koji se rešavaju pomoću više iteracija

• Mašinsko učenje

• Analitika u realnom vremenu

• Brži razvoj jednostavnih aplikacija

Spark Prednosti

• Bazirani na Python Pandas

• Distribuirana kolekcija podataka organizovana u imenovane kolone

• Koncept iz relacionih baza podataka

• Bolja optimizacija

• Dizajnirani za velike količine podataka

• JSON, Parquet, Baze podataka…

Apache Spark – Data Frames

• SQL Like

• Python, Scala, Java

• ETL (JSON, Parquet ili bilo koja baza podataka)

• Ad-hoc upiti

• Pristup Spark podacima preko tradicionalnih BI alata kroz JDBC

Spark SQL

Spark i Azure

Spark i Azure

• Podrška

• Cena

• Administracija

• Integracija sa ostalim alatima

• Razvojno okruženje (Zeppelin i IPython)

Spark i Azure prednosti

Spark i PowerBI

Senzorski podaci

Senzorski podaci

Big Data: Apache Spark – novo pojačanje tradicionalnom BI ili ne?

Darko Marjanović

Things Solver

darko@thingsolver.com

top related