hadoop i sveprisutno racunarstvo

33
Univerzitet u Beogradu Fakultet organizacionih nauka Laboratorija za elektronsko poslovanje Hadoop i sveprisutno računarstvo Darko Marjanović Đorđe Stepanić Miloš Milovanović

Upload: darko-marjanovic

Post on 02-Jul-2015

162 views

Category:

Technology


3 download

DESCRIPTION

Hadoop je postao standard za Big Data. Sve više kompanija uviđa potrebu za obradom velikih količina podataka koji dolaze kako iz internih, tako i iz eksternih izvora. Sa razvojem sveprisutnog računarstva javlja se mogućnost i potreba da se podaci prikupljeni sa pamatnih uređaja skladište i obrade. Sa razvojem Hadoop ekosistema javila se i realna mogućnost za sinergiju Hadoop-a i Internet inteligentnih uređaja kao što su Raspberry, Arduino, Senzori… Obradom ovih podataka, kojih je sve više, poboljšava se rad samih uređaja i korisničko iskustvo. U skorije vreme prisutan je i termin Industrial Internet koji baš uz pomoć Hadoop-a dobija veliku mogućnost. U Laboratoriji za elektronsko poslovanje se trenutno testira razvoj sistema koji uključuje Hadoop, Internet inteligentne uređaje, kao i obradu podataka radi poboljšanja efikasnosti postojeće infrastrukture.

TRANSCRIPT

Page 1: Hadoop i sveprisutno racunarstvo

Univerzitet u BeograduFakultet organizacionih nauka

Laboratorija za elektronsko poslovanje

Hadoop i sveprisutnoračunarstvo

Darko Marjanović

Đorđe Stepanić

Miloš Milovanović

Page 2: Hadoop i sveprisutno racunarstvo

ELAB

• Oblasti izučavanja u Laboratoriji za elektronsko poslovanje:

– Elektronsko poslovanje

– Internet i mobilne tehnologije

– Big Data

– Cloud Computing

– E-obrazovanje

– Sveprisutno računarstvo

– Socijalne mreže

Page 3: Hadoop i sveprisutno racunarstvo

Big Data

• Big Data predstavlja podatake koji su one količine koja prevazilazi mogućnostiuobičajeno korišćenog softvera zaskladištenje, obradu i upravljanje podacima.

• Big data je sve ono što ne može da stane u Excel.

Page 4: Hadoop i sveprisutno racunarstvo

Big Data dimenzije

• Volume – velika brzina rasta novih podataka ičuvanje postojećih dovodi do toga da se sadaskladište stotine terabajta pa čak i mnogo više.

• Variety – raznolikost podataka, više nijedovoljno čuvati samo struktuirane podatke veći slike, podatke sa društvenih mreža, logove, senzorske podatke…

• Velocity – brzina kojom pristižu novi podaci je velika i veća je od brzine obrade podataka.

Page 5: Hadoop i sveprisutno racunarstvo

Hadoop

• Hadoop je open-source software framework Apache fondacije.

• Služi za skladištenje i procesiranje velikihkoličina podataka.

• Hadoop je nastao 2005. godine od straneDoug Cutting i Mike Cafarella.

• Ime je dobio po slonu igrački Cutting-ovogsina.

• Napisan je u Java programskom jeziku.

Page 6: Hadoop i sveprisutno racunarstvo

Hadoop komponente

• Hadoop Common paket

• Hadoop Distributed File System(HDFS)

• Hadoop YARN

• Hadoop Map Reduce

Page 7: Hadoop i sveprisutno racunarstvo

Hadoop Ekosistem

• Hadoop je moguće nadograditi brojnim alatimakojima sa poboljšavaju mogućnosti i efikasnostobrade podataka.

• Dele se na alate za prenošenje podataka, analizupodataka, upravljanje klasterom…

• Neki od alata koji se grade na Hadoop su:– Apache Hive– Apache Pig– Apache Flume– Apache Hue– Apache HCatalog– ……

Page 8: Hadoop i sveprisutno racunarstvo

Hadoop – Elab klaster

• Master node, Slave1 node, Slave2 node

– 27 Cores (CPU)

– 60 GB RAM

– 1TB +++

• Test klaster na privatnom Cloud-u, realizovanuz pomoć OpenStack softvera.

– 32 Cores (CPU)

– 64 GB RAM

– 2TB +++

Page 9: Hadoop i sveprisutno racunarstvo

Hadoop – Za šta se koristi

• Prikupljanje i analiza

– Moodle podaci

– Twitter podaci

– Senzorski podaci

• Integracija sa drugim servisima

– Sharepoint

• Edukativne svrhe

Page 10: Hadoop i sveprisutno racunarstvo

Projekat Slonče i Malina

• Skupljanje i analiza senzorskih podataka izpametnog okruženja.

• Poboljšanje algoritma za upravljačke akcije.

• Generisanje izveštaja radi donošenja boljihodluka.

• Praćenje u realnom vremenu.

Page 11: Hadoop i sveprisutno racunarstvo

Zašto Hadoop

• Velika brzina pristizanja novih podataka, upisivanje novih podataka na 2 do 3 sekunde.

• Raznolikost podataka, senzorski podaci.

• Velika količina podataka, mogućnost zadugotrajno skladištenje.

Page 12: Hadoop i sveprisutno racunarstvo

Početni model

Page 13: Hadoop i sveprisutno racunarstvo

Model u razvoju - Upravljačke akcije

Page 14: Hadoop i sveprisutno racunarstvo

Sveprisutno računarstvo

• Sveprisutno računarstvo (eng. Ubiquitous computing) - predstavlja novu eru u računarstvu gde se računarske tehnologije prisutne svuda oko nas i uvek dostupne

• Podrazumevaju koncept: “jedan čovek - više računara”

Page 15: Hadoop i sveprisutno racunarstvo

Internet inteligentnih uređaja

• Internet inteligentnih uređaja (eng. Internet of Things) - predstavlja mreže inteligentnih (“smart”) uređaja koji međusobno komuniciraju putem Interneta

• Inteligentni uređaji imaju sposobnost da “osećaju” (senzori) i komuniciraju (wired ili wireless mreže), a samim tim donose odluke (matematički algoritmi) i preduzimaju željene akcije (aktuatori)

Page 16: Hadoop i sveprisutno racunarstvo

IoT u pametnim okruženjima

• Velika primena IoT u automatizaciji pametnih okruženja (visoka efikasnost i finansijska opravdanost)

Page 17: Hadoop i sveprisutno racunarstvo

Raspberry Pi mikroračunar i senzorske mreže

Page 18: Hadoop i sveprisutno racunarstvo

Raspberry Pi mikroračunar i senzorske mreže

• “Moćan” mikroračunar sa sopstvenim operativnim sistemom, memorijom, priključkom za Internet, HDMI izlazom...

• Poseduje mogućnosti instaliranja Web servera, telefonske centrale, kontrole i upravljanja većim broja senzora i aktuatora (povezanih u mrežu) itd.

• Izvor (provider) velike količine senzorskih (mernih) podataka

Page 19: Hadoop i sveprisutno racunarstvo

Primer: Raspberry Pi i senzor za detekciju plamena

Page 20: Hadoop i sveprisutno racunarstvo

A sada... Slonče & Malina

Page 21: Hadoop i sveprisutno racunarstvo

Apache Flume

• Brz transfer podataka u Hadoop HDFS

• Sources – izvor podataka

• Channels – kanal prenosa podataka

• Sinks – odredište

Page 22: Hadoop i sveprisutno racunarstvo

Apache Flume

• Koristi se za najčešće za log podatke, serijalizovane podatke, podatke sa društvenihmreža…

• Namenjen je isključivo za transfer podataka, u slučaju obrade podataka prilikom transferakoristi se Apache Storm.

• Ne koristi se za struktuirane podatke, zaprenos relacione baze u HDFS se koristi Sqoop.

Page 23: Hadoop i sveprisutno racunarstvo

Apache Flume

Page 24: Hadoop i sveprisutno racunarstvo

Hive - nastanak

12m korisnika

<100GB/dan

2006

58m korisnika

1TB/dan

2007

360m korisnika

>10TB/dan

2009

FacebookMySQL, Java Derby, ScribePython skripte

Page 25: Hadoop i sveprisutno racunarstvo

Hive nastanak

• Uvođenje Hadoop-a

• Potreba za MapReduce-om

• 30PB podataka na klasteru 2011-te

• Korisnici – marketing stručnjaci

• Nedostaci – napredno poznavanje Java programskog jezika, teško čitljive šeme podataka

Page 26: Hadoop i sveprisutno racunarstvo

Šta je Hive?

• Hive – data warehousing infrastruktura za Hadoop

• HiveQL zasnovan na SQL-u

• Jednostavnije pisanje MapReduce programa

• Primena:– Analiza log podataka

– Obrada teksta

– Indeksiranje dokumenata

– Statističke analize, Business Intelligence

Page 27: Hadoop i sveprisutno racunarstvo

Hive komponente

• Shell – interakcija sa korisnikom

• Driver – upravljanje Hive engine-om

• Compiler

• Execution engine – izvršavanje

• Meta Store – šema tabela + SerDe

Page 28: Hadoop i sveprisutno racunarstvo

Hive vs OLAP

• Skaliranje i za više od 10.000 mašina u klasteru

• Obrada >1TB podataka

• Nema izmene podataka

• Male promene na podacima imaju mali značaj

Page 29: Hadoop i sveprisutno racunarstvo

Hive tipovi podataka

Primitivni

Integer-tinyint 1B

-smallint 2B

-int 4B

-bigint 8B

Boolean – True/False

Float-float

-double

String

Složeni

Structs

Maps (key-value)

Arrays

Page 30: Hadoop i sveprisutno racunarstvo

Zašto Hive?

• Laka manipulacija podataka

• Nestruktuirani podaci prikazani kao tabele

• Mogućnosti proširivanja

• Sličnost sa SQL-om

Page 31: Hadoop i sveprisutno racunarstvo

Hive Demo

Page 32: Hadoop i sveprisutno racunarstvo

Korisni linkovi

• elab.rs

• hadoop-srbija.com

• hortonworks.com

• hive.apache.org

• raspberrypi.org

• flume.apache.org

• hadoop.apache.org

Page 33: Hadoop i sveprisutno racunarstvo

Univerzitet u BeograduFakultet organizacionih nauka

Laboratorija za elektronsko poslovanje

Hadoop i sveprisutnoračunarstvo

Darko Marjanović

Đorđe Stepanić

Miloš Milovanović