seminarski rad-big data, srđan iljić 30-12 rpi

9
Panevropski univerzitet „Apeiron“ Banja Luka Fakultet informacionih tehnologija Odsjek: Poslovna informatika eminarski rad: Big !ata Predmet: Poslovna "nteligencija r#an "lji$% &'()*+,P" Prof- dr .ordana ,adi$

Upload: violeta-petkovic

Post on 06-Jan-2016

148 views

Category:

Documents


17 download

DESCRIPTION

12

TRANSCRIPT

Page 1: Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 1/9

Panevropski univerzitet „Apeiron“

Banja Luka

Fakultet informacionih tehnologija

Odsjek: Poslovna informatika

eminarski rad: Big !ata

Predmet: Poslovna "nteligencija

r#an "lji$% &'()*+,P" Prof- dr .ordana ,adi$

Page 2: Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 2/9

Sadržaj:)- /vod.................................................................................................................. 3

*- 0a1to je va2na upotre3a Big data4..............................................................................4

&- "zvori Big data......................................................................................................5

5- Big data tehnologije...............................................................................................6

5-)- 6ap,educe................................................................................................... 7

5-*- 7adoop........................................................................................................ 7

5-&- Big ta3le....................................................................................................... 7

5-5- Apache park  .................................................................................................8

8- 0aklju9ak  ............................................................................................................ 8

2

Page 3: Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 3/9

)- Uvod

„Big data“ je popularni termin koji se koristi da 3i se opisao eksponencijalni rast i dostupnoststruktuiranih i nestruktuiranih podataka- o3zirom da ve$i 3roj podataka dovodi do ta9nijih

analiza% „3ig data“ ima veliki zna9aj i za poslovanje i za dru1tvo% kao i sam internet-

Preciznije% odnosno ta9nije analize dovode do pouzdanijih odluka 1to mo2e zna9iti ve$u

operativnu efikasnost% smanjenje tro1kova i smanjenje rizika- ada ve$ u9estala definicija

spominje & dimenzije „Big data“:

Ilustracija 1: 3V Big Data

1. Volume ;koli9ina<

6nogi faktori doprinose pove$avanju o3ima podataka- Podaci 3azirani na transakciji

 pohranjivani tokom godina- =estruktuirani podaci proizi1li iz dru1tvenih mre2a- Pove$anje

koli9ine senzora i „machine(to(machine“ podataka koji se prikupljaju- / pro1losti je postojao pro3lem skladi1tenja prekomjernog o3ima podataka- Ali sa smanjenjem tro1kova skladi1tenja

 pojavljuju se druga pitanja% npr- kako odrediti relevantne u okviru velikog 3roja podataka i

kako koristiti analitiku za stvaranje vrijednosti od relevantnih podataka-

2. Velocity ;3rzina<

Podaci proti9u nevi#enom 3rzinom i moraju se 3lagovremeno o3raditi- ,F"! tagovi% senzori i

 pametno mjerenje ;smart metering< dovode do potre3e da se 3ave disperzijom podataka u

3

Page 4: Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 4/9

skoro realnom vremenu- 0a mnoge organizacije je izazov da reaguju dovoljno 3rzo na 3rzinu

 podataka-

3. Variety ;raznovrsnost<

/ dana1nje vrijeme podaci dolaze u razli9itim formatima- truktuirani% 3roj9ani podaci u

tradicionalnim 3azama podataka- "nformacije kreirane od „line(of“ poslovnih aplikacija-

 =estruktuirani tekstualni dokumenti% e(mail% video% audio% podaci o dionicama i finansijske

transakcije- /pravljanje% spajanje i ure#ivanje razli9itih vrsta podataka je ne1to sa 9ime se

mnoge organizacije jo1 uvijek 3ore-

6e#utim% neki uzimaju u o3zir jo1 dvije vrste dimenzija:

4. Variability ;promjenljivost<

o3zirom na pove$anje 3rzine i raznovrsnosti podataka% njihovi tokovi mogu 3iti u

nedoslijednosti sa periodi9nim rastom - !nevni% sezonski i event(triggered nagli porast

 protoka podataka mo2 3iti izazovni za upravljanje- >ak i vi1e ukoliko su nestrukutirani podaci

uklju9eni-

5. Complexity ;slo2enost<

/ dana1nje vrijeme podaci dolaze iz raznovrsnih izvora- ?o1 uvijek je veliki poduhvat

 povezati% o9istiti i transformisati podatke kroz sistem- 6e#utim% neophodno je da se podaci

 pove2u% da se hijerarhijski poredaju ili se mogu na$i van kontrole-

*- Zato je važ!a upotreba "i# data$

Osnovno pitanje nije do3ijanje velike koli9ine podataka% ve$ upotre3a podataka koji su

ura9unati- O3e$avaju$a vizija je da $e organizacije mo$i uzimati podatke iz 3ilo kojeg izvora%

 prikupiti relevantne podatke i analizirati ih da 3i se prona1li odgovori koji omogu$avaju

smanjenje tro1kova% smanjivanje vremena% razvoj novih proizvoda i optimiziranje ponuda% kao

4

Page 5: Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 5/9

i pametnija odlu9ivanja u toku poslovanja- =a primjer% kom3inovanjem „Big data“ i „high(

 po@ered“ analitika% mogu$e je:

(/tvrditi uzroke neuspjeha% pro3leme i nedostatke u naj3r2em mogu$em periodu% te tako

 potencijalno sa9uvati milione godi1nje(Optimizovati rute za hiljade dostavlja9kih vozila dok su jo1 na putu

(Proizvesti maloprodajne kupone na mjestu prodaje na osnovu pro1lih i sada1njih kupovinakupca

(Poslati prilago#ene preporuke na mo3ilne ure#aje dok su kupci na pravom mjestu daiskoriste prednosti te ponude

(Prera9unati kompletan rizik portofolija u nekoliko minuta

(Brzo identifikovati najva2nije kupce

(oristiti „clickstream“ analizu i „data mining“ za otkrivanje prevara-

Ilustracija 2: Proces analize Big Data

&- %&vori "i# data

"zvori „Big data“ se svake godine pove$avaju% ali uglavnom spadaju u jednu od tri grupe:

5

Page 6: Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 6/9

(Streami!# data' 1to uklju9uje podatke koji dolaze do "C sistema sa mre2e ili povezanih

ure#aja- Organizacija mo2e da analizira ove podatke 9im stignu i mo2e donositi odluke o tome

koje podatke da zadr2i% koje ne% te 1ta zahtijeva dalje analize-

((odaci )a drutve!i* mreža' koji predstavljaju sve atraktivniji izvor informacija% naro9itoza marketing% prodaju i funkcije podr1ke- Ovi podaci su 9esto u nestruktuiranim ili

 polustruktuiranim o3licima% tako da i pored tolikog o3ima podataka analiza i kori1tenje

informacija predstavlja jedinstven izazov-

(+av!o do)tup!i i&vori' kao 1to su D"A Eorld Fact3ook% ili Portal otvorenih podataka

vropske /nije ;uropean /nion Open !ata Portal< predstavljaju izvor ogromne koli9ine

 podataka-

Ilustracija 3: Količina podataka koja cirkuliše na internetu

5- "i# data te*!olo#ije

Organizacijama je omogu$eno da koriste veliku koli9inu podataka zahvaljuju$i velikom 3roju

tehnolo1kih dostignu$a- „Big data“ tehnologije% pored toga 1to prikupljaju veliku koli9inu

 podataka% omogu$avaju izvla9enje vrijednosti tih podataka kao i njihovo 3olje razumijevanje-

Bilo je neophodno prona$i tehnologije koje $e imati sposo3nost da efiksno o3rade velike

6

Page 7: Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 7/9

koli9ine podataka% a da to ne zahtijeva velike tro1kove- Prvi koji su do1li do rje1enja i

napravili pro3oj u tehnologiji „Big data“ su GahooH% .oogle i Face3ook i donijeli su promjene

na tr2i1tu upravljanja podacima- Pojavila se nova generacija u upravljanju podacima kojoj su

doprinijele 6ap,educe% 7adoop% Big Ca3le i Apache park tehnologije-

4.1. ,ap-educe

6ap,educe predstavlja efikasno rje1enje za veliku koli9inu podataka pomo$u distri3uiranih%

 paralelnih algoritama u klasteru- „6ap“ rukovodi programerskim zadacima tako 1to ih

 3alansirano raspore#uje i oporavlja od eventualnih gre1aka% dok „reduce“ predstavlja funkciju

koja spaja sve elemente nazad zajedno- Ove dvije funkcije se 9esto koriste u funkcionalnom

 programiranju% me#utim njihova uloga u 6ap,educe sistemu nije ista kao ina9e- „6ap“ vr1isortiranje i filtriranje podataka% a „reduce“ vr1i agregaciju- "me „6ap,educe“ je prvo3itno

 3ilo u vlasni1tvu .oogle tehnologije% ali se od tada generalizovalo-

4.2. adoop

Cehnologija koja se naj9e1$e vezuje za Big data jeste 7adoop- =astala je *''8- .odine i

dizajnirana je tako da radi na jeftinijim hardverskim resursima% kao 1to je „commoditI

hardver“- lu2i za skladi1tenje i procesiranje velike koli9ine podataka i sastoji se iz 9etiri

dijela:

(7adoop common(niz 3i3lioteka i konfiguracionih fajlova%

(7!F(fajl sistem koji je zadu2en za skladi1tenje podataka u klasteru%

(6ap,educe(model za procesiranje podataka

(Garn(zadu2en za raspodjelu resursa i upravljanje poslovima

Osim ove 9etiri komponente 7adoop se oslanja na specijalizovane alate za prikupljanje

 podataka ;Flume% afka% Joop<% procesiranje podataka ;Pig% 7ive% tormK<% upravljanje

;Am3ari% FalconK<-

4.3. "i# table

Big ta3le je rje1enje koje je predvi#eno da upravlja skala3ilnim struktuiranim podacima koji

su organizovani u ta3ele- Predstavlja vi1edimenzionalnu mapu koja slu2i za mapiranje dva

7

Page 8: Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 8/9

 proizvoljna stringa i vremenski trenutak u vezani niz 3itova- =amjenjen je za 9uvanje velike

koli9ine podataka na o3i9nim serverima- Big Ca3le je predvi#en za rad na preko stotinu

hiljada ma1ina- Omogu$ava jednostavno dodavanje novih ma1ina u sistem i njihovo

momentalno uklju9enje u rad na na9in koji ne zahteva nikakvo ponovno konfigurisanje ili

 prekid u radu sistema- ; ovu re9enicu sam kopirala% dakle nisam je mjenjala% pa ti vidi da

nekako izmjeni1<

4.4. /pac*e Spar0  

Apache park je platforma za o3radu podataka% sa dodatnim modulima za ma1insko u9enje%

streaming i grafi9ku o3radu- O3radu vr1i u radnoj memoriji% 1to zna9i da je jako 3rz- /koliko

 podatci ne mogu da stanu u memoriju% Apache park ih premje1ta na disk% 1to dovodi do 3r2e

o3rade nego da je samo na disku-

oncept Apache park(a je ,!! ;,esilient !istri3uted !atasets< ( kolekcija o3jekata

rasprostranjenih kroz klaster ,A6(u ili na disku% za koje je karakteristi9an paralelizam i

automatski oporavak- PIthon% cala% ?ava i od skoro , su jezici u kojima mogu da se pi1u

park programi-

8- Za0ljua0 

,azvojem glo3alne internetske mre2e sve je lak1e dijeliti i sakupljati ogromne koli9ine

 podataka- a sve mo$nijim i 3r2im alatima analiti9ari poku1avaju da idu u korak sa

svakodnevnim pove$anjem koli9ine sirovih podataka i da ih efikasno o3rade i primjene- Big

data do3ija svoj puni poitencijal tek kada se pravilno o3radi i iskoristi-

8

Page 9: Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI

http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 9/9

9