seminarski rad-big data, srđan iljić 30-12 rpi
DESCRIPTION
12TRANSCRIPT
7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI
http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 1/9
Panevropski univerzitet „Apeiron“
Banja Luka
Fakultet informacionih tehnologija
Odsjek: Poslovna informatika
eminarski rad: Big !ata
Predmet: Poslovna "nteligencija
r#an "lji$% &'()*+,P" Prof- dr .ordana ,adi$
7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI
http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 2/9
Sadržaj:)- /vod.................................................................................................................. 3
*- 0a1to je va2na upotre3a Big data4..............................................................................4
&- "zvori Big data......................................................................................................5
5- Big data tehnologije...............................................................................................6
5-)- 6ap,educe................................................................................................... 7
5-*- 7adoop........................................................................................................ 7
5-&- Big ta3le....................................................................................................... 7
5-5- Apache park .................................................................................................8
8- 0aklju9ak ............................................................................................................ 8
2
7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI
http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 3/9
)- Uvod
„Big data“ je popularni termin koji se koristi da 3i se opisao eksponencijalni rast i dostupnoststruktuiranih i nestruktuiranih podataka- o3zirom da ve$i 3roj podataka dovodi do ta9nijih
analiza% „3ig data“ ima veliki zna9aj i za poslovanje i za dru1tvo% kao i sam internet-
Preciznije% odnosno ta9nije analize dovode do pouzdanijih odluka 1to mo2e zna9iti ve$u
operativnu efikasnost% smanjenje tro1kova i smanjenje rizika- ada ve$ u9estala definicija
spominje & dimenzije „Big data“:
Ilustracija 1: 3V Big Data
1. Volume ;koli9ina<
6nogi faktori doprinose pove$avanju o3ima podataka- Podaci 3azirani na transakciji
pohranjivani tokom godina- =estruktuirani podaci proizi1li iz dru1tvenih mre2a- Pove$anje
koli9ine senzora i „machine(to(machine“ podataka koji se prikupljaju- / pro1losti je postojao pro3lem skladi1tenja prekomjernog o3ima podataka- Ali sa smanjenjem tro1kova skladi1tenja
pojavljuju se druga pitanja% npr- kako odrediti relevantne u okviru velikog 3roja podataka i
kako koristiti analitiku za stvaranje vrijednosti od relevantnih podataka-
2. Velocity ;3rzina<
Podaci proti9u nevi#enom 3rzinom i moraju se 3lagovremeno o3raditi- ,F"! tagovi% senzori i
pametno mjerenje ;smart metering< dovode do potre3e da se 3ave disperzijom podataka u
3
7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI
http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 4/9
skoro realnom vremenu- 0a mnoge organizacije je izazov da reaguju dovoljno 3rzo na 3rzinu
podataka-
3. Variety ;raznovrsnost<
/ dana1nje vrijeme podaci dolaze u razli9itim formatima- truktuirani% 3roj9ani podaci u
tradicionalnim 3azama podataka- "nformacije kreirane od „line(of“ poslovnih aplikacija-
=estruktuirani tekstualni dokumenti% e(mail% video% audio% podaci o dionicama i finansijske
transakcije- /pravljanje% spajanje i ure#ivanje razli9itih vrsta podataka je ne1to sa 9ime se
mnoge organizacije jo1 uvijek 3ore-
6e#utim% neki uzimaju u o3zir jo1 dvije vrste dimenzija:
4. Variability ;promjenljivost<
o3zirom na pove$anje 3rzine i raznovrsnosti podataka% njihovi tokovi mogu 3iti u
nedoslijednosti sa periodi9nim rastom - !nevni% sezonski i event(triggered nagli porast
protoka podataka mo2 3iti izazovni za upravljanje- >ak i vi1e ukoliko su nestrukutirani podaci
uklju9eni-
5. Complexity ;slo2enost<
/ dana1nje vrijeme podaci dolaze iz raznovrsnih izvora- ?o1 uvijek je veliki poduhvat
povezati% o9istiti i transformisati podatke kroz sistem- 6e#utim% neophodno je da se podaci
pove2u% da se hijerarhijski poredaju ili se mogu na$i van kontrole-
*- Zato je važ!a upotreba "i# data$
Osnovno pitanje nije do3ijanje velike koli9ine podataka% ve$ upotre3a podataka koji su
ura9unati- O3e$avaju$a vizija je da $e organizacije mo$i uzimati podatke iz 3ilo kojeg izvora%
prikupiti relevantne podatke i analizirati ih da 3i se prona1li odgovori koji omogu$avaju
smanjenje tro1kova% smanjivanje vremena% razvoj novih proizvoda i optimiziranje ponuda% kao
4
7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI
http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 5/9
i pametnija odlu9ivanja u toku poslovanja- =a primjer% kom3inovanjem „Big data“ i „high(
po@ered“ analitika% mogu$e je:
(/tvrditi uzroke neuspjeha% pro3leme i nedostatke u naj3r2em mogu$em periodu% te tako
potencijalno sa9uvati milione godi1nje(Optimizovati rute za hiljade dostavlja9kih vozila dok su jo1 na putu
(Proizvesti maloprodajne kupone na mjestu prodaje na osnovu pro1lih i sada1njih kupovinakupca
(Poslati prilago#ene preporuke na mo3ilne ure#aje dok su kupci na pravom mjestu daiskoriste prednosti te ponude
(Prera9unati kompletan rizik portofolija u nekoliko minuta
(Brzo identifikovati najva2nije kupce
(oristiti „clickstream“ analizu i „data mining“ za otkrivanje prevara-
Ilustracija 2: Proces analize Big Data
&- %&vori "i# data
"zvori „Big data“ se svake godine pove$avaju% ali uglavnom spadaju u jednu od tri grupe:
5
7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI
http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 6/9
(Streami!# data' 1to uklju9uje podatke koji dolaze do "C sistema sa mre2e ili povezanih
ure#aja- Organizacija mo2e da analizira ove podatke 9im stignu i mo2e donositi odluke o tome
koje podatke da zadr2i% koje ne% te 1ta zahtijeva dalje analize-
((odaci )a drutve!i* mreža' koji predstavljaju sve atraktivniji izvor informacija% naro9itoza marketing% prodaju i funkcije podr1ke- Ovi podaci su 9esto u nestruktuiranim ili
polustruktuiranim o3licima% tako da i pored tolikog o3ima podataka analiza i kori1tenje
informacija predstavlja jedinstven izazov-
(+av!o do)tup!i i&vori' kao 1to su D"A Eorld Fact3ook% ili Portal otvorenih podataka
vropske /nije ;uropean /nion Open !ata Portal< predstavljaju izvor ogromne koli9ine
podataka-
Ilustracija 3: Količina podataka koja cirkuliše na internetu
5- "i# data te*!olo#ije
Organizacijama je omogu$eno da koriste veliku koli9inu podataka zahvaljuju$i velikom 3roju
tehnolo1kih dostignu$a- „Big data“ tehnologije% pored toga 1to prikupljaju veliku koli9inu
podataka% omogu$avaju izvla9enje vrijednosti tih podataka kao i njihovo 3olje razumijevanje-
Bilo je neophodno prona$i tehnologije koje $e imati sposo3nost da efiksno o3rade velike
6
7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI
http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 7/9
koli9ine podataka% a da to ne zahtijeva velike tro1kove- Prvi koji su do1li do rje1enja i
napravili pro3oj u tehnologiji „Big data“ su GahooH% .oogle i Face3ook i donijeli su promjene
na tr2i1tu upravljanja podacima- Pojavila se nova generacija u upravljanju podacima kojoj su
doprinijele 6ap,educe% 7adoop% Big Ca3le i Apache park tehnologije-
4.1. ,ap-educe
6ap,educe predstavlja efikasno rje1enje za veliku koli9inu podataka pomo$u distri3uiranih%
paralelnih algoritama u klasteru- „6ap“ rukovodi programerskim zadacima tako 1to ih
3alansirano raspore#uje i oporavlja od eventualnih gre1aka% dok „reduce“ predstavlja funkciju
koja spaja sve elemente nazad zajedno- Ove dvije funkcije se 9esto koriste u funkcionalnom
programiranju% me#utim njihova uloga u 6ap,educe sistemu nije ista kao ina9e- „6ap“ vr1isortiranje i filtriranje podataka% a „reduce“ vr1i agregaciju- "me „6ap,educe“ je prvo3itno
3ilo u vlasni1tvu .oogle tehnologije% ali se od tada generalizovalo-
4.2. adoop
Cehnologija koja se naj9e1$e vezuje za Big data jeste 7adoop- =astala je *''8- .odine i
dizajnirana je tako da radi na jeftinijim hardverskim resursima% kao 1to je „commoditI
hardver“- lu2i za skladi1tenje i procesiranje velike koli9ine podataka i sastoji se iz 9etiri
dijela:
(7adoop common(niz 3i3lioteka i konfiguracionih fajlova%
(7!F(fajl sistem koji je zadu2en za skladi1tenje podataka u klasteru%
(6ap,educe(model za procesiranje podataka
(Garn(zadu2en za raspodjelu resursa i upravljanje poslovima
Osim ove 9etiri komponente 7adoop se oslanja na specijalizovane alate za prikupljanje
podataka ;Flume% afka% Joop<% procesiranje podataka ;Pig% 7ive% tormK<% upravljanje
;Am3ari% FalconK<-
4.3. "i# table
Big ta3le je rje1enje koje je predvi#eno da upravlja skala3ilnim struktuiranim podacima koji
su organizovani u ta3ele- Predstavlja vi1edimenzionalnu mapu koja slu2i za mapiranje dva
7
7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI
http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 8/9
proizvoljna stringa i vremenski trenutak u vezani niz 3itova- =amjenjen je za 9uvanje velike
koli9ine podataka na o3i9nim serverima- Big Ca3le je predvi#en za rad na preko stotinu
hiljada ma1ina- Omogu$ava jednostavno dodavanje novih ma1ina u sistem i njihovo
momentalno uklju9enje u rad na na9in koji ne zahteva nikakvo ponovno konfigurisanje ili
prekid u radu sistema- ; ovu re9enicu sam kopirala% dakle nisam je mjenjala% pa ti vidi da
nekako izmjeni1<
4.4. /pac*e Spar0
Apache park je platforma za o3radu podataka% sa dodatnim modulima za ma1insko u9enje%
streaming i grafi9ku o3radu- O3radu vr1i u radnoj memoriji% 1to zna9i da je jako 3rz- /koliko
podatci ne mogu da stanu u memoriju% Apache park ih premje1ta na disk% 1to dovodi do 3r2e
o3rade nego da je samo na disku-
oncept Apache park(a je ,!! ;,esilient !istri3uted !atasets< ( kolekcija o3jekata
rasprostranjenih kroz klaster ,A6(u ili na disku% za koje je karakteristi9an paralelizam i
automatski oporavak- PIthon% cala% ?ava i od skoro , su jezici u kojima mogu da se pi1u
park programi-
8- Za0ljua0
,azvojem glo3alne internetske mre2e sve je lak1e dijeliti i sakupljati ogromne koli9ine
podataka- a sve mo$nijim i 3r2im alatima analiti9ari poku1avaju da idu u korak sa
svakodnevnim pove$anjem koli9ine sirovih podataka i da ih efikasno o3rade i primjene- Big
data do3ija svoj puni poitencijal tek kada se pravilno o3radi i iskoristi-
8
7/17/2019 Seminarski Rad-Big Data, Srđan Iljić 30-12 RPI
http://slidepdf.com/reader/full/seminarski-rad-big-data-srdan-iljic-30-12-rpi 9/9
9