data lake - mainstream · raspoloživih podataka zapravo naprave smislenu sliku. prebacivanje i...

10
Data Lake Premium dokument May 2019

Upload: others

Post on 08-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Lake - Mainstream · raspoloživih podataka zapravo naprave smislenu sliku. Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju

Data LakePremium dokument

May 2019

Page 2: Data Lake - Mainstream · raspoloživih podataka zapravo naprave smislenu sliku. Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju

1

Zašto je cloud pravo rešenje za vaš Data Lake

Različiti Big Data koncepti i konstantne inovacije na globalnom tržištu čine da tehnologije brzo zastarevaju, ali danas više nego ikada pre - informacija postaje neprocenjiva. Zahvaljujući ogromnim količinama podataka koje skupljaju i analiziraju, kompanije dobijaju šansu da se istaknu u moru sličnih brendova.

Srbija uobičajeno kasni za svetskim trendovima, ali domaće kompanije postepeno uviđaju da se u podacima nalazi moć, da oni nose vrednost za poslovanje u 21. veku, te da im mogu biti od velike pomoći za dostizanje konkurentnosti i donošenje strateški pametnih, informisanih odluka.

Srpski preduzetnici postaju sve otvoreniji na putu digitalne transformacije i voljni su da saslušaju IT stručnjake i konsultuju se sa njima u pogledu najbolje opcije za njihov konkretan slučaj. Cloud tehnologija se pokazala kao veoma uspešnim rešenjem i suštinski komplementarnim elementom sistemu za skladištenje podataka po imenu Data Lake, a evo i kako.

Mainstream Data Lake

Page 3: Data Lake - Mainstream · raspoloživih podataka zapravo naprave smislenu sliku. Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju

Šta je zapravo Data Lake

Data Lake nije napredna niti poboljšana verzija tradicionalnih sistema za skladištenje podataka (što bi bili tzv. Data Warehouses i Data Marts) već je drugačiji sistem koji ima svojih prednosti i praktičnu primenu. Data Lake čuva podatke na jedan nestruktuiran način, bez utvrđene hijerarhije podataka ili bilo kakve organizacije i kategorizacije podataka. Dakle, podaci se nalaze u svojoj “sirovoj” formi, nisu obrađeni, nisu tipološki jednaki i dolaze od najrazličitijih izvora.

Suprotno tome, Data Warehouses skladište podatke koji jesu kategorizovani i organizovani na definisan način. Kada se

implementira Data Warehouse, veliki deo vremena u prvoj fazi procesa odlazi na analizu izvora podataka i svrhe njihovog čuvanja, kao i na razumevanje poslovnih procesa koji su sa njima povezani. Tek nakon toga se podaci zapravo stavljaju u skladište.

Veruje se da je termin Data Lake osmislio Džejms Dikson, generalni tehnički direktor softverske kompanije Pentaho. Prema Diksonu, Data Lake možemo zamisliti kao veliku količinu vode podataka, u njihovom prirodnom stanju. Podaci sa najrazličitijih izvora dolaze u potocima do jezera (tj. Data Lake-a), a različiti korisnici mogu da mu pristupe, prouče podatke koji ih interesuju, analiziraju ih ili uzmu uzorke koje smatraju korisnima.

2Mainstream Data Lake

Upravljanje podacima

Privatnost podataka

Stalna dostupnost podataka

Sigurnost podataka

Različiti servisi koji pristupaju podacima na različite načine

Da se napraviadekvatan TCO i business case za

investicije

Raštrkani izvori podataka na različitim sistemima i bazama

Odgovarajući backup i DR

Čuvanje podataka na odgovarajući

način

Izazovi sa kojima se kompanije susreću pri upravljanju podacima

Data lake može da podrži različite oblike podataka: •Strukturirane podatke - iz relacijskih baza podataka (redove i kolone) •Polustrukturirane podatke - CSV, logove, KSML, JSON itd. •Nestrukturirane podatke - e-poštu, dokumente, itd. •Binarne podatke - slike, audio, video itd.

Page 4: Data Lake - Mainstream · raspoloživih podataka zapravo naprave smislenu sliku. Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju

Prednosti Data Lake-a

3

Centralizacija• Svi podaci se nalaze

na jednom mestu, bez obzira na njihovo poreklo

Raspoloživost• Korisnici iz različitih

poslovnih sektora mogu da pristupe podacima i koriste ih za svoje potrebe

Agilnost• Odlična fleksibilnost

i brzina pristupa podacima, kao i brža implementacija promena, ukoliko je to potrebno

Mainstream Data Lake

Primena Data Lake-a

Jedna od najčešćih primena jeste detekcija anomalija (anomaly detection) gde je na osnovu korelacije između više različitih parametara moguće predvideti kada će neki element poslovanja da otkaže.

Mainstream nudi i tumačenje podataka u sklopu svojih usluga i mapiranje neuobičajenih odskakanja od normalnog ritma poslovanja, kao i jasno utvrđivanje da li se uopšte radi o anomaliji ili ne. Kompanijama koje koriste usluge provajdera je ovo važno kako bi se pravilno pripremile za mogući period poslovanja sa smanjenim kapacitetima ili kako bi na vreme predvidele i sprečile neželjene posledice.

Sumirano, postoje tri ključne prednosti Data Lake sistema.

Page 5: Data Lake - Mainstream · raspoloživih podataka zapravo naprave smislenu sliku. Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju

4Mainstream Data Lake

Informacije tog tipa su značajne naročito u kontekstu e-commerce poslovanja. Na tržištu postoje različiti alati za monitoring koji prikupljaju niz parametara, omogućujući naprednim algoritmima da analiziraju trendove i predvide npr. da li postoji rizik da izvesna mušterija okrene leđa jednom brendu i ode kod konkurencije (tzv. churn prediction). U kontekstu makretinške automatizacije, postoje alati koji odmah nakon mapiranja ovakvih rizika “trigeruju” određene aktivnosti koje su u funkciji vraćanja mušterije nazad brendu, tj. ponovnom uspostavljanju lojalnosti i zadržavanju mušterije u okviru prodajnog levka.

Pored praćenja interakcija koje mušterije imaju sa brendom, Data Lake omogućava i potrebne podatke za različita interna istraživanja, testiranja proizvoda pre ulaska na tržište, kao i za eliminaciju problema u okviru operativnih i poslovnih procedura. S obzirom da analitičari imaju posla sa “sirovim” podacima, imaju mogućnost da brzo i ad hoc izvrše trenutno testiranje svojih hipoteza, čak i bez eksportovanja podataka.

Page 6: Data Lake - Mainstream · raspoloživih podataka zapravo naprave smislenu sliku. Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju

Primera radi, Mainstream infrastruktura podržava klijente koji se opredele za Data Lake, oslanjajući se prvenstveno na tehnologije poput Kafke, Sparka, Kasandre.

5 Mainstream Data Lake

Kako su cloud tehnologija i Data Lake komplementarni

Velike korporacije se uglavnom okreću private cloud-u jer se u ovakvom sistemu osećaju sigurnije, iako je moguće i public cloud osigurati dovoljno dobro. Međutim, s druge strane - i dalje postoji verovanje da je dedicated hardware nešto što im je potrebno, tj. postoji strah da neko treće lice koje se nađe u ulozi provajdera neće dati dovoljno resursa ili da neće pružiti kvalitetnu korisničku podršku. Vodeći se željom da imaju maksimalnu kontrolu nad bezbednošću sistema “pod svojim krovom”, kompanije odbacuju velike benefite cloud-a i opredeljuju se za on-premise infrastrukture.

Ipak, u pitanju je jedna od uobičajenih zabluda o cloud-u i managed servisima.

Istraživanje ESG-a iz 2017. godine utvrdilo je da između 35% i 45% kompanija aktivno razmatraju cloud kao okruženje koje im omogućava bezbedno skladištenje baza podataka, ali i funkcionalnosti poput Hadoop-a i Sparka ili analitičkih aplikacija.

Page 7: Data Lake - Mainstream · raspoloživih podataka zapravo naprave smislenu sliku. Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju

6

U zavisnosti od potreba, kompanije se mogu opredeliti za public, private ili hybrid cloud.

Private cloud podrazumeva da cloud okruženje koristi samo jedna organizacija, te da infrastrukturi samo ona može i da pristupi. Upravo zbog toga, private cloud smatra se najmanje ranjivom vrstom cloud okruženja. S druge strane, public cloud podrazumeva

da je okruženje javno dostupno svim korisnicima. Virtualizacija se tipično koristi u ovakvom sistemu. Hybrid cloud podrazumeva kombinaciju private i public cloud-a, gde se najosetljiviji podaci od poverenja čuvaju u okviru private cloud-a, a oni koji nisu ključni za kontinuitet poslovanja u slučaju IT katastrofe - skladište se u okviru public cloud-a.

Odlična bezbednost: provajder cloud usluga koristi svoju visoku ekspertizu i brine se o sistemu, omogućujući vam da se bezbrižno posvetite drugim segmentima poslovanja

Cloud je poznat po sjajnim performansama i skalabilnosti: za razliku od on-premise infrastrukture, u cloud-u nemate problema sa dimenzionisanjem sistema; imate beskonačne resurse na raspolaganju i fleksibilnost, što vam daje mogućnost kasnije optimizacije resursa

Pouzdanost i stalna dostupnost: pristup podacima je osiguran, u bilo koje doba i sa bilo koje lokacije

Ekonomičnost: zahvaljujući pay-as-you-go sistemu, nikada nećete platiti više od onoga što zaista i potrošite, što znači da vaša kompanija ima zdravo okruženje za rast

Integracije i agilnost: cloud okruženje podržava niz integracija koje mogu pomoći u procesu pospešivanja poslovanja, a pritom vam omogućava laku i brzu manipulaciju podacima

Istina je da koncept Data Lake-a funkcioniše najbolje u cloud okruženju, a evo i zašto:

Mainstream Data Lake

Page 8: Data Lake - Mainstream · raspoloživih podataka zapravo naprave smislenu sliku. Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju

Mainstream kao pouzdan partner

Mainstream je prepoznat kao pouzdan stručni partner i pionir ovih prostora u Data Lake oblasti. Kao nov koncept i poseban sistem skladištenja, Data Lake krije ogroman poslovni potencijal. U pogledu inovativnosti, može se reći da je Data Lake danas ono što je cloud bio pre desetak godina.

Prilikom prvog kontakta sa klijentom, Mainstream tim radi detaljan intervju kako bi uvideo kakve ideje i razmišljanja klijent ima, te šta želi da postigne formiranjem Data Lake-a. U prvi deo procesa uključeni su data analyst i data science stručnjaci koji od raspoloživih podataka zapravo naprave smislenu sliku.

Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju željeni business intelligence alati ili alati za sistematizaciju koji se zasnivaju na složenim algoritmima. Zahvaljujući radu ovih algoritama, od sirovih podataka izvlače se realni zaključci koji kompanijama mogu pomoći da se u budućnosti donose prave strateške poslovne odluke.

7

Data Lake projekti na kojima radi Mainstream

IoT cloud platforma za povezivanje različitih uređaja i predikciju njihovog rada

Tehnologija prepoznavanja lica za izradu CRM & loyalty programa

Automatizacija davanja predloga za kupovinu proizvoda na e-commerce platformi

Predviđanje i analiza kretanje korisnika u šoping centrima

Predviđanje iskorišćenosti IT infrastrukture sa predlozima za inteligentno upravljanje

Mainstream Data Lake

Page 9: Data Lake - Mainstream · raspoloživih podataka zapravo naprave smislenu sliku. Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju

8Mainstream Data Lake

Naravno, sve ovo ne bi bilo moguće bez velike količine podataka koje Data Lake skladišti, a kao što smo objasnili - cloud tehnologija pruža odlično okruženje, prvenstveno zbog svoje skalabilnosti, kao i sigurnosti i fleksibilnosti koju nudi.

Ali, da li je Data Lake potreban vašoj kompaniji? Ukoliko ste primetili da se vaš tehnički tim žali da gubi previše vremena na prikupljanje i analizu podataka, to je dobar znak da je vreme za promenu. Isto važi i ukoliko ste u fazi rasta i želite da nadmašite konkurenciju. Takođe, Data Lake koncept i cloud vam omogućuju da centralizujete sve svoje podatke, što obezbeđuje jednostavniji pristup bazi podataka i njihovu lakšu obradu.

Spremni ste da istražite šta prelazak na Data Lake može da donese Vašoj kompaniji?

Kontaktirajte Aleksandra Nedeljkovićaza konsultacije i pridružite se uspešnim biznisima 21. veka!

Page 10: Data Lake - Mainstream · raspoloživih podataka zapravo naprave smislenu sliku. Prebacivanje i transformacija podataka u Data Lake je sledeća faza, a potom se nad Data Lake-om uspostavljaju

Mainstream d.o.o.Studentski trg 4Beograd, Srbija

[email protected]+381 11 4409420

Aleksandar NedeljkovićChief Business [email protected]+381 69 2048010

Milica ŠaulićData Analytics [email protected]+381 69 2048880