prof. dr. velimir srića otkrivanje... · konzultacije: ponedjeljak 11:45-12:15 ponedjeljak...
TRANSCRIPT
POSLOVNI INFORMACIJSKI SUSTAVI
Otkrivanje znanja iz podataka
Katedra za informatiku
Ekonomski fakultet - Zagreb
Prof. dr. Velimir Srića
Prof. dr. sc. Velimir Srića
kabinet A 512
telefon: 238-3294
Kontakt:
Personal web page
LinkedIn blog
Facebook page
konzultacije: ponedjeljak 11:45-12:15
ponedjeljak 13:45-14:15 i po dogovoru
2
http://www.youtube.com/user/SricaTV
Raspored predavanja po temama
Tjedan Datumi Tema Str. u knjizi
1. 24.02. Uvod u PIS, Informacijski sustav u organizaciji
1-17
2. 02.03. Poslovni procesi i informacijski sustav
19-38
3. 09.03. Transakcijska obrada 39-59
4. 16.03. Analitičke i upravljačke obrade 61-89
5. 23.03. Otkrivanje znanja iz podataka 89-112
6. 30.03. Specifične obrade potpore odlučivanju
113-141
7. 06.04. Test 1 1-141
Raspored predavanja po temama
Tjedan Datumi Tema Str. u knjizi
8. 14.04. Informacijski sadržaji, potpora komunikaciji
143-172
9. 20.04. Povezivanje informacijskih sustava
173-198
10. 27.04. Organizacija poslovnog informacijskoga sustava
199-234
11. 04.05. Razvoj PIS-a 235-256
12. 11.05. Kvaliteta i sigurnost informacijskoga sustava
257-274
13. 18.05. Budućnost i razvoj PIS-a 143-274
14. 25.05. Test 2 143-274
15. 01.06. Potpisi, ankete
4 3/24/2020
Timovi prema planu izlaganja mogu poslati prezentaciju na mail
[email protected] ako žele obećane dodatne bodove. Crvene prezentacije sam
već dobio
5
KOLEGIJ: PIS Teme Prezentacija
Termin TEMA prezentacije TIM – do četiri člana 16.03. Neuronska mreža i primjena u poslovanju
Primjena visokih tehnologija u poslovanju Digitalna transformacija poslovanja
Grgić Roko, Gligić Toni, Ivanković Matej Čolak Elena, Mario Jularić, Mario Jurić Hren Iva, Ivanišević Nika, Grozdanić Vita
23.03. Internet stvari (IoT – Internet of Things) Big Data i budućnost poslovne analitike
Habljak Lea, Grbić Kristijan, Hrman Matija Jugović Monika, Jazbec Andrea, Jukić Mateja
30.03. Internet stvari (IoT – Internet of Things) Digitalni marketing Digitalni marketing
Ivančić Kristina, Grabovac Lucija, Ivkić Viktorija Kelčec Pester Dora, Kasunić Franka Grbavac Ivona, Hofer Ariana, Hajduković Laura
20.04. Digitalni marketing Umjetna inteligencija Internet i marketing
Grković Nina, Jakobović Luka Gradinščak Svea, Hlupić Sara, Jakoliš Franka Hmelina Martina, Hršak Katarina
27.04. Budućnost informacijskih tehologija RFID i NFC u logistici Poslovna upotreba društvenih mreža
Keserović Ana, Katičin Lana, Jukić Sara Hibler Mihael, Jagar Filip Šoić Eva, Škrtić Silvija, Škomrlj Ivana
04.05. CRM softver SRCE – Sveučilišni računski centar
Pametni grad
Kerep Petra, Kereta Marinela, Jelušić Klara Hanžek Mihaela, Grizelj Iva Grlić Katarina, Hađina Lucija, Horvatin Pleš Romana
11.05. 10 najvećih informatičkih katastrofa Mobilne aplikacije Mobilne aplikacije
Janko Tomislav, Kantolić Josip, Javor Bruno Granić Antonela, Horvat Katarina, Hanžek Leonarda Kastelan Robin, Sokolović Luka, Halužan Nikolina
18.05. Pametni grad Blockchain tehnologija Trendovi razvoja umjetne inteligencije
Grubić Patricija, Jakopinčić Stela, Karabatić Karla Ibrahimagić Adis, Gracin Ivan Jutriša Dora, Kalingar Valentina, Jakuš Lana, Katić Ana
Sadržaj: što ćemo učiti
• Što je otkrivanje znanja iz baza podataka?
• Koje se metode koriste za otkrivanja znanja iz baza podataka?
• Koje su tipične primjene otkrivanja znanja iz baza podataka?
• Što su veliki podaci (engl. big data)?
• Koje tehnologije se koriste u obradi velikih podataka?
Informacijski sustavi u poslovanju 6
Literatura
• Obvezna:
– Informacijski sustavi u poslovanju (ur. Varga, M., Strugar, I.). Ekonomski fakultet, Zagreb, 2016.: poglavlje Otkrivanje znanja iz podataka
– BIG DATA HROUG
Informacijski sustavi u poslovanju 7
Case study
https://www.technologyreview.com/s/538701/data-mining-reveals-the-surprising-factors-behind-successful-movies/
Informacijski sustavi u poslovanju 8
“Data Mining Goes to Hollywood!”
Problem
Preporučeno rješenje
Rezultati
Odgovor i diskusija
Informacijski sustavi u poslovanju 9
https://www.technologyreview.com/s/538701/data-mining-reveals-the-surprising-factors-behind-successful-movies/
Sustav za prognoziranje zarade i profitabilnosti filmova
PODACI –Filmovi koji su “lansirani” u periodu 2000-2010; Korišteni su podaci baze IMDb
Korišteni podaci:
“Snaga zvijezde” (e.g. zarada glumca i redatelja, profit filma sa glumcem i redateljem)
“Kolaboracija” (e.g. prosječan broj dosadašnjih suradnji svakog glumca u filmu i redatelja)
Prosječan godišnji profit svih filmova koje je “lansirao” studio protekle godine
Vrijeme “lansiranja” (Ljeto, Zima) Žanr filma Teme filmova Prosječna zarada svih filmova u žanru
Cilj analize: Prognozirati prihod i profitabilnost filma
Proces otkrivanja znanja u IBM SPSS Modeler
Model
Development
process
Model
Assessment
process
Korištene metode
• Neuronske mreže
• Stabla odlučivanja
• Genetski algoritmi
Informacijski sustavi u poslovanju 12
Rezultat: Glumci koji su ostvarili najveći prihod nisu ostvarili i najveći profit
Informacijski sustavi u poslovanju 13
Informacijski sustavi u poslovanju 14
Rezultat: Karakteristike filmova koji su ostvarili najveću profitabilnost
Karakteristike najprofitabilnijih filmova: Prosječan najveći profit glavnog glumca i redatelja Prosječna zarada redatelja u prethodnom razdoblju Film se počeo prikazivati zimi Ukupan profit glumaca u filmu Prosječan profit žanra filma (npr. akcijski)
Informacijski sustavi u poslovanju 15
Karakteristike najmanje profitabilnih filmova:
Film nije za sve dobne skupine Žanr: Drama Teme filmova: (rat, misija, Amerika, borba) Teme filmova: (muzika, bend, poznati, zvijezda, mjesto) Strani filmovi (izvan USA)
Rezultat: Karakteristike filmova koji su ostvarili najmanju profitabilnost
Movie Forecast
Guru (MFG)
Prediction Models
User
(Manager)
GUI
(Internet
Browser)
MFG Engine
(Web Server)
MFG
Database
Local
Models
Remote
Models
Knowledge Base
(Business Rules)
Remote
Data Sources
ETL
ODBC
& ETL
Web Services
XML / SOAP
HTML
TCP/IP
XML
Arhitektura softvera
Pitanja za case study
• Zašto bi holivudski investitori trebali otkrivanje znanja?
• Koji su izazovi za upravljanje holivudskom filmskom industrijom?
• Mislite li da su istraživači iskoristili sve dostupne podatke za model?
• Na koji način bi se mogla povećati prediktivna efikasnost modela?
Što je otkrivanje znanja iz baza podataka?
18
Otkrivanje znanja iz baza podataka
• Svakodnevno se bilježi velika količina podataka • primjer:
– maloprodajne kuće vode podatke o prodanim artiklima po kupcima, dućanima, grupama proizvoda i regijama
– u navedenim podatcima skrivaju se smislene pravilnosti, kojima poduzeće može unaprijediti svoje poslovanje
– maloprodajno poduzeće može otkriti da klijenti često kupuju zajedno dva proizvoda koji su na prvi pogled međusobno nepovezani, pa može proizvode postaviti zajedno na policu u dućanu i na taj način još više povećati njihovu prodaju
– takve pravilnosti nije jednostavno istražiti i analizirati u velikim količinama podataka, koji se pohranjuju u baze podataka
– zbog toga se za otkrivanje takvih pravilnosti koriste automatske metode, kao što su statistika ili strojno učenje
Informacijski sustavi u poslovanju 19
Definicija otkrivanja znanja iz baza podataka
• Otkrivanje znanja iz baza podataka je istraživanje i analiza velikih količina podataka korištenjem automatskih metoda s ciljem otkrivanja smislenih pravilnosti
• Otkrivanje znanja iz baza podataka: sinonimi?
• Ostala imena: rudarenje podataka (data mining), ekstrakcija znanja (knowledge extraction), analiza obrazaca (pattern analysis), žetva informacija (information harvesting), cijeđenje podataka (data dredging)
Otkrivanje znanja kao presjek mnogih disciplina
Sta
tistic
s
Management Science &
Information Systems
Artificia
l Inte
lligence
Databases
Pattern
Recognition
Machine
Learning
Mathematical
Modeling
DATA
MINING
Baza podataka Vs. Otkrivanje znanja
• Pronađi sve tražitelje kredita sa prezimenom Božić
• Izlistaj sve kupce koji su kupili za više od 10,000 kn prošli mjesec
• Pronađi sve kupce koji su kupili mlijeko
• Pronađi sve tražitelje kredita koji su rizični (klasifikacija)
• Pronađi sve kupce sa sličnim kupovnim navikama (cluster analiza)
• Pronađi sve proizvode koji se često kupuju uz mlijeko (asocijativna pravila)
Definicija poslovnog
problema
Određivanje potrebnih
podataka
Transformacija i
uzorkovanje podataka
Odabir tehnike
rudarenja
Vrednovanje podataka
Interpretacija i
korištenje rezultata
Izrada i vrednovanje
modela
Korak 1: Definicija poslovnog problema
Korak 2: Priprema podatka
Korak 3: Modeliranje
Korak 4: Implementacija
P3. Proces otkrivanja znanja iz baza podataka
Korak 1: Definicija poslovnog problema
• Definicija poslovnog problema je pronalaženje pitanja značajnoga za poslovanje na koje se traži odgovor primjenom otkrivanja znanja iz baza podataka. – u ovome koraku određuje se koje će osobe sudjelovati u projektu
otkrivanja znanja
• tipičan tim za otkrivanje znanja – analitičar koji dobro poznaje metode otkrivanja znanja – informatičar koji dobro poznaje baze podataka poduzeća – stručnjaka iz poduzeća koji je dobro upoznat s potencijalnom
primjenom u poslovanju
• na čelu tima ključna osoba iz menadžmenta – ne mora izravno raditi na projektu, ali ga treba podržati – pomoć u rješavanju mogućih teškoća (primjerice otpor zaposlenika
prema primjeni novih tehnologija)
Informacijski sustavi u poslovanju 24
Mogući ciljevi projekta
1. Analiza profila kupaca (Profile Analysis) – Mjerenje zajedničkih karakteristika poduzeću
zanimljive populacije (demografija, potrošnja kupca)
2. Segmentacija (Segmentation) – Nakon analize profila kupci se dijele u segmente
Mogući ciljevi projekta
3. Modeli odaziva (Response)
– Procjena vjerojatnost da će kupac odgovoriti pozitivno na ponudu
– Paziti kod višestrukih ponuda – telefon, mail, pošta
4. Rizik (Risk)
– Procjena rizičnost kupca
Mogući ciljevi projekta
5. Aktivacija (Activation)
• Procjena vjerojatnosti da će kupac početi koristi proizvod u potpunosti
6. Prodaja dodatnih proizvoda
• Cross sell – prodaja novih proizvoda
• Up-sell – proidaja istog proizvoda
Mogući ciljevi projekta
7. Odlazak kupca kod konkurencije (Churn)
8. Vrijednost životnog vijeka (Lifetime Value)
• Predviđanje profitabilnosti klijenta kroz određeni period
Definicija poslovnog
problema
Određivanje potrebnih
podataka
Transformacija i
uzorkovanje podataka
Odabir tehnike
rudarenja
Vrednovanje podataka
Interpretacija i
korištenje rezultata
Izrada i vrednovanje
modela
Korak 1: Definicija poslovnog problema
Korak 2: Priprema podatka
Korak 3: Modeliranje
Korak 4: Implementacija
Korak 2: Priprema podataka
• Priprema podataka obuhvaća:
– određivanje potrebnih podataka
– transformaciju podataka
– uzorkovanje podataka
– vrednovanje podataka podataka
• podaci za otkrivanje znanja mogu biti pohranjeni u različitim oblicima (relacijske baze podataka ili skladišta podataka)
Informacijski sustavi u poslovanju 30
Korak 2: Priprema podataka
• Tipični podaci koji se koriste za otkrivanje znanja iz baza podataka su transakcijska baza podataka i baza klijenata
– transakcijska baza podataka bilježi podatke za svaku transakciju, pa je njezin generički sadržaj sljedeći: šifra klijenta, broj računa, vrsta, iznos i datum transakcije
– baza podataka o klijentima generički sadrži šifru klijenta, šifru kućanstva, broj računa, ime i prezime kupca, adresu, telefon, demografske podatke, proizvode i usluge, dosadašnje ponude i segmentaciju.
Informacijski sustavi u poslovanju 31
Korak 2: Priprema podataka
• Transformacija podataka je priprema podataka u tablični oblik pri čemu se u stupcima trebaju nalaziti atributi, a u recima opažanja – primjer opažanja može biti klijent, a primjeri
atributa su dob, spol i artikli kupljeni u trgovini
– transformacija podataka se odnosi i na operacije s podacima jer se često podaci iz transakcijske baze podataka moraju objediniti da bi bili korisni (agregacija, selekcija, filtriranje, spajanje)
Informacijski sustavi u poslovanju 32
Kako pripremiti podatke?
1. Tabelarni oblik – Retci – opažanja
– Stupci – varijable
2. Svaki redak mora opisivati podatak značajan za poduzeće (npr. kupca, proizvod)
Operacije nad podacima
• Filtriranje (izbor redaka)
• Selekcija (izbor kolona)
• Agregacija ili grupiranje (npr. agregatni podaci o prodaji po regijama, kućanstvima)
• Spajanje (npr. spajanje baze transakcija i kupaca)
Agregacija
Korak 2: Priprema podataka
• U transakcijskim bazama podataka i bazama klijenata nalaze se velike količine podataka a za izradu modela nije potrebno toliko podataka
• Stoga se koristi uzorkovanje podataka kako bi se odabrala manja količina podataka potrebnih za model
• Podaci se u uzorak najčešće izabiru slučajnim izborom
Informacijski sustavi u poslovanju 36
Potrebna količina podataka
• Stablo odlučivanja – 2,000 – 3,000
• Neuronske mreže – 10,000
• Od 100,000 klijenata – 4,000 ima životno osiguranje
• Uzorak – 4,000 (ima osiguranje) + 4,000 (nema osiguranje – slučajni izbor)
Korak 2: Priprema podataka
• U svakoj bazi podataka postoje netipične, netočne i nepostojeće vrijednosti, kao i problematični i nejasno definirani podaci – netipične vrijednosti seznačajno se razlikuju od ostalih podataka u
bazi podataka. Primjer netipičnih podataka mogu biti kupci s iznimno visokim ili iznimno niskim primanjima. Mogu se zamijeniti nekim drugim vrijednostima ili izbaciti iz analize
– netočne vrijednosti najčešće su posljedica pogrešnoga unosa podataka u računalo
– problematični podaci odnose se na nepostojeće vrijednosti, nejasne definicije podataka i netočne vrijednosti
– nepostojeće vrijednosti su česte, a obično se radi o situaciji da za kupca ne postoje neki demografski podaci
– nejasne definicije podataka česte su kod transfera podataka iz jedne baze podataka u drugu (primjerice: varijabla „Cijena 1“ u jednoj bazi može označavati cijenu u eurima, a u drugoj cijenu u kunama)
Informacijski sustavi u poslovanju 38
Primjer: “Prljavi” podaci
• Nepostojeće vrijednosti (Missing Data) – postupak isti kao i za netipične vrijednosti
• Nejasne definicije (npr. Cijena 1 može u jednom bazi – jabuke, a u drugoj – kava)
• Netočne vrijednosti – pogrešan unos, pogrešno vrijeme na računalu
Definicija poslovnog
problema
Određivanje potrebnih
podataka
Transformacija i
uzorkovanje podataka
Odabir tehnike
rudarenja
Vrednovanje podataka
Interpretacija i
korištenje rezultata
Izrada i vrednovanje
modela
Korak 1: Definicija poslovnog problema
Korak 3: Modeliranje
Korak 4: Implementacija
Korak 2: Priprema podataka
Korak 3: Modeliranje
• Metode koje se koriste za modeliranje podataka mogu se podijeliti u tri kategorije: • Metode za klasifikaciju koriste se za predviđanje događaja
– primjer takvoga događaja može biti vraćanje kredita; otkrivanjem znanja želi se dati odgovor na pitanje o vjerojatnosti da će pojedini klijent vratiti kredit
– Za klasifikaciju se često koriste stablo odlučivanja, logistička regresija te neuronske mreže.
• Metode prognoziranja koriste se za predviđanje brojčanih vrijednosti – primjer takve brojčane vrijednosti može biti iznos kupnje u sljedećoj godini na temelju dobi,
zanimanja i dosadašnje potrošnje kupca.; otkrivanjem znanja želi se prognozirati iznos potrošnje, uz određenu vjerojatnost
– Za predviđanje se također koriste neuronske mreže, ali i linearna regresija te metode vremenskih serija
• Metode za grupiranje koriste se za pronalaženje tipičnih skupina – primjer takvih skupina mogu biti korisnici usluge mobilnoga bankarstva; otkrivanjem znanja
žele se pronaći tipične skupine korisnika usluga, kojima se nakon toga mogu ponuditi proizvodi posebno prilagođeni njihovim osobinama
– dvije najpoznatije metode za grupiranje su metoda analize tržišne košarice i metoda klaster analize
Informacijski sustavi u poslovanju 41
Vrednovanje rezultata
Metode otkrivanja – logičnost rezultata Metode predviđanja događaja i vrijednosti –
točnost predviđanja
Modeli se vrednuju i kroz njihovo korištenje. Situacija A:
Nakon slanja kataloga svim kupcima stopa odaziva je 5% (5% od 100,000 = 5,000)
Situacija B: Nakon slanja kataloga prema modelu otkrivanja znanja stopa
odaziva je 10% (10% od 50,000 = 5,000)
Definicija poslovnog
problema
Određivanje potrebnih
podataka
Transformacija i
uzorkovanje podataka
Odabir tehnike
rudarenja
Vrednovanje podataka
Interpretacija i
korištenje rezultata
Izrada i vrednovanje
modela
Korak 1: Definicija poslovnog problema
Korak 4: Implementacija
Korak 2: Priprema podataka
Korak 3: Modeliranje
Implementacija rezultata
• Tri su mogućnosti implementacije: – Implementacija gotovih indeksa (scores)
– Izrada ad hoc modela od strane in-house ekspertnog tima, vanjskih konzultanata, softverskih kompanija…
– Izrada alata kojima se podupiru strateške, taktičke i operativne odluke
• Proces modeliranja nije nikada u potpunosti gotov. Modeli se dograđuju, a njihovi rezultati koriste se u poslovanju.
Korak 4: Implementacija
• U ovoj fazi ključna je uloga stručnjaka za poslovanje, koji na temelju specifičnih poslovnih znanja može interpretirati rezultate (važno je da rezultati modela budu u obliku jednostavnom za interpretaciju – npr. u obliku grafikona ili pravila)
• Korištenje rezultata ovisi o njihovoj prezentaciji i integraciji u svakodnevno poslovanje, a pravilo je da što su rezultati bolje prezentirani, to će se više koristiti
Informacijski sustavi u poslovanju 45
Koje se metode koriste za otkrivanja znanja iz baza podataka?
Informacijski sustavi u poslovanju 46
Metode otkrivanja znanja iz baza podataka
• Metode klasifikacije – Osnovni cilj: grupiranje podataka u već ranije
definirane grupe (npr. svrstavanje klijenata banke u skupinu rizičnih klijenata, koji neće moći vraćati kredit, i skupinu nerizičnih klijenata, koji će biti u stanju vraćati svoj kredit)
– metode klasifikacije rješavaju problem otkrivanja kriterija po kojima će se moći provesti razvrstavanje klijenata
– za probleme klasifikacije najčešće se koriste modeli klasifikacijskih stabala, ako želimo saznati koji su kriteriji grupiranja podataka
Informacijski sustavi u poslovanju 47
Primjer klasifikacijskoga stabla za grupiranje kreditnih zahtjeva
Informacijski sustavi u poslovanju 48
Metode otkrivanja znanja iz baza podataka
• Metode prognoziranja
– slične su ranije opisanim metodama klasifikacije, no razlika se sastoji u vrsti konačnoga rezultata
– klasifikacija rezultira odabirom jedne od postojećih skupina ili tzv. diskretnih vrijednosti, koja će se dodijeliti promatranome objektu
– najčešće metode za izradu prognostičkih modela su regresijska stabla, regresijska analiza i neuronske mreže
Informacijski sustavi u poslovanju 49
Primjer prognoziranja broja nezaposlenih korištenjem vremenskih serija
Informacijski sustavi u poslovanju 50
Metode otkrivanja znanja iz baza podataka
• Metode grupiranja – primjenjuju neusmjereni pristup otkrivanju znanja jer ne
postoje unaprijed definirane skupine ili međuovisnosti između pojedinih varijabli u podacima
– osnovni zadatak modela grupiranja sastoji se u segmentaciji polazne skupine heterogenih podataka u manje grupe homogenih podataka. Pri tome poželjno je da formirane grupe podataka sadrže podatke koji su međusobno što sličniji, dok su obilježja formiranih grupa međusobno bitno različita
– najčešće korištene metode grupiranja su klasteriranje korištenjem k srednjih vrijednosti, samoorganizirajuće mape te asocijativno grupiranje
Informacijski sustavi u poslovanju 51
Grafički prikaz segmentiranja podataka u tri klastera (k = 3)
Informacijski sustavi u poslovanju 52
Segmentacija tržišta na temelju podataka
Tipične primjene otkrivanja znanja iz baza podataka
• Predviđanje rizičnih događaja
• Prodaja dodatnih proizvoda postojećim klijentima
• Zadržavanje postojećih klijenata
• Segmentacija
• Životna vrijednost kupca
Informacijski sustavi u poslovanju 54
Informacijski sustavi u poslovanju 55
http://croz.net/wp-content/uploads/2013/03/Prediktivna-analiza-predvidanje-buducnosti2.pdf
Informacijski sustavi u poslovanju 56
Izvor: http://croz.net/wp-content/uploads/2013/03/Prediktivna-analiza-predvidanje-buducnosti2.pdf
Predviđanje rizičnih događaja
• Model predviđanja rizičnih događaja tipičan je upravo za banke i osiguravajuća društva
• Modeli koji temeljem ponašanja kupaca brzo detektiraju krađe kreditnih kartica smanjuju gubitak kartične kuće
– Primjer: otkrivanje znanja iz baza podataka pokazalo je da broj velikih transakcija u vrlo kratkome vremenu raste nakon krađe kreditne kartice
Informacijski sustavi u poslovanju 57
Prodaja dodatnih proizvoda postojećim klijentima
• Modeli prodaje dodatnih proizvoda postojećim kupcima određuju vjerojatnost da će kupac koji već kupuje proizvode od poduzeća kupiti dodatni proizvod
• Ponudom odabranih proizvoda odabranim kupcima također se povećava kvaliteta odnosa s kupcima
Informacijski sustavi u poslovanju 58
Zadržavanje postojećih klijenata
• Odlazak klijenata konkurenciji je problem brojnih djelatnosti
• Klijenti često prelaze kod konkurencije zbog pogodnosti koje im se nude, pa tako maloprodajne trgovačke kuće u svijetu već godinama vode rat niskim cijenama kako bi privukle klijente
• Otkrivanjem znanja iz baza podataka izrađuju se modeli kojima se predviđa vjerojatnost da će kupac nakon što se cijene podignu na normalnu razinu prijeći kod konkurencije ili smanjiti potrošnju
Informacijski sustavi u poslovanju 59
Segmentacija
• Glavni resurs poduzeća su njegovi kupci, a tek temeljem poznavanja njihovih osobina, preferencija i specifičnih potreba banka im može prilagoditi ponudu svojih usluga
• Velike količine podataka o kupcima poduzećima bi trebale koristiti za analizu osobina kupaca te temeljem njih formirati segmente kojima se mogu posebno prilagoditi usluge
Informacijski sustavi u poslovanju 60
Životna vrijednost kupca
• Životna vrijednost kupca je očekivana vrijednost zarade od pojedinoga kupca kroz određeno vrijeme – primjerice, banci je zanimljivo privući što više studentske
populacije od koje će velik dio postati profitabilni klijenti. – trenutna zarada od usluga studentima može biti mala, ali
ako se stvori dobar odnos s klijentom, u budućnosti će se ostvariti velika korist
– tek diplomiranome studentu trebat će kredit za auto, stan, tekući račun, kreditne kartice, mirovinsko i životno osiguranje…
– zbog visokoga obrazovanja očekuje se da će takva osoba imati i iznadprosječna primanja te će si moći priuštiti sve te proizvode
Informacijski sustavi u poslovanju 61
Što su veliki podaci?
Informacijski sustavi u poslovanju 62
Veliki podaci (engl. big data)
• U informacijskim sustavima se pohranjuju velike količine podataka, koji mogu biti strukturirani ili nestrukturirani, koji nastaju unutar organizacije ili pristižu izvan nje te koji opisuju najrazličitije poslovne pojave
• primjeri: – podaci poslovnih objekata kao što su proizvodi, cijene ili računi
stvaraju se u izvršnome dijelu informacijskoga sustava i pohranjuju u transakcijskoj bazi podataka
– analitički podaci kao što su analize rezultata prodaje po mjesecima, proizvodima i tržištima stvaraju se u upravljačkome dijelu informacijskoga sustava i pohranjuju u skladištu podataka
– poslovni dokumenti koji mogu biti u obliku poslovne dokumentacije, dopisa, poruka e-pošte, zapisa komunikacije društvenih medija kao što su „tvitovi“ ili „lajkovi“ i sl., stvaraju se u suradničko-komunikacijskome dijelu informacijskoga sustava i pohranjuju u različitim oblicima baza dokumenata
Informacijski sustavi u poslovanju 63
Veliki podaci (engl. big data)
• Pojmom veliki podaci opisuju se skupovi podataka koje je, zbog njihove veličine i složenosti, teško i vremenski zahtjevno obraditi korištenjem aplikacija namijenjenih obradi strukturiranih podataka
• Teškoće se susreću pri svim fazama obrade velikih podataka: prikupljanju, održavanju, pohranjivanju, pretraživanju, dijeljenju, analizi i prikazu podataka
Informacijski sustavi u poslovanju 64
Informacijski sustavi u poslovanju 65
Veliki podaci (engl. big data)
• Veliki podaci se obično definiraju V obilježjima – volumen (engl. Volume): velika količina podataka (sve je
veća količina podataka pohranjenih u različitim uređajima te oni rastu brže od količine podataka nastalih poslovnim transakcijama)
– raznovrsnost (engl. Variety): podaci se nalaze u različitim oblicima (nalaze se u bazama podataka, datotekama, slikama, dokumentima ili drugim oblicima)
– promjenljivost, brzina (engl. Velocity): sadržaj podataka se neprestance i brzo mijenja prihvaćanjem novih kolekcija podataka, aktiviranjem prethodno arhiviranih kolekcija podataka ili prihvaćanjem nizova podataka koji kontinuirano pristižu
Informacijski sustavi u poslovanju 66
Veliki podaci (engl. big data)
• Uz velike podatke vezane su sljedeće značajne promjene: – ostvaruje se mogućnost obrade ogromnih količina
podataka odnosno podataka čitave populacije promatrane pojave
– prihvaća se da veliki podaci mogu biti neuredni ili neuređeni i da se ne mora ili ne može inzistirati na potpunoj točnosti podataka, što osobito vrijedi pri statističko-analitičkim obradama
– uvide dobivene analizom velikih podataka moguće je ostvariti uočavanjem korelacija među pojavama, a da se pritom ne utvrđuje uzročnost pojava
Informacijski sustavi u poslovanju 67
Veliki podaci (engl. big data)
• danas je na djelu podatkovanje (engl. datafication) različitih pojava • pojam podatkovanje se odnosi na uzimanje podataka o pojavi kako bi se
ona mogla kvantificirati i kroz podatke analizirati • primjerice, stranica teksta se digitalizacijom pretvara u njenu digitalnu
sliku, a podatkovanjem u podatkovljeni tekst koji omogućava brojenje slova, riječi ili koju drugu analizu
• primjeri podatkovanih pojava: – danas je podatkovana velika količina knjiga od kojih su stvoreni veliki korpusi
riječi i omogućena analiza jezika – pametni mobiteli s ugrađenim GPS-om omogućuju njegovo lociranje pa tako
kada se potencijalni kupac s mobitelom nalazi na lokaciji koja je u blizini prodavaonice, kafića ili restorana, može ga se informirati o „prednostima“ ulaska
– Naš digitalni trag ili sjena, koji se odnosi na podatke nastale kao nusprodukt našega kretanja kroz život, može se korisno iskoristiti za analizu raznih interakcija: na kojima smo stranicama bili, koliko smo se zadržali, jesmo li se na njih vraćali – koristi se i kao mogućnost poboljšanja Web mjesta
Informacijski sustavi u poslovanju 68
Savjet o kupnji karte temeljem obrade
velikih podataka
Informacijski sustavi u poslovanju 69
Koje tehnologije se koriste u obradi velikih podataka?
Informacijski sustavi u poslovanju 70
Tehnologije u obradi velikih podataka
• veliki podaci često nisu strukturirani ili je strukturiranost zbog njihove promjenljivosti teško održavati
• za pohranjivanje velikih podataka često se koriste NoSQL-baze podataka
• obuhvaćaju različite oblike baza podataka, kao što su:
– dokumentne baze podataka – povezuju ključ s dokumentom
– grafovske baze podataka – sadrže podatke o „mrežama“, a koriste se posebice u društvenim mrežama
– baze parova ključ-vrijednost – svaki zapis sadrži samo ime atributa (ključ) i vrijednost atributa
– stupčaste baze podataka – sadrže invertirane podatke, a u zapis pohranjuju podatke jednoga atributa (stupca) svih objekata, a ne kao što je uobičajeno podatke svih atributa jednoga objekta
• podatke koje prikupljaju društvene mreže, kao što su to Twitter, Facebook, LinkedIn ili Pinterest, prikladno je pohranjivati u ovome obliku
Informacijski sustavi u poslovanju 71
• Slijedi niz primjera korištenja Big Data, treba kliknuti na linkove.
Informacijski sustavi u poslovanju 72
How to Monetize Data
1. Predicting Personality
1. Predicting Personality
2. Big Data for Most Impact
3. Predict Loyalty and Churn
4. Assessing Movement for Better Play
5. Reward Prior Purchases
6. Big Data to Encourage Losers
7. Big Data for NBA and NFL
8. Tracking Airline Bagage
9. Better Deals for Big Spenders
10. Big Data for Collectors
11. Increase Machine Productivity
12. Big Data in Flu Prevention
13. Big Data & IRS
14. Big Data & Loyalty Card
15. Viewing Habits Analysis
16. Predict Future Stars
17. Optimize Rail Traffic
18. Target Customers in Need
19. Target Customers Weatherwise
20. Cut Customer Defections
21. Lower Carbon Footprint
22. Fleet Optimization
23. Semantic Search in Online Shopping
24. President Obama on Big Data
Zaključak
Modele treba koristiti, ali im ne treba vjerovati Henri Theil
Informacijski sustavi u poslovanju 99
Zaključak: što smo naučili
• Pojam otkrivanja znanja iz baza podataka te njegove metode i tipične primjene u praksi
• Definicija i primjeri velikih podataka (engl. Big data)
• Tehnologije korištene u obradi velikih podataka
Informacijski sustavi u poslovanju 100