data mining

8
DATA MINING Za bolje razumevanje istraživanja i samog područja tzv. „rudarenja podataka“ prvo je potrebno objasniti njegovo značenje. „Rudarenje podataka (eng. Data Mining) možemo definisati kao pronalaženje zakonitosti u podacima.“5 Rudarenje podataka je prirodna evolucija tehnologije, a koja upotrebljava koncepte, metode i tehnike različitih disciplina kao što su baze podataka, statistika i umjetna inteligencija. Tehnologija baza podataka se razvila iz primitivnih u sofisticirane i moćne sustave baza podataka kakve danas poznajemo. Taj razvoj omogućio je bilježenje i sakupljanje ogromnih količina podataka što je neizbježno dovelo i do potrebe obrade i analize tih podataka, a sve u svrhu dobivanja korisnih informacija i znanja. Same tehnike rudarenja podataka rezultat su dugog procesa istraživanja i razvoja statističkih algoritama. Ova evolucija je započela još kad su poslovni podaci prvi puta uskladišteni u kompjutore, a nastavlja se kontinuirano s unapređenjem pristupa podacima i u zadnje vrijeme, generiranjem tehnologija koje omogućuju korisnicima navigaciju kroz podatke u realnom vremenu. Proces rudarenja podataka danas je moguće provoditi iz razloga što je potpomognut s tri tehnologije koje su sada dovoljno sazrele: moćnom multiprocesorskom kompjutorskom tehnologijom, tehnologijom za masivno prikupljanje podataka i algoritamskim tehnikama za rudarenje podataka.U evoluciji od poslovnih podataka do poslovnih informacija i znanja, svaki novi korak građen je na prethodnom. Primjerice, dinamični pristup podacima je kritična točka za svrdlanje (eng. drill8through) u aplikacijama za navigaciju podacima, a osposobljenost za skladištenje ogromnih baza podataka je kritična za proces rudarenja podataka. Osnovni tipovi Data Mininga Dva osnovna tipa rudarenja podataka:

Upload: dule1973

Post on 17-Nov-2015

8 views

Category:

Documents


0 download

DESCRIPTION

Data Mining

TRANSCRIPT

DATA MININGZa bolje razumevanje istraivanja i samog podruja tzv. rudarenja podataka prvo je potrebno objasniti njegovo znaenje. Rudarenje podataka (eng. Data Mining) moemo definisati kao pronalaenje zakonitosti u podacima.5 Rudarenje podataka je prirodna evolucija tehnologije, a koja upotrebljava koncepte, metode i tehnike razliitih disciplina kao to su baze podataka, statistika i umjetna inteligencija. Tehnologija baza podataka se razvila iz primitivnih u sofisticirane i mone sustave baza podataka kakve danas poznajemo. Taj razvoj omoguio je biljeenje i sakupljanje ogromnih koliina podataka to je neizbjeno dovelo i do potrebe obrade i analize tih podataka, a sve u svrhu dobivanja korisnih informacija i znanja. Same tehnike rudarenja podataka rezultat su dugog procesa istraivanja i razvoja statistikih algoritama. Ova evolucija je zapoela jo kad su poslovni podaci prvi puta uskladiteni u kompjutore, a nastavlja se kontinuirano s unapreenjem pristupa podacima i u zadnje vrijeme, generiranjem tehnologija koje omoguuju korisnicima navigaciju kroz podatke u realnom vremenu. Proces rudarenja podataka danas je mogue provoditi iz razloga to je potpomognut s tri tehnologije koje su sada dovoljno sazrele:monom multiprocesorskom kompjutorskom tehnologijom, tehnologijom za masivno prikupljanje podataka i algoritamskim tehnikama za rudarenje podataka.U evoluciji od poslovnih podataka do poslovnih informacija i znanja, svaki novi korak graen je na prethodnom. Primjerice, dinamini pristup podacima je kritina toka za svrdlanje (eng. drill8through) u aplikacijama za navigaciju podacima, a osposobljenost za skladitenje ogromnih baza podataka je kritina za proces rudarenja podataka.Osnovni tipovi Data MiningaDva osnovna tipa rudarenja podataka:

verifikacija hipoteze cilj je provjeriti da li je neka ideja ili dojam o vanosti odnosa meu odreenim podacima utemeljen ili ne; otkrivanje novih znanja meu nekim pojavama mogu postojati neki jo nepoznati, a statistiki vani odnosi koje ovjek ni iskustvom niti svojim intelektualnim sposobnostima ne moe spoznati Rudarenje podataka je izrazito multidisciplinarno podruje i obuhvaa: baze podataka, ekspertne sustave, teoriju informacija, statistiku, matematiku, logiku, te itav niz pridruenih podruja. Podruja u kojima se rudarenje podataka moe uspjeno primjenjivati su raznolika, primjerice, poslovanje poduzea, ekonomija, mehanika, medicina, genetika itd. Rudarenje podataka primjenjivo je u svim onim podrujima gdje se raspolae velikom masom podataka na osnovu kojih se ele otkriti odreene pravilnosti, veze i zakonitosti. itav niz faktora moe utjecati na ishod nekog dogaaja, a zadatak je rudarenja podataka otkriti najznaajnije meu njima i njihove karakteristike s obzirom na ciljana stanja. Bez obzira na podruje primjene dobro iskoritene metode rudarenja podataka sposobne su otkriti zakonitosti iz velike mase podataka pri emu podruje primjene ostaje u drugom planu to zapravo jest snaga primjene metoda rudarenja podataka naglasak je na podacima, a ne na podruju provoenja analiza. Osnovne tehnologije za Data MiningOsnovne tehnike za rudarenje podataka su: statistike metode, genetiki algoritmi, neuralne mree, stabla odluivanja, umjetna inteligencija, asocijacijska pravila, itd. Analitika statistika je jezgra tih novih procesa za otkrivanje znanja. Iz statistike perspektive, rudarenje podataka se moe opisati kao raunalski automatizirana istraivaka analiza podataka iz (obino) velikih i sloenih baza podataka s razliitih platformi, lokacija, operacijskih sistema i softvera. Rudarenje podataka je iznimno znaajno kod sustava s velikom koliinom podataka, u kojima je mogue pronai injenice za koje se nije ni znalo da postoje.Rudarenjem je mogue utvrditi sljedee vrste informacija: klase, postupkom klasificiranja prema unaprijed definiranim klasama, klastere odnosno kategorije, postupkom klasificiranja bez unaprijed zadanih klasa, asocijacije, koje su uvjetovane dogaajima (npr. kupci koji kupuju proizvod A u 65% sluajeva kupuju i proizvod B), sekvence, koje ustanovljuju dogaaje koji u odreenoj vjerojatnosti slijede jedan za drugim, prognoze, kojima se prognozira budunost iz postojeih podataka Metode Data Mininga Dva osnovna cilja DM projekata se mogu svrstati u dvije kategorije: Predvianje Deskripcija Predvianjem se pokuava iz postojeih podataka prognozirati budue vrijednosti varijabli (npr. prodaje), dok se deskripcijom nastoje pronai uzorci u podacima ijim se interpretiranjem moe objasniti ponaanje itavog sustava. Jedna od faza u cijelom procesu otkrivanja znanja je i mapiranje konkretnih ciljeva analize s Data Mining metodama. Ipak mogu se definirati 3 osnovne Data Mining metode:7

klasifikacija, klastering i asocijacija Klasifikacija se bavi svrstavanjem objekata u neku od predefiniranih kategorija. Primjer klasifikacije je razvrstavanje traitelja kredita u nisko, srednje ili visoko rizinu skupinu. Ono to e se desiti ispod haube je da e Data Mining algoritam proi kroz bazu bivih korisnika kredita te utvrditi koje to karakteristike imaju recimo, korisnici koji nisu uredno vraali kredit. Pomou tih karakteristika banka moe traitelja kredita svrstati u neku od kategorija, te traiti vee ili manje osiguranje povrata sredstava. Klasteriranje se takoer bavi svrstavanjem objekata u kategorije, samo ovdje te kategorije nisu unaprijed definirane, to problem ini veim. Primjer primjene te metode je razvrstavanje kupaca u kategorije prema kojima se onda mogu definirati razliite marketinke strategije. Kupci su razliiti, razliitih ukusa, uvjerenja, stila kupovine i, to je najvanije, razliite profitabilnosti. Zato kupce treba i razliito tretirati! Asocijacija se bavi pitanjem koje se stvari deavaju istovremeno. Tako je npr. u Data Miningu poznata metoda potroake koarice gdje se gleda koji se proizvodi esto kupuju zajedno. Analizom podataka moete otkriti da se esto uz pjenu za brijanje kupuju i britvice to je oigledno. Meutim, mogu se otkriti i neke skrivene veze poput primjera piva i pelena. aime, prije otprilike 10 godina, Teradata (jedan od DM pionira) je vrei analize podataka jednog svog klijenta utvrdila da se u veernjim satima esto zajedno kupuju pivo i pelene. Objanjenje ovog uzorka ostavljamo Vama na razmiljanje. Proces rudarenja podataka sastoji se od vie faza koje jedna osoba samostalno ne moe izvriti. Te faze moemo promatrati iz tri perspektive:8 problemska perspektiva koja je vana na samom poetku i kraju rudarenja podataka. Sastoji se od odabira problema, njegova definiranja te procjene i primjene znanja. Osoba koja obavlja ove zadatke moe se jednostavno nazvati korisnik. podatkovna perspektiva koja obuhvaa sve zadatke vezane uz pripremu podataka za njihovo rudarenje, a obavlja je informatiar. metodoloka perspektiva se sastoji od svih zadataka vezanih uz analizu podataka, metode selekcije, implementacije, prezentacije i interpretacije rezultata. Osoba zaduena za te zadatke je strunjak rudarenja podataka (eng. data miner). Podjednaki broj poduzea eli zaposliti osobe sa diplomom (40%) i magisterijem (40%). Prilino veliki broj poslodavaca trai i doktorat (20%). Vezano uz godine radnog iskustva, rezultati pokazuju da su jednako traeni oni sa manje od 5 godina iskustva i oni sa 5 do 10 godina iskustva. Samo u 3% sluajeva zahtjeva se vie od 10 godina iskustva.Zadaci unutar procesa rudarenja podataka koji se oekuju od zaposlenika su najee prezentiranje rezultata (29%), izgradnja novih modela (15%) i priprema podataka (13%). Znanje klasifikacijske metode rudarenja podataka je najtraenije (18%). Metode predvianja i statistike tehnike su jednako zastupljene sa po 8%. Znanje softvera koje je potrebno imati najvie odlazi na SQL (44%) i SAS (42%). Zanimljivo je spomenuti da specifini softver za rudarenje podataka (primjerice Clementine) se vrlo rijetko spominje. Dodatne vjetine koje se zahtijevaju su analitike vjetine (42%), konzalting (19%), projektni menadment (16%), profiliranje korisnika (15%) i iskustvo u podruju (15%).Primjene Data Mininga U znanosti je recimo popularna primjena Data Mininga u astronomiji gdje se vri automatska klasifikacija nebeskih objekata. Trenutno je vrlo popularna primjena Data Mining metoda u bioinformatici, genetikom inenjeringu i farmaceutici. U posljednje vrijeme (posebno poslije 11.9.2001.) sve se vie i dravne agencije zanimaju za Data Mining. Data Mining se moe zlonamjerno iskoristiti, prije svega naruavajui privatnost. Postoje strahovi da bi osiguravajue tvrtke mogle koristiti Data Mining tehnike kako bi odreenim grupama korisnika uskratile pravo na zdravstveno osiguranje. Glavno podruje primjene Data Mininga je ipak biznis. Marketing je podruje gdje se Data Mining vjerojatno najvie koristi, kako bi se identificirale pojedine grupe kupaca i predvidjelo njihovo ponaanje. Primjerice, budui da je izraunato da je prosjeno 6 puta tee dobiti novog kupca nego zadrati postojeeg, korisno je znati zato kupci odlaze. Meutim, takoer je izraunato da se u prosjeku samo 4% kupaca ali. Data Mining moe pruiti odgovor na pitanje zato preostalih 96% kupaca odlazi. Jo jedna esta primjena je otkrivanje prijevara koju koriste porezne slube i dravne agencije za spreavanje organiziranog kriminala. Specijalizirana sluba amerikog ministarstva financija koristi takav jedan sustav za otkrivanje pranja novca jo od 1993. godine. Otkrivanje prijevara pomou Data Mininga se esto koristi i u telekomunikacijskoj industriji, te tvrtkama koje izdaju kreditne kartice. Jedna od nekonvencionalnih primjena Data Mininga su sustavi NBA klubova New York Knicksa i Miami Heata koji analiziraju uzorke u igri protivnikih momadi. Data Mining u Hrvatskoj Hrvatska i nije ba svjetski lider na podruju Data Mininga. I u svijetu su Data Mining projekti jo relativno rijetki, kao i kod BI. Najvea zapreka iroj upotrebi Data Mininga je to to u dobrom dijelu sluajeva kod nas ne prevladava ekonomski kriterij. Osim toga, preduvjet za takve projekte je konkurencija. Data Mining projekti su skupi, kompleksni, dugotrajni i postoji velik rizik da uope nee zavriti uspjeno. Bez prisile konkurencije, nitko se nee uputati u takav rizik. Jedina dva sektora u nas u kojima vlada prava konkurencija, trgovina i bankarstvo, ujedno su i dva sektora iz kojih dolazi najvei broj BI projekata. Veina velikih trgovakih i financijskih kua u nas su ve prije nekoliko godina poele s prvim Business Intelligence projektima. pr. Raiffeisen banka se Data Miningom slui za razliite marketinke analize.ZAKLJUAKTo BI or not to BI ? Nema razmiljanja odgovor je svakako to BI. Business Intelligence (BI) sustavi postali su neizostavno orue svih razina managementa u procesima odluivanja. Pojam poslovne inteligencije u zadnjih je nekoliko godina toliko in da ga je gotovo nemogue izbjei, to i ne udi, s obzirom da nudi rjeenje za jedan od najveih problema managementa donoenje kvalitetnih poslovnih odluka. Upravo BI sustavi pomau u rjeavanju upravljakih problema. BI sustav je takav sustav koji uva informacije i znanje o konkurenciji, kupcima, dobavljaima, procesima i vezama meu procesima, te omoguava poslovno pregovaranje, argumentirani nastup prema kupcima i dobavljaima. Omoguava kvalitetno operativno planiranje, praenje ponaanja konkurencije, kupaca, dobavljaa, promatranje pojedinih trinih segmenata i predvianje buduih pojava. BI sustav omoguava bolje razumijevanje vlastitih kupaca i spoznavanje to ih potie na takvo ponaanje. (BI)TI ili E (BI)TI? Svaki poslovni subjekt, tijelo dravne uprave ili javna institucija koji svoje poslovanje podupiru nekim informacijskim sustavom mogu koristiti i poslovnu inteligenciju. Uvoenje BI sustava pomae u rjeavanju upravljakih problema poduzea, a upotrebom informacija i znanja o konkurenciji, kupcima, dobavljaima, procesima i vezama meu procesima te omoguava poslovno pregovaranje i argumentirani nastup. Takoer je u funkciji kvalitetnog operativnog i stratekog planiranja, praenje ponaanja konkurencije, kupaca, dobavljaa, promatranja pojedinih trinih segmenata i predvianja buduih pojava. Uvoenje BI sustava u poduzee moe pomoi u barem etiri podruja: Bolje razumijevanje poslovanja to pokree poslovanje, koji trendovi, ponaanja i anomalije su prisutne u poslovanju Mjerenje koristi od uvoenja sustava kada znamo gdje i to mjeriti, imamo i jasne koristi ovakvog sustava Poboljavanje veza sa svim zainteresiranim stranama u stvaranju lanca vrijednosti osiguravanjem korisnih informacija o poslovanju i poduzeu kupcima, dobavljaima, zaposlenima, dioniarima i ostaloj javnosti stvara se povjerenje i osjeaj informiranosti Omoguavanje prilika za poveanjem vrijednosti informacije u dananjem dobu predstavljaju resurs odnosno vrijednost kako za samo poduzee tako i za ostale sudionike na tritu koji su spremni platiti/kupiti odreene informacije