toth attila - open source üzleti intelligencia rendszerek sajátosságai és alkalmazása az...

50
BUDAPESTI CORVINUS EGYETEM GAZDÁLKODÁSTUDOMÁNYI KAR Gazdálkodási szak – Információmenedzsment szakirány Open source üzleti intelligencia rendszerek sajátosságai és alkalmazása az adatbányászat területén

Upload: atibud86

Post on 04-Oct-2015

17 views

Category:

Documents


1 download

DESCRIPTION

TartalomjegyzékTartalomjegyzék 21 Az üzleti intelligenciáról 31.1 Fogalmi meghatározás 31.2 Szerepe az üzletben 51.3 Szerepe az informatikában 71.4 BI megoldások piaca 82 Adatbányászat 92.1 Adatbányászat versus SQL 102.2 Az adatbányászat folyamata 112.3 Adatbányászat a gyakorlatban 132.4 Adatbányászati szoftverek 153 Open-source 163.1 Open-source az üzleti életben 184 Open-source üzleti intelligencia 194.1 Open-source adatbányászat a RapidMiner szoftverrel 214.1.1 Gyakorlati tapasztalatok 24Ábrajegyzék 29Táblázatok 29Irodalomjegyzék 30Melléklet 32

TRANSCRIPT

Adatbnyszat

BUDAPESTI CORVINUS EGYETEM

GAZDLKODSTUDOMNYI KAR

Gazdlkodsi szak Informcimenedzsment szakirny

Open source zleti intelligencia rendszerek sajtossgai s alkalmazsa az adatbnyszat terletnTudomnyos Dikkri DolgozatTth AttilaV. vfolyam

2010. mrcius 30.Konzulens: K AndreaTartalomjegyzk

2Tartalomjegyzk

31Az zleti intelligencirl

31.1Fogalmi meghatrozs

51.2Szerepe az zletben

71.3Szerepe az informatikban

81.4BI megoldsok piaca

92Adatbnyszat

102.1Adatbnyszat versus SQL

112.2Az adatbnyszat folyamata

132.3Adatbnyszat a gyakorlatban

152.4Adatbnyszati szoftverek

163Open-source

183.1Open-source az zleti letben

194Open-source zleti intelligencia

214.1Open-source adatbnyszat a RapidMiner szoftverrel

244.1.1Gyakorlati tapasztalatok

29brajegyzk

29Tblzatok

30Irodalomjegyzk

32Mellklet

1 Az zleti intelligencirl

1.1 Fogalmi meghatrozsAz zleti intelligencia (Business Intelligence, rviden BI) fogalmnak jelenleg nincs egy egysgesen elfogadott, kiforrott, pontos defincija. Ahny szakrt annyi megkzelts jellemzi a napjainkban kering BI-hoz kapcsold meghatrozsokat. Ebben a fejezetben bemutatok nhny verzit az zleti intelligencia fogalmra, melyeket rtkelem, s meghatrozom, hogy a dolgozat egszt rinten a fogalmat milyen megkzeltsmdban hasznlom tovbb.

A BI magyar megfeleljt nem a sz szoros rtelmben javasolt rtelmezni, ugyanis intelligence alatt elssorban hrszerzs esetnkben zleti hrszerzs fogalmra rdemes gondolni, nem pedig az intelligencia sz ltalnos jelentsre. zleti informcik megszerzsrl van teht sz, mghozz (elssorban sajt) adatokbl kinyerhet informcikrl, melyek megszerzsvel, feldolgozsval s tovbbtsval a vezeti dntsek tmogathatk meg. Ezltal felmerlhet a krds, hogy mirt ne jellemezhetnnk minden dntstmogat rendszert zleti intelligencia megoldsnak, vagy ppen fordtva, azonban a ksbbiekben lthat lesz, hogy igenis rdemes kzttk klnbsget tenni.

1. bra: Adat informci tuds fogalmnak dntselmleti megkzeltse

Az adatok s az zleti tevkenysg kztti kapcsolatot jl prezentlja az 1. bra. zleti intelligencia rendszerekrl, azokat a kpen lthat kontextusba helyezve, elmondhat teht, hogy az adat informci tuds dnts cselekvs folyamat els ngy llomsn jelenhetnek meg, klnbz szerepekben. Mghozz oly mdon, hogy vgl az adatokbl olyan hasznosthat informcit generlnak, amiket az azok felhasznli tudss transzformlnak, s kpess vlnak ez ltal (helyes) dntseket hozni.

A fogalom meghatrozsa sorn top-down megkzeltst alkalmazok, ezrt elsknt Tom Davenporttl idzek egy meghatrozst az zleti intelligencia fogalmra, mely kiindulsnak taln a legmegfelelbb: Business intelligence is supposed to be a set of approaches for finding out more about your business. (Davenport, 2007) Azaz az zleti intelligencia olyan megkzeltsek halmaza, mellyel tbbet kvnunk megtudni az zletrl. rezhet, hogy nem a legegzaktabb definci, s tl ltalnostnak is vlem, azonban a BI megoldsok lnyegi filozfijra nagyon pontosan rmutat.

Nem llunk messze az igazsgtl, ha azt mondjuk, hogy az zleti intelligencia az zleti dntsek adatokkal s elemzsekkel trtn megalapozst szolglja. A tudsmenedzsment szhasznlatval: az a funkcija, hogy adatbl informcit, az informcibl tudst csinljon, segtsgvel a dntshoz legyen az brhol a szervezeti hierarchiban tisztbban lssa, hogy mi trtnik az zletben s annak krnyezetben, megrtse a vllalat mkdst, pontos kpet kapjon annak llapotrl, mozgsrl, s mindezek alapjn jobb dntseket hozzon. (Bgel Papp, 2008, 51-52. old.) Bgel Gyrgy s Papp Attila meghatrozsa kiss pontostja a Davenport meglehetsen ltalnos defincijt. Itt kell megjegyeznem, hogy az elzekben csak vezeti dntstmogatsrl rtam, azonban Bgel utal arra, hogy nem kizrlag a top-menedzsment hasznlhatja a BI megoldsokat, hanem az a szervezeti hierarchia brmely szintjn belphet tmogatknt. Ltni kell azonban, hogy a brmely a valsgban nem igazn teljesl, azonban az nem ktsges, hogy egy szlesebb menedzsment (kzpvezeti) rteg is felhasznlja lehet BI eszkzknek.

Az zleti intelligencia megoldsok krbe olyan alkalmazsok s technolgik tartoznak, melyek clja, hogy a szksges adatokhoz val hozzfrs biztostsval, ezen adatok megfelel trolsval, valamint sokoldal elemzsi lehetsgekkel tmogassk a vllalati dntshozatalt. Az zleti intelligencia megoldsok magukban foglaljk teht az adattrolsi, a vals idej lekrdezsi, analitikai, elrejelzsi s adatbnyszati eljrsok modern formit. (IFUA) Figyelembe vve az IFUA Horvth&Partners meghatrozst elmondhat, hogy a BI megoldsokat ers informatikai kapcsolat jellemzi, hiszen lnyegben adatok kezelsre (belertve a kinyerst, transzformcit, trolst s megjelentst) ltrehozott eszkzkrl van sz.

(A BI rendszerek) alapvet clja, hogy biztostsa a hozzfrst a sztszrtan elhelyezked adatokhoz, s ezen keresztl kapcsolja ssze a klnbz folyamatokat s embereket a vllalati stratgival. (Fekete, 2005, 1. old.)Lthat teht, hogy egyesek a vllalati folyamatok tmogatst, msok egyes elemzsi tevkenysgeket rtenek zleti intelligencia meghatrozsn. Ltezik mg technolgiai szempont megkzeltse is a fogalomnak, tbben a felhasznlt eszkzkszlettel azonostjk a BI megoldsokat, melyek kre nem statikus, hanem llandan bvl, de az adattrhzak, a tervez s/vagy elemz OLAP alkalmazsok, a riporting rendszerek, s az adatbnyszati eszkzk mindenkppen ebbe a krbe tartoznak. (K, 2008.) A dolgozat tovbbi rszben az elbbihez hasonl megkzeltst alkalmazok.

Az elzekben bemutattam a tmakrben szlelhet defincis bizonytalansgot. Belthat, hogy nem egyszer feladat mg nmagt a fogalmat sem definilni, ezrt elkpzelhet, hogy milyen mrtk egy BI projekt megvalstsa krli bizonytalansg is. A definci krli szubjektivits meglehetsen jl prhuzamba llthat a projektek megvalsulsnak, azok folyamatnak, cljainak vltozatossgval s ebbl kifolylag az eredmnyeivel, sikeressgvel is.1.2 Szerepe az zletben

Az elz fejezetben mr emltettem, hogy az utbbi kt vtizedben exponencilisan nvekv trend figyelhet meg a keletkez elektronikus adatok mennyisgben. A gazdlkod szervezeteknl megjelen informatikai rendszerektl ered ez a robbansszer nvekmny. Ez esetben nem is felttlenl arrl van sz, hogy a papron ltez adatok digitalizlsa trtnt meg, hanem egyszeren a tranzakcis rendszerek fejldsvel prhuzamosan az zleti tevkenysg minden mozzanatt kpesek lettek rgzteni. Lnyegben olyan adatok jelentek meg, amik korbban nem is lteztek. Az automatizlsnak ksznheten ezek nagy rsze akr emberi beavatkozs nlkl is keletkezhet. Gondoljunk csak arra, hogy a legtbb vllalat manapsg mr hasznl valamifle operatv irnytsi (pldul: ERP) vagy tranzakcis (pldul: knyvelsi, szmlavezetsi) rendszert, amelyekben minden esemny, vltozs (azaz tranzakci) gpi trolsra kerl. A jvbe tekintve elmondhat, hogy ez a folyamat nem ppen a lassuls irnyba mutat. Elektronikus kereskedelem, internetes hirdetsek, RFID chipek, elektronikus fizetsek elterjedtsgnek nvekedsvel az ezeket mkdtet rendszerek hasonl mennyisgben fognak tranzakcis adatot ellltani. Belthat teht, hogy ilyen adatmennyisg mellett kihmozni a vezets szmra relevns informcit meglehetsen nehz s krlmnyes munka, arrl nem is szlva, hogy ez milyen nagy erforrs-igny tevkenysg.

Az adatok felhasznlshoz szorosan kapcsoldik a piaci verseny az zleti intelligencia tmakrben. Emltettem mr, hogy a temrdek adattal mit sem r egy szervezet, ha azt hasznostani nem tudja. A BI rendszerek alapvet clja, hogy az adatok feldolgozsval olyan informcihoz juttassa a dntshozkat, hogy azok zletileg jobb dntseket tudjanak hozni. A jobb dnts elnyt jelent a versenytrsakkal szemben ebbe a logikba illesztve teht, az adatfeldolgozs minsge meghatroz tnyezje a versenyelnynek. Nem elhanyagolhat az idtnyez sem, hiszen minl gyorsabban kell reaglni a piac vltozsaira, lehetleg a versenytrsak eltt. Az zleti intelligencia megoldsok nagyszersge valahol itt ragadhat meg: megfelel minsg informci biztostsa a megfelel idben.

A BI dntstmogatsban jtszott szerepnek egy msik megkzeltse a klnbz strukturltsg dntsi helyzetek kezelse. Kztudott, hogy a jl strukturlt problmk megoldsa knnyen automatizlhat, mg a gyengn strukturltak nehezen, vagy szinte alig. Ebben teht kulcsfontossg dolog, hogy az zleti intelligencia hogy tud bekapcsoldni a rosszul strukturlt dntsi helyzetek megoldsba.

Az zleti intelligencia megoldsok terjedsnek okai kz szoks sorolni a teljestmnymenedzsment irnt nvekv zleti ignyt. A teljestmnymenedzsment tbb rszbl pl fel, kiindulva a vllalati stratgibl, az operatv clok megfogalmazsn s azok vgrehajtsn keresztl, eljutva az rtkelsig (s egyben a vllalati stratgihoz trtn visszacsatolsig), egy az egsz szervezetet tfog tevkenysgrl van sz. A BI a teljestmnymenedzsment-rendszerben elssorban a tervezs, dnts, mrs, jelents s elemzs szerepkrkben nyjthat tmogatst. A leggyakoribb vzi aminek megvalstsa a gyakorlatban meglehetsen nehz egy olyan integrlt rendszer, ami kellen rugalmas, vals kpet ad a vllalat mkdsrl, figyelembe veszi a kls krnyezet vltozsait, alkalmas kls s bels adatok kezelsre s a szervezeten bell szles krben alkalmazhat, sok funkcit s szemlyt kpes kiszolglni, mindamellett termszetesen, a krlmnyeket figyelembe vve maximlisan automatizlt.

Az elzekben bemutatott funkcik outputjai praktikusan klnbz jelentsek s kimutatsok is lehetnek, amiket a vezets felhasznl az zlet irnytshoz. Azonban riportok ms clra is kszlhetnek: egyes vllalkozsoknak (pldul bankoknak, biztostknak) bizonyos szablyozi, felgyeleti elrsoknak (pldul tkvel val elltottsgi mutatknak) is meg kell felelnik. Ezrt a trvnyi megfelels nmagban nyomst helyezhet szervezetekre az zleti intelligencia megoldsok bevezetsekor (habr ez elssorban a reporting terletn jellemz). (Bgel Papp, 2008)

1.3 Szerepe az informatikban

Az adatvagyon folyamatos, nagymrtk nvekedse jabb s jabb kihvsokkal szembesti a technolgiai szakembereket is.

A nagyvllalatokban nem ritka egymstl elszigetelten, klnllan mkd informatikai rendszerek nagy szma. Az egysges informciszolgltats lehetsgt az adattrhzak megalkotsa alapozta meg.

Adatbzis-kezelk szempontjbl az adattrhzat lnyegben egy nagy adatbzisknt lehet elkpzelni, hasonl funkcikkal s problmkkal, csak nagyban. Elemzk megkzeltsben a lnyeg az informci kinyersn van, s nem rdekes, hogy a httradatok mily mdon vannak eltrolva.

Informatikusok sokig gy gondoltk, hogy minden feladatra a legmegfelelbb eszkzt rdemes hasznlni. Ez kt f problma halmazt is rint, mghozz eszkz s a szemantikai integrcis problmkat. Termszetesen egy adattrhz alap BI rendszer megvalstsa bonyolult annyira, hogy az egszet egy egysgknt rdemes kezelni, ha sikeres megvalstsra treksznk.

A klnbz rendszerekbl a forrsadatok kinyerse, tmeges transzformcija, betltse, trolsa, feldolgozsa s megjelentse mind jelents szaktudst ignyel.

A BI architektra kialaktsa teht technolgiai szempontbl is rdekes s nem egyszer feladat. Az egsz folyamatot komoly informatikai szaktuds kell, hogy tmogassa. 1.4 BI megoldsok piaca

2. bra: A mgikus kvadrns (2010. janur 29.) A Gartner (informatikai piac kutatsval foglalkoz amerikai vllalat) minden vben nyilvnossgra hozza a 2. brn lthat, gynevezett mgikus kvadrnst, amibe a piaci szereplket helyezik el a vzijuk teljessge, s annak vgrehajtsi kpessgk szerint. Lnyegben az y tengely a jelenben trtn prosperlst mri, mg az x tengely a jvbeli vrhat sikereket. Mint a legtbb menedzsment tan esetben, itt is a jobb fels ngyzet a nyer hely, szemben a bal alsval, ami lemaradst vett elre.A Gartner riportja (Sallam, et al., 2010) megllaptja, hogy 2009-ben a BI piac majdnem 2/3-t az gynevezett megavendorok birtokoltk (IBM, Oracle, Microsoft, SAP, szoftvergyrtk s konzultns cgek), azonban a BI felhasznlk egy rsze a tiszta BI szereplk fel fordult. Ennek rszben oka az, hogy a gazdasgi helyzet a vlsg kzepn abba az irnyba szortotta a megrendelket, hogy teljes vllalatot tfog, megtrlst azonnal nem mutat rendszerbevezetsek helyett, kis terletre korltozd, szinte azonnal elnykkel jr olcs megoldsok utn nzzenek. Ezt a rst a kisebb, innovatv beszlltk betmtk, mg a megavendorok eltt. Msrszt a minden felvsrlsnak megvan a tipikus letciklusa, mrpedig 2007 s 2008 bvelkedett a vllalati felvsrlsokban, jelents konszolidci trtnt a piacon. Kezdetben jelents aggodalmakat okozhat a vsrlk kztt, tekintve pldul a termkek tovbbi lettjt, azok egy felvsrls utn gyakran megvltoznak. Az tmenet idt vesz ignybe, s nem knnyti meg a vsrlk dolgt sem. Gartner szerint a jvben a BI az els tben marad (a legfrissebb Gartner felmrs szerint [McDonald, 2010] ez jelenleg pontosan az 5. helyet jelenti, az elz vek els helyhez kpest) a legnagyobb priorits technolgiai beruhzsok tekintetben, habr a nvekeds egy szmjegy marad. 2 AdatbnyszatAz adatbnyszat, mint kifejezs, napjainkban hasznlatos fogalom, a kilencvenes vekben vlt ismertt. Azonban nem jelenthet ki, hogy azeltt nem foglalkoztak volna hasonl tevkenysggel, ms cmsz alatt. Lnyegben ugyanis adatelemzsrl van sz, amihez elssorban statisztikai mdszerek nyjtottak segtsget. A kilencvenes vek kzeptl azonban ezen j fogalom kialakulsa az adatbzisok elterjedshez, s risi adatllomny felhalmozdshoz kthet. Az adatbzis-technolgia fejldsnek s a trol kapacitsok olcsbb vlsnak ksznheten olyan mret adatbzisok jttek ltre napjainkra, amik kezelse specilis eljrsokat, technikkat, esetnkben szoftvereket ignyelnek. A fentiekkel prhuzamosan a gpi tanulsi eljrsok, mestersges intelligencia kutatsok terjedse is hatssal volt az adatbnyszat, mint interdiszciplinris terlet kialakulsra. (K, 2008) sszefoglalan teht elmondhat, hogy az adatbnyszat a statisztika, adatbzisok s gpi tanuls (mestersges intelligencia) kutatsi terletek kzs leszrmazottja, melynek eredmnyeit (tbbek kztt) a tudsmenedzsment hasznlja fel.Az adatok kezelsn ugyanis itt most nem a technolgiai rtelemben vett adatbzis-menedzsmentet, klnfle trolsi mdszereket, s hardver megoldsokat rtem, hanem az adatok formjban megtestesl (rejtett) informci s tuds automatizlt feltrst. Han-Kamber szerzpros (Han, 2004) a kvetkezkppen definilja az adatbnyszat fogalmt: a tuds nagy mennyisg adatbl trtn kivlasztsa, kibnyszsa. Ezt egy kiss konkretizlva az adatbnyszat egy olyan zleti-technolgiai folyamat, amely az adatok kivlasztst, vizsglatt kveten olyan nem trivilis sszefggseket, eddig fel nem ismert mintkat s tudst ad eredmnyl, amit annak felhasznlja zleti elnny tud konvertlni. Ez beleillik Adriaans-Zantinge (Adriaans-Zantinge, 2002) szerzpros ltal alkotott kpbe, miszerint az adatbnyszat a tudsfeltrs egyik llapota, amelyben az sszefggsek felfedezse trtnik. A dolgozatomban hasonl megkzeltsben hasznlom tovbb a fogalmat. 2.1 Adatbnyszat versus SQL

Az adatbzisokban trolt adatok elrsnek napjainkban legelterjedtebb mdja az gynevezett strukturlt lekrdezsi nyelv (Structured Query Language), azaz SQL hasznlata. Lnyegben minden relcis adatbzis-kezel rendszerhez hasznlhat egysges nyelvi eszkztrrl van sz, klnbz rendszereknl kisebb-nagyobb eltrssel. (A lekrdez nyelv sajtossgaira most nem trek ki.) Felvetdik teht a krds, hogy ha adott egy technika az adatbzisokban tallhat adatok lekrdezsre, akkor mirt van szksg egyb eszkzkre? A vlasz az adatok lekrdezsnek mdjban keresend. Mg az SQL segtsgvel knnyen meg tudjuk adni, hogy pldul egy bank gyfeleinek tranzakciit tartalmaz tblban ki, mikor, milyen tranzakcit hajtott vgre, addig az adatbnyszat arra a krdsre adhat vlasz, hogy a tranzakcik alapjn milyen tpus gyfelei vannak az adott banknak, azokat milyen szegmensekbe lehet sorolni. Valsznleg megfelel SQL lekrdezsek (meglehetsen nagy szm) sorozatval el lehetne jutni az utbbi krds helyes megvlaszolshoz is, azonban belthat az tlsgosan id s erforrs ignyes lenne. Ezzel szemben az adatbnyszat felhasznlva statisztikai mdszereket, gpi tanul algoritmusokat sokkal rvidebb id alatt, automatizlva elvgzi ezt a feladatot. Megjegyzem itt, az SQL az adatbnyszat alapvet eszkztrhoz tartozik, nagyban segti annak hatkonysgt. (Adriaans-Zantinge, 2002)2.2 Az adatbnyszat folyamata

Az elzekben emltettem, hogy az adatbnyszat a tuds feltrshoz alkalmazhat folyamat, melynek sorn eljutunk az sszefggsek felfedezsig. Ez egy sok lpses, bonyolult feladat.

3. bra: Az adatbnyszat folyamata

Az egyes lpsek ttekintshez alapul veszem K Andrea (K, 2008, 156-159. old.) munkjt.1. Feladat megrtse. Mivel az adatbnyszat clja vgs soron zleti elny szerzse, ezrt az els fontos lps a gazdasgi folyamatok megismerse. A folyamatok logikai szint megismershez szorosan kapcsoldik azoknak az informatikai rendszerekre trtn lekpezse. Teht milyen adatok llnak rendelkezsre, mely rendszerekben, milyen folyamatok hasznljk azokat, milyen clokra.

2. Adatok elksztse. Egyesek szerint az zleti intelligencia projektek esetben az adatok sszegyjtse, kinyerse, transzformlsa, betltse, teht sszefoglalan az adatok elksztse az elemzsekhez a projektek idtartamnak ezzel prhuzamosan a bdzsjnek akr 80%-t is elvihetik. Nincs ez mshogy az adatbnyszat esetben sem. Legtbbszr az adatok nem llnak kzvetlenl rendelkezsre, ezrt azokat ssze kell gyjteni, s egy konzisztens adathalmazban le kell trolni. Ehhez a kvetkez lpseket szoks elvgezni:a. Adatok elrse. Adattrhzzal s/vagy adatpiaccal rendelkez szervezetek esetben ez viszonylag knny feladat, hiszen abban rendelkezsre ll(hat) az adatbnyszathoz szksges adatok halmaza. Termszetesen adattrhz meglte nem garancia arra, hogy mdosts nlkl elrhessk az elemzshez szksges adatokat, azonban az esetek tbbsgben legalbb az adatminsggel nem kell bajldni. Ettl fggetlenl tallkozhatunk olyan esetekkel is, amikor az adattrhz csak rszben tartalmazza a vizsglni kvnt adatkrket, vagy azok granularitsa nem megfelel. Mindenesetre adattrhz nlkli szervezetek esetben ez a lps szinte biztosan tbb erforrst ignyel, mint azoknl, akik mr elmozdultak az adatintegrci irnyba.b. Hinyz adatok ptlsa. Ez az adathalmazon fut modellek szmra fontos, ugyanis egynhny (pldul a regresszis modellek) megkveteli a kitltttsget.c. Adatok kivlasztsa. Ebben a lpsben trtnik meg a szksges entitsok (fizikai szinten: tblk), attribtumok s egyedek (rekordok) kivlasztsa az elemzshez. Nagy adatbzisoknl nem rdemes a teljes adathalmazbl dolgozni a kezdetektl, hiszen csak megnvelnk a futsidt, ehelyett mintavtel ajnlott.d. Adatok transzformlsa. Ennl a lpsnl az adatok minsgbl fakad, vagy az elemzshez szksges mdostsok trtnnek meg. Nhny plda: eltr formtumok konszolidcija, csoportok kpzse.e. Adatok integrlsa. A klnbz helyrl szrmaz adatok (fizikailag vagy logikailag) egy tblban trtn trolsa.

f. Adatok particionlsa. Elfordulhatnak olyan sszetett feladatok, melyekhez tbb modell kiprblsa is szksges. Ez esetben a rendelkezsre ll rekordokat hrom rszre szoks bontani: training, validcis, teszt partcikra.

3. Modellezs. Ez az adatbnyszat legrdekesebb, s taln legltvnyosabb rsze, ugyanis itt trtnik meg a rejtett sszefggsek felfedse. Az adatbnyszathoz hasznlt szleskr modellkszletbl kivlasztjuk a feladat szempontjbl legalkalmasabbnak tlt modellt, s teszteljk eredmnyeit. Bonyolult feladat esetn tbb modellt hasznlhatunk, s eredmnyeiket sszehasonltva vlasztjuk ki a feladathoz illt. A gyakorlatban t f modelltpust hasznlnak legtbbszr, ezek: trstsi szablyok (asszocicik), klaszterezs, regresszi, dntsi fk, neuronhlzatok.4. Modell alkalmazsa. Az elkszlt/kivlasztott modellt be kell pteni a szervezet folyamataiba.2.3 Adatbnyszat a gyakorlatbanEbben a fejezetben a teljessg ignye nlkl felsorolok nhny olyan zleti terletet, ahol napjainkban rendszeresen, s sikeresen alkalmaznak adatbnyszati eszkzket.Jelenleg a vllalatok zletvitelben az adatbnyszat legnagyobb felhasznlja a marketing funkci, azon bell is az gyflkapcsolatok kezelse (CRM). Jellemzen kampnyok szervezshez s gyfelek szegmentlshoz hasznlatos. Nyilvnval kltsgmegtakartst hoz pldul egy gyfl-megkeressi kampny eltt elre jelezni, hogy mely gyfeleknl rhet el hatst az adott kampny. Ez esetben a mltban folytatott kampnyok eredmnyeit hasznljk fel, s becslst adnak arra, hogy milyen tulajdonsgokkal br egyedek esetnkben gyfelek reagltak hasonl megkeressekre. Jelen esetben elg csak arra gondolni, ha a kampny eltt gy 50%-kal cskkentjk a megkeresend gyflszmot, mikzben az eredmnyessgben hasonlt tudunk produklni, a kltsgmegtakarts mindenki szmra nyilvnval. Szintn az gyfelek viselkedshez kapcsold terlet a vsrli szoksok vizsglata, s az eredmnyekre alapul akcitervek kidolgozsa. Itt a jl ismert, szakmai berkekben sokak ltal emlegetett pldt idznm, mghozz a srt s pelenkt vsrlk kztti kapcsolat feldertst. A trtnet szerint adatbnyszat technikjval fnyt dertettek arra az sszefggsre (az Egyeslt llamokban), hogy a kisgyermekes csaldokban htvgente az ruhzakba pelenkt vsrolni kldtt apk egyttal srt is vsroltak maguknak, gy az sszecsomagolt sr s pelenka akcik nagy sikernek rvendtek. A trtnet valdisga utn kutatva az interneten nem meglep mdon ellentmondsos eredmnyre jutottam, azonban a pldban a lnyeg ettl fggetlenl egszen jl megragadhat: nem trivilis sszefggsek felfedezse rvn fontos zleti elny szerezhet.

Msik jelents zleti felhasznli az adatbnyszatnak a pnzgyi szolgltatk. Bankok s biztostk szvesen alkalmazzk azokat a klnbz gyfelek rtkelsben, legyen az elzetes, vagy utlagos vizsglat. Jelents sikereket rt el az adatbnyszat a pnzgyi szektor kockzatelemzsi terletn. Bankoknl bevett gyakorlat napjainkban az gynevezett hitelbrlat, mely pnzintzettl s ignybe vett konstrukcitl fggen napokig, vagy nem tl szerencss esetben hetekig tart folyamat. Ekkor az gyfl a bank rendelkezsre bocst bizonyos adatokat, amik alapjn a kockzatkezels megvizsglja az adott hitelignylst, s dntst hoz arrl, hogy az gyfl szmra a hitel kihelyezhet-e az adott formban, vagy csak bizonyos korltozsokkal, esetleg a krelem egyrtelmen visszautastand. Ekkor a httrben klnbz modellekbe illesztik az gyfl adatait, s gy kapnak informcit az gyfl minsgre vonatkozan. A modellek kialaktsban, illetve folyamatos fejlesztsben oroszlnrszt vllal az adatbnyszat. A folyamatosan nvekv gyfladatok alapjn mintk s asszocicik alakthatk ki arra vonatkozan, hogy valsznsthet-e az gyfl hitelnek bedlse vagy a vllalat csdje, s mg szmos ms, a pnzintzet szempontjbl fontos tnyez vrhat rtke.Az elektronikus tranzakcik, gy mint bankkrtys fizets, kszpnzfelvtel, on-line tutalsok, internetes vsrlsok mind-mind nagyon kedvez krnyezet a csalk szmra. Szinte hetente lehet hallani hreket arrl, hogy milyen csalsokat kvetnek el valamilyen elektronikus csatornn keresztl. A pnzintzetek ezrt, vdve az gyfeleiket, egyre tbb erforrst alloklnak az ilyen jelleg incidensek kezelsre s megelzsre. Az adatbnyszat ezen a terleten is j szolglatot nyjthat. Segtsgvel gyfl viselkedsi mintk, profilok alakthatk ki, melynek birtokban a tranzakcik folyamatos monitorozsa sorn elkerlhetk a csalsok, vagy legalbbis azok anyagi kvetkezmnye. Termszetesen a fkusz itt is az automatizlson van, ugyanis gazdasgossgi szempontbl kptelensg lenne emberi felgyeletet rendelni minden egyes tranzakcihoz. Az adatbnyszat segtsgvel teht kiszrhetk a gyans elemek, s a munkatrsaknak elg csak ezekre koncentrlniuk.Most kt terlett emeltem ki az adatbnyszat felhasznlsnak, azonban ltni kell, hogy ahol nagy mennyisg adattal dolgoznak, s azokbl tuds kinyerse szksges brmilyen okbl, az adatbnyszat biztostja ezt a kpessget.

2.4 Adatbnyszati szoftverekAz elzekben bemutattam, hogy az adatbnyszat hogyan tud az zlet segtsgre lenni. Sok szoftverfejleszt cg felismerte azt, hogy az adatbnysz szoftverek piacn nagy sikereket lehet elrni, hiszen egyre tbb szervezet vesz ignybe ilyen jelleg alkalmazsokat. Ebbl kifolylag napjainkban a piacon j nhny szereplvel tallkozhatunk. Az albbi tblzatban sszefoglaltam nhny jelentsebb zleti intelligencia beszlltt, akik szoftver portflija tartalmaz egyarnt adatelemz, adatbzis s adattrhz menedzsment eszkzket:

VllalatAdatbnyszati szoftverek

Business Objects (SAP)Predictive Workbench

Set Analysis

MicrosoftSQL Server Analysis Services

IBMDB2 Intelligent MinerIBM SPSS Modeller

OracleOracle Data Mining

MicrostrategyData Mining Services

NCR TeradataTeradata Warehouse Miner

SASSAS Enterprise Miner

1. tblzat: Adatbnysz eszkzgyrtkA fenti lista termszetesen nem teljes, nem tl hosszas nyomozs utn az interneten knnyen rtallhatunk klnbz ms adatbnysz szoftverekre is. Szintn rengeteg tancsad s rendszerintegrcival foglalkoz cg szolgltatsai kztt megtallhat adatbnyszattal kapcsolatos tevkenysg is, ezekre most a hely szke miatt nem tudok kitrni, de elmondhat rluk, hogy a feladat mrettl s bonyolultsgtl fggen jellemzen a fenti gyrtk specifikus szoftvereit veszik ignybe, vagy open-source megoldsokat hasznlnak, feltve, ha nincs sajt fejleszts eszkzk.3 Open-sourceNapjainkban az open-source szoftverek egyre nagyobb szeletet hastanak ki maguknak az informatikban. Egyes open-source megoldsok teljesen egyenrtk alternatvt knlnak a hasonl kereskedelmi szoftverekkel szemben.Elszr is az open-source (nylt forrskd) fogalmt tekintem t. Sokszor mg hozzrt fejekben is az open-source fogalma alatt a programok ingyenessgt rtik, ami a gyakorlatban rszben meg is felel a valsgnak, azonban a kapcsolat az ingyenessg s a nylt forrskd kztt nem ilyen egyrtelm. Az open-source szoftverek esetben a lnyeg (nevbl is fakadan) a szoftvereket meghatroz, mkdsket ler forrskd nyilvnossga. Nem merlk el a szoftverkszts technikai rszleteiben, de egy kis kitrt itt rdemes tenni. A szoftvergyrts sorn a programkdot ltalban szakmban jratos emberek szmra rthet programozsi nyelveken rjk. Ahhoz, hogy az gy elkszlt program a szmtgp szmra rtelmezhet legyen, a programkdot lefordtjk gpi kdra, ami viszont mr az ember szmra nem rtelmezhet formj. Ha megnzzk brmilyen teleptett szoftver fjljait a szmtgpnkn, azt ltjuk, hogy az llomnyok (pldul exe vagy dll fjlok) ilyen gpi kdot tartalmaznak. Ezek alapjn a szoftver tovbbi mdostsa nem lehetsges, azt csak a forrskd ismeretben tehetnnk meg. A kereskedelmi szoftverek esetn ezt a forrskdot hagyomnyosan nem is fogjuk megismerni. Az open-source megoldsok esetben azonban ez nem gy van. Az open-source fogalma a szoftver licenszek tmakrhez kapcsoldik. Egy kereskedelmi szoftver esetn ugyanis az alkalmazott licenszek meglehetsen behatroljk a felhasznl szmra, hogy miknt hasznlhatja az adott alkalmazst. (A forrskdhoz visszakanyarodva pldul a gpi kd visszafejtse, s gy a forrskd megismerse tiltott.) Az open-source szoftverek esetben a forrskd teljesen nyilvnos, brki szmra elrhet. Az ingyenessg mindssze ennek a kvetkezmnye. Ugyanis a forrskd ismeretben, egy hozzrt brmikor lefordthatja azt sajt maga szmra gpi kdd, ami utn a szoftver futtathatv vlik, gy a legtbb esetben nem rdemes azt pnzrt rulni.Nylt kdnak tekinthet teht egy olyan szoftver, amelyre valamilyen open-source licensz vonatkozik. Tbb tucat open-source licensz ltezik napjainkban, lnyegben brki kszthet ilyet, ha azt az open-source kezdemnyezs f intzmnye, az Open Source Initiative (tovbbiakban: OSI) jvhagyja. A jelenleg jvhagyott licenszek a mellkletben (1. tblzat) megtallhatk. A leggyakrabban taln a kvetkezkkel tallkozhatunk: BSD, GPL, MPL, W3C. A dolgozat terjedelmbe nem fr bele az egyes licenszek tartalmnak rszletes ttekintse, ezrt a tovbbiakban inkbb az OSI ltal kzlt defincis listt tekintem t. (OSI) Az open-source szoftvereknek a kvetkez kritriumoknak kell megfelelnik:1. Szabad terjeszts lehetsge2. Forrskd elrhetsge3. Mdostsok lehetsge4. Szerzi forrskd integritsa

5. Diszkriminci-mentessg szemlyekkel vagy csoportokkal szemben

6. Diszkriminci-mentessg felhasznlsi terletekkel szemben

7. Licensz terjesztse

8. Termk specifikus licensz tilalma9. Korltozsmentessg ms szoftverekkel szemben10. Technolgiai semlegessg biztostsaAz open-source mozgalom clja teht a forrskd szabadd ttele, az zleti alap felhasznlst nem tiltja. Ez nem okoz ellentmondst az nylt forrskd szoftverek filozfijval. Gondoljunk csak napjainkban elterjedt, mindenki szmra elrhet (letlthet) open-source portl keretrendszerekre. Egy kzeli plda az egyetemi portlhoz is hasznlt TYPO3 CMS. Ez a CMS keretrendszer egy open-source szoftver GPL licensz alatt. (TYPO3) Ha az egyetemet tekintem alapul, egy ilyen rendszer bevezetse risi kihvst jelent, a sikeres bevezetshez elengedhetetlen nagy szakrtelemmel s tapasztalattal rendelkez emberi erforrs megszerzse. Teht a pldnl maradva, gy gondolom, hogy egy sikeres zleti modell lehet (open-source) CMS rendszerbevezetsre szakosodott vllalkozs ltrehozsa. Hiba ingyenes a TYPO3, a kapcsold szolgltatsokra ptett cg profitot termelhet a rendszer bevezetsvel, zemeltetsvel, oktatsval, vagy akr tovbbi (a GPL licensz szerint engedlyezett egyrtelmen elklnthet modulok [Free Software Foundation]) fejlesztsvel. 3.1 Open-source az zleti letbenMr emltettem, hogy az open-source megoldsok zleti felhasznlsa napjainkban egyre inkbb terjedben van, relis alternatvt mutatva egyes kereskedelmi szoftverekkel szemben a piacon. Korcsmros s szerztrsai cikkkben [Korcsmros, et al., 2010] sszefoglaltk, hogy milyen elnykkel jrhat nylt kd szoftverek bevezetse.Alacsony szoftverbeszerzsi keret esetn gymond akr knyszerknt is rtelmezhetk open-source megoldsok szmba vtele. Kereskedelmi szoftverekre jellemz, hogy a beszerzs nem egyszeri kiadsknt testesl meg, hanem a hasznlat sorn ves lincensz djak megfizetse is szksges. Nem ritka eset, hogy a vsrlstl szmtott 4-5 ven bell ezek a kltsgek elrik az eredeti beszerzsi rtket. Open-source szoftverek esetn ilyen kltsgekkel nem kell kalkullnunk, ha a szoftverhez nem vesznk ignybe tmogatst, illetve fejlesztseket nerbl implementlunk benne.Szerencss helyzetben a szoftverek beszerzshez rendelkezsre ll pnzmennyisg nagy, s van mdunk megvsrolni egy ismert gyrt drga alkalmazst. Elfordulhat azonban, hogy az adott megolds felhasznli szmhoz kttten licenszelt, s a szervezetnkben nagyszm felhasznl kvnja hasznlni. Ez esetben minden felhasznl szmra beszerezni a licenszt mg a ltszlag kimerthetetlen keretnk ellenre is szemet szran nagy kiadsnak tekinthet. Ilyenkor rdemes megfontolni, hogy a felhasznlk csoportjt sztbontsuk kulcs- s tmeg felhasznlkra, akik kzl a kulcsfelhasznlk megkapjk a kereskedelmi szoftver egyedi licenszeit, mg a tbbiek valamilyen szorosan kapcsold open-source megoldssal rik el a mag rendszer funkcionalitst. Nylt kd rendszereknek van mg egy nagyon szembetl elnyk, mghozz a rendszerbevezetsek esetn cskkentik a bevezetsi kockzatot. Ugyanis j kereskedelmi rendszer bevezets esetn a licenszkltsgek azonnal jelentkeznek, mg a (jvbeli) felhasznlk szmra a hasznok, csak a bevezetsi projekt elrehaladsval, hnapokkal ksbb jelentkezik elszr. Emellett elfordulhat olyan helyzet, akrmennyire is igyekeztnk tkletesen tervezni, hogy a projekt indulsa eltt nem fogalmazdott meg minden zleti elvrs, ami ksbb jabb s jabb kltsgeket jelent. Az open-source rendszerek esetben az ilyen kockzatok jelentsen alacsonyabbak. Egy open-source megolds bevezetse sorn viszonylag alacsony kockzat mellett megismerkedhetnk egy j rendszerrel, amikor is akr az is kiderlhet, hogy az adott alkalmazs teljesen megfelel a szervezet ignyeinek, vagy ha mgsem, jelents elrehaladst rtnk el a vgs rendszernk bevezetsben, ugyanis az zleti logikai modellezst elvgeztk.Az open-source alkalmazsok cskkentik teht a bevezetsi kockzatokat, valamint ezzel egytt a kltsgeket is. Azonban azt nem szabad elfelejteni, hogy egy rendszer legyen zrt vagy nylt forrskd, a szakrtelem, tervezs, munkaid nlklzhetetlen rszei a sikeres rendszerbevezetsnek.4 Open-source zleti intelligencia

A nylt kd szoftverek ltalnos ttrse nem hagyja rintetlenl az zleti intelligencia terlett sem, a trendek egyrtelmen tovbbi nagymrtk bvlst mutatnak. Nem vletlen, hisz napjainkban tapasztalt vilggazdasgi vlsgban a kltsgcskkentsek az informatiknak ezt a terlett is elrtk, jobban fkuszba hozva az open-source (olcsbb) megoldsokat. A Gartner mg azt is kijelentette egyik 2009-es riportjban, hogy a nylt kd BI megolds bevezetsek 2012-ig megtszrzdnek. (Bitterer, 2009) A kutatsai alapjn a kvetkez megllaptsokat tette: Az open-source BI adaptcik nagyjbl megktszerezdnek minden vben.

Hasonlan a kereskedelmi BI szoftverekhez, a nylt kd esetben is a reporting, elemzsi funkcik s a dashboardok a jellemz implementlsi sorrend.

Mikzben az gynevezett megavendorok (BI szoftvergyrt s bevezet ris cgek, gy mint pldul az IBM, Oracle vagy az SAP) a teljes technolgiai kpessgeiket igyekeznek bevezetni, addig az open-source megoldsok bevezetse az elg lesz ez is filozfibl fakadan folyamatosan nvekszik. Szleskr implementcik mg a nylt forrskd rendszerek esetn is elrhetik a milli dollros hatrt, a magas fejlesztsi s munkaer kltsgek miatt, a tmogats djn fell.

Lthat teht, hogy az open-source BI alkalmazsok elrtek az rettsgk azon pontjra, amikor a szervezeteknek rdemes figyelembe venni azokat egy alternatv megoldsknt a kereskedelmi szoftverekkel szemben. rdemes megvizsglni, hogy alapvet kvetelmnyeknek (gy mint hagyomnyos riportols vagy adatelemzs) megfelelnek-e, klnsen, ha a priorits egyrtelmen az alacsony kltsg megvalsts. Az open-source BI applikcik erteljes elretrse a kormnyzati s kzszolglati szektorban lthat, illetve kzepes mret vllalatoknl, mg a gigantikus rendszerbevezetseket eddig is szvesen vgrehajt telekommunikcis, s pnzgyi szektor tovbbra is elssorban a kereskedelmi megoldsoknl marad. Ezt a terit ersti a BeyeNetwork s Third Nature 2009-es felmrse is Mark Madsen tollbl (Madsen, 2009), miszerint a kis- s kzpvllalati szektor a legjelentsebb felhasznlja ezeknek az open-source szoftvereknek, amellett, hogy egyre tbb nagyvllalat is igyekszik rtkelni ezeket az j eszkzket, s gondolkodik azok valamilyen alkalmazsi lehetsgn. Az elzekben nem volt sz rla, azonban Madsen emltst tesz a nylt kd BI alkalmazsok terjedsnek oroszlnrszt az j projektekben val kiprbls, illetve meglv rendszerek funkcionalitsnak bvtse hozta (nem pedig a mr mkdk cserje). Ez nem meglep, hiszen ilyen vlsgos idkben egybknt sem jellemz mr mkd rendszerekbe jabb pnzt lni, inkbb az idszak tvszelsn van a hangsly. Az egyes open-source BI komponensek rettsgkkel prhuzamosan egyre nagyobb arnyban kerlnek felhasznlsra. A BeyeNetwork kutatsa hozta ezt az eredmnyt, bemutatva, hogy az open source adatbzisok, s adatintegrcis vagy ETL eszkzket hasznljk legnagyobb arnyban. ket kvetik egyb open-source BI alkalmazsok s a sort a fejlett elemz eszkzk zrjk a legkisebb penetrcival. Nem meglep adatok ezek, hiszen nagyjbl ilyen sorrendben jelentek az ilyen tpus eszkzk. Minl rgebb ta lteznek, termszetesen, annl tbb fejleszts, finomts trtnt rajtuk, ezzel javtva azok minsgt. A nylt kd adatbzisok mr j ideje a piacon vannak, ez meg is ltszik rszesedskben. A BI terleten val terjedsk gtja lehet az analitikus lekrdezsi fejletlensgk. A BeyeNetwork felmrsben ez a vlaszokbl visszatkrzdik, ugyanis a vlaszadk kzel 30%-a tapasztalt teljestmnybeli problmt ezeknl az adatbzisoknl. Jellemzen teht nagy adatmennyisg (>500GB) esetn ezek az eszkzk a komplex lekrdezsek, s tbb felhasznl konkurlsa sorn nem mkdnek tkletesen. Az ETL eszkzk esetn hasonl problmkat nem jeleztek a felhasznlk jelents szmban, habr megjegyezend, hogy az open-source megoldsok rendeltetse ezen a terleten egy clra szolgl, az adatintegrcis feladatok elvgzsre, s pldul meta adat menedzsment komponenst nem tartalmaznak, ellenttben sok kereskedelmi forgalomban lv trsukkal. Jelents rszket radsul csak tranzakcis applikcik sszekapcsolsra hasznljk, mint sem adattrhz tpllsra, amikor is a feladat jval egyszerbb: egy-kt rendszerbl elvgezni a migrcit egy msikba, ahelyett, hogy sok-sok forrsrendszerbl kellene tlteni a sok-sok tbls adattrhzat. A jelentsksztsre hasznlt open-source eszkzk felhasznlsi terletekben nem trnek el jelentsen a kereskedelmi termkektl. A nylt forrskd fejlett adatelemz eszkzk alacsony elterjedtsgnek tbb oka is van. Egyrszt magnak az eszkznek a felhasznlhatsga a szervezetekben jval korltozottabb, mint mondjuk egy jelentskszt vagy adatbzis szoftvernek. Ez teht nmagban ersen szkti a felhasznli krt, azonban a BeyeNetwork jelentsben megjelenik, hogy fontos htrltat tnyez mg a szervezetekben fellelhet elemzsek kifinomultsgi szintje is. Ezek sokkal meghatrozbbak, mint a tny maga, hogy open-source eszkzkrl van sz.sszefoglalva elmondhat teht, hogy az zleti intelligencia piacn az open-source alkalmazsok elssorban j bevezetsi projektekben jellemzek, mint sem meglv rendszerek cserjnl, jelents kltsgmegtakarts rhet el alkalmazsukkal, azonban ingyen nincs mkd nylt kd BI rendszer sem. rettsgk elrehaladsval prhuzamosan rdemes ezeket az eszkzket relis alternatvaknt figyelembe venni, s a tbbi kereskedelmi szoftverszllt alkalmazsaihoz hasonlan rtkelni. 4.1 Open-source adatbnyszat a RapidMiner szoftverrelEbben a fejezetben egy konkrt nylt kd, adatbnyszatra alkalmas alkalmazst mutatok be, a Rapid-I GmbH RapidMiner elnevezs szoftvert.

4. bra: RapidMiner logja

A Rapid-I GmbH-t 2006-ban alaptottk, de a RapidMinerrel mr a cg alaptsa eltt is 2001 ta tbb mint 30 fejleszt foglalkozott. A trsasg prediktv elemzsi, adatbnyszati s szvegbnyszati szoftvereket, megoldsokat s szolgltatsokat nyjt gyfeleinek, strukturlt s nem strukturlt adathalmazokbl.

5. bra: Rapid-I GmbH logja

A RapidMiner elrhet egy nmagban ll alkalmazsknt, vagy integrlva a szervezet mr meglv rendszereihez adatbnyszati modulknt. A honlapjn egy nhny nagy multinacionlis cg is fellelhet referenciaknt, gy mint pldul Ford, Honda, Nokia, IBM, HP, Cisco, Bank of America, vagy a Merrill Lynch. Alapveten a vllalat f profiljban a RapidMiner adatelemz, ETL s riporteszkzt knlja, azonban ehhez tartozik mg j nhny addicionlis sszetev, melyek kiegsztik az alap szoftvert (lsd 5. bra). Az adatelemz motor elrhet ingyenesen, a cg honlapjrl letlthet, a hozz tartoz kiegsztkrt azonban fizetni kell. Kt f kiadsban rhet el a szoftver, az ingyenesen letlthet gynevezett kzssgi kiadsban (Community Edition), illetve kifejezetten vllalatoknak sznt verziban (Enterprise Edition). A vllalati verzi mg tovbb szofisztiklt, ugyanis hrom csomagban rhet el: kismret, sztenderd, s fejleszti csomagokban. A fejleszti a legtbb komponenst s szolgltatst tartalmaz csomag, mg a kismret csomagban alig nyjt tbbet az alkalmazs a kzssgi kiadshoz kpest. (Az a nhny plusz elem azonban bizonyos esetekben egszen fontos lehet, ugyanis garancia s szoftverfrissts jr mr a legkisebb vllalati csomaghoz is.) A szoftver AGPLv3 nylt kd licensz hatlya al esik, a felhasznlsa ennek rtelmben a licensz dokumentci alapjn trtnhet. Az ltalam kiprblt verzi az 5.0.003-as szmot viselte, ez az alkalmazsbl 2010 mrciusban elrhet legfrissebb kiads.

6. bra Rapid-I termkportfli

4.1.1 Gyakorlati tapasztalatok

Mondhatni, szerencss idpontban kszlt a dolgozat, ugyanis a program hasznlatba trtn elmerlsem eltt nem sokkal (2009. december 8.) adta ki a nmet szkhely vllalat a RapidMiner 5-s verzijt (a 4.6-os utn). A verzivlts jelents felhasznli lmny javtst hozott magval a grafikus felhasznli interfszben, az eddigi kicsit nehezen kezelhet fa struktra helyett, a kereskedelmi szoftverekben mr viszonylag rgta hasznlt, intuitv, drag-and-drop stlus felleten, ltvnyos adatfolyamok elksztse vlt lehetv (7. bra). Jelents funkcibvls nem is trtnt ennek megfelelen, a fejlesztk fkusza a felhasznlbart fellet kialaktsra irnyulhatott.

7. bra: Adatfolyam a RapidMinerben

A felleten meglepen knnyedn igazodtam el, figyelembe vve, hogy elszr hasznltam ilyen programot. Az els indtskor radsul egy online tutorial (oktat dokumentum) fogadott, mely a szoftverbe beptett 26 darab pldafjl s folyamat alapjn igyekezett bemutatni a rendelkezsre ll funkcikat. A letlthet pdf formtum 695 oldalas felhasznli kziknyvhz kpest mindenkppen hasznos kiegsztnek talltam. Ezek utn a RapidMiner egy repository felptst javasolja, ami szintn meglehetsen knny egyes kereskedelmi szoftverekhez kpest, ugyanis semmilyen adatbziskapcsolat definilst nem ignyel, mindssze a Sajtgpen egy knyvtr megjellst, ahol specilis fjlformtumban eltrolsra kerlnek a ksbbi repository-ba betlttt adathalmazaink s a kialaktott adatfolyamok meghatrozsai. A letltst kveten teht krlbell 5 perc alatt tlestem a szinte kattints nlkli installcin, s a repository belltson, elrve az les munkakrnyezetet. A RapidMinerrl els rnzsre ltszik, hogy JAVA krnyezetben fejlesztett szoftverrl van sz, tetszets kllemmel rendelkezik, a napjainkban hasznlatos akr open-source akr kereskedelmi alkalmazsokhoz hasonlan.

8. bra: RapidMiner ablakos elrendezseElrendezst tekintve kis keresgls utn ltalban megtalltam, amit kerestem, teljesen logikus ablakstruktra jellemzi a RapidMinert. A baloldalon tallhat az opertor s repository (adattr) bngsz, kzpen a munkaterlet, ami alatt kzvetlenl a log olvashat. Jobb oldalt az ppen fkuszban lv objektum paramterezsre van lehetsg, valamint az objektum lersa lthat. A ksbbiekben kiderlt szmomra, hogy az gy megjelentett alaprtelmezett fellet lnyegben a tovbbi munkban sem vltozott, ezeket a paneleket hasznltam legtbbet. A repository bngszben ll rendelkezsre az sszes mr kialaktott adatkapcsolat, ami jelenthet kzvetlen adatbzis-kapcsolatot, vagy, ahogy az elzekben emltettem, egy sajtgpen elhelyezett knyvtrat. Ezek a repository-k tartalmazhatnak adatokat s mr elzleg kialaktott adatfolyamokat. Alapveten a munka elkezdsekor a repository az els llomsunk. Itt vlaszthatjuk ki, hogy milyen adatokkal fogunk dolgozni a ksbbiekben. Repository-ba adat importlssal kerlhet (kzvetlen adatbzis kapcsolat felpts esetn nyilvnvalan nem kell az adatokat importlni), ahol a RapidMiner egy sajt fjlformtumban trolja el. A program tmogat CSV, Excel, illetve binris fjlformtumokat, valamint adatbzistbla importlst. A RapidMiner nem teszi ktelezv az adatfjlok repository-ba tltst, ugyanis az adatfolyam kialaktshoz specilis importl opertorok is rendelkezsre llnak, ez esetben teht a repository csak az elkszlt adatfolyamunkat fogja tartalmazni (ha elmentettk a munknkat). A szoftver lelkt az opertorok jelentik. Emltettem mr, hogy hasznlatukra szintn egy bngszablakot biztostott a fejleszti csapat. Szksg is van a segtsgre, ugyanis 636 opertor ll a felhasznl rendelkezsre. Mivel a szoftver egyben adatintegrcis, ETL, reporting s adatbnysz eszkz is egyben, az opertorok ennek megfelelen vannak csoportostva. Az elz tevkenysgek kzl gy tapasztaltam, hogy legkevsb a reporting funkcit tmogatja, mindsszesen t opertor ll rendelkezsnkre riportok ksztshez (habr itt elssorban az adatbnyszat sorn feltrt tuds riportolsra alkalmas opertorokrl van sz, nem pedig a hagyomnyos rtelemben vett riportokrl). A BI projektek jellegzetessgei kzl kiemelend az adatelkszts tmakre. Egyes tancsadk szerint egy-egy zleti intelligencia rendszerbevezets sorn a projektre sznt id s kltsgkeret 80%-t az adatok elksztse, transzformcis szablyok megalkotsa, adattisztts, s konszolidci viszi el. Az adatbnyszat is ebbe a kategriba esik, nagy jelentsge van annak, hogy a tudsfeltr algoritmusok milyen tisztasg adathalmazra futnak. Rossz adatminsg esetn flrevezet informcikat kaphatunk, a konszolidci hinya pedig akr az algoritmusok futst is megakaszthatja. Ennek megfelelen relis elvrs egy felhasznlbart adatbnysz szoftvertl, hogy tmogassa ezt az elkszt folyamatot. Szerencsre ezzel a RapidMiner fejleszti is tisztban voltak, tbb mint ktszz ilyen opertor ll rendelkezsre. Egyetlen olyan hinyossgot vltem felfedezni, ami kiss megneheztheti a felhasznlk dolgt, bonyolult transzformcik esetn, mgpedig a paramterezhetsg korltozottsga. Konkrtan a manulis kifejezsek beillesztsnek hinya a legkzenfekvbb. Kereskedelmi szoftverek esetben ezt a lehetsget meghagyjk a kpzettebb felhasznlknak, akik gy teljesen szemlyre szabhatjk az adatfolyamokat. Azonban nem szabad elfelejteni, hogy valsznleg ezt azrt biztostjk, mert a program mkdsn, a zrt forrskd miatt, vltoztatni nem lehet. Az open-source szoftverek esetben ez a lehetsg adott, teht a szoftver fejleszti elkpzelhet, hogy ilyen megfontolsbl hagytk ki ezt a funkcit az alkalmazsbl. (Mindenesetre, olyan felhasznlk szmra, akik nem kvnnak a forrskd mlyre sni, ez a ksbbiekben zavar lehet.)A szoftver bvelkedik modellez opertorokkal is, az intelligens tudsfeltrsi technikk nagy rszt megtallhatjuk benne. Tartalmaz felgyelt, s felgyelet nlkli tanul algoritmusokat, gy az osztlyozs, regresszi, klaszterezs s trsts funkcik mindegyikt elvgezhetjk az alkalmazs segtsgvel. A program igazn ettl a ponttl vlik bonyolultt, s ignyel meg nagy szaktudst, s tapasztalatot a felhasznltl. (Fleg, ha telepti a szoftverhez ingyenesen jr opertor kiterjeszt csomagot, ami olyan algoritmusok gyjtemnyt is tartalmazza, mint pldul a Weka projekt ltal kifejlesztett szintn nylt kd tanul algoritmusok.) Ennek megfelelen a kvetkezkben egy egyszer pldn keresztl bemutatok az ID3 algoritmus ltal felptett dntsi ft.

A plda a Titanic tragikus balesethez kapcsoldik, ugyanis egy olyan modellt hoztam ltre, amivel a Titanicon utaz utasokrl rendelkezsre ll nhny informci alapjn a modell megtippeli, hogy az utas tllte a katasztrft, vagy sem.Az adathalmazt internetrl (http://www.cs.utoronto.ca/~delve/data/titanic/desc.html) szereztem be, 2201 rekordot tartalmaz, a kvetkez attribtumokkal: class (osztly, rtkkszlete: 1st class, 2nd class, 3rd class s crew), age (kor, rtkkszlete: adult, child), sex (nem, rtkkszlete: female, male) s survived (tll, rtkkszlete: yes, no).

9. bra: ID3 algoritmus ltal generlt dntsi faA 9. brn lthat a kialaktott modell. Ez alapjn megllapthat, hogy a nk helyzete jval kedvezbb volt, mint a frfiak, ugyanis a frfiak nagyobbik rsze nem lte tl a katasztrft. (Lnyegben felntt frfiknt, fggetlenl a utazs komfortfokozattl, kis szzalkban maradtak letben.) A legrosszabbul a harmadosztlyon utazk jrtak, nagy rszk, nemtl s letkortl fggetlenl odaveszett. Ilyen modell birtokban knnyedn tudnnk berazni az utasok szmra utasbiztostst, gy, hogy a kockzatos kategrikba es gyfeleket kizrjuk, vagy jval drgbban ktnk velk szerzdst. A valsgban termszetesen ennl jval bonyolultabb modellekkel dolgoznak a kockzatelemzk, azonban az alapelv hasonl. A minta alapjn kialaktott szablyok alkalmazsa a leend gyfelek kockzatnak rtkelsben.A szoftvert sszessgben kiprblsra ajnlanm, akr vllalati krnyezetben is, azonban elengedhetetlennek tartom a hatrainak pontos felmrst. Sajt asztali szmtgpen ugyanis sikeresen tllptem vele tbbszr a komputeremben rendelkezsre ll memrit, gy egyes fknt bonyolult, s nagy adatmennyisggel dolgoz algoritmusok lefuttatsa komoly gondot okozott. Ez rszben a sajt eszkzeim korltainak volt ksznhet, azonban egy adatbnysz szoftverekkel foglalkoz szakember megerstett a gyanmban, miszerint szoftverfejlesztsi megfontolsok miatt egyes nylt kd alkalmazsok korltai pontosan a nagy adatmennyisgek. A kereskedelmi szoftverek ltalban erre vannak felksztve, millis nagysgrendben adatok mozgatsra, ezrt robosztusak, megbzhatk, azonban kevsb rugalmasak. A nylt kd programokba ezzel szemben gyakran kerl j, mg akr tesztels alatt ll modul, s a fejlesztk szmra a fkusz elssorban a funkcionalits bvtsn van.brajegyzk

31. bra: Adat informci tuds fogalmnak dntselmleti megkzeltse

82. bra: A mgikus kvadrns (2010. janur 29.)

113. bra: Az adatbnyszat folyamata

224. bra: RapidMiner logja

225. bra: Rapid-I GmbH logja

236. bra Rapid-I termkportfli

247. bra: Adatfolyam a RapidMinerben

258. bra: RapidMiner ablakos elrendezse

279. bra: ID3 algoritmus ltal generlt dntsi fa

Tblzatok

151. tblzat: Adatbnysz eszkzgyrtk

322. tblzat: Open-Source Licenszek (forrs: http://www.opensource.org/licenses/alphabetical)

333. tblzat: RapidMiner csomagok (forrs: http://rapid-i.com/content/view/181/190/)

IrodalomjegyzkAdriaans, P.; Zantinge, D., 2002. Adatbnyszat Budapest: Panem.

Bitterer, A., 2009. Open-Source Business Intelligence Tools Production Deployments Will Grow Five-Fold through 2012 [online] Gartner RAS Core Research Note 2009. Oktber 20. Elrhet: http:// www.pentaho.com/five_fold_growth/index.php [Letltve: 2010. februr 19.]

Bgel Gy. Papp A., 2008. zleti intelligencia stratgiai nzpontbl. Competitio, (7.vf. 2.szm), pp.49-69. Davenport, T., 2007. BI and the Business Experiment BI Review Magazine, [online] december 3., Elrhet: http://www.information-management.com/bissues/2007_36/10000466-1.html [Letltve: 2009. november 8.]

Fekete G., 2005. zleti Intelligencia egy klnleges infrastruktra s felhasznli. [online] Elrhet: http://www.controllingportal.hu/?doc=tk_t&t=16&d=289 [Letltve: 2009. mrcius 9.]

Free Software Foundation. GNU General Public Licence [online] Elrhet: http://www.gnu.org/licenses/gpl.html [Letltve: 2010. februr 12.]

Han, J.; Kamber, M., 2004. Adatbnyszat Budapest: Panem.

IFUA Horvth&Partners. zleti intelligencia. [online] Controlling Portl, Elrhet: http://www.controllingportal.hu/?doc=it_olap [Letltve: 2009. november 15.]

Korcsmros I., Molnr T., Vancs A. 2010. Open source a nylt forrskd grete s valsga [online] Controlling Portl, Elrhet: http://www.controllingportal.hu/downloader.php?i=841&f=open_source_1resz.pdf [Letltve: 2010. mrcius 13.]

K A. zleti Intelligencia in Sntn-Tth E., szerk. 2008. Dntstmogat rendszerek. Budapest: Panem, 122-190. old.

Madsen M. 2009. Open Source Solutions: Managing, Analyzing and Delivering Business Information [online] BeyeNETWORK Research Report Elrhet: http://www.pentaho.com/open_source_solutions_report/index.php [Letltve: 2010. mrcius 01.]

McDonald, M., 2010 Without the Business in Business Intelligence, BI Is Dead! [online] Gartner Blog 2010. februr 11. Elrhet. http://blogs.gartner.com/mark_mcdonald/2010/02/11/without-the-business-in-business-intelligence-bi-is-dead/ [Letltve: 2010. mrcius 20.]Open Source Initiative (OSI). The Open Source Definition [online] Elrhet: http://www.opensource.org/docs/osd [Letltve: 2010. mrcius 20.]

Papp I., 2003. Szolgltatsok a harmadik vezredben. Budapest: Aula.

Sallam, R.L; Hostmann, B.; Richardson, J.; Bitterer, A; 2010. Magic Quadrant for Business Intelligence Platforms [online] Gartner RAS Core Research Note 2010. janur 29. Elrhet: http://www.microstrategy.com/Company/gartnerquadrant.asp [Letltve: 2010. mrcius 7.]

TYPO3. What is TYPO3? [online] Elrhet: http://typo3.com/About.1231.0.html [Letltve: 2010. mrcius 20.]

MellkletAcademic Free License 3.0 (AFL 3.0)GNU General Public License version 3.0 (GPLv3)Open Font License 1.1 (OFL 1.1)

Affero GNU Public LicenseGNU Library or "Lesser" General Public License (LGPL)Open Group Test Suite License

Adaptive Public LicenseGNU Library or "Lesser" General Public License version 3.0 (LGPLv3)Open Software License 3.0 (OSL 3.0)

Apache License, 2.0Historical Permission Notice and DisclaimerPHP License

Apple Public Source LicenseIBM Public LicenseThe PostgreSQL License

Artistic license 2.0IPA Font LicensePython license (CNRI Python License)

Attribution Assurance LicensesISC LicensePython Software Foundation License

New and Simplified BSD licensesLucent Public License Version 1.02Qt Public License (QPL)

Boost Software License (BSL1.0)MirOS LicenceRealNetworks Public Source License V1.0

Computer Associates Trusted Open Source License 1.1Microsoft Public License (Ms-PL)Reciprocal Public License 1.5 (RPL1.5)

Common Development and Distribution LicenseMicrosoft Reciprocal License (Ms-RL)Ricoh Source Code Public License

Common Public Attribution License 1.0 (CPAL)MIT licenseSimple Public License 2.0

CUA Office Public License Version 1.0Motosoto LicenseSleepycat License

EU DataGrid Software LicenseMozilla Public License 1.1 (MPL)Sun Public License

Eclipse Public LicenseMultics LicenseSybase Open Watcom Public License 1.0

Educational Community License, Version 2.0NASA Open Source Agreement 1.3University of Illinois/NCSA Open Source License

Eiffel Forum License V2.0NTP LicenseVovida Software License v. 1.0

Entessa Public LicenseNaumen Public LicenseW3C License

European Union Public License (link to every language's version on their site)Nethack General Public LicensewxWindows Library License

Fair LicenseNokia Open Source LicenseX.Net License

Frameworx LicenseNon-Profit Open Software License 3.0 (Non-Profit OSL 3.0)Zope Public License

GNU General Public License (GPL)OCLC Research Public License 2.0zlib/libpng license

2. tblzat: Open-Source Licenszek

RapidMiner

CommunityEditionEnterprise Edition

SmallStandardDeveloper

General

Number of UsersUnlimitedUnlimitedUnlimitedUnlimited

LicenseOpen SourceOpen Source or Closed SourceOpen Source or Closed SourceOpen Source or Closed Source

Certified-XXX

Integration

Into Open-Source SoftwareXXXX

Into Closed-Source Software---X

Into Web Services---X

Guarantees

Guarantee for Bugfixes-XXX

Intellectual Property Indemnification-XXX

Warranty for Services-XXX

Problem Resolution Support

Community ForumsXXXX

Community Web Documentation (Wiki)XXXX

Service Level Agreement--XX

Number of Incidents--UnlimitedUnlimited

Web-based Case Management--XX

Mail Support--XX

Support Access--Business HoursBusiness Hours

Maximum Initial Response Time--4 hours4 hours

Emergency Hot Fix Build--XX

Consultative Support

Remote Troubleshooting--XX

Process Review--XX

Process Optimization--XX

Performance Tuning--XX

Customer Code Review---X

Maintenance

Software MaintenanceBy In-house StaffBy Rapid-I EngineersBy Rapid-I EngineersBy Rapid-I Engineers

Updates via Update and Installation ServerXXXX

Software Installation for ExtensionsXXXX

Patch Releases-XXX

Fixes Included in Future Releases-XXX

Stabilized and Certified Software Releases-XXX

Managed Release Cycles-XXX

3. tblzat: RapidMiner csomagok (Papp, 2003, 487. old., 12.2 bra)

(Sallam et al., 2010. 2. oldal)

(K, 2008, 156. old. 4.15. bra alapjn)

(forrs: RapidMiner honlapja: [http://www.rapidminer.com/])

(forrs: Rapid-I honlapja [http://rapid-i.com/])

(forrs: Rapid-I honlapja [http://rapid-i.com/content/view/186/196/])

(http://www.opensource.org/licenses/alphabetical)

(http://rapid-i.com/content/view/181/190/)

2