leonidas sakalauskas vgtu itk, vu mii t. -85 2109323,

25
Paskaita 1. Įvadas (Duomenų gavybos tikslai, pritaikymai, uždaviniai, sistemos, metodai) Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <[email protected]> DUOMENŲ GAVYBOS TECHNOLOGIJOS

Upload: katalin-molnar

Post on 03-Jan-2016

73 views

Category:

Documents


0 download

DESCRIPTION

DUOMENŲ GAVYBOS TECHN O LOGIJOS. Paskaita 1. Įvadas ( Duomenų gavybos tikslai , pritaikymai , uždaviniai , sistemos , metodai ). Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, . Kas yra duomen ų gavyba ?. Pateikiame "Gartner Group" apibrėžimą: - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Paskaita 1. Įvadas(Duomenų gavybos tikslai, pritaikymai, uždaviniai, sistemos, metodai)

Leonidas SakalauskasVGTU ITK, VU MIIt. -85 2109323, <[email protected]>

DUOMENŲ GAVYBOS TECHNOLOGIJOS

Page 2: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Pateikiame "Gartner Group" apibrėžimą: Duomenų gavyba yra prasmingų

šablonų (patterns), dėsningumų, modelių ir tendencijų radimo procesas dideliuose informacijos kiekiuose, pasinaudojant modelių atpažinimo, statistiniais bei matematiniais metodais.

Kas yra duomenų gavyba ?

Page 3: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Kas yra duomenų gavyba ?

Dažnai naudojamas toks DG apibrėžimas (G. Piatecki-Shapiro).

Duomenų gavyba yra “žalių”, neapdorotų duomenų (raw data) tyrinėjimo procesas žinioms nustayti, kurios yra

naujos, prieš tai nežinotos; netrivialios; praktiškai naudingos; interpretuotinos; būtinos sprendimams priimti pasirinktoje

veiklos srityje.

Page 4: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

DG pritaikymai

Šiuolaikinė duomenų analizė pasižymi tokia specifika:

duomenų apimtis yra beveik neaprėžta; duomenys yra įvairialyčiai (kiekybiniai,

tekstiniai, video, audio, ...); tačiau analizės išvados turi būti

konkrečios ir aiškios; analizės priemonės turi būti paprastos

naudoti.

Page 5: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

DG pritaikymai

DG taikymo sritys apima dvi kryptis:

verslo pritaikymai,

unikalūs tyrimai (bioinžinerija, genetika, socialinės sistemos, ir pan.).

Page 6: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Pritaikymai komercijoje vartotojojo „krepšelio“ tyrimas (strategijai, prekių

planavimui ir pan.), skirtas paslaugų derinių, kurias vartotojai linkę įsigyti kartu, paieškai;

laiko nuoseklumų tyrimas padeda prekeiviams priimti sprendimus apie atsargų kaupimą;

prognozavimas leidžia prekeiviams nustatyti skirtingų vartotojų grupių poreikius

rinkos tyrimas DG metodais leidžia efektyviau organizuoti reklamos kampanijas, kryžminius pardavimus ir pan.

Page 7: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Bankai, kredito įstaigos

sukčiavimų nustatymas (tiriant įvykusių sukčiavimų šablonus);

klientų klasifikavimas (tokiu būdu marketingo politika tampa labiau tiksli ir rezultatyvi);

klientų būklės prognozė (leidžia prognozuoti klientų vertę);

pinigų plovimo prevencija.

Page 8: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Telekomunikacijos

iškvietimų analizė (skambučių analizė) leidžia nustatyti klientų su panašiais poreikiais kategorijas;

vartotojų lojalumo didinimas – klientų nustatymas, kurie ir toliau naudosis kompanijos paslaugomis;

nemokumo prognozavimas; tinklo apkrovos tyrimas.

Page 9: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Duomenų gavyba pramonėje

produkcijos išeigos didinimas; sunaudojamų išteklių mažinimas; technologinių procesų gedimų aptikimas; rinkos tyrimas.

Page 10: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Intelektinis interneto naršymas

tinklapių turinio tyrimas; tinklo struktūros tyrimas; naršymo šablonų tyrimas.

Page 11: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Draudimas

sukčiavimų analizė (tiriant įvykusių sukčiavimų šablonus);

rizikos analizė (nustatant tam tikrus panašumus tarp klientų grupių).

Page 12: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Nuotolinis mokymas

individualių mokymo stilių nustatymas ir tyrimas

personalizuotas mokymas; plagiato aptikimas; mokymosi diagramų tyrimas; mokymosi krepšelių tyrimas; mokymosi tinklų apkrovos tyrimas

Page 13: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Kompiuterių tinklai

intruzijų tyrimas;

spamo tyrimas ir prevencija;

apkrovos tyrimas.

Page 14: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Medicina, genetika, bioinžinerija

šablonų ieškojimas tam tikrų susirgimų srityje (vaistų pirkimų tyrimai,….);

genetiniai tyrimai.

Page 15: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Duomenų gavybos uždaviniai

Duomenų gavyba apima dvi plačias tyrimų uždavinių kategorijas:

Priklausomybių tyrimo duomenų gavyba

Prognozuojanti duomenų gavyba

Page 16: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Priklausomybių tyrimas

grupavimas, sąryšių (susietumų) tyrimas, dažnių tyrimas.

Page 17: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Prognozuojanti duomenų gavyba

klasifikavimas reikšmių prognozavimas laiko nuoseklumų prognozavimas

Page 18: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

DG uždaviniai

DG uždaviniui išspręsti taikomi keli metodai iš eilės ar net sudėtingi jų deriniai. Duomenų gavybos algoritmai pasižymi įvairove.

Nė vienas jų nėra universalus ar nepriekaištingas. Parenkant algorimus atsižvelgiama į jų operacinį ir loginį sudėtingumą, sunaudojamą tyrimui kompiuterio laiką bei atmintį, tyrimo išvadų patikimumą.

Page 19: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Duomenų gavybos metodai Neuroniniai tinklai (tiesiaeigio sklidimo, Saimono

tinklai) Klasteriavimas Statistinis klasifikavimas Atraminių vektorių regresija ir klasifikavimas Daugialypė ir logistinė regresija Loginių taisyklių paieška Sprendimų medžiai Esminių kintamųjų ir faktorių tyrimas Evoliuciniai ir genetiniai algoritmai Duomenų vaizdavimas.

Page 20: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Duomenų gavybos sistemos

Išskirkiamos tokios DG sistemų klases:

1) Dalykinės analizės sistemos 2) Statistiniai programų paketai (SPSS,

SAS, STATISTICA) 3) DG paketai

Page 21: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Dalykinės srities analizės programos

remiasi tos dalykinės srities empiriniais duomenimis – pvz., statybininkai žino viską apie betoną, medikai apie ligas ir vaistus, ir pan.). Šie metodai dažnai naudoja paprastą statistinį aparatą, bet maksimaliai įvertina susiklosčiusią srityje specifiką.

Šios sistemos gali būti labai įvairios. Pvz., tokios sistemos dažnai naudojamos finansinių rinkų tyrimuose. Specializuota rinkos analizės sistema yra sudaryta iš finansinių indeksų sekų dinamikos analizės ir investicijų portfolio planavimo metodų.

Page 22: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Statistinės analizės paketai

(SPSS, StatGraphics, SAS, STATISTICA, R Statistical package)

Beveik visų žinomų statistinių paketų paskutinėse versijose kartu su tradiciniais statistiniais metodais įtraukiami ir DG metodai. Tačiau pagrindinis dėmesys juose skiriamas klasikiniams metodams – koreliacinei, regresinei, faktorinei analizei ir pan. Tokių sistemų trūkumu laikoma specialaus vartotojo paruošimo būtinybė.

Page 23: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Duomenų gavybos paketai

Daugelis programinės įrangos korporacijų kuria ir platina atskirus produktus, skirtus DB duomenų gavybai. Lietuvoje tokią įranga platina Oracle, IBM DM Technology, SONEX, irk t.

Page 24: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Išvada

Duomenų gavybos taikymas nesibaigia “teisingo algoritmo” parinkimu. Čia svarbūs visi etapai: problemos identifikavimas, kokybiški duomenys, kurių pagrindu bus atliekama analizė, modelio parinkimas ir realizavimas, gautų rezultatų interpretavimas. Šioje srityje ypač reikalingas vartotojų išprusimas, nes nė viena sistema negali tapti "stebuklingu mygtuku", išspręsiančiu visas problemas.

Page 25: Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323,

Literatūra

M. Dunham. Data Mining. Introduction and Advanced topics

L.Sakalauskas. Duomenų gavyba.