bazilevičius, gediminas „mobiliosios duomenų tyrybos paslaugų analizė“ (vu mii)
DESCRIPTION
Pranešimas XVI kompiuterininkų konferencijos sekcijoje „Tikimybinių ir statistinių metodų taikymai“, „Kompiuterininkų dienos – 2013“, Šiauliai 2013-09-21TRANSCRIPT
Vilniaus universitetas Matematikos ir informatikos institutas doktorantas Gediminas Bazilevičius
Mobilios duomenų tyrybos analizės apžvalga
DUOMENŲ TYRYBA PASKIRSTYTOSE SISTEMOSE
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 2
SRAUTO DUOMENŲ TYRYBA MOBILIUOSE ĮRENGINIUOSE
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 3
SRAUTO DUOMENŲ TYRYBA (1)
• Srauto tyryba – tai tendencijų, šablonų, ryšių ir kategorijų aptikimo procesas iš laiko eilučių;
• Tradiciniai duomenų tyrybos metodai taikomi tuomet, kai turima visa duomenų aibė ir ji yra fiksuota. Jeigu duomenys gaunami srautu ir taip greitai, kad jų nenaudinga išsaugoti duomenų saugykloje, o reikia juos tirti realiu laiku – galime taikyti srauto duomenų tyrybos atvejį.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 4
KODĖL SRAUTO TYRYBA?
• Duomenų apdorojimas atliekamas tiesiogiai; • Duomenis galima tyrinėti/apdoroti mobiliai t.y.
keičiantis geografiniai padėčiai; • Sutaupoma duomenų saugyklų vieta, tinklo apkrova; • Duomenų surinkimo ir išankstinio apdorojimo
atlikimas mobiliajame įrenginyje palengvina ir paspartina duomenų perdavimą į duomenų saugyklas.
• Spartesnis duomenų apdorojimas tolygus spatesniam rezultatų gavimui.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 5
SRAUTO DUOMENŲ CHARAKTERISTIKOS
Ypatumai: 1. duomenys gaunami/imami nenutrūkstamai iš srauto; 2. nežinomas gaunamų duomenų tvarka/išsidėstymas; 3. gaunamas srauto duomenų kiekis yra nenumatomas ir
nesuskaičiuojamas; 4. srautas yra negrįžtamas procesas, todėl daugiau nei du
kartus duomenų srauto apdoroti neįmanoma; 5. negalima taikyti tradicinių (įparastiniai) duomenų
tyrybos algoritmų; 6. duomenų srauto apdorojimo sutrikimai dėl ryšio
patikimumo bei komunikavimo protokolų; 2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 6
PAGRINDINAI SKIRTUMAI TARP SRAUTO IR TRADICINĖS DUOMENŲ
TYRYBOS
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 7
Srauto duomenų tyryba Duomenų tyryba Duomenų apdorojimas realiu laiku Tradicinis (įprastas) duomenų apdorojimas bet
kuriuo metu Greita duomenų tyryba, kuri santykinai priklauso nuo skaičiavimo išteklių
Lėta duomenų tyryba. Santykinai priklausanti nuo turimų skaičiavimo šaltinių
Negalimas/dalinis duomenų saugojimas Galimas duomenų saugojimas Priimami apytikslūs rezultatai Gaunami tikslūs rezultatai Saugyklose saugomi tik išfiltruoti duomenys
Saugyklose saugomi neapdoroti duomenys
Erdvės ir laiko kontekstas yra ypatingai svarbus
Erdvės ir laiko kontekstas yra taikomas tam tikrai taikomųjų programų klasei pvz.: Geographical Information Systems (GIS)
Naudojami prisitaikantys ir modifikuoti algoritmai, kurie nereikauja didelių įrenginio resursų
Naudojami algoritmai, reikalaujantys didelių įrangos resursų bei ilgo laiko tarpo
SRAUTO DUOMENŲ TYRYBOS ATRANKOS PROBLEMA
Duomenų atrankos etapo metu galima atrinkti, kokią imties dalį tyrinėsime, to pasekoje galima sumažinti duomenų kiekį, pagreitinti duomenų tyrybos procesą bei rezultatų gavybą. Tiriamo srauto duomenų atrankos problema gali būti sprendžiama dviem būdais: 1. duomenų srauto atskirų rinkinių nagrinėjimas
siekiant sumažinti duomenų dydį; 2. efektyvus algoritmų panaudojimas laiko ir vietos
atžvilgiu.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 8
SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS
• Pirmas būdas. Visi duomenys turi būtų sumažinami iš viso kiekio duomenų arba rankiniu būdu parenkama tam tikra rinkinio dalis (poaibis).
• Tam realizuoti naudojami algoritmai: 1. atranka (angl. sampling), 2. apkrova (angl. shedding), 3. eskizas (angl. sketching), 4. konspektavimas (angl. synopsis), 5. agregavimas (angls. aggregation).
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 9
SRAUTO DUOMENŲ TYRYBA, ATRANKA
• Atranka (angl. sampling) – tikimybiniu būdu atrenkami duomenys tolimesnei duomenų tyrybai.
• Apskaičiuotas barjerų paklaidų įvertinimas yra traktuojamas kaip atrankos rodiklio funkcija.
• Very Fast Maschine Learing (VFML) metodas naudoja Hoeffding ribą įvertinti atrankos dydį.
• Sunkumai: – Nežinomas duomenų rinkinio dydis; – Atrankos metodas gali veikti neteisingai, jei
tikrinamos anomalijos analizės metu; 2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 10
SRAUTO DUOMENŲ TYRYBOS, APKROVA
• Apkrova (angl. shedding) – t.y. procesas kurio metu atisakoma dalies duomenų srauto, kai yra fiksuojama gaunamo srauto perkrova. Apkrovos dydis yra naudojamas duomenų srauto užklausoms optimizuoti. Pageidautina naudoti apkrovos algoritmą, kad minimizuotume siekiamo rezultato paklaidą.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 11
SRAUTO DUOMENŲ TYRYBOS, ESKIZAS
• Eskizas (angl. sketching) – apima srauto duomenų santraukos kūrimą naudojant mažą atminties kiekį. Tai yra įeinamo srauto vertikalus atrankos procesas. Eskizavimas yra taikomas palyginti skirtingus srautus duomenų.
• Pagrindinis trūkumas yra tikslumas. • Sunku pritaikyti šį metodą srautui duomenų.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 12
SRAUTO DUOMENŲ TYRYBOS, KONSPEKTAVIMAS
• Konspektavimas (angl. synopsis) – šio proceso metu išlaikoma trumpa informacija viso duomenų srauto metu. Duomenų konspekto sukūrimas tai yra santraukos metodų pritaikymas, kurie gali apibendrinti įeinamą srautą tolimesnei analizei.
• Negalima taikyti, kai yra O(N), kur N gali būti vietos/laiko vienetų skaičius.
• Kai kurie sprendiniai yra reikalingi, kurių rezultatai gaunami arti O(poly(logN)).
• Duomenų struktūros konspektavimas gali būti taikomas kai neviršyjama tokio sudėtingumo O(logkN).
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 13
SRAUTO DUOMENŲ TYRYBOS, AGREGAVIMAS
• Agregavimas (angls. aggregation) – įeinamo srautų konspektas yra sugeneruotas naudojant vidurkį ir dispersiją.
• Jeigu įėjimo srautai turi didelių svyravimų tuomet šis algoritmas netinka.
• Šis algoritmas gali būti naudojamas apjungiant netiesioginius (angl. offline) ir tiesioginius (angl. online) duomenis.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 14
SRAUTO DUOMENŲ TYRYBOS ATRANKOS PROBLEMA
Duomenų atrankos etapo metu galima atrinkti, kokią imties dalį tyrinėsime, to pasekoje galima sumažinti duomenų kiekį, pagreitinti duomenų tyrybos procesą bei rezultatų gavybą. Tiriamo srauto duomenų atrankos problema gali būti sprendžiama dviem būdais: 1. duomenų srauto atskirų rinkinių nagrinėjimas
siekiant sumažinti duomenų dydį; 2. efektyvus algoritmų panaudojimas laiko ir vietos
atžvilgiu.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 15
SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS
• Antras būdas. Siekiama efektyviai išnaudoti esamus duomenų tyrybos algoritmus, juos modifikuojant ir pritaikant esamo srauto duomenų charakteristikas;
Realizuoti tokie algoritmai: 1. aproksivavimo algoritmas (angl. approximation
algorithm), 2. slenkančio lango algoritmas (angl. sliding
windows algorithm).
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 16
SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS, APROKSIMAVIMO
ALGORITMAS • Aproksimavimo algoritmas (angl. approximation
algorithm) – aproksimavimo metodai yra naudojami algoritmų kūrimui. Sprendimai gauti su šiuo algoritmu yra aproksimuojami taip gaunamos ribų paklaidos. Šis algoritmas naudojamas pasikartojančių elementų dažnio dinamikai sekti.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 17
SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS, SLENKANTIS LANGAS
• Slenkantis langas (angl. sliding windows algorithm) Analizė naujai gautiems duomenims yra gauta iš prieš tai duomenų sukonspektuotos versijos. Naudojant slenkantį langą ankstesni srauto elementai pakeičiami naujai gauto duomenų srauto elementais.
• Naudojami du slenkantys langai: 1. Skaičiaus (angl. count-based) 2. Laiko (angl. time-based).
• Naudojant skaičaus pagrindo langą paskutiniai N elementai yra saugomi, o naudojant laiko pagrindu langą galima saugoti tik tuos elementus, kurie buvo sugeneruoti arba gauti paskutinėsiuose T laiko vienetuose.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 18
KLASIKINĖ MOBILIOS SRAUTO DUOMENŲ TYRYBOS SCHEMA
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 19
MOBILIOJI DUOMENŲ TYRYBA
• Mobilioji duomenų tyryba tai technologija suteikianti galimybę realiu laiku analizuoti srauto duomenis, sugeneruotus pačiame telefone arba iš dėvimų įrenginių, kurie yra netoli šio įrenginio.
• Yra atvejų, kai mobilusis įrenginys gali atstoti tarpininką tarp serverio ir jutiklio.
• Mobilioje srauto duomenų tyryboje paprastai naudojami prisitaikatys algoritmai, kurie veiktų veiksmingai ir efektyviai mobiliuose įrenginiuose esant skirtingom sąlygom.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 20
SRAUTO DUOMENŲ TYRYBOS PROBLEMA
• Srauto duomenų tyryba turi būti atliekama, taip kad ji neviršytų mobilių įrenginių ribotų išteklių: 1. ekrano dydžio; 2. energijos suvartojimo; 3. proceso apkrovos; 4. operatyviosios atminties; 5. saugojimo vietos.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 21
SRAUTO DUOMENŲ TYRYBOS SPRENDIMAS
• Naudojamos atitinkamos duomenų tyrybos strategijos leidžiančios dinamiškai keisti algoritmų parametrus priklausomai nuo esamų išteklių būklės, situacijos ir kitų apribojimų.
• Modifikuojami įprastiniai duomenų tyrybos algoritmai arba kuriami supaprastintos formos (angl. light-weight) algoritmai.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 22
SRAUTO DUOMENŲ TYRYBOS STRATEGIJOS
• Situacijos prisitaikymo strategija: taikoma kritinei ir nekritinei situacijai.
• Resursų prisitaikymo strategija: 1. AOG (Algorithm Output Granularity) – saugojimo
vietos resursai; 2. AIG (Algorithm Input Granularity) – baterijos resursai; 3. APG (Algorithm Processing Granularity) – procesoriaus
resursai. • Hibridinė prisitaikymo strategija – situacijos ir resursų
strategijos taikomos vienu metu.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 23
MOBILIOS DUOMENŲ TYRYBOS PROGRAMOS
• Open Mobile Miner – Klasifikavimas; – Klasterizavimas; – Laiko eilučių analizė; – Pasikeitimo aptikimui.
• Mobile Weka – Klasifikavimas; – Klasterizavimas; – Ryšių analizė.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 24
MOBILIOS DUOMENŲ TYRYBOS ALGORITMAI
Open Mobile Miner programoje veikiantys algoritmai Klasterizavimo algoritmai: • Light-Weight Clustering; • RA-Cluster ir DRA-Cluster; Pasikeitimo aptikimo algoritmas: • CHANGE-DETECT; Klasifikavimo algoritmas: • Light-Weight Class.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 25
IŠVADOS (1) • Duomenų tyryba mobiliuose įreginiuose vystoma
pakankamai seniai, tačiau sukurtų ar modifikuotų algoritmų skirtų mobiliai duomenų tyrybai yra nedaug;
• Modifikuojant standartinius algoritmus mobiliems įrenginiams prarandamas gautų rezultatų tikslumas. Norint gauti tikslesnius skaičiavimų rezultatus padidėja laiko sąnaudos arba kyla problemų dėl nepakankamų mobilių įrenginių techninių išteklių;
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 26
IŠVADOS (2) • Duomenų tyrybą mobiliuose įrenginiuose riboja
skaičiavimo resursai (atminties kiekis, procesoriaus greitis, tinklo pralaidumas, baterijos talpa) bei skirtingų mobilių įrenginių gausa ir techninių charakteristikų skirtumai, todėl dažnai neįmanoma duomenų tyrybos rezultatų turėti realiu laiku;
• Esami duomenų tyrybos algoritmai gali apdoroti nedidelius kiekius duomenų;
• Srauto duomenų tyrybai lengviausiai pritaikomi ir tiksliausius galutinius rezultatus teikia klasterizavimo algoritmai.
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 27
AČIŪ UŽ DĖMESĮ
2013-‐09-‐21 XVII mokslinė kompiuterininkų konferencija 28