outlierdetektálás nagyméretű...hivatkozásjegyzék [1] inkrementális lof opokrajac, dragoljub,...

34
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Outlierdetektálás nagyméretű adathalmazokon Salánki Ágnes [email protected]

Upload: others

Post on 17-Feb-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Budapest University of Technology and EconomicsDepartment of Measurement and Information Systems

Budapest University of Technology and EconomicsFault Tolerant Systems Research Group

Outlierdetektálás nagyméretűadathalmazokon

Salánki Ágnes

[email protected]

Page 2: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Hol tartunk?

Eddig:

o Outlier detektáló módszerek

• DB, LOF, BACON stb.

Most:

o Hol segíthet a MapReduce az outlier detektálásban?

o Adatfolyamokon

Page 3: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Implementációs kérdések

Az alap mindig valamilyen távolságszámítás

𝑘𝑁𝑁(𝑥𝑖), 𝑁𝑁(𝑥𝑖 , 𝑟’) – milyen adatszerkezettel?

Naiv

o Távolságmátrixot tárolunk

o 𝑠𝑜𝑟𝑡 𝑥 𝑘 ,𝑤ℎ𝑖𝑐ℎ 𝑥 ≤ 𝑟′

Partíciós módszerek?

o Pl. fák: k-d tree?

Page 4: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Implementációs kérdések

1. ÉPÍTHierarchikus

adatszerkezetben a közeli ponthalmazok

2. KERES: 𝑘 = 102.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)

Page 5: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Implementációs kérdések

1. ÉPÍTHierarchikus

adatszerkezetben a közeli ponthalmazok

2. KERES: 𝑘 = 102.1 𝑟’ ≤ 9 (7. zóna)2.2 r’ = 7 (5-8. zóna)

Nem kell mindent kiszámolni Többször kell kiszámolnunk ugyanazt

Page 6: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Map-Reduce?

𝑛 elég nagy muszáj bontani

REDUCE

MAPCsomópont milyen más csp-

ok kNN-jeit frissítheti?

Ha megvan minden jelölt: tényleges távolságszámítás

Page 7: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Map-Reduce?

𝑛 elég nagy muszáj bontani

REDUCE

MAPCsomópont milyen más csp-

ok kNN-jeit frissítheti?

Ha megvan minden jelölt: tényleges távolságszámítás

Mi van, ha már a felosztást is elosztottan akarom végezni?

Page 8: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Egy kis csalás.. Voronoi cellák

𝑼𝟏

Page 9: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Amiért jó: MapReduce

𝑛 elég nagy muszáj bontani

MAP1

REDUCE2

MAP2

Csomópont->tartomány hozzárendelések

Csomópont milyen más csp-ok kNN-jeit frissítheti?

Ha megvan minden jelölt: tényleges távolságszámítás

REDUCE1 Tartományok értékei

Page 10: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

OUTLIEREK ADATFOLYAMOKBAN

Page 11: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Adatfolyamok

1. több forrásból,2. ismeretlen

sebességgel

Buffer, megengedett számítási memória

igény korlátos

Egyszer streamenként: „Lokális maximum?”

Globális kérdések: „Minden új maximumot

jelezzünk”

Ábra és a számértékes példák forrása: [1]

Page 12: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Kitérő: outlierek idősorokban

IT Monitorozás

Tőzsdei elemzések

Banki csalásfelderítés

Mindkét adattípus számít

o Szenzorok: nagyrészt numerikus

• 𝐶𝑃𝑈_𝑛𝑖𝑐𝑒: 0.12, 0.13, 0.12, 0.13, …

o Naplózás: nagyrészt kategorikus

• 𝑉𝑀_𝑜𝑝𝑒𝑟𝑎𝑡𝑖𝑜𝑛𝑠: Start, Stop, Start, Snapshot, Snapshot, …

Page 13: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Outlierek szekvenciákban

A legkiugróbb pont megtalálása

o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max

Page 14: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Outlierek szekvenciákban

A legkiugróbb pont megtalálása

o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max

o Square Error regresszióból: min

Page 15: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Outlierek szekvenciákban

A legkiugróbb pont megtalálása

o 𝑎𝑏𝑠(𝑇[𝑘] − 𝑚𝑒𝑎𝑛(𝑇[𝑘 − 𝑙], … , 𝑇[𝑘 + 𝑙]) ): max

o Square Error regresszióból: min

o A pont törlésével a „minimum description length” a lehető legjobban lecsökken.

Eredeti: 5 különböző érték

-2 törlése után: 4 különböző érték is elég

Page 16: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Hatások szerinti osztályozás

Additive outlier

o A rákövetkező elemekre teljesen hatástalan

Level Shift Outlier

o Permanens hatás

Innovational Outlier

o Kezdeti hatás + lecsengés, az ismétlések számával ez erősödhet

Transient Change Outlier

o ~Innovational outlier, de exponenciálisan lecseng a hatás, később visszatér normálra

Page 17: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Hatások szerinti osztályozásAdditive

Transient change

Level Shift

Innovational

Page 18: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Additive és level-shift outlierek a Twitternél

Globális és lokális megkülönböztetése

Alapötlet:

o A globálisak látszanak a robusztus statisztikákkiszámítása után

o A lokálisak látszanak a “maradékból” (idősor – trend –szezonalitás stb.)

Page 19: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Additive és level-shift outlierek a Twitternél

Pozitív outlierek: kapacitástervezéshez

Negatív outlierek: HW vagy adatgyűjtési hibákfelderítéséhez

Page 20: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

“Elvárt viselkedés” streameken

𝑵. lépés 𝑵 + 𝟏. lépés

𝑵 + 𝟐. lépés 𝑵 + 𝟑. lépés

Page 21: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Offline algoritmusok közvetlen adaptálása

Periodikus

o Minden n. adatpont után futtassuk le az X algoritmust

o Probléma: 𝑥𝑛 − 𝑡 nem tudjuk jelezni

Iterált

o Minden lépésben újrafuttatjuk az X algoritmust

o Probléma: lassú

“Felügyelt”

o Az elején kiszámítjuk a “normál” működést, aztánmindent ahhoz viszonyítunk

o Probléma: az 𝑥𝑛+3 is outlier lesz, hiszen a normálműködést nem frissítjük

Page 22: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Storm

STream OutlieR Miner: DB egyfajta streamesítése

Lekérdezés: “Kérem az adott ablakban találtoutliereket”

Alapötlet

o Minden pontot kategorizáljunk a beérkezésepillanatában, később esetleg tartsuk karban az értékeit

o Háromféle csomópont típus

• “safe inlier”: már a bekerülése pillanatában elég szomszédjavan

• “inlier”: a bekerülése után még jöttek hasonló pontok

• “outlier”: a “lejárati idejéig” sem jött elég szomszédja

Page 23: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Storm

Exact-Storm

o Minden iterációban

• Kiszámoljuk az új elem szomszédságát

• Ezek alapján frissítjük a régiek értékeit

Approximate-Storm

o Nem tároljuk el az összes safe inliert

o Nem tároljuk el az összes szomszédot

o Még így is határon belül tudunk becsülni..

Page 24: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Inkrementális LOF

Közelítjük a kNN listát

Alapötlet:sokdimenziós geometria

Page 25: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Outlierek szekvenciák között

„Az aggregált adatokon látjuk, hogy baj van. Pontosan a rendszer melyik komponense hibás?”

Feltételezések

o Az idősorok hossza azonos

o Keressük a legkiugróbbat

Page 26: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Outlierek szekvenciák között

Ötletek

o Képezzük le egy értékre az idősort/idősor párokat

o Elemek egy hasonlósági mátrixba

Innentől már akármelyik klasszikus klaszterezési módszer működik

Távolságfüggvény a szomszédossághoz?

Page 27: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Idősorok távolságfüggvényei

Euklideszi távolság

o X tengely menti eltolás (offset)?

Lehetséges megoldások:

o Dynamic time warping

• eleve kiugró értékek alapján hasonlítunk

o Length of common subsequence

Page 28: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Dinamikus idővetemítés

Az idősorok pontjait nem indexenként hasonlítjuk össze

o Motiváció pl. hangfelismerésnél

Page 29: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Dinamikus idővetemítés számítása

1. 𝑛 × 𝑚-es 𝐷 mátrixban rögzítjük a sorok egymástól való távolságát

2. Kell: 𝑝 = 𝑝1, 𝑝2, … 𝑝𝑘 útvonal a 𝐷 1,1 és 𝐷 𝑛,𝑚között

3. Cél: minimális költség4. Szabályok:

1. Minden lépésben előre haladunk (nem távolodhatunk, tehát 𝑖, 𝑗 → 𝑖, 𝑗 esetén 𝑖 ≥𝑖, 𝑗 ≥ 𝑗)

2. Az út folytonos, mindig csak szomszédos cellákra léphetünk

Page 30: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Dinamikus idővetemítés

Sakoe-Chibasáv

Page 31: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Longest common subsequence

Nem a pontos időpont számít

Csak a sorrend

𝑥1: 𝑎𝑏𝑐𝑑𝑒𝑓𝑔

𝑥2: 𝑓𝑎𝑏𝑑𝑐𝑒𝑔

𝑛𝑙𝑐𝑠(𝑥1, 𝑥2) = 5𝑙𝑐𝑠 𝑥1, 𝑥2 : 𝑎𝑏𝑐𝑒𝑔

Page 32: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Longest common subsequence

Nem a pontos időpont számít

Csak a sorrend

Általánosítás folytonos értékekre

Page 33: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Hivatkozásjegyzék

[1] Inkrementális LOF

o Pokrajac, Dragoljub, Aleksandar Lazarevic, and LonginJan Latecki. "Incremental local outlier detection for data streams." Computational Intelligence and Data Mining, 2007. CIDM 2007. IEEE Symposium on. IEEE, 2007.

[2] Hatás szerinti outlier detektálás idősorokban

o http://www-01.ibm.com/support/knowledgecenter/SS3RA7_15.0.0/com.ibm.spss.modeler.help/ts_outliers_overview.htm

Page 34: Outlierdetektálás nagyméretű...Hivatkozásjegyzék [1] Inkrementális LOF oPokrajac, Dragoljub, Aleksandar Lazarevic, and Longin Jan Latecki. "Incremental local outlier detection

Hivatkozásjegyzék

Exact-Storm

o Fabrizio Angiulli and Fabio Fassetti. Detecting distance-based outliers in streams of data. CIKM '07

Twitter BreakoutDetection package:https://blog.twitter.com/2015/introducing-practical-and-robust-anomaly-detection-in-a-time-series