mintavételezés, szűrés, outlierek detektálása · несчастливая семья...

58
Budapest University of Technology and Economics Department of Measurement and Information Systems Budapest University of Technology and Economics Fault Tolerant Systems Research Group Mintavételezés, szűrés, outlierek detektálása Salánki Ágnes [email protected]

Upload: others

Post on 31-May-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Budapest University of Technology and EconomicsDepartment of Measurement and Information Systems

Budapest University of Technology and EconomicsFault Tolerant Systems Research Group

Mintavételezés, szűrés, outlierekdetektálása

Salánki Ágnes

[email protected]

Page 2: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Alapfogalmak

Az alapfeladat ugyanaz

Az aspektus más

Page 3: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Alapfogalmak

Az alapfeladat ugyanaz

Az aspektus más

Page 4: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

MINTAVÉTELEZÉS

Page 5: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

Stratified Sample

Cluster sample

Page 6: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

o random mintavétel

Stratified Sample

Cluster sample

Page 7: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

o Homogén „réteg”

oMindegyikből random m.

Cluster sample

Page 8: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

o Homogén „réteg”

oMindegyikből random m.

Cluster sample

Page 9: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

o Homogén „réteg”

oMindegyikből random m.

Cluster sample

Page 10: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

Cluster sample

o ~azonos méretű klaszterek

o Azokból random m.

Page 11: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

Cluster sample

o ~azonos méretű klaszterek

o Azokból random m.

Page 12: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés

SRS

o Simple Random Sample

Stratified Sample

Cluster sample

o ~azonos méretű klaszterek

o Azokból random m.

Page 13: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Idősoroknál

Page 14: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Idősoroknál

Outlierek?Random sampling size mondjuk

𝑝 = 0.001-nél?Lásd még „imbalanced” adatsorok

Page 15: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben

Pl. „az elmúlt héten hány egyedi lekérdezés jött?”megválaszolása 𝑛% minta alapján

Page 16: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

Page 17: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

1 32 12 3 2 13

Page 18: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

1 32 12 3 2 13

Page 19: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

1 32 12 3 2 13

Page 20: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

1 32 12 3 2 13

Page 21: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Random mintavételezés

1/3-os mintavételezés

o egyedi lekérdezések aránya: 3/9

o egyedi lekérdezések aránya egy kiválasztott mintában?

1 32 12 3 2 13

𝑝 = 1.0 𝑝 = 1.0 𝑝 = 1.0

Page 22: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben

Random mintavételezés 10 vödörrel

o Ha tényleg egyedi a streamben, p = 0.1 a mintában (egy adott megfigyelt vödörben)

o Ha kétszer fordul elő, a mintába p = 0.18 valószínűséggel kerül csak egy stb.

Page 23: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben

Random mintavételezés 10 vödörrel

o Ha tényleg egyedi a streamben, p = 0.1 a mintában (egy adott megfigyelt vödörben)

o Ha kétszer fordul elő, a mintába p = 0.18 valószínűséggel kerül csak egy stb.

Nem tudunk a minta alapján általánosítani a teljes streamre

Page 24: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: Hash

Pl. „az elmúlt héten hány egyedi lekérdezés jött?”megválaszolása 𝑛% minta alapján

Érték alapján szűrünk

o Pl. hash függvény 0-9 közé

• Az azonosak azonos vödörbe kerülnek

o Feltételezések

• A hash egyenletes az értékek 1/10-e kerül be a 0-ba

Page 25: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

Page 26: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

Page 27: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1

Page 28: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1

Page 29: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1 1

Page 30: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1 1

Page 31: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1 1 1

Page 32: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

1 1 1

Page 33: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

2 1 1 1

Page 34: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

2 1 1 1

Page 35: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

22 1 1 1

Page 36: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

22 1 1 1

Page 37: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

3 22 1 1 1

Page 38: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

3 33 22 1 1 12

Page 39: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

3 33 22 1 1 12

𝑝 = 1/3 𝑝 = 1/3 𝑝 = 1/3

Page 40: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Mintavételezés streamekben: hash

1/3-os mintavételezés

3 33 22 1 1 12

𝑝 = 1/3 𝑝 = 1/3 𝑝 = 1/3

Nagyobb biztonsággal tudunk becsülni

Mintavételezés típusa?

Page 41: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

OUTLIER DETEKTÁLÁS

Page 42: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Outlier

„An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism” (Hawkins 1980)

Page 43: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Outlier

„An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism” (Hawkins 1980)

Page 44: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Outlier

„An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism” (Hawkins 1980)

Page 45: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Outlier

„An outlier is an observation which deviates so much from the other observations as to arouse suspicions that it was generated by a different mechanism” (Hawkins 1980)

Page 46: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Kép forrása: http://www.csoonline.com/article/592776/the-ddos-attack-survival-guide-

Page 47: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Képek forrása: http://www.szon.hu/

Page 48: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Képek forrása: http://www.szon.hu/

Page 49: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Képek forrása: http://www.szon.hu/

Page 50: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Page 51: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Page 52: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Használati esetek

Page 53: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Alapfogalmak

anomaly

surprise

rare eventnovelty

outlierexception

aberration

peculiarity

discordant observations

Page 54: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Definíció

Kevés van belőlük

„Gyanús”, hogy más a generáló folyamat/forrás

Page 55: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Definíció

Kevés van belőlük

„Gyanús”, hogy más a generáló folyamat/forrás

o Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему.

Page 56: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Definíció

Kevés van belőlük

„Gyanús”, hogy más a generáló folyamat/forrás

o Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему.

o Happy families are all alike;every unhappy family is unhappy in its own way.

o A boldog családok mind hasonlók egymáshoz, minden boldogtalan család a maga módján az.

Page 57: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Definíció

Kevés van belőlük

„Gyanús”, hogy más a generáló folyamat/forrás

o Все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему.

o Happy families are all alike;every unhappy family is unhappy in its own way.

o A boldog családok mind hasonlók egymáshoz, minden boldogtalan család a maga módján az.

(Tolsztoj: Anna Karenina)

Page 58: Mintavételezés, szűrés, outlierek detektálása · несчастливая семья несчастлива по-своему. oHappy families are all alike; every unhappy family

Hivatkozásjegyzék

[1] Stream Processing, filtering: Mining of MassiveData Sets

o Alapmű: http://infolab.stanford.edu/~ullman/mmds/book.pdf

o Coursera tárgy: https://www.coursera.org/course/mmds

[2] Outlier Detection

o Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM Computing Surveys(CSUR), 41(3):15, 2009