megerősítő elemzés

28
Budapesti Műszaki és Gazdaságtudományi Egyetem Méréstechnika és Információs Rendszerek Megerősítő elemzés „Big Data” elemzési módszerek Salánki Ágnes salanki @ mit.bme.hu 2014. 09. 24.

Upload: valentine-petty

Post on 03-Jan-2016

36 views

Category:

Documents


0 download

DESCRIPTION

Megerősítő elemzés. „Big Data” elemzési módszerek Salánki Ágnes salanki @ mit.bme.hu 2014. 09. 24. Adatelemzés. Adatelemzés. Felderítő. Modell. Többletinformáció. Tisztítás. Adat. Megerősítő. Adatelemzés. Felderítő analízis Cél: hipotézisek megfogalmazása - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Megerősítő elemzés

Budapesti Műszaki és Gazdaságtudományi EgyetemMéréstechnika és Információs Rendszerek Tanszék

Megerősítő elemzés

„Big Data” elemzési módszerek

Salánki Á[email protected]

2014. 09. 24.

Page 2: Megerősítő elemzés

Adatelemzés

Adatelemzés

Adat

Modell

Többletinformáció

Megerősítő

Felderítő

Tisz

títás

Page 3: Megerősítő elemzés

Adatelemzés

Felderítő analízis• Cél: hipotézisek

megfogalmazása

• Ismerkedés az adatokkal/doménnel

• Erősen ad-hoc• Fő eszköz: leíró statisztika

+ adatbányászat, sok vizualizáció

Megerősítő analízis• Cél: hipotézisek

tesztelése

• Előre megsejtett összefüggések ellenőrzése

• Fő eszköz: statisztikai tesztek + következtető módszerek

Page 4: Megerősítő elemzés

Adatelemzés Pl. eloszláselemzés

Felderítő analízisSejtés: az változó normális eloszlású

Megerősítő analízisAz változó hihetően eloszlást követ

Page 5: Megerősítő elemzés

Adatelemzés Pl. lineáris regresszió

Felderítő analízisSejtés: az és változó között

valamilyen lineáris kapcsolat van

Megerősítő analízisAz és változó között az

írható fel,

Page 6: Megerősítő elemzés

Következtető statisztika

Page 7: Megerősítő elemzés

Következtető statisztika

Page 8: Megerősítő elemzés

Következtető statisztika

Mintavételezés

Minta kiértékelés

Adatfelvétel

Teljes populáció

Reprezentatív minta

EDA

Hipotézis

Val.ség, konf. int. stb.

KövetkeztetésAdatsor

Adatfelvétel

Elemzés

Page 9: Megerősítő elemzés

Következtető statisztika

Mintavételezés

Minta kiértékelés

Adatfelvétel

Teljes populáció

Reprezentatív minta

EDA

Hipotézis

Val.ség, konf. int. stb.

KövetkeztetésAdatsor

Elemzés

Page 10: Megerősítő elemzés

Mintavételezés Cenzus

Mi lehet érdekes?o Csak a kilógóko Csak a normálisako Reprezentatív

Hipotézismentes tárolás

Page 11: Megerősítő elemzés

Ökölszabályok LLN (Law of Large Numbers)

o Ha a kísérletek száma tart a végtelenhez, az előfordulási gyakoriság az elméleti valószínűséghez konvergál

Page 12: Megerősítő elemzés

Ökölszabályok CLT (Central Limit Theorem)

o A minták statisztikáinak átlaga normális eloszlást követ (bizonyos feltételek mellett).

• a mintaátlag• a populáció várható értéke• a populáció (empirikus) szórása• a mintaméret

Page 13: Megerősítő elemzés

? Magyarországi kamaszlányok

𝝁=𝑿𝟏+𝑿𝟐+…+𝑿𝑵

𝑵

Békés

Heves

Vas

𝒙𝑩 é𝒌 é 𝒔

𝒙𝑯𝒆𝒗𝒆𝒔

𝒙𝑽𝒂𝒔

𝝁≈𝒎𝒆𝒂𝒏(𝒙)

Page 14: Megerősítő elemzés

Ökölszabályok CLT (Central Limit Theorem)

o A minták statisztikáinak átlaga normális eloszlást követ (bizonyos feltételek mellett).

• a mintaátlag• a populáció várható értéke• a populáció (empirikus) szórása• a mintaméret

Page 15: Megerősítő elemzés

Következtető statisztika

Mintavételezés

Minta kiértékelés

Adatfelvétel

Teljes populáció

Reprezentatív minta

EDA

Hipotézis

Val.ség, konf. int. stb.

KövetkeztetésAdatsor

Adatfelvétel

Page 16: Megerősítő elemzés

Minta kiértékelés EDA ~ nyomozás Kiértékelés ~ a per maga

o H0: alapfeltevés a vádlott ártatlano HA: alapfeltevés ellentéte a vádlott bűnöso Kiértékelés: ha az alapfeltevés igaz, mennyire

valószínű, hogy a kapott adatot tároltuk el?

Page 17: Megerősítő elemzés

Mit tesztelünk tipikusan? Parametrikus tesztek

o Egy minta eloszlás egy paraméterét próbáljuk kitalálnio Két minta eloszlásának a paramétere megegyezik-e?

Nemparametrikus teszteko Illeszkedésvizsgálat adott eloszlású-e egy minta?o Függetlenségi vizsgálat független-e két minta?o Homogenitásvizsgálat két minta eloszlása

megegyezik-e?

Page 18: Megerősítő elemzés

Következtető statisztika

Mintavételezés

Minta kiértékelés

Adatfelvétel

Teljes populáció

Reprezentatív minta

EDA

Hipotézis

Val.ség, konf. int. stb.

KövetkeztetésAdatsor

Adatfelvétel

Elemzés

Page 19: Megerősítő elemzés

Következtetés Döntési bemenet

o Valami küszöbérték Adatsor típusa

oMegfigyelési tanulmány (observational study)o Irányított kísérlet (controlled experiment)

Különbség: a köztes változók eliminálása

Page 20: Megerősítő elemzés

Esettanulmány

Forrás: http://usatoday30.usatoday.com/news/health/2005-09-08-cereal-slimming_x.htm

„Girls who ate breakfast of any type had a lower average body mass index, a common obesity gauge, than those who said they didn't. The index was

even lower for girls who said they ate cereal for breakfast.„

Page 21: Megerősítő elemzés

Esettanulmány

Forrás: http://usatoday30.usatoday.com/news/health/2005-09-08-cereal-slimming_x.htm

1. „Breakfast, cereal keep girls slim”

2. „Being slim causes girls to eat breakfast„

?3. „A confounding variable is responsible for both”

Page 22: Megerősítő elemzés

Következtetés Döntési bemenet

o Valami küszöbérték Adatsor típusa

oMegfigyelési tanulmány (observational study)• A köztes változók kiléte bizonytalan• Csak korreláció, kauzális következtetések nem

o Kísérlet (experiment)• A köztes változókat kiszűrtük (mintavételezés!)• Kauzális következtetések is

Page 23: Megerősítő elemzés

Adatelemzési módszerek

Page 24: Megerősítő elemzés

Adatbányászati építőkövek

Asszociációs szabályok Regresszió

Klaszterezés Osztályozás

Page 25: Megerősítő elemzés

Klaszterezés

„A BME-sek három jól elkülöníthető csoportba tartoznak„

Page 26: Megerősítő elemzés

Asszociációs szabályok

„Akik gyakran vásárolnak kávét, azok gyakran vásárolnak tejet”

Page 27: Megerősítő elemzés

Osztályozás

„Prediktáljuk az Apple részvényeket”

Page 28: Megerősítő elemzés

Regresszió

„Az alkalmazás memóriaigénye a kiszolgálandó kérések számával exponenciálisan növekszik”