adatbányászati, data science tevékenység projektmenedzsmentje
TRANSCRIPT
![Page 1: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/1.jpg)
Adatbányászati, data science tevékenység projektmenedzsmentje
IPE képzés II. félév
2017. 03. 14.
Körmendi GyörgyClementine Consulting
![Page 2: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/2.jpg)
Bemelegítés
![Page 3: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/3.jpg)
Adatbányászat célja
3
Szegmentálás
Jellemző mintázatok feltárása
Csoportok differenciált kezelése
Leíró modellek
Kapcsolatok feltárása
Összefüggések megértése
Előrejelző modellek
Események előrejelzése
Megelőzés
![Page 4: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/4.jpg)
Adatbányászati, DS projektek
• Van ilyen?• Ki végzi?• Hol végzi?• Mit csinál?• Hogyan végzi?• Mi az eredménye?
![Page 5: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/5.jpg)
Adatbányászati projektek
• Ki végzi?
Adatbányász, adattudós, adatelemző (gyakran matematikus fizikus végzettségű)
Általában NEM programozó Gyakran NEM üzleti szakértő (pl. marketinges, értékesítő,
vagy ügyfélszolgálatos De általában masszív informatikai, és üzleti tudással IS
rendelkezik
L
![Page 6: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/6.jpg)
Adatbányászati , DS projektek
• Hol végzi?
Általában belsős, ritkábban külsős Általában üzleti területhez tartozik, ritkábban IT
![Page 7: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/7.jpg)
Adatbányászati , DS projektek
• Mit csinál?
Leíró statisztikákat gyárt(gyakoriság, eloszlások, kereszttáblák)
Riportokat készít, diagramokat gyárt Prediktív modelleket készít, fejleszt Prediktív analitikai rendszert üzemeltet
De persze többnyire (80%): Adatot tisztít, formáz, kérdez le Adatot „gyurmáz” (number crunching)
L
![Page 8: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/8.jpg)
Adatbányászati , DS projektek
• Hogyan végzi?
Meglehetősen kötetlenül,nem szigorú lépésekben Gyakran egyedül, de legalábbis szeparálva Sok kreativitással Módszertanok
• CRISP-DM • SEMMA• …
L
![Page 9: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/9.jpg)
Módszertan
![Page 10: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/10.jpg)
History of data analytics terminologies
1985 1995 20001990 2005 2010 2015
Statistics
KDD (Knowledge Discovery from Databases)
Machine learning
Data science
Data mining
Predictive Modeling
![Page 11: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/11.jpg)
Alkalmazási területek
Bárhol ahol:• Van matematikailag megfelelő
probléma• Van hozzá adat• És megéri….
![Page 12: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/12.jpg)
Alkalmazási területek
Bárhol ahol:• Van matematikailag megfelelő
probléma• Van hozzá adat• És megéri….
![Page 13: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/13.jpg)
Alkalmazási területek
Bárhol ahol:• Van matematikailag megfelelő
probléma• Van hozzá adat• És megéri….
![Page 14: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/14.jpg)
Alkalmazási területek
Bárhol ahol:• Van matematikailag megfelelő
probléma• Van hozzá adat• És megéri….
![Page 15: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/15.jpg)
Eszközök
/Rexer, 2015/
Platformok vs programnyelvekOpen source vs fizetős
![Page 16: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/16.jpg)
Eszközök
/Gartner, 2017/
![Page 17: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/17.jpg)
Eszközök
![Page 18: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/18.jpg)
Adatbányászati , DS projektek
• Mi az eredménye?
Riportok, diagramok, előrejelzések „célváltozó” (pl. lemorzsolódók, vagy csalók) Gépi automaták lelke (pl. ajánlórendszerek, optimalizáló
rendszerek )
L
![Page 19: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/19.jpg)
Módszertan
![Page 20: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/20.jpg)
Módszertan
CRoss-Industry
Standard
Process for
Data Mining
(CRISP-DM)
Adatbányászati
folyamatok
iparágak közötti
szabványa
L
![Page 21: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/21.jpg)
CRISP-DM• Üzleti célok meghatározása
• Üzleti problémák és célok megfogalmazása
• Helyzet értékelés – mi valósítható meg, és hogyan
• Feladat adatbányászati megfogalmazása
• Projekt terv elkészítése
• Adatok megismerése• Adatok begyűjtése
• Adatok vizsgálata, megértése
• Adatminőség felmérése
• Adatok előkészítése• Adatok kiválogatása
• Adattisztítás
• Adattranszformálás
L
![Page 22: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/22.jpg)
CRISP-DM• Modellezés
• Modellezési technika kiválasztása
• Tesztkörnyezet kialakítása (tanító, tesztelő, validáló minta)
• Modellek építése
• Generált modell értelmezése
• Kiértékelés• Eredmények kiértékelése
• Eredmény összevetése az üzleti célokkal
• Folyamat áttekintése
• Következő adatbányászati lépés meghatározása
• Alkalmazás• Alkalmazási terv elkészítése
• Monitoring terv
• A kész modellek átadása/telepítése
• Végső jelentések elkészítése
L
![Page 23: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/23.jpg)
Algoritmusok
Sok ezer létezikNagy családokba rendezhetőkA legtöbb csak Pythonban, R-ben érhető elÜzleti életben csak néhányat használnak
Feladat, adat specifikusakNINCS csodaalgoritmusAz általánosan elterjedtek
általában elég jók
![Page 24: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/24.jpg)
Irányított, felügyelt tanításNem irányított tanításMegerősített tanulás
![Page 25: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/25.jpg)
*A folytonos változókat kategóriákra osztja.
Irányított tanuló modellek összefoglalás
AlgoritmusCélváltozó
Input Hiányzó értékekFlag Kat. Folyt.
Regresszió x Folytonos eldobás v. használat
Linear x Bármi Nem kezeli
Log. Regr. x x Bármi Nem kezeli
Discriminant x x Folytonos Nem kezeli
Genlin x x x Bármi Nem kezeli
SVM x x x Bármi Nem kezeli
C5.0 x x Bármi kezeli
C&RT x x x Bármi pótvágás
CHAID x x x Bármi* becslés, külön kategória
QUEST x x Bármi pótvágás
Decision list x Bármi* külön kat. v. eldobás
Neurális háló x x x Bármi Semleges érték
Bayes háló x x Bármi* eldobás v. használat
KNN x x x Bármi Nen kezeli
![Page 26: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/26.jpg)
Modell értékelés Előre nem lehet megmondani mikor elfogadható, még becslés sincs Főleg a felügyelt eljárásokat értékeljük, a célváltozó modellezési
pontosságát Modellek két módon javíthatók:
Több adattal, jobban előkészített adattal Algoritmus megválasztásával (próbálgatás)
Modell értékelési módszerek: Gains, Lift görbe Gini ROC AUC
Szakmai kérdés, hogy hogyan történik de a projekt elején megadhatóak, elvárható a megadása!
L
![Page 27: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/27.jpg)
Klasszifikáció - modellértékelés
No Score Target CustID Age
1 0.97 Y 1746 …
2 0.95 N 1024 …
3 0.94 Y 2478 …
4 0.93 Y 3820 …
5 0.92 N 4897 …
… … … …
99 0.11 N 2734 …
100 0.06 N 2422
1. A modell alapján minden esethez egy pontszámot rendelünk (score
érték)
2. A rekordokat a pontszám alapján csökkenő sorba rendezzük
3. A lista elején több találatot várunk
3 találat a lista első
5%-ában
Ha a mintában
összesen 15 találat
van, akkor a top 5%-
kal a találatok 20%-
át (3/15=0,2) találjuk
meg.
![Page 28: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/28.jpg)
Klasszifikáció - modellértékelés
100hitsofNrTotal
P%topinhitsofNr
Gains ~ CPH ~
Cumulative % Hits
Véletlen rendezés esetén a
lista első 5%-ában a találatok
5%-a szerepel.
Gains chart
![Page 29: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/29.jpg)
Klasszifikáció - modellértékelés
100hitsofNrTotal
P%topinhitsofNr
Véletlen rendezés esetén a
lista első 5%-ában a találatok
5%-a szerepel.
A modell alapján rendezett lista
első 5%-ában a találatok 21%-a
szerepel.
Gains ~ CPH ~
Cumulative % Hits
Gains chart
![Page 30: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/30.jpg)
Klasszifikáció - modellértékelés
PGain(P%)Lift(P%)
Lift
hitsofrateTotal
P%topinhitsofRate
Lift chart
![Page 31: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/31.jpg)
• Bináris célváltozó esetén a rangsorolás minőségének mérésére
• True positive / false positive
• Görbe alatti terület ~ modell jósága
• Egy véletlen pozitív példa milyen valószínűséggel van előrébb a rangsorban, mint egy véletlen negatív példa.
• Véletlen modell: 0.5
• Tökéletes modell: 1
• Jó: 0.8 fölött
Klasszifikáció - modellértékelés
ROC görbe
![Page 32: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/32.jpg)
Klasszifikáció - modellértékelés
ROC görbe alakja
Kiváló rangsorolás és
szeparáció eseteMegfelelő rangsorolás
kevés konkáv résszel
Gyenge rangsorolás: a
középső tartományban
a rangsorolás teljesen
véletlenszerű
A rangsorolás
minősége egyenlő
egy véletlen
rangsorolás
minőségével
![Page 33: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/33.jpg)
Gini• A Gini index a Gain görbe
és az átló (véletlen modell) közötti terület normálva az elméleti legjobb modell és az átló közötti területtel (PSZÁF definíció)
• Elvárt érték: 0.27
![Page 34: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/34.jpg)
Kolmogorov-Smirnov• A KS mutató a várható defaultos- és nem defaultos ügyfelek scoring értékeinek eloszlásfüggvényei közötti maximális különbség
• Elvárt érték 0.25
34
Performance mutató
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
PD_Scoring
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
Ará
ny
Default
Nem Default
Együtt
Várható össz átengedési arány
Nem defaultos várható csökkenése
Defaultos várható csökkenése
cu
tt off
KS=max(Fndf(scoring)-Fdf(scoring))
![Page 35: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/35.jpg)
Klasszifikáció
35Training Testing
Cut-off
0 01 1
![Page 36: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/36.jpg)
Klasszifikáció - modellértékelés
FNTP
TP
FPTN
TN
Találati mátrix ~ misclassification matrix
Predicted class
Yes No
Actual
class
Yes TP: True
positive
FN: False
negative
No FP: False
positive
TN: True
negative
Pontosság: helyes osztályozás aránya
Érzékenység ~ sensitivity (Recall): helyesen
osztályozott pozitív minták aránya
Sajátosság ~ specificity: helyesen osztályozott negatív
minták aránya
Megbízhatóság ~ precision: helyesen pozitív osztályba
sorolt minták aránya
N
TNTP
FPTP
TP
Első
-fajú
hiba
Másodfajú
hiba
![Page 37: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/37.jpg)
Szakmai hatékonyság
Az adattudomány ugyan „művészet”, de mennyi idő egy „műalkotás” létrehozása?
• Kaggle.com – Give me some credit
• Tiszta adatok
• Nagyon kevés változó
• Nagyon világos probléma
Befektetett munka: 1,5 nap
37
![Page 38: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/38.jpg)
A verseny eredménye (87 nap)
38
XX
Best0,869558
X
CC0,866496(-0,003062)
Benchmark0,864249(-0,005309)
A javulás pénz, tehát kérdés, hogy mekkora befektetést ér meg? (Nagyon ritkán igazán sokat.)
![Page 39: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/39.jpg)
Adatbányászati, DS projektek
• Mikor hatékony egy projekt? A tipikus DS projekt eredményterméke a projekt
egy – már gyakran korai – fázisától létrejön, és fejlődik, javul
Ezért az értelmes kérdés, hogy mikor elég jó, mennyit (mennyi időt) érdemes invesztálni bele?
Ez üzleti megtérülési modellel támoatható
L
![Page 40: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/40.jpg)
Adatbányászati, DS projektek
• Mikor jó egy projekt? Reprodukálható Összehasonlítható, mérhető Standard kimenet képes (PMML, SQL, stb.) Módosítható
L
![Page 41: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/41.jpg)
Adatbányászati, DS projektek
• Milyen dokumentáció várható? Programnyelv (R, Python) alapúnál fejlesztésekhez
hasonlóan részletes (bár szinte sohasem készül) Fejlett GUI-nál, vizuális kódnál (pl. Modeler)
egyszerűbb leírás is elég Architektúra ábra, leírás
L
![Page 42: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/42.jpg)
Adatbányászati, DS projektek
• Mik a DS projektek specifikus jellemzői?
A jó DS tevékenység igazából nem projekt(!) hanem folyamatszemléletű
Erősen üzleti fókuszú Jellemzően 2 hét-2 hónap, (ha nem igényel extra
adatelőkészítést) 70-80%-a adatmanipuláció, adattisztítás Általában 1-2 elemző végzi a fő tevékenységet
(ezért sem igényel klasszikus menedzsmentet) Erősen integrált, eredménye beépül
L
![Page 43: Adatbányászati, data science tevékenység projektmenedzsmentje](https://reader031.vdocuments.pub/reader031/viewer/2022012412/616c7ddecdb5a91a84745e7d/html5/thumbnails/43.jpg)
Adatbányászati, DS projektek
Tétel:
Mik az adatbányászati, data science projektek legfontosabb megkülönböztető jegyei? Milyen dokumentáció várható el? Hogyan mérhető a modellek teljesítőképessége, performanciája?