retro adatbányászat2012.adattarhazforum.hu/letoltes/dwforum2012/adattarhaz...az adatbányászat =...

Retro adatbányászat

Kovács Gyula – Andego Tanácsadó Kft.

Adattárház Fórum 2012

Magunkról

• 2010-ben alapították magánszemélyek (az alapítók több mint egy évtizedes BI tapasztalatokkal rendelkeznek)

• Andego Tanácsadó Kft. fő profilja:

• Intelligens applikációk kifejlesztése, és hozzá konzultáció eladása (CARculator, Sixtep hálózati szoftver)

• BI tanfolyamok megtartása (kiscsoportos tanfolyamok)

• CRM és BI témájú piackutatások lebonyolítása

• Partnerek

• IFUA Partners , MentorPartner, BI Consulting Kft. és SIXTEP Kft.

• Referenciák

• Lombard Lízing, MKB Euroleasing, OTP, Uniqa, Posta Biztosító, Signal Biztosító, PBA biztosítási alkusz, Vodafone, Sanofi-avensis

Tartalom

• Mi is az adatbányászat?

• Alapfogalmak

• Dara Mining és X mining kapcsolata

• Big Data és adatbányászat

• Hogyan készül egy adatbányászati modell?

• Milyen adatbázisokat építsünk?

• Egy esettanulmány

Az adatbányászat már nem trendi?

Az adatbányászat = adatfeldolgozás,

adatelemzés és gondolkodás

Bár általában adatok elemzésével kapcsolatban használják a

fogalmat, az adatbányászat a mesterséges intelligenciához hasonlóan

egy „esernyő” fogalom. Általában üzleti vagy valamilyen más

szervezeti trend(ek) azonosításának igényével kapcsolják össze.

1.„Az implicit, korábban ismeretlen és hasznos információk kinyerése

különféle adatokból” (W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge

Discovery in Databases: An Overview. AI Magazine, Fall 1992, pages 213-228.)

2. „Hasznos információk hatalmas adatsorokból vagy adatbázisokból

való kiszűrésének tudománya" (D. Hand, H. Mannila, P. Smyth: Principles of Data

Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X)

3. Egyesíti az adatbázis-kezelés, a statisztika és a mesterséges

intelligencia kutatások eredményeit.

4. Az adatbányászat nagy mennyiségű adatok kutatása és elemzése

rejtett minták és szabályok felfedezése érdekében. (Data Mining Techniques;

By Michael J. A. Berry and Gordon S. Linoff, 2004 John Wiley & Sons)

• CRM rendszerek megjelenése. A rendszerek inbound/outbound

kampányok menedzselése egyben, és az adatbányászati modelleket ezen

kampányokhoz kezdték használni (CRM modellek) -> Modell

teljesítmények mérése éles környezetben (kampány

menedzsment)

• Web analitika. Egyre több online intelligens alkalmazás jelent meg. A

web adatok nagyon gyorsan amortizálódnak, az algoritmusokkal szembeni

elvárás az öntanulás képessége (pl. ajánló rendszerek) -> Real-time

technológia és Big Data megjelenése

• Nem strukturált adatok bányászata. A hagyományos adattárház

adatok elemzése mellett megjelent a szöveg és hangbányászat. A

szövegbányászat egyben a tartalom elemzés legfontosabb motorja ->

Digitális lábnyomok egyre intenzívebb elemzése

2005 körül számos olyan változás történt, ami

alapvetően változtatta meg az adatbányászatot

Data Mining

Óriás adatok megjelenése:

• BIG Data

• Cloud Computing

• Hálózatok (közösségi

oldalak > digitális lábnyomok)

Kampány menedzsment:

• Analítikus CRM

• Real-time decision

• Üzleti elemzés szerepe

nő – Business Analyses

Napjainkban adatbányászathoz sorolunk

lassan mindent ami adatelemzés

Nem strukturált adatok

elemzése:

• Text mining

• Voice mining

• Hálózatelemzés

Adatbányászat

demokráciája:

• Open source szoftverek

térnyerése

• „Mindenkinek van adata”

X-Mining tényleg adatbányászat?

A szövegbányászat, hangbányászat, videóbányászat és

részben a hálózatelemzés valójában a nem strukturált adatok

strukturált formára hozását jelenti. Ennek köszönhetően az

adatbányászat új adatokat tud beépíteni a modellekbe.

Big Data Big Money?

A technologyreview-ban Peter Fader-rel (Wharton Egyetem)

készült interjúban a Big Data szerepéről beszéltek. Ennek

kivonata:

• A "More is better" elvvel kapcsolatban a kétségeit fogalmazta meg.

Emlékeztette az olvasókat arra, hogy 15 éve hasonló várakozások előzték

meg a CRM rendszereket, és a benne lévő elemzési lehetőségeket -

azonban az idő nem igazolta ezeket a várakozásokat (vagy csak ritka

esetekben)

• A legfontosabb kérdés az optimális adatmennyiség mérete. Fader szerint

az elemzés lényege az adatokban lévő korlátok feltérképezése, és nem

minden áron történő kiaknázása.

• Ugyancsak kitért arra, hogy az óriási adatok elemzése végén lehet hogy

olyan összefüggésekhez jutunk, amiket az "adattudósok" már a 60-as

években is tudtak. Az óriási adatok elemzése túlságosan technikai jellegű

lett, éppen ezért Fader szerint az adattudósok inkább

matematikusok/informatikusok, és kevésbé elemzők.

Egyáltalán hol vannak nagy adatok?

Rexer Analytics felmérése szerint az elemzők 87%-a maximum 100

változót használ az elemzéseknél

Az elemzők számára nagyobb kihívás az

adattisztítás mint az adatméret

Az elemzők többsége vállalati adattárházakon dolgozik. Itt az

adatminőség kérdése a legszignifikánsabb, az adatok mérete nem

változott az elmúlt években radikálisan

Tartalom

• Mi is az adatbányászat?

• Alapfogalmak

• Dara Mining és X mining kapcsolata

• Big Data és adatbányászat

• Hogyan készül egy adatbányászati modell?

• Milyen adatbázisokat építsünk?

• Egy esettanulmány

Adatbányászati modellezés - alapelv

Ügyfél

Az alapelv: minél több múltbeli adatot gyűjtsünk össze az adott

ügyfélről, és ez alapján jelezzük előre jövőbeli viselkedését.

k • Demográfiai/firmográfiai

adatok

• Tranzakciós adatok

(kommunikáció/pénzforgalom)

• CRM adatok – ügyfél-vállalati

interakciók

• Termék használati adatok

• Stb.

Jövő

• Lemondja a

szerződését?

• Csődbe jut?

• Csalást fog elkövetni?

• Vásárolni fog az adott

termékből?

Prediktív

modell

Mit várhatunk el egy adatbányászati projekttől?

• Churn előrejelzés. Elsődlegesen mobil szektorban, ezen belül is

postpaid ügyfelekre.

• Ügyfél szegmentáció. Olyan viselkedés alapú szegmentáció, ami a

hasonló szükségletű ügyfeleket detektálja. Elsődlegesen kampány

célcsoport kijelölésnél használták.

• X-sell/upsell elemzések. „Next best” ajánlatok kiszámítása

asszociációs szabályok segítségével

• Ügyfélérték számítás. Alapvetően kontrolling feladat, de a CLV

számításnál szükséges az ügyfelek várható élettartamának kiszámítása

• Csalás detektálás. Bankkártya csalások detektálása

• Folyamat optimalizálás. Behajtási folyamatok optimalizálása (pl.

mely adósokat nem kell átadni behajtó cégeknek)

Néhány tipikus alkalmazás

Adatbányászati modell – elemzés eredménye

Hűségszerződés lejárt?

Igen: 15% Nem: 3%

Optimális díjcsomagban van

Igen: 10% Nem: 25%

Panaszkodot t az ügyfélszolgálaton?

Igen: 7% Nem: 1%

Adatbányászat legfontosabb lépései

Az adatbányászat nélkülözhetetlen része az adatbányászati szoftver.

A legjobb szoftverek támogatják:

1. Adatfeldolgozás: az eredeti forrás adatok általában alkalmatlanok

adatbányászati elemzésekre. A szoftver segítségével előállítható tanító

és teszt adatbázis

2. Hagyományos elemzés (statisztikák és grafikonok): az elemző lépésről

lépésre állítja elő a tanító adatbázist. Ehhez szükséges alapelemzések

elkészítése

3. Modellezés: minden adatbányászati szoftver tartalmaz

modellező/adatbányászati algoritmusokat. A tanító adatbázison ezek

segítségével készítjük a modelleket (adatbányászati algoritmus ≠

modell)

4. Kiértékelés: a legtöbb szoftver tartalmaz olyan eljárásokat, amelyek

segítségével könnyen eldönthető, hogy az adott modell mennyire

pontos (mennyire használható)

Esettanulmány

Prediktív modellezés – múltbeli tapasztalatok

alkalmazása az előrejelzésre

Alapelv: gyűjts össze minél több adatot a múltból, és ezt használd fel a

jövő előrejelzésére!

Jelen Múlt

• Univerzális tudás:

múltbeli adatok alapján

feltárt összefüggések

(függvényhalmaz)

• Múltbeli adatok

elátrolva

adattárházakban

(adatbázis)

Előrejelzés – jelen tudásunk

alkalmazása

• Demográfiai/firmográfiai

adatok

• Viselkedés adatok

(hívások, SMS, MMS, …)

• CRM adatok – ügyfél-

vállalati interakciók

• Termék használati

adatok

Ügyféladat DataMining modellek

Ügyfélszintű előrejelzés: mi annak a

valószíműsége, hogy egy adott

esemény bekoövetkezik? (pl.

Elvándorlás)

Univerzális tudás

múltbeli adatok alapján

• Demográfiai/firmográfiai

adatok

• Viselkedés adatok

(hívások, SMS, MMS, …)

• CRM adatok – ügyfél-

vállalati interakciók

• Termék használati

adatok

Friss ügyféladatok –

melyeken a modellek

futtathatók

Feladat: cégek bedőlésének előrejelzése

• Forrás: Complex céginformációs adatbázis • ~1.000 különböző tábla

• A legnagyobb táblákban 25-30M rekord

• Inkonzisztens adatbázis

• Elemzés lépései: • Létrehozunk egy tanító adatbázist

• Alapelemzéseket készítünk

• Elemzési stratégia kialakítása

• Modellezés

• Kiértékelés

Hogyan hozzunk létre elemzési adatbázist?

2011.01 2011.06 2011.012

Múltbeli események Célváltozó: történik-e

negatív esemény az adott

céggel

Az eredmény egy olyan függvény, mely

később alkalmazható előrejelzésekre.

Milyen adataink vannak?

2011.01 2011.06 2011.012

Múltbeli események Célváltozó: történik-e

negatív esemény az adott

céggel

• Cím adatok (székhely, telephely, fióktelep) – és ezek változása

• Tulajdonosi adatok

• Tisztségviselő adatok

• Bankszámla adatok

• ....

• Mérleg adatok – 2010-es vagy korábbi (évente egyszer „frissül”)

Tanító adatbázis – ami bármikor

reprodukálható

Változók Cégazonosító

Volt-e

székhely

váltás (last

Volt-e

2010-es

mérleg

Létszám

változás

(last 6M)

Cég1 1111 1 32 1 +3

Cég2 1112 0 78 1 -2

2011.06. végi állapot

Tanító adatbázis – célváltozó előállítása

Változók Cégazonosító

Volt-e

székhely

váltás (last

Volt-e

2010-es

mérleg

Létszám

változás

(last 6M)

Cég1 1111 1 32 1 +3

Cég2 1112 0 78 1 -2

2011.06. végi állapot

Felszámol

ásba kerül

(next 6M)

Alapelemzések – ismerd meg az adatokat

Nem volt Volt Ráta

Soha nem adott be mérleget 205887 3179 1,52%

Adott-be mérleget 2010-ről! 310575 840 0,27%

Adott-be mérleget, de 2010-ről már nem! 108244 3581 3,20%

Mindenki

2011. II félévben volt-e negatív

Az alapelemzések segítenek:

• Adatminőség ellenőrzésében

• Releváns adatok detektálásában

• Modellezési koncepció kialakításában

Modellezés – szakértői tudással

Teljes sokaság (1,25%)

I. Volt negatív esemény az elmúlt fél évben

(5,89%%)

Nem volt negatív esemény az elmúlt fél évben (1,05%%)

III. Adott be mérleget 2010-ben

(0,25%%)

II. Nem adott be mérleget 2010-ben

(1,98%)

Jelen esetben az elemző úgy döntött, hogy 3

modellt épít 3 különböző szegmensre (már maga a

szegmentálás egy modell)

Modellezés – szakértői tudással

Teljes sokaság (1,25%)

I. Volt negatív esemény az elmúlt fél évben

(5,89%%)

Nem volt negatív esemény az elmúlt fél évben (1,05%%)

III. Adott be mérleget 2010-ben

(0,25%%)

II. Nem adott be mérleget 2010-ben

(1,98%)

Kiértékelés – üzleti szemüvegen keresztül

SCORE Darabszám

Negatív

esemény

valószínűsége II.

Félévben

A 18348 5,9%

B 55200 4,5%

C 236061 1,5%

D 134341 0,4%

E 193627 0,1%

A kapott score-ok alapján kialakíthatók

szegmensek, melyek jól használhatók üzleti

folyamatokban

Milyen adatokon tudunk adatbányászati modelleket

építeni?

Adatleltár S

PREDIKCIÓ

Demográfia

Termék/ szolgáltatás

Ügynök

Viselkedés adatok

Számla fizetés

Ügyfélszolgálati kapcsolat

Kampány

Felmondás

SZEGMENTÁCIÓ

XX (termék affinitás) XX

XXX X (vagy több ?)

X (churn) X (attitűd)

XX (churn) X (attitűd)

XX (termék affinitás) X (attitűd)

XX (churn) -

Hogyan használjuk az adatokat?

Adott vállalat összes

ügyfeléről egységes

információ halmaz.

Az adattárházban lévő adatokat egy

az egyben inputként adjuk az

adatbányászati eljárásnak – majd a

modellezés ezen alapadatokon

történik

Ömlesztve

Feldolgozva

Az adattárházban lévő adatokból

„attitűd” jellegű képzett változót

készítünk – és ezen változókon

történik a szegmentáció (pl. aki

minden hónap 5-én csekken fizeti

be a számlát – az „precíz”, …)

Az adatbányászati algoritmusok táblázatokat

várnak

Az összes data mining algoritmus táblázat formátumú

adatokat tud kezelni – azaz sorok és oszlopok strukturált

formában (SQL táblák)

Milyen egy jó adatbányászati tanító adatbázis?

• Ügyfél-centrikus adatbázis (vagy termék

centrikus, stb.): végső cél: 1 ügyfél 1

rekord struktúra létrehozása

• Az adatok zaj mentesek – a dm

algoritmusok egy része nem tudja kezelni a

hiányzó értékeket

• A szélsőséges értékek – deviancia mentes

adatbázis

• Kategória változók támogatása – jól

interpretálható eredmények

„Egy sor egy ügyfelet (emailt, káresetet,

szerződést, …) ír le” szabály

Ügyfél

Minden egyes

sor egy- egy

ügyfelet jelöl:

1.Egy múltbeli

időpillanatban

mit tudtunk

róla? (input

változók)

2.Mi történt vele

utána?

(célváltozó)

Az összegyűjtött adatokról miket kell tudnunk!

Nagyon fontos, hogy az összegyűjtött változókat

pozícionálni tudjuk:

• A modellezésnél mi a szerepe (input, output)

• Mit is ír le pontosan?

• Változó típusa – mennyire tudja kezelni az algoritmus (pl.

diszkrét értéket sok szegmentáló eljárás nem tud jól

kezelni)

• Elérhetőség – mennyire bonyolult előállítani (modell

később alkalmazható legyen)

• Mennyire megbízható az adat

• Információ tartalom (szórás, korreláció a célváltozóval)

Összefoglalás

• Adatbányászat szerepe továbbra is

jelentős – amennyiben megfelelően

használjuk

• Nem kell bonyolult modell – elég ha

használható

• Big Data – ne akarjunk minden elemezni!

• X-Mining – adatkinyerésre használjuk és

utána elemezzünk

retro adatbányászat2012.adattarhazforum.hu/letoltes/dwforum2012/adattarhaz...az adatbányászat =...

Documents

a zsebesi avar temetŐ fegyveres rÉtege csíky gergely ·...

statisztika i. -...

bi diy: adatelemzés házilag - topdesk · a mi jegyeink...

dr. takács lajos tűzvédelmi burkolatok helyes szemlélet...

statisztikai adatfeldolgozás (excel és r)

tantárgy neve: geofizikai adatfeldolgozÁs...

a nonprofit szervezetek szerepe, lehetőségei a … · web...

tárgytematika - széchenyi istván university ·...

dr. balogh albertlkq.hu/szigma/files/balogh.pdf · 2009. 5....

tÖrtÉnelem, tÁrsadalmi És ÁllampolgÁri...

adatelemzés és adatbányászat...

mérés- és...

hidrometriai és hidrometeorológiai mérések és...

ritka események kezelése intelligens adatfeldolgozás...

Újfajta szivárgások leírása a vallomások során,...

budapesti mobilitási...

okostelefon kÖzÉprÉteg, valÓs idejŰ teljesen elosztott...

délvidéki...

634.0.796 a fafeldolgozÁs ÖnkÖltsÉgszÁmÍtÁsi...

statisztika statisztikai ő alapfogalmakstatisztika fogalma...