data mining

30
1 TEHNOLOGIIPENTRU EXTRAG EREA CUNO ŞTINŢELOR DATA M INING

Upload: razvanionut

Post on 16-Jul-2016

213 views

Category:

Documents


0 download

DESCRIPTION

Data Mining

TRANSCRIPT

1

TEHNOLOGII PENTRU EXTRAGEREA CUNOŞTINŢELOR

DATA MINING

2

Data mining : un proces de extragere de informaţii noi din colecţiile de date existente.

Principiul de funcţionare : Prelucrarea datelor referitoare la perioadele trecute pentru a evidenţia caracteristicile acestora şi a permite elaborarea unui model. Odată construit, modelul poate fi aplicat situaţiilor noi de

acelaşi tip. Informaţiile obţinute prin data mining sunt de natură predictivă sau descriptivă.

3

Fundamentele explorării datelor. Premize:

• firmele au acumulat volume foarte mari de date, stocate pe suporturi informatice, privitoare la tranzacţii de diverse tipuri, derulate de-a lungul mai multor ani.

• maturizarea algoritmilor şi a produselor program dedicate

• creşterea capacităţii de memorare şi prelucrare a calculatoarelor, care permite tratarea în corelaţie a volumelor foarte mari de date.

• au apărut firme care oferă spre vânzare colecţii de date istorice de uz general – cum ar fi, spre exemplu, evoluţia indicatorilor bursieri din ultimii 20 de ani - special constituite pentru asemenea utilizări.

4

O explorare dirijată de oportunităţi

Utilizarea data mining: Ciclu în cursul căruia se parcurg patru

etape: identificarea oportunităţii comerciale şi a datelor pe care

se poate baza explorarea extragerea de informaţii din colecţiile de date existente

prin tehnici adecvate de data mining adoptarea de decizii şi întreprinderea de acţiuni pe baza

informaţiilor obţinute măsurarea rezultatelor concrete pentru a identifica şi alte

modalităţi de exploatare a datelor disponibile

5

Decizie şi acţiune

Data mining

Oportunitate de afaceri

Evaluare rezultate

Ciclul de utilizare a data mining

6

Data mining

verificarea ipotezelor căutarea de cunoştinţe

dirijată nedirijată

Verificarea ipotezelor şi căutarea cunoştinţelor

7

Aplicarea tehnicilor de data mining poate fi făcută din perspectiva unui demers ascendent sau descendent.

În abordarea descendentă, efortul este orientat spre confirmarea sau infirmarea unor idei (ipoteze) formulate în prealabil prin alte mijloace.

Abordarea ascendentă urmăreşte extragerea de cunoştinţe sau informaţii noi din datele disponibile. Căutarea poate fi dirijată sau nedirijată

8

• Căutarea dirijată ia în considerare un atribut sau un câmp, ale cărui valori încearcă să le explice prin celelalte câmpuri. Este cea mai folosită în practică.

• Căutarea nedirijată are ca scop identificarea relaţiilor sau structurilor existente în ansamblul datelor examinate, fără a acorda prioritate unui câmp sau altul. Deşi mai spectaculoasă, în practică se recurge mult mai puţin la ea decât la căutarea dirijată.

9

Tehnici şi acţiuni Explorarea datelor în vederea obţinerii de

informaţii recurge la diverse tehnici, printre cele mai folosite aflându-se:

• reţelele neuronale• arborii de decizie• algoritmii genetici• analiza grupurilor• raţionamentele bazate pe cazuri• analiza legăturilor La acestea se pot asocia şi tehnici statistice, cum

sunt, spre exemplu, regresiile, analiza factorială etc.

10

Acţiuni Data mining:

1. Clasificarea2. Estimarea3. Predicţia4. Gruparea5. Analiza grupărilor

11

1. Clasificarea urmăreşte să plaseze obiectele prelucrate într-un grup limitat de clase predefinite. Dintre tehnicile de data mining, cele mai adecvate clasificării sunt arborii de decizie şi raţionamentul bazat pe cazuri.

2. Estimarea urmăreşte să atribuie o valoare unei variabile, pe baza celorlalte date de intrare. Reţelele neuronale sunt printre cele mai bune tehnici de data mining pentru acest gen de prelucrări.

12

3. Predicţia urmăreşte să claseze înregistrările tratate în funcţie de un comportament sau o valoare estimată viitoare.

• o colecţie de exemple, bazate pe date din trecut, în care valorile variabilei de previzionat sunt deja cunoscute.

• se construieşte un model care să explice comportamentul observat. Aplicând acest model asupra înregistrărilor de prelucrat, se obţine o predicţie a comportamentului sau valorilor acestora în viitor.

Tehnicile de clasificare sau estimare pot fi folosite şi pentru predicţii

13

4. Gruparea urmăreşte să determine care sunt obiectele care apar cel mai frecvent împreună. Exemplul tipic pentru acest gen de acţiune este determinarea mărfurilor care se cumpără uzual împreună, de unde şi denumirea de “analiză a coşului gospodinei”.

5. Analiza grupurilor urmăreşte să dividă o populaţie eterogenă în grupuri mai omogene, numite “cluster”.

• nu există un set predeterminat de clase ca în cazul clasificării şi nici exemple trecute;

• segmentarea se face în exclusivitate pe baza similitudinilor sesizate între obiecte.

14

Etapele procesului de explorare a datelor

Condiţii necesare• Existenţa programelor pentru implementarea

algoritmilor specifici tehnicilor de data mining • Pregătire prealabilă a datelor, de curăţare şi

uniformizare. • Rezultatele trebuie analizate şi interpretate pentru

a identifica informaţiile pertinente pe care le conţin.

• Selectia tehnicilor adecvate naturii problemei vizate

15

ETAPE:A. Definirea problemeiB. Identificarea surselor de dateC. Colectarea şi selectarea datelor D. Pregătirea datelorE. Construirea modeluluiF. Evaluarea modeluluiG. Integrarea modelului

16

A. Definirea problemei• declanşarea procesului este determinată de

sesizarea unei oportunităţi sau necesităţi de afaceri.

• În cadrul acesteia, este nevoie să se delimiteze exact ce urmează a fi rezolvat prin data mining, care sunt obiectivele urmărite şi rezultatele aşteptate.

17

B. Identificarea surselor de date• stabilirea structurii generale a datelor necesare • regulile de constituire a datelor• localizarea surselor acestora.

-date dispersate în diverse sisteme informatice operaţionale- stocate în formate diferite- administrate cu produse software diferite- uneori disponibile numai pe hârtie.

• eventualele incoerenţe sau probleme de definire, care pot compromite rezultatele analizelor următoare.

18

C. Colectarea şi selecţia datelor Această etapă urmăreşte extragerea şi plasarea

într-o bază comună a tuturor datelor ce urmează a fi folosite .

Problema : alegerea între • prelucrarea întregului fond de date

disponibil • un eşantion reprezentativ

19

D. Pregătirea datelorTransformări comune care vizează:• valorile extreme sau aberante• valorile lipsă• valorile de tip text• rezumarea• codificarea incoerentă• arhitecturile informatice incompatibile

20

E. Construirea modelului

Crearea modelului informatic care va efectua explorarea propriu-zisă.În cazul căutării de informaţii, dirijate sau nu, construirea modelului este

acompaniată de o fază de instruire, de învăţare.

Învăţarea • un ansamblu de exemple complete • identificarea relaţiilor care leagă între ele valorile diferitelor elemente

Testarea • date diferite de cele folosite pentru învăţare, dar aparţinând aceleiaşi

populaţii

Evaluarea • fază de reajustare a modelului

Obţinerea de explicaţii privitoare la modul în care un element variază în funcţie de valoarea altor elemente

21

Date de învăţareDate de test Date de evaluare

Model utilizabil

Datele colectate

Set de date preclasate şi distribuirea acestora, după colectare şipregătire, în trei seturi: de învăţare, de testare şi de evaluare

70-80% din date sunt alocate învăţării, restul rămânând pentrutestare sau fiind împărţit egal între aceasta şi evaluare.

Schema procesului de creare a modelelor de căutare a informaţiilor

22

F. Evaluarea modelului• evaluarea are scopul de a stabili capacitatea

modelului de a determina corect valorile pentru cazuri noi.

• in general, performanţele unui model se apreciază cu ajutorul unei „matrice de confuzie”, care compară situaţia reală cu cea furnizată de acesta.

• calitatea globală se exprimă prin raportul dintre numărul de predicţii exacte şi numărul total de predicţii

23

G. Integrarea modeluluiAceastă etapă finalizează procesul, prin includerea modelului obţinut într-un SIAD sau într-un proces decizional mai general din întreprindere.

Observaţii : • orice model are o durată de viaţă limitată.

(modelele trebuie actualizate permanent, pentru a putea urmările schimbările survenite în domeniul la care se referă).

• rezolvarea unei probleme se obţine prin combinarea mai multor tehnici.

24

1. Reţelele neuronale2. Arborii de decizie3. Algoritmii genetici4. Analiza grupurilor5. Raţionamentele bazate pe cazuri6. Analiza legăturilor

25

1. Reţelele neuronale• pot furniza soluţii, în special de natură predictivă,

pentru probleme de mare complexitate sau volatilitate.

• cazuri tipice de utilizare cu succes a reţelelor neuronale includ: stabilirea preţurilor pe piaţa imobiliară, evoluţia cotaţiilor pe pieţele financiare, analiza cererilor de creditare etc.

• O reţea neuronală dobândeşte capacitatea de a rezolva un anumit tip de problemă în urma unui proces de învăţare. Procesul de învăţare permite reţelei să identifice automat un set de corelaţii utilizate ulterior pentru a face predicţii.

26

2. Arborii de decizie

• tehnică aplicabilă atât pentru clasificare cât şi pentru predicţie.

• rezultatul ia forma unei arborescenţe care prezintă o ierarhie de reguli logice stabilite automat prin explorarea unei baze de exemple.

• exemplele au forma unor înregistrări compuse din mai multe atribute.

• regulile se obţin ca efect al subdivizării din ce în ce mai detaliate a ansamblului exemplelor, în funcţie de conţinutul atributelor.

Ex. Daca locuinta inchiriata si venit anual< 5.000 lei Atunci probleme la rambursarea creditului

27

3. Algoritmii genetici

• aplică principalele mecanisme ale selecţiei naturale pentru a favoriza conservarea şi reproducerea, dintr-o populaţie numeroasă, a celor mai performanţi, mai bine adaptaţi indivizi.

• populaţia este formată din ansamblul de soluţii posibile ale unei probleme; cel mai adaptat individ este prin urmare, cea mai bună soluţie.

• algoritmii genetici permit găsirea soluţiei optime (efectuarea de predicţii sau clasificări).

28

4. Analiza grupurilor (clustering)• permite identificarea automată a grupurilor existente

în ansamblul datelor analizate (poate fi aplicata în căutarea nedirijată).

• grupurile rezultă automat în urma procesului de prelucrare, fără a avea ca punct de pornire un anumit criteriu sau proprietate.

• este o tehnică ce are capacitatea de a releva realmente caracteristici ascunse – sub volumul şi diversitatea detaliilor – într-un anumit set de înregistrări.

• detectarea automată de cluster-e este recomandabilă ca tehnică de debut pentru un proiect de data mining. Rezultatele furnizate de aceasta urmează a fi explorate în continuare cu alte tehnici pentru a obţine informaţii mai complete.

29

5. Raţionamente bazate pe cazuri

• raţionamentul bazat pe cazuri caută răspunsurile la problemele noi în experienţele acumulate în trecut.

• in faţa unei situaţii noi, vor fi căutate cazurile asemănătoare cunoscute iar concluziile acestora vor fi aplicate şi în noua situaţie.

• metoda este aplicabilă atât pentru clasificări cât şi pentru predicţii

30

6. Analiza legaturilor

• analiza asocierilor, denumită şi “analiza coşului gospodinei” urmăreşte să găsească regulile care descriu apariţia frecventă împreună a unor obiecte eterogene.

• rezultatele generate primesc o formă explicită şi simplă, care favorizează înţelegerea şi aplicarea lor concretă.

• tehnica se poate aplica pentru căutarea nedirijată de informaţii (poate fi aplicată oricăror tranzacţii comerciale, putând servi pentru analiza vânzărilor din supermarket-uri, analiza mişcărilor de fonduri dintr-o bancă, analiza incidentelor de asigurare etc.)