introduzione al data mining
DESCRIPTION
introduzione al data mining, definizione, storia e principali tecniche descrittive e predittive powered by admindTRANSCRIPT
![Page 1: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/1.jpg)
Data Mining e modelli
previsionali
Roma 13 settembre 2011
![Page 2: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/2.jpg)
PARTIAMO
![Page 3: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/3.jpg)
Processo di estrazione di conoscenzada banche dati di grandi dimensioni tramite l’applicazione di algoritmi che individuano le associazioni “nascoste”tra le informazioni e le rendono visibili.
Che cosChe cosChe cosChe cos’è’è’è’è il Data il Data il Data il Data MiningMiningMiningMining
Processo di esplorazione ed analisi, automatico o semi-automatico, di un’ampia mole di dati al fine di scoprire modelli e regole significative
![Page 4: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/4.jpg)
PerchPerchPerchPerchèèèè usare gli strumenti di data usare gli strumenti di data usare gli strumenti di data usare gli strumenti di data miningminingminingmining
Gli algoritmi di Data Mining sono stati sviluppati per far fronte all’esigenza di sfruttare il patrimonio informativo contenuto nelle grandi raccolte di dati che si hanno a disposizione.
Acquisire informazioni non èun problema se si pensa alla ricchezza delle sorgenti di dati accessibili sul web o attraverso Data Warehouseaziendali, il problema èutilizzarle.
volumevolume
valore
dati
informazione
conoscenza
decisione
![Page 5: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/5.jpg)
Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)Il processo di estrazione di conoscenza (KDD)
Data Mining come parte di un processo più generale definito Knowledge Discovery in Database (KDD)
Essenza del Data Mining è la trasformazione dei dati in risultati applicabili
![Page 6: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/6.jpg)
Data Mining
Database Technology Statistica
Altre disciplineInformationScience
MachineLearning Visualizzazione
Il data Il data Il data Il data miningminingminingmining èèèè la somma di discipline diversela somma di discipline diversela somma di discipline diversela somma di discipline diverse
![Page 7: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/7.jpg)
Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica
1960 1970 1980 1990-2000
Raccolta dati,modelli gerarchici e relazionali
Diffusione DBMS relazionali commerciali
Modello relazionale dei dati, primi DMBS relazionali
Data mining e data warehousing
Modelli predittivi
2000-2011
![Page 8: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/8.jpg)
Una prospettiva storicaUna prospettiva storicaUna prospettiva storicaUna prospettiva storica
1960 1970 1980 1990-2000
Raccoltadati
Quanto ho venduto negli ultimi 3 anni
Accessoai dati
Quanto ho venduto al Nordlo scorso gennaio?
Viste le vendite al nord, quale è il
dettaglio per città?
Query a database
Data Mining
Perché vendiamo di più in alcune
città?
1990-2000
Modellipredittivi
Dove/a chi potrò vendere di più?
![Page 9: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/9.jpg)
Il ciclo virtuoso del data Il ciclo virtuoso del data Il ciclo virtuoso del data Il ciclo virtuoso del data miningminingminingmining
Individuazionedei problemi e dei settori di business
per cui l’analisi può essere utile
Trasformazionein informazioni applicabili (actionable)
con le tecniche del data mining
Azionesulla base delle informazioni
MisurazioneDei risultati ottenuti per avere info utili
su come utilizzare al meglio i dati
![Page 10: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/10.jpg)
Data Data Data Data MiningMiningMiningMining e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence
La business intelligence è un insieme di processi e sistemi che consentono di trasformare i dati generati dalle attività aziendali in informazioni.
Il data mining è una “tecnica” di Business Intelligence
![Page 11: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/11.jpg)
Ambiente dati a supporto
delle decisionimanageriali
IntegratoSubject-orientedNon Volatile
Tante fonti eterogenee
racchiuse in un unico contenitore
Creazionevantaggio competitivo
Pianificazionestrategie di medio-lungoperiodoOttimizzazione
dei processi
KnowledgeDiscovery in Database
Data Data Data Data MiningMiningMiningMining, Data , Data , Data , Data WarehouseWarehouseWarehouseWarehouse e Business Intelligencee Business Intelligencee Business Intelligencee Business Intelligence
![Page 12: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/12.jpg)
Data Data Data Data MiningMiningMiningMining e OLAPe OLAPe OLAPe OLAP
OLAP
Analisi del contenuto attraverso lo studio di aggregazioni guidate
dall’utente
Data Mining
“estrazione di conoscenza (non banale, implicita, nuova, potenzialmente
utile) da grandi quantità di informazioni”
Cosa sta succedendo
Perché sta succedendo
![Page 13: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/13.jpg)
PREVISIONE
DataMining
RAGGRUPPAMENTO
CLASSIFICAZIONE
DESCRIZIONEVISUALIZZAZIONE
STIMA
CLUSTERING
Data mining“diretto”
i dati disponibili vengono usati per creare un
modello che descriva una variabile
Data mining“indiretto”
si cerca di stabilire una ben precisa relazione tra tutte le variabili in gioco
Cosa Cosa Cosa Cosa puopuopuopuo’’’’ fare il data fare il data fare il data fare il data miningminingminingmining: aree di applicazioni: aree di applicazioni: aree di applicazioni: aree di applicazioni
![Page 14: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/14.jpg)
Contesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecnicheContesto applicativo: obiettivi e tecniche
CLASSIFICAZIONE SEGMENTAZIONE PREVISONE ANALISI ASSOCIAZIONI
CLASSIFICAZIONE
FRAUD DETECTION
CLUSTER ANALYSIS
CREDIT SCORING
CROSS SELLING
SCORING PROMOZIONALE
CHURN ANALYSIS
![Page 15: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/15.jpg)
Contesto applicativoContesto applicativoContesto applicativoContesto applicativo
DATA MINING
SUB POINT
EFFICIENTE DISTRIBUZIONE
RISORSE
INDIVIDUAZIONE TARGET
REMUNERATIVI
OPPORTUNITA’DI CRESCITA
AUMENTO PRODUTTIVITA’
UP/ CROSS SELLING
FIDELIZZAZIONE
RIDUZIONE RISCHI FRODE
![Page 16: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/16.jpg)
Contesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempiContesto applicativo: alcuni esempi
![Page 17: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/17.jpg)
Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data miningminingminingmining
MODELLIEFFICACI
I DATI
DATA MINING
TECNICHE
![Page 18: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/18.jpg)
Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi
Le tecniche di data mining non sono altro che un generale approccio alla soluzione dei problemi ed esistono molti modi perrealizzarle.
Ognuno di questi modi rappresenta un diverso algoritmo.
tecnica
algoritmo
La tecnica è l’approccio concettuale che porta all’estrazione delle informazioni dai dati
È il la formula che viene utilizzata per l’implementazione di una tecnica
![Page 19: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/19.jpg)
Tecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversiTecniche diverse per obiettivi diversi
Il data mining puo’ essere descrittivo, o prescrittivo in base all’obiettivo dell’analisi che si sta svolgendo
DESCRITTIVO
PRESCRITTIVO
TECNICHE
L’obiettivo è approfondire la conoscenza di cio’ che avviene all’interno dei dati e quindi del mondo che rispecchiano. Le azioni non possono essere automatizzate
L’obiettivo principale è l’automazione del processo decisionale ottenuta creando un modello in grado di dare una previsione o stimare un valore
![Page 20: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/20.jpg)
Tre tecniche di data Tre tecniche di data Tre tecniche di data Tre tecniche di data miningminingminingmining
Con il termine cluster si intende un gruppo di unità simili o vicine tra loro, dal punto di vista della posizione o della composizione
CLUSTERING
K-Means Method
![Page 21: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/21.jpg)
Tre tecniche di data Tre tecniche di data Tre tecniche di data Tre tecniche di data miningminingminingmining
Un albero di decisione viene utilizzato per classificare le istanze di grandi quantità di dati (per questo viene anche chiamato albero di classificazione). In questo ambito un albero di decisione descrive una struttura ad albero dove i nodi foglia rappresentano le classificazioni e le ramificazioni l'insieme delle proprietà che portano a quelle classificazioni.
ALBERI DECISIONALI
![Page 22: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/22.jpg)
Tre tecniche di data Tre tecniche di data Tre tecniche di data Tre tecniche di data miningminingminingmining
Le reti neurali rappresentano la tecnica più nota di data mining, ma forse anche la meno compresa. Ciò è dovuto in gran parte alla terminologia delle scienze cognitive da cui deriva il suo nome.
L’obiettivo dei primi modelli era infatti replicare il comportamento delle cellule nervose umane.
Le reti neurali dal punto di vista del data mining non sono altro che un metodo per applicare un modello a dati storici al fine di poter ricavar classificazioni o previsioni.
RETI NEURALI
![Page 23: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/23.jpg)
Modelli di reti neuraliModelli di reti neuraliModelli di reti neuraliModelli di reti neurali
![Page 24: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/24.jpg)
Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data miningminingminingmining
MODELLIEFFICACI
I DATI
DATA MINING
TECNICHE
![Page 25: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/25.jpg)
I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data miningminingminingmining: dati: dati: dati: dati
Il secondo pilastro su cui poggia il data mining è rappresentato dai dati utilizzati nel processo: senza di essi, il data mining non sarebbe possibile e potrebbe contare solamente su qualche intuizione.
I dati assumono le forme più disparate, sono di tipo diversi e si trovano in molti sistemi; sono “quasi sempre” sporchi, incompleti e talvolta indecifrabili.
I dati sono la
materia prima del
data mining
![Page 26: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/26.jpg)
Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data Contesto tecnico: 3 pilastri del data miningminingminingmining
MODELLIEFFICACI
I DATI
DATA MINING
TECNICHE
![Page 27: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/27.jpg)
I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data I 3 pilastri del data miningminingminingmining: modellazione: modellazione: modellazione: modellazione
Il terzo pilastro è rappresentato da una serie di competenze di modellistica necessarie per costruire modelli.
Il data mining viene applicato per lo più per costruire modelli previsionali che rilevano pattern significativi sui dati accumulati al fine di fare previsioni relative ad esiti futuri.
Lo scopo dei modelli è l’utilizzo delle previsioni per prendere decisioni più informate.
![Page 28: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/28.jpg)
2 stili di data 2 stili di data 2 stili di data 2 stili di data miningminingminingmining
SUPERVISIONATO
NON SUPERVISIONATO
STILI DI DATA MINING
E’ un approccio top-down applicabile quando sappiamo che cosa stiamo cercando, ed assume spesso la forma di modelli previsionali.
E’ un approccio bottom–up in cui si lascia che i dati stessi indichino un risultato.Spetta all’utente stabilirne l’importanza.
I modelli predittivi realizzabili con gli strumenti di data mining sono essenzialmente di due tipi:
![Page 29: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/29.jpg)
29
The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:The Predictive Analytics Process:
Decision Optimization
Recommend the mostappropriate actionto take
EnterpriseData Sources
Read new data on customers, events, etc. for continuous improvement
Predictive Analytics
Analyze data toprovide insight andpredict the future
Acquisire
Modelli predittivi
�Improve customer retention
�Grow share of wallet
�Minimize risk
�Increase customer satisfaction
� Enhance market share
Prospects
Customers Constituents
Employees
Students Patients
Agire
DashboardsKiosks / MobileCRM / ERPSterling Apps
![Page 30: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/30.jpg)
I modelli previsionaliI modelli previsionaliI modelli previsionaliI modelli previsionali
Il modello predittivo è rappresentato da una black box: a volte non interessa il meccanismo di funzionamento ma interessa la migliore previsione possibile.
![Page 31: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/31.jpg)
Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
![Page 32: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/32.jpg)
Costruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionaliCostruzione dei modelli previsionali
![Page 33: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/33.jpg)
Dati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempoDati dipendenti dal tempo
Il passato serve a prevedere il futuro
Per costruire un modello efficace, i dati nel set di costruzione devono imitare il timeframe in cui il modello verrà applicato
![Page 34: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/34.jpg)
Misurazione dellMisurazione dellMisurazione dellMisurazione dell’’’’efficaciaefficaciaefficaciaefficacia
Matrice di Confusione: matrice che permette di individuare quali tra le previsioni fornite dal modello previsionale siano corrette e quali errate
Curva Lift: grafico che raffigura le prestazioni di un modello previsionale come funzione della dimensione del campione.
![Page 35: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/35.jpg)
Il confronto tra modelli predittivi: le curve ROC Il confronto tra modelli predittivi: le curve ROC Il confronto tra modelli predittivi: le curve ROC Il confronto tra modelli predittivi: le curve ROC
Le curve ROC furono utilizzate per la prima volta da alcuni ingegneri elettrici durante la seconda guerra mondiale, che volevano scovare i nemici utilizzando il radar durante le battaglie. Recentemente invece le curve ROC sono utilizzate anche in medicina, radiologia, psicologia, veterinaria e altri ambiti, come machine learning e data mining.
La statistica di sintesi per valutare l’accuratezza di un modello predittivo è l’area sottesa alla curva (AUC)
![Page 36: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/36.jpg)
Data Data Data Data miningminingminingmining e fraud managemente fraud managemente fraud managemente fraud management
Grandi quantità di dati
Associazioni nascoste
Trasformazione dei dati in risultati applicabili
Modelli previsionali
![Page 37: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/37.jpg)
![Page 38: introduzione al data mining](https://reader037.vdocuments.pub/reader037/viewer/2022102823/5464c31eaf7959cf288b4eb0/html5/thumbnails/38.jpg)
38
Stefano M. de [email protected]
www.admind.it
www.andreadimartino.wordpress.com
www.facebook.com/admind