sistemi informativi per le decisioni - db&kb group - data preparation.pdf · non ha senso...
TRANSCRIPT
![Page 1: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/1.jpg)
Data preparation
Sistemi informativi per le Decisioni
Slide a cura di prof. Claudio Sartori
![Page 2: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/2.jpg)
Data preparation 2
Preparazione datiIntroduzione e Concetti di Base
MotivazioniIl punto di partenza: dati consolidati, Data Marts
Data SelectionManipolazione di Tabelle
Information GatheringMisurazioniVisualizzazioniStatistiche
Data cleaningTrattamento di valori anomaliIdentificazione di OutliersRisoluzione di inconsistenze
Data reductionCampionamentoRiduzione di Dimensionalità
Data transformationNormalizzazioniaggregazioneDiscretizzazione
![Page 3: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/3.jpg)
Data preparation 3
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
![Page 4: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/4.jpg)
Data preparation 4
Il Processo di KDD
Selection and Selection and PreprocessingPreprocessing
Data Mining
Interpretation and Evaluation
Data Consolidation
Knowledge
p(x)=0.02
Warehouse
Data Sources
Patterns & Models
Prepared Data
ConsolidatedData
![Page 5: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/5.jpg)
Data preparation 5
Problemi tipiciTroppi dati
dati sbagliati, rumorosidati non rilevantidimensione intrattabilemix di dati numerici/simbolici
Pochi datiattributi mancanti valori mancantidimensione insufficiente
![Page 6: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/6.jpg)
Data preparation 6
Il Data Preprocessing è un Processo
Accesso ai datiEsplorazione dei dati
SorgentiQuantitàQualità
Ampliamento e arricchimento dei datiApplicazione di tecniche specifiche
![Page 7: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/7.jpg)
Data preparation 7
Il Data Preprocessing dipende (ma non sempre) dall’Obiettivo
Alcune operazioni sono necessarieStudio dei datiPulizia dei datiCampionamento
Altre possono essere guidate dagli obiettivi
TrasformazioniSelezioni
![Page 8: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/8.jpg)
Data preparation 8
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
![Page 9: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/9.jpg)
Data preparation 9
Un tool Fondamentale: le queryBase di partenza: un data-mart
Dal data-mart estraiamo una tabella
Le informazioni sulla tabella permettono di effettuare data preprocessing
Selezione dati: SELECTAggiornamento dati: UPDATE e DELETE
![Page 10: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/10.jpg)
Data preparation 10
È sempre necessario SQL?I moderni tool raggruppano una serie di operazioni in maniera uniformeLa metafora di interazione è visuale
Esempi:ClementineWeka
SQL è più genericoMa anche più difficile da usare
![Page 11: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/11.jpg)
Data preparation 11
Overview di due strumentiClementine
Weka
![Page 12: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/12.jpg)
Data preparation 12
Gli strumenti: ClementineAmbiente grafico intuitivo
Processo = flusso di dati (stream):Parte da nodi sorgente Attraversa nodi di trasformazione Arriva a nodi terminali
![Page 13: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/13.jpg)
Data preparation 13
ClementineTool di Data Mining
Nodi per la generazione di modelli Nodi per i modelli scoperti
![Page 14: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/14.jpg)
Data preparation 14
Gli Strumenti: WekaLibreria Java Open Source ricca di tool per il preprocessing e il Data MiningInterfaccia grafica semplificata: Explorer
![Page 15: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/15.jpg)
Data preparation 15
Weka: le 3 fasi del processo1. Pannello per caricamento
dati e preprocessing
2. Pannelli per data mining
3. Pannello per visualizzazione (dot diagrams)
![Page 16: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/16.jpg)
Data preparation 16
SQL: Selezione tupleTabella coinvolta:
Beers(name, manf)Query:
SELECT *FROM BeersWHERE manf = 'Anheuser-Busch'
Risposta: name manf Bud Anheuser-Bush Bud Lite Anheuser-Bush Michelob Anheuser-Bush
![Page 17: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/17.jpg)
Data preparation 17
SQL: Selezione attributiConsente anche la rinomina delle colonneTabella coinvolta:
Beers(name, manf)Query:
SELECT name AS beerFROM Beers
Risposta: beerBudBud LiteMichelob
![Page 18: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/18.jpg)
Data preparation 18
SQL: Attributi derivatiEspressioni come valori di colonneTabella coinvolta:
Sells(bar, beer, price)Query: SELECT bar, beer,
price*120 AS priceInYenFROM Sells
Risposta: bar beer p riceInY enJoe’s B ud 300S ue’s M ille r 360… … …
![Page 19: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/19.jpg)
Data preparation 19
(Inner) JoinQuery che coinvolgono valori correlati in due tabelle diverseTabelle coinvolte:
Likes(drinker, beer)Frequents(drinker, bar)
Query: SELECT drinker, beer, barFROM Frequents, LikesWHERE Frequents.drinker =
Likes.drinker
![Page 20: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/20.jpg)
Data preparation 20
Query su più relazioniEsempio: selezione (join vincolata)
Trova le birre che piacciono ai frequentatori del bar “Joe’s”Query: SELECT beer
FROM Frequents, LikesWHERE bar = “Joe’s Bar” ANDFrequents.drinker = Likes.drinker
+
![Page 21: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/21.jpg)
Data preparation 21
Risposte multipleLe risposte sono “bags”
SELECT beerFROM Sells
Possiamo comunque utilizzare la parola chiave DISTINCTSELECT DISTINCT beerFROM Sells
beer Bud Miller Bud …
beer Bud Miller …
![Page 22: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/22.jpg)
Data preparation 22
Unioni di queryDescrivi i prezzi maggiori di 100 come “alti”, tutti gli altri come “bassi”
(SELECT bar, beer, ‘high’ AS priceFROM SellsWHERE price > 100)
UNION(SELECT bar, beer, ‘low’ AS price
FROM SellsWHERE price <= 100)
![Page 23: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/23.jpg)
Data preparation 23
SubqueryI risultati possono essere annidati
SELECT *FROM (
SELECT beerFROM LikesWHERE drinker = ‘Fred’)
WHERE price < 100
![Page 24: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/24.jpg)
Data preparation 24
AggregatiTrova il prezzo medio della “Bud”
SELECT AVG(price)FROM SellsWHERE beer = ‘Bud’
Possiamo aggiungere in fondo al costrutto la parola chiave GROUP BY e una lista di attributi
SELECT beer, AVG(price)FROM SellsGROUP BY beer
![Page 25: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/25.jpg)
Data preparation 25
OrdinamentoOrdina il risultato della querysecondo un attributo:
SELECT beerFROM LikesORDER BY Price
![Page 26: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/26.jpg)
Data preparation 26
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
![Page 27: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/27.jpg)
Data preparation 27
Oggetti, Proprietà, MisurazioniIl mondo reale consiste di oggetti
Automobili, Vigili, Norme, …Ad ogni oggetto è associabile un insieme di proprietà (features)
Colore, Cilindrata, Proprietario, …Su ogni proprietà è possibile stabilire delle misurazioni
Colore = rosso, Cilindrata = 50cc, Proprietario = Luigi, …
![Page 28: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/28.jpg)
Data preparation 28
La nostra modellazioneLa realtà è descritta da una tabella
17114Edna17642Louis
Tom31Max
169Carl18121JohnHeightAgeName
Oggetti da studiare
Misurazione
Variabile
Proprietà (feature)
![Page 29: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/29.jpg)
Data preparation 29
Tipi di misureMisure Discrete (simboliche)
Nominali identificatori univoci (Cod. Fiscale)Categoriche “etichette” ripetibili (Città)Ordinali è definito un ordine (low < high)Binarie due soli valori (T/F, 1/0,...)
Misure ContinueInterval-Based Scalabili di fattore costante
(es.: misure in MKS e CGS)Ratio-Scaled Scalabili linearmente (ax+b)
(es.: temperature °C e °F)
![Page 30: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/30.jpg)
Data preparation 30
Caratteristiche delle variabiliSparsità
Mancanza di valore associato ad una variabileUn attributo è sparso se contiene molti valori nulli
MonotonicitàCrescita continua dei valori di una variabile
Intervallo [-∞, ∞] (o simili)Non ha senso considerare l’intero intervallo
OutlierValori singoli o con frequenza estremamente bassaPossono distorcere le informazioni sui dati
DimensionalitàIl numero di valori che una variabile può assumere può essere estremamente alto
Tipicamente riguarda valori categoriciAnacronismo
Una variabile può essere contingente: abbiamo i valori in una sola porzione dei dati
![Page 31: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/31.jpg)
Data preparation 31
BiasUn fattore esterno significativo e rilevante nei dati
Comporta problemi (espliciti o impliciti) nei datiMolti valori della variabile Velocità in una tabella Infrazioni è alto
Il problema è sistematicoAppare con una certa persistenza
Il misuratore della velocità è tarato male
Il problema può essere trattatoIl valore è suscettibile di una distorsione, che deve essere considerata
Considera solo i valori che vanno oltre una certa tolleranza
![Page 32: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/32.jpg)
Data preparation 32
Descrizione dei datiGrafici
Distribuzione frequenzeCorrelazioneDispersione
MisureMedia, mediana, quartiliVarianza, deviazione standardForma, simmetria, curtosi
![Page 33: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/33.jpg)
Data preparation 33
Visualizzazione dati qualitativiRappresentazione delle frequenze
Diagrammi a barreOrtogrammiAerogrammi
CorrelazioneWeb diagrams
CiclicitàDiagrammi polari
![Page 34: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/34.jpg)
Data preparation 34
Diagrammi di ParetoDiagrammi a barre distanziateUn assortimento di eventi presenta pochi picchi e molti elementi comuni
6
22
13
2
5
Rosso Verde Bianco Nero Grigio
![Page 35: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/35.jpg)
Data preparation 35
OrtogrammiOgni colonna indica la la distribuzione interna per un dato valore e la frequenza
![Page 36: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/36.jpg)
Data preparation 36
AerogrammiRappresentazioni a tortaFrequenza della distribuzione
VerdeBiancoNeroGrigioRosso
![Page 37: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/37.jpg)
Data preparation 37
WebVisualizzano correlazioni tra valori simbolici
![Page 38: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/38.jpg)
Data preparation 38
Diagrammi polariRappresentano fenomeni ciclici
Es., concentrazione delle vendite nell’arco settimanale
0%
5%
10%
15%
20%
25%Lunedi'
Martedi'
Mercoledi'
Giovedi'
Venerdi'
Sabato
![Page 39: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/39.jpg)
Data preparation 39
Dati QuantitativiIstogrammiPoligoniStem and leafDot DiagramsDiagrammi quantili
![Page 40: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/40.jpg)
Data preparation 40
IstogrammiRappresentazioni a barreEvidenziano la frequenza su intervalli adiacenti
La larghezza di ogni rettangolo misura l’ampiezza degli intervalli
![Page 41: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/41.jpg)
Data preparation 41
PoligoniPer la descrizione di frequenze cumulativeI punti sono uniti tramite linee
0
10
20
30
40
50
0-10
10-20
20-30
30-40
40-50
50-60
60-70
70-80
![Page 42: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/42.jpg)
Data preparation 42
Rappresentazione “Stem & Leaf”Simile a istogrammiEvita la perdita di informazioneUtile per pochi dati
10-19 2 7 520-29 9 19 5 3 4 7 1 830-39 4 9 2 4 740-49 4 8 250-59 3
![Page 43: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/43.jpg)
Data preparation 43
Dot Diagrams, ScattersVisualizza la Dispersione
![Page 44: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/44.jpg)
Data preparation 44
Rappresentazioni BoxplotRappresentano
il grado di dispersione o variabilità dei dati (w.r.t. mediana e/o media)la simmetriala presenza di valori anomali
Le distanze tra i quartili definiscono la dispersione dei dati
Mediana
Primo Quartile
Min
Max
Secondo Quartile
![Page 45: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/45.jpg)
Data preparation 45
Misure descrittive dei datiTendenza centrale o posizione
Media aritmetica, geometrica e armonica, mediana, quartili, percentili, moda
Dispersione o variabilitàRange, scarto medio, varianza, deviazione standard
Forma della distribuzioneSimmetria (medie interquartili, momenti centrali, indice di Fisher)Curtosi (indice di Pearson, coefficiente di curtosi)
![Page 46: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/46.jpg)
Data preparation 46
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
![Page 47: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/47.jpg)
Data preparation 47
Data CleaningTrattamento di valori anomaliTrattamento di outliersTrattamento di tipi impropri
![Page 48: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/48.jpg)
Data preparation 48
Valori AnomaliValori mancanti
NULLValori sconosciuti
Privi di significatoValori non validi
Con valore noto ma non significativo
![Page 49: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/49.jpg)
Data preparation 49
Trattamento di valori nulliEliminazione delle tupleSostituzione dei valori nulli
N.B.: può influenzare la distribuzione dei dati numericiUtilizzare media/mediana/modaPredire i valori mancanti utilizzando la distribuzione dei valori non nulliSegmentare i dati e utilizzare misure statistiche (media/moda/mediana) di ogni segmentoSegmentare i dati e utilizzare le distribuzioni di probabilità all’interno dei segmentiCostruire un modello di classificazione/regressione e utilizzare il modello per calcolare i valori nulli
![Page 50: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/50.jpg)
Data preparation 50
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
![Page 51: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/51.jpg)
Data preparation 51
Data ReductionRiduzione del volume dei dati
Verticale: riduzione numero di tupleData SamplingClustering
Orizzontale: riduzione numero di colonneSeleziona un sottoinsieme di attributiCrea un nuovo (e piccolo) insieme di attributi
![Page 52: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/52.jpg)
Data preparation 52
Sampling (riduzione verticale)Riduce la complessità di esecuzione degli algoritmi di MiningProblema: scegliere un sottoinsieme rappresentativo dei dati
La scelta di un campionamento casuale può essere problematica per la presenza di picchi
Alternative: Schemi adattativi Stratified sampling:
Approssimiamo la percentuale di ogni classe (o sottopopolazione di interesse rispetto all’intero database)Adatto a distribuzioni con picchi: ogni picco è in uno strato
Possiamo combinare le tecniche random con la stratificazioneN.B.: Il Sampling potrebbe non ridurre I tempi di risposta se i dati risiedono su disco (page at a time).
![Page 53: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/53.jpg)
Data preparation 53
Sampling
Raw Data Cluster/Stratified Sample
![Page 54: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/54.jpg)
Data preparation 54
Riduzione Dimensionalità(Riduzione orizzontale)
Selezione di un sottoinsieme di attributiManuale
In seguito a analisi di significatività e/o correlazione con altri attributi
AutomaticoSelezione incrementale degli attributi “migliori”“Migliore” = rispetto a qualche misura di significatività statistica (es.: information gain).
![Page 55: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/55.jpg)
Data preparation 55
Riduzione Dimensionalità(Riduzione orizzontale)
Creazione di nuovi attributi con i quali rappresentare le tuple
Principal components analysis (PCA)Trova le combinazioni lineari degli attributi nei k vettori ortonormali più significativiProietta le vecchie tuple sui nuovi attributi
Altri metodiFactor AnalysisDecomposizione SVD
![Page 56: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/56.jpg)
Data preparation 56
OutlineIntroduzione e Concetti di BaseData SelectionInformation GatheringData cleaningData reductionData transformation
![Page 57: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/57.jpg)
Data preparation 57
Data Transformation: MotivazioniDati con errori o incompletiDati mal distribuiti
Forte asimmetria nei datiMolti picchi
La trasformazione dei dati può alleviare questi problemi
![Page 58: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/58.jpg)
Data preparation 58
ObiettiviVogliamo definire una trasformazione Tsull’attributo X:
Y = T(X) tale che:
Y preservi l’informazione “rilevante” di XY elimini almeno uno dei problemi di XY sia più “utile” di X
![Page 59: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/59.jpg)
Data preparation 59
ObiettiviScopi principali:
stabilizzare le varianzenormalizzare le distribuzionilinearizzare le relazioni tra variabili
Scopi secondari:semplificare l’elaborazione di dati che presentano caratteristiche non graditerappresentare i dati in una scala ritenuta più adatta.
![Page 60: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/60.jpg)
Data preparation 60
Perché normalità, linearità, ecc.?Molte metodologie statistiche richiedono correlazioni lineari, distribuzioni normali, assenza di outlierMolti algoritmi di Data Mining hanno la capacità di trattare automaticamente non-linearità e non-normalità
Gli algoritmi lavorano comunque meglio se tali problemi sono assenti
![Page 61: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/61.jpg)
Data preparation 61
MetodiTrasformazioni esponenziali
con a,b,c,d e p valori realipreservano l’ordinepreservano alcune statistiche di basesono funzioni continueammettono derivatesono specificate tramite funzioni semplici
⎩⎨⎧
=+≠+
=)0(log
)0()(
pdxcpbax
xTp
p
![Page 62: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/62.jpg)
Data preparation 62
Migliorare l’interpretabilitàTrasformazioni lineari
1€ = 1936.27 Lit.p=1, a=1936.27, b =0
ºC= 5/9(ºF -32)p=1, a=5/9, b=-160/9
![Page 63: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/63.jpg)
Data preparation 63
Normalizzazionimin-max normalization
z-score normalization
normalization tramite decimal scaling
AAA
AA
A minnewminnewmaxnewminmax
minvv _)__(' +−−
−=
A
A
devstandmeanvv−
−='
j
vv10
'= dove j è il più piccolo intero tale che Max(| v’ |)<1
![Page 64: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/64.jpg)
Data preparation 64
Stabilizzare varianzeTrasformazione logaritmica
si applica a valori positiviomogeneizza varianze di distribuzioni log-normalies.: normalizza picchi stagionali
dxcxT += log)(
![Page 65: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/65.jpg)
Data preparation 65
Trasformazione logaritmica: esempio
2300 Media2883,3333 Scarto medio assoluto3939,8598 Deviazione standard
5 Min120 Primo Quartile350 Mediana
1775 Secondo Quartile11000 Max
Dati troppo dispersi!!!
Bar Birra RicavoA Bud 20A Becks 10000C Bud 300D Bud 400D Becks 5E Becks 120E Bud 120F Bud 11000G Bud 1300H Bud 3200H Becks 1000I Bud 135
![Page 66: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/66.jpg)
Data preparation 66
Trasformazione logaritmica: esempio
Bar Birra Ricavo (log)A Bud 1,301029996A Becks 4C Bud 2,477121255D Bud 2,602059991D Becks 0,698970004E Becks 2,079181246E Bud 2,079181246F Bud 4,041392685G Bud 3,113943352H Bud 3,505149978H Becks 3I Bud 2,130333768
Media 2,585697Scarto medio assoluto 0,791394Deviazione standard 1,016144Min 0,69897Primo Quartile 2,079181Mediana 2,539591Secondo Quartile 3,211745Max 4,041393
![Page 67: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/67.jpg)
Data preparation 67
Stabilizzare varianze
Trasformazione in radicep = 1/c, c numero interoper omogeneizzare varianze di distribuzioni particolari, e.g., di Poisson
Trasformazione reciprocap < 0per l’analisi di serie temporali, quando la varianza aumenta in modo molto pronunciato rispetto alla media
baxxT p +=)(
![Page 68: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/68.jpg)
Data preparation 68
Asimmetria dei dati
Simmetria e Media interpercentile
Se la media interpercentile è sbilanciata, allora la distribuzione dei dati è asimmetrica
sbilanciata a destra
sbilanciata a sinistra
Mxx
MxxM pppp =
+⇔−=− −
− 21
1
Mxp >
Mxp <
![Page 69: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/69.jpg)
Data preparation 69
Asimmetria nei dati: esempioVerifichiamo la simmetria (valori di un unico attributo)
2.808 14.001 4.227 5.913 6.719 3.072 29.508 26.463 1.583 78.811 1.803 3.848 1.643 15.147 8.528
43.003 11.768 28.336 4.191 2.472 24.487 1.892 2.082 5.419 2.487 3.116 2.613 14.211 1.620 21.567 4.201 15.241 6.583 9.853 6.655 2.949 11.440 34.867 4.740 10.563 7.012 9.112 5.732 4.030 28.840
16.723 4.731 3.440 28.608 995
![Page 70: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/70.jpg)
Data preparation 70
Asimmetria: esempioI valori della media interpercentile crescono col percentile consideratoDistribuzione sbilanciata a destra
Percentile Media Low HighM 6158 6158 6158F 9002 3278 14726E 12499 2335 22662D 15420 2117 28724C 16722 2155 31288
1 39903 995 78811
![Page 71: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/71.jpg)
Data preparation 71
Creare simmetria nei dati: Trasformation plot
Trovare una trasformazione Tp che crei simmetriaConsideriamo i percentili xU e xL
I valori c ottenuti tramite la formula
suggeriscono dei valori adeguati per pIntuitivamente, compariamo la differenza assoluta e relativa tra mediana e medie interpercentiliil valore medio (mediano) dei valori di cè il valore della trasformazione
MxMMxcMxx LULU
4)()()1(
2
22 −+−−=−
+
![Page 72: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/72.jpg)
Data preparation 72
Trasformation plot: esempio
Calcolando la mediana dei valori cotteniamo p=0.5188Proviamo con p=1/2...
(xL-xU)/2-M ((M- xL)^2+(xU –M)^2)/4M c2844.5 3317.5 0.142586341 11652.8 0.455839262.7 21338.8 0.5659210564.3 26292.5 0.59820
![Page 73: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/73.jpg)
Data preparation 73
La curva si tempera, ma i valori alti continuano a produrre differenze notevoliProviamo a diminuire p…
Trasformazione 1: radice quadrataPercentile Media Low HighM 78,42283 78,42283 78,42283 0,50000F 89,28425 57,23633 121,33217 0,25000E 99,37319 48,27950 150,46688 0,12500D 107,58229 45,68337 169,48122 0,06250C 110,87427 45,05801 176,69054 0,03125
1 156,13829 31,54362 280,73297
xxT =)(
![Page 74: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/74.jpg)
Data preparation 74
Trasformazione 2: radice quarta
I valori alti continuano ad influenzareProviamo con il logaritmo…
4)( xxT =Percentile Media Low HighM 8,85434 8,85434 8,85434 0,50000F 9,28978 7,56489 11,01467 0,25000E 9,60590 6,94676 12,26503 0,12500D 9,88271 6,74694 13,01849 0,06250C 9,97298 6,65710 13,28886 0,03125
1 11,18573 5,61637 16,75509
![Page 75: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/75.jpg)
Data preparation 75
Trasformazione 3: logaritmo
xxT log)( =Percentile Media Low HighM 3,78836502 3,78836502 3,78836502 0,50000F 3,84144850 3,51507795 4,16781905 0,25000E 3,86059853 3,36672764 4,35446943 0,12500D 3,88578429 3,31332721 4,45824138 0,06250C 3,88573156 3,27798502 4,49347811 0,03125
1 3,94720496 2,99782308 4,89658684
Abbiamo ottenuto simmetria!
![Page 76: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/76.jpg)
Data preparation 76
Semplificare le relazioni tra attributiEsempio: caso della regressione
La formula
può essere individuata studiando la relazione
dove z = log y e w = log x
pxy α=
pwz += αlog
![Page 77: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/77.jpg)
Data preparation 77
DiscretizzazioneUnsupervised vs. SupervisedGlobale vs. LocaleStatica vs. DinamicaTask difficile
Difficile capire a priori qual’èla discretizzazione ottimale
bisognerebbe conoscere la distribuzione reale dei dati
![Page 78: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/78.jpg)
Data preparation 78
Discretizzazione: VantaggiI dati originali possono avere valori continui estremamente sparsiI dati originali possono avere variabili multimodaliI dati discretizzati possono essere più semplici da interpretareLe distribuzioni dei dati discretizzate possono avere una forma “Normale”
I dati discretizzati possono essere ancora estremamente sparsi
Eliminazione della variabile in oggetto
![Page 79: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/79.jpg)
Data preparation 79
Unsupervised DiscretizationCaratteristiche:
Non etichetta le istanzeIl numero di classi è noto a priori
Tecniche di binning:Natural binning
Intervalli di identica ampiezzaEqual Frequency binning
Intervalli di identica frequenzaStatistical binning
Uso di informazioni statistiche (Media, varianza, Quartili)
![Page 80: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/80.jpg)
Data preparation 80
Quante classi?Se troppo poche
perdita di informazione sulla distribuzioneSe troppe
disperde i valori e non manifesta la “forma” della distribuzioneIl numero ottimale C di classi è funzione del numero N di elementi (Sturges, 1929)
L’ampiezza ottimale delle classi dipende dalla varianza e dal numero dei dati (Scott, 1979)
)(log3
101 10 NC +=
Nsh ⋅
=5,3
![Page 81: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/81.jpg)
Data preparation 81
Natural BinningSempliceOrdino i valori, quindi divido il rangedi valori in k parti della stessa dimensione
L’elemento xj appartiene alla classe i sexj ∈ [xmin + iδ, xmin + (i+1)δ)
Può produrre distribuzioni molto sbilanciate
kxx minmax −=δ
![Page 82: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/82.jpg)
Data preparation 82
Esempio
δ =(160-100)/4 = 15classe 1: [100,115)classe 2: [115,130)classe 3: [130,145)classe 4: [145,160]
Bar Beer Price
A Bud 100A Becks 120C Bud 110D Bud 130D Becks 150E Becks 140E Bud 120F Bud 110G Bud 130H Bud 125H Becks 160I Bud 135
![Page 83: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/83.jpg)
Data preparation 83
Equal Frequency BinningOrdino e conto gli elementi, quindi definisco k intervalli di f elementi, dove:
L’elemento xj appartiene alla classe i se:i × f ≤ j < (i+1) × f
Non sempre adatta ad evidenziare correlazioni interessanti
kNf =
![Page 84: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/84.jpg)
Data preparation 84
Esempio
f = 12/4 = 3classe 1: {100,110,110}classe 2: {120,120,125}classe 3: {130,130,135}classe 4: {140,150,160}
Bar Beer Price
A Bud 100A Becks 120C Bud 110D Bud 130D Becks 150E Becks 140E Bud 120F Bud 110G Bud 130H Bud 125H Becks 160I Bud 135
![Page 85: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/85.jpg)
Data preparation 85
Supervised DiscretizationCaratteristiche:
La discretizzazione ha un obiettivo quantificabileIl numero di classi non è noto a priori
Tecniche:ChiMergeDiscretizzazione basata sull’entropiaDiscretizzazione basata sui percentili
![Page 86: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/86.jpg)
Data preparation 86
Supervised Discretization: ChiMerge
Procedimento Bottom-up:Inizialmente, ogni valore è un intervallo a séIntervalli adiacenti sono iterativamente uniti se sono similiLa similitudine è misurata sulla base dell’attributo target, contando quanto i due intervalli sono “diversi”
![Page 87: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/87.jpg)
Data preparation 87
ChiMerge: criterio di similitudineBasato sul test del chi quadrok = numero di valori differenti dell’attributo targetAij = numero di casi della j-esima classe nell’i-esimo intervalloRi = numero di casi nell’i-esimo intervallo
Cj = numero di casi nella j-esima classe
Eij = frequenza attesa di Aij (Ri *Cj /N)
∑ =
k
j ijA1
∑ =
2
1i ijA
![Page 88: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/88.jpg)
Data preparation 88
Test del Chi Quadro per la discretizzazione
1 2 … K Total1 A11 A12 … A1k R1
2 A21 A22 … A2k R2
Total C1 C2 … Ck N
Si individua quanto due intervalli sono “distinti”k-1 gradi di libertàLa significativitàdel test è data da una soglia δ
Probabilità che l’intervallo in questione e la classe siano indipendenti
∑∑= =
−=
2
1 1
22 )(
i
k
j ij
ijij
EEA
χ
![Page 89: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/89.jpg)
Data preparation 89
EsempioDiscretizzazionerispetto a Beersoglia 50% confidenzaVogliamo ottenere una discretizzazionedel prezzo che permetta di mantenere omogeneità su Beer
Bar Beer Price
A Bud 100A Becks 120C Bud 110D Bud 130D Becks 150E Becks 140E Bud 120F Bud 110G Bud 130H Bud 125H Becks 160I Bud 135
![Page 90: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/90.jpg)
Data preparation 90
Esempio: valori di ChiScegliamo i elementi adiacenti con Chi-Value minimo
Bud Becks100 1 0110 2 0120 1 1125 1 0130 2 0135 1 0140 0 1150 0 1160 0 1
![Page 91: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/91.jpg)
Data preparation 91
Esempio: passo 1
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 2140 0 1 0
150-160 0 2 1.38629
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 2140 0 1 0150 0 1 0160 0 1 1.38629
![Page 92: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/92.jpg)
Data preparation 92
Esempio: passo 2
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 4
140-150-160 0 3 1.38629
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 2140 0 1 0
150-160 0 2 1.38629
![Page 93: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/93.jpg)
Data preparation 93
Esempio: passo 3Bud Becks Chi Value
100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0130 2 0 0135 1 0 4
140-150-160 0 3 1.38629
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0
130-135 3 0 6140-150-160 0 3 1.38629
![Page 94: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/94.jpg)
Data preparation 94
Esempio: passo 4Bud Becks Chi Value
100 1 0 0110 2 0 1.33333120 1 1 0.75125 1 0 0
130-135 3 0 6140-150-160 0 3 1.38629
Bud Becks Chi Value100 1 0 0110 2 0 1.33333120 1 1 2.4
125-130-135 4 0 7140-150-160 0 3 1.38629
![Page 95: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/95.jpg)
Data preparation 95
Esempio: passo 5Bud Becks Chi Value
100 1 0 0110 2 0 1.33333120 1 1 2.4
125-130-135 4 0 7140-150-160 0 3 1.38629
Bud Becks Chi Value100-110 3 0 1.875
120 1 1 2.4125-130-135 4 0 7140-150-160 0 3 1.38629
Tutti i valori sono oltre il 50% di confidenza(min = 1.38)
![Page 96: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/96.jpg)
Appendice
Misure descrittive dei dati
![Page 97: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/97.jpg)
Data preparation 97
Media AritmeticaPer effettuare la correzione di errori accidentali
permette di sostituire i valori di ogni elemento senza cambiare il totale
Sostituzione di valori NULL
Monotona crescente
∑=
=n
iix
nx
1
1
xxkxkn
n
ii =⎟
⎠
⎞⎜⎝
⎛+
+ ∑=1
1
![Page 98: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/98.jpg)
Data preparation 98
Media Geometrica
Per bilanciare proporzioniDati moltiplicativi
La media aritmetica dei logaritmi è il logaritmo della media geometricaMonotona crescente
nn
iig xx ∏
=
=1
∑=
=n
iig x
nx
1log1log
Variazioni PrezziProdotto1996 1997
A 100 200B 100 50Media 100 125
100=gx
![Page 99: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/99.jpg)
Data preparation 99
Media ArmonicaMonotona decrescentePer misure su dimensioni fisicheEs., serie temporali ∑
=
= n
i i
a
x
nx
1
1
![Page 100: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/100.jpg)
Data preparation 100
MedianaIl valore centrale in un insieme ordinato di datiRobusta
poco influenzata dalla presenza di dati anomali
1 7 12 18 23 34 54
3.21=x
23=M
![Page 101: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/101.jpg)
Data preparation 101
Mediana e QuartiliDivide un insieme di dati a metà
statistica robusta (non influenzata da valori con rilevanti differenze)ulteriori punti di divisione
Interquartilimediane degli intervalli dei dati superiore e inferioreun quarto dei dati osservati è sopra/sotto il quartile
Percentilidi grado p: il p% dei dati osservati è sopra/sotto il percentilemediana: 50-esimo percentileprimo quartile: 25-esimo percentilesecondo quartile: 75-esimo percentile
max, minrange = max-min
![Page 102: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/102.jpg)
Data preparation 102
PercentiliRappresentati con xp
Utilizziamo le lettere per esprimerli
Etichetta P
M ½= 0.5
F ¼=0.25
E 1/8=.125
D 1/16=0.625
C 1/32=0.3125
B 1/64
A 1/128
Z 1/256
Y 1/512
X 1/1024
![Page 103: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/103.jpg)
Data preparation 103
ModaMisura della frequenza dei dati
a a b b c c a d b c a e c b a a
moda = a (f = 6)Significativo per dati categoriciNon risente di picchiMolto instabile
![Page 104: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/104.jpg)
Data preparation 104
Range, Deviazione mediaIntervallo di variazione
Scarti interquantili
Scarto medio assoluto
Scarto medio assoluto dalla mediana
In generale, S.5 ≤ Sn
r = max-min
ppp xxr −= −100
∑=
−=n
iin xx
nS
1
1
∑=
−=n
iiM Mx
nS
1
1
![Page 105: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/105.jpg)
Data preparation 105
Varianza, deviazione standardmisure di mutua variabilità tra i dati di una serieDevianza empirica
Varianza
Coefficiente di variazionemisura relativa
( )∑=
−=n
ii xx
ns
1
22 1
( )∑=
−=n
ii xxdev
1
2
xsV =
![Page 106: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/106.jpg)
Data preparation 106
SimmetriaSi ha simmetria quando media, moda e mediana coincidono
condizione necessaria, non sufficiente Asimmetria sinistra: moda, mediana, mediaAsimmetria destra: media, mediana, moda
![Page 107: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/107.jpg)
Data preparation 107
Simmetria (Cont.)Indici di asimmetria
medie interquartili
Momenti centrali
indice di Fisherγ nullo per distribuzioni simmetricheγ >0: sbilanciamenti a destraγ<0: sbilanciamento a sinistra
( )∑=
−−
=n
i
kik xx
nm
111
33
sm
=γ
2)( 1 ppp xxx += −
![Page 108: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/108.jpg)
Data preparation 108
CurtosiGrado di appiattimento della curva di distribuzione rispetto alla curva normale
mesocurtica: forma uguale alla distribuzione normale; leptocurtica: una frequenza minore delle classi intermedie, frequenza maggiore delle classi estreme e dei valori centrali;platicurtica: una frequenza minore delle classi centrali e di quelle estreme, con una frequenza maggiore di quelle intermedie
numero più ridotto di valori centrali.
![Page 109: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/109.jpg)
Data preparation 109
Curtosi (cont.)Indice di Pearson
β=3: distribuzione mesocurticaβ >3: distribuzione leptocurticaβ <3: distribuzione platicurtica
Coefficiente di curtosiUna distribuzione leptocurtica ha K ~ 1/2platicurtosi: K~0
44
sm
=β
( )( )10.90.
25.75.21
xxxxK
−−
=
![Page 110: Sistemi informativi per le Decisioni - DB&KB Group - Data preparation.pdf · Non ha senso considerare l’intero intervallo Outlier Valori singoli o con frequenza estremamente bassa](https://reader036.vdocuments.pub/reader036/viewer/2022062911/5c6de64d09d3f225408c3c7d/html5/thumbnails/110.jpg)
Data preparation 110
Coefficienti di CorrelazioneCovarianza
Coefficiente di Pearson yx
xy ssyxCovr ),(
=
∑=
−−−
=n
iii yyxx
nyxCov
1))((
11),(