data mining: introduzione alle nozioni di base...pentaho pdi: muse: recovery, soluzioni e...
TRANSCRIPT
![Page 1: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/1.jpg)
Data Mining: Introduzione alle nozioni di base
18 Aprile 2019 - PADOVA
![Page 2: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/2.jpg)
RELATORI
Laura MargaraData scientist, BI analyst @bnova
![Page 3: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/3.jpg)
AGENDA:
• Data mining: nozioni di base
• Casi d’uso: Market Basket Analysis
• R&D: Analisi predittiva nel Progetto Manifold
• R&D: Analisi multimodale nel Progetto MUSE
• Q&A
![Page 4: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/4.jpg)
Il data mining è l'insieme delle tecniche e delle metodologie che hanno per oggetto l'estrazione di informazioni utili da grandi quantità di dati attraverso metodi automatici o semi-automatici.
Oggi il data mining ha una duplice valenza:
• estrazione, con tecniche analitiche all'avanguardia, di informazione implicita, nascosta, da dati già strutturati, per renderla disponibile e direttamente utilizzabile;
• esplorazione ed analisi, eseguita in modo automatico o semiautomatico, su grandi quantità di dati al fine di scoprire pattern significativi.
Terminologia: cos’è il Data Mining?
Sistemi diSupporto alle Decisioni
VALORE AGGIUNTO
![Page 5: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/5.jpg)
BI: Fasi del processo KDD
http://yourfreetemplates.com
![Page 6: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/6.jpg)
8
Prodotto neutrale definito da un consorzio di numerose società per la standardizzazione del processo di Knowledge Discovery.
6 fasi:1. Comprensione del business
2. Comprensione dei dati
3. Preparazione dei dati
4. Modellizzazione
5. Valutazione
6. Implementazione
Data Mining – Modello CRISP
Shearer C.,The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.
![Page 7: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/7.jpg)
9
Data Mining – Business & Data understandingBusiness understanding:
Comprensione del contesto aziendale:
• Selezione delle fonti
• Affiancamento con esperti del business
Data understanding:
Comprensione dei dati:
• Semantica dei dati
• Individuazione caratteristiche (es. dipendenze) e
«anomalie» (es. outliers, missing value)
Perché è importante?
• La conoscenza del contesto e dei
dati è fondamentale per capire le
necessità aziendali e la fattibilità
delle richieste per impostare
tutte e sole le analisi utili
su tutti e soli i dati necessari.
![Page 8: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/8.jpg)
10
Data Mining – Data preparation (1)
Perché è importante?
• La definizione di una
struttura corretta ( → più adatta)
porta a
risultati migliori ( → più utili)
delle analisi successive
Preparare i dati significa trasformarli in modo che
assumano la forma più adatta alle analisi
successive.
• Data reduction
• Sampling
• Data cleaning
![Page 9: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/9.jpg)
11
Data Mining – Data preparation (2)• Data reduction:
Si tratta della riduzione della dimensione dei dati. L’idea è di ridurre l’amout dei dati in modo da
ottenere alla fine dell’operazione un set di dati limitato, ma più significativo.
Si applica ad esempio tramite funzioni di aggregazione, filtro su parametri predisposti, …
- Verticale
- Orizzontale
![Page 10: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/10.jpg)
12
Data Mining – Data preparation (3)• Sampling:
Si tratta di tecniche per il campionamento statistico: l’idea è individuare delle logiche a partire
dalle quali suddividere il dataset intero in sotto-dataset diversi e tra loro complemetari.
Tecnica utile per individuare il training set e il test set necessari per applicare tecniche di mining
per la definizione (calcolo) e la valutazione di un modello
- Random sampling
- Stratified sampling
![Page 11: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/11.jpg)
13
Data Mining – Data preparation (4)• Data cleaning:
Processo capace di garantire, con una certa soglia di affidabilità, la correttezza di una grande
quantità di dati (DB, DWH, dataset, ...).
Unificazione delle sorgenti dati
Correzioni degli errori:
- missing value
- outliers
- informazioni irrilevanti o non valide
![Page 12: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/12.jpg)
Data Mining – Modeling: Tipologie di analisi (1)
![Page 13: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/13.jpg)
Data Mining – Modeling: Tipologie di analisi (2)
Data Mining
![Page 14: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/14.jpg)
Data Mining – classificazione degli algoritmi
Data Mining
Alg. Supervisionati Alg. Non Supervisionati
Reinforcement learningClassificazione
Regressione
Clustering
Semi-supervisionati
![Page 15: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/15.jpg)
Data Mining – supervised vs unsupervised
![Page 16: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/16.jpg)
Data Mining – classificazione degli algoritmi
![Page 17: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/17.jpg)
• Base Classifiers
• Decision Tree based Methods
• Regression
• Rule-based Methods
• Nearest-neighbor
• Naïve Bayes and Bayesian Belief Networks
• Support Vector Machines
• Ensemble Classifiers
• Boosting, Bagging, Random Forests
Data Mining – Algoritmi supervisionati
![Page 18: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/18.jpg)
20
Home Owner
Marital Status
Annual Income
Defaulted Borrower
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes 10
Home Owner
MarSt
Income
YESNO
NO
NO
Yes No
Married Single, Divorced
< 80K > 80K
Splitting Attributes
Training Data
Data Mining – Algoritmi supervisionati: Decision tree
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4
![Page 19: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/19.jpg)
Indice gradimento nelle elezioni USA
Goal
• Measure the sentiment in terms of positive and negative words
• Analysis along geographic and time dimensions
Data
• Twitter and social data
Techniques
• Cleansing and preparation, from unifying records to removing stop words
• Sentiment Analysis and text mining
https://web.stanford.edu/~jesszhao/files/twitterSentiment.pdf
Data Mining – Esempio di classificazione
![Page 20: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/20.jpg)
Tecniche di analisi multivariata dei dati volte alla selezione e
raggruppamento di elementi omogenei in un insieme di dati.
DISTANZA intesa come somiglianza
Data Mining – Algoritmi non supervisionati: Clustering
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4
![Page 21: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/21.jpg)
Data Mining – Clustering: Algoritmo K-means
![Page 22: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/22.jpg)
Data Mining – Esempio di clustering
Driver profiling
Data
• Space-time distribution measures (average distance, time spent)
• Context-aware measures (Distance travelled on highways or inside urbar areas)
• Behavioural measures (e.g. acceleration, speed limit)
Goal
• Create a driving profile of a customer
Methodology
• Hierarchical clustering
https://dl.acm.org/citation.cfm?id=2912148
![Page 23: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/23.jpg)
Association Rule:
Algoritmi per la ricerca di relazioni tra I dati
- Quale sarà il prossimo acquisto di un cliente che ha appena comprato ilprodotto A?
{A} => {B}
TID Items
1 Bread, Milk
2 Bread, Diaper, Beer, Eggs
3 Milk, Diaper, Beer, Coke
4 Bread, Milk, Diaper, Beer
5 Bread, Milk, Diaper, Coke
Beer}{}Diaper,Milk{
4.05
2
|T|
)BeerDiaper,,Milk(===
s
67.03
2
)Diaper,Milk(
)BeerDiaper,Milk,(===
c
Data Mining – Association Rules
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4
![Page 24: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/24.jpg)
Metriche di valutazione
Support (s): percentuale di record che contengono siagli elementi a sinistra sia quelli a destra della regola
Valori considerati buoni in letteratura: 2-10%
Confidence (c): è una probabilità condizionata: rispettoai record che contengono gli elementi di sinistra, sitratta della percentuale di quelli che contengonoANCHE quelli a destra
Valori considerati buoni in letteratura : 80-100%
Few items with high support
Many items with low support
Data Mining – Association Rules (2)
https://www-users.cs.umn.edu/~kumar001/dmbook/index.php#item4
![Page 25: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/25.jpg)
Confusion Matrix
Lift
Cost Matrix
Confronto sulla base di metriche e KPI:• Metrics: accuracy, precision, recall, …
• Speed
• Robustness
• Scalability
• Interpretability
• …
Data Mining – Come si valuta un modello
![Page 26: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/26.jpg)
AGENDA:
• Data mining: nozioni di base
• Casi d’uso: Market Basket Analysis
• R&D: Analisi predittiva nel Progetto Manifold
• R&D: Analisi multimodale nel Progetto MUSE
• Q&A
![Page 27: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/27.jpg)
Scopo:- Analizzare i comportamenti di
acquisto con lo scopo di individuare dei pattern frequenti
Obiettivi aziendali:- Fare previsioni di acquisto- Dare suggerimenti di acquisto al
cliente- Creare campagne marketing
personalizzate- …
Market Basket Analysis
![Page 28: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/28.jpg)
Analisi predittiva del comportamento dei clienti
Obiettivo: ricerca delle correlazioni tra i prodotti
Supporto alle decisioni per Marketing e Business
• Caratteristiche del processo:- Iterativo- Interattivo- Trasparente
• Approccio ibrido:- Analisi quantitative- Analisi data mining
Market Basket Analysis: l’applicativo (1)
![Page 29: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/29.jpg)
Caratteristiche generali:
• Cambio del punto di vista• Prospettiva cliente• Prospettiva transazione
• Sempre aggiornato perché basato su DWH aziendale con analisi in tempo reale
• Profilazione degli accessi
• Alto livello di personalizzabilità
Market Basket Analysis: l’applicativo (3)
![Page 30: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/30.jpg)
- Con che frequenza giacche e accessori moda vengono acquistai insieme? Quali modelli in particolare? Ci sono colori o materiali più correlati?
- Che caratteristiche hanno i clienti che acquistano pellicce e orologi? Sono riconducibili ad un pattern comune?
- Il pattern individuato per i clienti europei vale anche per i clienti americani? Quali sono le abitudini di acquisto che hanno in comune e in cosa invece differiscono?
Market Basket Analysis: l’applicativo (4)
![Page 31: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/31.jpg)
Analisi predittiva e multimodale
18 Aprile 2019 - PADOVA
![Page 32: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/32.jpg)
AGENDA:
• Data mining: nozioni di base
• Casi d’uso: Market Basket Analysis
• R&D: Analisi predittiva nel Progetto Manifold
• R&D: Analisi multimodale nel Progetto MUSE
• Q&A
![Page 33: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/33.jpg)
• ContestoDefinizione di un sistema industriale per la realizzazione di forme per calzature tramite stampa 3D
• Processo di innovazione• Tempi di produzione ridotti al 50%• Peso delle forme ridotto fino al 40%• Minimizzazione degli sfridi di lavorazione• Controllo delle condizioni ottimali di produzione• Manutenzione predittiva
![Page 34: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/34.jpg)
MANIFOLD –Timeline e Obiettivi
Robot Antropomorfo
Stampante 3D
Servizio di Manutenzione
Predittiva
PiattaformaSensori-
Data Platform
OO1: Progettazione della piattaforma robotica
OO2: Progettazione del robot antropomorfo e del sistema di manutenzione predittiva
OO3: Realizzazione del robot antropomorfo edel sistema di manutenzione predittiva
OO4: Fase di test
![Page 35: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/35.jpg)
MANIFOLD – Metodologie per la Predictive Maintenance
VS
+ Precisione e accuratezza
- Disponibilità di dati storici
- Sbilanciamento tra classi
- Alta dimensionalità dei dati
+ Non necessario un attributo di classificazione
- Complessità della metodologia
- Valutazione delle performance del modello
ClusteringTime-seriesAnomaly Detection
ClassificationNeural NetworkRule-based models
Sup
erv
ise
d
Un
sup
erv
ise
d
![Page 36: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/36.jpg)
MANIFOLD – Maintenance Strategies
SOURCE: Analytics Institute (2016). Predictive Maintenance - taking pro-active measures based on advanced data analytics to predict and avoid machine failure.
![Page 37: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/37.jpg)
MANIFOLD – Keplero: Architettura della piattaforma IoT
![Page 38: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/38.jpg)
MANIFOLD – Predictive Maintenance Architecture
![Page 39: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/39.jpg)
AGENDA:
• Data mining: nozioni di base
• Casi d’uso: Market Basket Analysis
• R&D: Analisi predittiva nel Progetto Manifold
• R&D: Analisi multimodale nel Progetto MUSE
• Q&A
![Page 40: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/40.jpg)
MUSE, MUltimodal Semantic Extraction:Analisi Multimodale di testi e immagini
MUSE: Analisi combinata Immagini e Testo
Obiettivo:Creare modello per sfruttare le sinergie tra NLP (Natural Language Processing) e CV (Computer Vision)
• Tokenizzazione• Sentence Splitting• PoS-Tagging• Lemmatizzazione
Natural Language Processing Computer vision
• Image recognition• Object detection• Facial analysis• OCR
![Page 41: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/41.jpg)
MUSE: Attori e ruoli
CoLingLabLaboratorio Linguistica
Computazionale
Recupero dati: immagini e
testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
![Page 42: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/42.jpg)
MUSE: selezione campo di applicazione
![Page 43: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/43.jpg)
MUSE: Recovery, soluzioni e problematiche (1)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Pentaho PDI:
11/12/18 → cambio policy
![Page 44: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/44.jpg)
MUSE: Recovery, soluzioni e problematiche (2)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Pentaho PDI:
![Page 45: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/45.jpg)
MUSE: Recovery, soluzioni e problematiche (3)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Problematiche emerse:
• Solo il 10% dei post contengono un’immagine• Scartare i post senza immagine• Analizzare solo i testi → NLP vs Multimodal• …
• Tipologie diverse di immagini• Foto• Articoli giornale• Screenshot• Pubblicità/locandine• …
![Page 46: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/46.jpg)
MUSE: Classificazione delle immagini, soluzioni e problematiche (1)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Fase in sviluppo:• creazione dataset delle immagini su cui addestrare la rete neurale
OCRSemantic analysis
Object DetectionFacial analysis
OCR + Object detection
![Page 47: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/47.jpg)
MUSE: Classificazione delle immagini, soluzioni e problematiche (2)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Fase in sviluppo:• creazione dataset delle immagini su cui addestrare la rete neurale
Foto TestoMiste
Classificatore a 3 classi:
![Page 48: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/48.jpg)
MUSE: Classificazione delle immagini, soluzioni e problematiche (3)
Recupero dati: immagini e testi
Classificazione
Analisi delleimmagini
Estrazioneembeddings di
tag e labels
Combinazionerisutati analisimultimodale
Fase in sviluppo:• creazione dataset delle immagini su cui addestrare la rete neurale
Foto Testo
Classificatore a 2 classi:
![Page 49: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/49.jpg)
MUSE: architettura logica
MODULO INTEGRAZIONE
RISULTATI
MODULO APPLICAZIONE MODELLI VGG-Net OXFORD
MOTORE RECOVERY
MODULO APPLICAZIONE MODELLI NLP STANFORD
PRECLASSIFICATORE
Motori di ricerca
Analisi per tema
Disambiguazione
![Page 50: Data Mining: Introduzione alle nozioni di base...Pentaho PDI: MUSE: Recovery, soluzioni e problematiche (3) Recupero dati: immagini e testi Classificazione Analisi delle immagini Estrazione](https://reader035.vdocuments.pub/reader035/viewer/2022081611/5f0d58677e708231d439e3fa/html5/thumbnails/50.jpg)
AGENDA:
• Data mining: nozioni di base
• Casi d’uso: Market Basket Analysis
• R&D: Analisi predittiva nel Progetto Manifold
• R&D: Analisi multimodale nel Progetto MUSE
• Q&A