information overload
Post on 14-Jan-2016
29 Views
Preview:
DESCRIPTION
TRANSCRIPT
2
InformationInformation OverloadOverload
Migliaia di documenti vengono prodotti ogniMigliaia di documenti vengono prodotti ognigiornogiorno: :
80%80% testuali testuali
20%20% numerici numerici
IntroIntroText MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
neri@synthema.itneri@synthema.it
3
Information OverloadInformation Overload
HTML, XML, PDF, Word, TXT, … HTML, XML, PDF, Word, TXT, …
Inglese, Francese, Tedesco, Inglese, Francese, Tedesco, Italiano, Arabo, Cinese, Russo… Italiano, Arabo, Cinese, Russo…
Internet/Intranet, DB, ...Internet/Intranet, DB, ...
IntroIntroText MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
neri@synthema.itneri@synthema.it
4
IntroIntroText MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Information OverloadInformation Overload
Brevetti, Pubblicazioni scientificheBrevetti, Pubblicazioni scientifiche
StampaStampaTelefonateTelefonate
Percezione e Conoscenza della Percezione e Conoscenza della realtà che ci circondarealtà che ci circonda
WEBWEBE-mailE-mail
neri@synthema.itneri@synthema.it
5
Che cosa è il Text MiningChe cosa è il Text Mining
Insieme di tecniche linguistico-matematiche perInsieme di tecniche linguistico-matematiche per Analizzare fonti testualiAnalizzare fonti testuali Strutturare e classificare automaticamente il Strutturare e classificare automaticamente il contenutocontenuto Trovare l’informazione nascostaTrovare l’informazione nascosta
Supporto nel Supporto nel Processo DecisionaleProcesso Decisionale
IntroIntroText MiningText Mining
STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
neri@synthema.itneri@synthema.it
6
IntroIntroText MiningText Mining
STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Che cosa non è il Text MiningChe cosa non è il Text Mining
Non è analisi puntuale di un testo, ma Non è analisi puntuale di un testo, ma analisi quantitativa e qualitativa di un analisi quantitativa e qualitativa di un insieme esteso di testi.insieme esteso di testi.
Non è una metodologia di archiviazione Non è una metodologia di archiviazione di testi in argomenti predefiniti, noti a di testi in argomenti predefiniti, noti a priori. Non è routing dell’informazione.priori. Non è routing dell’informazione.
neri@synthema.itneri@synthema.it
7
Informazione Informazione come Supporto nel come Supporto nel
Processo DecisionaleProcesso DecisionaleText Mining perText Mining per OttenereOttenere unauna visione di insieme degli argomentivisione di insieme degli argomenti Accedere all’informazione su base tematicaAccedere all’informazione su base tematica Trovare l’informazione nascostaTrovare l’informazione nascosta
Trovare l’informazione d’interesse
IntroIntroText MiningText Mining
STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
neri@synthema.itneri@synthema.it
8
IntroIntro Text MiningText MiningSTALKER/OMLSTALKER/OML
Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Come gestire migliaia di Come gestire migliaia di documenti?documenti?
Banche dati
Internet
Database
neri@synthema.itneri@synthema.it
9
IntroIntro Text MiningText MiningSTALKER/OMLSTALKER/OML
Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Come gestire migliaia di Come gestire migliaia di documenti? Innovazione onlinedocumenti? Innovazione online
Banche dati
Banca dati
SEARCHBOX+TWIDEXPERTSEARCHBOX+TWIDEXPERT(Analisi linguistica, statistica)(Analisi linguistica, statistica)
SEARCHBOX+TWIDEXPERTSEARCHBOX+TWIDEXPERT(Analisi linguistica, statistica)(Analisi linguistica, statistica)
Modelli Dizionari Grammatiche
Back-endBack-end
Clustering engineClustering engineClustering engineClustering engine
Search engineSearch engineSearch engineSearch engine
Front-endFront-end
Ufficio2Ufficio2
Ufficio1Ufficio1
Intranet
STALKER/OML serverSTALKER/OML server
InternetUfficio3Ufficio3
neri@synthema.itneri@synthema.it
10
IntroIntro Text MiningText MiningSTALKER/OMLSTALKER/OML
Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Architettura (STALKER)Architettura (STALKER)
neri@synthema.itneri@synthema.it
Banche dati
Banca dati
CrawlerCrawlerCrawlerCrawler
Modelli Dizionari Grammatiche
Clustering engineClustering engineClustering engineClustering engine
Search engineSearch engineSearch engineSearch engine
Stalker serverStalker serverInternet
Lexical Lexical pluginplugin
Lexical Lexical pluginplugin
TWID TWID pluginpluginTWID TWID pluginplugin
TWIDExpertTWIDExpertTWIDExpertTWIDExpert
Reverse Reverse indexesindexes
Reverse Reverse indexesindexes
SearchBoSearchBoxx
TWIDExpertTWIDExpert
11
Il processo produttivoIl processo produttivo
Scelta e preparazione dei datiScelta e preparazione dei dati
Analisi dei dati e storageAnalisi dei dati e storage
Ricerca e Analisi dei risultatiRicerca e Analisi dei risultati
Monitoraggio, consultazione e Monitoraggio, consultazione e
approfondimento approfondimento
Back-endBack-end
Front-endFront-end
IntroIntro Text MiningText MiningSTALKER/STALKER/
OMLOML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
neri@synthema.itneri@synthema.it
12
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Scelta:Scelta: Preparazione:Preparazione:
Scelta e Preparazione dati Scelta e Preparazione dati (BackEnd)(BackEnd)
neri@synthema.itneri@synthema.it
13
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(brevetti, pubblicazioni, e-mail, …)(brevetti, pubblicazioni, e-mail, …)
Distinguere “Distinguere “ciò che è dettociò che è detto” da ” da ““come viene dettocome viene detto””
trovare convergenze nel significatotrovare convergenze nel significato
cogliere l’informazione da classificarecogliere l’informazione da classificare
Analisi Lessicale perAnalisi Lessicale per
neri@synthema.itneri@synthema.it
14
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Analisi Morfo-sintattica e/o Analisi Morfo-sintattica e/o TerminologicaTerminologica
Analisi SemanticaAnalisi Semantica
rimuovere Ambiguità rimuovere Ambiguità
raggruppare Varianti Graficheraggruppare Varianti Grafiche
trovare Sinonimitrovare Sinonimi
Identicazione Identicazione automatica automatica
dei descrittori dei descrittori per ciascun per ciascun documentodocumento
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(Analisi lessicale)(Analisi lessicale)
Analisi LogicaAnalisi Logica
espandere Acronimiespandere Acronimi
estrarre Espressioniestrarre Espressioni ComposteComposte
neri@synthema.itneri@synthema.it
15
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Analisi Grammaticale riduce le ambiguitàAnalisi Grammaticale riduce le ambiguitàAnalisi Grammaticale riduce le ambiguitàAnalisi Grammaticale riduce le ambiguità
DETTIDETTI DETTODETTO: nome, masc. plur: nome, masc. plur.
DETTAREDETTARE: verbo, ind. pres. 2a pers. sing.: verbo, ind. pres. 2a pers. sing.
DAREDARE: : verbo, ind. pass. rem. 1a pers. sing.verbo, ind. pass. rem. 1a pers. sing.
DIREDIRE: verbo, part. pass. masc. plur.: verbo, part. pass. masc. plur.
TRATTOTRATTO TRATTO, TRATTARETRATTO, TRATTARE
LemmaLemmaLemmaLemma invio, inviati, invia invio, inviati, invia inviare inviare [[verbverb]] capi stazione capi stazione capo stazione capo stazione [[nounnoun]]
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(Analisi lessicale - Morfo-sintattica)(Analisi lessicale - Morfo-sintattica)
neri@synthema.itneri@synthema.it
16
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(Analisi lessicale - Morfo-sintattica)(Analisi lessicale - Morfo-sintattica)
neri@synthema.itneri@synthema.it
17
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
raggruppare Varianti Graficheraggruppare Varianti Grafiche
trovare Sinonimitrovare Sinonimi ( $, dollaro, biglietto verde, … ) ( $, dollaro, biglietto verde, … )
( ANP ( ANP Autorità Nazionale Autorità Nazionale Palestinese )Palestinese )
( visto, veduto )( visto, veduto )
( carta di credito, ( carta di credito, Ministro degli Esteri ) Ministro degli Esteri )
trovare convergenza nel significatotrovare convergenza nel significato
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(Analisi lessicale - Semantica)(Analisi lessicale - Semantica)
estrarre Espressioniestrarre Espressioni ComposteComposte
espandere Acronimiespandere Acronimi
neri@synthema.itneri@synthema.it
18
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
neri@synthema.itneri@synthema.it
non solo lemmi, non solo lemmi, ma soprattutto terminologiema soprattutto terminologie
Multi-lingual
Dictionaries
Multilingual Teminology
matcher
Lemmatizer/
Teminology detector
Mono-lingual
Dictionaries,
Grammars
Identificazione della Identificazione della lingualingua
Parsing, lemmatizzazioneParsing, lemmatizzazione
Estrazione terminologicaEstrazione terminologica
Allineamento multilinguaAllineamento multilingua
Indicizzazione terminologicaIndicizzazione terminologica
Ricerca e clustering
Indexer
Documents DB
19
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Trovare l’informazione rilevanteTrovare l’informazione rilevante
neri@synthema.itneri@synthema.it
Analisi Morfologica + pattern matchingAnalisi Morfologica + pattern matching((n+base(n)n+base(n) credit card, fuel cellcredit card, fuel cell, … ), … )
( ( base(n)+prep+n+prep+nbase(n)+prep+n+prep+n arma di distruzione di massaarma di distruzione di massa, ... ), ... )
Analisi StatisticaAnalisi Statistica• Soglia di FrequenzaSoglia di Frequenza• Soglia di SignificativitàSoglia di Significatività
((n > n > 11, , 11 = f(SW-MW,nTot,…) ) = f(SW-MW,nTot,…) )
( ( log(log(((11/n) * /n) * (nTot/nDoc) * f(POS)*...) > (nTot/nDoc) * f(POS)*...) > 22 ) )
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
(Analisi lessicale - Morfo-statistica)(Analisi lessicale - Morfo-statistica)
20
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
neri@synthema.itneri@synthema.it
paraffina paraffina [[NOUNNOUN]]
guantoguanto[[NOUNNOUN]]
guanto di paraffina guanto di paraffina [[NOUNNOUN]]
rilevare rilevare [[VERBVERB]]
tracciatraccia[[NOUNNOUN]]
polvere da sparopolvere da sparo[[NOUNNOUN]]
polverepolvere[[NOUNNOUN]]
non solo lemmi, ma terminologienon solo lemmi, ma terminologie
Preparazione dei Dati Preparazione dei Dati (BackEnd)(BackEnd)
21
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Analisi StatisticaAnalisi Statistica
neri@synthema.itneri@synthema.it
Documents DB
Lemmatizer/
Teminology detector
Mono-lingual
Dictionaries,
Grammars
Multi-lingual
Dictionaries
Indexer
Multilingual Teminology
matcher
Identificazione della lingua
Parsing, lemmatizzazione
Estrazione terminologica
Allineamento multilingua
Indicizzazione terminologica
Ricerca e clusteringRicerca e clustering
22
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
neri@synthema.itneri@synthema.it
Analisi StatisticaAnalisi Statistica
23
Concatenazione fra Concatenazione fra classi correlateclassi correlate
Concatenazione fra Concatenazione fra classi correlateclassi correlate
Raggruppamento in Raggruppamento in classi affini per contenutoclassi affini per contenuto
Raggruppamento in Raggruppamento in classi affini per contenutoclassi affini per contenuto
Ricerca e Classificazione Ricerca e Classificazione
IntroIntro Text MiningText MiningSTALKER/STALKER/
OMLOML Analisi datiAnalisi dati Analisi risultatiAnalisi risultati
Ricerca per chiavi Ricerca per chiavi ed accesso puntualeed accesso puntualeRicerca per chiavi Ricerca per chiavi
ed accesso puntualeed accesso puntuale
neri@synthema.itneri@synthema.it
24
Analisi dei risultatiAnalisi dei risultati
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati AnalisiAnalisi risultatirisultati
MappeMappe Liste ordinateListe ordinate
neri@synthema.itneri@synthema.it
25
Consultare documenti per temaConsultare documenti per temaConsultare documenti per temaConsultare documenti per tema
Trovare relazioni nascosteTrovare relazioni nascosteTrovare relazioni nascosteTrovare relazioni nascoste
Scoperta di risultati Scoperta di risultati inaspettatiinaspettati
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati AnalisiAnalisi risultatirisultati
neri@synthema.itneri@synthema.it
26
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati NewNew
I nuovi sviluppi: motore di I nuovi sviluppi: motore di ricerca in linguaggio naturale ricerca in linguaggio naturale
multilinguamultilingua
neri@synthema.itneri@synthema.it
27
I nuovi sviluppi: document I nuovi sviluppi: document analyseranalyser
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati NewNew
neri@synthema.itneri@synthema.it
28
Indirizzi utiliIndirizzi utili
neri@synthema.itneri@synthema.it
IntroIntro Text MiningText Mining STALKER/OMLSTALKER/OML Analisi datiAnalisi dati InfoInfo
http://www.synthema.it/textmininghttp://www.synthema.it/textmining
http:// www.spi-rit.nethttp:// www.spi-rit.net
Trovare l’informazioneTrovare l’informazione
neri@synthema.itneri@synthema.it
top related