politecnico di milano polo regionale di como facoltà di ingegneria dell’informazione
DESCRIPTION
POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione Corso di Studi in Ingegneria Informatica on line. Riconoscitori di lingua in documenti testuali. Tutor universitario: Prof. Giuseppe Pozzi. Elaborato finale di: Andrea Serighelli matr. 679850. - PowerPoint PPT PresentationTRANSCRIPT
Riconoscitori di lingua in documenti testuali
1
POLITECNICO DI MILANO
Polo Regionale di ComoFacoltagrave di Ingegneria dellrsquoInformazione
Corso di Studi in Ingegneria Informatica on line
Riconoscitori di lingua in documenti testuali
Tutor universitario Prof Giuseppe Pozzi
Elaborato
finale diAndrea
Serighellimatr 679850
AA 2007-2008
Riconoscitori di lingua in documenti testuali
2
SommarioSommario
Metodologie di riconoscimento della lingua di un testo
Software di implementazioneMisure di prestazioneConfronto tra le diverse metodologie
implementate
Riconoscitori di lingua in documenti testuali
3
Definizione di riconoscitore Definizione di riconoscitore linguisticolinguistico
Testi
Riconoscitore
Lingua
FileTesto1txt
FileTesto2txt
FileTesto3txt
LinguaTesto1
LinguaTesto2
LinguaTesto3
Piugrave formalmenteCL D x C rarr 01doveCL algoritmo di riconoscimento linguistico D dominio dei documenti di testoC dominio delle linguese CL (dЄDcЄC) = 1 allora secondo CL d egrave scritto nella lingua cse CL (dЄDcЄC) = 0 allora secondo CL d non egrave scritto nella lingua c
problema decisionale
Riconoscitori di lingua in documenti testuali
4
Strategia di implementazioneStrategia di implementazione
Abbiamo adattato tecniche applicate al piugrave ampio problema della categorizzazione di un documento testuale
bullBase di conoscenza
bullBase di regole
bullSupervisore
bullSet di training
bullIpotesi di induzione e generalizzazione
bullSet di test
Sistema esperto vs
Apprendimento automatico
Riconoscitori di lingua in documenti testuali
5
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di apprendimento
Indicizzazione
Index-Vector
Index ndash term[theunetily]
Apprendimento
Training set
M odello
Riconoscitori di lingua in documenti testuali
6
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di riconoscimento
Lingua riconosciuta
Documento Test
Indicizzazione
Index ndash term[theunetily]
Riconoscimento
Modello
Index-Vector
Decisione
Categorization Status Value
Riconoscitori di lingua in documenti testuali
7
Misure di prestazioneMisure di prestazione
Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo
Tabelle di contingenza Lingua ci Decisione esperto
Si No
Decisione riconoscitore
Si VPi FPi
No FNi VNi
Calcolo della precisione Pri = VPi (VPi+FPi)
Calcolo della recall Rei = VPi (VPi+FNi)
Calcolo delle medie (micro e macro averaging)
Riconoscitori di lingua in documenti testuali
8
Lrsquoapplicazione softwareLrsquoapplicazione software
Paradigma di programmazione a oggetti linguaggio JAVA
Riconoscitori di lingua in documenti testuali
9
Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di
riconoscimento Addestrati i riconoscitori con Training-set
costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi
Testati i riconoscitori con Testing-set costituito
da 60 documenti
index term
il y the der et paring o aa atilde ouml i
Riconoscitori di lingua in documenti testuali
10
Metodologia Naive BayesMetodologia Naive Bayes
Stima della probabilitagrave che il documento sia scritto nella lingua Ci
CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r
ricavati in fase di addestramento
ricavati dallrsquoindicizzazione di d
Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
2
SommarioSommario
Metodologie di riconoscimento della lingua di un testo
Software di implementazioneMisure di prestazioneConfronto tra le diverse metodologie
implementate
Riconoscitori di lingua in documenti testuali
3
Definizione di riconoscitore Definizione di riconoscitore linguisticolinguistico
Testi
Riconoscitore
Lingua
FileTesto1txt
FileTesto2txt
FileTesto3txt
LinguaTesto1
LinguaTesto2
LinguaTesto3
Piugrave formalmenteCL D x C rarr 01doveCL algoritmo di riconoscimento linguistico D dominio dei documenti di testoC dominio delle linguese CL (dЄDcЄC) = 1 allora secondo CL d egrave scritto nella lingua cse CL (dЄDcЄC) = 0 allora secondo CL d non egrave scritto nella lingua c
problema decisionale
Riconoscitori di lingua in documenti testuali
4
Strategia di implementazioneStrategia di implementazione
Abbiamo adattato tecniche applicate al piugrave ampio problema della categorizzazione di un documento testuale
bullBase di conoscenza
bullBase di regole
bullSupervisore
bullSet di training
bullIpotesi di induzione e generalizzazione
bullSet di test
Sistema esperto vs
Apprendimento automatico
Riconoscitori di lingua in documenti testuali
5
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di apprendimento
Indicizzazione
Index-Vector
Index ndash term[theunetily]
Apprendimento
Training set
M odello
Riconoscitori di lingua in documenti testuali
6
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di riconoscimento
Lingua riconosciuta
Documento Test
Indicizzazione
Index ndash term[theunetily]
Riconoscimento
Modello
Index-Vector
Decisione
Categorization Status Value
Riconoscitori di lingua in documenti testuali
7
Misure di prestazioneMisure di prestazione
Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo
Tabelle di contingenza Lingua ci Decisione esperto
Si No
Decisione riconoscitore
Si VPi FPi
No FNi VNi
Calcolo della precisione Pri = VPi (VPi+FPi)
Calcolo della recall Rei = VPi (VPi+FNi)
Calcolo delle medie (micro e macro averaging)
Riconoscitori di lingua in documenti testuali
8
Lrsquoapplicazione softwareLrsquoapplicazione software
Paradigma di programmazione a oggetti linguaggio JAVA
Riconoscitori di lingua in documenti testuali
9
Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di
riconoscimento Addestrati i riconoscitori con Training-set
costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi
Testati i riconoscitori con Testing-set costituito
da 60 documenti
index term
il y the der et paring o aa atilde ouml i
Riconoscitori di lingua in documenti testuali
10
Metodologia Naive BayesMetodologia Naive Bayes
Stima della probabilitagrave che il documento sia scritto nella lingua Ci
CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r
ricavati in fase di addestramento
ricavati dallrsquoindicizzazione di d
Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
3
Definizione di riconoscitore Definizione di riconoscitore linguisticolinguistico
Testi
Riconoscitore
Lingua
FileTesto1txt
FileTesto2txt
FileTesto3txt
LinguaTesto1
LinguaTesto2
LinguaTesto3
Piugrave formalmenteCL D x C rarr 01doveCL algoritmo di riconoscimento linguistico D dominio dei documenti di testoC dominio delle linguese CL (dЄDcЄC) = 1 allora secondo CL d egrave scritto nella lingua cse CL (dЄDcЄC) = 0 allora secondo CL d non egrave scritto nella lingua c
problema decisionale
Riconoscitori di lingua in documenti testuali
4
Strategia di implementazioneStrategia di implementazione
Abbiamo adattato tecniche applicate al piugrave ampio problema della categorizzazione di un documento testuale
bullBase di conoscenza
bullBase di regole
bullSupervisore
bullSet di training
bullIpotesi di induzione e generalizzazione
bullSet di test
Sistema esperto vs
Apprendimento automatico
Riconoscitori di lingua in documenti testuali
5
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di apprendimento
Indicizzazione
Index-Vector
Index ndash term[theunetily]
Apprendimento
Training set
M odello
Riconoscitori di lingua in documenti testuali
6
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di riconoscimento
Lingua riconosciuta
Documento Test
Indicizzazione
Index ndash term[theunetily]
Riconoscimento
Modello
Index-Vector
Decisione
Categorization Status Value
Riconoscitori di lingua in documenti testuali
7
Misure di prestazioneMisure di prestazione
Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo
Tabelle di contingenza Lingua ci Decisione esperto
Si No
Decisione riconoscitore
Si VPi FPi
No FNi VNi
Calcolo della precisione Pri = VPi (VPi+FPi)
Calcolo della recall Rei = VPi (VPi+FNi)
Calcolo delle medie (micro e macro averaging)
Riconoscitori di lingua in documenti testuali
8
Lrsquoapplicazione softwareLrsquoapplicazione software
Paradigma di programmazione a oggetti linguaggio JAVA
Riconoscitori di lingua in documenti testuali
9
Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di
riconoscimento Addestrati i riconoscitori con Training-set
costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi
Testati i riconoscitori con Testing-set costituito
da 60 documenti
index term
il y the der et paring o aa atilde ouml i
Riconoscitori di lingua in documenti testuali
10
Metodologia Naive BayesMetodologia Naive Bayes
Stima della probabilitagrave che il documento sia scritto nella lingua Ci
CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r
ricavati in fase di addestramento
ricavati dallrsquoindicizzazione di d
Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
4
Strategia di implementazioneStrategia di implementazione
Abbiamo adattato tecniche applicate al piugrave ampio problema della categorizzazione di un documento testuale
bullBase di conoscenza
bullBase di regole
bullSupervisore
bullSet di training
bullIpotesi di induzione e generalizzazione
bullSet di test
Sistema esperto vs
Apprendimento automatico
Riconoscitori di lingua in documenti testuali
5
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di apprendimento
Indicizzazione
Index-Vector
Index ndash term[theunetily]
Apprendimento
Training set
M odello
Riconoscitori di lingua in documenti testuali
6
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di riconoscimento
Lingua riconosciuta
Documento Test
Indicizzazione
Index ndash term[theunetily]
Riconoscimento
Modello
Index-Vector
Decisione
Categorization Status Value
Riconoscitori di lingua in documenti testuali
7
Misure di prestazioneMisure di prestazione
Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo
Tabelle di contingenza Lingua ci Decisione esperto
Si No
Decisione riconoscitore
Si VPi FPi
No FNi VNi
Calcolo della precisione Pri = VPi (VPi+FPi)
Calcolo della recall Rei = VPi (VPi+FNi)
Calcolo delle medie (micro e macro averaging)
Riconoscitori di lingua in documenti testuali
8
Lrsquoapplicazione softwareLrsquoapplicazione software
Paradigma di programmazione a oggetti linguaggio JAVA
Riconoscitori di lingua in documenti testuali
9
Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di
riconoscimento Addestrati i riconoscitori con Training-set
costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi
Testati i riconoscitori con Testing-set costituito
da 60 documenti
index term
il y the der et paring o aa atilde ouml i
Riconoscitori di lingua in documenti testuali
10
Metodologia Naive BayesMetodologia Naive Bayes
Stima della probabilitagrave che il documento sia scritto nella lingua Ci
CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r
ricavati in fase di addestramento
ricavati dallrsquoindicizzazione di d
Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
5
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di apprendimento
Indicizzazione
Index-Vector
Index ndash term[theunetily]
Apprendimento
Training set
M odello
Riconoscitori di lingua in documenti testuali
6
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di riconoscimento
Lingua riconosciuta
Documento Test
Indicizzazione
Index ndash term[theunetily]
Riconoscimento
Modello
Index-Vector
Decisione
Categorization Status Value
Riconoscitori di lingua in documenti testuali
7
Misure di prestazioneMisure di prestazione
Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo
Tabelle di contingenza Lingua ci Decisione esperto
Si No
Decisione riconoscitore
Si VPi FPi
No FNi VNi
Calcolo della precisione Pri = VPi (VPi+FPi)
Calcolo della recall Rei = VPi (VPi+FNi)
Calcolo delle medie (micro e macro averaging)
Riconoscitori di lingua in documenti testuali
8
Lrsquoapplicazione softwareLrsquoapplicazione software
Paradigma di programmazione a oggetti linguaggio JAVA
Riconoscitori di lingua in documenti testuali
9
Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di
riconoscimento Addestrati i riconoscitori con Training-set
costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi
Testati i riconoscitori con Testing-set costituito
da 60 documenti
index term
il y the der et paring o aa atilde ouml i
Riconoscitori di lingua in documenti testuali
10
Metodologia Naive BayesMetodologia Naive Bayes
Stima della probabilitagrave che il documento sia scritto nella lingua Ci
CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r
ricavati in fase di addestramento
ricavati dallrsquoindicizzazione di d
Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
6
Funzionamento del riconoscitoreFunzionamento del riconoscitore
bullFase di riconoscimento
Lingua riconosciuta
Documento Test
Indicizzazione
Index ndash term[theunetily]
Riconoscimento
Modello
Index-Vector
Decisione
Categorization Status Value
Riconoscitori di lingua in documenti testuali
7
Misure di prestazioneMisure di prestazione
Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo
Tabelle di contingenza Lingua ci Decisione esperto
Si No
Decisione riconoscitore
Si VPi FPi
No FNi VNi
Calcolo della precisione Pri = VPi (VPi+FPi)
Calcolo della recall Rei = VPi (VPi+FNi)
Calcolo delle medie (micro e macro averaging)
Riconoscitori di lingua in documenti testuali
8
Lrsquoapplicazione softwareLrsquoapplicazione software
Paradigma di programmazione a oggetti linguaggio JAVA
Riconoscitori di lingua in documenti testuali
9
Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di
riconoscimento Addestrati i riconoscitori con Training-set
costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi
Testati i riconoscitori con Testing-set costituito
da 60 documenti
index term
il y the der et paring o aa atilde ouml i
Riconoscitori di lingua in documenti testuali
10
Metodologia Naive BayesMetodologia Naive Bayes
Stima della probabilitagrave che il documento sia scritto nella lingua Ci
CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r
ricavati in fase di addestramento
ricavati dallrsquoindicizzazione di d
Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
7
Misure di prestazioneMisure di prestazione
Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo
Tabelle di contingenza Lingua ci Decisione esperto
Si No
Decisione riconoscitore
Si VPi FPi
No FNi VNi
Calcolo della precisione Pri = VPi (VPi+FPi)
Calcolo della recall Rei = VPi (VPi+FNi)
Calcolo delle medie (micro e macro averaging)
Riconoscitori di lingua in documenti testuali
8
Lrsquoapplicazione softwareLrsquoapplicazione software
Paradigma di programmazione a oggetti linguaggio JAVA
Riconoscitori di lingua in documenti testuali
9
Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di
riconoscimento Addestrati i riconoscitori con Training-set
costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi
Testati i riconoscitori con Testing-set costituito
da 60 documenti
index term
il y the der et paring o aa atilde ouml i
Riconoscitori di lingua in documenti testuali
10
Metodologia Naive BayesMetodologia Naive Bayes
Stima della probabilitagrave che il documento sia scritto nella lingua Ci
CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r
ricavati in fase di addestramento
ricavati dallrsquoindicizzazione di d
Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
8
Lrsquoapplicazione softwareLrsquoapplicazione software
Paradigma di programmazione a oggetti linguaggio JAVA
Riconoscitori di lingua in documenti testuali
9
Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di
riconoscimento Addestrati i riconoscitori con Training-set
costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi
Testati i riconoscitori con Testing-set costituito
da 60 documenti
index term
il y the der et paring o aa atilde ouml i
Riconoscitori di lingua in documenti testuali
10
Metodologia Naive BayesMetodologia Naive Bayes
Stima della probabilitagrave che il documento sia scritto nella lingua Ci
CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r
ricavati in fase di addestramento
ricavati dallrsquoindicizzazione di d
Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
9
Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di
riconoscimento Addestrati i riconoscitori con Training-set
costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi
Testati i riconoscitori con Testing-set costituito
da 60 documenti
index term
il y the der et paring o aa atilde ouml i
Riconoscitori di lingua in documenti testuali
10
Metodologia Naive BayesMetodologia Naive Bayes
Stima della probabilitagrave che il documento sia scritto nella lingua Ci
CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r
ricavati in fase di addestramento
ricavati dallrsquoindicizzazione di d
Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
10
Metodologia Naive BayesMetodologia Naive Bayes
Stima della probabilitagrave che il documento sia scritto nella lingua Ci
CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r
ricavati in fase di addestramento
ricavati dallrsquoindicizzazione di d
Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
11
Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie
La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore
Soglie decisionali differenti
τi = Σ csvitrain |dtrain| dtrainЄ ci
componente i del vettore csv di dtrain
Ersquo scelta la lingua avente rapporto CSVi i maggiore
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
12
Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni
Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie
decisionali
Metodologia Naive Bayes
senza soglia con soglia
lingue non riconosciute
italianospagnolofrancesecatalanosuomi
PrM () 6912 100
ReM () 8524 100
Pr = Re () 4500 100
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
13
Metodologia profile-basedMetodologia profile-based
Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term
wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci
componente y del vettore wi
componente y dellrsquoindex-vector di dtrain
Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector
del documento di test CSVi (dtest) = d (index-dtest wi)
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
14
Metodologia profile-basedMetodologia profile-based
Rappresentazione geometrica
W0 = (05 01 04)
w1 = (01 07 02)
w2 = (04 0 06)
d = (02 06 02)
t1
t0
t2
t0w0
w1
w2
d
Index-term a tre elementi spazio 3-dim
Riconoscitore riconosce tre lingue 3 profili
d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
15
Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni
Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della
formula completa
Metodologia profile-based
=1 e = 0 =12 e = -02
lingue non riconosciute
PrM () 9833 9708
ReM () 9833 9667
Pr = Re () 9833 9667
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
16
Metodologia example-basedMetodologia example-based
Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training
Egrave scelta la lingua del documento di training avente index-vector piugrave simile
Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la
distanza euclidea tra vettori
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
17
Metodologia example-basedMetodologia example-based
Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)
CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|
Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)
k documenti di training classificati in ci con max valore RSV (dtest dtrain)
Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
18
Metodologia example-based - Metodologia example-based - prestazioniprestazioni
Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con
K=1 Ottimo rapporto costoprestazioni
Metodologia example-based
K=1 K=2
lingue non riconosciute
PrM () 9833 100
ReM () 9833 100
Pr = Re () 9833 100
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
19
ConclusioniConclusioni
Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido
Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )
Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as
Riconoscitori di lingua in documenti testuali
20
MaterialeMateriale
Volume tesi e applicazione scaricabili al seguente indirizzo web
httpdigilanderliberoitPietrino71as