politecnico di milano polo regionale di como facoltà di ingegneria dell’informazione

20
Riconoscitori di lingua in documenti testuali 1 POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione Corso di Studi in Ingegneria Informatica on line Riconoscitori di lingua in documenti testuali Tutor universitario: Prof. Giuseppe Pozzi Elaborato finale di: Andrea Serighelli matr. 679850 A.A. 2007-2008

Upload: karsen

Post on 10-Jan-2016

36 views

Category:

Documents


0 download

DESCRIPTION

POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione Corso di Studi in Ingegneria Informatica on line. Riconoscitori di lingua in documenti testuali. Tutor universitario: Prof. Giuseppe Pozzi. Elaborato finale di: Andrea Serighelli matr. 679850. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

1

POLITECNICO DI MILANO

Polo Regionale di ComoFacoltagrave di Ingegneria dellrsquoInformazione

Corso di Studi in Ingegneria Informatica on line

Riconoscitori di lingua in documenti testuali

Tutor universitario Prof Giuseppe Pozzi

Elaborato

finale diAndrea

Serighellimatr 679850

AA 2007-2008

Riconoscitori di lingua in documenti testuali

2

SommarioSommario

Metodologie di riconoscimento della lingua di un testo

Software di implementazioneMisure di prestazioneConfronto tra le diverse metodologie

implementate

Riconoscitori di lingua in documenti testuali

3

Definizione di riconoscitore Definizione di riconoscitore linguisticolinguistico

Testi

Riconoscitore

Lingua

FileTesto1txt

FileTesto2txt

FileTesto3txt

LinguaTesto1

LinguaTesto2

LinguaTesto3

Piugrave formalmenteCL D x C rarr 01doveCL algoritmo di riconoscimento linguistico D dominio dei documenti di testoC dominio delle linguese CL (dЄDcЄC) = 1 allora secondo CL d egrave scritto nella lingua cse CL (dЄDcЄC) = 0 allora secondo CL d non egrave scritto nella lingua c

problema decisionale

Riconoscitori di lingua in documenti testuali

4

Strategia di implementazioneStrategia di implementazione

Abbiamo adattato tecniche applicate al piugrave ampio problema della categorizzazione di un documento testuale

bullBase di conoscenza

bullBase di regole

bullSupervisore

bullSet di training

bullIpotesi di induzione e generalizzazione

bullSet di test

Sistema esperto vs

Apprendimento automatico

Riconoscitori di lingua in documenti testuali

5

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di apprendimento

Indicizzazione

Index-Vector

Index ndash term[theunetily]

Apprendimento

Training set

M odello

Riconoscitori di lingua in documenti testuali

6

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di riconoscimento

Lingua riconosciuta

Documento Test

Indicizzazione

Index ndash term[theunetily]

Riconoscimento

Modello

Index-Vector

Decisione

Categorization Status Value

Riconoscitori di lingua in documenti testuali

7

Misure di prestazioneMisure di prestazione

Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo

Tabelle di contingenza Lingua ci Decisione esperto

Si No

Decisione riconoscitore

Si VPi FPi

No FNi VNi

Calcolo della precisione Pri = VPi (VPi+FPi)

Calcolo della recall Rei = VPi (VPi+FNi)

Calcolo delle medie (micro e macro averaging)

Riconoscitori di lingua in documenti testuali

8

Lrsquoapplicazione softwareLrsquoapplicazione software

Paradigma di programmazione a oggetti linguaggio JAVA

Riconoscitori di lingua in documenti testuali

9

Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di

riconoscimento Addestrati i riconoscitori con Training-set

costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi

Testati i riconoscitori con Testing-set costituito

da 60 documenti

index term

il y the der et paring o aa atilde ouml i

Riconoscitori di lingua in documenti testuali

10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 2: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

2

SommarioSommario

Metodologie di riconoscimento della lingua di un testo

Software di implementazioneMisure di prestazioneConfronto tra le diverse metodologie

implementate

Riconoscitori di lingua in documenti testuali

3

Definizione di riconoscitore Definizione di riconoscitore linguisticolinguistico

Testi

Riconoscitore

Lingua

FileTesto1txt

FileTesto2txt

FileTesto3txt

LinguaTesto1

LinguaTesto2

LinguaTesto3

Piugrave formalmenteCL D x C rarr 01doveCL algoritmo di riconoscimento linguistico D dominio dei documenti di testoC dominio delle linguese CL (dЄDcЄC) = 1 allora secondo CL d egrave scritto nella lingua cse CL (dЄDcЄC) = 0 allora secondo CL d non egrave scritto nella lingua c

problema decisionale

Riconoscitori di lingua in documenti testuali

4

Strategia di implementazioneStrategia di implementazione

Abbiamo adattato tecniche applicate al piugrave ampio problema della categorizzazione di un documento testuale

bullBase di conoscenza

bullBase di regole

bullSupervisore

bullSet di training

bullIpotesi di induzione e generalizzazione

bullSet di test

Sistema esperto vs

Apprendimento automatico

Riconoscitori di lingua in documenti testuali

5

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di apprendimento

Indicizzazione

Index-Vector

Index ndash term[theunetily]

Apprendimento

Training set

M odello

Riconoscitori di lingua in documenti testuali

6

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di riconoscimento

Lingua riconosciuta

Documento Test

Indicizzazione

Index ndash term[theunetily]

Riconoscimento

Modello

Index-Vector

Decisione

Categorization Status Value

Riconoscitori di lingua in documenti testuali

7

Misure di prestazioneMisure di prestazione

Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo

Tabelle di contingenza Lingua ci Decisione esperto

Si No

Decisione riconoscitore

Si VPi FPi

No FNi VNi

Calcolo della precisione Pri = VPi (VPi+FPi)

Calcolo della recall Rei = VPi (VPi+FNi)

Calcolo delle medie (micro e macro averaging)

Riconoscitori di lingua in documenti testuali

8

Lrsquoapplicazione softwareLrsquoapplicazione software

Paradigma di programmazione a oggetti linguaggio JAVA

Riconoscitori di lingua in documenti testuali

9

Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di

riconoscimento Addestrati i riconoscitori con Training-set

costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi

Testati i riconoscitori con Testing-set costituito

da 60 documenti

index term

il y the der et paring o aa atilde ouml i

Riconoscitori di lingua in documenti testuali

10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 3: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

3

Definizione di riconoscitore Definizione di riconoscitore linguisticolinguistico

Testi

Riconoscitore

Lingua

FileTesto1txt

FileTesto2txt

FileTesto3txt

LinguaTesto1

LinguaTesto2

LinguaTesto3

Piugrave formalmenteCL D x C rarr 01doveCL algoritmo di riconoscimento linguistico D dominio dei documenti di testoC dominio delle linguese CL (dЄDcЄC) = 1 allora secondo CL d egrave scritto nella lingua cse CL (dЄDcЄC) = 0 allora secondo CL d non egrave scritto nella lingua c

problema decisionale

Riconoscitori di lingua in documenti testuali

4

Strategia di implementazioneStrategia di implementazione

Abbiamo adattato tecniche applicate al piugrave ampio problema della categorizzazione di un documento testuale

bullBase di conoscenza

bullBase di regole

bullSupervisore

bullSet di training

bullIpotesi di induzione e generalizzazione

bullSet di test

Sistema esperto vs

Apprendimento automatico

Riconoscitori di lingua in documenti testuali

5

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di apprendimento

Indicizzazione

Index-Vector

Index ndash term[theunetily]

Apprendimento

Training set

M odello

Riconoscitori di lingua in documenti testuali

6

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di riconoscimento

Lingua riconosciuta

Documento Test

Indicizzazione

Index ndash term[theunetily]

Riconoscimento

Modello

Index-Vector

Decisione

Categorization Status Value

Riconoscitori di lingua in documenti testuali

7

Misure di prestazioneMisure di prestazione

Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo

Tabelle di contingenza Lingua ci Decisione esperto

Si No

Decisione riconoscitore

Si VPi FPi

No FNi VNi

Calcolo della precisione Pri = VPi (VPi+FPi)

Calcolo della recall Rei = VPi (VPi+FNi)

Calcolo delle medie (micro e macro averaging)

Riconoscitori di lingua in documenti testuali

8

Lrsquoapplicazione softwareLrsquoapplicazione software

Paradigma di programmazione a oggetti linguaggio JAVA

Riconoscitori di lingua in documenti testuali

9

Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di

riconoscimento Addestrati i riconoscitori con Training-set

costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi

Testati i riconoscitori con Testing-set costituito

da 60 documenti

index term

il y the der et paring o aa atilde ouml i

Riconoscitori di lingua in documenti testuali

10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 4: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

4

Strategia di implementazioneStrategia di implementazione

Abbiamo adattato tecniche applicate al piugrave ampio problema della categorizzazione di un documento testuale

bullBase di conoscenza

bullBase di regole

bullSupervisore

bullSet di training

bullIpotesi di induzione e generalizzazione

bullSet di test

Sistema esperto vs

Apprendimento automatico

Riconoscitori di lingua in documenti testuali

5

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di apprendimento

Indicizzazione

Index-Vector

Index ndash term[theunetily]

Apprendimento

Training set

M odello

Riconoscitori di lingua in documenti testuali

6

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di riconoscimento

Lingua riconosciuta

Documento Test

Indicizzazione

Index ndash term[theunetily]

Riconoscimento

Modello

Index-Vector

Decisione

Categorization Status Value

Riconoscitori di lingua in documenti testuali

7

Misure di prestazioneMisure di prestazione

Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo

Tabelle di contingenza Lingua ci Decisione esperto

Si No

Decisione riconoscitore

Si VPi FPi

No FNi VNi

Calcolo della precisione Pri = VPi (VPi+FPi)

Calcolo della recall Rei = VPi (VPi+FNi)

Calcolo delle medie (micro e macro averaging)

Riconoscitori di lingua in documenti testuali

8

Lrsquoapplicazione softwareLrsquoapplicazione software

Paradigma di programmazione a oggetti linguaggio JAVA

Riconoscitori di lingua in documenti testuali

9

Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di

riconoscimento Addestrati i riconoscitori con Training-set

costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi

Testati i riconoscitori con Testing-set costituito

da 60 documenti

index term

il y the der et paring o aa atilde ouml i

Riconoscitori di lingua in documenti testuali

10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 5: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

5

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di apprendimento

Indicizzazione

Index-Vector

Index ndash term[theunetily]

Apprendimento

Training set

M odello

Riconoscitori di lingua in documenti testuali

6

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di riconoscimento

Lingua riconosciuta

Documento Test

Indicizzazione

Index ndash term[theunetily]

Riconoscimento

Modello

Index-Vector

Decisione

Categorization Status Value

Riconoscitori di lingua in documenti testuali

7

Misure di prestazioneMisure di prestazione

Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo

Tabelle di contingenza Lingua ci Decisione esperto

Si No

Decisione riconoscitore

Si VPi FPi

No FNi VNi

Calcolo della precisione Pri = VPi (VPi+FPi)

Calcolo della recall Rei = VPi (VPi+FNi)

Calcolo delle medie (micro e macro averaging)

Riconoscitori di lingua in documenti testuali

8

Lrsquoapplicazione softwareLrsquoapplicazione software

Paradigma di programmazione a oggetti linguaggio JAVA

Riconoscitori di lingua in documenti testuali

9

Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di

riconoscimento Addestrati i riconoscitori con Training-set

costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi

Testati i riconoscitori con Testing-set costituito

da 60 documenti

index term

il y the der et paring o aa atilde ouml i

Riconoscitori di lingua in documenti testuali

10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 6: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

6

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di riconoscimento

Lingua riconosciuta

Documento Test

Indicizzazione

Index ndash term[theunetily]

Riconoscimento

Modello

Index-Vector

Decisione

Categorization Status Value

Riconoscitori di lingua in documenti testuali

7

Misure di prestazioneMisure di prestazione

Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo

Tabelle di contingenza Lingua ci Decisione esperto

Si No

Decisione riconoscitore

Si VPi FPi

No FNi VNi

Calcolo della precisione Pri = VPi (VPi+FPi)

Calcolo della recall Rei = VPi (VPi+FNi)

Calcolo delle medie (micro e macro averaging)

Riconoscitori di lingua in documenti testuali

8

Lrsquoapplicazione softwareLrsquoapplicazione software

Paradigma di programmazione a oggetti linguaggio JAVA

Riconoscitori di lingua in documenti testuali

9

Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di

riconoscimento Addestrati i riconoscitori con Training-set

costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi

Testati i riconoscitori con Testing-set costituito

da 60 documenti

index term

il y the der et paring o aa atilde ouml i

Riconoscitori di lingua in documenti testuali

10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 7: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

7

Misure di prestazioneMisure di prestazione

Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo

Tabelle di contingenza Lingua ci Decisione esperto

Si No

Decisione riconoscitore

Si VPi FPi

No FNi VNi

Calcolo della precisione Pri = VPi (VPi+FPi)

Calcolo della recall Rei = VPi (VPi+FNi)

Calcolo delle medie (micro e macro averaging)

Riconoscitori di lingua in documenti testuali

8

Lrsquoapplicazione softwareLrsquoapplicazione software

Paradigma di programmazione a oggetti linguaggio JAVA

Riconoscitori di lingua in documenti testuali

9

Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di

riconoscimento Addestrati i riconoscitori con Training-set

costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi

Testati i riconoscitori con Testing-set costituito

da 60 documenti

index term

il y the der et paring o aa atilde ouml i

Riconoscitori di lingua in documenti testuali

10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 8: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

8

Lrsquoapplicazione softwareLrsquoapplicazione software

Paradigma di programmazione a oggetti linguaggio JAVA

Riconoscitori di lingua in documenti testuali

9

Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di

riconoscimento Addestrati i riconoscitori con Training-set

costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi

Testati i riconoscitori con Testing-set costituito

da 60 documenti

index term

il y the der et paring o aa atilde ouml i

Riconoscitori di lingua in documenti testuali

10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 9: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

9

Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di

riconoscimento Addestrati i riconoscitori con Training-set

costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi

Testati i riconoscitori con Testing-set costituito

da 60 documenti

index term

il y the der et paring o aa atilde ouml i

Riconoscitori di lingua in documenti testuali

10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 10: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 11: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 12: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 13: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 14: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

14

Metodologia profile-basedMetodologia profile-based

Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 15: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02

lingue non riconosciute

PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 16: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 17: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

17

Metodologia example-basedMetodologia example-based

Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 18: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2

lingue non riconosciute

PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 19: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as

Page 20: POLITECNICO DI MILANO Polo Regionale di Como Facoltà di Ingegneria dell’Informazione

Riconoscitori di lingua in documenti testuali

20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as