politecnico di milano polo regionale di como facoltà di ingegneria dell’informazione

Riconoscitori di lingua in documenti testuali

1

POLITECNICO DI MILANO

Polo Regionale di ComoFacoltagrave di Ingegneria dellrsquoInformazione

Corso di Studi in Ingegneria Informatica on line


Tutor universitario Prof Giuseppe Pozzi

Elaborato

finale diAndrea

Serighellimatr 679850

AA 2007-2008


2

SommarioSommario

Metodologie di riconoscimento della lingua di un testo

Software di implementazioneMisure di prestazioneConfronto tra le diverse metodologie

implementate


3

Definizione di riconoscitore Definizione di riconoscitore linguisticolinguistico

Testi

Riconoscitore

Lingua

FileTesto1txt

FileTesto2txt

FileTesto3txt

LinguaTesto1

LinguaTesto2

LinguaTesto3

Piugrave formalmenteCL D x C rarr 01doveCL algoritmo di riconoscimento linguistico D dominio dei documenti di testoC dominio delle linguese CL (dЄDcЄC) = 1 allora secondo CL d egrave scritto nella lingua cse CL (dЄDcЄC) = 0 allora secondo CL d non egrave scritto nella lingua c

problema decisionale


4

Strategia di implementazioneStrategia di implementazione

Abbiamo adattato tecniche applicate al piugrave ampio problema della categorizzazione di un documento testuale

bullBase di conoscenza

bullBase di regole

bullSupervisore

bullSet di training

bullIpotesi di induzione e generalizzazione

bullSet di test

Sistema esperto vs

Apprendimento automatico


5

Funzionamento del riconoscitoreFunzionamento del riconoscitore

bullFase di apprendimento

Indicizzazione

Index-Vector

Index ndash term[theunetily]

Apprendimento

Training set

M odello


6


bullFase di riconoscimento

Lingua riconosciuta

Documento Test

Indicizzazione


Riconoscimento

Modello

Index-Vector

Decisione

Categorization Status Value


7

Misure di prestazioneMisure di prestazione

Tecniche basate sul conteggio dei casi VeroFalso Positivo e VeroFalso Negativo

Tabelle di contingenza Lingua ci Decisione esperto

Si No

Decisione riconoscitore

Si VPi FPi

No FNi VNi

Calcolo della precisione Pri = VPi (VPi+FPi)

Calcolo della recall Rei = VPi (VPi+FNi)

Calcolo delle medie (micro e macro averaging)


8

Lrsquoapplicazione softwareLrsquoapplicazione software

Paradigma di programmazione a oggetti linguaggio JAVA


9

Testing dei riconoscitori Testing dei riconoscitori implementatiimplementati Implementati tre differenti metodologie di

riconoscimento Addestrati i riconoscitori con Training-set

costituito da 30 documenti Totale di 10 lingue europee apprese Index term costituito da 11 elementi

Testati i riconoscitori con Testing-set costituito

da 60 documenti

index term

il y the der et paring o aa atilde ouml i


10

Metodologia Naive BayesMetodologia Naive Bayes

Stima della probabilitagrave che il documento sia scritto nella lingua Ci

CSVi(d) = P(ci|d) = Π [P(ci|ty)bullP(ty|d) + P(ci|ty)bullP(ty|d)]y=1r

ricavati in fase di addestramento

ricavati dallrsquoindicizzazione di d

Nel calcolo della stima percentuale concorrono le probabilitagrave condizionate (Bayes) legate alla presenza e assenza di un particolare termine dellrsquoindex-vectore tali probabilitagrave concorrono come r fattori indipendenti (Naive)


11

Metodologia Naive Bayes - Metodologia Naive Bayes - sogliesoglie

La lingua relativa alla componente di CSV maggiore potrebbe non rappresenta la decisione migliore

Soglie decisionali differenti

τi = Σ csvitrain |dtrain| dtrainЄ ci

componente i del vettore csv di dtrain

Ersquo scelta la lingua avente rapporto CSVi i maggiore


12

Metodologia Naive Bayes - Metodologia Naive Bayes - prestazioniprestazioni

Nessun errore di riconoscimento Necessario lrsquoutilizzo delle soglie

decisionali

Metodologia Naive Bayes

senza soglia con soglia

lingue non riconosciute

italianospagnolofrancesecatalanosuomi

PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13

Metodologia profile-basedMetodologia profile-based

Ad ogni lingua egrave associato un profilo Il profilo egrave un vettore di dimensione pari allrsquoindex-term

wiy = β Σ vytrain|dtrain| + γ Σ vytrain|dtrain| β + γ = 1βgt0 γ lt= 0 dtrainЄ ci dtrain Є ci

componente y del vettore wi

componente y dellrsquoindex-vector di dtrain

Ad ogni lingua egrave associato un profilo Ersquo scelta la lingua avente profilo piugrave simile allrsquoindex-vector

del documento di test CSVi (dtest) = d (index-dtest wi)


14


Rappresentazione geometrica

W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d

Index-term a tre elementi spazio 3-dim

Riconoscitore riconosce tre lingue 3 profili

d egrave piugrave vicino a w1 (la distanza d(dw1) egrave minore di tutte le altre) d egrave scritto nella lingua rappresentata da w1


15

Metodologia profile-based - Metodologia profile-based - prestazioniprestazioni

Buone prestazioni Nessuna sensibile differenza con lrsquoutilizzo della

formula completa

Metodologia profile-based

=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16

Metodologia example-basedMetodologia example-based

Lrsquoindex-vector del documento di test egrave confrontato con gli index-vector dei documenti di training

Egrave scelta la lingua del documento di training avente index-vector piugrave simile

Lazy classifier non egrave costruito alcun modello Come funzione di confronto egrave stata utilizzata la

distanza euclidea tra vettori


17


Evoluzione si confronta il documento di test con i K documenti di training piugrave simili (K=1 egrave il caso precedente)

CSVi = Σ RSV (dtest dtrain) dtrainЄ k-best ci|

Retrieval Status Value misura di quanto dtest e dtrain sono simili (es distanza degli index-vector ma anche indici di correlazione relazioni semantiche)

k documenti di training classificati in ci con max valore RSV (dtest dtrain)

Per K=1 e RSV intesa come distanza euclidea si torna al caso precedente


18

Metodologia example-based - Metodologia example-based - prestazioniprestazioni

Nessun errore di riconoscimento per K=2 Molto buono anche nella versione semplice con

K=1 Ottimo rapporto costoprestazioni

Metodologia example-based

K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19

ConclusioniConclusioni

Lrsquoapproccio basato sullrsquoapprendimento automatico supervisionato si egrave mostrato valido

Tale approccio permette di modificare il dominio applicativo riaddestrando i riconoscitori (es diverse lingue differenti ambiti )

Temi aperti riconoscimento della lingua dei documenti web ottimizzazione dellrsquoindex-term estensione delle metodologie implementate in ambiti piugrave vasti (categorizzazione dei testi sistemi in cascata)


20

MaterialeMateriale

Volume tesi e applicazione scaricabili al seguente indirizzo web

httpdigilanderliberoitPietrino71as


2

SommarioSommario

Metodologie di riconoscimento della lingua di un testo

Software di implementazioneMisure di prestazioneConfronto tra le diverse metodologie

implementate


3


Testi

Riconoscitore

Lingua

FileTesto1txt

FileTesto2txt

FileTesto3txt

LinguaTesto1

LinguaTesto2

LinguaTesto3




4




bullBase di regole

bullSupervisore

bullSet di training


bullSet di test

Sistema esperto vs



5



Indicizzazione

Index-Vector


Apprendimento

Training set

M odello


6



Lingua riconosciuta

Documento Test

Indicizzazione


Riconoscimento

Modello

Index-Vector

Decisione



7




Si No


Si VPi FPi

No FNi VNi





8




9





da 60 documenti

index term



10








11








12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




3


Testi

Riconoscitore

Lingua

FileTesto1txt

FileTesto2txt

FileTesto3txt

LinguaTesto1

LinguaTesto2

LinguaTesto3




4




bullBase di regole

bullSupervisore

bullSet di training


bullSet di test

Sistema esperto vs



5



Indicizzazione

Index-Vector


Apprendimento

Training set

M odello


6



Lingua riconosciuta

Documento Test

Indicizzazione


Riconoscimento

Modello

Index-Vector

Decisione



7




Si No


Si VPi FPi

No FNi VNi





8




9





da 60 documenti

index term



10








11








12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




4




bullBase di regole

bullSupervisore

bullSet di training


bullSet di test

Sistema esperto vs



5



Indicizzazione

Index-Vector


Apprendimento

Training set

M odello


6



Lingua riconosciuta

Documento Test

Indicizzazione


Riconoscimento

Modello

Index-Vector

Decisione



7




Si No


Si VPi FPi

No FNi VNi





8




9





da 60 documenti

index term



10








11








12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




5



Indicizzazione

Index-Vector


Apprendimento

Training set

M odello


6



Lingua riconosciuta

Documento Test

Indicizzazione


Riconoscimento

Modello

Index-Vector

Decisione



7




Si No


Si VPi FPi

No FNi VNi





8




9





da 60 documenti

index term



10








11








12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




6



Lingua riconosciuta

Documento Test

Indicizzazione


Riconoscimento

Modello

Index-Vector

Decisione



7




Si No


Si VPi FPi

No FNi VNi





8




9





da 60 documenti

index term



10








11








12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




7




Si No


Si VPi FPi

No FNi VNi





8




9





da 60 documenti

index term



10








11








12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




8




9





da 60 documenti

index term



10








11








12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




9





da 60 documenti

index term



10








11








12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




10








11








12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




11








12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




12



decisionali





PrM () 6912 100

ReM () 8524 100

Pr = Re () 4500 100


13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




13









14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




14



W0 = (05 01 04)

w1 = (01 07 02)

w2 = (04 0 06)

d = (02 06 02)

t1

t0

t2

t0w0

w1

w2

d





15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




15



formula completa


=1 e = 0 =12 e = -02


PrM () 9833 9708

ReM () 9833 9667

Pr = Re () 9833 9667


16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




16







17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




17








18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




18





K=1 K=2


PrM () 9833 100

ReM () 9833 100

Pr = Re () 9833 100


19






20

MaterialeMateriale




19






20

MaterialeMateriale




20

MaterialeMateriale



politecnico di milano polo regionale di como facoltà di ingegneria dell’informazione

Documents