Alma Mater Studiorum - Università di Bologna - Sede di Forlì
Scuola Superiore di Lingue Moderne per Interpreti e Traduttori
Corso di laurea in traduzione e interpretazione
Tesi di laurea in interpretazione simultanea dal tedesco in italiano
Estrazione terminologica per interpreti di conferenza
Candidato Claudio Fantinuoli
RelatoreGabi Mack
CorrelatoreMarco Baroni
Anno Accademico 2004-2005
Estrazione terminologica per interpreti di conferenza Sommario
Sommario
Sommario............................................................................................................I
Abstract .............................................................................................................. 1
Zusammenfassung............................................................................................. 2
Introduzione....................................................................................................... 3
Capitolo I ........................................................................................................... 6 L’uso del computer da parte dell’interprete.......................................................... 6
Capitolo II.......................................................................................................... 9 Estrazione terminologica ........................................................................................ 9
Breve introduzione all’estrazione terminologica semi-automatica ....................................9 Il termine e la sua registrazione .......................................................................................10 Estrazione automatica: alcuni principi .............................................................................13
Capitolo III ...................................................................................................... 16 Misure di associazione........................................................................................... 16
Relative risk e odd ratio ...................................................................................................16 Mutual information ..........................................................................................................17 Log-likelihood ratio .........................................................................................................18
Capitolo IV....................................................................................................... 20 Scelta dei metodi di estrazione terminologica..................................................... 20
BootCaT...........................................................................................................................20 Nota sulla denominazione di BootCaT utilizzata in questo studio..............................21 BootCaT: un tool, due estrazioni.................................................................................21
Wordsmith .......................................................................................................................22 Terminology Wizard ........................................................................................................23
Capitolo V ........................................................................................................ 24
Analisi del glossario e del corpus di riferimento............................................ 24 Considerazioni generali......................................................................................... 24 Caratteristiche del glossario di riferimento ........................................................ 25 Caratteristiche dei corpora specialistici .............................................................. 26
Capitolo VI....................................................................................................... 29 Metodo di analisi dei dati ottenuti ....................................................................... 29
Recall e precision.............................................................................................................29 Normalizzazione dei risultati ...........................................................................................31 Tassonomia ......................................................................................................................32
Tassonomia di primo livello........................................................................................33 Tassonomie di secondo livello ....................................................................................35
Selezione dei termini........................................................................................................37 Capitolo VII ..................................................................................................... 38
I
Estrazione terminologica per interpreti di conferenza Sommario
Estrazione terminologica con BootCaT(web)................................................. 38 Il tool BootCaT....................................................................................................... 38 Il principio di funzionamento ............................................................................... 38 La creazione del corpus specialistico ................................................................... 40
Osservazioni sulla creazione di corpora specialistici con BootCaT.................................43 L’estrazione............................................................................................................ 44
Introduzione .....................................................................................................................44 Prima fase: estrazione degli unigrammi ...........................................................................45 Seconda fase: l’annotazione.............................................................................................47
I risultati ................................................................................................................. 49 Capitolo VIII.................................................................................................... 51
Estrazione terminologica con BootCaT(corpus)................................................. 51 Il tool BootCaT(corpus) ...................................................................................................51 I risultati ...........................................................................................................................51
Capitolo IX....................................................................................................... 54 Estrazione terminologica con Wordsmith........................................................... 54
Il tool Wordsmith .............................................................................................................54 L’estrazione......................................................................................................................55 I risultati ...........................................................................................................................57
Capitolo X ........................................................................................................ 59 Estrazione con Terminology Wizard ................................................................... 59
Il tool Terminology Wizard .............................................................................................59 Il funzionamento .........................................................................................................59
L’estrazione......................................................................................................................61 I risultati ...........................................................................................................................61
Capitolo XI....................................................................................................... 63 Analisi dei risultati ................................................................................................ 63
Valutazione secondo la tassonomia di primo livello........................................................63 Valutazione secondo i valori di recall..............................................................................66 Valutazione secondo le tassonomie di secondo livello ....................................................67 Alcuni confronti fra BootCaT(web) e BootCaT(corpus) .................................................72
Conclusioni ...................................................................................................... 75
Bibliografia ...................................................................................................... 78
Appendice 1...................................................................................................... 82 Script ....................................................................................................................... 82
Appendice 2...................................................................................................... 86 Glossario di riferimento utilizzato per le estrazioni ........................................... 86
II
Estrazione terminologica per interpreti di conferenza Introduzione
Abstract
This study aims at finding out if conference interpreters could profit
from the new developments in terminology extraction methods.
We present the results of an experiment conducted using three software:
the BootCaT toolkit, Wordsmith and Terminology Wizard. We compare the
results of a terminological extraction using the web as a corpus with the results
obtained with a manual constructed corpus. We conducted an evaluation using
an ad-hoc taxonomy that considers the specific needs of interpreters as well as
a reference term list compiled by hand by a professional terminologist.
The study is divided in three parts. The first part introduces several
studies on the relationship between interpreters and computers, as far as
terminology is concerned, the basic principles of terminology extraction, the
features of the software we used, the characteristics of the reference corpus and
glossary and the evaluation method.
The second part describes the four extractions methods. Chapter seven
deals with BootCaT and the web as a corpus, chapter eight with BootCaT and
the use of a manually compiled corpus, chapter nine with Wordsmith and
chapter ten with Terminology Wizard.
The third part focuses on the evaluation of the results. The use of the
ad-hoc taxonomy allows us to evaluate the terminology extractions bearing in
mind the real needs of interpreters.
Finally, we conclude by suggesting possible directions for further
development of a terminology extraction toolkit.
1
Estrazione terminologica per interpreti di conferenza Introduzione
Zusammenfassung
Die vorliegende Arbeit versucht die Frage zu klären, ob moderne
Methoden zur Terminologieextraktion Konferenzdolmetschern hilfreich sein
können.
Es werden die Ergebnisse einer Untersuchung vorgestellt, die mit drei
Softwares durchgeführt worden ist: BootCaT toolkit, Wordsmith und
Terminology Wizard. Die Ergebnisse einer web basierten Extraktion werden
mit den Ergebnissen verglichen, die mit einem manuell zusammengestellten
Korpus erzielt worden sind. Die Evaluierung erfolgt sowohl auf der Basis einer
ad-hoc Taxonomie, die die spezifischen Bedürfnisse der Dolmetscher
berücksichtigt, als auch eines von einem Terminologen manuell erstellten
Glossars.
Die Arbeit setzt sich aus drei Teilen zusammen. Im ersten Teil werden
unterschiedliche Studien zur Beziehung zwischen Dolmetschern und
Computern, die grundlegenden Prinzipien der Terminologieextraktion, die
Eigenschaften der verwendeten Software, die Attribute der Bezugskorpora und
Bezugsglossare sowie die Evaluierungsmethode vorgestellt.
Im zweiten Teil wird auf die vier durchgeführten Extraktionen näher
eingegangen. Kapitel sieben befasst sich mit BootCaT und dem Web als
Korpus, Kapitel acht mit BootCaT und der Verwendung eines manuell
zusammengestellten Korpus, Kapitel neun mit Wordsmith und Kapitel zehn
schließlich mit Terminology Wizard.
Der dritte Teil ist der Evaluierung der Ergebnisse gewidmet. Die
Verwendung einer ad-hoc Taxonomie ermöglicht die Evaluierung der
Terminologieextraktionssysteme unter dem Gesichtspunkt der spezifischen
Bedürfnisse des Dolmetschers.
Zum Schluss werden mögliche Entwicklungsansätze zur
Terminologieextraktion für Dolmetscher vorgestellt.
2
Estrazione terminologica per interpreti di conferenza Introduzione
Introduzione
In un’epoca segnata sempre di più dal progresso tecnologico ed
informatico, progresso che interessa direttamente anche la professione
dell’interprete, è riscontrabile una totale assenza di applicazioni informatiche
interamente progettate e realizzate per gli interpreti simultaneisti. A differenza
dei tanti prodotti in commercio destinati ai traduttori, non esiste ancora una
piattaforma software che integri la serie di applicazioni informatiche necessarie
all’interprete nelle varie fasi che caratterizzano il suo lavoro di documentazione
– estrazione e gestione terminologica, organizzazione della documentazione,
utilizzo in cabina della terminologia elaborata – e che richiede caratteristiche e
funzionalità particolari appositamente studiate per tali attività. Questo studio si
propone di dare impulso alla ricerca e alla realizzazione pratica di applicazioni
informatiche che soddisfino le esigenze degli interpreti professionisti.
Gli interpreti simultaneisti che operano in conferenze o incontri
internazionali di argomento specialistico devono far fronte ad un notevole
sforzo preparatorio e spesso elaborare centinaia di pagine fra manoscritti,
informazioni di background e nuova terminologia. Appare ovvio che ciò non
può essere realizzato in tempi ragionevoli senza l’ausilio del computer. Le
modalità di preparazione oggi praticate appaiono inoltre spesso poco efficienti:
l’elaborazione del materiale fatto pervenire dagli organizzatori della
conferenza, le informazioni sul tema trattato raccolte autonomamente
dall’interprete (utilizzando oggi prevalentemente internet), l’estrazione
terminologica manuale dai testi precedentemente preparati, la redazione di
glossari mono o plurilingue e infine la sistematizzazione delle informazioni
ottenute per essere accessibili in futuro costituiscono operazioni dispendiose
soprattutto in termini di tempo e denaro. Come è noto, l’interprete si trova
spesso a dover affrontare da un lato scadenze e ritmi di lavoro che spesso
lasciano poco spazio alla fase preparatoria, dall’altro l’esigenza di acquisire
ugualmente una serie di competenze, linguistiche e non, senza le quali le sue
prestazioni specifiche nella singola conferenza ne risentirebbero
3
Estrazione terminologica per interpreti di conferenza Introduzione
negativamente. Per poter facilitare e velocizzare queste procedure è dunque
necessario individuare o realizzare degli strumenti informatici che permettano
di agevolare l’interprete in tutte queste fasi.
La nostra ricerca si concentra su uno di questi temi: l’estrazione
terminologica semi-automatica. Sulla base di un confronto fra diverse
metodologie di estrazione, commerciali e sperimentali, si cercherà di valutare
se essa possa essere d’aiuto all’interprete professionista nella fase di
preparazione ad una conferenza.
L’estrazione oggetto di questo studio è di tipo monolingue. Ad oggi
l’estrazione bilingue da testi non paralleli e/o annotati sta ancora muovendo i
primi passi e non permette di raggiungere risultati che possano essere di
qualche interesse nell’applicazione pratica. Liste di termini monolingue
possono comunque essere un aiuto prezioso per l’interprete nella fase di
preparazione costituendo ad esempio il punto di partenza su cui basare la
propria strategia di apprendimento linguistico ed extralinguistico in vista di una
nuova conferenza.
Il presente lavoro è suddiviso in tre parti: una parte introduttivo/teorica,
una parte sperimentale e una parte conclusiva incentrata sulla valutazione dei
risultati ottenuti.
La prima parte è composta da sei capitoli che, dopo una breve
presentazione degli studi che analizzano il rapporto dell’interprete con il
computer, in particolar modo per gli aspetti relativi alla terminologia,
introducono i principi generali dell’estrazione terminologica, le motivazioni
che hanno portato alla scelta dei sistemi utilizzati nei nostri esperimenti, le
caratteristiche del materiale di confronto impiegato e la procedura seguita per
la valutazione dei risultati ottenuti.
La seconda parte è costituita da quattro capitoli ognuno dei quali è
dedicato all’estrazione terminologica effettuata con i sistemi individuati per il
nostro esperimento. Il settimo capitolo è dedicato a BootCaT con estrazione da
web, l’ottavo alla versione di BootCaT che utilizza un corpus raccolto
manualmente, il nono a WordSmith e il decimo a TerminologyWizard.
4
Estrazione terminologica per interpreti di conferenza Introduzione
La terza parte si occupa invece della valutazione e dell’interpretazione
dei risultati ottenuti. Si propongono diverse modalità con cui osservare i
risultati raccolti con i singoli sistemi così da permettere una valutazione il più
possibile aderente alle esigenze del fruitore finale.
Le conclusioni riassumono le valutazioni fin qui proposte e forniscono
indicazioni per possibili sviluppi futuri.
Completano il presente lavoro la descrizione della procedura seguita per
l’estrazione terminologica con BootCaT e il glossario di riferimento utilizzato
come metro di paragone per la valutazione dei tool.
5
Estrazione terminologica per interpreti di conferenza Capitolo I
Capitolo I
L’uso del computer da parte dell’interprete
Numerosi sono gli studi che negli ultimi anni hanno cercato di scattare
un’istantanea sul rapporto tra interpreti e nuove tecnologie. Fra i più importanti
possiamo ricordare quelli condotti dallo SCIC (My Computer, 2001), da
associazioni di categoria come il BDÜ (2000), da ricercatori come Will (2000)
nonché l’inchiesta condotta da Valentini (2002). La maggior parte di queste
indagini, in primis Valentini (2002) e Will (2000), analizzano, a nostro avviso
molto giustamente, i bisogni terminologici degli interpreti differenziandoli in
uso prima e durante la simultanea nonché nella possibilità di utilizzo del
computer come supporto alla documentazione ed alla gestione della
terminologia sia nella fase di preparazione sia durante il lavoro vero e proprio.
Anche Gile (1995:148), seppur non riferendosi a possibili strumenti informatici
ma alla sola preparazione dell’interprete, si avvale di una simile
differenziazione distinguendo fra long-term, in-conference e last-minute
preparation.
La fase preparatoria ad una conferenza specialistica di argomento non
ancora noto costituisce una fase essenziale per la buona gestione dell’intera
attività lavorativa di un interprete professionista. In questa fase l’interprete è
chiamato ad acquisire una serie di dati e nozioni, sia di tipo enciclopedico che
di tipo linguistico, che gli permetteranno di affrontare con successo la
simultanea. Secondo Kalina (1998:203) infatti l’elaborazione del materiale a
disposizione unito ad altre strategie preparatorie permettono di trasferire una
parte consistente dei processi cognitivi di apprendimento di dati nuovi alla fase
antecedente l’interpretazione vera e propria, il che permette di diminuire il
carico cognitivo durante l’interpretazione stessa.
Tale preparazione avviene sulla base di documenti riguardanti il tema
oggetto della conferenza che lo stesso interprete provvederà a raccogliere
6
Estrazione terminologica per interpreti di conferenza Capitolo I
manualmente (secondo l’inchiesta della BDÜ l’88,5% degli intervistati utilizza
per questa fase Internet) e/oppure sulla base del materiale fornito dal
committente. Il metodo di trattamento del materiale raccolto sembra essere in
prevalenza ancora molto tradizionale ed affidato al supporto cartaceo, ovvero
tramite l’estrazione manuale della terminologia (Valentini, 2002:36). Questo
atteggiamento dipende con molta probabilità, oltre dalle abitudini degli
interpreti più anziani, anche dal fatto che ad oggi non esistono in commercio
prodotti per l’estrazione terminologica di facile uso che raggiungano risultati
tali da conquistare la fiducia dell’interprete professionista.
Se è vero che la preparazione dell’interprete non si risolve soltanto
nell’apprendimento di liste preconfezionate di significanti (l’output di un
sistema di estrazione terminologico automatico) ma in quella di un sistema di
concetti (e da qui forse anche la predilezione per un lavoro manuale, in cui
l’interprete acquisisce oltre che al significante anche il significato), è altrettanto
vero che tali liste possano agevolare l’interprete nell’elaborazione del materiale
in suo possesso. Esse possono infatti costituire il punto di partenza per
esplorare il corpus di testi disponibili in maniera puntuale e precisa, utilizzando
ad esempio dei concordancer1, semplici software che permettono di studiare le
parole nei loro contesti d’uso. Si ha così una nuova possibilità di esplorare il
materiale a disposizione:
[…] the use of terminology gives another possibility: instead of navigating
through the collection documents, it’s possible to navigate through the
collection terminology and access the documents from the relevant terms.
(Jones e Phrasier, 1999)
Se si considera poi la forte pressione temporale che l’interprete deve
gestire, visto che spesso è costretto in poco tempo a far propri saperi a lui poco
conosciuti e che, anche quando viene reso disponibile, il materiale preparatorio
viene consegnato nella maggior parte dei casi meno di 5 giorni prima della
conferenza (Valentini, 2002:33), appare ovvio che sistemi di estrazione
1 TextSTAT, un semplice ma ottimo concordancer può essere scaricato gratuitamente
7
Estrazione terminologica per interpreti di conferenza Capitolo I
terminologica possano favorire una migliore gestione del tempo e delle risorse
da parte dell’interprete.
La terminologia estratta, qualunque sia la metodologia con cui essa
viene ottenuta, necessita inoltre di essere gestita. La maggior parte degli
interpreti utilizza programmi generici di trattamento testo come Word®
(67,7%) o fogli di calcolo come Excel® (11,4%) invece di usufruire delle
funzioni di software specifici di gestione terminologica come Multiterm®
(6,5%) o banche dati personalizzabili come Filemaker Pro® (4,9%) (Valentini,
2000:153). Nonostante gli evidenti deficit di software non dedicati come Word
ed Excel, poco adatti alla gestione di banche dati terminologiche, questi
prodotti vengono prediletti forse a causa del più alto grado di familiarità che la
maggior parte degli utenti ha con essi o della maggior semplicità di utilizzo.
Due software di recente commercializzazione e specificatamente designati per
l’interprete simultaneista, LookUp® e Interplex®, non sono invece, per ragioni
temporali2, stati presi in considerazione dalle inchieste sopra citate. La relativa
semplicità d’uso e le funzioni specifiche li rendono adatti ad essere utilizzati in
cabina e potrebbero portare ad un cambiamento nell’atteggiamento degli
interpreti nei confronti di programmi più specifici di gestione terminologica.
Il presente studio si concentrerà sulle problematiche relative
all’estrazione terminologica.
2 I software sono di recente commercializzazione.
8
Estrazione terminologica per interpreti di conferenza Capitolo II
Capitolo II
Estrazione terminologica
Breve introduzione all’estrazione terminologica semi-automatica
La questione della natura dell’estrazione terminologica automatica o
semi-automatica dipende in gran parte dal risultato che si vuole ottenere, cioè
dal tipo di dati che si intende estrarre e dalle finalità dell’utente. Mediatori
linguistici, traduttori, interpreti e terminologi non costituiscono infatti le uniche
categorie potenzialmente interessate ai risultati dell’estrazione di termini
tecnico-specialistici.
Ritroviamo fra gli interessati all’estrazione terminologica, fra le altre, le
imprese che offrono prodotti informatici per la classificazione dei testi, la
ricerca e l’estrazione di informazioni (Information Retrieval e Information
Extraction), un campo che a sua volta poterebbe riservare per il futuro degli
interpreti dei risvolti molto interessanti.
La struttura dei dati, cioè dei termini estratti, può essere ricondotta
fondamentalmente a due tipologie (Heid, 2001:186):
- semplici liste di termini
- inventari strutturati e relazionali
Le liste terminologiche semplici sono liste di parole, mono o
plurilingui, depositarie di sapere linguistico, che elencano i termini di un
linguaggio specialistico o di un particolare testo. Gli inventari strutturati e
relazionali fungono invece da base per la costruzione di vere e proprie strutture
del sapere. Relazioni caratteristiche tipiche degli inventari strutturati sono
9
Estrazione terminologica per interpreti di conferenza Capitolo II
quelle tra iperonimi e iponimi, sinonimi, equivalenze/traduzioni
interlinguistiche, ecc.
Il nostro studio si occupa della realizzazione di liste terminologiche
monolingui che costituiscono la prima fase verso l’estrazione terminologica
bilingue3. Tali liste però possono essere considerate un primo obiettivo nella
creazione di strumenti informatici utilizzabili proficuamente dall’interprete di
conferenza (v. ). L’uso del computer da parte dell’interprete
Il termine e la sua registrazione
Il primo aspetto che deve essere analizzato quando si affronta
l’estrazione terminologica riguarda la tipologia di termini a cui si vuole dare
spazio in un lavoro terminologico, indipendentemente dal fatto che si voglia
ottenere una lista di termini o un inventario strutturato. Innanzitutto è
necessario chiarire cosa si intende con il concetto di termine:
[…] una parola che dovrebbe denominare un oggetto materiale e immateriale,
visto nella sua dimensione categoriale e non individuale, in modo univoco, e
senza alcuna sfumatura connotativa di tipo né diatonico (ossia relativo alla
variazione linguistica in dipendenza dell’area geografica), né diastrico (ossia
relativo alla variazione linguistica in dipendenza della classe sociale), né
diafasico (ossia relativo alla variazione linguistica in dipendenza del registro
impiegato, del grado di formalità), né diacronico (ossia relativo alla variazione
linguistica nel tempo).
(Rega, 2002: 49-50)
È questa una definizione classica del termine che riprende quella del
circolo di Vienna, elaborata da Wüster negli anni Trenta. Si tratta però di una
definizione normativa che poco si adatta all’applicazione nell’estrazione
3 Per approfondimenti sull’acquisizione automatica di equivalenti traduttivi si vedano:
Déjean, Gaussier, Sadat (2001) e Volk, Pantli, Malka (2002).
10
Estrazione terminologica per interpreti di conferenza Capitolo II
terminologica. In quest’ottica alcuni studiosi come Jacquemin e Bourigault
arrivano addirittura a postulare che:
In a definition of term that is better suited to corpus-based terminology, a term
must be stated as the output of a procedure of terminological analysis. A
single word, such as cell, or a multi-word unit, such a blood cell is a term
because it has been decided that it would be so. The decision process can
involve a community of researchers or practitioners, a normalisation
institution, or even a single engineer or terminologist in charge of building a
terminological resource for a specific purpose.
(2000:2)
La relatività delle definizioni classiche di termine viene sottolineata
anche da Sager:
The theories underlying applied fields of study benefit from being application
driven rather than following separate paths as terminology theory has been
doing in recent years. By adopting the engineering approach of identifying
problems and seeking solutions, significant advances have been made […].
(1990:10)
Heid (2001:188), nel tentativo di fornire al mediatore linguistico alcuni
principi guida per determinare la rilevanza delle unità terminologiche e quindi
la necessità o meno di registrare un termine in un glossario propone tre
definizioni: la konzeptbasierte Definition, la übersetzungsbasierte Definition e
la häufigkeitsbasierte Definition.
Secondo la prima definizione, un termine come allgemeine
Bedingungen o allgemeine Geschäftsbedingungen deve ottenere lo status di
termine in una raccolta terminologica di dominio giuridico o commerciale
poiché esiste un concetto giuridico o commerciale che viene identificato da
questa espressione. Questo modo molto diffuso di concepire la rilevanza
terminologica si rifà dunque all’assunto secondo il quale un termine è rilevante
se rappresenta un concetto tipico del dominio di interesse.
11
Estrazione terminologica per interpreti di conferenza Capitolo II
La übersetzungsbezoge Definition prevede la registrazione di un
termine in una banca dati soltanto quando questo può presentare delle difficoltà
durante il processo traduttivo.
La häufigkeitsbasierte Definition definisce invece la rilevanza
terminologica sulla base del confronto fra la ricorrenza di un’espressione in un
testo specialistico e la ricorrenza dello stesso termine in un corpus di
riferimento non specialistico. I termini vengono considerati rilevanti se la loro
ricorrenza nel testo specialistico è maggiore rispetto a quella nel corpus di
riferimento. Fondamentalmente in questo caso ci si può trovare di fronte a due
costellazioni:
- alcuni termini possono ricorrere molto raramente nel linguaggio non
specialistico: diodo, un componente elettronico, compare molto
frequentemente in testi che riguardano, ad esempio, il settore
radioelettrico, ma assai raramente in un corpus di testi giornalistici
come quello della Repubblica (4 ricorrenze in tutto il corpus). Tale
termine verrà quindi registrato nella banca dati specialistica;
- altre parole invece possono essere ricorrenti sia nei testi specialistici sia
nel corpus generico di riferimento, ma ciononostante vengono
considerate tipiche di un particolare domino e vengono quindi incluse
nel lavoro terminologico. Heid (2001:188) riporta l’esempio di Kind
che è da considerasi termine se il domino del testo analizzato è ad
esempio Kindergeld. In questo caso però il termine Kind con tutta
probabilità ricorrerà in un testo del dominio Kindergled con una
frequenza relativa maggiore rispetto a quanto accade nel corpus
generico. Tale caratteristica risulta essere quindi decisiva per la sua
registrazione.
La forma ritenuta appartenere per eccellenza alla schiera dei termini
candidati in una raccolta terminologica tecnico-scientifica è quella del
sostantivo. Ovviamente la rosa di termini considerati utili al fruitore finale non
si esaurisce però con questa categoria. Molti ricercatori hanno anche
12
Estrazione terminologica per interpreti di conferenza Capitolo II
sottolineato l’importanza di altre componenti soprattutto quando queste fanno
parte della categoria collocazioni – in primo luogo le combinazioni di
sostantivi/verbi e sostantivi/aggettivi4. Nel nostro studio ci si è concentrati
tuttavia soprattutto sull’estrazione di termini specialistici (sostantivi semplici e
complessi) e meno su quella delle collocazioni, anche se queste ultime
rivestono dal punto di vista traslatorio un ruolo molto importante5.
Estrazione automatica: alcuni principi
Heid (2001:189) formula tre assunti riguardanti l’estrazione
terminologica automatica:
- un sistema di estrazione deve sempre permettere la correzione manuale
e quindi essere semi-automatico. Questo è il motivo per cui in genere,
come anche nel nostro lavoro, si parla di termini candidati. Sarà
comunque il terminologo, il traduttore o l’interprete a decidere
sull’effettiva registrazione del termine nella banca dati o nel glossario;
- l’estrazione di termini candidati sarà sempre accompagnata da un certo
“rumore”, cioè la presenza di termini indesiderati. L’obiettivo di chi
sviluppa tali sistemi deve essere quello di ridurre al minimo il livello di
rumore;
- un sistema di estrazione terminologica dovrebbe per contro ridurre al
minimo il numero di “candidati buoni” che non vengono estratti, cioè il
cosiddetto “silenzio”. La maggior parte dei terminologi accettano un
certo rumore se possono essere sicuri di non aver escluso dei candidati
buoni.
Sempre Heid (2001:189) definisce anche le due fasi fondamentali che
stanno alla base dei processi di estrazione terminologica:
4 Per un approfondimento si vedano le categorie definite da Wright (1997: 14-16). 5 Per un approfondimento dell’estrazione di collocazioni si rimanda a diversi studi e
esperimenti in questo settore tra i quali Krenn.
13
Estrazione terminologica per interpreti di conferenza Capitolo II
- identificazione dei termini candidati sulla base di un processo di analisi
linguistica del testo;
- filtraggio dei termini candidati secondo criteri linguistici o statistici così
da ridurre al massimo il rumore e il silenzio.
L’elaborazione dei file di testo secondo il procedimento a due fasi qui
introdotto avviene solitamente dopo aver preparato adeguatamente i testi,
annotandoli. Le tre fasi tipiche di questa preparazione sono:
- la tokenizzazione, cioè l’identificazione dei token. In pratica
suddividere il testo in modo che presenti una sola parola per riga;
- la classificazione morfologica o POS-tagging (part of speech), cioè
l’assegnazione di un’etichetta che segnali la categoria grammaticale di
ogni parola (nome, aggettivo, verbo, ecc.);
- la lemmatizzazione, il processo con cui si riporta ogni parola alla sua
forma base (mangio->mangiare, ricordi->ricordo).
Oggigiorno quest’ultima operazione svolta automaticamente è ancora
soggetta a molti errori soprattutto poiché nella maggior parte dei casi sia ha a
che fare con testi altamente specialistici le cui terminologie non sono contenute
nei repertori lessicografici utilizzati dai software preposti alla lemmatizzazione.
L’identificazione dei termini candidati si basa fondamentalmente su
criteri linguistici. Heid (2001:190-197) distingue fra criteri legati direttamente
ai termini e criteri legati ai contesti in cui essi compaiono. Alcuni criteri si
concentrano quindi sulle caratteristiche morfologiche dei termini, altri sulla
struttura morfosintattica dei termini composti (POS), altri ancora sul contesto
in cui il termine compare, considerando ad esempio termine quelle parole che
ricorrono nelle strutture: “con X si definisce”, “cosiddetto X”, ecc.
L’approccio sopra descritto come POS è quello probabilmente più
diffuso fra i sistemi di estrazione terminologica. Esso sta alla base sia del
metodo BootCaT sia di Terminology Wizard. Una volta preparati (v.
), i testi vengono interrogati per estrarre solo quelle
Seconda
fase: l’annotazione
14
Estrazione terminologica per interpreti di conferenza Capitolo II
combinazioni di parole che corrispondono ai pattern morfosintattici definiti
dall’utente.
Tale procedimento ha come obiettivo finale quello di estrarre tutti quei
termini candidati che morfologicamente o morfosintatticamente “assomiglino”
a termini specialistici. Ciò non significa però che tali parole, pur rispettando
tali criteri, siano così rilevanti – o addirittura corretti – da guadagnare lo status
di termine ed essere poi registrati in un lavoro terminologico. La procedura più
indicata per aumentare la probabilità che tali termini candidati siano davvero
quelli desiderati è quella di filtrare i risultati che sono stati precedentemente
identificati secondo i principi linguistici sopra descritti (POS). Ciò può
avvenire o su base linguistica, utilizzando ad esempio delle stop word, liste di
parole che vengono considerate improbabili termini candidati, o su base
statistica, seguendo diversi procedimenti. Un semplice criterio statistico è
quello di confrontare le frequenze con cui un termine compare nel testo da
analizzare con quelle relative allo stesso termine in un corpus di riferimento. Se
un termine compare un certo numero di volte in più nel testo rispetto al corpus
di riferimento, esso viene considerato automaticamente termine da registrare.
Metodi statistici più raffinati di quello appena presentato si fondano
sulle misure di associazione utilizzate da vari sistemi, ad esempio i tre da noi
impiegati, sia quelli che lavorano su testi annotati (BootCaT e Terminology
Wizard) sia quelli che lavorano su testi non preparati (Wordsmith).
Ovviamente entrambi i metodi, statistici e linguistici, possono essere
combinati. Questo è il caso di BootCaT, il quale filtra i termini candidati con
un procedimento che combinando un metodo statistico e uno linguistico
(v. L’estrazione) può essere definito ibrido.
15
Estrazione terminologica per interpreti di conferenza Capitolo III
Capitolo III
Misure di associazione
L’idea che sta alla base delle misure di associazione deriva dalla
psicolinguistica e venne introdotta per la prima volta nel tentativo di valutare la
prontezza di risposta dei probandi ad uno stimolo linguistico. Si dimostrò che
essi rispondevano infatti più celermente identificando ad esempio l’ambiente di
lavoro in cui opera una figura professionale come l’infermiera, se tale termine
(infermiera) veniva accompagnato da una parola fortemente associata ad esso,
ad esempio dottore (Palermo e Jenkins, 1964).
Anche in linguistica è prassi consolidata considerare le parole non come
unità isolate, ma sulla base delle parole ad esse altamente associate (co-
occurrence): «You shall know a word by the company it keeps». (Firth, 1957).
Per agevolare la determinazione del livello di associazione fra due
parole sono stati sviluppati diversi modelli matematici. Tutti hanno in comune
il fatto di considerare non soltanto la frequenza delle singole coppie di parole
(si potrebbe infatti pensare che se due parole ricorrono molto spesso insieme
sono anche altamente associate) ma anche le caratteristiche dei corpora in cui
sono contenute, cioè le loro dimensioni.
Relative risk e odd ratio
Il metodo più semplice per identificare le parole tipiche di un testo
specialistico, e quindi quelle che con tutta probabilità possono essere
considerate essere i termini tecnici del linguaggio in questione, è il cosiddetto
relative risk. Esso consiste, come accennato in 2.2., nel calcolo del rapporto fra
la frequenza relativa di una parola nel corpus specialistico e la sua frequenza
relativa nel corpus generale di riferimento ed è definita dalla seguente formula:
16
Estrazione terminologica per interpreti di conferenza Capitolo III
gen(w)/Ngenfqspec(w)/Nspecfq
log
Ovviamente più il risultato di questo rapporto è alto, più è probabile che
la parola considerata sia caratteristica del linguaggio specialistico.
Quando la ricorrenza della parola w nei due corpora, fqspec(w) e
fqgen(w), è molto bassa rispetto al numero di parole che costituiscono i corpora,
Nspec e Ngen, come è il caso in testi molto specialistici, allora una misura più
adatta a calcolare se una parola è potenzialmente tipica del corpus specialistico
è la odd ratio:
gengengen
specspecspec
fqNwfqfqNwfq
−
−
/)(/)(
log
Anche nel caso della odd ratio, più alto è il suo valore più è probabile
che una parola sia tipica del linguaggio esaminato.
Mutual information
La mutual information (MI), proposta da Fano (1961) come misura
dell’interdipendenza fra due elementi in un messaggio e introdotta da Church e
Hanks (1990) nella linguistica computazionale, è la misura di associazione
classica di questo ambito. Essa viene espressa dalla seguente formula:
)()(),(log),( 2 yPxP
yxPyxMI =
Church e Hanks (1990) propongono la seguente interpretazione della
mutual information:
Informally, mutual information compares the probability observing x and y
together (the joint probability) with the probabilities of observing x and y
independently (chance). If there is a genuine association between x and y, then
the joint probability P(x,y) will be much larger than chance P(x) P(y), and
17
Estrazione terminologica per interpreti di conferenza Capitolo III
consequently I(x,y) >> 0. If there is no interesting relationship between x and
y, then P(x,y) P(x) P(y), and thus, I(x,y) ~ 0. If x and y are in complementary
distribution, then P(x,y) will be much less than P(x) P(y), forcing I(x,y) << 0.
Nella situazione in cui si hanno due corpora, uno specialistico ed uno di
riferimento, possiamo interpretare la MI come il rapporto tra la probabilità di
avere una data parola che appartiene al corpus specialistico e la probabilità di
trovarsi di fronte la stessa parola indipendentemente dal corpus. Una parola
tipica del corpus specialistico avrà dunque un alto valore di MI; e questo
avviene proprio quando la probabilità che tale parola ha di capitare nel corpus
specialistico è molto più alta di quella di ricorrere nel corpus di riferimento.
Nel caso in cui si hanno due corpora, uno specialistico e uno di
riferimento, si avrà:
))(()())(,(log))(,( 2 specwcorpusPxwP
specwcorpusxwPspecwcorpusxwMI====
===
dove w = x rappresenta l’evento che la parola analizzata sia x, mentre
corpus(w) = spec l’evento che la medesima parola sia quella estratta dal corpus
specialistico. La MI sarà allora il rapporto tra la probabilità che la parola sia x
dato che è noto che si tratta di una parola presa dal corpus specialistico e la
probabilità che la parola sia x indipendentemente dal corpus da cui è presa.
Log-likelihood ratio
Il problema legato alla mutual information è che essa tende a
privilegiare i termini che sono molto rari a svantaggio di quelli che hanno
un’elevata frequenza. Si sono così dovute trovare altre misure di associazione
che cercano di risolvere il problema delle parole a bassa frequenza. La più
diffusa è la log-likelihood (LL)6 (Dunning, 1994), che fornisce dei valori molto
plausibili anche per i termini a bassa frequenza (Krenn e Evert, 2001).
Intuitivamente ci si può immaginare la LL come al rapporto della
6 Per approfondimenti si consiglia la lettura dei seguenti testi: Rayson, Berridge e Francis.
18
Estrazione terminologica per interpreti di conferenza Capitolo III
verosimiglianza delle frequenze estratte dal corpus se si ipotizza che esiste una
dipendenza tra le due parole e la verosimiglianza delle medesime frequenze se
si ipotizza che tale dipendenza non ci sia.
Una possibile strategia, utilizzata anche nel corso dei nostri esperimenti
con BootCaT, è quella di considerare termini candidati i migliori risultati
ottenuti con entrambe le misure di associazione.
19
Estrazione terminologica per interpreti di conferenza Capitolo IV
Capitolo IV
Scelta dei metodi di estrazione terminologica
La nostra scelta dei software con cui affrontare l’estrazione
terminologica è dipesa da due motivazioni fondamentali. Innanzitutto si è
cercato di offrire una vasta panoramica di approcci all’estrazione terminologica
(ET) che tenesse conto delle varie tipologie esistenti, ovvero:
- sistema sperimentale libero (BootCaT);
- sistema commerciale di analisi linguistica generico (Wordsmith);
- sistema commerciale dedicato all’ET (Terminology Wizard).
Si è inoltre cercato di coprire diverse metodologie e principi di
estrazione:
- analisi statistica e linguistica (BootCaT);
- analisi statistica (Wordsmith);
- analisi linguistica (Terminology Wizard).
BootCaT
Nella nostra rosa di sistemi utilizzati, l’estrazione con BootCaT è
indubbiamente quella più sperimentale. Ad oggi non esiste ancora una versione
con interfaccia grafica del tool, bensì una serie di script in PERL e di
successioni di comandi Unix. Il sistema operativo richiesto non è il ben più
diffuso Windows bensì Unix. BootCaT si distingue da qualsiasi altro sistema di
estrazione terminologica per la sua capacità di raccogliere il corpus da cui
effettuare l’estrazione terminologica in maniera automatica, utilizzando il web
come fonte da cui reperire i testi che lo compongono. Proprio questa sua
caratteristica lo rende interessante per l’interprete professionista che, come
20
Estrazione terminologica per interpreti di conferenza Capitolo IV
sottolineato in precedenza, deve fare i conti con l’assimilazione di nuovi saperi
in un tempo relativamente breve.
Nota sulla denominazione di BootCaT utilizzata in questo studio
Nella presente ricerca vengono utilizzate due costellazioni di BootCaT:
la prima (v. ), completa di tutte le
sue caratteristiche, mantiene il suo nome originario, BootCaT, mentre la
seconda (v. ), che non prevede
la fase di raccolta del corpus da web, ma utilizza lo stesso corpus compilato
manualmente e analizzato anche da Wordsmith e da Terminology Wizard, si
presenta in versione ridotta. Proprio per questo motivo nella presente ricerca si
fa riferimento ad esso, onde evitare fraintendimenti, con il nome
BootCaT(corpus). Talvolta, sempre per favorire la chiarezza, ci si potrà riferire
alla versione completa di BootCaT, quella cioè che provvede automaticamente
a creare il corpus linguistico dal web e proprio in natura di questa caratteristica,
come a BootCaT(web).
Estrazione terminologica con BootCaT(web)
Estrazione terminologica con BootCaT(corpus)
BootCaT: un tool, due estrazioni
BootCaT è stato quindi utilizzato per effettuare due estrazioni: la prima,
da web, rappresenta la finalità per cui questo tool è stato sviluppato, la seconda,
da corpus manuale, ha uno scopo principalmente legato alla presente ricerca,
cioè di confronto.
L’estrazione da corpus compilato manualmente, da considerarsi
idealmente il punto di incontro tra BootCaT(web) e gli altri sistemi analizzati
in questa sede, ha un duplice obiettivo: da un lato si desiderava verificare la
precisione degli script per l’estrazione terminologica di BootCaT, quindi il
modulo di estrazione vero e proprio. Solo utilizzando lo stesso corpus per tutti i
sistemi di estrazione terminologica, quello manuale, è infatti possibile
effettuare un confronto obiettivo fra di essi e verificare la qualità dell’output di
BootCaT. L’altro obiettivo era quello di servire da metro di confronto per
verificare le differenze e le analogie fra i risultati che è possibile ottenere con i
21
Estrazione terminologica per interpreti di conferenza Capitolo IV
corpora raccolti automaticamente dal web con BootCaT e quelli ottenuti da un
corpus costruito manualmente. In questo caso si aveva a disposizione due
corpora differenti, ma lo stesso metodo di estrazione.
Poiché la procedura utilizzata può essere anche fine a se stessa, cioè
all’estrazione di terminologia specifica da corpora già a disposizione
dell’utente (ad es. il materiale messo a disposizione dall’organizzatore di una
conferenza), si è scelto di dedicare a tale procedimento un capitolo a sé stante e
di considerarlo non solo in funzione al ruolo di verifica di BootCaT, ma come
un vero e proprio metodo di estrazione.
Wordsmith
Wordsmith rappresenta la categoria dei software di analisi linguistica
generici forse maggiormente diffuso sul mercato. Sebbene non sia stato
concepito per l’estrazione terminologica, alcune sue funzioni e il fatto che sia
ormai diffuso fra molti professionisti, soprattutto traduttori, come il software
per eccellenza per l’analisi di corpora linguistici, ne rendono opportuna la
valutazione per verificare il suo possibile impiego come estrattore di
terminologia specifica.
Il software gira su Windows e le sue funzionalità, sebbene non sempre
semplici da utilizzare, sono comunque alla portata di chiunque abbia un po’ di
dimestichezza con la piattaforma e i programmi Windows. Non essendo stato
sviluppato con finalità di estrazione terminologica, tale processo richiede
diversi passaggi e operazioni. Questi possono però essere standardizzati, quindi
ripetuti meccanicamente, cosa che, avendo a disposizione i corpora di
riferimento, rende il processo di identificazione della terminologia
relativamente semplice e veloce (v. ). Estrazione terminologica con Wordsmith
22
Estrazione terminologica per interpreti di conferenza Capitolo IV
Terminology Wizard
Terminology Wizard appartiene al gruppo di software commerciali
dedicati espressamente all’estrazione terminologica presenti oggi sul mercato.
La sua principale caratteristica è l’estrema semplicità di utilizzo, il ché lo rende
particolarmente adatto ad un pubblico poco informatizzato o non disposto a
confrontarsi con una fase di apprendimento invece necessaria per gli altri
sistemi. Una volta caricato il corpus e impostati i pattern morfosintattici per
l’estrazione, il software provvederà ad identificare la terminologia specialistica.
Oltre a offrire la funzione di estrazione terminologica, Terminology Wizard è
in grado di costituire una vera e propria banca dati per la gestione della
terminologia acquisita. I termini estratti possono essere velocemente passati al
setaccio per determinare quali scartare e quali conservare. Ulteriori funzioni
prevedono inoltre anche la stampa dei risultati ottenuti e la possibilità di
utilizzare un concordancer integrato con il software per analizzare il contesto
d’uso dei termini estratti automaticamente.
23
Estrazione terminologica per interpreti di conferenza Capitolo V
Capitolo V
Analisi del glossario e del corpus di riferimento
Considerazioni generali
La prima questione che si è posta nella fase di progettazione del nostro
esperimento è stata quella riguardante la necessità di confrontare i risultati
ottenuti con i vari strumenti di estrazione terminologica con un glossario di
riferimento, compilato manualmente. Dato il carattere molto particolare del
presente lavoro, che intende verificare il possibile impiego di strumenti
informatici per l'interprete professionista, è stata ponderata la possibilità di
utilizzare come riferimento un glossario compilato da un'interprete
professionista in visione di una conferenza tecnico-scientifica. Il problema
insito però in questa procedura era quello dell'elevato grado di soggettività
caratteristica della compilazione manuale di un glossario, aggravata dal fatto
che un interprete compila sempre un glossario pensando al proprio fabbisogno
personale (terminologia conosciuta/non conosciuta, espressioni che creano
maggiori problemi, ecc.). Tale caratteristica rende un glossario di questo tipo,
anche se molto aderente alla realtà, per forza di cose poco adatto ad essere
utilizzato come parametro di paragone per la valutazione di sistemi di
estrazione automatici e quindi per loro natura oggettivi. Vista questa
considerazione, si è infine optato per un glossario compilato professionalmente
nell’ambito di una tesi di laurea in campo terminologico e quindi
tendenzialmente più oggettivo. L'obiettivo è stato quello di reperire un
glossario che avesse le seguenti caratteristiche:
- provata qualità
- tema molto specialistico
- presenza di tre lingue
24
Estrazione terminologica per interpreti di conferenza Capitolo V
- realizzazione sulla base di corpora linguistici
Visti i molti lavori di natura terminologica raccolti nelle varie tesi
scritte con la collaborazione del Laboratorio di Terminologia della SSLiMIT, si
è optato per quello compilato per la tesi “Leucemia linfoblastica acuta in età
pediatrica: proposta di glossario trilingue italiano-tedesco-inglese” (Bordoni,
2001).
Caratteristiche del glossario di riferimento
Il glossario di riferimenti (GdR) è dunque un glossario trilingue
altamente specializzato che si caratterizza per l’elevata cura data alla ricerca
dei traducenti nonché per l’utilizzazione nella fase di compilazione del tool
Wordsmith. Nell’elaborazione del GdR il tool era però stato utilizzato come
normale concordancer per analizzare i contesti d'uso dei vari termini e non
come strumento per tentare un’estrazione (semi)-automatica della terminologia
specialistica.
Il glossario è composto da tre liste di termini trilingue e da 544 schede
terminologiche. Per il nostro esperimento sono state rilevanti soprattutto le liste
trilingue che in ultima analisi costituiscono l'obiettivo da raggiungere con i
metodi di estrazione automatica. In appendice è riportata la lista completa dei
termini che costituiscono il glossario di riferimento.
Il numero di termini, le cosiddette voci di ciascuna lingua, è riportato
nella seguente tabella:
Numero di termini Italiano 177 Tedesco 175 Inglese 193
Tabella 1: Termini contenuti nel glossario di riferimento
Come è possibile evincere dalla Tabella 1 non siamo di fronte ad un
glossario simmetrico, nel senso che ogni lista (monolingue) non è composta
25
Estrazione terminologica per interpreti di conferenza Capitolo V
dallo stesso numero di termini e conseguentemente non tutti i termini hanno
trovato il proprio traducente in tutte le lingue.
Uno sguardo alle varie voci è sufficiente per comprendere che si tratta
di un glossario altamente specializzato in cui hanno trovato spazio soltanto i
termini più tecnici relativi all'ambito delle leucemie linfoblastiche. Questo fa
pensare che il bacino di utenza di tale glossario possa essere quello di esperti
del settore o di traduttori specializzati che non abbiano quindi bisogno di quella
terminologia, sempre medica, ma più generale, che è comunque indispensabile
alla buona riuscita della comunicazione intra e interlinguistica. Il fatto che è
possibile identificare il pubblico cui è destinato tale glossario si ricollega al
principio della relatività del termine, e quindi del glossario, e della sua
dipendenza dal fruitore finale a cui più volte si fa riferimento in questa ricerca
(v. , ). Il termine e la sua registrazione Tassonomia
Caratteristiche dei corpora specialistici
I corpora specialistici conservati nel Laboratorio di Terminologia e
gentilmente messi a disposizione per il nostro studio sono dei comparable
corpora, cioè «corpora whose components are chosen to be similar samples of
their respective languages» (Tognini e Bonelli, 2001:7). Tali corpora
monolingui vengono descritti da Gavioli e Zanettin come:
Collections of texts in languages of similar types and on similar topics […]
which provide with material for contrastive analysis not just of lexical and
grammatical usage, but also of features of text structure and discourse
organization.
(1997)
Gavoli e Zanettin approfondiscono anche lo status dei corpora
specialistici in un'ottica contrastiva che è anche alla base del nostro studio:
26
Estrazione terminologica per interpreti di conferenza Capitolo V
A specialized corpus is not to be taken as representing general language to a
lesser extent than a large corpus, but as representing the particular population
of texts it is a sample of to a greater extend than a large corpus is able to.
(1997)
I corpora da cui è stato creato il glossario di riferimento sono costituiti
da file di diversi formati (DOC, PDF, HTML, PPT) convertiti in file di testo
(ASCII) per poter essere elaborati con Wordsmith. Il corpus italiano è
composto da 16 testi, quello tedesco da 15 e quello inglese da 34:
Linee Parole Byte Italiano 8544 108016 763455 Tedesco 12870 88895 738695 Inglese 29145 286346 2037176
Tabella 2: Dimensioni dei corpora specialistici compilati manualmente
Per verificare che tutti i termini riportati nel GdR fossero effettivamente
presenti nella raccolta di testi a disposizione si è passato al setaccio i corpora a
disposizione. Questa operazione ha evidenziato che un certo numero di termini
(quantificabile nel 10% del totale) non erano stati estratti dai corpora in
formato testo a disposizione. Con molta probabilità questi traducenti
provengono dagli altri testi non formattati in TXT e che quindi non sono
diventati parte integrante dei corpora ‘ufficiali’ del lavoro terminologico (forse
per le difficoltà di formattazione in file testo di file PPT o PDF protetti da
password), ma che sono stati ugualmente utilizzati per le ricerche
terminografiche.
Per far sì che venissero considerati a fini statistici solo i termini
effettivamente presenti nei corpora, si è provveduto a ripulire il GdR di tutti i
termini non contenuti nei suddetti corpora. Il numero di lemmi per ogni lingua
dopo questa fase è riportato in Tabella 3:
27
Estrazione terminologica per interpreti di conferenza Capitolo V
Termini iniziali Termini finali Italiano 177 136 Tedesco 175 158 Inglese 193 155
Tabella 3: Numero di termini del GdR presenti nei corpora
28
Estrazione terminologica per interpreti di conferenza Capitolo VI
Capitolo VI
Metodo di analisi dei dati ottenuti
Recall e precision
Nella linguistica computazionale e in particolar modo nell’ambito
dell’estrazione terminologia e dell’Information Retrieval si ricorre spesso a due
concetti, recall e precision, che possiamo definire molto concisamente con le
parole di Ahmad e Roger:
“Recall” is the proportion of relevant materials retrieved from a text collection
given a set of terms. “Precision” is the proportion of retrieved materials that
are relevant.
(2001: 748)
In altre parole, dato un corpus contenente un certo numero di termini,
recall è la percentuale di termini candidati effettivamente estratta in relazione
al numero totale di termini contenuti nel corpus. La percentuale di quei termini
considerati validi, calcolata in relazione ai termini estratti, costituisce invece la
precision.
Come osserva Strehlow (201: 429), il rapporto tra recall e precision è in
genere inversamente proporzionale: all’aumentare del valore di recall
tipicamente diminuisce la precision. Questa caratteristica gioca un ruolo molto
importante nel determinare le condizioni di lavoro dei software di estrazione
terminologica. Risulta sempre necessario, come nel caso dei nostri esperimenti,
determinare un punto in cui fermare l’estrazione o, più esattamente, un punto
che faccia da cesura fra i possibili termini candidati e quelli che non si
vogliono considerare. L’obiettivo ideale è ovviamente quello di avere una lista
29
Estrazione terminologica per interpreti di conferenza Capitolo VI
finale di termini candidati che contenga tutte le unità terminologiche che
compongono il testo da cui sono stati estratti e nessun termine da scartare.
Il principio che sta alla base del rapporto recall/precision può essere
meglio compreso se si pensa al seguente paradosso: se si operasse
un’estrazione terminologica in cui tutte le parole – si utilizza il termine parola
per identificare qualsiasi combinazione di lettere e non per forza un termine
(v. ) – venissero estratte (recall 100%), allora
avremmo sì tutti i termini, ma al contempo anche il più alto numero possibile
di quelle non desiderate, il cosiddetto rumore, e di conseguenza il valore della
precision sarebbe basso. Diminuendo il valore di recall, oltre a ridurre il
numero di termini che vengono estratti, si andrà invece con tutta probabilità a
eliminare anche alcuni termini che si avrebbe voluto ottenere come output del
processo. Nonostante ciò, se al diminuire dei termini estratti aumenterà la
proporzione dei termini considerati accettabili, l’andamento del valore di
precision tenderà comunque ad aumentare. Estremizzando ci si potrebbe
trovare nuovamente di fronte ad un paradosso: estrarre una sola parola, un
termine, ottenendo così una precision del 100%.
Il termine e la sua registrazione
Idealmente il sistema di estrazione terminologica perfetto è quello in
grado di operare un’estrazione in cui la precision risulti essere del 100% – tutti
i termini da estrarre sono stati individuati – e che presenti al contempo un
valore di recall del 100% – fra le parole estratte ritroviamo soltanto termini.
Ovviamente un sistema di questo tipo non esiste e probabilmente non
esisterà mai. A impedirne la realizzazione non concorre soltanto l’aspetto
tecnico, ma anche quello teorico: cosa si vuole davvero estrarre? È sufficiente
pensare al lavoro terminologico tradizionale. Due terminologi che lavorano
sullo stesso testo e per lo stesso committente tenderanno comunque a
identificare una serie leggermente differente di termini. Risultati più uniformi
si possono ottenere soltanto istruendo i terminologi su cosa esattamente dovrà
essere estratto. Lo stesso principio vale anche per l’estrazione semi-automatica.
I modelli di estrazione fino ad ora sviluppati non sono però ancora così
sofisticati da poter raggiungere quel grado di “risoluzione” che permetta di
30
Estrazione terminologica per interpreti di conferenza Capitolo VI
restringere significativamente il campo dei termini candidati estratti. Esistono
sì già numerosi tentativi che cercano di concentrare l’attenzione del sistema su
particolari aspetti terminologici, ad esempio la ricerca automatica delle
collocazioni7, ma è ancora lontano dall’essere raggiunto l’obiettivo di estrarre
solo e soltanto quei termini di cui l’utente ha davvero bisogno.
Poiché nel nostro studio si vogliono confrontare i risultati delle
estrazioni automatiche con i termini presenti nel glossario di riferimento
compilato manualmente (v. ), si è
reso necessario ridefinire o meglio adattare il concetto di recall alle
caratteristiche della presente ricerca: nel nostro esperimento definiamo recall il
rapporto tra i termini estratti dal sistema e presenti nel glossario di riferimento
e il numero totale di termini estratti, ovvero:
Caratteristiche del glossario di riferimento
100×=GdR nel presenti emanualment estratti Termini
GdR nel presenti e (cat.1) menteautomaticaestratti TerminiRecall
Il valore di recall ci permette di avere un’idea della percentuale dei
termini presenti nel glossario di riferimento che sono stati estratti dal sistema di
estrazione terminologica e di conseguenza della capacità del suddetto sistema
nell’estrarre quei termini che sono stati considerati dal terminologo come tipici
del dominio studiato. In pratica consideriamo i termini estratti manualmente
come se fossero gli unici termini presenti nel corpus e che quindi si desidera
estrarre. Un recall del 100% significherebbe che tutti i termini del glossario di
riferimento sono stati estratti. Se accompagnato da un alto valore di precision
sicuramente il risultato auspicabile.
Normalizzazione dei risultati
Le liste di risultati ottenute con i vari sistemi di estrazione
terminologica sono state rivedute manualmente per uniformare i risultati e
migliorare l’attendibilità dei risultati finali. Per prima cosa si è ritenuto
7 Si veda ad esempio Krenn.
31
Estrazione terminologica per interpreti di conferenza Capitolo VI
opportuno lemmatizzare tutti i termini manualmente. Nonostante ci si possa
affidare a software in grado di adempiere a questo compito in maniera
completamente automatica (v. ) e
sebbene i tool testati offrano questa possibilità – BootCaT attraverso i tree-
tagger, Terminology Wizard impostando come pattern da estrarre le versioni
lemmatizzate e Wordsmith con le funzioni auto-joining-lemmas e choosing
lemma files – si è preferito far sì che la valutazione non venisse influenzata da
tale processo che avrebbe altrimenti richiesto ulteriori analisi e verifiche non
previste in questa ricerca.
Estrazione automatica: alcuni principi
Dopo aver lemmatizzato i risultati sono state preparate delle tabelle,
suddivise per lingua, contenenti sia le singole liste di termini candidati ottenuti
con le varie estrazioni, sia una lista unica di tutti i termini ottenuti con tutti i
metodi utilizzati. Questa lista randomizzata non riportava indicazioni sul tool
con cui il termine candidato era stato estratto. I termini, ordinati
alfabeticamente, sono così stati presentati a vari esperti affinché questi
potessero assegnare i vari candidati ad una categoria proposta nella tassonomia
da noi elaborata. In questo modo si è reso possibile valutare i vari termini
candidati senza essere influenzati dal tool che ha eseguito l’estrazione. Inoltre
l’ordine alfabetico con cui i dati sono stati visualizzati ha permesso di valutare
con uniformità tutti i termini candidati: in questo modo lo stesso termine ha
ricevuto la stessa valutazione che, benché passibile di una certa arbitrarietà,
con questo metodo di visualizzazione dei risultati è stata omogenea fra i vari
sistemi di estrazione.
Tassonomia
Per poter valutare i termini estratti dai vari sistemi di estrazione
terminologica e confrontarli con quelli contenuti nel glossario di riferimento si
è ritenuto opportuno creare tre tassonomie, una di primo e due di secondo
livello, che tenessero conto non soltanto dei termini estratti e contenuti nel
glossario di riferimento ma anche di tutti quelli che, seppur non presenti in tale
glossario, potessero avere comunque una certa rilevanza nel dominio analizzato
32
Estrazione terminologica per interpreti di conferenza Capitolo VI
o per l’utente finale. È infatti interessante poter valutare quali altri termini
specialistici, non evidenziati nel lavoro terminologico manuale, possano essere
estratti con un metodo semi-automatico.
Tassonomia di primo livello
La seguente tassonomia di carattere generale, definita nella nostra
ricerca di primo livello, è atta a classificare tutti i termini candidati estratti
secondo principi di tipo semantico, morfosintattico e terminologico.
Essa è costituita da cinque categorie:
1. termini contenuti nel glossario di riferimento;
2. termini specialistici afferenti al dominio esaminato;
3. termini medici generali;
4. termini ben formati ma generici;
5. termini scorretti.
L’operazione di attribuire un valore a tutti i termini candidati (per un
totale di 4105), cioè di assegnarli ad una categoria definita nella suddetta
tassonomia, è stata effettuata manualmente. Come sottolineato in precedenza,
per garantire il più alto livello di imparzialità possibile i vari termini sono stati
randomizzati e valutati senza conoscere il tool con cui sono stati estratti. Inoltre
sono stati catalogati in modo tale che un termine ricevesse la stessa valutazione
in tutte le estrazioni.
In Tabella 4 sono riportati alcuni esempi di termini candidati e la
categoria ad essi assegnati:
Italiano Tedesco Inglese 1 Anamnesi Granulozyten Induction therapy 2 Leucemia
mieloblastica acuta Myeloische Leukämie Allogenic peripheral
blut 3 Apparato urinario Antibiotische Therapie Bone 4 Fattore Statistische
Auswertung Journal
5 Sempre alla stessa Kind selten Recurrent childhood Tabella 4: Esempi di assegnazione dei termini alle 5 categorie
33
Estrazione terminologica per interpreti di conferenza Capitolo VI
Ovviamente una tale categorizzazione, come sottolinea Leopardi (2000:
302), comporta sempre un certo livello di arbitrarietà. È evidente che decidere
se un termine appartenga ad esempio alla categoria 2 o 3, ovvero se da
considerarsi appartenente al sottodominio “leucemia” oppure a quello afferente
invece al dominio più generale “medicina”, non è un’operazione del tutto
scontata (v. ). Esistono infatti termini generici e
facilmente comprensibili che però sono tipici se non addirittura fondamentali in
un determinato linguaggio specialistico (v. ):
Il termine e la sua registrazione
Il termine e la sua registrazione
È innegabile che vi siano tutta una serie di termini – e in molti casi sono quelli
portanti all’interno di una o più discipline – che risultano relativamente di
facile comprensione a livello di significato di base per chiunque e che si
ritrovano nei dizionari generali.
(Rega, 2002:54)
Cosa fare? Il terminologo – o altro utente – che si occupa di un dominio
molto specialistico si troverà davanti a due opzioni:
[…] potrà decidere di rilevarli comunque in una raccolta terminografica in
quanto, in quest’ultima, essi saranno definiti in modo (per quanto possibile)
univoco, ovviamente all’interno della disciplina (o sottodisciplina) cui la
raccolta fa riferimento. […] A tale decisione si contrappone quella di non
rilevare parole importanti, ma così scontate da appesantire la raccolta
terminografica.
(Rega, 2002:55)
Vista la relativa arbitrarietà di giudizio, l’obiettivo principale perseguito
è stato quello di garantire almeno il più alto livello possibile di uniformità fra i
vari sistemi così da rendere il confronto il più possibile aderente alla realtà e
senza risultati falsati fra i vari metodi.
34
Estrazione terminologica per interpreti di conferenza Capitolo VI
Tassonomie di secondo livello
Introdotta la tassonomia di primo livello per la valutazione dei sistemi
di estrazione terminologica è stato necessario introdurre altre due tassonomie,
dette di secondo livello (T2a e T2b) nel tentativo di tenere conto delle diverse
esigenze del fruitore finale dei dati estratti.
Come abbiamo già detto, il problema del pubblico, che cerchiamo di
definire nell’ottica dell’interpretazione, è di fondamentale importanza per la
creazione di un glossario:
La domanda di che cosa sia il termine dev’essere secondo noi relativizzata
ponendo contestualmente altre due domande, ovvero qual è il pubblico e qual
è lo scopo di una terminologia
(Ahmad, 1994: 269)
Si può supporre, ad esempio, di trovarsi di fronte a due tipi di interpreti:
il primo ha accumulato nel corso della sua attività professionale esperienza
nell’ambito più generale di cui il tema specifico costituisce un sottodominio.
Nel nostro caso possiamo supporre un interprete che lavori abitualmente in
campo medico e che quindi abbia famigliarità con il gergo di questa disciplina
e possieda un vocabolario attivo e passivo che copre le espressioni tipiche del
suddetto dominio. Ciò di cui avrà bisogno quindi sarà soltanto di acquisire le
nozioni linguistiche ed extralinguistiche relative al settore specifico per cui è
chiamato ad interpretare (leucemia linfoblastica).
Una situazione diversa si ha quando l’interprete affronta un tema
appartenente ad un ambito a lui completamente sconosciuto o in cui non lavora
abbastanza spesso da aver sviluppato un vocabolario attivo (piuttosto che
passivo) sufficiente per affrontare con successo la simultanea. In questo caso
sarà utile esercitare, cioè rendere attivi, non solo la terminologia strettamente
tecnica e relativa alla sola conferenza, ma anche quei termini e quelle
espressioni che generalmente non presentano problemi di comprensione ma di
cui spesso sia ha il problema sottolineato da Kurz: «Bisweilen hat der
35
Estrazione terminologica per interpreti di conferenza Capitolo VI
Dolmetscher auch mit der zielsprachlichen Produktion Probleme: Es liegt ihm
ein Wort auf der Zunge und will ihm nicht einfallen» (1996: 96).
Le tassonomie di secondo livello di seguito proposte tengono conto di
questa relatività del termine e della sua dipendenza dalle esigenze dell’utente
finale.
L’obiettivo ultimo è quello di definire tassonomie che rappresentino da
un lato quei termini che vengono “accettati” dall’ipotetico fruitore finale e
dall’altro quelli che invece vengono “rifiutati” e che costituiscono il rumore,
tassonomie quindi che tengano conto della qualità del processo di estrazione
indipendentemente dal glossario di riferimento utilizzato come primo metro di
misura “assoluta”, ma che considerino unicamente il fruitore delle liste
terminologiche come giudice finale.
Per verificare con quale precisione i vari sistemi estraggono soltanto la
terminologia specifica del dominio (leucemia linfoblastica) si è creata la
tassonomia di secondo livello T2a secondo la formula:
T2a = {A1,B1}
dove A1 = {1,2} e B1 = {3,4,5}. A1 è il valore dei termini “accettati”,
cioè la somma dei valori percentuali delle categorie 1 (termini estratti e
presenti nel glossario di riferimento) e 2 (termini estratti specifici del dominio
esaminato ma non contenuti nel glossario di riferimento). A1 risulta quindi
costituito soltanto da termini specialistici appartenenti al dominio specifico
analizzato (Leucemia linfoblastica). Con questa tassonomia il sistema di
estrazione terminologica viene quindi valutato positivamente soltanto se è in
grado di estrarre la terminologia specifica afferente al dominio sotto esame.
Per verificare con quale precisione i diversi sistemi abbiano estratto
tutta la terminologia inerente al dominio più generale a cui il tema specifico
appartiene (nel nostro caso medicina) e la terminologia specifica del
sottodominio si è creata la tassonomia di secondo livello T2b:
T2b = {A2,B2}
36
Estrazione terminologica per interpreti di conferenza Capitolo VI
dove A2 = {1,2,3} e B2 = {4,5}. A2 è il valore dei termini accettati,
cioè la somma delle percentuali delle categorie 1 (termini estratti e presenti nel
glossario di riferimento), 2 (termini estratti specifici del dominio esaminato ma
non contenuti nel glossario di riferimento) e 3 (termini medici generali). A2 è
quindi costituito sia dai termini specifici appartenenti al dominio specialistico
indagato (leucemia linfoblastica) sia al più vasto dominio di cui esso è un
sottoinsieme (medicina). Con questa tassonomia il sistema di estrazione
terminologica viene valutato positivamente se in grado di estrarre tutti quei
termini tipici del linguaggio medico e quelli del settore specifico medico
esaminato.
B1 e B2 costituiscono invece i valori di disturbo, tutti quei termini, che
vengono considerati non “accettati” e che contribuiscono a peggiorare il valore
di precision dei software e di conseguenza la loro fruibilità.
Selezione dei termini
Per poter valutare manualmente, secondo la tassonomia proposta in
6.3., i termini candidati estratti automaticamente e per far sì che il confronto fra
le varie metodologie analizzate nella presente ricerca fosse il più omogeneo
possibile si è deciso di ridurre il numero dei termini candidati ad un massimo di
400. I criteri utilizzati per queste operazioni sono differenti da sistema a
sistema.
37
Estrazione terminologica per interpreti di conferenza Capitolo VII
Capitolo VII
Estrazione terminologica con BootCaT(web)
Il tool BootCaT
BootCaT, costruito secondo il principio della modularità, è composto da
una serie di tool indipendenti che ne garantiscono una delle sue caratteristiche
più importanti: la flessibilità. Grazie a questa sua peculiarità è possibile ad
esempio utilizzare anche solo singoli sottoinsiemi del toolkit, verificare gli
output parziali e aggiungere o eliminare alcune componenti senza dover per
questo modificare le altre.
Il suo funzionamento può essere suddiviso in due parti fondamentali:
nella prima un algoritmo permette di raccogliere il corpus dal web e una lista di
unigrammi caratteristici del dominio sotto esame. Nella seconda questa lista
viene utilizzata per estrarre, secondo pattern linguistici e principi di rilevanza
statistica, la terminologia supposta essere rappresentativa del dominio.
Il principio di funzionamento
Il principio del suo funzionamento è relativamente semplice. Partendo
da una serie di seed (da 5 a 15), termini considerati tipici del dominio
analizzato, viene creato un corpus utilizzando la funzione di ricerca di Google.
Diversi esperimenti hanno dimostrato che è possibile realizzare dei corpora di
dimensioni e qualità soddisfacenti anche partendo da due soli seed (Baroni e
Bernardini, 2004).
38
Estrazione terminologica per interpreti di conferenza Capitolo VII
I seed, combinati casualmente in n-
tuple, vengono utilizzati come stringhe di
ricerca in Google. La scelta del valore n –
generalmente triplette o coppie – dipende da
diversi fattori. Uno di questi è la quantità di
materiale afferente al dominio indagato
disponibile in internet nonché la sua
specificità. Google ha infatti la caratteristica
di presentare fra i risultati della ricerca solo
quelle pagine che contengono tutti i seed
Select Initial Seeds
Run Google queries
Retrieve Corpus
Extract Seeds (Unigram Terms)
Extract Multi-Word Terms
T
Figura 1- Il workflow di BootCacontenuti nella query; la ricerca con triplette molto specialistiche in un tema o
in una lingua che presentano pochi documenti sulla materia non produce per
questo motivo risultati di rilievo. In questo caso è allora opportuno utilizzare
delle coppie che garantiscono un numero maggiore di risultati.
Le URL così ottenute vengono quindi scaricate e formattate in file di
testo. BootCaT permette di convertire in questo formato non soltanto i file
HTML, ma anche DOC e, forse ancora più importante, i file PDF. Questa
ultima caratteristica è di fondamentale importanza per garantire un certo livello
di qualità e specificità al corpus specialistico ottenuto. È infatti noto che molti
testi della comunità scientifica pubblicati in rete sono file PDF. In formato
HTML sono invece reperibili soprattutto pagine di carattere
generico/introduttivo. Uno studio sul rapporto tra qualità, quantità, tipologia e
formato dei testi è auspicabile.
A questo punto è possibile estrarre statisticamente dal corpus generato
con tale procedura una serie di unigrammi da utilizzare come nuovi seed per la
ricerca con Google. La reiterazione della ricerca permette di ingrandire a
piacimento le dimensioni del corpus (ovviamente in relazione alla quantità di
materiale disponibile sul web). Nel nostro esperimento questa procedura però
non è stata utilizzata sia perché i corpora ottenuti con la prima serie di seed
avevano già dimensioni considerate sufficientemente grandi sia per evitare il
39
Estrazione terminologica per interpreti di conferenza Capitolo VII
pericolo insito in questo procedimento, quello cioè di allontanarsi troppo dal
dominio sotto esame.
Nella seconda fase il corpus e la lista di unigrammi vengono utilizzati
per estrarre secondo principi linguistici una lista di termini complessi, sequenze
di parole che devono rispettare alcune costrizioni per quanto riguarda struttura
morfosintattica, frequenza e distribuzione. In assenza di informazioni
morfosintattiche il tool permette comunque di effettuare un’estrazione sulla
base di parametri statistici/distribuzionali.
La creazione del corpus specialistico8
Prima di iniziare la fase di creazione del corpus con BootCaT è
necessario che l’utente intervenga su una serie di parametri di impostazione
che vanno ad influenzare il tipo di ricerca effettuata da BootCaT su Google.
Fra i più importanti ricordiamo il numero di seed, la loro composizione (n-
tuple), il numero di query e il numero di pagine da scaricare per ogni query.
L’input di cui il software ha bisogno per iniziare una ricerca è costituito
da un file di testo contenente un seed per riga. Come è tipico per molti motori
di ricerca, le multi word expression vanno espresse tra virgolette. Il seguente
script permette di costruire le n-tuple:
$ build_random_tuples.pl –n –l seeds > tuples
dove –n è la dimensione di tupla, –l è il numero di tuple e seed il nome
del file di testo contenente i seed. Nel nostro esperimento sono stati utilizzati i
seguenti parametri -n 20, -l 20. I seed impiegati per le varie lingue sono
riportati in Tabella 5. Come appare evidente si è optato per gli stessi termini in
tutte e tre le lingue. L’obiettivo era quello di evitare condizioni di partenza
differenti fra le varie lingue ad esempio con seed “migliori” in una lingua
piuttosto che in un’altra. Quali caratteristiche devono possedere i seed è un
altro ambito che necessita ulteriori approfondimenti. Esperimenti atti a 8 Gli script utilizzati in questa fase sono riportati integralmente in Appendice.
40
Estrazione terminologica per interpreti di conferenza Capitolo VII
verificare quanto i seed iniziali influenzino il risultato dell’estrazione sono
auspicabili.
Nello specifico del lavoro dell’interprete potrebbe essere ipotizzabile
come prima lista di seed termini contenuti nel nome della conferenza, nei titoli
degli interventi degli oratori e/o, se disponibili, negli abstract. Conditio sine
qua non è comunque che tali seed siano tipici del dominio di interesse.
Italiano Tedesco Inglese leucemia Leukämie Leukemia “midollo osseo” Knochenmark “bone marrow” LLA ALL ALL chemoterapia Chemoterapie chemotherapy trapianto Transplantation transplantation “leucemia acuta linfoblastica”
“akute lymphatische Leukämie”
“acute lymphoblastic leukemia”
linfocita Lymphozyt Lymphocyte “puntura lombare” Liquorpunktion “lumbar puncture” leucociti Leukozyten Leukocytes
Tabella 5: Seed usati per la ricerca con BootCaT
Create le n-tuple, il seguente script permette di scaricare la lista di URL
che rispondono alle varie query (tuple):
$ collect_urls_from_google.pl –l LANGUAGE -c N -k GOOGLE_API_KEY- > urls
dove –k è la password ottenuta da Google, -c il numero di pagine da
scaricare per ogni tupla e -l la lingua.
Il numero di URL ottenute con –c 20, ripulite automaticamente dai
doppioni che possono risultare dalle ricerche multiple effettuate con Google,
sono riportate nella seguente tabella:
Italiano Tedesco Inglese URL 308 128 304
Tabella 6: URL ottenute con BootCaT
Una volta ottenuta la lista di URL è possibile iniziare a scaricare i
documenti individuati e a formattarli in file di testo, utilizzando i seguenti tre
comandi (per documenti HTML, doc e pdf):
41
Estrazione terminologica per interpreti di conferenza Capitolo VII
$ grep -v “CURRENT_SEED” urls | grep -v “NO_RESULTS_FOUND” | sort | uniq | print_pages_from_url_list.pl > html.txt $ grep -v “CURRENT_SEED” urls | grep -v “NO_RESULTS_FOUND” | sort | uniq | convert_doc_to_text.pl > doc.txt $ grep -v “CURRENT_SEED” urls | grep -v “NO_RESULTS_FOUND” | sort | uniq | convert_pdf_to_text.pl > pdf.txt
Con il procedimento sopra descritto si sono così ottenuti tre corpora
delle seguenti dimensioni:
Italiano Tedesco Inglese New line 76.347 68.446 66.712 Word 1.760.421 946.460 453.417 Byte 12.519.130 7.555.510 3.086.908
Tabella 7: Dimensioni dei corpora non ancora tokenizzati
Com’è possibile notare dalla Tabella 7, le dimensioni dei corpora
specialistici ottenuti nelle varie lingue presentano delle notevoli differenze e
ciò nonostante si sia partiti da condizioni iniziali molto simili (vedi seed e
impostazioni di BootCaT). Le possibili spiegazioni sono molteplici.
Innanzitutto sembra che questo fenomeno non dipenda direttamente dalla
lingua. È ragionevole infatti pensare che la maggior parte dei documenti
riguardanti un tema così specifico in ambito medico siano in lingua inglese. Il
fatto che invece il corpus di maggiori dimensioni sia quello italiano (circa 3
volte più grande di quello inglese) dà adito all’ipotesi che ci siano altre
variabili in gioco. Un’ipotesi plausibile riguarda la percentuale di documenti in
un particolare formato che sono stati individuati e scaricati da BootCaT. La
maggior parte dei documenti ottenuti per l’italiano ed il tedesco sono infatti in
formato PDF mentre per l’inglese questo formato compare soltanto in 13 URL
(4,28% del totale). I testi in tale formato appaiono essere di carattere più
specialistico e solitamente sono di dimensioni maggiori rispetto ai file HTML.
Per ottenere con BootCaT un numero maggiore di URL che contengano file in
formato PDF è sufficiente modificarne i parametri di ricerca intervenendo – ad
esempio aggiungendo il comando filetype:PDF – a livello delle stringhe di
ricerca.
È quindi possibile apportare la seguente modifica al comando sopra
presentato:
42
Estrazione terminologica per interpreti di conferenza Capitolo VII
$ perl -ane ‘s/\r//; print’ seeds.txt | build_random_tuples.pl -l 20 | gawk ‘{print $0 “ filetype:PDF”}’ | collect_urls_from_google.pl -l LANGUAGE -c 20 -k API_KEY - > url
Ovviamente al posto di “filetype:PDF” può essere inserito anche un
qualsiasi altro formato supportato da Google.
Osservazioni sulla creazione di corpora specialistici con BootCaT
Uno dei principali criteri di cui si tiene conto nel creare dei corpora per
fini traduttivi è quello di scegliere testi “rappresentativi”, ovvero testi che,
trattando un tema particolare, rappresentino il dominio sotto esame in termini
di sintassi, lessico e registro. All’idea di rappresentatività si accosta poi quella
di “qualità”, vale a dire la ricerca di testi che siano autorevoli. Se la fase di
valutazione delle componenti “rappresentatività” e “qualità” avviene di norma
manualmente in fase di creazione del corpus (come è il caso del nostro corpus
specialistico-manuale), il tool BootCaT provvede alla raccolta del corpus senza
supervisone umana. Questa caratteristica porta inevitabilmente anche alla
presenza nel corpus di testi che non sono desiderati, sia perché non sono
inerenti al dominio, sia perché presentano un livello di qualità normalmente
non considerato sufficiente per un lavoro terminologico. Non va però
dimenticato che anche i corpora ad hoc compilati manualmente non devono
essere considerati come una fonte indiscutibile di soluzioni definitive (nel
nostro caso lessicali). Infatti, come osserva Bernardini:
“(…) corpus users must be aware of the risks involved in absolute judgments
(…). Indeed, the practice of consulting a corpus and critically assessing the
validity of the results obtained is in itself a valuable experience. Thus,
‘corpus-awareness’ might be considered both as a necessary methodological
presupposition for successful corpus-aided learning, and as a first step towards
increased language-awareness.”
(2000: 109)
43
Estrazione terminologica per interpreti di conferenza Capitolo VII
Questo possibile fattore di disturbo – la presenza di testi non pertinenti
– viene bilanciato da due vantaggi del metodo BootCaT: il fattore tempo e
quello dalle dimensioni del corpus. Innanzitutto BootCaT permette di superare
uno dei grandi ostacoli all’utilizzo dei corpora linguistici: il dispendio di tempo
necessario a realizzare manualmente un corpus di sufficienti dimensioni. Con
BootCaT sono invece sufficienti pochi script per ottenere corpora di milioni di
parole. La raccolta dei nostri corpora, una volta creata la lista dei seed, è durata
infatti soltanto pochi minuti. L’altra dimensione, quella della grandezza,
contribuisce a diminuire l’effetto “inquinante” dovuto alla presenza nel corpus
di testi non desiderati: l’influenza di un testo su un corpus diminuisce, infatti,
tanto più il corpus cresce di dimensioni.
L’estrazione9
Di seguito vengono riportate le procedure seguite per estrarre la
terminologia specifica dai corpus analizzati. Si tratta del modulo di BootCaT
dedicato all’estrazione della terminologia da un corpus di testi. La stessa
procedura verrà utilizzata anche per la seconda estrazione effettuata con
BootCaT che non si baserà sul corpus raccolto automaticamente dal web, bensì
su quello compilato manualmente.
Introduzione
Il metodo di estrazione utilizzato nel nostro esperimento si differenzia
sostanzialmente da quello utilizzato da Baroni e Bernardini (2004) nella fase di
sperimentazione di BootCaT, anche questo un segno di come il tool sia
particolarmente flessibile. La nostra estrazione dal corpus raccolto con il
metodo descritto nel capitolo 7.3. si basa sulla combinazione di metodi
linguistici e statistici. In questo modo si cerca di trarre il maggior profitto da i
due approcci all’estrazione terminologica più diffusi (Vivaldi e Rodríguez,
9 In Appendice è riportata la procedura completa seguita in questa fase.
44
Estrazione terminologica per interpreti di conferenza Capitolo VII
2001): quello statistico, basato sull’attribuzione della rilevanza di un termine in
base alla sua frequenza nel corpus specialistico e al suo rapporto con un corpus
di riferimento10 e quello linguistico che cerca di valutarne la specificità in base
alle strutture morfosintattiche del termine e/o dell’ambiente linguistico che lo
circonda.
Prima fase: estrazione degli unigrammi
La prima fase della nostra estrazione è puramente statistica e ha come
obiettivo quello di creare una lista di unigrammi caratteristici del dominio
specialistico sotto esame. Il principio è analogo a quanto utilizzato per
l’estrazione con Wordsmith (v. ) e si basa sul confronto del corpus
specialistico con un corpus di riferimento di notevoli dimensioni. Come
corpora di riferimento sono state utilizzate delle raccolte di testi provenienti dal
Parlamento Europeo. Il fatto che tali testi coprano una vasta gamma di temi
rende i corpora particolarmente adatti all’utilizzo nel nostro esperimento.
Wordsmith
Per prima cosa è necessario tokenizzare i corpora, ossia individuare ed
isolare le parole e formattare i testi cosicché presentino una sola parola per
riga. Poiché il corpus specialistico è ottenuto da file pubblicati in internet,
questi per forza di cose contengono un grande numero di parole appartenenti al
dominio della rete. Un’idea semplice ma utile utilizzata nel nostro esperimento
è stata quella di eliminare queste parole – es. http, HTML, Email, etc. –
avvalendosi si una stop word list appositamente compilata.
Le dimensioni dei corpora di riferimento e dei corpora specialistici
tokenizzati sono riportate nella seguente tabella:
Italiano Tedesco Inglese Riferimento 3.288.496 3.109.525 3.388.390 Speciale 1.512.766 813.817 422.037
Tabella 8: Dimensioni (espresse in token) dei corpora di riferimento e specialistici
10 Per un approfondimento sul confronto fra due o più corpora si veda: Rayon e Garside.
45
Estrazione terminologica per interpreti di conferenza Capitolo VII
Dopo aver tokenizzato i corpora specialistici ottenuti con BootCaT e
quelli di riferimento si è provveduto a preparare i corpora in una tabella per il
calcolo delle due misure di associazione, Mutual Information (MI) e Log-
Likelihood ratio (LL), descritte nei capitoli 3.2 e 3.3. Per questo calcolo si sono
utilizzati i tool di UCS.
The UCS toolkit is a collection of libraries and scripts for the statistical
analysis of co-occurrence data. Data sets – each one containing a list of word
pairs together with their joint and marginal frequencies – are stored in a
tabular format in plain (compressed) text files. They can be viewed, printed,
manipulated in various ways, annotated with association scores from a wide
range of built-in measures, ranked, and sorted with the UCS/Perl system.
(Evert, 2004)
I seguenti script creano una tabella in cui ogni parola del corpus
specialistico è accompagnata dal rispettivo valore MI e LL.
$ prepare_corp_comp_table.pl –o table.ds corpus_specialistico.tok corpus_di_riferimento.tok $ ucs-add -v am.MI am.log.likelihood TO table.ds INTO table.am.ds
Dopo alcune sperimentazioni sono stati selezionati i seguenti parametri
relativi alle misure di associazione: per MI sono state escluse le parole di
lunghezza inferiore ai tre caratteri e quelle con una frequenza inferiore alle 50
occorrenze; per LL sono state escluse le parole inferiori ai tre caratteri e parole
con una frequenza superiore alle 4999.
Per entrambe le misure di associazione sono state poi considerate
soltanto le prime 200 parole. A questa lista sono stati aggiunti gli acronimi
estratti separatamente con un metodo molto semplice ma a nostro avviso
efficace. La seguente stringa di comandi permette di ottenere tutte quelle parole
lunghe da due a quattro caratteri maiuscoli che, a buona ragione, possono
essere considerate degli acronimi:
46
Estrazione terminologica per interpreti di conferenza Capitolo VII
$ cat html.txt doc.txt pdf.txt | egrep -v “CURRENT URL” | perl -ne ‘s/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print’ | grep -v “^$” | grep -v “[a-z]” | gawk ‘$1 ~/[A-Z]/ && length($1)>2 && length($1)<5’ | sort | uniq -c | sort -nrk1 > acro
Al termine di questa prima estrazione, che avviene esclusivamente su
base statistica, si sono ottenute tre liste di parole (unigrammi) tipiche del
dominio considerato (tabella 10). Tale lista, una volta eliminate le parole
ricorrenti più di una volta, può essere, come descritto in 2.1.3., utilizzata come
input per un’ulteriore ricerca con BootCaT.
Italiano Tedesco Inglese 390 355 298
Tabella 9: Unigrammi ottenuti statisticamente
Italiano Tedesco Inglese anemia B-ALL cyclophosphamide induzione Blasten cyclosporine EFS Blutbild cytarabine leucociti Chemotherapie leukemia citogenetica Erbrechen MRD
Tabella 10: Esempi di unigrammi estratti
Seconda fase: l’annotazione
Per intervenire linguisticamente sul processo di estrazione così da
ottenere solo candidati che rispettino certi pattern morfosintattici si è
provveduto ad annotare morfosintatticamente (part-of-speech annotation) i
corpora specialistici, vale a dire assegnare alle diverse parole (o token)
un’etichetta (tag) che ne indichi parte del discorso e/o categoria grammaticale.
A tale fine sono stati impiegati i tree-tagger (Schmidt,1994) per le lingue
italiana, tedesca ed inglese:
$ cat html.txt doc.txt pdf.txt | grep -v “CURRENT URL” | tree-tagger-LINGUA > corpus_specialistico.tgd
47
Estrazione terminologica per interpreti di conferenza Capitolo VII
Successivamente sono stati creati bi- e trigrammi dai corpora annotati:
$ tail +2 spec.tgd | paste spec.tgd - | gawk ‘NF==6’ > spec.tgd.bigrams $ tail +3 spec.tgd | paste spec.tgd.bigrams - | gawk ‘NF==9’ > spec.tgd.trigrams
Parola POS Lemma Quando CON quando
la DET:def il clinica NOM clinica pone VER:pres porre
indicazione NOM indicazione a PRE a
una DET:indef una valutazione NOM valutazione
di PRE di laboratorio NOM laboratorio
di PRE di una DET:indef una
febbre NOM febbre Tabella 11: Esempio di POS con tree-tagger-Italian
Una volta annotato il testo con tree-tagger si è provveduto
all’estrazione dei pattern secondo i seguenti schemi morfosintattici:
Italiano Tedesco Inglese N+ADJ+ADJ ADJ+ADJ+N ADJ+ADJ+N
N+ADJ ADJ+N ADJ+N N N N
N+N N+N N+PRE+N N+N+N
Tabella 12: Pattern per l’estrazione con BootCaT
BootCaT, attraverso lo script filter_multi_word_expressions.pl,
permette di filtrare i termini complessi. Sostanzialmente si verifica la presenza
di almeno un unigramma contenuto nella lista prima generata (v. )
all’interno dei vari pattern estratti con il metodo sopra descritto. Solo quei
termini che rispettano i pattern riportati in Tabella 12 e che contengono almeno
un unigramma estratto con il metodo statistico, e quindi tipico del dominio,
diventano i candidati dell’estrazione.
Wordsmith
48
Estrazione terminologica per interpreti di conferenza Capitolo VII
I risultati
Le Tabelle 13, 14 e 15 riportano i cinque termini candidati più frequenti
ottenuti con il metodo sopra descritto:
Posizione Unigramma Bigramma Trigramma 1 malattia Midollo osseo Intervento chirurgico
sistematico 2 sede Condizione
morbosa Tessuti sottostanti profondi
3 cellule Complicazione antepartum
Leucemia linfoblastica acuta
4 tipo D. g. sanità Sindrome di malattia 5 sindrome Sanità elenco Trapianto di midollo
Tabella 13: I 5 candidati più frequenti (italiano)
Posizione Unigramma Bigramma Trigramma 1 Patienten Weiße
Blutkörpchen Akute lymphatische Leukämie
2 Therapie Rote Blutkörpchen
Inaktive entzündlich-rheumatischen Erkrankung
3 Zellen Akute Leukämie Aktive entzündlich-rheumatischen Erkrankung
4 Leukämie Innere Medizin Akute myeloische Leukämie 5 Behandlung Peripheres Blut Kleine graue Zellen
Tabella 44: I 5 candidati più frequenti (tedesco)
Posizione Unigramma Bigramma Trigramma 1 leukemia blood cell acute lymphoblastic leukemia 2 cell leukemia cell bone marrow transplantation 3 blood side effects acute myeloid leukemia 4 patient red blood central nervous system 5 marrow clinical trial acute lymphocytic leukemia
Tabella 15: I 5 candidati più frequenti (inglese)
Le seguenti tabelle riportano i risultati finali dell’estrazione eseguita
con il metodo sopra descritto. Nella prima colonna sono riportate le categorie
della tassonomia proposta in 6.3., nella seconda il numero di termini estratti
assegnati a ciascuna categoria, nella terza il valore percentuale ottenuti nelle
varie categorie e nell’ultima il valore di recall (v. ): Recall e precision
Tassonomia Termini estratti % Recall 1 13 3,68 9,56
49
Estrazione terminologica per interpreti di conferenza Capitolo VII
Tassonomia Termini estratti % Recall 2 85 24,08 3 201 56,94 4 30 8,5 5 24 6,8
Tot. 353 100 Tabella 16: Risultati estrazione italiano
Tassonomia Termini estratti % Recall 1 50 15,01 32,64 2 145 43,54 3 78 23,42 4 35 10,51 5 25 7,5
Tot. 333 99,98 Tabella 17: Risultati estrazione tedesco
Tassonomia Termini estratti % Recall 1 48 15,14 30,97 2 139 43,85 3 87 27,44 4 30 9,46 5 13 4,1
Tot. 317 99,99 Tabella 18: Risultati estrazione inglese
50
Estrazione terminologica per interpreti di conferenza Capitolo VIII
Capitolo VIII
Estrazione terminologica con BootCaT(corpus)
Il tool BootCaT(corpus)
L'estrazione dei termini candidati dal corpus di riferimento manuale è
stata realizzata seguendo la stessa procedura, script e comandi utilizzati per
BootCaT con l’unica differenza che in questo caso il corpus analizzato non è
stato creato ad hoc dalla rete, utilizzando le funzioni caratteristiche di
BootCaT, ma impiegando il corpus raccolto manualmente (v.
).
Caratteristiche
dei corpora specialistici
I risultati
Nel tentativo di rendere il più omogeneo possibile il confronto fra le
varie metodologie analizzate nella presente tesi si è fatto in modo che anche in
questa estrazione non si superasse la soglia di 400 termini canditati.
Le Tabelle 19, 20 e 21 riportano i cinque termini candidati più frequenti
ottenuti con il metodo sopra descritto:
Posizione Unigramma Bigramma Trigramma 1 paziente cellula
leucemica leucemia linfoblastica acuta
2 protocollo remissione completa
trapianto di midollo
3 rischio midollo osseo terapia di supporto 4 terapia sangue
periferico leucemia linfatica acuta
5 fase effetti collaterali leucemia del bambino Tabella 59: I 5 candidati più frequenti (italiano)
Posizione Unigramma Bigramma Trigramma
51
Estrazione terminologica per interpreti di conferenza Capitolo VIII
Posizione Unigramma Bigramma Trigramma 1 Patient Multizentrische
Therapiestudie Akute lymphatische Leukämie
2 Therapie Ergänzter Stand Akute lymphoblastische Leukämie
3 Studie Ungefärbte km-ausstriche
Residuelle leukämische Zellen
4 Protokoll Peripheres Blut Kleine graue Zelle 5 Leukämie Wichtigste
Nebenwirkungen Erste komplette Remission
Tabella 60: I 5 candidati più frequenti (tedesco)
Posizione Unigramma Bigramma Trigramma 1 patient Bone marrow acute lymphoblastic leukemia 2 leukemia New window acute lymphocytic leukemia 3 cell Leukemia cell minimal residual disease 4 treatment Induction
therapy top abstract introduction
5 blood b-cell development
acute myeloid leukemia
Tabella 21: I 5 candidati più frequenti (inglese)
Le seguenti tabelle riportano i risultati finali dell’estrazione eseguita
con il metodo sopra descritto:
Tassonomia Termini estratti % Recall 1 59 20,34 43,38 2 91 31,38 3 77 26,55 4 57 19,65 5 6 2,07
Tot. 290 99,99 Tabella 22: Risultati estrazione italiano
Tassonomia Termini estratti % Recall 1 53 16,36 33,54 2 139 42,9 3 78 24,07 4 33 10,18 5 21 6,48
Tot. 324 99,99 Tabella 23: Risultati estrazione tedesco
Tassonomia Termini estratti % Recall 1 38 11,34 24,51 2 152 45,37
52
Estrazione terminologica per interpreti di conferenza Capitolo VIII
Tassonomia Termini estratti % Recall 3 91 27,16 4 38 11,34 5 16 4,78
Tot. 335 99,99 Tabella 24: Risultati estrazione inglese
53
Estrazione terminologica per interpreti di conferenza Capitolo IX
Capitolo IX
Estrazione terminologica con Wordsmith
Il tool Wordsmith
Wordsmith è uno dei più diffusi tool per l’analisi di corpora non
annotati. Nel corso dell’esperimento, fra le molteplici funzioni offerte da
questo strumento, sono state utilizzati i moduli WordList e Keyword. La prima
permette di generare una lista dei termini contenuti nel corpus analizzato con le
relative frequenze, mentre la seconda di generare una lista di key word. Mike
Scott (1997:236), il creatore di Wordsmith, definisce il termine key word come
“a word which occurs with unusual frequency in a given text”. Unusual
frequency si riferisce al fatto che un termine può avere una frequenza
insolitamente alta (o bassa) in un determinato corpus rispetto alla sua
ricorrenza in un corpus di riferimento.
La procedura per identificare le key word prevede dunque il confronto
delle frequenze dei vari n-grammi – computate con WordList – del corpus da
analizzare con le frequenze dei medesimi n-grammi ottenute però da un corpus
di riferimento di notevoli dimensioni.
La misura di associazione utilizzata da Wordsmith per la ricerca delle
key word è la Log Likelihood (LL), la quale determinerà, nel linguaggio
utilizzato dal programmatore, Scott, la cosiddetta keyness di ogni termine, cioè
la probabilità che un determinato n-gramma possa essere tipico del dominio
sotto esame.
54
Estrazione terminologica per interpreti di conferenza Capitolo IX
L’estrazione
Il procedimento di base è suddiviso in due fasi. Per prima cosa vengono
computate le liste di parole, le word list, del corpus di riferimento e di quello
da analizzare. Ogni word list contiene tutte le parole presenti nel corpus
elencate secondo la loro frequenza di ricorrenza.
Per poter computare anche le keyword che non siano unigrammi,
Wordsmith offre la possibilità di creare liste di n-grammi. Nel nostro
esperimento si sono indagati unigrammi, bigrammi e trigrammi. Il calcolo dei
bi e trigrammi (cluster) avviene utilizzando la funzione di indicizzazione di
Wordsmith che permette di registrare la posizione di tutte le parole all’interno
del corpus.
Una volta che il corpus è stato indicizzato è possibile computare i
cluster. Prima di effettuare questo calcolo è necessario impostare alcuni
parametri che determineranno le modalità con cui i cluster verranno computati
da Wordsmith:
- “cluster size”, cioè la dimensione degli n-grammi (da 2 a 8).
- “min. frequency”, il numero minimo di ricorrenze per termine che
devono essere considerate.
- “max. frequency percentage”, il valore percentuale al di sopra del quale
le parole non vengono considerate nella computazione degli n-grammi.
Tale funzione permette in pratica di scremare le parole più frequenti che
non si vuole vengano computate.
Nel nostro esperimento si è optato per impostazioni differenti in
relazione al tipo di corpus analizzato. Gli n-grammi dei corpora di riferimento
sono stati calcolati con le seguenti impostazioni di WordList:
- cluster size: 2 e 3
- min. frequency: 1
- max. frequency %: 10
55
Estrazione terminologica per interpreti di conferenza Capitolo IX
L’obiettivo era quello di ottenere un conto di tutti i cluster del corpus di
riferimento, indipendentemente dalla loro frequenza e dalla presenza di parole
ad alta frequenza e quindi non rilevanti (articoli, congiunzioni, ecc.).
Il calcolo dei cluster nei corpora specialisti è stato effettuato con i
seguenti parametri:
- cluster size: 2 e 3
- min. frequency: 3
- max. frequency %: 0,1
L’obiettivo era quello di diminuire il più possibile il rumore,
generalmente alto in quanto il procedimento non offre altre modalità di filtro se
non quelle di tipo statistico, anche a scapito di un certo silenzio (n-grammi con
una ricorrenza inferiore a 3).
Al termine di questa procedura si sono ottenute per ogni lingua 6 word
list: 3 relative al corpus di riferimento (1,2,3-grammi) e 3 relative al corpus
specialistico (1,2,3-grammi).
Nella seconda fase le liste così ottenute sono state confrontate con il
tool Keyword. Appare chiaro che l’identificazione dei termini candidati con
questa metodologia avviene sulla base di un processo puramente meccanico
che si fonda sul confronto di due pattern di frequenza. Ma come sostengono
Ahmad e Roger:
Computing the ‘ratio’ of word forms in special-language and general-language
texts also allows a provisional distinction to be made between general-
language open-class words on the one hand, and special-language open-class
words on the other, i.e., term candidates.
(2001:744)
Le dimensioni dei corpora specialistici e di quelli di riferimento sono
riportate nella seguente tabella:
56
Estrazione terminologica per interpreti di conferenza Capitolo IX
Corpus speciale Corpus di riferimento Italiano 108.016 3.288.496 Tedesco 88.855 3.109.525 Inglese 286.176 3.388.390
Tabella 25: Dimensioni dei corpora specialistici e di riferimento
Come è possibile notare dai dati di tabella 25, i corpora di riferimento
hanno una dimensione superiore rispetto a quelli speciali. Ad oggi non esiste
uno studio che attesti quale sia la migliore proporzione fra le dimensioni dei
due corpora a confronto. Diversi esperimenti effettuati nel corso di questa tesi
hanno dimostrato che con corpora di riferimento di dimensioni molto maggiori
(fino a 15 milioni di parole) i risultati non cambiano sostanzialmente. Questa
nostra constatazione è in linea con quanto osservato da Smith (1997: 244)
secondo il quale «results are quite similar even if the reference corpus is
altered».
I risultati
Anche in questo caso per essere consistenti con gli altri esperimenti si è
rispettata la scelta di non superare la soglia di 400 termini candidati.
Nelle seguenti tabelle sono riportate le prime 5 key word trovate con il
metodo sopra descritto:
Posizione Unigramma Bigramma Trigramma 1 pazienti Aspirato
midollare Sopravvivenza libera da
2 MG Alte dosi Via di somministrazione 3 terapia Dello studio Trapianto di midollo 4 LLA Effetti
collaterali Fasce di rischio
5 cellule Globuli bianchi Conservazione temperatura ambiente
Tabella 26: Le prime 5 keyword trovate (italiano)
Posizione Unigramma Bigramma Trigramma 1 Patienten Et al Akute lymphatische Leukämie 2 Therapie Akuter
lynphatischer Rezidivierter akuter lymphatischer
57
Estrazione terminologica per interpreti di conferenza Capitolo IX
Posizione Unigramma Bigramma Trigramma 3 Tag Gabe von Multizentrische therapiestudie
therapie 4 Studie Lymphatische
Leukämie Ergänzter Stand von
5 MG Rezidiver Akuter
Akute lymphatische Leukämie
Tabella 27: Le prime 5 keyword trovate (tedesco)
Posizione Unigramma Bigramma Trigramma 1 Leukemia Children with Childhood acute lymphoblatic 2 Patients Et al Abstract full text 3 Lymphoblatic Bone marrow Window in a 4 acute Childhood acute Children with acute 5 cell Leukemic cells Event free survival
Tabella 28: Le prime 5 keyword trovate (inglese)
Le seguenti tabelle riportano i risultati ottenuti con il metodo sopra
descritto:
Tassonomia Termini estratti % Recall 1 44 12,83 32,35 2 87 25,36 3 70 20,41 4 53 15,45 5 89 25,95
Tot. 343 100 Tabella 29: Risultati estrazione italiano
Tassonomia Termini estratti % Recall 1 46 13,81 29,11 2 84 25,22 3 60 18,02 4 53 15,91 5 90 27,03
Tot. 333 99,99 Tabella 30: Risultati estrazione tedesco
Tassonomia Termini estratti % Recall 1 30 8,29 19,35 2 112 30,94 3 48 13,26 4 43 11,88 5 129 35,63
Tot. 362 100 Tabella 31: Risultati estrazione inglese
58
Estrazione terminologica per interpreti di conferenza Capitolo X
Capitolo X
Estrazione con Terminology Wizard
Il tool Terminology Wizard
Terminology Wizard è il sistema di gestione terminologica sviluppato
da Synthema che “allows professional translators to automatically extract
relevant terminology from their documents and easily create project-oriented
bilingual dictionaries.”
Terminology Wizard è una piattaforma per la gestione terminologica
con una struttura aperta in grado di integrarsi ai più diffusi CAT tool. Il
software è stato disegnato per i traduttori e per essere utilizzato con i software
di traduzione assistita. Per questo motivo il pacchetto prevede molte altre
funzionalità oltre a quella di estrazione dei termini candidati: creazione e
gestione di glossari bilingui, manutenzione delle memorie traduttive,
interazione con i CAT tool. Anche se alcune delle altre funzioni offerte da TW
potrebbero essere di interesse anche per l’interprete, nella nostra analisi ci
siamo limitati alla valutazione del sistema di estrazione terminologica.
Il funzionamento
Il modulo di estrazione terminologica prevede l’estrazione automatica
della terminologia specialistica secondo principi linguistici e statistici. L’utente
è chiamato ad impostare soltanto due parametri: i pattern morfosintattici dei
termini da estrarre e la frequenza minima di ricorrenza dei singoli termini. Una
volta caricato il corpus da analizzare viene visualizzata una finestra nella quale
è possibile confermare i valori di default preimpostati dai programmatori
oppure creare dei nuovi template che contemplino altri pattern morfosintattici o
altre frequenze di ricorrenza.
59
Estrazione terminologica per interpreti di conferenza Capitolo X
Dopo aver ripulito il corpus da tutti i tag di formattazione un parser
effettua la segmentazione dei testi su file di diversi formati. L’analizzatore
morfologico riconduce le forme presenti nel testo (e appartenenti al lessico
conosciuto) a tutte le sue possibili forme base. Sul testo così annotato il sistema
verifica la presenza dei pattern morfologici specificati nelle regole definite
dall’utente (Mattesati, comunicazione personale).
A differenza di tutti i sistemi finora testati, Terminology Wizard non
“conosce” il dominio che sta esaminando (Mattesati, comunicazione
personale). Se gli altri sistemi, operando un confronto fra un corpus di
riferimento generale e quello specializzato, individuano i termini tipici del
dominio sotto esame e per così dire vengono a conoscenza del dominio del
corpus da analizzare, Terminology Wizard non effettua questa operazione. Il
risultato sarà con molta probabilità la presenza nelle liste di termini candidati di
termini generici non appartenenti ad alcun dominio particolare
(v. ). Normalizzazione dei risultati
Utilizzando degli analizzatori morfosintattici, quindi legati alle lingue
di lavoro, il numero di lingue per cui è possibile operare l’estrazione è limitato
alle seguenti: italiano, tedesco, inglese, francese, spagnolo e portoghese. I testi
che costituiscono il corpus possono essere in formato file di testo, in RTF (Rich
Text Format) o in formato HTML. Per altri formati, quali il PDF o PPT, è
necessario operare la loro conversione in un formato supportato da TW in fase
di preparazione del corpus utilizzando ad esempio PDFGrabber®. Oltre a
quelli tradizionali sopra riportati, TW permette di creare corpora utilizzando
file nei seguenti formati: Trados Nomatch, IBM Translation Manager
Nomatch, Transit segmented file, IBM Translation Manager (EXP), Trados
(TXT) e Transit.
Un’altra caratteristica molto interessante della versione 3.0 di
Terminology Wizard è quella della creazione di glossari in modo
semiautomatico da corpora bilingue.
60
Estrazione terminologica per interpreti di conferenza Capitolo X
L’estrazione
Il procedimento per estrarre i termini candidati da un corpus è
estremamente facile e veloce. Dopo avere caricato il corpus da analizzare con
la funzione di importazione si impostano i parametri riportati in 5.1. Per
permettere un confronto il più autentico possibile con gli altri sistemi di
estrazione terminologica analizzati nel corso di questo studio, si è optato per gli
stessi pattern morfosintattici utilizzati per l’estrazione con BootCaT:
Italiano Tedesco Inglese N+ADJ+ADJ ADJ+ADJ+N ADJ+ADJ+N
N+ADJ ADJ+N ADJ+N N N N
N+N N+N N+PRE+N N+N+N
Tabella 32: Pattern per l’estrazione con Terminology Wizard.
La frequenza minima dei termini estratti da presentare nella lista finale
dei termini candidati è stata scelta con il solo criterio di rientrare nel valore
massimo di 400 termini stabilito come soglia massima da rispettare per tutti i
metodi di estrazione.
I risultati
Nella seconda colonna sono riportati i numeri di termini estratti
assegnati a ciascuna categoria, nella terza il valore percentuale ottenuti nelle
varie categorie e nell’ultima il valore di recall (v. ): Recall e precision
Tassonomia Termini estratti % Recall 1 38 9,87 27,94 2 72 18,70 3 75 19,48 4 127 32,99 5 73 18,96
Tot. 385 100 Tabella 33: Risultati estrazione italiano
61
Estrazione terminologica per interpreti di conferenza Capitolo X
Tassonomia Termini estratti % Recall 1 24 6,67 15,19 2 51 14,17 3 79 21,94 4 77 21,39 5 129 35,83
Tot. 360 100 Tabella 34: Risultati estrazione tedesco
Tassonomia Termini estratti % Recall 1 29 7,75 18,71 2 133 35,56 3 85 22,72 4 51 13,64 5 76 20,32
Tot. 374 100 Tabella 35: Risultati estrazione inglese
62
Estrazione terminologica per interpreti di conferenza Capitolo XI
Capitolo XI
Analisi dei risultati
Eseguite tutte le estrazioni terminologiche previste nel nostro studio, si
sono effettuate alcune analisi dei risultati raccolti con l’obiettivo di poter
ricondurre ad un unico minimo comune denominatore le possibili
interpretazioni di tali dati, onde sfuggire a facili valutazioni soggettive e ambire
al più alto grado di oggettività possibile. Proprio a questo fine i risultati
vengono qui presentati considerando tutte le possibili costellazioni
interpretative: dalla valutazione secondo le cinque categorie della tassonomia
più generale, quella di primo livello, passando per quella del valore di recall,
che determina la qualità dei sistemi sulla base del confronto con il glossario
compilato manualmente, alla valutazione secondo le tassonomie di secondo
livello, atte a valutarne la fruibilità secondo le diverse esigenze dell’utilizzatore
finale. Concluderà quest’analisi un approccio contrastivo tra l’estrazione
effettuata su un corpus compilato manualmente e quella su un corpus creato
automaticamente dal web.
Valutazione secondo la tassonomia di primo livello
Le Tabelle 36, 37 e 38 riportano per ogni lingua le percentuali dei
termini estratti espressi secondo la classificazione a cinque categorie esposta
nel cap. (1- termini contenuti nel glossario di
riferimento; 2- termini specialistici afferenti al dominio esaminato ma non
individuati nell’estrazione manuale; 3- termini medici generali; 4- termini ben
formati ma generici; 5- termini scorretti).
Tassonomia di primo livello
Tassonomia BootCaT (web)
BootCaT (corpus)
Terminology Wizard Wordsmith
1 3,68 20,34 9,87 12,83
63
Estrazione terminologica per interpreti di conferenza Capitolo XI
Tassonomia BootCaT BootCaT Terminology Wizard Wordsmith (web) (corpus)
2 24,08 31,38 18,70 25,36 3 56,94 26,55 19,48 20,41 4 8,5 19,65 32,99 15,45 5 6,8 2,07 18,96 25,94
Tabella 36: Risultati percentuali relativi all’italiano
Tassonomia BootCaT (web)
BootCaT (corpus)
Terminology Wizard Wordsmith
1 15,01 16,36 6,67 13,81 2 43,54 42,9 14,17 25,22 3 23,42 24,07 21,94 18,22 4 10,51 10,18 21,39 15,91 5 7,5 6,48 35,83 27,03
Tabella 37: Risultati percentuali relativi al tedesco
Tassonomia BootCaT (web)
BootCaT (corpus)
Terminology Wizard Wordsmith
1 15,14 11,34 7,75 8,29 2 43,85 45,37 35,56 30,94 3 27,44 27,16 22,72 13,26 4 9,46 11,34 13,64 11,88 5 4,1 4,78 20,32 35,63
Tabella 38: Risultati percentuali relativi all’inglese
Innanzitutto è opportuno formulare alcune considerazioni di carattere
generale sui valori qui riportati. Come risulta evidente osservando le tabelle, i
valori per le diverse lingue, tranne poche eccezioni, risultano molto omogenei.
Considerando ad esempio la categoria 1, cioè i termini estratti dal sistema
informatico presenti anche nel glossario di riferimento, troviamo che:
- TW ottiene rispettivamente i seguenti valori percentuali: 9,87% per
l’italiano, 6,67% per il tedesco e 7,75% per l’inglese;
- BootCaT(corpus) ottiene: 20,34% per l’italiano, 16,36% per il tedesco e
11,34% per l’inglese;
- Wordsmith ottiene: 12,83% per l’italiano, 13,81% per il tedesco e
8,29% per l’inglese.
Comparando anche i valori delle altre categorie, si può notare che
questa tendenza è costante per tutti i risultati ottenuti. Ciò sembra suggerire che
64
Estrazione terminologica per interpreti di conferenza Capitolo XI
i risultati delle estrazioni non sono influenzati significativamente dalla lingua
del corpus e che tali sistemi si possano applicare con esiti analoghi
indipendentemente dalla lingua, quantomeno per le lingue oggetto di questa
ricerca.
Alla luce di questa considerazione è possibile ricavare alcune
indicazioni di fondo osservando la distribuzione dei risultati, calcolati secondo
la media delle prestazioni ottenute nelle diverse lingue, riportati nel grafico 1.
La curva dell’andamento in relazione alle cinque categorie permette di
suddividere i sistemi di estrazione terminologica in due gruppi. Se è vero che i
termini di categoria 1, 2 e 3 sono “desiderabili” mentre quelli di categoria 4 e 5
costituiscono il “rumore”, allora il sistema BootCaT (in entrambe le sue
configurazioni) è l’unico che presenta una curva “in discesa”, una curva cioè
che tende a diminuire se ci si muove verso le categorie di livello inferiore. A
questo proposito è necessario sottolineare che i termini di cat. 1 e 2
appartengono, per quanto riguarda la qualità del termine, alla medesima fascia
e che quindi la curva positiva tra il valore 1 e 2 non scredita la valutazione
appena presentata.
0
5
10
15
20
25
30
35
40
45
1 2 3 4 5
BootCaT(web) BootCaT(corpus-man)TerminologyWizard WordSmith
Grafico 1: Andamento dei risultati medio (espresso in percentuale)
65
Estrazione terminologica per interpreti di conferenza Capitolo XI
Valutazione secondo i valori di recall
Come introdotto nel capitolo 6.1., uno dei principi su cui si fonda la
valutazione euristica dei sistemi di estrazione terminologica utilizzati in questa
ricerca è quello del confronto fra i vari valori di recall ottenuti, cioè il rapporto
percentuale fra i termini estratti presenti nel glossario di riferimento e il
numero totale di termini presenti nel glossario di riferimento. La seguente
tabella riassume i valori calcolati per ciascun sistema e lingua:
Italiano Tedesco Inglese BootCaT(web) 9,56 32,64 30,97 BootCaT(corpus) 43,38 33,54 24,51 Terminology Wizard 27,94 29,11 19,35 Wordsmith 32,35 15,19 18,71
Tabella 39: Valori percentuali di recall
Il valore più alto di recall è quello ottenuto con BootCaT sul corpus
italiano compilato manualmente (43,38 %), il più basso invece è quello
ottenuto con BootCaT, sempre per la lingua italiana, ma con il corpus creato
automaticamente dal web.
Considerando soltanto i sistemi di estrazione che operano su corpora
compilati manualmente è possibile stilare una classifica, riportata nella Tabella
40, che esprime la precisione con cui tali sistemi hanno estratto la terminologia
contenuta nel glossario di riferimento. Tale classifica si basa sulla media dei
risultati ottenuti nelle diverse lingue. Si tratta soltanto di uno degli aspetti
riguardanti la qualità di un software di ET, ma è certamente adatto ad
esprimere un’indicazione generale sulla sua qualità.
Sistema di ET 1 BootCaT(corpus) 2 Terminology Wizard 3 Wordsmith
Tabella 40: Classifica secondo il recall dei sistemi di ET con corpus manuale
La Tabella 41 riporta invece la classifica, sempre sulla base del valore
di recall, di tutti i sistemi utilizzati senza fare differenziazioni tra quelli che
66
Estrazione terminologica per interpreti di conferenza Capitolo XI
utilizzano un corpus compilato manualmente – BootCaT(corpus), Terminology
Wizard e Wordsmith – e BootCaT che utilizza il web come corpus.
Sistema di ET 1 BootCaT(corpus) 2 BootCaT(web) 3 Terminology Wizard 4 Wordsmith
Tabella 41: Classifica secondo i valori di recall di tutti i sistemi di ET
È interessante notare la posizione raggiunta da BootCaT(web) che, pur
non utilizzando un corpus preparato manualmente e quindi tendenzialmente più
affidabile, ottiene risultati migliori rispetto ai suoi concorrenti commerciali.
Questa classificazione permette di avanzare una prima ipotesi: visto che
BootCaT, indipendentemente dalla sua configurazione, occupa i primi due
posti, possiamo affermare che il suo modulo di estrazione della terminologia è
più efficiente rispetto a quelli di Terminology Wizard e di Wordsmith, o
meglio che esso permette di ottenere risultati molto simili a quelli estratti da un
terminologo umano. Una valutazione più esaustiva potrà però essere formulata
solo valutando i risultati raggruppati secondo le tassonomie di secondo livello.
Valutazione secondo le tassonomie di secondo livello
Analizzate le caratteristiche dei risultati secondo le cinque categorie
della tassonomia generale e secondo i valori di recall è opportuno valutare i
sistemi tenendo in considerazioni le effettive prestazioni dei singoli sistemi per
quanto riguarda l’estrazione della terminologia specialistica e, come visto nel
cap. , secondo le esigenze dei fruitori finali. Per
adempiere a questo compito impieghiamo, come illustrato nei capp.
e , le due
tassonomie T2a (termini specialistici del dominio di studio) e T2b (termini
specialistici del dominio di studio e termini medici generici).
Tassonomie di secondo livello
Tassonomie di secondo livelloTassonomia di primo livello
Per prima cosa è opportuno concentrare l’attenzione sui valori positivi –
positivi, poiché parlano a favore della qualità dei sistemi – A1 e A2. Le Tabelle
67
Estrazione terminologica per interpreti di conferenza Capitolo XI
42, 43 e 44 riportano i valori di recall (v. ) riferiti alla
tassonomia T2a e T2b delle varie estrazioni:
Recall e precision
Recall e precision
BootCaT (web)
BootCaT (corpus)
Terminology Wizard Wordsmith
A1 27,76 51,03 28,05 37,61 A2 84,70 78,27 48,05 58,6
Tabella 42: A1 e A2 a confronto, italiano
BootCaT (web)
BootCaT (corpus)
Terminology Wizard Wordsmith
A1 58,55 59,26 20,84 39,03 A2 81,97 83,33 42,78 57,05
Tabella 43: A1 e A2a confronto, tedesco
BootCaT (web)
BootCaT (corpus)
Terminology Wizard Wordsmith
A1 58,99 56,71 43,31 39,23 A2 86,43 83,87 66,03 52,49
Tabella 44: A1 e A2 a confronto, inglese
Anche con questa rappresentazione dei risultati appare evidente che
muovendosi fra le varie lingue, ad esclusione del caso di BootCaT per la lingua
italiana, gli esiti risultino molto omogenei. Nella categoria A1, i termini medici
specialistici, il miglior risultato assoluto è stato ottenuto dal metodo
BootCaT(corpus) sul tedesco, dove il valore di precision ha raggiunto il
59,26%.
Risultati analoghi sono stati ottenuti da BootCaT(web) sia nel caso del
tedesco (58,55%), sia nel caso dell’inglese, dove, con il 58,99%, è risultato
essere il sistema con il più alto valore di recall relativo a questa lingua.
Nella categoria A2, termini medici generali e specialistici, il valore di
recall più alto è stato raggiunto dal sistema BootCaT – inglese, con il 86,43%.
Un attento esame dei valori di A2 sembra confermare inoltre la nostra tesi
(v. ) secondo la quale i risultati delle estrazioni non sono
influenzate dalla lingua del corpus.
È così possibile stilare quattro nuove classifiche che tengano conto dei
risultati medi ottenuti. Le prime due riguardano l’estrazione da corpora
68
Estrazione terminologica per interpreti di conferenza Capitolo XI
compilati manualmente. Nel primo caso (Tabella 45) si è tenuto conto dei soli
termini specialistici mentre nel secondo (Tabella 46) sia di termini specialistici
sia di termini medici generici. Le due successive tabelle riguardano invece sia
le estrazioni da corpora manuali sia quelle che utilizzano il web come corpus.
Ancora una volta nel primo caso (Tabella 47) si considerano i soli termini
specialistici mentre nel secondo (Tabella 48) sia i termini specialistici sia quelli
medici generici.
Sistema di ET 1 BootCaT(corpus) 2 Wordsmith 3 Terminology Wizard
Tabella 45: Classifica: estrazione termini specialistici da corpus manuale
Sistema di ET 1 BootCaT(corpus) 2 Wordsmith 3 Terminology Wizard
Tabella 46: Classifica: estrazione termini specialistici+medici generici da corpus manuale
Sistema di ET 1 BootCaT(corpus) 2 BootCaT(web) 3 Wordsmith 4 Terminology Wizard
Tabella 47: Classifica: estrazione termini specialistici da corpus manuale e da web
Sistema di ET 1 BootCaT(web) 2 BootCaT(corpus) 3 Wordsmith 4 Terminology Wizard
Tabella 48: Classifica: estrazione termini specifici+medici generici da corpus manuale e da web
Ancora una volta, come nel caso del confronto sulla base dei valori di
recall, è possibile notare che i risultati migliori relativi all’estrazione di
terminologica specialistica, sia relativa esclusivamente al dominio specifico
(leucemia), sia al dominio più generale (medicina), sono stati ottenuti dal
metodo BootCaT in entrambe le sue configurazioni. Nella ricerca della
terminologia medica generale e specifica i risultati più incoraggianti si sono
69
Estrazione terminologica per interpreti di conferenza Capitolo XI
attenuti utilizzando il web come corpus, quindi la configurazione completa di
BootCaT.
Il grafico (2) raffigura l’andamento medio dei valori A1 e A2 nei vari
sistemi:
0102030405060708090
A1 A2
BootCaT(Web)BootCaT(corpus-man)TerminologyWizardWordSmith
Grafico 2: Valori medi secondo le categorie: terminologia specialistica (A1) e
terminologia specialistica + terminologia medica generale (A2)
I risultati ottenuti con BootCaT(web) – secondo posto nella categoria
A1 e primo in quella A2 – sono interessanti per un duplice motivo. Innanzitutto
per il fatto che tali piazzamenti si siano ottenuti nonostante il risultato scadente
avuto nell’estrazione con l’italiano, che ha comunque pesato notevolmente sul
risultato globale. Inoltre perché non bisogna dimenticare che BootCaT
provvede a costruire il corpus da analizzare in maniera completamente
automatica. Ciò significa che risultati analoghi – e molto spesso migliori, come
nel caso della terminologia medica generica e specifica (Leucemia
linfoblastica) – si possono ottenere senza il dispendio di lavoro necessario a
raccogliere i corpora manualmente.
Se da un lato è vero che un sistema è valutato positivamente se i termini
utili estratti sono il maggior numero possibile, è anche vero che la sua fruibilità
aumenta se il numero di termini di disturbo è il più basso possibile.
Parallelamente a quanto appena evidenziato per i valori positivi A1 e A2 è
pertanto interessante analizzare i valori dei termini considerati di disturbo, B1 e
B2, di quei termini cioè che non si desidererebbe avere fra la rosa dei candidati
proposta dai vari sistemi.
70
Estrazione terminologica per interpreti di conferenza Capitolo XI
BootCaT (web)
BootCaT (corpus)
Terminology Wizard Wordsmith
B1 72,24 48,96 71,95 62,39 B2 15,30 21,74 51,89 41,40
Tabella 49: B1 e B2 a confronto, italiano
BootCaT (web)
BootCaT (corpus)
Terminology Wizard Wordsmith
B1 41,43 40,73 79,16 61,02 B2 18,01 16,66 57,22 42,94
Tabella 50: B1 e B2 a confronto, tedesco
BootCaT (web)
BootCaT (corpus)
Terminology Wizard Wordsmith
B1 41,00 43,28 56,68 60,77 B2 13,56 16,12 33,96 47,51
Tabella 51: B1 e B2 a confronto, inglese
Se si considerano i risultati riportati nelle tabelle 49, 50 e 51, i sistemi
che presentano i valori più bassi di rumore sono come era del resto prevedibile
BootCaT e BootCaT(corpus).
Alto appare invece il rumore ottenuto con i sistemi commerciali. I
problemi più grossolani si possono riassumere con due considerazioni. La
caratteristica sicuramente negativa delle liste di termini candidati prodotta da
Terminology Wizard è quella di riportare anche parole non inerenti al dominio
interessato o parole che normalmente vengono considerate stop word, parole
generiche come preposizioni, avverbi, ecc. Benché l’incidenza di questo difetto
non sia estremamente alta, esso contribuisce comunque ad aumentare il valore
dei termini di disturbo e conseguentemente a diminuire il valore della
precision.
Per quanto riguarda Wordsmith è necessario notare che le più grandi
difficoltà sono state riscontrate nell’estrazione di termini complessi. Poiché il
software non prevede alcuna analisi morfologica del testo, l’estrazione avviene
esclusivamente sulla base dei valori delle misure di associazione, non applicate
a singole parole, ma a bigrammi o trigrammi che vengono considerati come se
fossero parole composte da un unico elemento. Pur avendo utilizzato corpora di
riferimento di dimensioni notevoli, il procedimento risulta essere troppo
71
Estrazione terminologica per interpreti di conferenza Capitolo XI
grossolano per ottenere, almeno per i termini composti, dei risultati
soddisfacenti.
Alcuni confronti fra BootCaT(web) e BootCaT(corpus)
Poiché il sistema di estrazione terminologica utilizzato in questi due
casi è il medesimo (v. ), il confronto dei risultati ottenuti con i due
corpora, quello realizzato manualmente e quello realizzato con BootCaT(web),
permette di fare alcune considerazioni generali sul tool BootCaT e in particolar
modo sull’utilizzo del web come corpus.
BootCaT
Una prima analisi può essere effettuata confrontando i valori di recall,
cioè delle percentuali di termini estratti dal sistema che sono contenuti nel
glossario di riferimento. Come si può notare dalla Tabella 52, i risultati offrono
uno scenario abbastanza complesso.
Italiano Tedesco Inglese BootCaT(web) 9,56 32,64 30,97 BootCaT(corpus) 43,38 33,54 24,51
Tabella 52: Confronto risultati recall ottenuti con BootCaT utilizzando sia il corpus manuale sia il web come corpus
Nel caso dell’italiano il numero di termini contenuti nel glossario di
riferimento estratti automaticamente con BootCaT(web) sono soltanto 11, pari
a 9,56 %. Assai più incoraggianti invece i risultati ottenuti per le lingue tedesca
ed inglese (rispettivamente 32,64% e 30,97%). Se per il tedesco i valori di
recall sono praticamente uguali sia con BootCaT(web) che con il metodo
BootCaT(Corpus), per l’inglese il risultato ottenuto con il corpus ricavato
direttamente dal web è addirittura migliore. Se ne deduce che in almeno due
casi su tre e indipendentemente dal metodo di estrazione che, come
sottolineato, è lo stesso sia per l’estrazione da corpus manuale sia da web, i
risultati ottenuti con un corpus creato automaticamente dal web risultano
analoghi, nel caso del tedesco, o addirittura migliori, nel caso dell’inglese, di
quelli ottenibili con un corpus costruito manualmente.
72
Estrazione terminologica per interpreti di conferenza Capitolo XI
Come riportato nella tabella 41 (v.
) i risultati medi di recall avevano visto al primo posto della classifica fra
i vari sistemi di estrazione BootCaT(corpus) e al secondo BootCaT con corpus
raccolto automaticamente dal web. Questo risultato ci permette di proporre una
considerazione generale sul rapporto fra questi due tipi di corpora: visto che
BootCaT(corpus) ha una valore di recall medio, calcolato cioè contando le
estrazioni effettuate per tutte le lingue, superiore a quello di BootCaT(web),
possiamo affermare che l’estrazione da corpus preparato manualmente
permette in generale di raggiungere risultati migliori rispetto a quelli ottenibili
utilizzando il web come fonte di raccolta non supervisionata del corpus. Questo
risultato non è sorprendente se si tiene conto del fatto che il corpus
specialistico compilato manualmente dal terminologo è di qualità
estremamente elevata e presenta le caratteristiche più congeniali all’estrazione
terminologica manuale (scelta dei testi, restrizione del dominio, ecc.).
Valutazione secondo i valori di
recall
Quest’ultima affermazione deve però essere relativizzata alla luce dei
valori singoli di recall ottenuti per le varie lingue e riportati in Tabella 52. Si
può infatti notare che la differenza sostanziale a svantaggio del web come
corpus, come sottolineato in precedenza, è da ricondurre al solo risultato
negativo ottenuto nell’estrazione italiana. Un risultato per questa lingua in linea
che gli altri due avrebbe infatti ribaltato il risultato qui esposto a favore del
sistema basato sul web.
Tre estrazioni, viste le tante variabili in gioco, sono statisticamente
poche per poter prevedere con certezza il comportamento di BootCaT nel caso
di altre estrazioni in domini di diversa natura e in altre lingue. Visti i risultati
fin qui ottenuti appare quindi azzardato affermare che i risultati ottenibili con il
web come corpus siano in assoluto migliori o peggiori rispetto a quelli
raggiungibili con un corpus manuale. Risulta perciò auspicabile una serie di
esperimenti che mirino proprio alla verifica di queste variabili.
In questa fase è però certamente possibile e interessante cercare di
capire le cause che hanno determinato un valore così basso di recall per la
lingua italiana, l’estrazione che apparentemente costituisce l’eccezione nella
73
Estrazione terminologica per interpreti di conferenza Capitolo XI
rosa dei risultati fin qui ottenuti con BootCaT. Un punto di partenza può essere
il confronto della distribuzione dei termini all’interno delle varie categorie
descritte in precedenza.
Italiano Tedesco Inglese BootCaT(web) 24,64 43,54 43,85 BootCaT(corpus) 32,41 42,9 43,75
Tabella 53: Confronto dei risultati di categoria 2
Italiano tedesco inglese BootCaT(web) 56,94 23,42 27,44 BootCaT(corpus) 27,24 24,07 27,16
Tabella 54: Confronto dei risultati di categoria 3
Se si confrontano i vari risultati per i termini classificati come 1, 2 e 3 si
può notare come le percentuali relative all’inglese e al tedesco in entrambi i
metodi siano molto simili e come allo stesso tempo i valori riguardanti
l’italiano differiscano consistentemente. Osservando la distribuzione all’interno
delle varie categorie per la lingua italiana è possibile constatare che la
percentuale maggiore di termini estratti rientra nella categoria 3, cioè nei
termini medici generici. La prima ipotesi formulabile è che il corpus italiano
ottenuto con BootCaT sia meno specialistico rispetto a quello tedesco ed
inglese. Ciò spiegherebbe il valore basso di recall ottenuto e il perché la
maggior parte dei termini non siano di natura specialistica (per l’italiano la
somma delle categorie 1 e 2, cioè i termini specialistici, è inferiore al 33,23 %).
Il fatto che si sia ottenuto un corpus apparentemente meno specialistico
sottolinea nuovamente l’importanza di approfondire la questione riguardante la
distribuzione del “sapere” nel web, il formato in cui è distribuito, la possibilità
di accedervi, ecc. così da poter “indirizzare” meglio BootCaT nella ricerca dei
testi che andranno a costituire il corpus.
74
Estrazione terminologica per interpreti di conferenza Conclusioni
Conclusioni
Questo lavoro ha avuto come obiettivo principale la valutazione pratica
di alcuni sistemi di estrazione terminologica semi-automatica per poter
determinare se essi possano venire proficuamente utilizzati dall’interprete
professionista nella fase di preparazione ad una conferenza. Sebbene non ci si
sia prefissi l’obiettivo di verificare possibili applicazioni informatiche che
generino glossari bilingue “pronti” all’uso, una realtà che è oggi ancora lontana
dall’essere realizzabile, le liste monolingue ottenute indicano che la qualità dei
termini estratti abbia già raggiunto un livello medio decisamente alto e
comunque tale da poter essere proficuamente utilizzate da parte dell’interprete.
Riassumendo possiamo delineare alcune caratteristiche di fondo emerse
dalla nostra ricerca che possono essere considerate allo stesso tempo punti di
partenza per l’approfondimento del tema trattato:
- l’interprete è generalmente restio all’uso di software informatici
“avanzati”;
- la diffusione di nuovi sistemi, siano essi di estrazione o di gestione
terminologica, appare essere strettamente legata alla semplicità del loro
utilizzo nonché al costo e ai tempi di addestramento;
- l’estrazione terminologica deve sempre essere vista non fine a se stessa
ma in funzione delle esigenze del destinatario finale, l’interprete. Vista
la scarsa attenzione dedicata dalla letteratura specialistica al rapporto
tra interpretazione e terminologia, si auspica in futuro un
approfondimento di questo aspetto, così da permettere di identificare le
caratteristiche di un software per l’estrazione terminologica adatto
all’interprete;
- fra i sistemi utilizzati nel corso di questa ricerca, quello che ha ottenuto
i risultati migliori è BootCaT, sia con l’utilizzo di un corpus manuale,
sia di un corpus generato automaticamente dal web;
75
Estrazione terminologica per interpreti di conferenza Conclusioni
- a fini dell’estrazione terminologica non sono state rilevate differenze
sostanziali tra corpora compilati manualmente e corpora generati
automaticamente dal web;
- il tool BootCaT, in particolare con la sua funzione di generazione
automatica del corpus, permette di ridurre drasticamente il tempo
investito nella ricerca delle informazioni. Potenzialmente potrebbe
pertanto soddisfare al meglio il fabbisogno dell’interprete
professionista, che si trova quasi sempre a combattere con la
componente tempo;
- le conoscenze informatiche dell’utilizzatore richieste da BootCaT,
seppur modeste, devono comunque essere generalmente superiori a
quelle di un utente medio. Ciò certamente non favorisce la diffusione di
questo tool fra un pubblico di non esperti, ai quali l’interprete è
generalmente da ricondurre. Sebbene l’esistenza di script già pronti
non renda necessarie conoscenze specifiche di PERL, risulta comunque
inevitabile dover intervenire nelle linee di comando Unix per
personalizzare ogni tipo di ricerca. Una possibile soluzione potrebbe
essere quella di fornire all’utente, insieme agli script di BootCaT, anche
una serie di righe di comando Unix precompilate in grado di coprire il
maggior numero di richieste da lui formulabili. Prerequisito per poter
utilizzare questo sistema resta in ogni caso un certo grado di
conoscenza del mondo Unix. Conditio sine qua non per una possibile
diffusione di questo metodo fra gli interpreti professionisti appare
perciò essere la realizzazione di un’interfaccia grafica che permetta
all’utente medio di usufruire delle sue molteplici potenzialità senza
dover per forza intraprendere un lungo e dispendioso percorso di
informatizzazione.
- tale interfaccia dovrebbe prevedere anche un concordancer che
permetta all'interprete di prepararsi, linguisticamente e non, partendo
dalla terminologia estratta;
- i due software commerciali hanno raggiunto livelli di precisione
terminologica notevolmente inferiore rispetto a BootCaT;
76
Estrazione terminologica per interpreti di conferenza Conclusioni
- dei due Terminology Wizard è risultato essere il tool sicuramente più
soddisfacente per quanto riguarda la sua semplicità di utilizzo. Possiede
inoltre un concordancer integrato, il ché permette di utilizzare
direttamente i termini estratti come punto di partenza per approfondire
linguisticamente ed extralinguisticamente il tema di studio;
- Wordsmith, a fronte di risultati analoghi a Terminology Wizard ma
anche a fronte di una relativa complessità d'uso, sembra invece essere il
tool che meno si adatta ad essere utilizzato da parte dell’interprete.
77
Estrazione terminologica per interpreti di conferenza Bibliografia
Bibliografia
Ahmad, K. (1994). Language Engineering and the Processing of Specialist
Terminology. http://www.computing.surrey.ac.uk/ai/pointer/paris.html
Ahmad, K. e M. Rogers (2001). “Corpus Linguistics and Terminology
Extraction”. In S.E. Wright G. Budin (2001). 725-760.
Baroni, M. e S. Bernardini (2004). BootCaT: Bootstrapping Corpora and
Terms from the Web. http://sslmit.unibo.it/~baroni/bootcat.html
Bernardini, S. (2000). Competence Capacity Corpora – A study in corpus-
aided language learning. Bologna: CLUEB.
Bordoni, F. (2001). Leucemia Linfoblastica Acuta in Età Pediatrica: Proposta
di Glossario Terminologico Trilingue (Italiano – Tedesco – Inglese). Tesi di
Laurea, SSLiMIT, Bologna
Church, K. e P. Hanks (1990). “Word Association Norms, Mutual Information,
and Lexicography”. Computational Linguistics, 16(1): 22-29.
Déjean, H., E. Gaussier e F. Sadat. (2001). Bilingual terminology extraction:
an approach based on a multilingual thesaurus applicable to comparable
corpora. http://muchmore.dfki.de/pubs/dejean.pdf
Dunnin, T. (1994). “Accurate Methods for the Statistics of Surprise and
Coincidence”. Computational Linguistics 19(1): 61-74.
Evert, S. (2004). Computational Approaches to Collocations.
http://www.collocations.de/software.html
Evert, S. e B. Krenn (2001). “Methods for the Quantitative Evaluation of
Lexical Association Measures”. In Proceedings of the 39th Annual Meeting of
the Association for Computational Linguistics, Toulouse, 188-195.
78
Estrazione terminologica per interpreti di conferenza Bibliografia
Fano, R. (1961). Transmission of Information: A Statistical Theory of
Communications. Cambridge, MA: MIT Press.
Firth, J. R. (1957)."A Synopsis of Linguistic Theory 1930-1955". In F. Palmer
(1968).
Gänsicke, P. (2000). “Die Vorbereitung auf einen Dolmetscheinsatz mit Hilfe
des Internets“. MDÜ, 1/2000, 49-50.
Gile, D. (1995). Basic concepts and models for translator and interpreter
training. Amsterdam/Philadelphia: John Benjamins Publishing Company.
Heid, U. (2001). “Verfahren zur Extraktion von Termkandidaten aus Texten:
Ein Überblick. In F. Mayer (2001). 186-197.
Jacquemin, C. e D. Bourigault (2000). “Term Extraction and Automatic
Indexing”. In R. Mitkov (2000). 599-615
Jones, S. e M. S. Phrasier (1999). “A System for Interactive Document
Retrieval Using Keyphrases”. Proceedings of the 22nd ACM SIGIR Conference
on Research and Development in Information Retrieval.160-167.
Kalina, S., S. Buhl e H. Gerzymisch-Arbogast Hrsg. (2000). Dolmetschen:
Theorie - Praxis - Didaktik. Mit ausgewählten Beiträgen der Saarbrücker
Symposien. St. Ingbert: Röhrig Universitätsverlag.
Krenn, B. (2004). Manual zur Identifikation von Funktionsverbgefügen und
figurativen Ausdrücken in PP-Verb-Listen.
http://www.collocations.de/guidelines/Krenn2000-Guidelines.pdf
Kurz, I. (1996). Simultandolmetschen als Gegenstand der interdisziplinären Forschung. Wien: WUV-Univ. Verlag.
Magris, M., M. T. Musacchio, L. Rega e F. Scarpa a cura di (2002). Manuale
di terminologia. Milano: Hoepli.
79
Estrazione terminologica per interpreti di conferenza Bibliografia
Mayer, F. Hrsg. (2001). Dolmetschen und Übersetzen. Der Beruf im Europa
des 21.Jahrhunderts. Akten des Kongresses des BDÜ – Landesverbandes
Bayern, 23-25 November 2001, München. München: freigang, mauro+reinke.
Mitkov R. (2000). Handbook of Computational Linguistics. Oxford: Oxford
University Press.
Palermo, D. e J. Jenkins (1964). Word Association Norms. Minneapolis:
University of Minnesota Press
Palmer. F. ed. (1968). Selected Papers of J. R. Firth. Harlow: Longman.
Rayson, P. e R. Garside (2000). Comparing corpora using frequency profiling.
http://comp.lancs.ac.uk/computing/users/paul/publications/rg_acl2000.pdf
Rega, L. (2002). “Il termine in un’ottica terminologica plurilingue”. In M.
Magris, M. T. Musacchio, L. Rega e F. Scarpa (2002). 49-57.
Sager, J. (1990). A Practical Course in Terminology Processing.
Amsterdam/Philadelphia: John Benjamins Publishing Company.
Schmidt, H. (1994). Probabilistic part-of-speech tagging using decision trees.
http://www.ims.uni-stuttgart.de/ftp/pub/corpora/tree-tagger1.ps.gz
Scott, M. (1997). “PC Analysis of Key Words — and Key Key Words”.
System, 25, 233-245.
Strehlow, R. A. (2001). “The Role of Terminology in Retrieving Information”.
In S.E. Wright e G. Budin (2001). 426-441.
Tognini Bonelli, E. (2001). Corpus Linguistics at Work.
Amsterdam/Philadelphia: John Benjamins Publishing Company.
Valentini, C. (2002). Uso del Computer in Cabina di Interpretazione. Tesi di
Laurea, SSLiMIT, Bologna
80
Estrazione terminologica per interpreti di conferenza Bibliografia
Vivaldi, J. e H. Rodríguez. (2001). “Improving term extraction by combining
different techniques”. Terminology, 7, 31-47.
Volk, M., A.K. Pantli e A.M. Malka. (2002). The length factor in automatic
bilingual terminology extraction.
http://www.ifi.unizh.ch/CL/volk/papers/Length_factor_Nancy_2002.pdf
Will, M. (2000). “Bemerkungen zum Computereinsatz beim
Simultandolmetschen”. In S. Kalina, S. Buhl e H. Gerzymisch-Arbogast.
(2000). 125 -136.
Wright, S. E. e Budin, G. (1997). Handbook of Terminology Management.
Volume 1: Basic Aspects of Terminology Management.
Amsterdam/Philadelphia: John Benjamins Publishing Company.
Wright, S. E. e Budin, G. (2001). Handbook of Terminology Management.
Volume 2: Basic Aspects of Terminology Management.
Amsterdam/Philadelphia: John Benjamins Publishing Company.
81
Estrazione terminologica per interpreti di conferenza Appendice 1
Appendice 1
Script
Si riporta la procedura completa con la quale si sono eseguite le
estrazioni per il metodo BootCaT, sia utilizzando il web come corpus, sia il
corpus compilato manualmente. Gli script qui riportati si riferiscono
all’estrazione realizzata per il tedesco, ma la procedura vale anche per le altre
lingue. Il simbolo # introduce delle linee di commento:
# Tokenization: we simply split every sequence made of alphabetic characters #+ dashes. Output format is: one token per line. #Notice that here and below we convert everything to lower case. $ perl -ne 's/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print' de02.txt | grep -v "^$" | lc > ref-dt.tok $ wc ref-dt.tok 3109560 3109525 22168833 ref-dt.tok #We convert the seeds to Unix format, we combine them into 20 random #triplets and we search Google for each of these triplets retrieving maximally #20 pager per query. $ perl -ane 's/\r//; print' DT_seeds.txt | build_random_tuples.pl -l 20 | collect_urls_from_google.pl -l German -c 20 -k APIS_KEY - > dt_urls1 #We found 163 pages, but some are duplicates: $ grep -v "CURRENT_SEED" dt_urls1 | grep -v "NO_RESULTS_FOUND" | wc 163 163 10510 $ grep -v "CURRENT_SEED" dt_urls1 | grep -v "NO_RESULTS_FOUND" | sort | uniq | wc 128 128 8247 #Now we retrieve in separate files all the html files, the word/doc files and the #pdf files. $ grep -v "CURRENT_SEED" dt_urls1 | grep -v "NO_RESULTS_FOUND" | sort | uniq | print_pages_from_url_list.pl > html1.txt $ wc html1.txt 34501 199060 1737083 html1.txt $ grep -v "CURRENT_SEED" dt_urls1 | grep -v "NO_RESULTS_FOUND" | sort | uniq | convert_doc_to_text.pl > doc1.txt $ wc doc1.txt 5550 29382 274547 doc1.txt $ grep -v "CURRENT_SEED" dt_urls1 | grep -v "NO_RESULTS_FOUND" | sort | uniq | convert_pdf_to_text.pl > pdf1.txt $ wc pdf1.txt 28395 718018 5543880 pdf1.txt
82
Estrazione terminologica per interpreti di conferenza Appendice 1
$ wc html1.txt doc1.txt pdf1.txt 34501 199060 1737083 html1.txt 5550 29382 274547 doc1.txt 28395 718018 5543880 pdf1.txt 68446 946460 7555510 total #We try to dig out acronyms simply by looking for sequences of all-upper-#case words that are longer than 2 chars and shorter than 5: $ cat html1.txt doc1.txt pdf1.txt | egrep -v "CURRENT URL" | egrep -iv "(http|html|www|mailto|ftp|@|email|search|internet|site|galleries|slideshows|login)" | perl -ne 's/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print' | grep -v "^$" | grep -v "[a-z]" | gawk '$1 ~/[A-Z]/ && length($1)>2 && length($1)<5' | sort | uniq -c | sort -nrk1 > de_acro #Now, on to corpus comparison. We tokenize the specialized corpus using the #same rules as above, plus we try to get rid of typical 'internet' words. $ cat html1.txt doc1.txt pdf1.txt | egrep -v "CURRENT URL" | egrep -iv "(http|html|www|mailto|ftp|@|email|search|internet|site|galleries|slideshows|login)" | perl -ne 's/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print' | grep -v "^$" | lc > spec-dt.tok $ wc spec-dt.tok 815829 813817 6248633 spec-dt.tok #We use UCS for corpus comparison (www.collocations.de). #In the following two steps, we prepare a table (table1.am.ds) that gives us the #mutual information and log likelihood for the association of each word with #the specialized corpus, besides the raw frequency counts. $ prepare_corp_comp_table.pl -o table1.ds spec-dt.tok ref-dt.tok $ ucs-add -v am.MI am.log.likelihood TO table1.ds INTO table1.am.ds #After some experimentation, we extract promising words both with MI and #with LL, filtering them in the following ways: #- for mi, we throw away words shorter than 3 characters and words that have #a fq below 50 occurrences #- for ll, we throw away words shorter than 3 characters and words that have a #fq above 4999 #In both cases, we keep the top 200 words (notice that we have to get rid of #the ------token). $ ucs-select '%' FROM table1.am.ds WHERE '(length(%l1%)>3)&&(%f%>50)' | ucs-sort BY am.MI | ucs-select -v 'l1' | tail +5 | head -201 | grep -v "\-\-\-\-\-" > mi_seeds1 $ ucs-select '%' FROM table1.am.ds WHERE '(length(%l1%)>3)&&(%f1%<5000)' | ucs-sort BY am.log.likelihood | ucs-select -v 'l1' | tail +5 | head -201 | grep -v "\-\-\-\-\-" > ll_seeds1 $ sort mi_seeds1 ll_seeds1 | uniq | wc 355 355 3697 #We put together the top acronyms and the words in the newly generated lists: $ gawk '$1>30{print $2}' de_acro | lc | sort - mi_seeds1 ll_seeds1 | uniq > all_uni_seeds $ wc all_uni_seeds 411 411 3928 all_uni_seeds #We now look for complex terms.
83
Estrazione terminologica per interpreti di conferenza Appendice 1
#Tagging the corpus: $ cat html1.txt doc1.txt pdf1.txt | grep -v "CURRENT URL" | tree-tagger-german > spec-dt.tgd #Creating bigrams and trigrams: $ tail +2 spec-dt.tgd | paste spec-dt.tgd - | gawk 'NF==6' > spec-dt.tgd.bigrams $ tail +3 spec-dt.tgd | paste spec-dt.tgd.bigrams - | gawk 'NF==9' > spec-dt.tgd.trigrams #Extracting patterns: $ gawk '$2~/^ADJ/ && $5~/^ADJ/ && $8~/^N/{print $1,$4,$7}' spec-dt.tgd.trigrams | lc | filter_multi_word_expressions.pl -k all_uni_seeds - | sort | uniq -c | sort -nrk1 > ADJ_ADJ_NN #For the ADJ NN pattern, we first get frequent ADJ NN endings from the #ADJ ADJ NN list, and then we filter the latter, so that we only consider ADJ #NN patterns that are not endings of frequent larger ADJ ADJ NN terms. $ gawk '$1>9{print $3,$4}' ADJ_ADJ_NN > endings_of_ADJ_ADJ_NN $ gawk '$2~/^ADJ/ && $5~/^N/{print $1,$4}' spec-dt.tgd.bigrams | lc | filter_multi_word_expressions.pl -k all_uni_seeds - | simple_filter.pl -s endings_of_ADJ_ADJ_NN - | sort | uniq -c | sort -nrk1 > ADJ_NN $ gawk '$2~/^N/{print $1}' spec-dt.tgd | lc | filter_multi_word_expressions.pl -k all_uni_seeds - | sort | uniq -c | sort -nrk1 > NN #Now we repeat the same proceeding with the manual corpus:. $ cat DT_corpus_scientifico/de.* | perl -ne 's/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print' | grep -v "^$" | grep -v "[a-z]" | gawk '$1 ~/[A-Z]/ && length($1)>2 && length($1)<5' | sort | uniq -c | sort -nrk1 > man_de_acro $ cat DT_corpus_scientifico/de.* | perl -ne 's/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print' | grep -v "^$" | lc > man-dt.tok $ wc man-dt.tok 85079 85074 646798 man-dt.tok $ prepare_corp_comp_table.pl -o table1man.ds man-dt.tok ref-dt.tok $ ucs-add -v am.MI am.log.likelihood TO table1man.ds INTO table1man.am.ds #NB: actually, in following way with MI we grab arbitrary subset of forms #that have maximum MI value because they only occur in specialized corpus. $ ucs-select '%' FROM table1man.am.ds WHERE '(length(%l1%)>3)&&(%f%>2)' | ucs-sort BY am.MI | ucs-select -v 'l1' | tail +5 | head -200 > man_mi_seeds1 $ ucs-select '%' FROM table1man.am.ds WHERE '(length(%l1%)>3)&&(%f1%<5000)' | ucs-sort BY am.log.likelihood | ucs-select -v 'l1' | tail +5 | head -200 > man_ll_seeds1 $ sort man_mi_seeds1 man_ll_seeds1 | uniq | wc 374 374 4321 $ gawk '$1>10{print $2}' man_de_acro | lc | sort - man_mi_seeds1 man_ll_seeds1 | uniq > man_all_uni_seeds $ wc man_all_uni_seeds 405 405 4445 man_all_uni_seeds
84
Estrazione terminologica per interpreti di conferenza Appendice 1
$ cat DT_corpus_scientifico/* | tree-tagger-german > man-dt.tgd $ tail +2 man-dt.tgd | paste man-dt.tgd - | gawk 'NF==6' > man-dt.tgd.bigrams $ tail +3 man-dt.tgd | paste man-dt.tgd.bigrams - | gawk 'NF==9' > man-dt.tgd.trigrams $ gawk '$2~/^ADJ/ && $5~/^ADJ/ && $8~/^N/{print $1,$4,$7}' man-dt.tgd.trigrams | lc | filter_multi_word_expressions.pl -k man_all_uni_seeds - | sort | uniq -c | sort -nrk1 > man_ADJ_ADJ_NN $ gawk '$1>1{print $3,$4}' man_ADJ_ADJ_NN > man_endings_of_ADJ_ADJ_NN $ gawk '$2~/^ADJ/ && $5~/^N/{print $1,$4}' man-dt.tgd.bigrams | lc | filter_multi_word_expressions.pl -k man_all_uni_seeds - | simple_filter.pl -s man_endings_of_ADJ_ADJ_NN - | sort | uniq -c | sort -nrk1 > man_ADJ_NN $ gawk '$2~/^N/{print $1}' man-dt.tgd | lc | filter_multi_word_expressions.pl -k man_all_uni_seeds - | sort | uniq -c | sort -nrk1 > man_NN
85
Estrazione terminologica per interpreti di conferenza Appendice 2
Appendice 2
Glossario di riferimento utilizzato per le estrazioni
Italiano Deutsch English (sistema) HLA HLA(-System) HLA 6MP 6-MP 6-mercaptopurine 6-TG 6-TG 6-thioguanine adenopatia Adenopathie adenopathy ADM ADM adriamycin alchilanti Alkylantien alkylating agents alopecia Alopezie alopecia (en) anemia Anämie anemia (en) anomalie cromosomiche
Chromosomenanomalien chromosomal abnormalities
anoressia Anorexie anorexia antiblastici antimetaboliti Antimetaboliten antimetabolites antineoplastici Antineoplastica antineoplastic drugs antitumorali antracicline Antrazyklinen anthracyclines aplasia Aplasie aplasia(en) apoptosi Apoptose apoptosis ARA-C AraC cytarabine aspirato midollare Knochenmarkaspirat bone marrow
aspiration astenia Asthenie asthenia ATMO biologia molecolare Molekularbiologie molecular biology biopsia ossea Knochenmarkbiopsie bone marrow biopsy blasti Blasten blast cells blasti leucemici leukämische Blasten leukemic blasts B-LLA B-ALL B-cell ALL caratterizzazione genotipica
Genotypisierung genotyping
cariotipo Karyotyp karyotyping CCR (it) CCR (de) CCR cefalea Kopfschmerzen headache cellule blastiche cellule staminali emopoietiche
hämatopoetische Stammzellen
hemopoietic stem cells
CF Folsäure folic acid
86
Estrazione terminologica per interpreti di conferenza Appendice 2
Italiano Deutsch English chemioterapia Chemotherapie chemotherapy chemioterapia combinata
combination chemotherapy
chemioterapia intratecale
intrathekale Chemotherapie intrathecal chemotherapy
chemioterapici Chemotherapeutika chemotherapeutic agents
ciclosporina A CsA cyclosporin A citochimica Zytochemie cytochemistry citogenetica Zytogenetik cytogenetics citometria a flusso Durchflußzytometrie flow cytometry citopenia Zytopenie cytopenia classificazione FAB FAB-Klassifikation FAB classification clearance leucemica Reduktion der Blastenanteil clearance of leukemic
cells common ALL c-ALL common-ALL complicanze Komplikationen complications consolidamento Konsolidierungstherapie consolidation therapy conta leucocitaria Leukozytenzahl WBC count CPM CPM (de) cyclophosphamide cromosoma Philadelphia
Philadelphia-Chromosom Philadelphia chromosome
CSF (it) CSFs colony-stimulating factors
deficit dei nervi cranici Hirnnervenausfälle cranial nerve palsies DFS (it) krankheitsfreies Überleben DFS diatesi emorragica hämorrhagische Diathese hemorrhagic diathesis
DNA-Index (de) DNA Index DNM DNR daunorubicin dolori osteo-articolari Knochen- u.
Gelenkschmerzen bone and joint pain
DXM DEXA dexamethasone effetti collaterali Nebenwirkungen side effects EFI (it) EFI EFI EFS (it) EFS EFS emesi Erbrechen emesis epatosplenomegalia Hepatosplenomegalie hepatosplenomegaly epistassi Epistaxis epistaxis esame biochimico del liquor
CSF chemistry
esame citomorfologico del liquor
Zytozentrifugenpräparat cytospin preparation of CSF
esame citomorfologico del midollo osseo
bone marrow cytomorphology
esame citomorfologico del sangue periferico
Kombinationschemotherapie
DNA Index (it)
87
Estrazione terminologica per interpreti di conferenza Appendice 2
Italiano Deutsch English esame emocromocitometrico
Differentialblutbild complete blood count
fattori di crescita ematopoietici
hämatopoetische Wachstumsfaktoren
hematopoietic growth factors
fattori di rischio Risikofaktoren risk factors fattori prognostici prognostische Faktoren prognostic factors follow-up (it) follow-up (de) follow-up formula leucocitaria G-CSF (it) G-CSF (de) G-CSF GM-CSF (it) GM-CSF (de) GM-CSF granulocitopenia granulocytopenia GvHD (it) GvH GVHD GVL GvL Effekt Graft Versus Leukemia
Effect HD- (it) HD- (de) HD- IFO IFO (de) ifosfamide immunofenotipo Immunphänotyp immunophenotype immunosoppressione Immunsuppression immunosuppression induzione Induktionstherapie induction therapy induzione della remissione
intensificazione interessamento SNC iperleucocitosi Hyperleukozytose hyperleukocytosis ipertensione endocranica
Intrakranielle Hypertonie intracranial hypertension
irradiazione corporea totale
Ganzkörperbestrahlung Total Body Irradiation
LAB biklonale Leukämie bilineage Leukemia LAL LAL a fenotipo immunologico B
B-Zellreihe B-lineage ALL
LAL a fenotipo immunologico T
T-Zellreihe T-lineage ALL
LAL non T non B B-Vorläuferzell-ALL B-cell precursor ALL LANL ANLL ANLL L-ASP L-ASP (de) L-asparaginase leucaferesi Leukaphärese leukapheresis leucemia Leukämie leukemia leucemia acuta akute Leukämie acute leukemia leucemia acuta indifferenziata
AUL (de) AUL
leucemia cronica chronische Leukämie chronic leukemia leucemia ibrida Biphänotypische (Hybrid-)
Leukämie BAL
88
Estrazione terminologica per interpreti di conferenza Appendice 2
Italiano Deutsch English leucemia linfatica acuta
leucemia linfoblastica acuta
leucemia linfoide acuta leucemia refrattaria Refraktäre ALL refractory leukemia leucociti Leukozyten leukocytes leucocitosi Leukozytose leukocytosis leucopenia Leukopenie leukopenia linfoadenopatia Lymphadenopathie lymphadenopathy linfoblasti linfociti B B-Lymphozyten B-lymphocyte linfociti T T-Lymphozyten T-Lymphocyte liquor Liquor CSF LLA ALL (de) ALL LLA del bambino ALL im Kindesalter childhood ALL,
infantile ALL LLA pre-B prä-B-ALL Pre-B cell ALL LLA pre-pre-B prä-prä-B-ALL Pre-Pre B-ALL LMA AML (de) AML mantenimento Erhaltungstherapie maintenance therapy massa mediastinica Mediastinaltumor mediastinal mass MDR (it) MDR MDR meningosi leucemica Meningeosis leucaemica meningeal leukemia midollo osseo Knochenmark bone marrow midollo spinale Rückenmark spinal cord mielosoppressione Myelosuppression myelosuppression MRM MRD (de) MRD MTX MTX (de) methotrexate nausea Übelkeit nausea (en) necrosi asettica del tessuto osseo
aseptische Knochennekrosen.
osteonecrosis
neutropenia Neutropenie neutropenia null ALL pallore cutaneo Hautblässe pallor PCR (it) PCR (de) PCR PDN PRED prednisone petecchie Petechien petechiae PGR (it) PRED-GR PGR piastrinopenia PPR (it) PPR PPR profilassi SNC ZNS-Prophylaxe CNS prophylaxis puntura lombare Lumbalpunktion lumbar puncture radioterapia Strahlentherapie Radiotherapy radioterapia profilattica dell´encefalo
89
Estrazione terminologica per interpreti di conferenza Appendice 2
Italiano Deutsch English randomizzazione Randomisierung randomization RC CR (de) CR recidiva Rezidiv relapse recidiva combinata kombiniertes Rezidiv combined relapse recidiva ematologica recidiva extramidollare extramedulläres Rezidiv extramedullary relapse recidiva isolata isoliertes Rezidiv isolated relapse recidiva meningea recidiva midollare KM-Rezidiv bone marrow relapse recidiva neurologica recidiva SNC ZNS-Rezidiv CNS relapse recidiva testicolare Hodenrezidiv testicular relapse reinduzione Reinduktionstherapie reinduction therapy remissione Remission remission resistenza al trattamento
Resistenz Resistance to Treatment
ricaduta ricaduta fuori terapia ricaduta in terapia ricaduta off therapy ricaduta on therapy ricaduta precoce frühes Rezidiv early relapse ricaduta tardiva spätes Rezidiv late relapse risposta al prednisone Prednison-Response prednisone response RTC prophylaktische
Schädelbestrahlung CRT
sangue periferico peripheres Blut peripheral blood santuari Problemstellen Sanctuary Sites sindrome da lisi tumorale massiva
Tumor-Lyse-Syndrom acute tumor lysis syndrome
SNC malattia sopravvivenza sopravvivenza a lungo termine
Langzeitüberleben Long-Term Survival
sopravvivenza libera da eventi
sopravvivenza libera da malattia
steroidi Steroide Steroids stratificazione Stratifizierung stratification striscio di sangue periferico
peripherer Blutausstrich
SUR Überleben survival terapia di supporto Supportivtherapie supportive care tipizzazione immunofenotipica
Immunphänotypisierung immunophenotyping
peripheral blood smear
90
Estrazione terminologica per interpreti di conferenza Appendice 2
91
Italiano Deutsch English T-LLA TMO KMT BMT TMO allogenico allogene KMT allogeneic bone
marrow transplantationTMO autologo TMO-A autologe KMT autologous bone
marrow transplantationtossicità Toxizität toxicity trapianto di cellule staminali da sangue periferico
Periphere Blutstammzelltransplantation
PBSCT
trapianto di cellule staminali emopoietiche
SZT stem cell transplantation
trombocitopenia Thrombozytopenie thrombocytopenia VCR VCR (de) vincristine VDS VDS (de) vindesine VP-16 VP16 etoposide