Download - Alma Mater Studiorum - Università di Bologna - Sede di ForlìAlma Mater Studiorum - Università di Bologna - Sede di Forlì Scuola Superiore di Lingue Moderne per Interpreti e Traduttori

Alma Mater Studiorum - Università di Bologna - Sede di Forlì

Scuola Superiore di Lingue Moderne per Interpreti e Traduttori

Corso di laurea in traduzione e interpretazione

Tesi di laurea in interpretazione simultanea dal tedesco in italiano

Estrazione terminologica per interpreti di conferenza

Candidato Claudio Fantinuoli

RelatoreGabi Mack

CorrelatoreMarco Baroni

Anno Accademico 2004-2005

Estrazione terminologica per interpreti di conferenza Sommario

Sommario

Sommario............................................................................................................I

Abstract .............................................................................................................. 1

Zusammenfassung............................................................................................. 2

Introduzione....................................................................................................... 3

Capitolo I ........................................................................................................... 6 L’uso del computer da parte dell’interprete.......................................................... 6

Capitolo II.......................................................................................................... 9 Estrazione terminologica ........................................................................................ 9

Breve introduzione all’estrazione terminologica semi-automatica ....................................9 Il termine e la sua registrazione .......................................................................................10 Estrazione automatica: alcuni principi .............................................................................13

Capitolo III ...................................................................................................... 16 Misure di associazione........................................................................................... 16

Relative risk e odd ratio ...................................................................................................16 Mutual information ..........................................................................................................17 Log-likelihood ratio .........................................................................................................18

Capitolo IV....................................................................................................... 20 Scelta dei metodi di estrazione terminologica..................................................... 20

BootCaT...........................................................................................................................20 Nota sulla denominazione di BootCaT utilizzata in questo studio..............................21 BootCaT: un tool, due estrazioni.................................................................................21

Wordsmith .......................................................................................................................22 Terminology Wizard ........................................................................................................23

Capitolo V ........................................................................................................ 24

Analisi del glossario e del corpus di riferimento............................................ 24 Considerazioni generali......................................................................................... 24 Caratteristiche del glossario di riferimento ........................................................ 25 Caratteristiche dei corpora specialistici .............................................................. 26

Capitolo VI....................................................................................................... 29 Metodo di analisi dei dati ottenuti ....................................................................... 29

Recall e precision.............................................................................................................29 Normalizzazione dei risultati ...........................................................................................31 Tassonomia ......................................................................................................................32

Tassonomia di primo livello........................................................................................33 Tassonomie di secondo livello ....................................................................................35

Selezione dei termini........................................................................................................37 Capitolo VII ..................................................................................................... 38

I

Estrazione terminologica per interpreti di conferenza Sommario

Estrazione terminologica con BootCaT(web)................................................. 38 Il tool BootCaT....................................................................................................... 38 Il principio di funzionamento ............................................................................... 38 La creazione del corpus specialistico ................................................................... 40

Osservazioni sulla creazione di corpora specialistici con BootCaT.................................43 L’estrazione............................................................................................................ 44

Introduzione .....................................................................................................................44 Prima fase: estrazione degli unigrammi ...........................................................................45 Seconda fase: l’annotazione.............................................................................................47

I risultati ................................................................................................................. 49 Capitolo VIII.................................................................................................... 51

Estrazione terminologica con BootCaT(corpus)................................................. 51 Il tool BootCaT(corpus) ...................................................................................................51 I risultati ...........................................................................................................................51

Capitolo IX....................................................................................................... 54 Estrazione terminologica con Wordsmith........................................................... 54

Il tool Wordsmith .............................................................................................................54 L’estrazione......................................................................................................................55 I risultati ...........................................................................................................................57

Capitolo X ........................................................................................................ 59 Estrazione con Terminology Wizard ................................................................... 59

Il tool Terminology Wizard .............................................................................................59 Il funzionamento .........................................................................................................59

L’estrazione......................................................................................................................61 I risultati ...........................................................................................................................61

Capitolo XI....................................................................................................... 63 Analisi dei risultati ................................................................................................ 63

Valutazione secondo la tassonomia di primo livello........................................................63 Valutazione secondo i valori di recall..............................................................................66 Valutazione secondo le tassonomie di secondo livello ....................................................67 Alcuni confronti fra BootCaT(web) e BootCaT(corpus) .................................................72

Conclusioni ...................................................................................................... 75

Bibliografia ...................................................................................................... 78

Appendice 1...................................................................................................... 82 Script ....................................................................................................................... 82

Appendice 2...................................................................................................... 86 Glossario di riferimento utilizzato per le estrazioni ........................................... 86

II

Estrazione terminologica per interpreti di conferenza Introduzione

Abstract

This study aims at finding out if conference interpreters could profit

from the new developments in terminology extraction methods.

We present the results of an experiment conducted using three software:

the BootCaT toolkit, Wordsmith and Terminology Wizard. We compare the

results of a terminological extraction using the web as a corpus with the results

obtained with a manual constructed corpus. We conducted an evaluation using

an ad-hoc taxonomy that considers the specific needs of interpreters as well as

a reference term list compiled by hand by a professional terminologist.

The study is divided in three parts. The first part introduces several

studies on the relationship between interpreters and computers, as far as

terminology is concerned, the basic principles of terminology extraction, the

features of the software we used, the characteristics of the reference corpus and

glossary and the evaluation method.

The second part describes the four extractions methods. Chapter seven

deals with BootCaT and the web as a corpus, chapter eight with BootCaT and

the use of a manually compiled corpus, chapter nine with Wordsmith and

chapter ten with Terminology Wizard.

The third part focuses on the evaluation of the results. The use of the

ad-hoc taxonomy allows us to evaluate the terminology extractions bearing in

mind the real needs of interpreters.

Finally, we conclude by suggesting possible directions for further

development of a terminology extraction toolkit.

1


Zusammenfassung

Die vorliegende Arbeit versucht die Frage zu klären, ob moderne

Methoden zur Terminologieextraktion Konferenzdolmetschern hilfreich sein

können.

Es werden die Ergebnisse einer Untersuchung vorgestellt, die mit drei

Softwares durchgeführt worden ist: BootCaT toolkit, Wordsmith und

Terminology Wizard. Die Ergebnisse einer web basierten Extraktion werden

mit den Ergebnissen verglichen, die mit einem manuell zusammengestellten

Korpus erzielt worden sind. Die Evaluierung erfolgt sowohl auf der Basis einer

ad-hoc Taxonomie, die die spezifischen Bedürfnisse der Dolmetscher

berücksichtigt, als auch eines von einem Terminologen manuell erstellten

Glossars.

Die Arbeit setzt sich aus drei Teilen zusammen. Im ersten Teil werden

unterschiedliche Studien zur Beziehung zwischen Dolmetschern und

Computern, die grundlegenden Prinzipien der Terminologieextraktion, die

Eigenschaften der verwendeten Software, die Attribute der Bezugskorpora und

Bezugsglossare sowie die Evaluierungsmethode vorgestellt.

Im zweiten Teil wird auf die vier durchgeführten Extraktionen näher

eingegangen. Kapitel sieben befasst sich mit BootCaT und dem Web als

Korpus, Kapitel acht mit BootCaT und der Verwendung eines manuell

zusammengestellten Korpus, Kapitel neun mit Wordsmith und Kapitel zehn

schließlich mit Terminology Wizard.

Der dritte Teil ist der Evaluierung der Ergebnisse gewidmet. Die

Verwendung einer ad-hoc Taxonomie ermöglicht die Evaluierung der

Terminologieextraktionssysteme unter dem Gesichtspunkt der spezifischen

Bedürfnisse des Dolmetschers.

Zum Schluss werden mögliche Entwicklungsansätze zur

Terminologieextraktion für Dolmetscher vorgestellt.

2


Introduzione

In un’epoca segnata sempre di più dal progresso tecnologico ed

informatico, progresso che interessa direttamente anche la professione

dell’interprete, è riscontrabile una totale assenza di applicazioni informatiche

interamente progettate e realizzate per gli interpreti simultaneisti. A differenza

dei tanti prodotti in commercio destinati ai traduttori, non esiste ancora una

piattaforma software che integri la serie di applicazioni informatiche necessarie

all’interprete nelle varie fasi che caratterizzano il suo lavoro di documentazione

– estrazione e gestione terminologica, organizzazione della documentazione,

utilizzo in cabina della terminologia elaborata – e che richiede caratteristiche e

funzionalità particolari appositamente studiate per tali attività. Questo studio si

propone di dare impulso alla ricerca e alla realizzazione pratica di applicazioni

informatiche che soddisfino le esigenze degli interpreti professionisti.

Gli interpreti simultaneisti che operano in conferenze o incontri

internazionali di argomento specialistico devono far fronte ad un notevole

sforzo preparatorio e spesso elaborare centinaia di pagine fra manoscritti,

informazioni di background e nuova terminologia. Appare ovvio che ciò non

può essere realizzato in tempi ragionevoli senza l’ausilio del computer. Le

modalità di preparazione oggi praticate appaiono inoltre spesso poco efficienti:

l’elaborazione del materiale fatto pervenire dagli organizzatori della

conferenza, le informazioni sul tema trattato raccolte autonomamente

dall’interprete (utilizzando oggi prevalentemente internet), l’estrazione

terminologica manuale dai testi precedentemente preparati, la redazione di

glossari mono o plurilingue e infine la sistematizzazione delle informazioni

ottenute per essere accessibili in futuro costituiscono operazioni dispendiose

soprattutto in termini di tempo e denaro. Come è noto, l’interprete si trova

spesso a dover affrontare da un lato scadenze e ritmi di lavoro che spesso

lasciano poco spazio alla fase preparatoria, dall’altro l’esigenza di acquisire

ugualmente una serie di competenze, linguistiche e non, senza le quali le sue

prestazioni specifiche nella singola conferenza ne risentirebbero

3


negativamente. Per poter facilitare e velocizzare queste procedure è dunque

necessario individuare o realizzare degli strumenti informatici che permettano

di agevolare l’interprete in tutte queste fasi.

La nostra ricerca si concentra su uno di questi temi: l’estrazione

terminologica semi-automatica. Sulla base di un confronto fra diverse

metodologie di estrazione, commerciali e sperimentali, si cercherà di valutare

se essa possa essere d’aiuto all’interprete professionista nella fase di

preparazione ad una conferenza.

L’estrazione oggetto di questo studio è di tipo monolingue. Ad oggi

l’estrazione bilingue da testi non paralleli e/o annotati sta ancora muovendo i

primi passi e non permette di raggiungere risultati che possano essere di

qualche interesse nell’applicazione pratica. Liste di termini monolingue

possono comunque essere un aiuto prezioso per l’interprete nella fase di

preparazione costituendo ad esempio il punto di partenza su cui basare la

propria strategia di apprendimento linguistico ed extralinguistico in vista di una

nuova conferenza.

Il presente lavoro è suddiviso in tre parti: una parte introduttivo/teorica,

una parte sperimentale e una parte conclusiva incentrata sulla valutazione dei

risultati ottenuti.

La prima parte è composta da sei capitoli che, dopo una breve

presentazione degli studi che analizzano il rapporto dell’interprete con il

computer, in particolar modo per gli aspetti relativi alla terminologia,

introducono i principi generali dell’estrazione terminologica, le motivazioni

che hanno portato alla scelta dei sistemi utilizzati nei nostri esperimenti, le

caratteristiche del materiale di confronto impiegato e la procedura seguita per

la valutazione dei risultati ottenuti.

La seconda parte è costituita da quattro capitoli ognuno dei quali è

dedicato all’estrazione terminologica effettuata con i sistemi individuati per il

nostro esperimento. Il settimo capitolo è dedicato a BootCaT con estrazione da

web, l’ottavo alla versione di BootCaT che utilizza un corpus raccolto

manualmente, il nono a WordSmith e il decimo a TerminologyWizard.

4


La terza parte si occupa invece della valutazione e dell’interpretazione

dei risultati ottenuti. Si propongono diverse modalità con cui osservare i

risultati raccolti con i singoli sistemi così da permettere una valutazione il più

possibile aderente alle esigenze del fruitore finale.

Le conclusioni riassumono le valutazioni fin qui proposte e forniscono

indicazioni per possibili sviluppi futuri.

Completano il presente lavoro la descrizione della procedura seguita per

l’estrazione terminologica con BootCaT e il glossario di riferimento utilizzato

come metro di paragone per la valutazione dei tool.

5

Estrazione terminologica per interpreti di conferenza Capitolo I

Capitolo I

L’uso del computer da parte dell’interprete

Numerosi sono gli studi che negli ultimi anni hanno cercato di scattare

un’istantanea sul rapporto tra interpreti e nuove tecnologie. Fra i più importanti

possiamo ricordare quelli condotti dallo SCIC (My Computer, 2001), da

associazioni di categoria come il BDÜ (2000), da ricercatori come Will (2000)

nonché l’inchiesta condotta da Valentini (2002). La maggior parte di queste

indagini, in primis Valentini (2002) e Will (2000), analizzano, a nostro avviso

molto giustamente, i bisogni terminologici degli interpreti differenziandoli in

uso prima e durante la simultanea nonché nella possibilità di utilizzo del

computer come supporto alla documentazione ed alla gestione della

terminologia sia nella fase di preparazione sia durante il lavoro vero e proprio.

Anche Gile (1995:148), seppur non riferendosi a possibili strumenti informatici

ma alla sola preparazione dell’interprete, si avvale di una simile

differenziazione distinguendo fra long-term, in-conference e last-minute

preparation.

La fase preparatoria ad una conferenza specialistica di argomento non

ancora noto costituisce una fase essenziale per la buona gestione dell’intera

attività lavorativa di un interprete professionista. In questa fase l’interprete è

chiamato ad acquisire una serie di dati e nozioni, sia di tipo enciclopedico che

di tipo linguistico, che gli permetteranno di affrontare con successo la

simultanea. Secondo Kalina (1998:203) infatti l’elaborazione del materiale a

disposizione unito ad altre strategie preparatorie permettono di trasferire una

parte consistente dei processi cognitivi di apprendimento di dati nuovi alla fase

antecedente l’interpretazione vera e propria, il che permette di diminuire il

carico cognitivo durante l’interpretazione stessa.

Tale preparazione avviene sulla base di documenti riguardanti il tema

oggetto della conferenza che lo stesso interprete provvederà a raccogliere

6


manualmente (secondo l’inchiesta della BDÜ l’88,5% degli intervistati utilizza

per questa fase Internet) e/oppure sulla base del materiale fornito dal

committente. Il metodo di trattamento del materiale raccolto sembra essere in

prevalenza ancora molto tradizionale ed affidato al supporto cartaceo, ovvero

tramite l’estrazione manuale della terminologia (Valentini, 2002:36). Questo

atteggiamento dipende con molta probabilità, oltre dalle abitudini degli

interpreti più anziani, anche dal fatto che ad oggi non esistono in commercio

prodotti per l’estrazione terminologica di facile uso che raggiungano risultati

tali da conquistare la fiducia dell’interprete professionista.

Se è vero che la preparazione dell’interprete non si risolve soltanto

nell’apprendimento di liste preconfezionate di significanti (l’output di un

sistema di estrazione terminologico automatico) ma in quella di un sistema di

concetti (e da qui forse anche la predilezione per un lavoro manuale, in cui

l’interprete acquisisce oltre che al significante anche il significato), è altrettanto

vero che tali liste possano agevolare l’interprete nell’elaborazione del materiale

in suo possesso. Esse possono infatti costituire il punto di partenza per

esplorare il corpus di testi disponibili in maniera puntuale e precisa, utilizzando

ad esempio dei concordancer1, semplici software che permettono di studiare le

parole nei loro contesti d’uso. Si ha così una nuova possibilità di esplorare il

materiale a disposizione:

[…] the use of terminology gives another possibility: instead of navigating

through the collection documents, it’s possible to navigate through the

collection terminology and access the documents from the relevant terms.

(Jones e Phrasier, 1999)

Se si considera poi la forte pressione temporale che l’interprete deve

gestire, visto che spesso è costretto in poco tempo a far propri saperi a lui poco

conosciuti e che, anche quando viene reso disponibile, il materiale preparatorio

viene consegnato nella maggior parte dei casi meno di 5 giorni prima della

conferenza (Valentini, 2002:33), appare ovvio che sistemi di estrazione

1 TextSTAT, un semplice ma ottimo concordancer può essere scaricato gratuitamente

7

http://www.niederlandistik.fu-berlin.de/textstat/


terminologica possano favorire una migliore gestione del tempo e delle risorse

da parte dell’interprete.

La terminologia estratta, qualunque sia la metodologia con cui essa

viene ottenuta, necessita inoltre di essere gestita. La maggior parte degli

interpreti utilizza programmi generici di trattamento testo come Word®

(67,7%) o fogli di calcolo come Excel® (11,4%) invece di usufruire delle

funzioni di software specifici di gestione terminologica come Multiterm®

(6,5%) o banche dati personalizzabili come Filemaker Pro® (4,9%) (Valentini,

2000:153). Nonostante gli evidenti deficit di software non dedicati come Word

ed Excel, poco adatti alla gestione di banche dati terminologiche, questi

prodotti vengono prediletti forse a causa del più alto grado di familiarità che la

maggior parte degli utenti ha con essi o della maggior semplicità di utilizzo.

Due software di recente commercializzazione e specificatamente designati per

l’interprete simultaneista, LookUp® e Interplex®, non sono invece, per ragioni

temporali2, stati presi in considerazione dalle inchieste sopra citate. La relativa

semplicità d’uso e le funzioni specifiche li rendono adatti ad essere utilizzati in

cabina e potrebbero portare ad un cambiamento nell’atteggiamento degli

interpreti nei confronti di programmi più specifici di gestione terminologica.

Il presente studio si concentrerà sulle problematiche relative

all’estrazione terminologica.

2 I software sono di recente commercializzazione.

8

http://www.lookup-online.de/

http://www.fourwillows.com/interplex/

Estrazione terminologica per interpreti di conferenza Capitolo II

Capitolo II

Estrazione terminologica

Breve introduzione all’estrazione terminologica semi-automatica

La questione della natura dell’estrazione terminologica automatica o

semi-automatica dipende in gran parte dal risultato che si vuole ottenere, cioè

dal tipo di dati che si intende estrarre e dalle finalità dell’utente. Mediatori

linguistici, traduttori, interpreti e terminologi non costituiscono infatti le uniche

categorie potenzialmente interessate ai risultati dell’estrazione di termini

tecnico-specialistici.

Ritroviamo fra gli interessati all’estrazione terminologica, fra le altre, le

imprese che offrono prodotti informatici per la classificazione dei testi, la

ricerca e l’estrazione di informazioni (Information Retrieval e Information

Extraction), un campo che a sua volta poterebbe riservare per il futuro degli

interpreti dei risvolti molto interessanti.

La struttura dei dati, cioè dei termini estratti, può essere ricondotta

fondamentalmente a due tipologie (Heid, 2001:186):

- semplici liste di termini

- inventari strutturati e relazionali

Le liste terminologiche semplici sono liste di parole, mono o

plurilingui, depositarie di sapere linguistico, che elencano i termini di un

linguaggio specialistico o di un particolare testo. Gli inventari strutturati e

relazionali fungono invece da base per la costruzione di vere e proprie strutture

del sapere. Relazioni caratteristiche tipiche degli inventari strutturati sono

9


quelle tra iperonimi e iponimi, sinonimi, equivalenze/traduzioni

interlinguistiche, ecc.

Il nostro studio si occupa della realizzazione di liste terminologiche

monolingui che costituiscono la prima fase verso l’estrazione terminologica

bilingue3. Tali liste però possono essere considerate un primo obiettivo nella

creazione di strumenti informatici utilizzabili proficuamente dall’interprete di

conferenza (v. ). L’uso del computer da parte dell’interprete

Il termine e la sua registrazione

Il primo aspetto che deve essere analizzato quando si affronta

l’estrazione terminologica riguarda la tipologia di termini a cui si vuole dare

spazio in un lavoro terminologico, indipendentemente dal fatto che si voglia

ottenere una lista di termini o un inventario strutturato. Innanzitutto è

necessario chiarire cosa si intende con il concetto di termine:

[…] una parola che dovrebbe denominare un oggetto materiale e immateriale,

visto nella sua dimensione categoriale e non individuale, in modo univoco, e

senza alcuna sfumatura connotativa di tipo né diatonico (ossia relativo alla

variazione linguistica in dipendenza dell’area geografica), né diastrico (ossia

relativo alla variazione linguistica in dipendenza della classe sociale), né

diafasico (ossia relativo alla variazione linguistica in dipendenza del registro

impiegato, del grado di formalità), né diacronico (ossia relativo alla variazione

linguistica nel tempo).

(Rega, 2002: 49-50)

È questa una definizione classica del termine che riprende quella del

circolo di Vienna, elaborata da Wüster negli anni Trenta. Si tratta però di una

definizione normativa che poco si adatta all’applicazione nell’estrazione

3 Per approfondimenti sull’acquisizione automatica di equivalenti traduttivi si vedano:

Déjean, Gaussier, Sadat (2001) e Volk, Pantli, Malka (2002).

10


terminologica. In quest’ottica alcuni studiosi come Jacquemin e Bourigault

arrivano addirittura a postulare che:

In a definition of term that is better suited to corpus-based terminology, a term

must be stated as the output of a procedure of terminological analysis. A

single word, such as cell, or a multi-word unit, such a blood cell is a term

because it has been decided that it would be so. The decision process can

involve a community of researchers or practitioners, a normalisation

institution, or even a single engineer or terminologist in charge of building a

terminological resource for a specific purpose.

(2000:2)

La relatività delle definizioni classiche di termine viene sottolineata

anche da Sager:

The theories underlying applied fields of study benefit from being application

driven rather than following separate paths as terminology theory has been

doing in recent years. By adopting the engineering approach of identifying

problems and seeking solutions, significant advances have been made […].

(1990:10)

Heid (2001:188), nel tentativo di fornire al mediatore linguistico alcuni

principi guida per determinare la rilevanza delle unità terminologiche e quindi

la necessità o meno di registrare un termine in un glossario propone tre

definizioni: la konzeptbasierte Definition, la übersetzungsbasierte Definition e

la häufigkeitsbasierte Definition.

Secondo la prima definizione, un termine come allgemeine

Bedingungen o allgemeine Geschäftsbedingungen deve ottenere lo status di

termine in una raccolta terminologica di dominio giuridico o commerciale

poiché esiste un concetto giuridico o commerciale che viene identificato da

questa espressione. Questo modo molto diffuso di concepire la rilevanza

terminologica si rifà dunque all’assunto secondo il quale un termine è rilevante

se rappresenta un concetto tipico del dominio di interesse.

11


La übersetzungsbezoge Definition prevede la registrazione di un

termine in una banca dati soltanto quando questo può presentare delle difficoltà

durante il processo traduttivo.

La häufigkeitsbasierte Definition definisce invece la rilevanza

terminologica sulla base del confronto fra la ricorrenza di un’espressione in un

testo specialistico e la ricorrenza dello stesso termine in un corpus di

riferimento non specialistico. I termini vengono considerati rilevanti se la loro

ricorrenza nel testo specialistico è maggiore rispetto a quella nel corpus di

riferimento. Fondamentalmente in questo caso ci si può trovare di fronte a due

costellazioni:

- alcuni termini possono ricorrere molto raramente nel linguaggio non

specialistico: diodo, un componente elettronico, compare molto

frequentemente in testi che riguardano, ad esempio, il settore

radioelettrico, ma assai raramente in un corpus di testi giornalistici

come quello della Repubblica (4 ricorrenze in tutto il corpus). Tale

termine verrà quindi registrato nella banca dati specialistica;

- altre parole invece possono essere ricorrenti sia nei testi specialistici sia

nel corpus generico di riferimento, ma ciononostante vengono

considerate tipiche di un particolare domino e vengono quindi incluse

nel lavoro terminologico. Heid (2001:188) riporta l’esempio di Kind

che è da considerasi termine se il domino del testo analizzato è ad

esempio Kindergeld. In questo caso però il termine Kind con tutta

probabilità ricorrerà in un testo del dominio Kindergled con una

frequenza relativa maggiore rispetto a quanto accade nel corpus

generico. Tale caratteristica risulta essere quindi decisiva per la sua

registrazione.

La forma ritenuta appartenere per eccellenza alla schiera dei termini

candidati in una raccolta terminologica tecnico-scientifica è quella del

sostantivo. Ovviamente la rosa di termini considerati utili al fruitore finale non

si esaurisce però con questa categoria. Molti ricercatori hanno anche

12

http://sslmitdev-online.sslmit.unibo.it/corpora/corpus.php?name=REPUBBLICA


sottolineato l’importanza di altre componenti soprattutto quando queste fanno

parte della categoria collocazioni – in primo luogo le combinazioni di

sostantivi/verbi e sostantivi/aggettivi4. Nel nostro studio ci si è concentrati

tuttavia soprattutto sull’estrazione di termini specialistici (sostantivi semplici e

complessi) e meno su quella delle collocazioni, anche se queste ultime

rivestono dal punto di vista traslatorio un ruolo molto importante5.

Estrazione automatica: alcuni principi

Heid (2001:189) formula tre assunti riguardanti l’estrazione

terminologica automatica:

- un sistema di estrazione deve sempre permettere la correzione manuale

e quindi essere semi-automatico. Questo è il motivo per cui in genere,

come anche nel nostro lavoro, si parla di termini candidati. Sarà

comunque il terminologo, il traduttore o l’interprete a decidere

sull’effettiva registrazione del termine nella banca dati o nel glossario;

- l’estrazione di termini candidati sarà sempre accompagnata da un certo

“rumore”, cioè la presenza di termini indesiderati. L’obiettivo di chi

sviluppa tali sistemi deve essere quello di ridurre al minimo il livello di

rumore;

- un sistema di estrazione terminologica dovrebbe per contro ridurre al

minimo il numero di “candidati buoni” che non vengono estratti, cioè il

cosiddetto “silenzio”. La maggior parte dei terminologi accettano un

certo rumore se possono essere sicuri di non aver escluso dei candidati

buoni.

Sempre Heid (2001:189) definisce anche le due fasi fondamentali che

stanno alla base dei processi di estrazione terminologica:

4 Per un approfondimento si vedano le categorie definite da Wright (1997: 14-16). 5 Per un approfondimento dell’estrazione di collocazioni si rimanda a diversi studi e

esperimenti in questo settore tra i quali Krenn.

13


- identificazione dei termini candidati sulla base di un processo di analisi

linguistica del testo;

- filtraggio dei termini candidati secondo criteri linguistici o statistici così

da ridurre al massimo il rumore e il silenzio.

L’elaborazione dei file di testo secondo il procedimento a due fasi qui

introdotto avviene solitamente dopo aver preparato adeguatamente i testi,

annotandoli. Le tre fasi tipiche di questa preparazione sono:

- la tokenizzazione, cioè l’identificazione dei token. In pratica

suddividere il testo in modo che presenti una sola parola per riga;

- la classificazione morfologica o POS-tagging (part of speech), cioè

l’assegnazione di un’etichetta che segnali la categoria grammaticale di

ogni parola (nome, aggettivo, verbo, ecc.);

- la lemmatizzazione, il processo con cui si riporta ogni parola alla sua

forma base (mangio->mangiare, ricordi->ricordo).

Oggigiorno quest’ultima operazione svolta automaticamente è ancora

soggetta a molti errori soprattutto poiché nella maggior parte dei casi sia ha a

che fare con testi altamente specialistici le cui terminologie non sono contenute

nei repertori lessicografici utilizzati dai software preposti alla lemmatizzazione.

L’identificazione dei termini candidati si basa fondamentalmente su

criteri linguistici. Heid (2001:190-197) distingue fra criteri legati direttamente

ai termini e criteri legati ai contesti in cui essi compaiono. Alcuni criteri si

concentrano quindi sulle caratteristiche morfologiche dei termini, altri sulla

struttura morfosintattica dei termini composti (POS), altri ancora sul contesto

in cui il termine compare, considerando ad esempio termine quelle parole che

ricorrono nelle strutture: “con X si definisce”, “cosiddetto X”, ecc.

L’approccio sopra descritto come POS è quello probabilmente più

diffuso fra i sistemi di estrazione terminologica. Esso sta alla base sia del

metodo BootCaT sia di Terminology Wizard. Una volta preparati (v.

), i testi vengono interrogati per estrarre solo quelle

Seconda

fase: l’annotazione

14


combinazioni di parole che corrispondono ai pattern morfosintattici definiti

dall’utente.

Tale procedimento ha come obiettivo finale quello di estrarre tutti quei

termini candidati che morfologicamente o morfosintatticamente “assomiglino”

a termini specialistici. Ciò non significa però che tali parole, pur rispettando

tali criteri, siano così rilevanti – o addirittura corretti – da guadagnare lo status

di termine ed essere poi registrati in un lavoro terminologico. La procedura più

indicata per aumentare la probabilità che tali termini candidati siano davvero

quelli desiderati è quella di filtrare i risultati che sono stati precedentemente

identificati secondo i principi linguistici sopra descritti (POS). Ciò può

avvenire o su base linguistica, utilizzando ad esempio delle stop word, liste di

parole che vengono considerate improbabili termini candidati, o su base

statistica, seguendo diversi procedimenti. Un semplice criterio statistico è

quello di confrontare le frequenze con cui un termine compare nel testo da

analizzare con quelle relative allo stesso termine in un corpus di riferimento. Se

un termine compare un certo numero di volte in più nel testo rispetto al corpus

di riferimento, esso viene considerato automaticamente termine da registrare.

Metodi statistici più raffinati di quello appena presentato si fondano

sulle misure di associazione utilizzate da vari sistemi, ad esempio i tre da noi

impiegati, sia quelli che lavorano su testi annotati (BootCaT e Terminology

Wizard) sia quelli che lavorano su testi non preparati (Wordsmith).

Ovviamente entrambi i metodi, statistici e linguistici, possono essere

combinati. Questo è il caso di BootCaT, il quale filtra i termini candidati con

un procedimento che combinando un metodo statistico e uno linguistico

(v. L’estrazione) può essere definito ibrido.

15

Estrazione terminologica per interpreti di conferenza Capitolo III

Capitolo III

Misure di associazione

L’idea che sta alla base delle misure di associazione deriva dalla

psicolinguistica e venne introdotta per la prima volta nel tentativo di valutare la

prontezza di risposta dei probandi ad uno stimolo linguistico. Si dimostrò che

essi rispondevano infatti più celermente identificando ad esempio l’ambiente di

lavoro in cui opera una figura professionale come l’infermiera, se tale termine

(infermiera) veniva accompagnato da una parola fortemente associata ad esso,

ad esempio dottore (Palermo e Jenkins, 1964).

Anche in linguistica è prassi consolidata considerare le parole non come

unità isolate, ma sulla base delle parole ad esse altamente associate (co-

occurrence): «You shall know a word by the company it keeps». (Firth, 1957).

Per agevolare la determinazione del livello di associazione fra due

parole sono stati sviluppati diversi modelli matematici. Tutti hanno in comune

il fatto di considerare non soltanto la frequenza delle singole coppie di parole

(si potrebbe infatti pensare che se due parole ricorrono molto spesso insieme

sono anche altamente associate) ma anche le caratteristiche dei corpora in cui

sono contenute, cioè le loro dimensioni.

Relative risk e odd ratio

Il metodo più semplice per identificare le parole tipiche di un testo

specialistico, e quindi quelle che con tutta probabilità possono essere

considerate essere i termini tecnici del linguaggio in questione, è il cosiddetto

relative risk. Esso consiste, come accennato in 2.2., nel calcolo del rapporto fra

la frequenza relativa di una parola nel corpus specialistico e la sua frequenza

relativa nel corpus generale di riferimento ed è definita dalla seguente formula:

16


gen(w)/Ngenfqspec(w)/Nspecfq

log

Ovviamente più il risultato di questo rapporto è alto, più è probabile che

la parola considerata sia caratteristica del linguaggio specialistico.

Quando la ricorrenza della parola w nei due corpora, fqspec(w) e

fqgen(w), è molto bassa rispetto al numero di parole che costituiscono i corpora,

Nspec e Ngen, come è il caso in testi molto specialistici, allora una misura più

adatta a calcolare se una parola è potenzialmente tipica del corpus specialistico

è la odd ratio:

gengengen

specspecspec

fqNwfqfqNwfq

−

−

/)(/)(

log

Anche nel caso della odd ratio, più alto è il suo valore più è probabile

che una parola sia tipica del linguaggio esaminato.

Mutual information

La mutual information (MI), proposta da Fano (1961) come misura

dell’interdipendenza fra due elementi in un messaggio e introdotta da Church e

Hanks (1990) nella linguistica computazionale, è la misura di associazione

classica di questo ambito. Essa viene espressa dalla seguente formula:

)()(),(log),( 2 yPxP

yxPyxMI =

Church e Hanks (1990) propongono la seguente interpretazione della

mutual information:

Informally, mutual information compares the probability observing x and y

together (the joint probability) with the probabilities of observing x and y

independently (chance). If there is a genuine association between x and y, then

the joint probability P(x,y) will be much larger than chance P(x) P(y), and

17


consequently I(x,y) >> 0. If there is no interesting relationship between x and

y, then P(x,y) P(x) P(y), and thus, I(x,y) ~ 0. If x and y are in complementary

distribution, then P(x,y) will be much less than P(x) P(y), forcing I(x,y) << 0.

Nella situazione in cui si hanno due corpora, uno specialistico ed uno di

riferimento, possiamo interpretare la MI come il rapporto tra la probabilità di

avere una data parola che appartiene al corpus specialistico e la probabilità di

trovarsi di fronte la stessa parola indipendentemente dal corpus. Una parola

tipica del corpus specialistico avrà dunque un alto valore di MI; e questo

avviene proprio quando la probabilità che tale parola ha di capitare nel corpus

specialistico è molto più alta di quella di ricorrere nel corpus di riferimento.

Nel caso in cui si hanno due corpora, uno specialistico e uno di

riferimento, si avrà:

))(()())(,(log))(,( 2 specwcorpusPxwP

specwcorpusxwPspecwcorpusxwMI====

===

dove w = x rappresenta l’evento che la parola analizzata sia x, mentre

corpus(w) = spec l’evento che la medesima parola sia quella estratta dal corpus

specialistico. La MI sarà allora il rapporto tra la probabilità che la parola sia x

dato che è noto che si tratta di una parola presa dal corpus specialistico e la

probabilità che la parola sia x indipendentemente dal corpus da cui è presa.

Log-likelihood ratio

Il problema legato alla mutual information è che essa tende a

privilegiare i termini che sono molto rari a svantaggio di quelli che hanno

un’elevata frequenza. Si sono così dovute trovare altre misure di associazione

che cercano di risolvere il problema delle parole a bassa frequenza. La più

diffusa è la log-likelihood (LL)6 (Dunning, 1994), che fornisce dei valori molto

plausibili anche per i termini a bassa frequenza (Krenn e Evert, 2001).

Intuitivamente ci si può immaginare la LL come al rapporto della

6 Per approfondimenti si consiglia la lettura dei seguenti testi: Rayson, Berridge e Francis.

18


verosimiglianza delle frequenze estratte dal corpus se si ipotizza che esiste una

dipendenza tra le due parole e la verosimiglianza delle medesime frequenze se

si ipotizza che tale dipendenza non ci sia.

Una possibile strategia, utilizzata anche nel corso dei nostri esperimenti

con BootCaT, è quella di considerare termini candidati i migliori risultati

ottenuti con entrambe le misure di associazione.

19

Estrazione terminologica per interpreti di conferenza Capitolo IV

Capitolo IV

Scelta dei metodi di estrazione terminologica

La nostra scelta dei software con cui affrontare l’estrazione

terminologica è dipesa da due motivazioni fondamentali. Innanzitutto si è

cercato di offrire una vasta panoramica di approcci all’estrazione terminologica

(ET) che tenesse conto delle varie tipologie esistenti, ovvero:

- sistema sperimentale libero (BootCaT);

- sistema commerciale di analisi linguistica generico (Wordsmith);

- sistema commerciale dedicato all’ET (Terminology Wizard).

Si è inoltre cercato di coprire diverse metodologie e principi di

estrazione:

- analisi statistica e linguistica (BootCaT);

- analisi statistica (Wordsmith);

- analisi linguistica (Terminology Wizard).

BootCaT

Nella nostra rosa di sistemi utilizzati, l’estrazione con BootCaT è

indubbiamente quella più sperimentale. Ad oggi non esiste ancora una versione

con interfaccia grafica del tool, bensì una serie di script in PERL e di

successioni di comandi Unix. Il sistema operativo richiesto non è il ben più

diffuso Windows bensì Unix. BootCaT si distingue da qualsiasi altro sistema di

estrazione terminologica per la sua capacità di raccogliere il corpus da cui

effettuare l’estrazione terminologica in maniera automatica, utilizzando il web

come fonte da cui reperire i testi che lo compongono. Proprio questa sua

caratteristica lo rende interessante per l’interprete professionista che, come

20

http://www.perl.com/


sottolineato in precedenza, deve fare i conti con l’assimilazione di nuovi saperi

in un tempo relativamente breve.

Nota sulla denominazione di BootCaT utilizzata in questo studio

Nella presente ricerca vengono utilizzate due costellazioni di BootCaT:

la prima (v. ), completa di tutte le

sue caratteristiche, mantiene il suo nome originario, BootCaT, mentre la

seconda (v. ), che non prevede

la fase di raccolta del corpus da web, ma utilizza lo stesso corpus compilato

manualmente e analizzato anche da Wordsmith e da Terminology Wizard, si

presenta in versione ridotta. Proprio per questo motivo nella presente ricerca si

fa riferimento ad esso, onde evitare fraintendimenti, con il nome

BootCaT(corpus). Talvolta, sempre per favorire la chiarezza, ci si potrà riferire

alla versione completa di BootCaT, quella cioè che provvede automaticamente

a creare il corpus linguistico dal web e proprio in natura di questa caratteristica,

come a BootCaT(web).

Estrazione terminologica con BootCaT(web)

Estrazione terminologica con BootCaT(corpus)

BootCaT: un tool, due estrazioni

BootCaT è stato quindi utilizzato per effettuare due estrazioni: la prima,

da web, rappresenta la finalità per cui questo tool è stato sviluppato, la seconda,

da corpus manuale, ha uno scopo principalmente legato alla presente ricerca,

cioè di confronto.

L’estrazione da corpus compilato manualmente, da considerarsi

idealmente il punto di incontro tra BootCaT(web) e gli altri sistemi analizzati

in questa sede, ha un duplice obiettivo: da un lato si desiderava verificare la

precisione degli script per l’estrazione terminologica di BootCaT, quindi il

modulo di estrazione vero e proprio. Solo utilizzando lo stesso corpus per tutti i

sistemi di estrazione terminologica, quello manuale, è infatti possibile

effettuare un confronto obiettivo fra di essi e verificare la qualità dell’output di

BootCaT. L’altro obiettivo era quello di servire da metro di confronto per

verificare le differenze e le analogie fra i risultati che è possibile ottenere con i

21


corpora raccolti automaticamente dal web con BootCaT e quelli ottenuti da un

corpus costruito manualmente. In questo caso si aveva a disposizione due

corpora differenti, ma lo stesso metodo di estrazione.

Poiché la procedura utilizzata può essere anche fine a se stessa, cioè

all’estrazione di terminologia specifica da corpora già a disposizione

dell’utente (ad es. il materiale messo a disposizione dall’organizzatore di una

conferenza), si è scelto di dedicare a tale procedimento un capitolo a sé stante e

di considerarlo non solo in funzione al ruolo di verifica di BootCaT, ma come

un vero e proprio metodo di estrazione.

Wordsmith

Wordsmith rappresenta la categoria dei software di analisi linguistica

generici forse maggiormente diffuso sul mercato. Sebbene non sia stato

concepito per l’estrazione terminologica, alcune sue funzioni e il fatto che sia

ormai diffuso fra molti professionisti, soprattutto traduttori, come il software

per eccellenza per l’analisi di corpora linguistici, ne rendono opportuna la

valutazione per verificare il suo possibile impiego come estrattore di

terminologia specifica.

Il software gira su Windows e le sue funzionalità, sebbene non sempre

semplici da utilizzare, sono comunque alla portata di chiunque abbia un po’ di

dimestichezza con la piattaforma e i programmi Windows. Non essendo stato

sviluppato con finalità di estrazione terminologica, tale processo richiede

diversi passaggi e operazioni. Questi possono però essere standardizzati, quindi

ripetuti meccanicamente, cosa che, avendo a disposizione i corpora di

riferimento, rende il processo di identificazione della terminologia

relativamente semplice e veloce (v. ). Estrazione terminologica con Wordsmith

22


Terminology Wizard

Terminology Wizard appartiene al gruppo di software commerciali

dedicati espressamente all’estrazione terminologica presenti oggi sul mercato.

La sua principale caratteristica è l’estrema semplicità di utilizzo, il ché lo rende

particolarmente adatto ad un pubblico poco informatizzato o non disposto a

confrontarsi con una fase di apprendimento invece necessaria per gli altri

sistemi. Una volta caricato il corpus e impostati i pattern morfosintattici per

l’estrazione, il software provvederà ad identificare la terminologia specialistica.

Oltre a offrire la funzione di estrazione terminologica, Terminology Wizard è

in grado di costituire una vera e propria banca dati per la gestione della

terminologia acquisita. I termini estratti possono essere velocemente passati al

setaccio per determinare quali scartare e quali conservare. Ulteriori funzioni

prevedono inoltre anche la stampa dei risultati ottenuti e la possibilità di

utilizzare un concordancer integrato con il software per analizzare il contesto

d’uso dei termini estratti automaticamente.

23

Estrazione terminologica per interpreti di conferenza Capitolo V

Capitolo V

Analisi del glossario e del corpus di riferimento

Considerazioni generali

La prima questione che si è posta nella fase di progettazione del nostro

esperimento è stata quella riguardante la necessità di confrontare i risultati

ottenuti con i vari strumenti di estrazione terminologica con un glossario di

riferimento, compilato manualmente. Dato il carattere molto particolare del

presente lavoro, che intende verificare il possibile impiego di strumenti

informatici per l'interprete professionista, è stata ponderata la possibilità di

utilizzare come riferimento un glossario compilato da un'interprete

professionista in visione di una conferenza tecnico-scientifica. Il problema

insito però in questa procedura era quello dell'elevato grado di soggettività

caratteristica della compilazione manuale di un glossario, aggravata dal fatto

che un interprete compila sempre un glossario pensando al proprio fabbisogno

personale (terminologia conosciuta/non conosciuta, espressioni che creano

maggiori problemi, ecc.). Tale caratteristica rende un glossario di questo tipo,

anche se molto aderente alla realtà, per forza di cose poco adatto ad essere

utilizzato come parametro di paragone per la valutazione di sistemi di

estrazione automatici e quindi per loro natura oggettivi. Vista questa

considerazione, si è infine optato per un glossario compilato professionalmente

nell’ambito di una tesi di laurea in campo terminologico e quindi

tendenzialmente più oggettivo. L'obiettivo è stato quello di reperire un

glossario che avesse le seguenti caratteristiche:

- provata qualità

- tema molto specialistico

- presenza di tre lingue

24


- realizzazione sulla base di corpora linguistici

Visti i molti lavori di natura terminologica raccolti nelle varie tesi

scritte con la collaborazione del Laboratorio di Terminologia della SSLiMIT, si

è optato per quello compilato per la tesi “Leucemia linfoblastica acuta in età

pediatrica: proposta di glossario trilingue italiano-tedesco-inglese” (Bordoni,

2001).

Caratteristiche del glossario di riferimento

Il glossario di riferimenti (GdR) è dunque un glossario trilingue

altamente specializzato che si caratterizza per l’elevata cura data alla ricerca

dei traducenti nonché per l’utilizzazione nella fase di compilazione del tool

Wordsmith. Nell’elaborazione del GdR il tool era però stato utilizzato come

normale concordancer per analizzare i contesti d'uso dei vari termini e non

come strumento per tentare un’estrazione (semi)-automatica della terminologia

specialistica.

Il glossario è composto da tre liste di termini trilingue e da 544 schede

terminologiche. Per il nostro esperimento sono state rilevanti soprattutto le liste

trilingue che in ultima analisi costituiscono l'obiettivo da raggiungere con i

metodi di estrazione automatica. In appendice è riportata la lista completa dei

termini che costituiscono il glossario di riferimento.

Il numero di termini, le cosiddette voci di ciascuna lingua, è riportato

nella seguente tabella:

Numero di termini Italiano 177 Tedesco 175 Inglese 193

Tabella 1: Termini contenuti nel glossario di riferimento

Come è possibile evincere dalla Tabella 1 non siamo di fronte ad un

glossario simmetrico, nel senso che ogni lista (monolingue) non è composta

25


dallo stesso numero di termini e conseguentemente non tutti i termini hanno

trovato il proprio traducente in tutte le lingue.

Uno sguardo alle varie voci è sufficiente per comprendere che si tratta

di un glossario altamente specializzato in cui hanno trovato spazio soltanto i

termini più tecnici relativi all'ambito delle leucemie linfoblastiche. Questo fa

pensare che il bacino di utenza di tale glossario possa essere quello di esperti

del settore o di traduttori specializzati che non abbiano quindi bisogno di quella

terminologia, sempre medica, ma più generale, che è comunque indispensabile

alla buona riuscita della comunicazione intra e interlinguistica. Il fatto che è

possibile identificare il pubblico cui è destinato tale glossario si ricollega al

principio della relatività del termine, e quindi del glossario, e della sua

dipendenza dal fruitore finale a cui più volte si fa riferimento in questa ricerca

(v. , ). Il termine e la sua registrazione Tassonomia

Caratteristiche dei corpora specialistici

I corpora specialistici conservati nel Laboratorio di Terminologia e

gentilmente messi a disposizione per il nostro studio sono dei comparable

corpora, cioè «corpora whose components are chosen to be similar samples of

their respective languages» (Tognini e Bonelli, 2001:7). Tali corpora

monolingui vengono descritti da Gavioli e Zanettin come:

Collections of texts in languages of similar types and on similar topics […]

which provide with material for contrastive analysis not just of lexical and

grammatical usage, but also of features of text structure and discourse

organization.

(1997)

Gavoli e Zanettin approfondiscono anche lo status dei corpora

specialistici in un'ottica contrastiva che è anche alla base del nostro studio:

26


A specialized corpus is not to be taken as representing general language to a

lesser extent than a large corpus, but as representing the particular population

of texts it is a sample of to a greater extend than a large corpus is able to.

(1997)

I corpora da cui è stato creato il glossario di riferimento sono costituiti

da file di diversi formati (DOC, PDF, HTML, PPT) convertiti in file di testo

(ASCII) per poter essere elaborati con Wordsmith. Il corpus italiano è

composto da 16 testi, quello tedesco da 15 e quello inglese da 34:

Linee Parole Byte Italiano 8544 108016 763455 Tedesco 12870 88895 738695 Inglese 29145 286346 2037176

Tabella 2: Dimensioni dei corpora specialistici compilati manualmente

Per verificare che tutti i termini riportati nel GdR fossero effettivamente

presenti nella raccolta di testi a disposizione si è passato al setaccio i corpora a

disposizione. Questa operazione ha evidenziato che un certo numero di termini

(quantificabile nel 10% del totale) non erano stati estratti dai corpora in

formato testo a disposizione. Con molta probabilità questi traducenti

provengono dagli altri testi non formattati in TXT e che quindi non sono

diventati parte integrante dei corpora ‘ufficiali’ del lavoro terminologico (forse

per le difficoltà di formattazione in file testo di file PPT o PDF protetti da

password), ma che sono stati ugualmente utilizzati per le ricerche

terminografiche.

Per far sì che venissero considerati a fini statistici solo i termini

effettivamente presenti nei corpora, si è provveduto a ripulire il GdR di tutti i

termini non contenuti nei suddetti corpora. Il numero di lemmi per ogni lingua

dopo questa fase è riportato in Tabella 3:

27


Termini iniziali Termini finali Italiano 177 136 Tedesco 175 158 Inglese 193 155

Tabella 3: Numero di termini del GdR presenti nei corpora

28

Estrazione terminologica per interpreti di conferenza Capitolo VI

Capitolo VI

Metodo di analisi dei dati ottenuti

Recall e precision

Nella linguistica computazionale e in particolar modo nell’ambito

dell’estrazione terminologia e dell’Information Retrieval si ricorre spesso a due

concetti, recall e precision, che possiamo definire molto concisamente con le

parole di Ahmad e Roger:

“Recall” is the proportion of relevant materials retrieved from a text collection

given a set of terms. “Precision” is the proportion of retrieved materials that

are relevant.

(2001: 748)

In altre parole, dato un corpus contenente un certo numero di termini,

recall è la percentuale di termini candidati effettivamente estratta in relazione

al numero totale di termini contenuti nel corpus. La percentuale di quei termini

considerati validi, calcolata in relazione ai termini estratti, costituisce invece la

precision.

Come osserva Strehlow (201: 429), il rapporto tra recall e precision è in

genere inversamente proporzionale: all’aumentare del valore di recall

tipicamente diminuisce la precision. Questa caratteristica gioca un ruolo molto

importante nel determinare le condizioni di lavoro dei software di estrazione

terminologica. Risulta sempre necessario, come nel caso dei nostri esperimenti,

determinare un punto in cui fermare l’estrazione o, più esattamente, un punto

che faccia da cesura fra i possibili termini candidati e quelli che non si

vogliono considerare. L’obiettivo ideale è ovviamente quello di avere una lista

29


finale di termini candidati che contenga tutte le unità terminologiche che

compongono il testo da cui sono stati estratti e nessun termine da scartare.

Il principio che sta alla base del rapporto recall/precision può essere

meglio compreso se si pensa al seguente paradosso: se si operasse

un’estrazione terminologica in cui tutte le parole – si utilizza il termine parola

per identificare qualsiasi combinazione di lettere e non per forza un termine

(v. ) – venissero estratte (recall 100%), allora

avremmo sì tutti i termini, ma al contempo anche il più alto numero possibile

di quelle non desiderate, il cosiddetto rumore, e di conseguenza il valore della

precision sarebbe basso. Diminuendo il valore di recall, oltre a ridurre il

numero di termini che vengono estratti, si andrà invece con tutta probabilità a

eliminare anche alcuni termini che si avrebbe voluto ottenere come output del

processo. Nonostante ciò, se al diminuire dei termini estratti aumenterà la

proporzione dei termini considerati accettabili, l’andamento del valore di

precision tenderà comunque ad aumentare. Estremizzando ci si potrebbe

trovare nuovamente di fronte ad un paradosso: estrarre una sola parola, un

termine, ottenendo così una precision del 100%.


Idealmente il sistema di estrazione terminologica perfetto è quello in

grado di operare un’estrazione in cui la precision risulti essere del 100% – tutti

i termini da estrarre sono stati individuati – e che presenti al contempo un

valore di recall del 100% – fra le parole estratte ritroviamo soltanto termini.

Ovviamente un sistema di questo tipo non esiste e probabilmente non

esisterà mai. A impedirne la realizzazione non concorre soltanto l’aspetto

tecnico, ma anche quello teorico: cosa si vuole davvero estrarre? È sufficiente

pensare al lavoro terminologico tradizionale. Due terminologi che lavorano

sullo stesso testo e per lo stesso committente tenderanno comunque a

identificare una serie leggermente differente di termini. Risultati più uniformi

si possono ottenere soltanto istruendo i terminologi su cosa esattamente dovrà

essere estratto. Lo stesso principio vale anche per l’estrazione semi-automatica.

I modelli di estrazione fino ad ora sviluppati non sono però ancora così

sofisticati da poter raggiungere quel grado di “risoluzione” che permetta di

30


restringere significativamente il campo dei termini candidati estratti. Esistono

sì già numerosi tentativi che cercano di concentrare l’attenzione del sistema su

particolari aspetti terminologici, ad esempio la ricerca automatica delle

collocazioni7, ma è ancora lontano dall’essere raggiunto l’obiettivo di estrarre

solo e soltanto quei termini di cui l’utente ha davvero bisogno.

Poiché nel nostro studio si vogliono confrontare i risultati delle

estrazioni automatiche con i termini presenti nel glossario di riferimento

compilato manualmente (v. ), si è

reso necessario ridefinire o meglio adattare il concetto di recall alle

caratteristiche della presente ricerca: nel nostro esperimento definiamo recall il

rapporto tra i termini estratti dal sistema e presenti nel glossario di riferimento

e il numero totale di termini estratti, ovvero:

Caratteristiche del glossario di riferimento

100×=GdR nel presenti emanualment estratti Termini

GdR nel presenti e (cat.1) menteautomaticaestratti TerminiRecall

Il valore di recall ci permette di avere un’idea della percentuale dei

termini presenti nel glossario di riferimento che sono stati estratti dal sistema di

estrazione terminologica e di conseguenza della capacità del suddetto sistema

nell’estrarre quei termini che sono stati considerati dal terminologo come tipici

del dominio studiato. In pratica consideriamo i termini estratti manualmente

come se fossero gli unici termini presenti nel corpus e che quindi si desidera

estrarre. Un recall del 100% significherebbe che tutti i termini del glossario di

riferimento sono stati estratti. Se accompagnato da un alto valore di precision

sicuramente il risultato auspicabile.

Normalizzazione dei risultati

Le liste di risultati ottenute con i vari sistemi di estrazione

terminologica sono state rivedute manualmente per uniformare i risultati e

migliorare l’attendibilità dei risultati finali. Per prima cosa si è ritenuto

7 Si veda ad esempio Krenn.

31


opportuno lemmatizzare tutti i termini manualmente. Nonostante ci si possa

affidare a software in grado di adempiere a questo compito in maniera

completamente automatica (v. ) e

sebbene i tool testati offrano questa possibilità – BootCaT attraverso i tree-

tagger, Terminology Wizard impostando come pattern da estrarre le versioni

lemmatizzate e Wordsmith con le funzioni auto-joining-lemmas e choosing

lemma files – si è preferito far sì che la valutazione non venisse influenzata da

tale processo che avrebbe altrimenti richiesto ulteriori analisi e verifiche non

previste in questa ricerca.

Estrazione automatica: alcuni principi

Dopo aver lemmatizzato i risultati sono state preparate delle tabelle,

suddivise per lingua, contenenti sia le singole liste di termini candidati ottenuti

con le varie estrazioni, sia una lista unica di tutti i termini ottenuti con tutti i

metodi utilizzati. Questa lista randomizzata non riportava indicazioni sul tool

con cui il termine candidato era stato estratto. I termini, ordinati

alfabeticamente, sono così stati presentati a vari esperti affinché questi

potessero assegnare i vari candidati ad una categoria proposta nella tassonomia

da noi elaborata. In questo modo si è reso possibile valutare i vari termini

candidati senza essere influenzati dal tool che ha eseguito l’estrazione. Inoltre

l’ordine alfabetico con cui i dati sono stati visualizzati ha permesso di valutare

con uniformità tutti i termini candidati: in questo modo lo stesso termine ha

ricevuto la stessa valutazione che, benché passibile di una certa arbitrarietà,

con questo metodo di visualizzazione dei risultati è stata omogenea fra i vari

sistemi di estrazione.

Tassonomia

Per poter valutare i termini estratti dai vari sistemi di estrazione

terminologica e confrontarli con quelli contenuti nel glossario di riferimento si

è ritenuto opportuno creare tre tassonomie, una di primo e due di secondo

livello, che tenessero conto non soltanto dei termini estratti e contenuti nel

glossario di riferimento ma anche di tutti quelli che, seppur non presenti in tale

glossario, potessero avere comunque una certa rilevanza nel dominio analizzato

32


o per l’utente finale. È infatti interessante poter valutare quali altri termini

specialistici, non evidenziati nel lavoro terminologico manuale, possano essere

estratti con un metodo semi-automatico.

Tassonomia di primo livello

La seguente tassonomia di carattere generale, definita nella nostra

ricerca di primo livello, è atta a classificare tutti i termini candidati estratti

secondo principi di tipo semantico, morfosintattico e terminologico.

Essa è costituita da cinque categorie:

1. termini contenuti nel glossario di riferimento;

2. termini specialistici afferenti al dominio esaminato;

3. termini medici generali;

4. termini ben formati ma generici;

5. termini scorretti.

L’operazione di attribuire un valore a tutti i termini candidati (per un

totale di 4105), cioè di assegnarli ad una categoria definita nella suddetta

tassonomia, è stata effettuata manualmente. Come sottolineato in precedenza,

per garantire il più alto livello di imparzialità possibile i vari termini sono stati

randomizzati e valutati senza conoscere il tool con cui sono stati estratti. Inoltre

sono stati catalogati in modo tale che un termine ricevesse la stessa valutazione

in tutte le estrazioni.

In Tabella 4 sono riportati alcuni esempi di termini candidati e la

categoria ad essi assegnati:

Italiano Tedesco Inglese 1 Anamnesi Granulozyten Induction therapy 2 Leucemia

mieloblastica acuta Myeloische Leukämie Allogenic peripheral

blut 3 Apparato urinario Antibiotische Therapie Bone 4 Fattore Statistische

Auswertung Journal

5 Sempre alla stessa Kind selten Recurrent childhood Tabella 4: Esempi di assegnazione dei termini alle 5 categorie

33


Ovviamente una tale categorizzazione, come sottolinea Leopardi (2000:

302), comporta sempre un certo livello di arbitrarietà. È evidente che decidere

se un termine appartenga ad esempio alla categoria 2 o 3, ovvero se da

considerarsi appartenente al sottodominio “leucemia” oppure a quello afferente

invece al dominio più generale “medicina”, non è un’operazione del tutto

scontata (v. ). Esistono infatti termini generici e

facilmente comprensibili che però sono tipici se non addirittura fondamentali in

un determinato linguaggio specialistico (v. ):



È innegabile che vi siano tutta una serie di termini – e in molti casi sono quelli

portanti all’interno di una o più discipline – che risultano relativamente di

facile comprensione a livello di significato di base per chiunque e che si

ritrovano nei dizionari generali.

(Rega, 2002:54)

Cosa fare? Il terminologo – o altro utente – che si occupa di un dominio

molto specialistico si troverà davanti a due opzioni:

[…] potrà decidere di rilevarli comunque in una raccolta terminografica in

quanto, in quest’ultima, essi saranno definiti in modo (per quanto possibile)

univoco, ovviamente all’interno della disciplina (o sottodisciplina) cui la

raccolta fa riferimento. […] A tale decisione si contrappone quella di non

rilevare parole importanti, ma così scontate da appesantire la raccolta

terminografica.

(Rega, 2002:55)

Vista la relativa arbitrarietà di giudizio, l’obiettivo principale perseguito

è stato quello di garantire almeno il più alto livello possibile di uniformità fra i

vari sistemi così da rendere il confronto il più possibile aderente alla realtà e

senza risultati falsati fra i vari metodi.

34


Tassonomie di secondo livello

Introdotta la tassonomia di primo livello per la valutazione dei sistemi

di estrazione terminologica è stato necessario introdurre altre due tassonomie,

dette di secondo livello (T2a e T2b) nel tentativo di tenere conto delle diverse

esigenze del fruitore finale dei dati estratti.

Come abbiamo già detto, il problema del pubblico, che cerchiamo di

definire nell’ottica dell’interpretazione, è di fondamentale importanza per la

creazione di un glossario:

La domanda di che cosa sia il termine dev’essere secondo noi relativizzata

ponendo contestualmente altre due domande, ovvero qual è il pubblico e qual

è lo scopo di una terminologia

(Ahmad, 1994: 269)

Si può supporre, ad esempio, di trovarsi di fronte a due tipi di interpreti:

il primo ha accumulato nel corso della sua attività professionale esperienza

nell’ambito più generale di cui il tema specifico costituisce un sottodominio.

Nel nostro caso possiamo supporre un interprete che lavori abitualmente in

campo medico e che quindi abbia famigliarità con il gergo di questa disciplina

e possieda un vocabolario attivo e passivo che copre le espressioni tipiche del

suddetto dominio. Ciò di cui avrà bisogno quindi sarà soltanto di acquisire le

nozioni linguistiche ed extralinguistiche relative al settore specifico per cui è

chiamato ad interpretare (leucemia linfoblastica).

Una situazione diversa si ha quando l’interprete affronta un tema

appartenente ad un ambito a lui completamente sconosciuto o in cui non lavora

abbastanza spesso da aver sviluppato un vocabolario attivo (piuttosto che

passivo) sufficiente per affrontare con successo la simultanea. In questo caso

sarà utile esercitare, cioè rendere attivi, non solo la terminologia strettamente

tecnica e relativa alla sola conferenza, ma anche quei termini e quelle

espressioni che generalmente non presentano problemi di comprensione ma di

cui spesso sia ha il problema sottolineato da Kurz: «Bisweilen hat der

35


Dolmetscher auch mit der zielsprachlichen Produktion Probleme: Es liegt ihm

ein Wort auf der Zunge und will ihm nicht einfallen» (1996: 96).

Le tassonomie di secondo livello di seguito proposte tengono conto di

questa relatività del termine e della sua dipendenza dalle esigenze dell’utente

finale.

L’obiettivo ultimo è quello di definire tassonomie che rappresentino da

un lato quei termini che vengono “accettati” dall’ipotetico fruitore finale e

dall’altro quelli che invece vengono “rifiutati” e che costituiscono il rumore,

tassonomie quindi che tengano conto della qualità del processo di estrazione

indipendentemente dal glossario di riferimento utilizzato come primo metro di

misura “assoluta”, ma che considerino unicamente il fruitore delle liste

terminologiche come giudice finale.

Per verificare con quale precisione i vari sistemi estraggono soltanto la

terminologia specifica del dominio (leucemia linfoblastica) si è creata la

tassonomia di secondo livello T2a secondo la formula:

T2a = {A1,B1}

dove A1 = {1,2} e B1 = {3,4,5}. A1 è il valore dei termini “accettati”,

cioè la somma dei valori percentuali delle categorie 1 (termini estratti e

presenti nel glossario di riferimento) e 2 (termini estratti specifici del dominio

esaminato ma non contenuti nel glossario di riferimento). A1 risulta quindi

costituito soltanto da termini specialistici appartenenti al dominio specifico

analizzato (Leucemia linfoblastica). Con questa tassonomia il sistema di

estrazione terminologica viene quindi valutato positivamente soltanto se è in

grado di estrarre la terminologia specifica afferente al dominio sotto esame.

Per verificare con quale precisione i diversi sistemi abbiano estratto

tutta la terminologia inerente al dominio più generale a cui il tema specifico

appartiene (nel nostro caso medicina) e la terminologia specifica del

sottodominio si è creata la tassonomia di secondo livello T2b:

T2b = {A2,B2}

36


dove A2 = {1,2,3} e B2 = {4,5}. A2 è il valore dei termini accettati,

cioè la somma delle percentuali delle categorie 1 (termini estratti e presenti nel

glossario di riferimento), 2 (termini estratti specifici del dominio esaminato ma

non contenuti nel glossario di riferimento) e 3 (termini medici generali). A2 è

quindi costituito sia dai termini specifici appartenenti al dominio specialistico

indagato (leucemia linfoblastica) sia al più vasto dominio di cui esso è un

sottoinsieme (medicina). Con questa tassonomia il sistema di estrazione

terminologica viene valutato positivamente se in grado di estrarre tutti quei

termini tipici del linguaggio medico e quelli del settore specifico medico

esaminato.

B1 e B2 costituiscono invece i valori di disturbo, tutti quei termini, che

vengono considerati non “accettati” e che contribuiscono a peggiorare il valore

di precision dei software e di conseguenza la loro fruibilità.

Selezione dei termini

Per poter valutare manualmente, secondo la tassonomia proposta in

6.3., i termini candidati estratti automaticamente e per far sì che il confronto fra

le varie metodologie analizzate nella presente ricerca fosse il più omogeneo

possibile si è deciso di ridurre il numero dei termini candidati ad un massimo di

400. I criteri utilizzati per queste operazioni sono differenti da sistema a

sistema.

37

Estrazione terminologica per interpreti di conferenza Capitolo VII

Capitolo VII

Estrazione terminologica con BootCaT(web)

Il tool BootCaT

BootCaT, costruito secondo il principio della modularità, è composto da

una serie di tool indipendenti che ne garantiscono una delle sue caratteristiche

più importanti: la flessibilità. Grazie a questa sua peculiarità è possibile ad

esempio utilizzare anche solo singoli sottoinsiemi del toolkit, verificare gli

output parziali e aggiungere o eliminare alcune componenti senza dover per

questo modificare le altre.

Il suo funzionamento può essere suddiviso in due parti fondamentali:

nella prima un algoritmo permette di raccogliere il corpus dal web e una lista di

unigrammi caratteristici del dominio sotto esame. Nella seconda questa lista

viene utilizzata per estrarre, secondo pattern linguistici e principi di rilevanza

statistica, la terminologia supposta essere rappresentativa del dominio.

Il principio di funzionamento

Il principio del suo funzionamento è relativamente semplice. Partendo

da una serie di seed (da 5 a 15), termini considerati tipici del dominio

analizzato, viene creato un corpus utilizzando la funzione di ricerca di Google.

Diversi esperimenti hanno dimostrato che è possibile realizzare dei corpora di

dimensioni e qualità soddisfacenti anche partendo da due soli seed (Baroni e

Bernardini, 2004).

38

http://sslmit.unibo.it/~baroni/bootcat.html

http://www.google.com/


I seed, combinati casualmente in n-

tuple, vengono utilizzati come stringhe di

ricerca in Google. La scelta del valore n –

generalmente triplette o coppie – dipende da

diversi fattori. Uno di questi è la quantità di

materiale afferente al dominio indagato

disponibile in internet nonché la sua

specificità. Google ha infatti la caratteristica

di presentare fra i risultati della ricerca solo

quelle pagine che contengono tutti i seed

Select Initial Seeds

Run Google queries

Retrieve Corpus

Extract Seeds (Unigram Terms)

Extract Multi-Word Terms

T
Figura 1- Il workflow di BootCa
contenuti nella query; la ricerca con triplette molto specialistiche in un tema o

in una lingua che presentano pochi documenti sulla materia non produce per

questo motivo risultati di rilievo. In questo caso è allora opportuno utilizzare

delle coppie che garantiscono un numero maggiore di risultati.

Le URL così ottenute vengono quindi scaricate e formattate in file di

testo. BootCaT permette di convertire in questo formato non soltanto i file

HTML, ma anche DOC e, forse ancora più importante, i file PDF. Questa

ultima caratteristica è di fondamentale importanza per garantire un certo livello

di qualità e specificità al corpus specialistico ottenuto. È infatti noto che molti

testi della comunità scientifica pubblicati in rete sono file PDF. In formato

HTML sono invece reperibili soprattutto pagine di carattere

generico/introduttivo. Uno studio sul rapporto tra qualità, quantità, tipologia e

formato dei testi è auspicabile.

A questo punto è possibile estrarre statisticamente dal corpus generato

con tale procedura una serie di unigrammi da utilizzare come nuovi seed per la

ricerca con Google. La reiterazione della ricerca permette di ingrandire a

piacimento le dimensioni del corpus (ovviamente in relazione alla quantità di

materiale disponibile sul web). Nel nostro esperimento questa procedura però

non è stata utilizzata sia perché i corpora ottenuti con la prima serie di seed

avevano già dimensioni considerate sufficientemente grandi sia per evitare il

39


pericolo insito in questo procedimento, quello cioè di allontanarsi troppo dal

dominio sotto esame.

Nella seconda fase il corpus e la lista di unigrammi vengono utilizzati

per estrarre secondo principi linguistici una lista di termini complessi, sequenze

di parole che devono rispettare alcune costrizioni per quanto riguarda struttura

morfosintattica, frequenza e distribuzione. In assenza di informazioni

morfosintattiche il tool permette comunque di effettuare un’estrazione sulla

base di parametri statistici/distribuzionali.

La creazione del corpus specialistico8

Prima di iniziare la fase di creazione del corpus con BootCaT è

necessario che l’utente intervenga su una serie di parametri di impostazione

che vanno ad influenzare il tipo di ricerca effettuata da BootCaT su Google.

Fra i più importanti ricordiamo il numero di seed, la loro composizione (n-

tuple), il numero di query e il numero di pagine da scaricare per ogni query.

L’input di cui il software ha bisogno per iniziare una ricerca è costituito

da un file di testo contenente un seed per riga. Come è tipico per molti motori

di ricerca, le multi word expression vanno espresse tra virgolette. Il seguente

script permette di costruire le n-tuple:

$ build_random_tuples.pl –n –l seeds > tuples

dove –n è la dimensione di tupla, –l è il numero di tuple e seed il nome

del file di testo contenente i seed. Nel nostro esperimento sono stati utilizzati i

seguenti parametri -n 20, -l 20. I seed impiegati per le varie lingue sono

riportati in Tabella 5. Come appare evidente si è optato per gli stessi termini in

tutte e tre le lingue. L’obiettivo era quello di evitare condizioni di partenza

differenti fra le varie lingue ad esempio con seed “migliori” in una lingua

piuttosto che in un’altra. Quali caratteristiche devono possedere i seed è un

altro ambito che necessita ulteriori approfondimenti. Esperimenti atti a 8 Gli script utilizzati in questa fase sono riportati integralmente in Appendice.

40


verificare quanto i seed iniziali influenzino il risultato dell’estrazione sono

auspicabili.

Nello specifico del lavoro dell’interprete potrebbe essere ipotizzabile

come prima lista di seed termini contenuti nel nome della conferenza, nei titoli

degli interventi degli oratori e/o, se disponibili, negli abstract. Conditio sine

qua non è comunque che tali seed siano tipici del dominio di interesse.

Italiano Tedesco Inglese leucemia Leukämie Leukemia “midollo osseo” Knochenmark “bone marrow” LLA ALL ALL chemoterapia Chemoterapie chemotherapy trapianto Transplantation transplantation “leucemia acuta linfoblastica”

“akute lymphatische Leukämie”

“acute lymphoblastic leukemia”

linfocita Lymphozyt Lymphocyte “puntura lombare” Liquorpunktion “lumbar puncture” leucociti Leukozyten Leukocytes

Tabella 5: Seed usati per la ricerca con BootCaT

Create le n-tuple, il seguente script permette di scaricare la lista di URL

che rispondono alle varie query (tuple):

$ collect_urls_from_google.pl –l LANGUAGE -c N -k GOOGLE_API_KEY- > urls

dove –k è la password ottenuta da Google, -c il numero di pagine da

scaricare per ogni tupla e -l la lingua.

Il numero di URL ottenute con –c 20, ripulite automaticamente dai

doppioni che possono risultare dalle ricerche multiple effettuate con Google,

sono riportate nella seguente tabella:

Italiano Tedesco Inglese URL 308 128 304

Tabella 6: URL ottenute con BootCaT

Una volta ottenuta la lista di URL è possibile iniziare a scaricare i

documenti individuati e a formattarli in file di testo, utilizzando i seguenti tre

comandi (per documenti HTML, doc e pdf):

41

http://www.google.com/apis


$ grep -v “CURRENT_SEED” urls | grep -v “NO_RESULTS_FOUND” | sort | uniq | print_pages_from_url_list.pl > html.txt $ grep -v “CURRENT_SEED” urls | grep -v “NO_RESULTS_FOUND” | sort | uniq | convert_doc_to_text.pl > doc.txt $ grep -v “CURRENT_SEED” urls | grep -v “NO_RESULTS_FOUND” | sort | uniq | convert_pdf_to_text.pl > pdf.txt

Con il procedimento sopra descritto si sono così ottenuti tre corpora

delle seguenti dimensioni:

Italiano Tedesco Inglese New line 76.347 68.446 66.712 Word 1.760.421 946.460 453.417 Byte 12.519.130 7.555.510 3.086.908

Tabella 7: Dimensioni dei corpora non ancora tokenizzati

Com’è possibile notare dalla Tabella 7, le dimensioni dei corpora

specialistici ottenuti nelle varie lingue presentano delle notevoli differenze e

ciò nonostante si sia partiti da condizioni iniziali molto simili (vedi seed e

impostazioni di BootCaT). Le possibili spiegazioni sono molteplici.

Innanzitutto sembra che questo fenomeno non dipenda direttamente dalla

lingua. È ragionevole infatti pensare che la maggior parte dei documenti

riguardanti un tema così specifico in ambito medico siano in lingua inglese. Il

fatto che invece il corpus di maggiori dimensioni sia quello italiano (circa 3

volte più grande di quello inglese) dà adito all’ipotesi che ci siano altre

variabili in gioco. Un’ipotesi plausibile riguarda la percentuale di documenti in

un particolare formato che sono stati individuati e scaricati da BootCaT. La

maggior parte dei documenti ottenuti per l’italiano ed il tedesco sono infatti in

formato PDF mentre per l’inglese questo formato compare soltanto in 13 URL

(4,28% del totale). I testi in tale formato appaiono essere di carattere più

specialistico e solitamente sono di dimensioni maggiori rispetto ai file HTML.

Per ottenere con BootCaT un numero maggiore di URL che contengano file in

formato PDF è sufficiente modificarne i parametri di ricerca intervenendo – ad

esempio aggiungendo il comando filetype:PDF – a livello delle stringhe di

ricerca.

È quindi possibile apportare la seguente modifica al comando sopra

presentato:

42

http://www.google.com/help/features.html


$ perl -ane ‘s/\r//; print’ seeds.txt | build_random_tuples.pl -l 20 | gawk ‘{print $0 “ filetype:PDF”}’ | collect_urls_from_google.pl -l LANGUAGE -c 20 -k API_KEY - > url

Ovviamente al posto di “filetype:PDF” può essere inserito anche un

qualsiasi altro formato supportato da Google.

Osservazioni sulla creazione di corpora specialistici con BootCaT

Uno dei principali criteri di cui si tiene conto nel creare dei corpora per

fini traduttivi è quello di scegliere testi “rappresentativi”, ovvero testi che,

trattando un tema particolare, rappresentino il dominio sotto esame in termini

di sintassi, lessico e registro. All’idea di rappresentatività si accosta poi quella

di “qualità”, vale a dire la ricerca di testi che siano autorevoli. Se la fase di

valutazione delle componenti “rappresentatività” e “qualità” avviene di norma

manualmente in fase di creazione del corpus (come è il caso del nostro corpus

specialistico-manuale), il tool BootCaT provvede alla raccolta del corpus senza

supervisone umana. Questa caratteristica porta inevitabilmente anche alla

presenza nel corpus di testi che non sono desiderati, sia perché non sono

inerenti al dominio, sia perché presentano un livello di qualità normalmente

non considerato sufficiente per un lavoro terminologico. Non va però

dimenticato che anche i corpora ad hoc compilati manualmente non devono

essere considerati come una fonte indiscutibile di soluzioni definitive (nel

nostro caso lessicali). Infatti, come osserva Bernardini:

“(…) corpus users must be aware of the risks involved in absolute judgments

(…). Indeed, the practice of consulting a corpus and critically assessing the

validity of the results obtained is in itself a valuable experience. Thus,

‘corpus-awareness’ might be considered both as a necessary methodological

presupposition for successful corpus-aided learning, and as a first step towards

increased language-awareness.”

(2000: 109)

43


Questo possibile fattore di disturbo – la presenza di testi non pertinenti

– viene bilanciato da due vantaggi del metodo BootCaT: il fattore tempo e

quello dalle dimensioni del corpus. Innanzitutto BootCaT permette di superare

uno dei grandi ostacoli all’utilizzo dei corpora linguistici: il dispendio di tempo

necessario a realizzare manualmente un corpus di sufficienti dimensioni. Con

BootCaT sono invece sufficienti pochi script per ottenere corpora di milioni di

parole. La raccolta dei nostri corpora, una volta creata la lista dei seed, è durata

infatti soltanto pochi minuti. L’altra dimensione, quella della grandezza,

contribuisce a diminuire l’effetto “inquinante” dovuto alla presenza nel corpus

di testi non desiderati: l’influenza di un testo su un corpus diminuisce, infatti,

tanto più il corpus cresce di dimensioni.

L’estrazione9

Di seguito vengono riportate le procedure seguite per estrarre la

terminologia specifica dai corpus analizzati. Si tratta del modulo di BootCaT

dedicato all’estrazione della terminologia da un corpus di testi. La stessa

procedura verrà utilizzata anche per la seconda estrazione effettuata con

BootCaT che non si baserà sul corpus raccolto automaticamente dal web, bensì

su quello compilato manualmente.

Introduzione

Il metodo di estrazione utilizzato nel nostro esperimento si differenzia

sostanzialmente da quello utilizzato da Baroni e Bernardini (2004) nella fase di

sperimentazione di BootCaT, anche questo un segno di come il tool sia

particolarmente flessibile. La nostra estrazione dal corpus raccolto con il

metodo descritto nel capitolo 7.3. si basa sulla combinazione di metodi

linguistici e statistici. In questo modo si cerca di trarre il maggior profitto da i

due approcci all’estrazione terminologica più diffusi (Vivaldi e Rodríguez,

9 In Appendice è riportata la procedura completa seguita in questa fase.

44


2001): quello statistico, basato sull’attribuzione della rilevanza di un termine in

base alla sua frequenza nel corpus specialistico e al suo rapporto con un corpus

di riferimento10 e quello linguistico che cerca di valutarne la specificità in base

alle strutture morfosintattiche del termine e/o dell’ambiente linguistico che lo

circonda.

Prima fase: estrazione degli unigrammi

La prima fase della nostra estrazione è puramente statistica e ha come

obiettivo quello di creare una lista di unigrammi caratteristici del dominio

specialistico sotto esame. Il principio è analogo a quanto utilizzato per

l’estrazione con Wordsmith (v. ) e si basa sul confronto del corpus

specialistico con un corpus di riferimento di notevoli dimensioni. Come

corpora di riferimento sono state utilizzate delle raccolte di testi provenienti dal

Parlamento Europeo. Il fatto che tali testi coprano una vasta gamma di temi

rende i corpora particolarmente adatti all’utilizzo nel nostro esperimento.

Wordsmith

Per prima cosa è necessario tokenizzare i corpora, ossia individuare ed

isolare le parole e formattare i testi cosicché presentino una sola parola per

riga. Poiché il corpus specialistico è ottenuto da file pubblicati in internet,

questi per forza di cose contengono un grande numero di parole appartenenti al

dominio della rete. Un’idea semplice ma utile utilizzata nel nostro esperimento

è stata quella di eliminare queste parole – es. http, HTML, Email, etc. –

avvalendosi si una stop word list appositamente compilata.

Le dimensioni dei corpora di riferimento e dei corpora specialistici

tokenizzati sono riportate nella seguente tabella:

Italiano Tedesco Inglese Riferimento 3.288.496 3.109.525 3.388.390 Speciale 1.512.766 813.817 422.037

Tabella 8: Dimensioni (espresse in token) dei corpora di riferimento e specialistici

10 Per un approfondimento sul confronto fra due o più corpora si veda: Rayon e Garside.

45

http://people.csail.mit.edu/people/koehn/publications/europarl/


Dopo aver tokenizzato i corpora specialistici ottenuti con BootCaT e

quelli di riferimento si è provveduto a preparare i corpora in una tabella per il

calcolo delle due misure di associazione, Mutual Information (MI) e Log-

Likelihood ratio (LL), descritte nei capitoli 3.2 e 3.3. Per questo calcolo si sono

utilizzati i tool di UCS.

The UCS toolkit is a collection of libraries and scripts for the statistical

analysis of co-occurrence data. Data sets – each one containing a list of word

pairs together with their joint and marginal frequencies – are stored in a

tabular format in plain (compressed) text files. They can be viewed, printed,

manipulated in various ways, annotated with association scores from a wide

range of built-in measures, ranked, and sorted with the UCS/Perl system.

(Evert, 2004)

I seguenti script creano una tabella in cui ogni parola del corpus

specialistico è accompagnata dal rispettivo valore MI e LL.

$ prepare_corp_comp_table.pl –o table.ds corpus_specialistico.tok corpus_di_riferimento.tok $ ucs-add -v am.MI am.log.likelihood TO table.ds INTO table.am.ds

Dopo alcune sperimentazioni sono stati selezionati i seguenti parametri

relativi alle misure di associazione: per MI sono state escluse le parole di

lunghezza inferiore ai tre caratteri e quelle con una frequenza inferiore alle 50

occorrenze; per LL sono state escluse le parole inferiori ai tre caratteri e parole

con una frequenza superiore alle 4999.

Per entrambe le misure di associazione sono state poi considerate

soltanto le prime 200 parole. A questa lista sono stati aggiunti gli acronimi

estratti separatamente con un metodo molto semplice ma a nostro avviso

efficace. La seguente stringa di comandi permette di ottenere tutte quelle parole

lunghe da due a quattro caratteri maiuscoli che, a buona ragione, possono

essere considerate degli acronimi:

46

http://www.collocations.de/


$ cat html.txt doc.txt pdf.txt | egrep -v “CURRENT URL” | perl -ne ‘s/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print’ | grep -v “^$” | grep -v “[a-z]” | gawk ‘$1 ~/[A-Z]/ && length($1)>2 && length($1)<5’ | sort | uniq -c | sort -nrk1 > acro

Al termine di questa prima estrazione, che avviene esclusivamente su

base statistica, si sono ottenute tre liste di parole (unigrammi) tipiche del

dominio considerato (tabella 10). Tale lista, una volta eliminate le parole

ricorrenti più di una volta, può essere, come descritto in 2.1.3., utilizzata come

input per un’ulteriore ricerca con BootCaT.

Italiano Tedesco Inglese 390 355 298

Tabella 9: Unigrammi ottenuti statisticamente

Italiano Tedesco Inglese anemia B-ALL cyclophosphamide induzione Blasten cyclosporine EFS Blutbild cytarabine leucociti Chemotherapie leukemia citogenetica Erbrechen MRD

Tabella 10: Esempi di unigrammi estratti

Seconda fase: l’annotazione

Per intervenire linguisticamente sul processo di estrazione così da

ottenere solo candidati che rispettino certi pattern morfosintattici si è

provveduto ad annotare morfosintatticamente (part-of-speech annotation) i

corpora specialistici, vale a dire assegnare alle diverse parole (o token)

un’etichetta (tag) che ne indichi parte del discorso e/o categoria grammaticale.

A tale fine sono stati impiegati i tree-tagger (Schmidt,1994) per le lingue

italiana, tedesca ed inglese:

$ cat html.txt doc.txt pdf.txt | grep -v “CURRENT URL” | tree-tagger-LINGUA > corpus_specialistico.tgd

47

http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html


Successivamente sono stati creati bi- e trigrammi dai corpora annotati:

$ tail +2 spec.tgd | paste spec.tgd - | gawk ‘NF==6’ > spec.tgd.bigrams $ tail +3 spec.tgd | paste spec.tgd.bigrams - | gawk ‘NF==9’ > spec.tgd.trigrams

Parola POS Lemma Quando CON quando

la DET:def il clinica NOM clinica pone VER:pres porre

indicazione NOM indicazione a PRE a

una DET:indef una valutazione NOM valutazione

di PRE di laboratorio NOM laboratorio

di PRE di una DET:indef una

febbre NOM febbre Tabella 11: Esempio di POS con tree-tagger-Italian

Una volta annotato il testo con tree-tagger si è provveduto

all’estrazione dei pattern secondo i seguenti schemi morfosintattici:

Italiano Tedesco Inglese N+ADJ+ADJ ADJ+ADJ+N ADJ+ADJ+N

N+ADJ ADJ+N ADJ+N N N N

N+N N+N N+PRE+N N+N+N

Tabella 12: Pattern per l’estrazione con BootCaT

BootCaT, attraverso lo script filter_multi_word_expressions.pl,

permette di filtrare i termini complessi. Sostanzialmente si verifica la presenza

di almeno un unigramma contenuto nella lista prima generata (v. )

all’interno dei vari pattern estratti con il metodo sopra descritto. Solo quei

termini che rispettano i pattern riportati in Tabella 12 e che contengono almeno

un unigramma estratto con il metodo statistico, e quindi tipico del dominio,

diventano i candidati dell’estrazione.

Wordsmith

48


I risultati

Le Tabelle 13, 14 e 15 riportano i cinque termini candidati più frequenti

ottenuti con il metodo sopra descritto:

Posizione Unigramma Bigramma Trigramma 1 malattia Midollo osseo Intervento chirurgico

sistematico 2 sede Condizione

morbosa Tessuti sottostanti profondi

3 cellule Complicazione antepartum

Leucemia linfoblastica acuta

4 tipo D. g. sanità Sindrome di malattia 5 sindrome Sanità elenco Trapianto di midollo

Tabella 13: I 5 candidati più frequenti (italiano)

Posizione Unigramma Bigramma Trigramma 1 Patienten Weiße

Blutkörpchen Akute lymphatische Leukämie

2 Therapie Rote Blutkörpchen

Inaktive entzündlich-rheumatischen Erkrankung

3 Zellen Akute Leukämie Aktive entzündlich-rheumatischen Erkrankung

4 Leukämie Innere Medizin Akute myeloische Leukämie 5 Behandlung Peripheres Blut Kleine graue Zellen

Tabella 44: I 5 candidati più frequenti (tedesco)

Posizione Unigramma Bigramma Trigramma 1 leukemia blood cell acute lymphoblastic leukemia 2 cell leukemia cell bone marrow transplantation 3 blood side effects acute myeloid leukemia 4 patient red blood central nervous system 5 marrow clinical trial acute lymphocytic leukemia

Tabella 15: I 5 candidati più frequenti (inglese)

Le seguenti tabelle riportano i risultati finali dell’estrazione eseguita

con il metodo sopra descritto. Nella prima colonna sono riportate le categorie

della tassonomia proposta in 6.3., nella seconda il numero di termini estratti

assegnati a ciascuna categoria, nella terza il valore percentuale ottenuti nelle

varie categorie e nell’ultima il valore di recall (v. ): Recall e precision

Tassonomia Termini estratti % Recall 1 13 3,68 9,56

49


Tassonomia Termini estratti % Recall 2 85 24,08 3 201 56,94 4 30 8,5 5 24 6,8

Tot. 353 100 Tabella 16: Risultati estrazione italiano

Tassonomia Termini estratti % Recall 1 50 15,01 32,64 2 145 43,54 3 78 23,42 4 35 10,51 5 25 7,5

Tot. 333 99,98 Tabella 17: Risultati estrazione tedesco


Tot. 317 99,99 Tabella 18: Risultati estrazione inglese

50

Estrazione terminologica per interpreti di conferenza Capitolo VIII

Capitolo VIII

Estrazione terminologica con BootCaT(corpus)

Il tool BootCaT(corpus)

L'estrazione dei termini candidati dal corpus di riferimento manuale è

stata realizzata seguendo la stessa procedura, script e comandi utilizzati per

BootCaT con l’unica differenza che in questo caso il corpus analizzato non è

stato creato ad hoc dalla rete, utilizzando le funzioni caratteristiche di

BootCaT, ma impiegando il corpus raccolto manualmente (v.

).

Caratteristiche

dei corpora specialistici

I risultati

Nel tentativo di rendere il più omogeneo possibile il confronto fra le

varie metodologie analizzate nella presente tesi si è fatto in modo che anche in

questa estrazione non si superasse la soglia di 400 termini canditati.

Le Tabelle 19, 20 e 21 riportano i cinque termini candidati più frequenti

ottenuti con il metodo sopra descritto:

Posizione Unigramma Bigramma Trigramma 1 paziente cellula

leucemica leucemia linfoblastica acuta

2 protocollo remissione completa

trapianto di midollo

3 rischio midollo osseo terapia di supporto 4 terapia sangue

periferico leucemia linfatica acuta

5 fase effetti collaterali leucemia del bambino Tabella 59: I 5 candidati più frequenti (italiano)

Posizione Unigramma Bigramma Trigramma

51


Posizione Unigramma Bigramma Trigramma 1 Patient Multizentrische

Therapiestudie Akute lymphatische Leukämie

2 Therapie Ergänzter Stand Akute lymphoblastische Leukämie

3 Studie Ungefärbte km-ausstriche

Residuelle leukämische Zellen

4 Protokoll Peripheres Blut Kleine graue Zelle 5 Leukämie Wichtigste

Nebenwirkungen Erste komplette Remission

Tabella 60: I 5 candidati più frequenti (tedesco)

Posizione Unigramma Bigramma Trigramma 1 patient Bone marrow acute lymphoblastic leukemia 2 leukemia New window acute lymphocytic leukemia 3 cell Leukemia cell minimal residual disease 4 treatment Induction

therapy top abstract introduction

5 blood b-cell development

acute myeloid leukemia

Tabella 21: I 5 candidati più frequenti (inglese)

Le seguenti tabelle riportano i risultati finali dell’estrazione eseguita

con il metodo sopra descritto:


Tot. 290 99,99 Tabella 22: Risultati estrazione italiano



Tassonomia Termini estratti % Recall 1 38 11,34 24,51 2 152 45,37

52


Tassonomia Termini estratti % Recall 3 91 27,16 4 38 11,34 5 16 4,78

Tot. 335 99,99 Tabella 24: Risultati estrazione inglese

53

Estrazione terminologica per interpreti di conferenza Capitolo IX

Capitolo IX

Estrazione terminologica con Wordsmith

Il tool Wordsmith

Wordsmith è uno dei più diffusi tool per l’analisi di corpora non

annotati. Nel corso dell’esperimento, fra le molteplici funzioni offerte da

questo strumento, sono state utilizzati i moduli WordList e Keyword. La prima

permette di generare una lista dei termini contenuti nel corpus analizzato con le

relative frequenze, mentre la seconda di generare una lista di key word. Mike

Scott (1997:236), il creatore di Wordsmith, definisce il termine key word come

“a word which occurs with unusual frequency in a given text”. Unusual

frequency si riferisce al fatto che un termine può avere una frequenza

insolitamente alta (o bassa) in un determinato corpus rispetto alla sua

ricorrenza in un corpus di riferimento.

La procedura per identificare le key word prevede dunque il confronto

delle frequenze dei vari n-grammi – computate con WordList – del corpus da

analizzare con le frequenze dei medesimi n-grammi ottenute però da un corpus

di riferimento di notevoli dimensioni.

La misura di associazione utilizzata da Wordsmith per la ricerca delle

key word è la Log Likelihood (LL), la quale determinerà, nel linguaggio

utilizzato dal programmatore, Scott, la cosiddetta keyness di ogni termine, cioè

la probabilità che un determinato n-gramma possa essere tipico del dominio

sotto esame.

54


L’estrazione

Il procedimento di base è suddiviso in due fasi. Per prima cosa vengono

computate le liste di parole, le word list, del corpus di riferimento e di quello

da analizzare. Ogni word list contiene tutte le parole presenti nel corpus

elencate secondo la loro frequenza di ricorrenza.

Per poter computare anche le keyword che non siano unigrammi,

Wordsmith offre la possibilità di creare liste di n-grammi. Nel nostro

esperimento si sono indagati unigrammi, bigrammi e trigrammi. Il calcolo dei

bi e trigrammi (cluster) avviene utilizzando la funzione di indicizzazione di

Wordsmith che permette di registrare la posizione di tutte le parole all’interno

del corpus.

Una volta che il corpus è stato indicizzato è possibile computare i

cluster. Prima di effettuare questo calcolo è necessario impostare alcuni

parametri che determineranno le modalità con cui i cluster verranno computati

da Wordsmith:

- “cluster size”, cioè la dimensione degli n-grammi (da 2 a 8).

- “min. frequency”, il numero minimo di ricorrenze per termine che

devono essere considerate.

- “max. frequency percentage”, il valore percentuale al di sopra del quale

le parole non vengono considerate nella computazione degli n-grammi.

Tale funzione permette in pratica di scremare le parole più frequenti che

non si vuole vengano computate.

Nel nostro esperimento si è optato per impostazioni differenti in

relazione al tipo di corpus analizzato. Gli n-grammi dei corpora di riferimento

sono stati calcolati con le seguenti impostazioni di WordList:

- cluster size: 2 e 3

- min. frequency: 1

- max. frequency %: 10

55


L’obiettivo era quello di ottenere un conto di tutti i cluster del corpus di

riferimento, indipendentemente dalla loro frequenza e dalla presenza di parole

ad alta frequenza e quindi non rilevanti (articoli, congiunzioni, ecc.).

Il calcolo dei cluster nei corpora specialisti è stato effettuato con i

seguenti parametri:

- cluster size: 2 e 3

- min. frequency: 3

- max. frequency %: 0,1

L’obiettivo era quello di diminuire il più possibile il rumore,

generalmente alto in quanto il procedimento non offre altre modalità di filtro se

non quelle di tipo statistico, anche a scapito di un certo silenzio (n-grammi con

una ricorrenza inferiore a 3).

Al termine di questa procedura si sono ottenute per ogni lingua 6 word

list: 3 relative al corpus di riferimento (1,2,3-grammi) e 3 relative al corpus

specialistico (1,2,3-grammi).

Nella seconda fase le liste così ottenute sono state confrontate con il

tool Keyword. Appare chiaro che l’identificazione dei termini candidati con

questa metodologia avviene sulla base di un processo puramente meccanico

che si fonda sul confronto di due pattern di frequenza. Ma come sostengono

Ahmad e Roger:

Computing the ‘ratio’ of word forms in special-language and general-language

texts also allows a provisional distinction to be made between general-

language open-class words on the one hand, and special-language open-class

words on the other, i.e., term candidates.

(2001:744)

Le dimensioni dei corpora specialistici e di quelli di riferimento sono

riportate nella seguente tabella:

56


Corpus speciale Corpus di riferimento Italiano 108.016 3.288.496 Tedesco 88.855 3.109.525 Inglese 286.176 3.388.390

Tabella 25: Dimensioni dei corpora specialistici e di riferimento

Come è possibile notare dai dati di tabella 25, i corpora di riferimento

hanno una dimensione superiore rispetto a quelli speciali. Ad oggi non esiste

uno studio che attesti quale sia la migliore proporzione fra le dimensioni dei

due corpora a confronto. Diversi esperimenti effettuati nel corso di questa tesi

hanno dimostrato che con corpora di riferimento di dimensioni molto maggiori

(fino a 15 milioni di parole) i risultati non cambiano sostanzialmente. Questa

nostra constatazione è in linea con quanto osservato da Smith (1997: 244)

secondo il quale «results are quite similar even if the reference corpus is

altered».

I risultati

Anche in questo caso per essere consistenti con gli altri esperimenti si è

rispettata la scelta di non superare la soglia di 400 termini candidati.

Nelle seguenti tabelle sono riportate le prime 5 key word trovate con il

metodo sopra descritto:

Posizione Unigramma Bigramma Trigramma 1 pazienti Aspirato

midollare Sopravvivenza libera da

2 MG Alte dosi Via di somministrazione 3 terapia Dello studio Trapianto di midollo 4 LLA Effetti

collaterali Fasce di rischio

5 cellule Globuli bianchi Conservazione temperatura ambiente

Tabella 26: Le prime 5 keyword trovate (italiano)

Posizione Unigramma Bigramma Trigramma 1 Patienten Et al Akute lymphatische Leukämie 2 Therapie Akuter

lynphatischer Rezidivierter akuter lymphatischer

57


Posizione Unigramma Bigramma Trigramma 3 Tag Gabe von Multizentrische therapiestudie

therapie 4 Studie Lymphatische

Leukämie Ergänzter Stand von

5 MG Rezidiver Akuter

Akute lymphatische Leukämie

Tabella 27: Le prime 5 keyword trovate (tedesco)

Posizione Unigramma Bigramma Trigramma 1 Leukemia Children with Childhood acute lymphoblatic 2 Patients Et al Abstract full text 3 Lymphoblatic Bone marrow Window in a 4 acute Childhood acute Children with acute 5 cell Leukemic cells Event free survival

Tabella 28: Le prime 5 keyword trovate (inglese)

Le seguenti tabelle riportano i risultati ottenuti con il metodo sopra

descritto:






Tot. 362 100 Tabella 31: Risultati estrazione inglese

58

Estrazione terminologica per interpreti di conferenza Capitolo X

Capitolo X

Estrazione con Terminology Wizard

Il tool Terminology Wizard

Terminology Wizard è il sistema di gestione terminologica sviluppato

da Synthema che “allows professional translators to automatically extract

relevant terminology from their documents and easily create project-oriented

bilingual dictionaries.”

Terminology Wizard è una piattaforma per la gestione terminologica

con una struttura aperta in grado di integrarsi ai più diffusi CAT tool. Il

software è stato disegnato per i traduttori e per essere utilizzato con i software

di traduzione assistita. Per questo motivo il pacchetto prevede molte altre

funzionalità oltre a quella di estrazione dei termini candidati: creazione e

gestione di glossari bilingui, manutenzione delle memorie traduttive,

interazione con i CAT tool. Anche se alcune delle altre funzioni offerte da TW

potrebbero essere di interesse anche per l’interprete, nella nostra analisi ci

siamo limitati alla valutazione del sistema di estrazione terminologica.

Il funzionamento

Il modulo di estrazione terminologica prevede l’estrazione automatica

della terminologia specialistica secondo principi linguistici e statistici. L’utente

è chiamato ad impostare soltanto due parametri: i pattern morfosintattici dei

termini da estrarre e la frequenza minima di ricorrenza dei singoli termini. Una

volta caricato il corpus da analizzare viene visualizzata una finestra nella quale

è possibile confermare i valori di default preimpostati dai programmatori

oppure creare dei nuovi template che contemplino altri pattern morfosintattici o

altre frequenze di ricorrenza.

59

http://www.synthema.it/


Dopo aver ripulito il corpus da tutti i tag di formattazione un parser

effettua la segmentazione dei testi su file di diversi formati. L’analizzatore

morfologico riconduce le forme presenti nel testo (e appartenenti al lessico

conosciuto) a tutte le sue possibili forme base. Sul testo così annotato il sistema

verifica la presenza dei pattern morfologici specificati nelle regole definite

dall’utente (Mattesati, comunicazione personale).

A differenza di tutti i sistemi finora testati, Terminology Wizard non

“conosce” il dominio che sta esaminando (Mattesati, comunicazione

personale). Se gli altri sistemi, operando un confronto fra un corpus di

riferimento generale e quello specializzato, individuano i termini tipici del

dominio sotto esame e per così dire vengono a conoscenza del dominio del

corpus da analizzare, Terminology Wizard non effettua questa operazione. Il

risultato sarà con molta probabilità la presenza nelle liste di termini candidati di

termini generici non appartenenti ad alcun dominio particolare

(v. ). Normalizzazione dei risultati

Utilizzando degli analizzatori morfosintattici, quindi legati alle lingue

di lavoro, il numero di lingue per cui è possibile operare l’estrazione è limitato

alle seguenti: italiano, tedesco, inglese, francese, spagnolo e portoghese. I testi

che costituiscono il corpus possono essere in formato file di testo, in RTF (Rich

Text Format) o in formato HTML. Per altri formati, quali il PDF o PPT, è

necessario operare la loro conversione in un formato supportato da TW in fase

di preparazione del corpus utilizzando ad esempio PDFGrabber®. Oltre a

quelli tradizionali sopra riportati, TW permette di creare corpora utilizzando

file nei seguenti formati: Trados Nomatch, IBM Translation Manager

Nomatch, Transit segmented file, IBM Translation Manager (EXP), Trados

(TXT) e Transit.

Un’altra caratteristica molto interessante della versione 3.0 di

Terminology Wizard è quella della creazione di glossari in modo

semiautomatico da corpora bilingue.

60

http://www.pixelplanet.de/produkte/pdfgrabber/


L’estrazione

Il procedimento per estrarre i termini candidati da un corpus è

estremamente facile e veloce. Dopo avere caricato il corpus da analizzare con

la funzione di importazione si impostano i parametri riportati in 5.1. Per

permettere un confronto il più autentico possibile con gli altri sistemi di

estrazione terminologica analizzati nel corso di questo studio, si è optato per gli

stessi pattern morfosintattici utilizzati per l’estrazione con BootCaT:

Italiano Tedesco Inglese N+ADJ+ADJ ADJ+ADJ+N ADJ+ADJ+N

N+ADJ ADJ+N ADJ+N N N N

N+N N+N N+PRE+N N+N+N

Tabella 32: Pattern per l’estrazione con Terminology Wizard.

La frequenza minima dei termini estratti da presentare nella lista finale

dei termini candidati è stata scelta con il solo criterio di rientrare nel valore

massimo di 400 termini stabilito come soglia massima da rispettare per tutti i

metodi di estrazione.

I risultati

Nella seconda colonna sono riportati i numeri di termini estratti

assegnati a ciascuna categoria, nella terza il valore percentuale ottenuti nelle

varie categorie e nell’ultima il valore di recall (v. ): Recall e precision



61



Tot. 360 100 Tabella 34: Risultati estrazione tedesco


Tot. 374 100 Tabella 35: Risultati estrazione inglese

62

Estrazione terminologica per interpreti di conferenza Capitolo XI

Capitolo XI

Analisi dei risultati

Eseguite tutte le estrazioni terminologiche previste nel nostro studio, si

sono effettuate alcune analisi dei risultati raccolti con l’obiettivo di poter

ricondurre ad un unico minimo comune denominatore le possibili

interpretazioni di tali dati, onde sfuggire a facili valutazioni soggettive e ambire

al più alto grado di oggettività possibile. Proprio a questo fine i risultati

vengono qui presentati considerando tutte le possibili costellazioni

interpretative: dalla valutazione secondo le cinque categorie della tassonomia

più generale, quella di primo livello, passando per quella del valore di recall,

che determina la qualità dei sistemi sulla base del confronto con il glossario

compilato manualmente, alla valutazione secondo le tassonomie di secondo

livello, atte a valutarne la fruibilità secondo le diverse esigenze dell’utilizzatore

finale. Concluderà quest’analisi un approccio contrastivo tra l’estrazione

effettuata su un corpus compilato manualmente e quella su un corpus creato

automaticamente dal web.

Valutazione secondo la tassonomia di primo livello

Le Tabelle 36, 37 e 38 riportano per ogni lingua le percentuali dei

termini estratti espressi secondo la classificazione a cinque categorie esposta

nel cap. (1- termini contenuti nel glossario di

riferimento; 2- termini specialistici afferenti al dominio esaminato ma non

individuati nell’estrazione manuale; 3- termini medici generali; 4- termini ben

formati ma generici; 5- termini scorretti).

Tassonomia di primo livello

Tassonomia BootCaT (web)

BootCaT (corpus)

Terminology Wizard Wordsmith

1 3,68 20,34 9,87 12,83

63


Tassonomia BootCaT BootCaT Terminology Wizard Wordsmith (web) (corpus)

2 24,08 31,38 18,70 25,36 3 56,94 26,55 19,48 20,41 4 8,5 19,65 32,99 15,45 5 6,8 2,07 18,96 25,94

Tabella 36: Risultati percentuali relativi all’italiano


BootCaT (corpus)


1 15,01 16,36 6,67 13,81 2 43,54 42,9 14,17 25,22 3 23,42 24,07 21,94 18,22 4 10,51 10,18 21,39 15,91 5 7,5 6,48 35,83 27,03

Tabella 37: Risultati percentuali relativi al tedesco


BootCaT (corpus)


1 15,14 11,34 7,75 8,29 2 43,85 45,37 35,56 30,94 3 27,44 27,16 22,72 13,26 4 9,46 11,34 13,64 11,88 5 4,1 4,78 20,32 35,63

Tabella 38: Risultati percentuali relativi all’inglese

Innanzitutto è opportuno formulare alcune considerazioni di carattere

generale sui valori qui riportati. Come risulta evidente osservando le tabelle, i

valori per le diverse lingue, tranne poche eccezioni, risultano molto omogenei.

Considerando ad esempio la categoria 1, cioè i termini estratti dal sistema

informatico presenti anche nel glossario di riferimento, troviamo che:

- TW ottiene rispettivamente i seguenti valori percentuali: 9,87% per

l’italiano, 6,67% per il tedesco e 7,75% per l’inglese;

- BootCaT(corpus) ottiene: 20,34% per l’italiano, 16,36% per il tedesco e

11,34% per l’inglese;

- Wordsmith ottiene: 12,83% per l’italiano, 13,81% per il tedesco e

8,29% per l’inglese.

Comparando anche i valori delle altre categorie, si può notare che

questa tendenza è costante per tutti i risultati ottenuti. Ciò sembra suggerire che

64


i risultati delle estrazioni non sono influenzati significativamente dalla lingua

del corpus e che tali sistemi si possano applicare con esiti analoghi

indipendentemente dalla lingua, quantomeno per le lingue oggetto di questa

ricerca.

Alla luce di questa considerazione è possibile ricavare alcune

indicazioni di fondo osservando la distribuzione dei risultati, calcolati secondo

la media delle prestazioni ottenute nelle diverse lingue, riportati nel grafico 1.

La curva dell’andamento in relazione alle cinque categorie permette di

suddividere i sistemi di estrazione terminologica in due gruppi. Se è vero che i

termini di categoria 1, 2 e 3 sono “desiderabili” mentre quelli di categoria 4 e 5

costituiscono il “rumore”, allora il sistema BootCaT (in entrambe le sue

configurazioni) è l’unico che presenta una curva “in discesa”, una curva cioè

che tende a diminuire se ci si muove verso le categorie di livello inferiore. A

questo proposito è necessario sottolineare che i termini di cat. 1 e 2

appartengono, per quanto riguarda la qualità del termine, alla medesima fascia

e che quindi la curva positiva tra il valore 1 e 2 non scredita la valutazione

appena presentata.

0

5

10

15

20

25

30

35

40

45

1 2 3 4 5

BootCaT(web) BootCaT(corpus-man)TerminologyWizard WordSmith

Grafico 1: Andamento dei risultati medio (espresso in percentuale)

65


Valutazione secondo i valori di recall

Come introdotto nel capitolo 6.1., uno dei principi su cui si fonda la

valutazione euristica dei sistemi di estrazione terminologica utilizzati in questa

ricerca è quello del confronto fra i vari valori di recall ottenuti, cioè il rapporto

percentuale fra i termini estratti presenti nel glossario di riferimento e il

numero totale di termini presenti nel glossario di riferimento. La seguente

tabella riassume i valori calcolati per ciascun sistema e lingua:

Italiano Tedesco Inglese BootCaT(web) 9,56 32,64 30,97 BootCaT(corpus) 43,38 33,54 24,51 Terminology Wizard 27,94 29,11 19,35 Wordsmith 32,35 15,19 18,71

Tabella 39: Valori percentuali di recall

Il valore più alto di recall è quello ottenuto con BootCaT sul corpus

italiano compilato manualmente (43,38 %), il più basso invece è quello

ottenuto con BootCaT, sempre per la lingua italiana, ma con il corpus creato

automaticamente dal web.

Considerando soltanto i sistemi di estrazione che operano su corpora

compilati manualmente è possibile stilare una classifica, riportata nella Tabella

40, che esprime la precisione con cui tali sistemi hanno estratto la terminologia

contenuta nel glossario di riferimento. Tale classifica si basa sulla media dei

risultati ottenuti nelle diverse lingue. Si tratta soltanto di uno degli aspetti

riguardanti la qualità di un software di ET, ma è certamente adatto ad

esprimere un’indicazione generale sulla sua qualità.

Sistema di ET 1 BootCaT(corpus) 2 Terminology Wizard 3 Wordsmith

Tabella 40: Classifica secondo il recall dei sistemi di ET con corpus manuale

La Tabella 41 riporta invece la classifica, sempre sulla base del valore

di recall, di tutti i sistemi utilizzati senza fare differenziazioni tra quelli che

66


utilizzano un corpus compilato manualmente – BootCaT(corpus), Terminology

Wizard e Wordsmith – e BootCaT che utilizza il web come corpus.

Sistema di ET 1 BootCaT(corpus) 2 BootCaT(web) 3 Terminology Wizard 4 Wordsmith

Tabella 41: Classifica secondo i valori di recall di tutti i sistemi di ET

È interessante notare la posizione raggiunta da BootCaT(web) che, pur

non utilizzando un corpus preparato manualmente e quindi tendenzialmente più

affidabile, ottiene risultati migliori rispetto ai suoi concorrenti commerciali.

Questa classificazione permette di avanzare una prima ipotesi: visto che

BootCaT, indipendentemente dalla sua configurazione, occupa i primi due

posti, possiamo affermare che il suo modulo di estrazione della terminologia è

più efficiente rispetto a quelli di Terminology Wizard e di Wordsmith, o

meglio che esso permette di ottenere risultati molto simili a quelli estratti da un

terminologo umano. Una valutazione più esaustiva potrà però essere formulata

solo valutando i risultati raggruppati secondo le tassonomie di secondo livello.

Valutazione secondo le tassonomie di secondo livello

Analizzate le caratteristiche dei risultati secondo le cinque categorie

della tassonomia generale e secondo i valori di recall è opportuno valutare i

sistemi tenendo in considerazioni le effettive prestazioni dei singoli sistemi per

quanto riguarda l’estrazione della terminologia specialistica e, come visto nel

cap. , secondo le esigenze dei fruitori finali. Per

adempiere a questo compito impieghiamo, come illustrato nei capp.

e , le due

tassonomie T2a (termini specialistici del dominio di studio) e T2b (termini

specialistici del dominio di studio e termini medici generici).

Tassonomie di secondo livello

Tassonomie di secondo livelloTassonomia di primo livello

Per prima cosa è opportuno concentrare l’attenzione sui valori positivi –

positivi, poiché parlano a favore della qualità dei sistemi – A1 e A2. Le Tabelle

67


42, 43 e 44 riportano i valori di recall (v. ) riferiti alla

tassonomia T2a e T2b delle varie estrazioni:

Recall e precision

Recall e precision

BootCaT (web)

BootCaT (corpus)


A1 27,76 51,03 28,05 37,61 A2 84,70 78,27 48,05 58,6

Tabella 42: A1 e A2 a confronto, italiano

BootCaT (web)

BootCaT (corpus)


A1 58,55 59,26 20,84 39,03 A2 81,97 83,33 42,78 57,05

Tabella 43: A1 e A2a confronto, tedesco

BootCaT (web)

BootCaT (corpus)


A1 58,99 56,71 43,31 39,23 A2 86,43 83,87 66,03 52,49

Tabella 44: A1 e A2 a confronto, inglese

Anche con questa rappresentazione dei risultati appare evidente che

muovendosi fra le varie lingue, ad esclusione del caso di BootCaT per la lingua

italiana, gli esiti risultino molto omogenei. Nella categoria A1, i termini medici

specialistici, il miglior risultato assoluto è stato ottenuto dal metodo

BootCaT(corpus) sul tedesco, dove il valore di precision ha raggiunto il

59,26%.

Risultati analoghi sono stati ottenuti da BootCaT(web) sia nel caso del

tedesco (58,55%), sia nel caso dell’inglese, dove, con il 58,99%, è risultato

essere il sistema con il più alto valore di recall relativo a questa lingua.

Nella categoria A2, termini medici generali e specialistici, il valore di

recall più alto è stato raggiunto dal sistema BootCaT – inglese, con il 86,43%.

Un attento esame dei valori di A2 sembra confermare inoltre la nostra tesi

(v. ) secondo la quale i risultati delle estrazioni non sono

influenzate dalla lingua del corpus.

È così possibile stilare quattro nuove classifiche che tengano conto dei

risultati medi ottenuti. Le prime due riguardano l’estrazione da corpora

68


compilati manualmente. Nel primo caso (Tabella 45) si è tenuto conto dei soli

termini specialistici mentre nel secondo (Tabella 46) sia di termini specialistici

sia di termini medici generici. Le due successive tabelle riguardano invece sia

le estrazioni da corpora manuali sia quelle che utilizzano il web come corpus.

Ancora una volta nel primo caso (Tabella 47) si considerano i soli termini

specialistici mentre nel secondo (Tabella 48) sia i termini specialistici sia quelli

medici generici.

Sistema di ET 1 BootCaT(corpus) 2 Wordsmith 3 Terminology Wizard

Tabella 45: Classifica: estrazione termini specialistici da corpus manuale

Sistema di ET 1 BootCaT(corpus) 2 Wordsmith 3 Terminology Wizard

Tabella 46: Classifica: estrazione termini specialistici+medici generici da corpus manuale

Sistema di ET 1 BootCaT(corpus) 2 BootCaT(web) 3 Wordsmith 4 Terminology Wizard

Tabella 47: Classifica: estrazione termini specialistici da corpus manuale e da web

Sistema di ET 1 BootCaT(web) 2 BootCaT(corpus) 3 Wordsmith 4 Terminology Wizard

Tabella 48: Classifica: estrazione termini specifici+medici generici da corpus manuale e da web

Ancora una volta, come nel caso del confronto sulla base dei valori di

recall, è possibile notare che i risultati migliori relativi all’estrazione di

terminologica specialistica, sia relativa esclusivamente al dominio specifico

(leucemia), sia al dominio più generale (medicina), sono stati ottenuti dal

metodo BootCaT in entrambe le sue configurazioni. Nella ricerca della

terminologia medica generale e specifica i risultati più incoraggianti si sono

69


attenuti utilizzando il web come corpus, quindi la configurazione completa di

BootCaT.

Il grafico (2) raffigura l’andamento medio dei valori A1 e A2 nei vari

sistemi:

0102030405060708090

A1 A2

BootCaT(Web)BootCaT(corpus-man)TerminologyWizardWordSmith

Grafico 2: Valori medi secondo le categorie: terminologia specialistica (A1) e

terminologia specialistica + terminologia medica generale (A2)

I risultati ottenuti con BootCaT(web) – secondo posto nella categoria

A1 e primo in quella A2 – sono interessanti per un duplice motivo. Innanzitutto

per il fatto che tali piazzamenti si siano ottenuti nonostante il risultato scadente

avuto nell’estrazione con l’italiano, che ha comunque pesato notevolmente sul

risultato globale. Inoltre perché non bisogna dimenticare che BootCaT

provvede a costruire il corpus da analizzare in maniera completamente

automatica. Ciò significa che risultati analoghi – e molto spesso migliori, come

nel caso della terminologia medica generica e specifica (Leucemia

linfoblastica) – si possono ottenere senza il dispendio di lavoro necessario a

raccogliere i corpora manualmente.

Se da un lato è vero che un sistema è valutato positivamente se i termini

utili estratti sono il maggior numero possibile, è anche vero che la sua fruibilità

aumenta se il numero di termini di disturbo è il più basso possibile.

Parallelamente a quanto appena evidenziato per i valori positivi A1 e A2 è

pertanto interessante analizzare i valori dei termini considerati di disturbo, B1 e

B2, di quei termini cioè che non si desidererebbe avere fra la rosa dei candidati

proposta dai vari sistemi.

70


BootCaT (web)

BootCaT (corpus)


B1 72,24 48,96 71,95 62,39 B2 15,30 21,74 51,89 41,40

Tabella 49: B1 e B2 a confronto, italiano

BootCaT (web)

BootCaT (corpus)


B1 41,43 40,73 79,16 61,02 B2 18,01 16,66 57,22 42,94

Tabella 50: B1 e B2 a confronto, tedesco

BootCaT (web)

BootCaT (corpus)


B1 41,00 43,28 56,68 60,77 B2 13,56 16,12 33,96 47,51

Tabella 51: B1 e B2 a confronto, inglese

Se si considerano i risultati riportati nelle tabelle 49, 50 e 51, i sistemi

che presentano i valori più bassi di rumore sono come era del resto prevedibile

BootCaT e BootCaT(corpus).

Alto appare invece il rumore ottenuto con i sistemi commerciali. I

problemi più grossolani si possono riassumere con due considerazioni. La

caratteristica sicuramente negativa delle liste di termini candidati prodotta da

Terminology Wizard è quella di riportare anche parole non inerenti al dominio

interessato o parole che normalmente vengono considerate stop word, parole

generiche come preposizioni, avverbi, ecc. Benché l’incidenza di questo difetto

non sia estremamente alta, esso contribuisce comunque ad aumentare il valore

dei termini di disturbo e conseguentemente a diminuire il valore della

precision.

Per quanto riguarda Wordsmith è necessario notare che le più grandi

difficoltà sono state riscontrate nell’estrazione di termini complessi. Poiché il

software non prevede alcuna analisi morfologica del testo, l’estrazione avviene

esclusivamente sulla base dei valori delle misure di associazione, non applicate

a singole parole, ma a bigrammi o trigrammi che vengono considerati come se

fossero parole composte da un unico elemento. Pur avendo utilizzato corpora di

riferimento di dimensioni notevoli, il procedimento risulta essere troppo

71


grossolano per ottenere, almeno per i termini composti, dei risultati

soddisfacenti.

Alcuni confronti fra BootCaT(web) e BootCaT(corpus)

Poiché il sistema di estrazione terminologica utilizzato in questi due

casi è il medesimo (v. ), il confronto dei risultati ottenuti con i due

corpora, quello realizzato manualmente e quello realizzato con BootCaT(web),

permette di fare alcune considerazioni generali sul tool BootCaT e in particolar

modo sull’utilizzo del web come corpus.

BootCaT

Una prima analisi può essere effettuata confrontando i valori di recall,

cioè delle percentuali di termini estratti dal sistema che sono contenuti nel

glossario di riferimento. Come si può notare dalla Tabella 52, i risultati offrono

uno scenario abbastanza complesso.

Italiano Tedesco Inglese BootCaT(web) 9,56 32,64 30,97 BootCaT(corpus) 43,38 33,54 24,51

Tabella 52: Confronto risultati recall ottenuti con BootCaT utilizzando sia il corpus manuale sia il web come corpus

Nel caso dell’italiano il numero di termini contenuti nel glossario di

riferimento estratti automaticamente con BootCaT(web) sono soltanto 11, pari

a 9,56 %. Assai più incoraggianti invece i risultati ottenuti per le lingue tedesca

ed inglese (rispettivamente 32,64% e 30,97%). Se per il tedesco i valori di

recall sono praticamente uguali sia con BootCaT(web) che con il metodo

BootCaT(Corpus), per l’inglese il risultato ottenuto con il corpus ricavato

direttamente dal web è addirittura migliore. Se ne deduce che in almeno due

casi su tre e indipendentemente dal metodo di estrazione che, come

sottolineato, è lo stesso sia per l’estrazione da corpus manuale sia da web, i

risultati ottenuti con un corpus creato automaticamente dal web risultano

analoghi, nel caso del tedesco, o addirittura migliori, nel caso dell’inglese, di

quelli ottenibili con un corpus costruito manualmente.

72


Come riportato nella tabella 41 (v.

) i risultati medi di recall avevano visto al primo posto della classifica fra

i vari sistemi di estrazione BootCaT(corpus) e al secondo BootCaT con corpus

raccolto automaticamente dal web. Questo risultato ci permette di proporre una

considerazione generale sul rapporto fra questi due tipi di corpora: visto che

BootCaT(corpus) ha una valore di recall medio, calcolato cioè contando le

estrazioni effettuate per tutte le lingue, superiore a quello di BootCaT(web),

possiamo affermare che l’estrazione da corpus preparato manualmente

permette in generale di raggiungere risultati migliori rispetto a quelli ottenibili

utilizzando il web come fonte di raccolta non supervisionata del corpus. Questo

risultato non è sorprendente se si tiene conto del fatto che il corpus

specialistico compilato manualmente dal terminologo è di qualità

estremamente elevata e presenta le caratteristiche più congeniali all’estrazione

terminologica manuale (scelta dei testi, restrizione del dominio, ecc.).

Valutazione secondo i valori di

recall

Quest’ultima affermazione deve però essere relativizzata alla luce dei

valori singoli di recall ottenuti per le varie lingue e riportati in Tabella 52. Si

può infatti notare che la differenza sostanziale a svantaggio del web come

corpus, come sottolineato in precedenza, è da ricondurre al solo risultato

negativo ottenuto nell’estrazione italiana. Un risultato per questa lingua in linea

che gli altri due avrebbe infatti ribaltato il risultato qui esposto a favore del

sistema basato sul web.

Tre estrazioni, viste le tante variabili in gioco, sono statisticamente

poche per poter prevedere con certezza il comportamento di BootCaT nel caso

di altre estrazioni in domini di diversa natura e in altre lingue. Visti i risultati

fin qui ottenuti appare quindi azzardato affermare che i risultati ottenibili con il

web come corpus siano in assoluto migliori o peggiori rispetto a quelli

raggiungibili con un corpus manuale. Risulta perciò auspicabile una serie di

esperimenti che mirino proprio alla verifica di queste variabili.

In questa fase è però certamente possibile e interessante cercare di

capire le cause che hanno determinato un valore così basso di recall per la

lingua italiana, l’estrazione che apparentemente costituisce l’eccezione nella

73


rosa dei risultati fin qui ottenuti con BootCaT. Un punto di partenza può essere

il confronto della distribuzione dei termini all’interno delle varie categorie

descritte in precedenza.

Italiano Tedesco Inglese BootCaT(web) 24,64 43,54 43,85 BootCaT(corpus) 32,41 42,9 43,75

Tabella 53: Confronto dei risultati di categoria 2

Italiano tedesco inglese BootCaT(web) 56,94 23,42 27,44 BootCaT(corpus) 27,24 24,07 27,16

Tabella 54: Confronto dei risultati di categoria 3

Se si confrontano i vari risultati per i termini classificati come 1, 2 e 3 si

può notare come le percentuali relative all’inglese e al tedesco in entrambi i

metodi siano molto simili e come allo stesso tempo i valori riguardanti

l’italiano differiscano consistentemente. Osservando la distribuzione all’interno

delle varie categorie per la lingua italiana è possibile constatare che la

percentuale maggiore di termini estratti rientra nella categoria 3, cioè nei

termini medici generici. La prima ipotesi formulabile è che il corpus italiano

ottenuto con BootCaT sia meno specialistico rispetto a quello tedesco ed

inglese. Ciò spiegherebbe il valore basso di recall ottenuto e il perché la

maggior parte dei termini non siano di natura specialistica (per l’italiano la

somma delle categorie 1 e 2, cioè i termini specialistici, è inferiore al 33,23 %).

Il fatto che si sia ottenuto un corpus apparentemente meno specialistico

sottolinea nuovamente l’importanza di approfondire la questione riguardante la

distribuzione del “sapere” nel web, il formato in cui è distribuito, la possibilità

di accedervi, ecc. così da poter “indirizzare” meglio BootCaT nella ricerca dei

testi che andranno a costituire il corpus.

74

Estrazione terminologica per interpreti di conferenza Conclusioni

Conclusioni

Questo lavoro ha avuto come obiettivo principale la valutazione pratica

di alcuni sistemi di estrazione terminologica semi-automatica per poter

determinare se essi possano venire proficuamente utilizzati dall’interprete

professionista nella fase di preparazione ad una conferenza. Sebbene non ci si

sia prefissi l’obiettivo di verificare possibili applicazioni informatiche che

generino glossari bilingue “pronti” all’uso, una realtà che è oggi ancora lontana

dall’essere realizzabile, le liste monolingue ottenute indicano che la qualità dei

termini estratti abbia già raggiunto un livello medio decisamente alto e

comunque tale da poter essere proficuamente utilizzate da parte dell’interprete.

Riassumendo possiamo delineare alcune caratteristiche di fondo emerse

dalla nostra ricerca che possono essere considerate allo stesso tempo punti di

partenza per l’approfondimento del tema trattato:

- l’interprete è generalmente restio all’uso di software informatici

“avanzati”;

- la diffusione di nuovi sistemi, siano essi di estrazione o di gestione

terminologica, appare essere strettamente legata alla semplicità del loro

utilizzo nonché al costo e ai tempi di addestramento;

- l’estrazione terminologica deve sempre essere vista non fine a se stessa

ma in funzione delle esigenze del destinatario finale, l’interprete. Vista

la scarsa attenzione dedicata dalla letteratura specialistica al rapporto

tra interpretazione e terminologia, si auspica in futuro un

approfondimento di questo aspetto, così da permettere di identificare le

caratteristiche di un software per l’estrazione terminologica adatto

all’interprete;

- fra i sistemi utilizzati nel corso di questa ricerca, quello che ha ottenuto

i risultati migliori è BootCaT, sia con l’utilizzo di un corpus manuale,

sia di un corpus generato automaticamente dal web;

75


- a fini dell’estrazione terminologica non sono state rilevate differenze

sostanziali tra corpora compilati manualmente e corpora generati

automaticamente dal web;

- il tool BootCaT, in particolare con la sua funzione di generazione

automatica del corpus, permette di ridurre drasticamente il tempo

investito nella ricerca delle informazioni. Potenzialmente potrebbe

pertanto soddisfare al meglio il fabbisogno dell’interprete

professionista, che si trova quasi sempre a combattere con la

componente tempo;

- le conoscenze informatiche dell’utilizzatore richieste da BootCaT,

seppur modeste, devono comunque essere generalmente superiori a

quelle di un utente medio. Ciò certamente non favorisce la diffusione di

questo tool fra un pubblico di non esperti, ai quali l’interprete è

generalmente da ricondurre. Sebbene l’esistenza di script già pronti

non renda necessarie conoscenze specifiche di PERL, risulta comunque

inevitabile dover intervenire nelle linee di comando Unix per

personalizzare ogni tipo di ricerca. Una possibile soluzione potrebbe

essere quella di fornire all’utente, insieme agli script di BootCaT, anche

una serie di righe di comando Unix precompilate in grado di coprire il

maggior numero di richieste da lui formulabili. Prerequisito per poter

utilizzare questo sistema resta in ogni caso un certo grado di

conoscenza del mondo Unix. Conditio sine qua non per una possibile

diffusione di questo metodo fra gli interpreti professionisti appare

perciò essere la realizzazione di un’interfaccia grafica che permetta

all’utente medio di usufruire delle sue molteplici potenzialità senza

dover per forza intraprendere un lungo e dispendioso percorso di

informatizzazione.

- tale interfaccia dovrebbe prevedere anche un concordancer che

permetta all'interprete di prepararsi, linguisticamente e non, partendo

dalla terminologia estratta;

- i due software commerciali hanno raggiunto livelli di precisione

terminologica notevolmente inferiore rispetto a BootCaT;

76


- dei due Terminology Wizard è risultato essere il tool sicuramente più

soddisfacente per quanto riguarda la sua semplicità di utilizzo. Possiede

inoltre un concordancer integrato, il ché permette di utilizzare

direttamente i termini estratti come punto di partenza per approfondire

linguisticamente ed extralinguisticamente il tema di studio;

- Wordsmith, a fronte di risultati analoghi a Terminology Wizard ma

anche a fronte di una relativa complessità d'uso, sembra invece essere il

tool che meno si adatta ad essere utilizzato da parte dell’interprete.

77

Estrazione terminologica per interpreti di conferenza Bibliografia

Bibliografia

Ahmad, K. (1994). Language Engineering and the Processing of Specialist

Terminology. http://www.computing.surrey.ac.uk/ai/pointer/paris.html

Ahmad, K. e M. Rogers (2001). “Corpus Linguistics and Terminology

Extraction”. In S.E. Wright G. Budin (2001). 725-760.

Baroni, M. e S. Bernardini (2004). BootCaT: Bootstrapping Corpora and

Terms from the Web. http://sslmit.unibo.it/~baroni/bootcat.html

Bernardini, S. (2000). Competence Capacity Corpora – A study in corpus-

aided language learning. Bologna: CLUEB.

Bordoni, F. (2001). Leucemia Linfoblastica Acuta in Età Pediatrica: Proposta

di Glossario Terminologico Trilingue (Italiano – Tedesco – Inglese). Tesi di

Laurea, SSLiMIT, Bologna

Church, K. e P. Hanks (1990). “Word Association Norms, Mutual Information,

and Lexicography”. Computational Linguistics, 16(1): 22-29.

Déjean, H., E. Gaussier e F. Sadat. (2001). Bilingual terminology extraction:

an approach based on a multilingual thesaurus applicable to comparable

corpora. http://muchmore.dfki.de/pubs/dejean.pdf

Dunnin, T. (1994). “Accurate Methods for the Statistics of Surprise and

Coincidence”. Computational Linguistics 19(1): 61-74.

Evert, S. (2004). Computational Approaches to Collocations.

http://www.collocations.de/software.html

Evert, S. e B. Krenn (2001). “Methods for the Quantitative Evaluation of

Lexical Association Measures”. In Proceedings of the 39th Annual Meeting of

the Association for Computational Linguistics, Toulouse, 188-195.

78

http://muchmore.dfki.de/pubs/dejean.pdf


Fano, R. (1961). Transmission of Information: A Statistical Theory of

Communications. Cambridge, MA: MIT Press.

Firth, J. R. (1957)."A Synopsis of Linguistic Theory 1930-1955". In F. Palmer

(1968).

Gänsicke, P. (2000). “Die Vorbereitung auf einen Dolmetscheinsatz mit Hilfe

des Internets“. MDÜ, 1/2000, 49-50.

Gile, D. (1995). Basic concepts and models for translator and interpreter

training. Amsterdam/Philadelphia: John Benjamins Publishing Company.

Heid, U. (2001). “Verfahren zur Extraktion von Termkandidaten aus Texten:

Ein Überblick. In F. Mayer (2001). 186-197.

Jacquemin, C. e D. Bourigault (2000). “Term Extraction and Automatic

Indexing”. In R. Mitkov (2000). 599-615

Jones, S. e M. S. Phrasier (1999). “A System for Interactive Document

Retrieval Using Keyphrases”. Proceedings of the 22nd ACM SIGIR Conference

on Research and Development in Information Retrieval.160-167.

Kalina, S., S. Buhl e H. Gerzymisch-Arbogast Hrsg. (2000). Dolmetschen:

Theorie - Praxis - Didaktik. Mit ausgewählten Beiträgen der Saarbrücker

Symposien. St. Ingbert: Röhrig Universitätsverlag.

Krenn, B. (2004). Manual zur Identifikation von Funktionsverbgefügen und

figurativen Ausdrücken in PP-Verb-Listen.

http://www.collocations.de/guidelines/Krenn2000-Guidelines.pdf

Kurz, I. (1996). Simultandolmetschen als Gegenstand der interdisziplinären Forschung. Wien: WUV-Univ. Verlag.

Magris, M., M. T. Musacchio, L. Rega e F. Scarpa a cura di (2002). Manuale

di terminologia. Milano: Hoepli.

79

http://www.collocations.de/guidelines/Krenn2000-Guidelines.pdf


Mayer, F. Hrsg. (2001). Dolmetschen und Übersetzen. Der Beruf im Europa

des 21.Jahrhunderts. Akten des Kongresses des BDÜ – Landesverbandes

Bayern, 23-25 November 2001, München. München: freigang, mauro+reinke.

Mitkov R. (2000). Handbook of Computational Linguistics. Oxford: Oxford

University Press.

Palermo, D. e J. Jenkins (1964). Word Association Norms. Minneapolis:

University of Minnesota Press

Palmer. F. ed. (1968). Selected Papers of J. R. Firth. Harlow: Longman.

Rayson, P. e R. Garside (2000). Comparing corpora using frequency profiling.

http://comp.lancs.ac.uk/computing/users/paul/publications/rg_acl2000.pdf

Rega, L. (2002). “Il termine in un’ottica terminologica plurilingue”. In M.

Magris, M. T. Musacchio, L. Rega e F. Scarpa (2002). 49-57.

Sager, J. (1990). A Practical Course in Terminology Processing.

Amsterdam/Philadelphia: John Benjamins Publishing Company.

Schmidt, H. (1994). Probabilistic part-of-speech tagging using decision trees.

http://www.ims.uni-stuttgart.de/ftp/pub/corpora/tree-tagger1.ps.gz

Scott, M. (1997). “PC Analysis of Key Words — and Key Key Words”.

System, 25, 233-245.

Strehlow, R. A. (2001). “The Role of Terminology in Retrieving Information”.

In S.E. Wright e G. Budin (2001). 426-441.

Tognini Bonelli, E. (2001). Corpus Linguistics at Work.


Valentini, C. (2002). Uso del Computer in Cabina di Interpretazione. Tesi di

Laurea, SSLiMIT, Bologna

80


Vivaldi, J. e H. Rodríguez. (2001). “Improving term extraction by combining

different techniques”. Terminology, 7, 31-47.

Volk, M., A.K. Pantli e A.M. Malka. (2002). The length factor in automatic

bilingual terminology extraction.

http://www.ifi.unizh.ch/CL/volk/papers/Length_factor_Nancy_2002.pdf

Will, M. (2000). “Bemerkungen zum Computereinsatz beim

Simultandolmetschen”. In S. Kalina, S. Buhl e H. Gerzymisch-Arbogast.

(2000). 125 -136.

Wright, S. E. e Budin, G. (1997). Handbook of Terminology Management.

Volume 1: Basic Aspects of Terminology Management.


Wright, S. E. e Budin, G. (2001). Handbook of Terminology Management.

Volume 2: Basic Aspects of Terminology Management.


81

Estrazione terminologica per interpreti di conferenza Appendice 1

Appendice 1

Script

Si riporta la procedura completa con la quale si sono eseguite le

estrazioni per il metodo BootCaT, sia utilizzando il web come corpus, sia il

corpus compilato manualmente. Gli script qui riportati si riferiscono

all’estrazione realizzata per il tedesco, ma la procedura vale anche per le altre

lingue. Il simbolo # introduce delle linee di commento:

# Tokenization: we simply split every sequence made of alphabetic characters #+ dashes. Output format is: one token per line. #Notice that here and below we convert everything to lower case. $ perl -ne 's/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print' de02.txt | grep -v "^$" | lc > ref-dt.tok $ wc ref-dt.tok 3109560 3109525 22168833 ref-dt.tok #We convert the seeds to Unix format, we combine them into 20 random #triplets and we search Google for each of these triplets retrieving maximally #20 pager per query. $ perl -ane 's/\r//; print' DT_seeds.txt | build_random_tuples.pl -l 20 | collect_urls_from_google.pl -l German -c 20 -k APIS_KEY - > dt_urls1 #We found 163 pages, but some are duplicates: $ grep -v "CURRENT_SEED" dt_urls1 | grep -v "NO_RESULTS_FOUND" | wc 163 163 10510 $ grep -v "CURRENT_SEED" dt_urls1 | grep -v "NO_RESULTS_FOUND" | sort | uniq | wc 128 128 8247 #Now we retrieve in separate files all the html files, the word/doc files and the #pdf files. $ grep -v "CURRENT_SEED" dt_urls1 | grep -v "NO_RESULTS_FOUND" | sort | uniq | print_pages_from_url_list.pl > html1.txt $ wc html1.txt 34501 199060 1737083 html1.txt $ grep -v "CURRENT_SEED" dt_urls1 | grep -v "NO_RESULTS_FOUND" | sort | uniq | convert_doc_to_text.pl > doc1.txt $ wc doc1.txt 5550 29382 274547 doc1.txt $ grep -v "CURRENT_SEED" dt_urls1 | grep -v "NO_RESULTS_FOUND" | sort | uniq | convert_pdf_to_text.pl > pdf1.txt $ wc pdf1.txt 28395 718018 5543880 pdf1.txt

82


$ wc html1.txt doc1.txt pdf1.txt 34501 199060 1737083 html1.txt 5550 29382 274547 doc1.txt 28395 718018 5543880 pdf1.txt 68446 946460 7555510 total #We try to dig out acronyms simply by looking for sequences of all-upper-#case words that are longer than 2 chars and shorter than 5: $ cat html1.txt doc1.txt pdf1.txt | egrep -v "CURRENT URL" | egrep -iv "(http|html|www|mailto|ftp|@|email|search|internet|site|galleries|slideshows|login)" | perl -ne 's/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print' | grep -v "^$" | grep -v "[a-z]" | gawk '$1 ~/[A-Z]/ && length($1)>2 && length($1)<5' | sort | uniq -c | sort -nrk1 > de_acro #Now, on to corpus comparison. We tokenize the specialized corpus using the #same rules as above, plus we try to get rid of typical 'internet' words. $ cat html1.txt doc1.txt pdf1.txt | egrep -v "CURRENT URL" | egrep -iv "(http|html|www|mailto|ftp|@|email|search|internet|site|galleries|slideshows|login)" | perl -ne 's/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print' | grep -v "^$" | lc > spec-dt.tok $ wc spec-dt.tok 815829 813817 6248633 spec-dt.tok #We use UCS for corpus comparison (www.collocations.de). #In the following two steps, we prepare a table (table1.am.ds) that gives us the #mutual information and log likelihood for the association of each word with #the specialized corpus, besides the raw frequency counts. $ prepare_corp_comp_table.pl -o table1.ds spec-dt.tok ref-dt.tok $ ucs-add -v am.MI am.log.likelihood TO table1.ds INTO table1.am.ds #After some experimentation, we extract promising words both with MI and #with LL, filtering them in the following ways: #- for mi, we throw away words shorter than 3 characters and words that have #a fq below 50 occurrences #- for ll, we throw away words shorter than 3 characters and words that have a #fq above 4999 #In both cases, we keep the top 200 words (notice that we have to get rid of #the ------token). $ ucs-select '%' FROM table1.am.ds WHERE '(length(%l1%)>3)&&(%f%>50)' | ucs-sort BY am.MI | ucs-select -v 'l1' | tail +5 | head -201 | grep -v "\-\-\-\-\-" > mi_seeds1 $ ucs-select '%' FROM table1.am.ds WHERE '(length(%l1%)>3)&&(%f1%<5000)' | ucs-sort BY am.log.likelihood | ucs-select -v 'l1' | tail +5 | head -201 | grep -v "\-\-\-\-\-" > ll_seeds1 $ sort mi_seeds1 ll_seeds1 | uniq | wc 355 355 3697 #We put together the top acronyms and the words in the newly generated lists: $ gawk '$1>30{print $2}' de_acro | lc | sort - mi_seeds1 ll_seeds1 | uniq > all_uni_seeds $ wc all_uni_seeds 411 411 3928 all_uni_seeds #We now look for complex terms.

83


#Tagging the corpus: $ cat html1.txt doc1.txt pdf1.txt | grep -v "CURRENT URL" | tree-tagger-german > spec-dt.tgd #Creating bigrams and trigrams: $ tail +2 spec-dt.tgd | paste spec-dt.tgd - | gawk 'NF==6' > spec-dt.tgd.bigrams $ tail +3 spec-dt.tgd | paste spec-dt.tgd.bigrams - | gawk 'NF==9' > spec-dt.tgd.trigrams #Extracting patterns: $ gawk '$2~/ÂDJ/ && $5~/ÂDJ/ && $8~/^N/{print $1,$4,$7}' spec-dt.tgd.trigrams | lc | filter_multi_word_expressions.pl -k all_uni_seeds - | sort | uniq -c | sort -nrk1 > ADJ_ADJ_NN #For the ADJ NN pattern, we first get frequent ADJ NN endings from the #ADJ ADJ NN list, and then we filter the latter, so that we only consider ADJ #NN patterns that are not endings of frequent larger ADJ ADJ NN terms. $ gawk '$1>9{print $3,$4}' ADJ_ADJ_NN > endings_of_ADJ_ADJ_NN $ gawk '$2~/ÂDJ/ && $5~/^N/{print $1,$4}' spec-dt.tgd.bigrams | lc | filter_multi_word_expressions.pl -k all_uni_seeds - | simple_filter.pl -s endings_of_ADJ_ADJ_NN - | sort | uniq -c | sort -nrk1 > ADJ_NN $ gawk '$2~/^N/{print $1}' spec-dt.tgd | lc | filter_multi_word_expressions.pl -k all_uni_seeds - | sort | uniq -c | sort -nrk1 > NN #Now we repeat the same proceeding with the manual corpus:. $ cat DT_corpus_scientifico/de.* | perl -ne 's/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print' | grep -v "^$" | grep -v "[a-z]" | gawk '$1 ~/[A-Z]/ && length($1)>2 && length($1)<5' | sort | uniq -c | sort -nrk1 > man_de_acro $ cat DT_corpus_scientifico/de.* | perl -ne 's/[^\x41-\x5a\x61-\x7a\xc0-\xff\-]/\n/g; print' | grep -v "^$" | lc > man-dt.tok $ wc man-dt.tok 85079 85074 646798 man-dt.tok $ prepare_corp_comp_table.pl -o table1man.ds man-dt.tok ref-dt.tok $ ucs-add -v am.MI am.log.likelihood TO table1man.ds INTO table1man.am.ds #NB: actually, in following way with MI we grab arbitrary subset of forms #that have maximum MI value because they only occur in specialized corpus. $ ucs-select '%' FROM table1man.am.ds WHERE '(length(%l1%)>3)&&(%f%>2)' | ucs-sort BY am.MI | ucs-select -v 'l1' | tail +5 | head -200 > man_mi_seeds1 $ ucs-select '%' FROM table1man.am.ds WHERE '(length(%l1%)>3)&&(%f1%<5000)' | ucs-sort BY am.log.likelihood | ucs-select -v 'l1' | tail +5 | head -200 > man_ll_seeds1 $ sort man_mi_seeds1 man_ll_seeds1 | uniq | wc 374 374 4321 $ gawk '$1>10{print $2}' man_de_acro | lc | sort - man_mi_seeds1 man_ll_seeds1 | uniq > man_all_uni_seeds $ wc man_all_uni_seeds 405 405 4445 man_all_uni_seeds

84


$ cat DT_corpus_scientifico/* | tree-tagger-german > man-dt.tgd $ tail +2 man-dt.tgd | paste man-dt.tgd - | gawk 'NF==6' > man-dt.tgd.bigrams $ tail +3 man-dt.tgd | paste man-dt.tgd.bigrams - | gawk 'NF==9' > man-dt.tgd.trigrams $ gawk '$2~/ÂDJ/ && $5~/ÂDJ/ && $8~/^N/{print $1,$4,$7}' man-dt.tgd.trigrams | lc | filter_multi_word_expressions.pl -k man_all_uni_seeds - | sort | uniq -c | sort -nrk1 > man_ADJ_ADJ_NN $ gawk '$1>1{print $3,$4}' man_ADJ_ADJ_NN > man_endings_of_ADJ_ADJ_NN $ gawk '$2~/ÂDJ/ && $5~/^N/{print $1,$4}' man-dt.tgd.bigrams | lc | filter_multi_word_expressions.pl -k man_all_uni_seeds - | simple_filter.pl -s man_endings_of_ADJ_ADJ_NN - | sort | uniq -c | sort -nrk1 > man_ADJ_NN $ gawk '$2~/^N/{print $1}' man-dt.tgd | lc | filter_multi_word_expressions.pl -k man_all_uni_seeds - | sort | uniq -c | sort -nrk1 > man_NN

85


Appendice 2

Glossario di riferimento utilizzato per le estrazioni

Italiano Deutsch English (sistema) HLA HLA(-System) HLA 6MP 6-MP 6-mercaptopurine 6-TG 6-TG 6-thioguanine adenopatia Adenopathie adenopathy ADM ADM adriamycin alchilanti Alkylantien alkylating agents alopecia Alopezie alopecia (en) anemia Anämie anemia (en) anomalie cromosomiche

Chromosomenanomalien chromosomal abnormalities

anoressia Anorexie anorexia antiblastici antimetaboliti Antimetaboliten antimetabolites antineoplastici Antineoplastica antineoplastic drugs antitumorali antracicline Antrazyklinen anthracyclines aplasia Aplasie aplasia(en) apoptosi Apoptose apoptosis ARA-C AraC cytarabine aspirato midollare Knochenmarkaspirat bone marrow

aspiration astenia Asthenie asthenia ATMO biologia molecolare Molekularbiologie molecular biology biopsia ossea Knochenmarkbiopsie bone marrow biopsy blasti Blasten blast cells blasti leucemici leukämische Blasten leukemic blasts B-LLA B-ALL B-cell ALL caratterizzazione genotipica

Genotypisierung genotyping

cariotipo Karyotyp karyotyping CCR (it) CCR (de) CCR cefalea Kopfschmerzen headache cellule blastiche cellule staminali emopoietiche

hämatopoetische Stammzellen

hemopoietic stem cells

CF Folsäure folic acid

86


Italiano Deutsch English chemioterapia Chemotherapie chemotherapy chemioterapia combinata

combination chemotherapy

chemioterapia intratecale

intrathekale Chemotherapie intrathecal chemotherapy

chemioterapici Chemotherapeutika chemotherapeutic agents

ciclosporina A CsA cyclosporin A citochimica Zytochemie cytochemistry citogenetica Zytogenetik cytogenetics citometria a flusso Durchflußzytometrie flow cytometry citopenia Zytopenie cytopenia classificazione FAB FAB-Klassifikation FAB classification clearance leucemica Reduktion der Blastenanteil clearance of leukemic

cells common ALL c-ALL common-ALL complicanze Komplikationen complications consolidamento Konsolidierungstherapie consolidation therapy conta leucocitaria Leukozytenzahl WBC count CPM CPM (de) cyclophosphamide cromosoma Philadelphia

Philadelphia-Chromosom Philadelphia chromosome

CSF (it) CSFs colony-stimulating factors

deficit dei nervi cranici Hirnnervenausfälle cranial nerve palsies DFS (it) krankheitsfreies Überleben DFS diatesi emorragica hämorrhagische Diathese hemorrhagic diathesis

DNA-Index (de) DNA Index DNM DNR daunorubicin dolori osteo-articolari Knochen- u.

Gelenkschmerzen bone and joint pain

DXM DEXA dexamethasone effetti collaterali Nebenwirkungen side effects EFI (it) EFI EFI EFS (it) EFS EFS emesi Erbrechen emesis epatosplenomegalia Hepatosplenomegalie hepatosplenomegaly epistassi Epistaxis epistaxis esame biochimico del liquor

CSF chemistry

esame citomorfologico del liquor

Zytozentrifugenpräparat cytospin preparation of CSF

esame citomorfologico del midollo osseo

bone marrow cytomorphology

esame citomorfologico del sangue periferico

Kombinationschemotherapie

DNA Index (it)

87


Italiano Deutsch English esame emocromocitometrico

Differentialblutbild complete blood count

fattori di crescita ematopoietici

hämatopoetische Wachstumsfaktoren

hematopoietic growth factors

fattori di rischio Risikofaktoren risk factors fattori prognostici prognostische Faktoren prognostic factors follow-up (it) follow-up (de) follow-up formula leucocitaria G-CSF (it) G-CSF (de) G-CSF GM-CSF (it) GM-CSF (de) GM-CSF granulocitopenia granulocytopenia GvHD (it) GvH GVHD GVL GvL Effekt Graft Versus Leukemia

Effect HD- (it) HD- (de) HD- IFO IFO (de) ifosfamide immunofenotipo Immunphänotyp immunophenotype immunosoppressione Immunsuppression immunosuppression induzione Induktionstherapie induction therapy induzione della remissione

intensificazione interessamento SNC iperleucocitosi Hyperleukozytose hyperleukocytosis ipertensione endocranica

Intrakranielle Hypertonie intracranial hypertension

irradiazione corporea totale

Ganzkörperbestrahlung Total Body Irradiation

LAB biklonale Leukämie bilineage Leukemia LAL LAL a fenotipo immunologico B

B-Zellreihe B-lineage ALL

LAL a fenotipo immunologico T

T-Zellreihe T-lineage ALL

LAL non T non B B-Vorläuferzell-ALL B-cell precursor ALL LANL ANLL ANLL L-ASP L-ASP (de) L-asparaginase leucaferesi Leukaphärese leukapheresis leucemia Leukämie leukemia leucemia acuta akute Leukämie acute leukemia leucemia acuta indifferenziata

AUL (de) AUL

leucemia cronica chronische Leukämie chronic leukemia leucemia ibrida Biphänotypische (Hybrid-)

Leukämie BAL

88


Italiano Deutsch English leucemia linfatica acuta

leucemia linfoblastica acuta

leucemia linfoide acuta leucemia refrattaria Refraktäre ALL refractory leukemia leucociti Leukozyten leukocytes leucocitosi Leukozytose leukocytosis leucopenia Leukopenie leukopenia linfoadenopatia Lymphadenopathie lymphadenopathy linfoblasti linfociti B B-Lymphozyten B-lymphocyte linfociti T T-Lymphozyten T-Lymphocyte liquor Liquor CSF LLA ALL (de) ALL LLA del bambino ALL im Kindesalter childhood ALL,

infantile ALL LLA pre-B prä-B-ALL Pre-B cell ALL LLA pre-pre-B prä-prä-B-ALL Pre-Pre B-ALL LMA AML (de) AML mantenimento Erhaltungstherapie maintenance therapy massa mediastinica Mediastinaltumor mediastinal mass MDR (it) MDR MDR meningosi leucemica Meningeosis leucaemica meningeal leukemia midollo osseo Knochenmark bone marrow midollo spinale Rückenmark spinal cord mielosoppressione Myelosuppression myelosuppression MRM MRD (de) MRD MTX MTX (de) methotrexate nausea Übelkeit nausea (en) necrosi asettica del tessuto osseo

aseptische Knochennekrosen.

osteonecrosis

neutropenia Neutropenie neutropenia null ALL pallore cutaneo Hautblässe pallor PCR (it) PCR (de) PCR PDN PRED prednisone petecchie Petechien petechiae PGR (it) PRED-GR PGR piastrinopenia PPR (it) PPR PPR profilassi SNC ZNS-Prophylaxe CNS prophylaxis puntura lombare Lumbalpunktion lumbar puncture radioterapia Strahlentherapie Radiotherapy radioterapia profilattica dell´encefalo

89


Italiano Deutsch English randomizzazione Randomisierung randomization RC CR (de) CR recidiva Rezidiv relapse recidiva combinata kombiniertes Rezidiv combined relapse recidiva ematologica recidiva extramidollare extramedulläres Rezidiv extramedullary relapse recidiva isolata isoliertes Rezidiv isolated relapse recidiva meningea recidiva midollare KM-Rezidiv bone marrow relapse recidiva neurologica recidiva SNC ZNS-Rezidiv CNS relapse recidiva testicolare Hodenrezidiv testicular relapse reinduzione Reinduktionstherapie reinduction therapy remissione Remission remission resistenza al trattamento

Resistenz Resistance to Treatment

ricaduta ricaduta fuori terapia ricaduta in terapia ricaduta off therapy ricaduta on therapy ricaduta precoce frühes Rezidiv early relapse ricaduta tardiva spätes Rezidiv late relapse risposta al prednisone Prednison-Response prednisone response RTC prophylaktische

Schädelbestrahlung CRT

sangue periferico peripheres Blut peripheral blood santuari Problemstellen Sanctuary Sites sindrome da lisi tumorale massiva

Tumor-Lyse-Syndrom acute tumor lysis syndrome

SNC malattia sopravvivenza sopravvivenza a lungo termine

Langzeitüberleben Long-Term Survival

sopravvivenza libera da eventi

sopravvivenza libera da malattia

steroidi Steroide Steroids stratificazione Stratifizierung stratification striscio di sangue periferico

peripherer Blutausstrich

SUR Überleben survival terapia di supporto Supportivtherapie supportive care tipizzazione immunofenotipica

Immunphänotypisierung immunophenotyping

peripheral blood smear

90


91

Italiano Deutsch English T-LLA TMO KMT BMT TMO allogenico allogene KMT allogeneic bone

marrow transplantationTMO autologo TMO-A autologe KMT autologous bone

marrow transplantationtossicità Toxizität toxicity trapianto di cellule staminali da sangue periferico

Periphere Blutstammzelltransplantation

PBSCT

trapianto di cellule staminali emopoietiche

SZT stem cell transplantation

trombocitopenia Thrombozytopenie thrombocytopenia VCR VCR (de) vincristine VDS VDS (de) vindesine VP-16 VP16 etoposide

Download - Alma Mater Studiorum - Università di Bologna - Sede di ForlìAlma Mater Studiorum - Università di Bologna - Sede di Forlì Scuola Superiore di Lingue Moderne per Interpreti e Traduttori

Top Related