computergestützte Übersetzung evgenia antokolskaya institut für allgemeine und angewandte...
TRANSCRIPT
Computergestützte Übersetzung
Evgenia Antokolskaya
Institut für Allgemeine und Angewandte SprachwissenschaftSeminar für ComputerlinguistikPS Maschinelle ÜbersetzungDr. Anke Holler07.07.2005
Einleitung
Die Idee mit Hilfe eines Computers zu übersetzen wurde erst Die Idee mit Hilfe eines Computers zu übersetzen wurde erst 1980 von Martin Kay vorgeschlagen. 1980 von Martin Kay vorgeschlagen.
Die Möglichkeiten, die die maschinelle Übersetzung damals Die Möglichkeiten, die die maschinelle Übersetzung damals anbieten konnte, waren nicht vollständich. Nämlich hat die anbieten konnte, waren nicht vollständich. Nämlich hat die Zielsprache nach dem Übersetzen nicht immer perfekt Zielsprache nach dem Übersetzen nicht immer perfekt ausgesehen. Um das zu beseitigen könnte man sich an einen ausgesehen. Um das zu beseitigen könnte man sich an einen Menschen wenden.Menschen wenden.
Der Computer macht die mühsame Arbeit,Der Computer macht die mühsame Arbeit,der Mensch kontrolliert! Oder der Mensch kontrolliert! Oder umgekehrt umgekehrt
umgekehrt
Computergestützte Übersetzung (Definition)
der Computerder Computer übersetzt, der Mensch übersetzt, der Mensch hilft dabei durch Vor- hilft dabei durch Vor- oder Nachbereitung des oder Nachbereitung des zu übersetzenden zu übersetzenden Materials (pre- bzw. Materials (pre- bzw. post-editing). Man post-editing). Man spricht hier von human-spricht hier von human-aided machine aided machine translation (HAMT). translation (HAMT).
der Menschder Mensch übersetzt, übersetzt, der Computer unterstützt ihn der Computer unterstützt ihn dabei durch automatisches dabei durch automatisches Nachschlagen von Nachschlagen von Terminologie (automatic Terminologie (automatic dictionary look-up), durch dictionary look-up), durch Vergleichen von Texten mit Vergleichen von Texten mit früheren Übersetzungen früheren Übersetzungen (translation memory) etc. (translation memory) etc. Man spricht dabei von Man spricht dabei von machine-aided human machine-aided human translation (MAHT).translation (MAHT).
Translator´s Workbench
Die Idee von der Kontrolle eines Menschen über die Arbeit Die Idee von der Kontrolle eines Menschen über die Arbeit
eines Computers beim Übersetzen wurde weiter verfolgt.eines Computers beim Übersetzen wurde weiter verfolgt.
Man nennt das VerfahrenMan nennt das Verfahren ein ein Translator´s Work-Translator´s Work-
bench (TWB)bench (TWB) oder Translator´s Workstation. oder Translator´s Workstation.
Translator´s Workbench Dokumentenverarbeitung
Mittel für die Arbeit mit einer Sprache (Monolingual resources)
Mittel für die Arbeit mit Sprachpaaren
(Bilingual resources)
MÜ-orientierte Mittel
Kommunikation
Administrative Unterstützung
Translator´s Workbench
Die Integrierungsprobleme
Komplezierte Aufgaben, die ein TWB lösen mag, verlangen ein komplexes Interface
Das System hat aber auch negative Seiten:Das System hat aber auch negative Seiten:
wichtige Komponente der CAT-Anwendungen
2)Bilingual Alignment
3)Subsentential Alignment
1)Translation Memory
TMTM
CATCAT
BABA SASA
Weitere Komponente CAT
Eine Eine Terminologische DatenbankTerminologische Datenbank ist eine ist eine Datenbank,Datenbank, mit der mit der eine eine Terminologie Terminologie verwaltet werden kann. Dies ist vor allem für verwaltet werden kann. Dies ist vor allem für die die ÜbersetzungÜbersetzung sinnvoll. Die Anwendungszwecke können von sinnvoll. Die Anwendungszwecke können von einfachen einfachen WörterbüchernWörterbüchern und und GlossarenGlossaren bis hin zu strukturierten bis hin zu strukturierten ThesauriThesauri reichen. reichen.
FilterprogrammeFilterprogramme zur Anbindung an zur Anbindung an TextverarbeitungTextverarbeitung- und - und DTPDTP--Programme Programme
Translation Memory (Übersetzungsarchiv)
die die Übersetzungen (in der Regel Übersetzungen (in der Regel "menschlicher" "menschlicher" ÜbersetzerÜbersetzer) und bietet dem ) und bietet dem BearbeitBearbeiter diese er diese bereits vorhandenen bereits vorhandenen ÜÜbersetzungen später zur bersetzungen später zur Wiederverwendung an. Hierbei können nicht nur identische, Wiederverwendung an. Hierbei können nicht nur identische, sondern auch ähnliche Ausgangstextsegmente erkannt werden.sondern auch ähnliche Ausgangstextsegmente erkannt werden.
Das TMDas TM speichert
Translation Memory
Man braucht Man braucht eine Datenbankeine Datenbank, wo die vom Übersetzer , wo die vom Übersetzer bearbeiteten Sätze gespeichert werden.bearbeiteten Sätze gespeichert werden.
Die einzelnen Einheiten der Datenbank werden Die einzelnen Einheiten der Datenbank werden SegmenteSegmenteoderoder Translation Units (TUs) Translation Units (TUs) genannt. genannt.
Der Zugriff auf und die Arbeit mit Translation-MemoryDer Zugriff auf und die Arbeit mit Translation-Memoryerfolgt über erfolgt über TranslationTranslation MemoryMemory SystemeSysteme. .
Translation Memory
Translation Memory Similarity Measure – wie berechnet man die Ähnlichkeit der
Sätze?
Die vom System rausgesuchten und wiedergegebenen Sätze/Segmente sollen den vom Bearbeiter angewählten Sätzen semantisch und syntaktisch ähnlich sein. –
...eine sogar für den Menschen schwierige Aufgabe
Input:Input: Select one of the optionSelect one of the option
1.Choose one of the alternatives given1.Choose one of the alternatives given2.Select none of the options.2.Select none of the options.3.Make a selection.3.Make a selection.
Translation Memory Similarity MeasureDas System sucht eigentlich aus der Datenbank diejenigen Das System sucht eigentlich aus der Datenbank diejenigen Sätze/Segmente raus, die die größte Anzahl von ähnlichen Sätze/Segmente raus, die die größte Anzahl von ähnlichen Worten haben.Worten haben.
Die Probleme:Die Probleme:
1.1. Die Länge des wiedergegebenen Segmentes kann zu groß sein.Die Länge des wiedergegebenen Segmentes kann zu groß sein.
2.2. Die Wortordnung.Die Wortordnung. ((the number formatthe number format oder format the number )format the number )3.3. Synonyme.Synonyme. ((enter a digit enter a digit oder type in a number from 0-9) type in a number from 0-9)
Translation Memory Stoplists
String and Word Similarity; Stemming
Input:Input: Delete all the files in the folderDelete all the files in the folderTU-1: Put TU-1: Put all theall the cartridges cartridges in thein the safe. safe.TU-2: TU-2: Delete folder filesDelete folder files..
Delete: Delete: deletes, deleted, deleting, deletiondeletes, deleted, deleting, deletionRelation: Relation: relate, rationalrelate, rational
Translation Memory Inverted Files
add
bookmark
click
menu
select
icon
a b
a(2) b
a c
a
b
c
a. To add a bookmark, click on the Bookmark menu.a. To add a bookmark, click on the Bookmark menu.b. Select „Add Bookmark“.b. Select „Add Bookmark“.c. Click on the icon.c. Click on the icon.
a: 5a: 5
b: 3b: 3
c: 2c: 2
Translation Memory
Zwei wichtigste Parameter bei der Wiedergabe des Zwei wichtigste Parameter bei der Wiedergabe des Ergebnisses:Ergebnisses:
1.1. PrecisionPrecision2.2. RecallRecall
TM System
Bilingual AlignmentIIm m ÜbersetzungsprozessÜbersetzungsprozess versteht man darunter einen Vorgang, der versteht man darunter einen Vorgang, der darin besteht, einen Ausgangstext, Segment für Segment, mit darin besteht, einen Ausgangstext, Segment für Segment, mit einem entsprechenden Zieltext als Äquivalente zu paaren. Die so einem entsprechenden Zieltext als Äquivalente zu paaren. Die so entstehende entstehende ÄquivalenztabelleÄquivalenztabelle wird in der Folge als wird in der Folge als ÜÜbersetzungsbersetzungs--speicher (speicher (TMTM) genutzt. Durch das Alignment können Über) genutzt. Durch das Alignment können Über--setzungen genutzt werden, die zuvor ohne Computerhilfe übersetzt setzungen genutzt werden, die zuvor ohne Computerhilfe übersetzt wurden.wurden.
Bilingual Alignment
Length-based alignment
Text-based alignment
Ein kurzer Satz in der Augangssprache wird an einen kurzen Satz Ein kurzer Satz in der Augangssprache wird an einen kurzen Satz in der Zielsprache angeordnet, ein langer – an einen langen. in der Zielsprache angeordnet, ein langer – an einen langen.
Es geht um die Vergleichung der Worte oder anderen Textkom-ponente, z. B. Figuren, Namen, Titel, Daten zwischen den beiden Texten.
Subsentential AlignmentBeim Übersetzen gibt es manchmal sehr komplezierte technische Beim Übersetzen gibt es manchmal sehr komplezierte technische Termini, deren Übersetzung sogar ein kundiger Bearbeiter Termini, deren Übersetzung sogar ein kundiger Bearbeiter bezweifeln kann. bezweifeln kann. Als Lösung kann der Bearbeiter Als Lösung kann der Bearbeiter ein Fragmentein Fragment aus dem schon aus dem schon übersetzten ähnlichen Text bekommen, wo die notwendigenübersetzten ähnlichen Text bekommen, wo die notwendigenTermini betroffen sind. Man sieht gleich die gesuchten Worte, die Termini betroffen sind. Man sieht gleich die gesuchten Worte, die markiert sind, und den übrigen Kontext.markiert sind, und den übrigen Kontext.
...on your SCSI port....on your SCSI port. TheThe optical charakter reader optical charakter reader is detected byis detected by thethe operating system.operating system.El sistema operativoEl sistema operativo detecta el detecta el lector lector óóptico de carptico de caráácterescteres. Una ventana.... Una ventana...
The accuracy of anThe accuracy of an optical charakter reader optical charakter reader depends on the... depends on the...La precisiLa precisióón de unn de un lector lector óóptico de carptico de caráácterescteres depende de... depende de...
Subsentential Alignment
Beim Beim Terminology AlignmentTerminology Alignment sucht das System in den beiden sucht das System in den beiden Sprachen nach den angewählten Fachausdrücken, erst danach Sprachen nach den angewählten Fachausdrücken, erst danach versucht es die Anordnung zu erstellen: versucht es die Anordnung zu erstellen:
1. 1. Schritt:Schritt: a monolingual terminology identification stepa monolingual terminology identification step. Nur die . Nur die gesuchten Termini werden beachtet und bearbeitet. gesuchten Termini werden beachtet und bearbeitet.
2. Schritt:Schritt: a bilingual step. a bilingual step. Das Alignment selber.Das Alignment selber.
Subsentential AlignmentBeim Beim Word AlignmentWord Alignment wird nicht nur unser Fachausdruck wird nicht nur unser Fachausdruck an seine Übersetzung angeordnet, sondern auch jedes weitere an seine Übersetzung angeordnet, sondern auch jedes weitere Wort im Text. Word-Alignment-Algorithmus kann dann wie Wort im Text. Word-Alignment-Algorithmus kann dann wie ein ein Bilingual-WörterbuchBilingual-Wörterbuch mit entsprechend angeordneten mit entsprechend angeordneten Worten aussehen. Worten aussehen.
En: Start the En: Start the operatingoperating systemsystem. Launch the . Launch the programm programm via the keyboardvia the keyboard
Sp: Comenzar el Sp: Comenzar el sistemasistema operativooperativo. Empezar el . Empezar el programaprograma mediante el mediante el teclado.teclado.
Literaturverzeichnis Trujillo, A. (1999): Translation Engines: Techniques for
Machine Translation, Springer Verlag. http://de.wikipedia.org/wiki/Computer_Aided_Translation http://www.cogsci.uni-osnabrueck.de/~reinhard/MT/
MT06.pdf http://www.iro.umontreal.ca/~simardm/emnlp99/node3.html