Transkription in der Transkription in der Sprachsythese und –erkennungSprachsythese und –erkennung
SS 2004 SS 2004
Regelgesteuerte automatische Transkription auf der Basis von
Expertenwissen
Referent: Freshta Khairi
GliederungGliederung
1. Einleitung
2. Allgemeines über P-Tra
3. Sprachelemente von P-Tra
4. Sonderzeichen
5. Klassen
6. Operatoren
GliederungGliederung
7. Schreibweise
8. Regelapparat
9. Ausführung
10. Probleme
11. Praktische Anwendung
EinleitungEinleitung- keine direkte Phonem – Graphem – Beziehung- Bestimmung des Lautes erst bei der Betrachtung der Umgebung-Entwicklung von Regelsystemen für verschiedene Sprachen-Diese sind meistens kontextsensitiv und basieren auf dem Ansatz von Chomsky und Halle (1968)
E → A / L_R Eine Symbolkette E (Graphem) geht in eine Symbolkette A (Phonem), wenn die linke Kontextbedingung L und die rechte Kontextbedingung R hinsichtlich E erfüllt sind.
Allgemeines über P-TraAllgemeines über P-Tra
-Programmiersprache zur phonetischen Transkription
-Mit einer Erweiterung durch die Grundelemente der formalen Aussagenlogik
-Strikte Trennung zwischen dem Regelapparat und dem Interpreter
-Zur Formulierung von Regeln für eine computergestützte phonetisch – allophonische Transkription von Schrifttexten
-P-Tra ist kontextsensitiv und somit Berücksichtigung von umgebenden Buchstaben und Allophonen
Sprachelemente von P-TraSprachelemente von P-Tra
-Wortanfang und Wortende stellen die Kontextgrenzen dar-Überprüfung von einem Graphem bzw. einer Graphemsequenz mit Hilfe von logischen Aussagen und die Erstellung einer Transkription-Abarbeitung von links nach rechts Buchstabe für Buchstabe-Eine Menge logischer Aussagen d.h eine Gruppe von Regeln-Filterungsprozess mit großem Einfluss der Hierarchie auf die Entscheidung
Sprachelemente von P-TraSprachelemente von P-Tra
Linke Seite der Regel: Suchstring, bestehend aus einem oder mehreren Graphemen, fakultative Kontextbedingung
Rechte Seite der Regel: das resultierende Transkript
“-(A,O,U)” CH & #, Ä,E,I = Ç
linke Suchstring rechte result.Kontextbed. Kontextbed Transkript
Sprachelemente von P-TraSprachelemente von P-Tra
Jede logische Aussage beansprucht eine eigene Zeile mit Präkontext, Suchstring, Postkontext und Ergebnisstring.
Präkontext: - linksseitige Kontextbedingung - graphematisch / allophonisch - graphematisch steht in (“…“)
Beispiel: “-(A, O, U)“ - allophonisch ([…]) oder (/…/)
Beispiel: [∫l, ∫, h, gr, tr]
Suchstring: graphematischBeispiel: CH
Sprachelemente von P-TraSprachelemente von P-Tra
Postkontext: - rechtsseitige Kontextbedingung - graphematisch - benötigt keine Klammern u.ä.
Beispiel: #, Ä,E,I
Ergebnisstring: - wird von einem Gleichheitszeichen (=) eingeleitet - allophonisch
Beispiel: … = Ç
Sprachelemente von P-TraSprachelemente von P-Tra
Die logischen Aussagen bzw. die Regeln können zu einer Gruppe zusammengefasst werden. Erkannt wird diese Gruppe durch einen Punkt und das dazugehörige Graphem.
Beispiel: .k
Die letzt Regel einer Gruppe ist eine direkte ZuordnungBeispiel: Z= ts oder auch HOTEL = ho’tεl
SonderzeichenSonderzeichen
Doppelkreuz (#): - Im Prä- oder Postkontext bedeutet Wortanfang oder Wortende
- Am Ende des Suchstrings Markierung von Morphemen, insbesondere Präfixen Beispiel: “#“ VIER & # = fi:r
“#“ AUS & -TRAL = ‘aos#
Dollerzeichen ($): - steht als Platzhalter (wildcard) für ein beliebiges Graphem im Prä- oder Postkontext
Leerzeichen: - Zur besseren Gliederung können beliebig vieleverwendet werden
Sternsymbol (*): - folgende Zeile als Kommentar
KlassenKlassen
Zusammenfassung der Einzelgrapheme bzw. –allophone zu einer Klasse
Beispiel: <V5> eine Klasse der Vokale <<K0>> eine Klasse von Konsonanten mit doppeltem
Vorkommen
Definiert wird eine Klasse durch ein (!). Beispiel: !K5 bdg ptk
!K5 b,d,g, p, t, k
OperatorenOperatoren-Disjunktion (logisches ODER) symbolisiert durch ein Komma (,)
-*Beispiel: [r, b, f] Uß = u:s
-Konjunktion (logisches UND) hat kein Symbol*Beispiel: E & (N,R,L) S = ə
-Antivalenz (logisches EXKLUSIV – ODER) symbolisiert durch ein Semikolon (;)
*Beispiel: G & <K0; R;L;N> = k
OperatorenOperatoren-Negation (logisches NICHT) mit den Symbolen (@) und (-)
-@ bei Graphem oder Allophon-(-) bei Graphem- oder Allophonstring bzw. nachfolgendem Klammer- oder Klassenausdruck
* Beispiel: “#“ ERZ & #, E @ U = e:rts
Verschachtelung logisch äquivalenter Aussagen und Verknüpfung dieser (sowohl im Prä- als auch Postkontext)
Beispiel: E & (<K4>, T) (E(N; R; S) #, U (M, N), (H, K) EI) = ə
SchreibweiseSchreibweisePräkontext: Erlaubt ist hier sowohl Groß- als auch Kleinschreibung
Wörter, deren Bedeutung davon abhängig sind, können durch eine geeignete Regel berücksichtigt werden.
Beispiel: WEG = ve:k weg = vεk
Suchstring: Sowohl Groß- als auch Kleinschreibung, wobei Großschreibung alle Arten von Eingabetexten und Kleinschreibung nur Kleingeschriebenes berücksichtigt
Postkontext: Hier ist die Großschreibung obligatorisch
AusführungAusführungInterpreterprogramm: - Übertragung der logischen Aussagen in die
Maschinensprache des PC - sofortige Ausgabe des Transkriptionsergebnisses
Trace – Modus- Darstellung untereinander- rechts neben jedem Allophonstring steht die Regel
AusführungAusführungBeispiel: Demonstrationde /#/ DE (<K5> <K4> <V0>), (STR, SKR, ST, SP, CH, FR, <K0>) <V0) = de
m M = mo O = on N = n st /on, In, εn/ ST & #, IT, RU, RA, RÖ, AN, IG = st r R = r a’tsio:n ATION & #, EN, S = a’tsio:n
RegelapparatRegelapparat
Ca. 1000 Einzelregeln
Keine systematische Morphemanalyse
Mit Ausnahme von Präfixen, da sichere Auffindung und wichtige Hilfsfunktion bei der Transkription nachfolgender Grapheme sowie Akzentuierung
RegelapparatRegelapparat
Das Prinzip bei der Formulierung der Regeln:
– Man sollte aus der Umgebung des Suchstrings soviel wie möglich berücksichtigen, aber möglichst wenig Kontext.
– Optimierung von Allgemeingültigkeit der Regeln und verkürzte Arbeitszeit
ProblemeProbleme
Fremdwörter– Inwieweit dürfen diese sowie auch Eigennamen in den
Regelapparat aufgenommen werden?
Zusammengesetzte Wörter, da keine Morphemanalyse– Typische Fehlinterpretation bei Fugen- S
Akzetuierung– Bisher nur da, wo die Auflistung des vollständigen
Wortes oder eines geeigneten Wortteils dies erlaubt
Praktische AnwendungPraktische Anwendung