![Page 1: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/1.jpg)
HS Transkription in Sprachsynthese und - erkennung
Analogiebildung II
Yavuz Tüzün
![Page 2: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/2.jpg)
Rückblick
• Systeme mit Trainingsdaten füttern• Ergebnisse müssen kontrolliert werden
– ggf. durch back propagation verbessern• IL-Systeme (inductive learning) bilden
Buchstaben(-folgen) auf Phoneme ab• PbA (Pronunciation by Analogy, s. AB I)
vergleicht Zeichenketten auf orthographische Ähnlichkeit und verwendet die durch vorheriges Alignment den Ketten zugewiesenen Lautfolgen. Die Verkettung der Lautfolgen ergibt die Transkription.
![Page 3: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/3.jpg)
Rückblick
• Liefern gute Ergebnisse für sprachspezifische Wörter
![Page 4: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/4.jpg)
Pronunciation by Latent Analogy
• Weiterentwicklung von PbA• Kein vorheriges Alignment• Alignment nur zwischen Transkriptionen ganzer
Wörter• Die Wörter sind auf Grund orthographischer
Ähnlichkeit zum Eingabewort ausgewählt• Metrik aus der Analysis (Latent Semantic
Analysis) dient als Instrument– bestimmt charakteristische Buchstabenstrings der
Wörter– stellt ein Mass der Eindeutigkeit bestimmter
Buchstabenketten zur Bestimmung von Wörtern dar
![Page 5: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/5.jpg)
Pronunciation by Latent Analogy
• Ergebnis ist Menge von orthographischen Ankern, für jedes „In-Vocabulary“ (IV) -Wort ein Anker
![Page 6: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/6.jpg)
Orthographische Nachbarn
• sei Menge der IV-Wörter, || = M• sei Menge der Substrings mit Länge n, || = N• '-' steht für Wortanfang und -ende, gilt als
Buchstabe mit Länge 1
(N x M) Matrix WN Zeilen, i-te Zeile für i-ten Substring ti
M Spalten, j-te Spalte für j-tes
Word vj
![Page 7: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/7.jpg)
Orthographische Nachbarn
• wij sagt aus zu welchem Mass Substring ti aus im Wort vi aus vorkommt
• SWZ von W: W = USVT
• U links singuläre Matrix, Reihenvektor ui
• V rechts singuläre Matrix, Reihenvektor vj
• Typische Grössen: R = 50 – 100, N = 10000,M = 10000 – 100000, n = 3
(N x M) W (N x R) U
(R x R) S (R x M) VT
![Page 8: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/8.jpg)
Beispiel Orthographische Nachbarn
• Vokabular: „rough“, „though“, „through“• Substrings mit der Länge n = 3 bilden:
-ro rou oug ugh gh- -th tho hou thr hrorough
(10 x 3) W
though through-rorouougughgh--ththo
thrhou
hro
11
1
1
0
1
00
00
00
1
1
1
1
11
00
10
1
1
1
1
01
11
![Page 9: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/9.jpg)
Beispiel Orthographische Nachbarn
• SWZ (engl.: Singular Value Decomposition) mit R = 2
•
W U
S VT
10 10
3 3
2
2
ii i iu=u S, v =v S
![Page 10: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/10.jpg)
Beispiel Orthographische Nachbarn
• OOV-Wort: „thorough“• Berchnung Vektor
~
pw
-rorouougughgh--ththo
thrhou
hro
thorough
10
1
1
1
1
01
00
(10 x 1) pw
![Page 11: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/11.jpg)
Beispiel Orthographische Nachbarn
• SWZ von , so dass U und S gleich bleiben:
•
pw
Tp pw =USv
U
S
10 10
1 1
2
2
Tpv
T
p p pv =v S=w U
pw
![Page 12: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/12.jpg)
Beispiel Orthographische Nachbarn
• Abstände des OOV-Wortes zu allen IV-Wörtern mit Cosinusfunktion berechen:
• IV-Wörter umgekehrt in absteigender Entfernung sortieren
• IV-Wörter innerhalb eines vorher bestimmten Radius bilden orthographische Nachbarschaft zu Eingabewort
2 Tp j
p j p jp j
v S v
v S v SK(v ,v )=cos(v S,vS)=
![Page 13: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/13.jpg)
Beispiel Orthographische Nachbarn
-0,
6
-0,
4
-0
,2
0
,0
0
,2
0,0 0,2 0,4 0,6 0,8 1,0
ougugh
gh--th
tho
hou
routhr
hro
-ro
though
thorough
throughrough
![Page 14: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/14.jpg)
Alignment
• Alignment von kompletten Aussprachen aus der orthographischen Nachbarschaft
• Alignment startet mit jenem Phonemsequenz, welches am nächsten zu einem Substring mit Begrenzung für Wortanfang liegt.
• Substring mit Begrenzung für Wortanfang ist der nächstgelegene am OOV-Wort
• Im Beispiel: -th through
![Page 15: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/15.jpg)
Alignment
• Modifizierter komplizierter Algorithmus aus Bioinformatik– Findet Gruppe von Proteinen innerhalb einer
Proteinkette– Identifikation von Genen in der DNA
• Seien φ1...φk...φK und ψ1...ψl...ψL Phonemstrings
• A(k,l) sind minimalen Kosten vom Alignment zwischen φ1...φk und ψ1...ψl
• C(k,l) sind Kosten für das Austauschen der Phoneme φk und ψl
![Page 16: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/16.jpg)
Alignment
• g(i,k) bzw. h(j,l) sind Kosten für Lücke φi...φk im ersten bzw. ψj...ψl im zweiten String
• Rekursionsformel:
• A(k,0) = h(0,k), 1≤k≤K, und A(0,l) = g(0,l), 1≤l≤L
0 -1
0 -1
( , ) min{ ( -1, -1) ( , ), ( , ), ( , )}
( , ) min{ ( , ) ( , )}( , ) min{ ( , ) ( , )}
i k
j l
A k l A k l C k l G k l H k l
G k l A i l g i kH k l A k j h j l
mit
![Page 17: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/17.jpg)
Alignment
• Kosten für Austauschen gleicher Phoneme gleich 0
• Vokal-Konsonant-Austausch wird durch unendliche Kosten verboten
• Konsonant-Konsonant- bzw. Vokal-Vokal-Austausch genauso teuer wie Austausch einer Lücke
• Phonem, das am häufigsten an einer Stelle auftaucht wird in die Transkription übernommen
![Page 18: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/18.jpg)
Beispiel-Alignment
T r u: through
r V f rough
D oU though
d oU dough
T 3` d third
r O t wrought
T 3` r oU thorough
![Page 19: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/19.jpg)
Vergleich
• Um zu zeigen, wie gute Ergebnisse PbLA liefert, wird es mit einem Entscheidungsbaumsystem verglichen
• Entscheidungsbaum hat 2000 Knoten• Trainingskorpus besteht aus 56514 überwiegend
westeuropäische Namen• Testvokabular: 500 Namen aus 84193 grossem
Namenslexikon versch. ethnischer Gruppen• Ergebnis: 23,3% Phonemfehlerrate, 80,2%
Wortfehlerrate
![Page 20: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/20.jpg)
Vergleich
• PbLA: M = 56514 und N = 8257 bei n = 3• SWZ auf (8257 x 56514) Matrix W mit R = 100• Schwelle wurde so gewählt, dass
durchschnittlich 200 orthographische Nachbarn für OOV-Worte gefunden wurden
• Bessere Ergebnisse: 13,4% Phonemfehlerrate, 38,0% Wortfehlerrate
![Page 21: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/21.jpg)
Vergleich
• PbLA liefert bessere Ergebnisse• Erfordert (fast) keine linguistische
Vorkenntnisse, ausser Wissen über Vokale und Konsonanten, s. Kostenfunktion
• Keine Beaufsichtigung, weil kein Training nötig
![Page 22: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/22.jpg)
Fragen?
![Page 23: HS Transkription in Sprachsynthese und - erkennung Analogiebildung II Yavuz Tüzün](https://reader035.vdocuments.pub/reader035/viewer/2022062512/55204d6249795902118b6078/html5/thumbnails/23.jpg)
Ende!