![Page 1: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/1.jpg)
Gregor ErbachInterprice Technologies
Sprachdialogsystemefür Telefondienste
IVS
W 2
00
0,
Köln
24
.11
.00
![Page 2: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/2.jpg)
INHALT
1. Automatische Spracherkennung2. Diktiersysteme und Dialogsysteme3. Grundlagen der Spracherkennung4. Dialogsysteme5. Dialogbeschreibungssprachen6. Sprachausgabe7. Sprechererkennung8. Dialogsystem für Postgebührenauskunft9. Ausblick
![Page 3: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/3.jpg)
AUTOMATISCHE SPRACHERKENNUNG
• Forschungen seit den 50er Jahren• Breiter Kommerzieller Einsatz erst seit einigen Jahren• Grund: fallende Kosten für Prozessorleistung und
Speicherplatz• Spracherkenner können auf PCs als reine Software-
Lösungen realisiert werden
![Page 4: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/4.jpg)
DIKTIERSYSTEME UND DIALOGSYSTEME
Diktiersystem Dialogsystem
Sprecherabhängigkeit
sprecherabhängig bzw. sprecheradaptiv (muss für jeden Sprecher neu trainiert werden)
sprecherunabhängig
Größe des Vokabulars
bis 60.000 Wörter, die immer aktiv sind
einige tausend Wörter, von denen immer nur eine Teilmenge aktiv ist
Art der Eingabe unbeschränkt, auch komplexe Sätze sind möglich
nur bestimmte Muster werden bei jedem Dialogschritt erkannt
![Page 5: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/5.jpg)
GRUNDLAGEN DER SPRACHERKENNUNG
• Digitalisierung des Sprachsignals• Signalanalyse: Verteilung der akustischen Energie über
Frequenz und Zeit• Vergleich mit gespeicherten Mustern (akustische
Modelle)• Auswahl der am besten passenden Muster durch
sprachliches Wissen und Weltwissen
![Page 6: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/6.jpg)
SIGNALANALYSE
![Page 7: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/7.jpg)
SCHWIERIGKEITEN DER SPRACHERKENNUNG
• sprecherabhängig - sprecherunabhängig
• Variation der Sprecher (Alter, Dialekt, Gesundheit ...)
• kontinuierliche Sprache
• Vokabulargröße
• Spontansprache
• Umgebungsgeräusche
• gestörte Sprachübertragung
![Page 8: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/8.jpg)
SCHWIERIGKEIT vs. VOKABULAR
10 100 1000 10000 100000 1M
Telefon-anwendung
Diktiersystem
Schwierigkeit
Geräte-steuerung
Sprachwahlim Handy
Vokabular
![Page 9: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/9.jpg)
EVALUATION VON SPRACHDIALOGSYSTEMEN
Maßeinheit Bedeutung Anwendung
Wortfehlerrate (word error rate)
Anteil der vom Benutzer gesprochenen Wörter, die vom System falsch erkannt werden
Beurteilung der Leistungsfähigkeit des Spracherkenners
Erfolgsrate (task success rate)
Anteil der Transaktionen, die der Benutzer erfolgreich zu Ende führt
Beurteilung der Benutzbarkeit von Dialogsystemen
Produktivität Für die Durchführung einer Transaktion benötigte Zeit
Beurteilung der Effizienz für den Benutzer
Benutzer-zufriedenheit
subjektives Maß für die Zufriedenheit mit einem Sprachdialogsystem
Beurteilung des Gesamteindrucks
![Page 10: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/10.jpg)
AUFBAU EINES DIALOGSYSTEMS
Sprach-ausgabe
Dialog-steuerung
Anwendungs-system
Datenbank
Sprach-erkennung
![Page 11: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/11.jpg)
DIALOGINITIATIVE
1. Systeminitiative
• bei Systemen, die nur unregelmäßig benutzt werden
2. Benutzerinitiative
• erfahrene Benutzer können ohne Aufforderungen des Systems Kommandos eingeben
3. gemischte Initiative
• beispielsweise für Rückfragen des Benutzers oder Aktivierung einer Hilfefunktion
• Überbeantwortung von Fragen durch den Benutzer
![Page 12: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/12.jpg)
BARGE-IN
• "Barge-In" ist die Unterbrechung der Ausgabe eines Dialogsystems durch eine neue Eingabe des Benutzers
• Vorteile: – Möglichkeit der Unterbrechung langer Ausgaben (z.B.
umfangreiche Fahrplanauskünfte, Vorlesen von e-mail)
– Zeitersparnis durch schnellere Beantwortung von Fragen
• Probleme:– Unterbrechung der Systemsausgabe durch
Störgeräusche und Störung des Dialogablaufs
![Page 13: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/13.jpg)
VERIFIKATION
• Verifikation ist Bestätigung von Benutzereingaben• Explizite Verifikation: Eingabe muss ausdrücklich
bestätigt werden.• Implizite Verifikation: Eingabe wird wiederholt und gilt
als akzeptiert, wenn der Benutzer nicht widerspricht.
Explizite Verifikation Implizite Verifikation
System (S): Wollen Sie ein Paket oder eine Briefsendung schicken?Benutzer (B): ein Paket S: Sie wollen also ein Paket schicken? B: ja
S: Wollen Sie ein Paket oder eine Briefsendung schicken B: ein Paket S: In welches Land wollen Sie das Paket schicken? B: nein, kein Paket sondern einen Brief
![Page 14: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/14.jpg)
DIALOGBESCHREIBUNGSSPRACHEN
• Programmierung des Dialogablaufs ist ein kritischer Faktor bei der Entwicklung von Dialogsystemen
• Drei Ansätze für die Programmierung von Dialogsystemen:– VoiceXML– Bedingung-Aktion-Regeln– SpeechObjects
![Page 15: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/15.jpg)
VoiceXML
• Mit VoiceXML können Sprachdialogsysteme spezifiziert werden.
• VoiceXML ist eine XML-Applikation und wird durch eine DTD (Document Type Description) definiert.
• Dialogführung durch "slot-filling" (Form Interpretation Algorithm)
• Verarbeitung ist mit dem Ausfüllen von Formularen in HTML-Seiten vergleichbar.
• VoiceXML ist beim WWW Consortium als Standard eingereicht worden und wird von zahlreichen Firmen unterstützt.
![Page 16: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/16.jpg)
VoiceXML: Beispiel
<?xml version="1.0"?><vxml version="1.0"> <form> <field name="drink"> <prompt>Would you like coffee, tea, milk, or nothing?</prompt> <grammar src="drink.gram" type="application/x-jsgf"/> </field> <block> <submit next="http://www.drink.example/drink2.asp"/> </block> </form></vxml>
![Page 17: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/17.jpg)
VoiceXML Beispieldialog
S (System): Would you like coffee, tea, milk, or nothing?B (Benutzer): Orange juice.S: I did not understand what you said.S: Would you like coffee, tea, milk, or nothing?B: TeaS: (setzt den Dialog mit dem VoixeXML-Programm
drink2.asp fort)
![Page 18: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/18.jpg)
Bedingung-Aktion-Regeln in HDDL
• HDDL wird im Dialogsystem SpeechMania von Philips verwendet
• Eine HDDL-Regel besteht aus einem Bedingungsteil (COND) und einem Aktionsteil
• Slot-filling kann mit HDDL leicht realisiert werden• Überbeantwortung kann gut behandelt werden
![Page 19: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/19.jpg)
Beispiel: Bedingung-Aktion-Regel
COND( art == "paket" && !^gewicht )
{
QUESTION(gewicht)
{
INIT
{
"Geben Sie bitte das Gewicht des Pakets an";
}
}
}
![Page 20: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/20.jpg)
SpeechObjects
• SpeechObjects sind wiederverwendbare Dialogmodule• SpeechObjects erfüllen bestimmte Funktionen wie
Abfrage von Datum und Uhrzeit oder Abfrage einer Kreditkartennummer
• Fehlerbehandlung und Verifikation ist in den SpeechObjects eingebaut
• Entwickler können eigene Bibliotheken von wiederverwendbaren SpeechObjects aufbauen
![Page 21: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/21.jpg)
SPRACHAUSGABE
• Gesprochene vs. synthetisierte Ausgaben• Gesprochene Ausgaben werden von Benutzern besser
akzeptiert.• Beim Zusammensetzen von Sprachaufnahmen auf
fließende Übergänge achten.• Bei großem oder häufig wechselndem Vokabular ist
Sprachsynthese unvermeidlich.• Evaluation von Sprachsynthese nach den Kriterien der
Verständlichkeit und Natürlichkeit
![Page 22: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/22.jpg)
SPRECHERERKENNUNG
• Sprecherverifikation: Identität eines Sprechers überprüfen
• Sprecheridentifikation: Erkennung eines Sprechers aus einer Anzahl möglicher Sprecher
• Evaluation anhand der Verhältniszahlen "falsche Akzeptanz" und "falsche Zurückweisung"
• Ein Maß kann auf Kosten des anderen verbessert werden
• Wird große Sicherheit gefordert, muss Sprecherer-kennung mit anderen Verfahren (Passwort, Chipkarte ...) kombiniert werden
![Page 23: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/23.jpg)
DIALOGSYSTEM FÜR POSTGEBÜHREN
• Technische Basis– Philips SpeechMania mit österreichischen
akustischen Modellen– Windows NT 4.0– Pentium III (Minimum: Pentium II, 300 MHz)– 256 MB RAM (Minimum: 64 MB)– ISDN-Karte
• Zusammenarbeit zwischen Forschungszentrum Tele-kommunikation Wien (ftw.) und Österreichische Post AG
![Page 24: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/24.jpg)
KRITERIEN BEIM SYSTEMENTWURF
• Hauptsächlich Gelegenheitsnutzer• Dialogführung durch das System• Überbeantwortung ist möglich• Kein Barge-In
![Page 25: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/25.jpg)
ENTWICKLUNGSPROZESS
• Rapid Prototyping, Spezifikation der Anforderungen• Definition des Dialogflusses• Wizard-of-Oz Experiment• Erstes System mit vollständiger Preisauskunft• Interne Tests• Optimierung der Funktionalität• Tests mit externen Benutzern• Weiterentwicklung des Systems• Interne Tests• Externe Tests
![Page 26: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/26.jpg)
DIALOGBEISPIEL (Teil 1)
S1 (System): Möchten Sie ein Paket oder eine Briefsendung verschicken?
B2 (Benutzer): eine BriefsendungS3: Möchten Sie|den Brief|ins Inland oder ins Ausland
verschicken?B4: ins AuslandS5: In welches Zielland wollen Sie|den Brief|schicken?B6: nach ItalienS7: Soll der Brief|nach Italien|als Priority versendet
werden?B8: nein danke bitte ich richtig (nein danke, das ist nicht
nötig)S9: Bitte geben Sie das Gewicht des Briefes an
![Page 27: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/27.jpg)
DIALOGBEISPIEL (Teil 1)
B10: Niue Chile Sudan Bermuda zwanzig Gramm (na ich schätz so zwei hundert zwanzig Gramm)
S11: nach Italien|sind folgende Sonderbehandlungen zulässig: Einschreiben, Eilsendung und Nachnahme. Wollen Sie eine dieser Sonderbehandlungen nutzen, wenn ja, welche?
B12: nein richtig bitte kostet hier (nein das ist mir zu kompliziert)
S13: Danke für Ihre AngabenS14: Ein Brief|nach Italien|20|Gramm schwer, der|priority|
versendet wird, kostet|7|SchillingS15: Benötigen Sie eine weitere Auskunft?B16: nein danke
![Page 28: Gregor Erbach Interprice Technologies Sprachdialogsysteme für Telefondienste IVSW 2000, Köln 24.11.00](https://reader036.vdocuments.pub/reader036/viewer/2022062417/55204d7049795902118c273f/html5/thumbnails/28.jpg)
AUSBLICK
• Verbindung von Sprachdialog und Multimedia in 3G-Anwendungen (GPRS, UMTS)
• Kombination von Spracheingabe und Zeigen auf den Bildschirm
• Kombination von Sprachausgabe und animierter Graphik oder Video
• Anpassung an Benutzer und Kommunikationssituation• Multimodale Dialoge für e-commerce
(www.interprice.com)