beszédfelismerés és beszédszintézis beszédszintézis alapok
DESCRIPTION
Beszédfelismerés és beszédszintézis Beszédszintézis alapok. Takács György 2014. 03. 27. A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában:. 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó. - PowerPoint PPT PresentationTRANSCRIPT
Beszed. 2013.03.27. 1
Beszédfelismerés és beszédszintézis
Beszédszintézis alapok
Takács György
2014. 03. 27.
A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában:
• 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó.
• 2. A szintaktikai elemzés és a szemantikai interpretáció segítségével elemezhető a felhasználó közlésének szintaktikai szerkezete, valamint leképezhető annak szemantikai interpretációja az adott endszer céljainak megfelelően.
• 3. A dialógusvezérlés az input nyelvi jellemzői, az adott felhasználó és feladat egyéni beállításai alapján valósítja meg a rendszer megfelelő lépését, az adatbázis-lekérdezést.
• 4. A beszédszintézis technológiáját alkalmazzák arra, hogy a gép előállítsa a megfelelő beszédkimenetet
Beszed. 2013.03.27. 2
A beszédtechnológia szolgáltatja az alapot olyan interfészek előállításához, amelyek lehetővé teszik, hogy a felhasználók a gépekkel természetes emberi nyelven, és ne csak grafikus felület, billentyűzet vagy egér segítségével kommunikáljanak.
A beszédszintézist alkalmazzák például autós navigációs rendszerekben és az okostelefonokban a grafikus felület alternatívájaként.
A legszélesebb körben használt magyar beszédszintetizátor a Profivox, amely 2002 óta elérhető, és amelyet több alkalmazásba is beépítettek: SMS- és e-mailfelolvasó szoftverbe, autós és mobiltelefonos GPS rendszerbe, valamint e-book és képernyőolvasó szolgáltatásba
Beszed. 2013.03.27. 3
Beszed. 2013.03.27. 4
Beszed. 2013.03.27. 5
Mi tehát a beszédszintézis?• A természetes beszédlánchoz képest a
beszédüzenetet küldő ember helyett egy intelligens eszköz (számítógép, telefonközpont, GPS alapú navigáló rendszer, mobiltelefon) kezdeményezi az üzenetet és beszédjel formájában közli a felfogó emberrel.
• Lehetőség szerint a beszédüzenet legyen természetes és érthető, mintha igazi ember mondta volna.
Beszed. 2013.03.27. 6
A beszédszintetizátorok alapvető osztályai
Beszed. 2013.03.27. 7
Megoldott kérdés-e a beszédszintézis, más szóval szöveg-
beszéd átalakítás?
Beszed. 2013.03.27. 8
Igen
• Mert termékként állnak rendelkezésre megoldások.
• Mert jobb rendszerek beépített eleme (pl. OTP számlaegyenleg felolvasó, Hangposta, Windows XP, pályaudvari bemondó)
• Mert könyvek leírják, iskolában tanítják….
Beszed. 2013.03.27. 9
Példa az XP rendszerben!
• Vezérlőpult/beszéd • ….
Beszed. 2013.03.27. 10
Megoldott kérdés-e a beszédszintézis, más szóval szöveg-
beszéd átalakítás?
Beszed. 2013.03.27. 11
NEM!
• Mert nem szeretik!
• Mert nem használják!
• Mert nem hozott komoly üzleti eredményt senkinek!
Beszed. 2013.03.27. 12
Beszed. 2013.03.27. 13
Beszed. 2013.03.27. 14
Elfogadjuk az ilyen szintetikus beszédet? Ha nem, akkor miért
nem?
Beszed. 2013.03.27. 15
Az én válaszaim
• Nem is lehetett mindent megérteni (pl. 4:14 „A Reuters jelentése szerint a robbanás a Bagdad Karrada kerületében található Dzsabal Lubnan (Libanoni-hegység) szállodát döntötte romba.”)
• A szöveg-beszéd átalakítás nem „értette” azt amit mond. Azt sem tudta, hogy nekem mi lehet megértési probléma!
• Akadtak tényleges kiejtési hibák is!• A beszéd több, mint elemek egymásutánisága!
Hiányzottak a beszédfolyamat szükséges további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások. Ezek az értelmezést is segítik, a beszédet emberivé, széppé teszik.
Beszed. 2013.03.27. 16
Friss hírek a hangportálon (2005. 03.30.)
Hosszabb híranyagcsemege1
csemege2
csemege3
csemege4
csemege5
Beszed. 2013.03.27. 17
Beszed. 2013.03.27. 18
Érdekesebb helyek a hálón!
• http://www.research.att.com/~ttsweb/tts/demo.php#top
• http://sayso.elan.fr/interactive_va.asp
• http://www.vakalap.hu
Beszed. 2013.03.27. 19
A beszédszintézis alapelemei ma• Általános alapeszköz a PC - bőséges operatív memóriával,
háttértárral, hangkártyával.• Természetes beszéd alapelemeit tárolják, módosítják,
összefűzik (concatenation).• Mik legyenek a tárolt alapelemek? Teljes közlendő,
mondatok, szavak, szótagok, hangok?• Mik legyenek az összefűzési szabályok.• Hogyan lehet olyan elemeket kialakítani, amelyek jól
összefűzhetők és a prozódiai elemek is ráépíthetők?• Mi az, amit át kell „fogalmazni”, előre le kell „fordítani”
írásból beszédre felolvastatás előtt. Ami jó írott hír, az lehet nem jó emberi felolvasásra sem!
• Tehát hogyan lehet gépileg „érteni” a szöveget.
Beszed. 2013.03.27. 20
Néhány beszédminta elmélkedésre
• Nehezen érthető beszéd
• Jól érthető beszéd, pedig énekelt…..
Beszed. 2013.03.27. 21
A beszédhangok folytonos és diszkrét természete
Beszed. 2013.03.27. 22
Összefűzéses beszédszintézis• A szintézis minősége annál jobb, minél kevesebb
vágási ponttal áll össze a végső beszédrészlet.• Ehhez nagyon nagy anyagot kel felvenni és ebből
nehéz összeválogatni a legalkalmasabb elemeket.• Ha kicsi az elemméret (pl. diád) nagyon sok az
összefűzés.• A prozódiai jellemzőket is rá kell ültetni
(intenzitás, dallam, ritmus stb.)• Nem csak a prozódiai jellemzők ráültetésének
kivitelezése nehéz, hanem a tervezés a szöveg alapján.
Beszed. 2013.03.27. 23
Prozódiai elemek ráültetése hullámformaként tárolt és összefűzött elemekre
• PSOLA módszer (Pitch Synchronous Overlap Add)
• Első lépésben a zöngehelyek (pitch mark) kijelölése
• Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció
• Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint.
• Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók
Beszed. 2013.03.27. 24
Technical detailsMoulines & Charpentier, 1990
original waveform
windowed waveform
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
1 4 7 10 13 16 19
shortened waveform
1 3 5 7 9 11 13 15 17 19
waveform with lower F0
Beszed. 2013.03.27. 25
Technical details 1Segmental durations
• Segment alignment & PSOLA processing of durations: Alignment can be manual or automatic (with the help of speech recognition)
k eI m i n “…came in…”native
k eI i nnon-native m
stre
tch sh
rin
k
Beszed. 2013.03.27. 26
Technical details 1+2Segmental durations + F0 contour
• PSOLA processing of F0 on duration-treated utterance
k eI m i nnative
non-native k eI m i n
native F0
non-native F0
Beszed. 2013.03.27. 27
Technical details 1+3Segmental durations + intensity contour
• Segment alignment & PSOLA processing of duations followed by intensity contour transfer
k eI m i nnative
k eI i nnon-native m
native intensity
non-native intensity
stre
tch sh
rin
k
Beszed. 2013.03.27. 28
Technical details 2+3 F0 contour + intensity contour
• “Reverse” segment alignment & PSOLA processing of F0 followed by intensity contour transfer
k eI m i nnative
k eI i nnon-native m
stretc
hshrin
k
native F0
non-native F0
native intensity
non-native intensity
Beszed. 2013.03.27. 29
Technical detailsExample
Praat script
native utterance
non-native utterance
synthetic non-native(durations+F0+intensity)
synthetic non-native(durations+intensity)
synthetic non-native(F0+intensity)
Beszed. 2013.03.27. 30
Technical detailsComparison before synthesis – duration, F0 & intensity
native utterance
non-native utterance
(blue & yellow)
Beszed. 2013.03.27. 31
Technical detailsComparison after synthesis – duration, F0 & intensity
native utterance
synthetic non-native
(blue & yellow)
Beszed. 2013.03.27. 32
Technical detailsComparison after synthesis – duration & intensity
native utterance
synthetic non-native
(blue & yellow)
Beszed. 2013.03.27. 33
PSOLA pitch-módosítás példa (időszerkezet maradt)
• Ének eredeti:
• Ének módosított:
• Ének „kiegyenesítve”:
Beszed. 2013.03.27. 34