beszédfelismerés és beszédszintézis beszédszintézis alapok

34
Beszed. 2013.03.27. 1 Beszédfelismerés és beszédszintézis Beszédszintézis alapok Takács György 2014. 03. 27.

Upload: adrienne-finley

Post on 01-Jan-2016

37 views

Category:

Documents


0 download

DESCRIPTION

Beszédfelismerés és beszédszintézis Beszédszintézis alapok. Takács György 2014. 03. 27. A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában:. 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 1

Beszédfelismerés és beszédszintézis

Beszédszintézis alapok

Takács György

2014. 03. 27.

Page 2: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

A hagyományos beszédtechnológia az alábbi négy fő technológiai területet foglalja magában:

• 1. Az automatikus beszédfelismerés határozza meg, hogy milyen szavakat mondott ki a felhasználó.

• 2. A szintaktikai elemzés és a szemantikai interpretáció segítségével elemezhető a felhasználó közlésének szintaktikai szerkezete, valamint leképezhető annak szemantikai interpretációja az adott endszer céljainak megfelelően.

• 3. A dialógusvezérlés az input nyelvi jellemzői, az adott felhasználó és feladat egyéni beállításai alapján valósítja meg a rendszer megfelelő lépését, az adatbázis-lekérdezést.

• 4. A beszédszintézis technológiáját alkalmazzák arra, hogy a gép előállítsa a megfelelő beszédkimenetet

Beszed. 2013.03.27. 2

Page 3: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

A beszédtechnológia szolgáltatja az alapot olyan interfészek előállításához, amelyek lehetővé teszik, hogy a felhasználók a gépekkel természetes emberi nyelven, és ne csak grafikus felület, billentyűzet vagy egér segítségével kommunikáljanak.

A beszédszintézist alkalmazzák például autós navigációs rendszerekben és az okostelefonokban a grafikus felület alternatívájaként.

A legszélesebb körben használt magyar beszédszintetizátor a Profivox, amely 2002 óta elérhető, és amelyet több alkalmazásba is beépítettek: SMS- és e-mailfelolvasó szoftverbe, autós és mobiltelefonos GPS rendszerbe, valamint e-book és képernyőolvasó szolgáltatásba

Beszed. 2013.03.27. 3

Page 4: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 4

Page 5: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 5

Mi tehát a beszédszintézis?• A természetes beszédlánchoz képest a

beszédüzenetet küldő ember helyett egy intelligens eszköz (számítógép, telefonközpont, GPS alapú navigáló rendszer, mobiltelefon) kezdeményezi az üzenetet és beszédjel formájában közli a felfogó emberrel.

• Lehetőség szerint a beszédüzenet legyen természetes és érthető, mintha igazi ember mondta volna.

Page 6: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 6

A beszédszintetizátorok alapvető osztályai

Page 7: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 7

Megoldott kérdés-e a beszédszintézis, más szóval szöveg-

beszéd átalakítás?

Page 8: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 8

Igen

• Mert termékként állnak rendelkezésre megoldások.

• Mert jobb rendszerek beépített eleme (pl. OTP számlaegyenleg felolvasó, Hangposta, Windows XP, pályaudvari bemondó)

• Mert könyvek leírják, iskolában tanítják….

Page 9: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 9

Példa az XP rendszerben!

• Vezérlőpult/beszéd • ….

Page 10: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 10

Megoldott kérdés-e a beszédszintézis, más szóval szöveg-

beszéd átalakítás?

Page 11: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 11

NEM!

• Mert nem szeretik!

• Mert nem használják!

• Mert nem hozott komoly üzleti eredményt senkinek!

Page 12: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 12

Page 13: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 13

Page 14: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 14

Elfogadjuk az ilyen szintetikus beszédet? Ha nem, akkor miért

nem?

Page 15: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 15

Az én válaszaim

• Nem is lehetett mindent megérteni (pl. 4:14 „A Reuters jelentése szerint a robbanás a Bagdad Karrada kerületében található Dzsabal Lubnan (Libanoni-hegység) szállodát döntötte romba.”)

• A szöveg-beszéd átalakítás nem „értette” azt amit mond. Azt sem tudta, hogy nekem mi lehet megértési probléma!

• Akadtak tényleges kiejtési hibák is!• A beszéd több, mint elemek egymásutánisága!

Hiányzottak a beszédfolyamat szükséges további tényezői közül a finom hangsúly, a dallam, a szünetek, a ritmus, a tempóváltások. Ezek az értelmezést is segítik, a beszédet emberivé, széppé teszik.

Page 16: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 16

Friss hírek a hangportálon (2005. 03.30.)

Hosszabb híranyagcsemege1

csemege2

csemege3

csemege4

csemege5

Page 17: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 17

Page 18: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 18

Érdekesebb helyek a hálón!

• http://www.research.att.com/~ttsweb/tts/demo.php#top

• http://sayso.elan.fr/interactive_va.asp

• http://www.vakalap.hu

Page 19: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 19

A beszédszintézis alapelemei ma• Általános alapeszköz a PC - bőséges operatív memóriával,

háttértárral, hangkártyával.• Természetes beszéd alapelemeit tárolják, módosítják,

összefűzik (concatenation).• Mik legyenek a tárolt alapelemek? Teljes közlendő,

mondatok, szavak, szótagok, hangok?• Mik legyenek az összefűzési szabályok.• Hogyan lehet olyan elemeket kialakítani, amelyek jól

összefűzhetők és a prozódiai elemek is ráépíthetők?• Mi az, amit át kell „fogalmazni”, előre le kell „fordítani”

írásból beszédre felolvastatás előtt. Ami jó írott hír, az lehet nem jó emberi felolvasásra sem!

• Tehát hogyan lehet gépileg „érteni” a szöveget.

Page 20: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 20

Néhány beszédminta elmélkedésre

• Nehezen érthető beszéd

• Jól érthető beszéd, pedig énekelt…..

Page 21: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 21

A beszédhangok folytonos és diszkrét természete

Page 22: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 22

Összefűzéses beszédszintézis• A szintézis minősége annál jobb, minél kevesebb

vágási ponttal áll össze a végső beszédrészlet.• Ehhez nagyon nagy anyagot kel felvenni és ebből

nehéz összeválogatni a legalkalmasabb elemeket.• Ha kicsi az elemméret (pl. diád) nagyon sok az

összefűzés.• A prozódiai jellemzőket is rá kell ültetni

(intenzitás, dallam, ritmus stb.)• Nem csak a prozódiai jellemzők ráültetésének

kivitelezése nehéz, hanem a tervezés a szöveg alapján.

Page 23: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 23

Prozódiai elemek ráültetése hullámformaként tárolt és összefűzött elemekre

• PSOLA módszer (Pitch Synchronous Overlap Add)

• Első lépésben a zöngehelyek (pitch mark) kijelölése

• Második lépés a periódusok fázisviszonyainak átállítása koszinuszos összetevőkre – ez egy nem hallható manipuláció

• Harmadik lépésben a periódusok összébb tolhatók vagy széthúzhatók a dallamterv szerint.

• Az időtartamok periódusok ismétlésével vagy kihagyásával módosíthatók

Page 24: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 24

Technical detailsMoulines & Charpentier, 1990

original waveform

windowed waveform

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

1 4 7 10 13 16 19

shortened waveform

1 3 5 7 9 11 13 15 17 19

waveform with lower F0

Page 25: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 25

Technical details 1Segmental durations

• Segment alignment & PSOLA processing of durations: Alignment can be manual or automatic (with the help of speech recognition)

k eI m i n “…came in…”native

k eI i nnon-native m

stre

tch sh

rin

k

Page 26: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 26

Technical details 1+2Segmental durations + F0 contour

• PSOLA processing of F0 on duration-treated utterance

k eI m i nnative

non-native k eI m i n

native F0

non-native F0

Page 27: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 27

Technical details 1+3Segmental durations + intensity contour

• Segment alignment & PSOLA processing of duations followed by intensity contour transfer

k eI m i nnative

k eI i nnon-native m

native intensity

non-native intensity

stre

tch sh

rin

k

Page 28: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 28

Technical details 2+3 F0 contour + intensity contour

• “Reverse” segment alignment & PSOLA processing of F0 followed by intensity contour transfer

k eI m i nnative

k eI i nnon-native m

stretc

hshrin

k

native F0

non-native F0

native intensity

non-native intensity

Page 29: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 29

Technical detailsExample

Praat script

native utterance

non-native utterance

synthetic non-native(durations+F0+intensity)

synthetic non-native(durations+intensity)

synthetic non-native(F0+intensity)

Page 30: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 30

Technical detailsComparison before synthesis – duration, F0 & intensity

native utterance

non-native utterance

(blue & yellow)

Page 31: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 31

Technical detailsComparison after synthesis – duration, F0 & intensity

native utterance

synthetic non-native

(blue & yellow)

Page 32: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 32

Technical detailsComparison after synthesis – duration & intensity

native utterance

synthetic non-native

(blue & yellow)

Page 33: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 33

PSOLA pitch-módosítás példa (időszerkezet maradt)

• Ének eredeti:

• Ének módosított:

• Ének „kiegyenesítve”:

Page 34: Beszédfelismerés és beszédszintézis Beszédszintézis alapok

Beszed. 2013.03.27. 34