prozódia a beszédben

31
Prozódia a beszédben Takács György Bárdi Tamás előadására építve Beszédfelismerés és szintézis

Upload: dean

Post on 22-Jan-2016

26 views

Category:

Documents


0 download

DESCRIPTION

Beszédfelismerés és szintézis. Prozódia a beszédben. Takács György. Bárdi Tamás előadására építve. Tartalom. Ismétlés Szegmentális és szupraszegmentális jellemzők Hanglejtés Hangsúly Tempó, ritmus. Beszédhang -- Szegmentum. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Prozódia a beszédben

Prozódia a beszédben

Takács György

Bárdi Tamás előadására építve

Beszédfelismerés és szintézis

Page 2: Prozódia a beszédben

Tartalom Ismétlés Szegmentális és szupraszegmentális jellemzők Hanglejtés Hangsúly Tempó, ritmus

Page 3: Prozódia a beszédben

Beszédhang -- Szegmentum A legkisebb olyan egységek, amelyek sorozatával egy nyelvet

megvalósító beszéd akármilyen részlete az agy számára reprodukálható, beszédhangnak nevezzük.

A beszédhangok a beszéd olyan szegmensei, részletei, amelyeket a nyelvet beszélő egymástól elkülöníteni és felismerni teljes biztonsággal képes.

A beszédhangok a nyelvre jellemzőek! Egyes nyelvekben a hangmagasság hajlítása is megkülönböztet

beszédhangokat. Az élő beszéd olyan leírása, amely a beszéd hangzásának leírására

törekszik – a fonetikai átírás. Ennek elterjedt rendszerei az APhI és a SAMPA.

Page 4: Prozódia a beszédben

A beszéd szerkezete A beszéd egymástól megkülönböztethető elemek

(SZEGMENTUMOK) szervezett időbeni egymásutánisága – soros szerkezet.

Elem lehet egy összefüggő mondanivaló, egy hosszabb szünetekkel elhatárolt beszédrész, egy mondat, egy szó, egy beszédhang.

Egy ötven beszédhangból álló nyelvben (leszámítva, hogy nem minden hang mondható egymás után) kb. egymillió különböző tíz hangból álló szó képezhető.

A beszéd szerkezete felülről gyakorlatilag nyitott, alulról zárt.

Page 5: Prozódia a beszédben

A fonéma

Egy nyelv fonémakészlete elemek olyan minimális számosságú halmaza, amelyből minden szó jelentéshelyesen, de csak egyféleképpen állítható elő

A fonémakészlet elemei a fonémák. Az azonos fonémákat képviselő beszédhangok az

allofonok.

Page 6: Prozódia a beszédben

A prozódia szó jelentése

Verstanban:az időmértékes és ütemhangsúlyos verselés tudománya

Zenében:a dallam és a szöveg illesztésének tudománya

A beszédfeldolgozásban:a beszéd szupraszegmentális akusztikai jegyeivel

foglalkozó tudományág

szupraszegmentális: több szegmentumon (több fonémán)átívelő jelenség

Page 7: Prozódia a beszédben

Prozódikus vagy szupraszegmentális jellemzők – az akusztikus megjelenés szempontjából

Intonáció: Hanglejtés. Az alapfrekvencia (F0) változtatásaival produkáljuk. A zöngétlen hangok nem játszanak szerepet a beszéddallam alakításában.

Hangerő: Elsősorban a tüdőből kiáramló levegő mennyiségével szabályozzuk. A hang intenzitásához kapcsolódik.

Ritmus: Időtartamok. Ide tartozik a beszéd sebesség, bizonyos szótagok vagy fonémák nyújtása, és a szünet.

Hangszín: Érzékelhető kommunikációs szerepe van, de hogy pontosan mi a hangszín, azt nehéz megfogalmazni,

és még nehezebb mérni. Spektrális tulajdonság.

Page 8: Prozódia a beszédben

Prozódikus vagy szupraszegmentális jellemzők képzése

Ugyanazokkal a szervekkel képezzük. A beszédhangokkal, szegmentumokkal egy időben

képezzük. A beszédszerveket működésekor ugyanazon agy vezérli

akár a szupraszegmentális tényezők, akár a szegmentumok képzésénél.

Page 9: Prozódia a beszédben

Prozódikus vagy szupraszegmentális jellemzők – a jelentéshordozás szempontjából

Hanglejtés: „Dallamforma”

Hangsúly: A dallamforma, a hangerő és a ritmus együtteséből alakul ki.

Ritmus: beszédtempó változását, hullámzását és a szüneteket foglalja magába..

Page 10: Prozódia a beszédben

Egyszerű példa:jóJó?Jó.

Összetett példa:

az nem fontos kivel köt a tulajdonos szerződést

Az nem fontos, kivel köt a tulajdonos szerződést.

Az nem fontos. Kivel köt a tulajdonos szerződést? A királynő mondta, a lovag egy szörnyeteg. A királynő -- mondta a lovag -- egy szörnyeteg.

Megkülönböztetés prozódikus elemek segítségével

Page 11: Prozódia a beszédben

A magyar nyelv prozódiája

Magyar Nyelvi Beszédtechnológiai Alapismeretek - demo

5.4 A magyar beszéd - Prozódia

Page 12: Prozódia a beszédben

A prozódia és az írás

Írásban a prozódiát írásjelekkel, időnként tipográfiai eszközökkel közelítjük. A kapcsolat azonban jóval kevésbé szoros vagy definiált, mint a betűk és az elhangzó fonémák között.

Példák:A bizottság elnöke Veres Lajos professzor lett.A bizottság elnöke, Veres Lajos professzor lett.

Nem erre válaszoltam. Nem erre – válaszoltam.

Van még időd? Van még időd!

A tüntetések Bolognában illetve Rómában voltak. A tüntetések Bolognában – illetve Rómában voltak.

Page 13: Prozódia a beszédben

A beszéd agyi szerveződése

Aszimmetria:

A bal agyfélteke dominál a beszédképzésben és megértésben. A jobb agyfélteke leginkább a beszéd zenei jellemzőivel foglalkozik, vagyis a prozódiával.

A beszéd jellemzően emberi jelenség:

Az állatvilágban ismeretlen az agyféltekék ilyen aszimmetrikus szereposztása

Page 14: Prozódia a beszédben

Nyelvfüggőség - nyelvfüggetlenség

A beszéd prozódikus jelenségei nyelvről nyelvre másképp viselkednek, de vannak nyelvcsaládon belül, vagy néhány nyelvre érvényes szabályszerűségek

Univerzális szabályszerűségek:

- Alapfrekvencia deklináció és terjedelem redukció- Hangerő csökkenés- Szavak csoportokba szervezése (frázis tagolás)- Szillabifikáció (szótagok képződése)

A minden nyelvre érvényes szabályszerűségek gyaníthatóan biológiai okokból erednek. De pl. a szillabifikációnál vitatott, hogy van-e ilyen biológiai kényszer.

Page 15: Prozódia a beszédben

Alapfrekvencia lejtési trendés tartomány csökkenés

Biológiai okok: légzés, crico-thyroid rendszer mechanikája

Page 16: Prozódia a beszédben

Fujisaki modell

Forced-dumped oscillations:

Page 17: Prozódia a beszédben

Fujisaki modell 2

Page 18: Prozódia a beszédben

Hangerő csökkenés

A légzésre visszavezethető.

Page 19: Prozódia a beszédben

Hangerő - hangzósság

Azonos képzési erőhöz különböző mérhető hang intenzitás tartozik a különböző fonémáknál.

Page 20: Prozódia a beszédben

Hangerő megválasztása

A hangerő megválasztása elsősorban a fizikai és pszichikai „távolsághoz” igazodik.

Sok ember jelenlétében ezzel fejezzük ki, hogy mekkora körnek szól amit éppen mondunk.

A kisebb hangerő utal a tartalom bizalmasságára,a nagyobb távolságtartást jelezhet.

Page 21: Prozódia a beszédben

Lombard speech

Amikor nagy az alapzaj (mások is beszélnek) Növekvő alapfrekvencia Nagyobb hangerő Hosszabb beszédhang időtartam A kulcsszavak még kitartottabbak Felfelé tolódó formánsfrekvenciák Kifejezőbb arcmozgás

Page 22: Prozódia a beszédben

Szavak csoportokba szervezéseNem tudni biztosan, van-e biológiai oka.

Page 23: Prozódia a beszédben

Szavak csoportokba szervezése 2

Frázisok képzése:A prozódiai frázist jellegzetes hanglejtés minták zárják le, gyakran szünettel kiegészítve.Jellemzően emelkedő dallam zárja a nem mondatvégi

frázisokat, jelezve hogy még folyt. köv.

Prozódiai mondat:Tipikusan levegővételtől levegővételig tart.Általában eső alapfrekvencia zárja a mondat többi részénélmélyebb értéken. Szinte mindig van utána szünet.

Page 24: Prozódia a beszédben

Szillabifikáció

Még kevésbé tudni, van-e biológiai oka.

Page 25: Prozódia a beszédben

A prozódia szerepe a beszédben

Az élő beszédet hallgatni, értelmezni nehéz munka.Ezt lehet megkönnyíteni a beszéd értelemszerű tagolásával és a hangsúlyozással.

Szerepe a nyelvben:- szemantika:tonális nyelvekben- szintaktika és pragmatika: minden nyelvben

Jellemzően prozódikus eszközökkel fejezi ki a beszélő érzelmi állapotát, hangulatát, indulatait.

Page 26: Prozódia a beszédben

Tonális nyelvekA tonális nyelveken a dallam lexikális információt hordoz. Ezekben

ugyanaz a fonéma sor más-más szót jelent különböző dallammal kiejtve. Tonális nyelvek pl. a kínai (mandarin), kantoni, tibeti, vietnami, thai

Egy példa vietnamiból:

Mandarin kínai szótagtípusok:

Page 27: Prozódia a beszédben

Hangsúlyozás

Mi a hangsúly?Az a szótag hangsúlyos, amelynek a képzésébe érezhetően több fiziológiai erőt fektetünk, mint a szomszédaiba.

Hangsúlyok hatóköre:ütemhangsúly, szakaszhangsúly, mondathangsúly

Hangsúlyok szerepe:A mondanivaló fontos részeinek megjelölése.Topic-comment megkülönböztetés. A figyelem felkeltése mikor a korábbiakhoz képest újat mondunk.

Érzelmi hangsúlyok: az értelmieket gyakran felülírják.

Page 28: Prozódia a beszédben

Prozódia a beszédtechnológiában

Beszéd szintézis:Ma már a jó minőségű TTS rendszereknél elvárás, hogy (közel) természetesen hangzó intonációval és ritmussal beszéljen. Az automatikus hírolvasók még hangsúlyozni is elfogadhatóan tudnak.Új törekvés: Expressive Speech Synthesis

Felismerés prozódia alapján (ez még gyerekcipőben van):Kérdés-válasz megkülönböztetés, mondathatárok megállapítása, érzelmi állapot felismerése.

Dialógus rendszerek:Itt mindkét irány kéne. Elsősorban azt kéne jelezni és észrevenni, hogy mikor kinek kell átvenni a szót (turn taking prosody).

Page 29: Prozódia a beszédben

Prosody in TTS

Újabb megközelítés:text-to-speech helyett concept-to-speechehhez megfelelő markup language bemenet kell

Page 30: Prozódia a beszédben

Szimbolikus prozódia Tones and Break Indices (ToBI)

Page 31: Prozódia a beszédben