korpus z -alapú szövegfelolvasó rendszer fejlesztése

15
Korpus Korpus z z -alapú -alapú szövegfelolvasó rendszer szövegfelolvasó rendszer fejlesztése fejlesztése Pesti Péter Pesti Péter Konzulensek: Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor Dr. Németh Géza, Dr. Olaszy Gábor és és Bőhm Tamás Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Besz BME, Távközlési és Médiainformatikai Tanszék, Besz édkutatási édkutatási Laboratórium Laboratórium

Upload: galvin-lester

Post on 01-Jan-2016

30 views

Category:

Documents


0 download

DESCRIPTION

Korpus z -alapú szövegfelolvasó rendszer fejlesztése. Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Besz édkutatási Laboratórium. Bevezetés. Korpusz-alapú szövegfelolvasó hullámforma-összefűzéses - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

KorpusKorpuszz-alapú -alapú szövegfelolvasó szövegfelolvasó

rendszer fejlesztéserendszer fejlesztése

Pesti PéterPesti Péter

Konzulensek:Konzulensek:

Dr. Németh Géza, Dr. Olaszy Gábor Dr. Németh Géza, Dr. Olaszy Gábor ésés Bőhm Tamás Bőhm Tamás

BME, Távközlési és Médiainformatikai Tanszék, BME, Távközlési és Médiainformatikai Tanszék, BeszBeszédkutatási Laboratóriumédkutatási Laboratórium

Page 2: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

BevezetésBevezetés

Korpusz-alapú szövegfelolvasóKorpusz-alapú szövegfelolvasó hullámforma-összefűzéseshullámforma-összefűzéses kevés összefűzési pontkevés összefűzési pont nagyobb elemméretnagyobb elemméret elemkiválasztás nagy beszédadatbázisbólelemkiválasztás nagy beszédadatbázisból

Beszédkutatási Laboratórium Beszédkutatási Laboratórium munkatársainak közreműködésévelmunkatársainak közreműködésével

kiindulás: Nagy András diplomatervekiindulás: Nagy András diplomaterve

Page 3: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

A feladatA feladat

a korpusz-alapú szintézis minőségét a korpusz-alapú szintézis minőségét befolyásoló tényezők irodalmának befolyásoló tényezők irodalmának áttekintéseáttekintése

a teljes felvett hangadatbázist használó, a teljes felvett hangadatbázist használó, elfogadható futási idejű demonstrációs elfogadható futási idejű demonstrációs rendszer kialakításarendszer kialakítása

jó minőségű összefűzési algoritmus jó minőségű összefűzési algoritmus kialakításakialakítása

a rendszer minőségének értékelése a rendszer minőségének értékelése percepciós tesztekkelpercepciós tesztekkel

Page 4: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

Beszédszintetizátor rendszer Beszédszintetizátor rendszer architektúrájaarchitektúrája

`

beszéd-szintézis szerver

grafikus kliens

grafikus kliens

IP-hálózat

beszéd-korpusz

Page 5: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

Szerver jellemző számaiSzerver jellemző számai

nagy beszédkorpusznagy beszédkorpusz 10 órányi felvétel10 órányi felvétel 5302 mondat5302 mondat 3,57 Gb (hangfájlok + címkézés)3,57 Gb (hangfájlok + címkézés)

szerver indítás: 5-10 percszerver indítás: 5-10 perc szintézis sebességeszintézis sebessége

lejlejátszási idő átszási idő 0,560,56--szorosszorosa a (WAP-os időjárás-(WAP-os időjárás-jelentéseken)jelentéseken)

szintézis reakcióidejeszintézis reakcióideje 1,9 sec 1,9 sec (WAP-os időjárás-jelentéseken)(WAP-os időjárás-jelentéseken)

Page 6: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

A beszédszintézis folyamataA beszédszintézis folyamata

ElemkiválasztásElemkiválasztás több szinten: szó és fonématöbb szinten: szó és fonéma szintetizálandó elemek meghatározásaszintetizálandó elemek meghatározása jelöltek gyűjtése a beszédkorpuszbóljelöltek gyűjtése a beszédkorpuszból Viterbi-algoritmus a legjobb jelölt-Viterbi-algoritmus a legjobb jelölt-

sorozat megtalálásáhozsorozat megtalálásához összefűzési költségösszefűzési költség célegyezési költségcélegyezési költség

Page 7: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

Összefűzési költségÖsszefűzési költség

két elem összefűzésének a költségekét elem összefűzésének a költsége két egymással határos elem közöttkét egymással határos elem között 00 azonos forrásból (hangfájlból) származó azonos forrásból (hangfájlból) származó

elemekelemek preferálásapreferálása alapfrekvencia-ugrás büntetése alapfrekvencia-ugrás büntetése

(pl. ma napos)(pl. ma napos) átmenet-vágási költségmátrixátmenet-vágási költségmátrix

Page 8: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

Célegyezési költségCélegyezési költség

egy elemnek a szintetizálandó céltól egy elemnek a szintetizálandó céltól való eltérésevaló eltérése fonéma-környezet egyezésefonéma-környezet egyezése

fonéma-helyettesítési költségmátrix fonéma-helyettesítési költségmátrix prozódiai jellemzőkprozódiai jellemzők

szónak a prozódiai egységen belüli pozíciójaszónak a prozódiai egységen belüli pozíciója prozódiai egység mondaton belüli pozíciójaprozódiai egység mondaton belüli pozíciója külön büntetés mondatzáró szónálkülön büntetés mondatzáró szónál

Page 9: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

UtófeldolgozásUtófeldolgozás

vágás az összefűzési pontokonvágás az összefűzési pontokon mássalhangzó-hasonulásokmássalhangzó-hasonulások szóhatáron szóhatáron

(pl. „vad tornádó”)(pl. „vad tornádó”) intenzitás-módosításintenzitás-módosítás alapfrekvencia- és időtartam-módosításalapfrekvencia- és időtartam-módosítás

PSOLA (Pitch-Synchronous Overlap and PSOLA (Pitch-Synchronous Overlap and Add)Add)

pl. mondatzáró szónálpl. mondatzáró szónál

Page 10: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

beírt mondat szintézise

összefűzési költség

célegyezési költség

minden elem minden jelöltjérefonetikai, prozódiai, alapfrekvencia, stb. információ

Page 11: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

Időjárás szövegadatbázis Időjárás szövegadatbázis előállításaelőállítása

alapprobléma: meteorológiai tematikájú alapprobléma: meteorológiai tematikájú szövegkorpusz nem elérhetőszövegkorpusz nem elérhető

megoldás: Internetes portálok időjárás-megoldás: Internetes portálok időjárás-jelentéseinek automatizált feldolgozásajelentéseinek automatizált feldolgozása származási helyenként eltérő felépítésű származási helyenként eltérő felépítésű

oldalak oldalak tartalom forrása portálonként tartalom forrása portálonként külön kezelendőkülön kezelendő

HTML fájlokból részdokumentum kinyerése HTML fájlokból részdokumentum kinyerése relációs adatbázisba (MySQL)relációs adatbázisba (MySQL)

adatbázisban további tisztítási lépésekadatbázisban további tisztítási lépések

Page 12: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

Meghallgatásos tesztekMeghallgatásos tesztek

A fejlesztési irányt kijelölő 51 mondatos tesztA fejlesztési irányt kijelölő 51 mondatos teszt Egyetlen prozódiai egységből álló mondatokkalEgyetlen prozódiai egységből álló mondatokkal

280 mondat280 mondat Szintézis módszerek összehasonlításaSzintézis módszerek összehasonlítása

természetes, korpuszos, triádos, formánstermészetes, korpuszos, triádos, formáns 248 résztvevő248 résztvevő

Fejlődési tesztFejlődési teszt 25 „rossz” mondat, 87 résztvevő25 „rossz” mondat, 87 résztvevő preferencia: 76,20%preferencia: 76,20%

WAP-os időjárás-jelentésekkelWAP-os időjárás-jelentésekkel 539 mondat539 mondat

0

50

100

150

200

250

300

5 4 3 2 1

osztályzat

mondato

k sz

ám

a

Page 13: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

Reakció a bírálatraReakció a bírálatra

időjárások korlátozott témakörének időjárások korlátozott témakörének ismertetéseismertetése a bevezető előtti összefoglalóbana bevezető előtti összefoglalóban

tesztelés egyetlen prozódiai egységből álló tesztelés egyetlen prozódiai egységből álló mondatokkalmondatokkal a korábbi teszt alapján „nehéz” mondatoka korábbi teszt alapján „nehéz” mondatok mondatok válogatása: a korpuszban biztosan ne mondatok válogatása: a korpuszban biztosan ne

szerepeljenek szerepeljenek fél éves per fél éves periiódusbólódusból szintézis módszerek összehasonlításaszintézis módszerek összehasonlítása

248 fő teszteredményei alapján248 fő teszteredményei alapján kiváló/jó/közepes/gyenge/rosszkiváló/jó/közepes/gyenge/rossz soksok minőségi szintű felvétel minőségi szintű felvétel kritikusabb hallgatók kritikusabb hallgatók

Page 14: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

Továbblépési irányokTovábblépési irányok

Más témakörökMás témakörök További cTovábbi cíímkézési jellemzőkmkézési jellemzők

hangsúlyossághangsúlyosság hosszan ejtett hanghosszan ejtett hang

Nagyobb elemméretNagyobb elemméret szótag-szint szótag-szint fonémákból építkezés fonémákból építkezés

kiválthatókiváltható

Page 15: Korpus z -alapú szövegfelolvasó rendszer fejlesztése

KérdésekKérdések