korpus z -alapú szövegfelolvasó rendszer fejlesztése
DESCRIPTION
Korpus z -alapú szövegfelolvasó rendszer fejlesztése. Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Besz édkutatási Laboratórium. Bevezetés. Korpusz-alapú szövegfelolvasó hullámforma-összefűzéses - PowerPoint PPT PresentationTRANSCRIPT
KorpusKorpuszz-alapú -alapú szövegfelolvasó szövegfelolvasó
rendszer fejlesztéserendszer fejlesztése
Pesti PéterPesti Péter
Konzulensek:Konzulensek:
Dr. Németh Géza, Dr. Olaszy Gábor Dr. Németh Géza, Dr. Olaszy Gábor ésés Bőhm Tamás Bőhm Tamás
BME, Távközlési és Médiainformatikai Tanszék, BME, Távközlési és Médiainformatikai Tanszék, BeszBeszédkutatási Laboratóriumédkutatási Laboratórium
BevezetésBevezetés
Korpusz-alapú szövegfelolvasóKorpusz-alapú szövegfelolvasó hullámforma-összefűzéseshullámforma-összefűzéses kevés összefűzési pontkevés összefűzési pont nagyobb elemméretnagyobb elemméret elemkiválasztás nagy beszédadatbázisbólelemkiválasztás nagy beszédadatbázisból
Beszédkutatási Laboratórium Beszédkutatási Laboratórium munkatársainak közreműködésévelmunkatársainak közreműködésével
kiindulás: Nagy András diplomatervekiindulás: Nagy András diplomaterve
A feladatA feladat
a korpusz-alapú szintézis minőségét a korpusz-alapú szintézis minőségét befolyásoló tényezők irodalmának befolyásoló tényezők irodalmának áttekintéseáttekintése
a teljes felvett hangadatbázist használó, a teljes felvett hangadatbázist használó, elfogadható futási idejű demonstrációs elfogadható futási idejű demonstrációs rendszer kialakításarendszer kialakítása
jó minőségű összefűzési algoritmus jó minőségű összefűzési algoritmus kialakításakialakítása
a rendszer minőségének értékelése a rendszer minőségének értékelése percepciós tesztekkelpercepciós tesztekkel
Beszédszintetizátor rendszer Beszédszintetizátor rendszer architektúrájaarchitektúrája
`
beszéd-szintézis szerver
grafikus kliens
grafikus kliens
IP-hálózat
beszéd-korpusz
Szerver jellemző számaiSzerver jellemző számai
nagy beszédkorpusznagy beszédkorpusz 10 órányi felvétel10 órányi felvétel 5302 mondat5302 mondat 3,57 Gb (hangfájlok + címkézés)3,57 Gb (hangfájlok + címkézés)
szerver indítás: 5-10 percszerver indítás: 5-10 perc szintézis sebességeszintézis sebessége
lejlejátszási idő átszási idő 0,560,56--szorosszorosa a (WAP-os időjárás-(WAP-os időjárás-jelentéseken)jelentéseken)
szintézis reakcióidejeszintézis reakcióideje 1,9 sec 1,9 sec (WAP-os időjárás-jelentéseken)(WAP-os időjárás-jelentéseken)
A beszédszintézis folyamataA beszédszintézis folyamata
ElemkiválasztásElemkiválasztás több szinten: szó és fonématöbb szinten: szó és fonéma szintetizálandó elemek meghatározásaszintetizálandó elemek meghatározása jelöltek gyűjtése a beszédkorpuszbóljelöltek gyűjtése a beszédkorpuszból Viterbi-algoritmus a legjobb jelölt-Viterbi-algoritmus a legjobb jelölt-
sorozat megtalálásáhozsorozat megtalálásához összefűzési költségösszefűzési költség célegyezési költségcélegyezési költség
Összefűzési költségÖsszefűzési költség
két elem összefűzésének a költségekét elem összefűzésének a költsége két egymással határos elem közöttkét egymással határos elem között 00 azonos forrásból (hangfájlból) származó azonos forrásból (hangfájlból) származó
elemekelemek preferálásapreferálása alapfrekvencia-ugrás büntetése alapfrekvencia-ugrás büntetése
(pl. ma napos)(pl. ma napos) átmenet-vágási költségmátrixátmenet-vágási költségmátrix
Célegyezési költségCélegyezési költség
egy elemnek a szintetizálandó céltól egy elemnek a szintetizálandó céltól való eltérésevaló eltérése fonéma-környezet egyezésefonéma-környezet egyezése
fonéma-helyettesítési költségmátrix fonéma-helyettesítési költségmátrix prozódiai jellemzőkprozódiai jellemzők
szónak a prozódiai egységen belüli pozíciójaszónak a prozódiai egységen belüli pozíciója prozódiai egység mondaton belüli pozíciójaprozódiai egység mondaton belüli pozíciója külön büntetés mondatzáró szónálkülön büntetés mondatzáró szónál
UtófeldolgozásUtófeldolgozás
vágás az összefűzési pontokonvágás az összefűzési pontokon mássalhangzó-hasonulásokmássalhangzó-hasonulások szóhatáron szóhatáron
(pl. „vad tornádó”)(pl. „vad tornádó”) intenzitás-módosításintenzitás-módosítás alapfrekvencia- és időtartam-módosításalapfrekvencia- és időtartam-módosítás
PSOLA (Pitch-Synchronous Overlap and PSOLA (Pitch-Synchronous Overlap and Add)Add)
pl. mondatzáró szónálpl. mondatzáró szónál
beírt mondat szintézise
összefűzési költség
célegyezési költség
minden elem minden jelöltjérefonetikai, prozódiai, alapfrekvencia, stb. információ
Időjárás szövegadatbázis Időjárás szövegadatbázis előállításaelőállítása
alapprobléma: meteorológiai tematikájú alapprobléma: meteorológiai tematikájú szövegkorpusz nem elérhetőszövegkorpusz nem elérhető
megoldás: Internetes portálok időjárás-megoldás: Internetes portálok időjárás-jelentéseinek automatizált feldolgozásajelentéseinek automatizált feldolgozása származási helyenként eltérő felépítésű származási helyenként eltérő felépítésű
oldalak oldalak tartalom forrása portálonként tartalom forrása portálonként külön kezelendőkülön kezelendő
HTML fájlokból részdokumentum kinyerése HTML fájlokból részdokumentum kinyerése relációs adatbázisba (MySQL)relációs adatbázisba (MySQL)
adatbázisban további tisztítási lépésekadatbázisban további tisztítási lépések
Meghallgatásos tesztekMeghallgatásos tesztek
A fejlesztési irányt kijelölő 51 mondatos tesztA fejlesztési irányt kijelölő 51 mondatos teszt Egyetlen prozódiai egységből álló mondatokkalEgyetlen prozódiai egységből álló mondatokkal
280 mondat280 mondat Szintézis módszerek összehasonlításaSzintézis módszerek összehasonlítása
természetes, korpuszos, triádos, formánstermészetes, korpuszos, triádos, formáns 248 résztvevő248 résztvevő
Fejlődési tesztFejlődési teszt 25 „rossz” mondat, 87 résztvevő25 „rossz” mondat, 87 résztvevő preferencia: 76,20%preferencia: 76,20%
WAP-os időjárás-jelentésekkelWAP-os időjárás-jelentésekkel 539 mondat539 mondat
0
50
100
150
200
250
300
5 4 3 2 1
osztályzat
mondato
k sz
ám
a
Reakció a bírálatraReakció a bírálatra
időjárások korlátozott témakörének időjárások korlátozott témakörének ismertetéseismertetése a bevezető előtti összefoglalóbana bevezető előtti összefoglalóban
tesztelés egyetlen prozódiai egységből álló tesztelés egyetlen prozódiai egységből álló mondatokkalmondatokkal a korábbi teszt alapján „nehéz” mondatoka korábbi teszt alapján „nehéz” mondatok mondatok válogatása: a korpuszban biztosan ne mondatok válogatása: a korpuszban biztosan ne
szerepeljenek szerepeljenek fél éves per fél éves periiódusbólódusból szintézis módszerek összehasonlításaszintézis módszerek összehasonlítása
248 fő teszteredményei alapján248 fő teszteredményei alapján kiváló/jó/közepes/gyenge/rosszkiváló/jó/közepes/gyenge/rossz soksok minőségi szintű felvétel minőségi szintű felvétel kritikusabb hallgatók kritikusabb hallgatók
Továbblépési irányokTovábblépési irányok
Más témakörökMás témakörök További cTovábbi cíímkézési jellemzőkmkézési jellemzők
hangsúlyossághangsúlyosság hosszan ejtett hanghosszan ejtett hang
Nagyobb elemméretNagyobb elemméret szótag-szint szótag-szint fonémákból építkezés fonémákból építkezés
kiválthatókiváltható
KérdésekKérdések