korpus z -alapú szövegfelolvasó rendszer fejlesztése

Post on 01-Jan-2016

30 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Korpus z -alapú szövegfelolvasó rendszer fejlesztése. Pesti Péter Konzulensek: Dr. Németh Géza, Dr. Olaszy Gábor és Bőhm Tamás BME, Távközlési és Médiainformatikai Tanszék, Besz édkutatási Laboratórium. Bevezetés. Korpusz-alapú szövegfelolvasó hullámforma-összefűzéses - PowerPoint PPT Presentation

TRANSCRIPT

KorpusKorpuszz-alapú -alapú szövegfelolvasó szövegfelolvasó

rendszer fejlesztéserendszer fejlesztése

Pesti PéterPesti Péter

Konzulensek:Konzulensek:

Dr. Németh Géza, Dr. Olaszy Gábor Dr. Németh Géza, Dr. Olaszy Gábor ésés Bőhm Tamás Bőhm Tamás

BME, Távközlési és Médiainformatikai Tanszék, BME, Távközlési és Médiainformatikai Tanszék, BeszBeszédkutatási Laboratóriumédkutatási Laboratórium

BevezetésBevezetés

Korpusz-alapú szövegfelolvasóKorpusz-alapú szövegfelolvasó hullámforma-összefűzéseshullámforma-összefűzéses kevés összefűzési pontkevés összefűzési pont nagyobb elemméretnagyobb elemméret elemkiválasztás nagy beszédadatbázisbólelemkiválasztás nagy beszédadatbázisból

Beszédkutatási Laboratórium Beszédkutatási Laboratórium munkatársainak közreműködésévelmunkatársainak közreműködésével

kiindulás: Nagy András diplomatervekiindulás: Nagy András diplomaterve

A feladatA feladat

a korpusz-alapú szintézis minőségét a korpusz-alapú szintézis minőségét befolyásoló tényezők irodalmának befolyásoló tényezők irodalmának áttekintéseáttekintése

a teljes felvett hangadatbázist használó, a teljes felvett hangadatbázist használó, elfogadható futási idejű demonstrációs elfogadható futási idejű demonstrációs rendszer kialakításarendszer kialakítása

jó minőségű összefűzési algoritmus jó minőségű összefűzési algoritmus kialakításakialakítása

a rendszer minőségének értékelése a rendszer minőségének értékelése percepciós tesztekkelpercepciós tesztekkel

Beszédszintetizátor rendszer Beszédszintetizátor rendszer architektúrájaarchitektúrája

`

beszéd-szintézis szerver

grafikus kliens

grafikus kliens

IP-hálózat

beszéd-korpusz

Szerver jellemző számaiSzerver jellemző számai

nagy beszédkorpusznagy beszédkorpusz 10 órányi felvétel10 órányi felvétel 5302 mondat5302 mondat 3,57 Gb (hangfájlok + címkézés)3,57 Gb (hangfájlok + címkézés)

szerver indítás: 5-10 percszerver indítás: 5-10 perc szintézis sebességeszintézis sebessége

lejlejátszási idő átszási idő 0,560,56--szorosszorosa a (WAP-os időjárás-(WAP-os időjárás-jelentéseken)jelentéseken)

szintézis reakcióidejeszintézis reakcióideje 1,9 sec 1,9 sec (WAP-os időjárás-jelentéseken)(WAP-os időjárás-jelentéseken)

A beszédszintézis folyamataA beszédszintézis folyamata

ElemkiválasztásElemkiválasztás több szinten: szó és fonématöbb szinten: szó és fonéma szintetizálandó elemek meghatározásaszintetizálandó elemek meghatározása jelöltek gyűjtése a beszédkorpuszbóljelöltek gyűjtése a beszédkorpuszból Viterbi-algoritmus a legjobb jelölt-Viterbi-algoritmus a legjobb jelölt-

sorozat megtalálásáhozsorozat megtalálásához összefűzési költségösszefűzési költség célegyezési költségcélegyezési költség

Összefűzési költségÖsszefűzési költség

két elem összefűzésének a költségekét elem összefűzésének a költsége két egymással határos elem közöttkét egymással határos elem között 00 azonos forrásból (hangfájlból) származó azonos forrásból (hangfájlból) származó

elemekelemek preferálásapreferálása alapfrekvencia-ugrás büntetése alapfrekvencia-ugrás büntetése

(pl. ma napos)(pl. ma napos) átmenet-vágási költségmátrixátmenet-vágási költségmátrix

Célegyezési költségCélegyezési költség

egy elemnek a szintetizálandó céltól egy elemnek a szintetizálandó céltól való eltérésevaló eltérése fonéma-környezet egyezésefonéma-környezet egyezése

fonéma-helyettesítési költségmátrix fonéma-helyettesítési költségmátrix prozódiai jellemzőkprozódiai jellemzők

szónak a prozódiai egységen belüli pozíciójaszónak a prozódiai egységen belüli pozíciója prozódiai egység mondaton belüli pozíciójaprozódiai egység mondaton belüli pozíciója külön büntetés mondatzáró szónálkülön büntetés mondatzáró szónál

UtófeldolgozásUtófeldolgozás

vágás az összefűzési pontokonvágás az összefűzési pontokon mássalhangzó-hasonulásokmássalhangzó-hasonulások szóhatáron szóhatáron

(pl. „vad tornádó”)(pl. „vad tornádó”) intenzitás-módosításintenzitás-módosítás alapfrekvencia- és időtartam-módosításalapfrekvencia- és időtartam-módosítás

PSOLA (Pitch-Synchronous Overlap and PSOLA (Pitch-Synchronous Overlap and Add)Add)

pl. mondatzáró szónálpl. mondatzáró szónál

beírt mondat szintézise

összefűzési költség

célegyezési költség

minden elem minden jelöltjérefonetikai, prozódiai, alapfrekvencia, stb. információ

Időjárás szövegadatbázis Időjárás szövegadatbázis előállításaelőállítása

alapprobléma: meteorológiai tematikájú alapprobléma: meteorológiai tematikájú szövegkorpusz nem elérhetőszövegkorpusz nem elérhető

megoldás: Internetes portálok időjárás-megoldás: Internetes portálok időjárás-jelentéseinek automatizált feldolgozásajelentéseinek automatizált feldolgozása származási helyenként eltérő felépítésű származási helyenként eltérő felépítésű

oldalak oldalak tartalom forrása portálonként tartalom forrása portálonként külön kezelendőkülön kezelendő

HTML fájlokból részdokumentum kinyerése HTML fájlokból részdokumentum kinyerése relációs adatbázisba (MySQL)relációs adatbázisba (MySQL)

adatbázisban további tisztítási lépésekadatbázisban további tisztítási lépések

Meghallgatásos tesztekMeghallgatásos tesztek

A fejlesztési irányt kijelölő 51 mondatos tesztA fejlesztési irányt kijelölő 51 mondatos teszt Egyetlen prozódiai egységből álló mondatokkalEgyetlen prozódiai egységből álló mondatokkal

280 mondat280 mondat Szintézis módszerek összehasonlításaSzintézis módszerek összehasonlítása

természetes, korpuszos, triádos, formánstermészetes, korpuszos, triádos, formáns 248 résztvevő248 résztvevő

Fejlődési tesztFejlődési teszt 25 „rossz” mondat, 87 résztvevő25 „rossz” mondat, 87 résztvevő preferencia: 76,20%preferencia: 76,20%

WAP-os időjárás-jelentésekkelWAP-os időjárás-jelentésekkel 539 mondat539 mondat

0

50

100

150

200

250

300

5 4 3 2 1

osztályzat

mondato

k sz

ám

a

Reakció a bírálatraReakció a bírálatra

időjárások korlátozott témakörének időjárások korlátozott témakörének ismertetéseismertetése a bevezető előtti összefoglalóbana bevezető előtti összefoglalóban

tesztelés egyetlen prozódiai egységből álló tesztelés egyetlen prozódiai egységből álló mondatokkalmondatokkal a korábbi teszt alapján „nehéz” mondatoka korábbi teszt alapján „nehéz” mondatok mondatok válogatása: a korpuszban biztosan ne mondatok válogatása: a korpuszban biztosan ne

szerepeljenek szerepeljenek fél éves per fél éves periiódusbólódusból szintézis módszerek összehasonlításaszintézis módszerek összehasonlítása

248 fő teszteredményei alapján248 fő teszteredményei alapján kiváló/jó/közepes/gyenge/rosszkiváló/jó/közepes/gyenge/rossz soksok minőségi szintű felvétel minőségi szintű felvétel kritikusabb hallgatók kritikusabb hallgatók

Továbblépési irányokTovábblépési irányok

Más témakörökMás témakörök További cTovábbi cíímkézési jellemzőkmkézési jellemzők

hangsúlyossághangsúlyosság hosszan ejtett hanghosszan ejtett hang

Nagyobb elemméretNagyobb elemméret szótag-szint szótag-szint fonémákból építkezés fonémákból építkezés

kiválthatókiváltható

KérdésekKérdések

top related