szaszak phd thesis

91
Budapesti Mű szaki és Gazdaságtudományi Egyetem Villamosmérnöki és Informatikai Kar Távközlési és Médiainformatikai Tanszék Szaszák György A szupraszegmentális jellemz ő k szerepe és felhasználása a beszédfelismerésben – PhD értekezés – témavezet ő Dr. Vicsi Klára, DSc 2008. szeptember

Upload: eszter

Post on 08-Nov-2015

23 views

Category:

Documents


9 download

DESCRIPTION

Szaszák

TRANSCRIPT

  • Budapesti Mszaki s Gazdasgtudomnyi Egyetem Villamosmrnki s Informatikai Kar

    Tvkzlsi s Mdiainformatikai Tanszk

    Szaszk Gyrgy

    A szupraszegmentlis jellemzk szerepe s felhasznlsa a beszdfelismersben

    PhD rtekezs

    tmavezet Dr. Vicsi Klra, DSc

    2008. szeptember

  • i

    Rvid tartalmi sszefoglal

    Munkm clja annak tudomnyos bemutatsa s igazolsa, hogy a prozdia ltal hordozott s ki nem hasznlt informci hozzjrulhat a beszdfelismers eredmnyeinek javtshoz, illetve szintaktikai s szemantikai szinten lnyeges tbbletet is adhat hozz.

    Az rtekezs felptse a kvetkezk szerint alakul: elsknt rviden bemutatom, mit rtnk a beszd szupraszegmentlis tartomnyn, s ttekintem az egyes szupraszegmentlis beszdjellemzket. Ezen elmleti bevezet rszben csak a mrnki felhasznls szempontjbl lnyeges fogalmakat tekintem t, gy munkm nyelvszeti szemszgbl nem trekszik teljessgre, st, bizonyos fogalmakat a nyelvszeti rtelmezsktl eltren definilunk jra, s a tovbbiakban j rtelmben hasznljuk.

    Ezt kveten rszletesen bemutatom, hogy a hagyomnyos beszdfelismersben hogyan hasznlhat fel a prozdia, azaz a szupraszegmentlis tartomnyban akusztikai feldolgozsi szinten hordozott informci. ttekintem az akusztikai beszdjelbl a prozdiai jellemzk kinyersre hasznlhat algoritmusokat, az eddig elrt nemzetkzi eredmnyeket s a szakirodalmat is.

    Az rtekezs gerinct az ez utn kvetkez fejezetek alkotjk. Bemutatok egy ltalam kidolgozott, kttt hangslyozs nyelvekre alkalmazhat algoritmuscsaldot, amellyel szhatrok automatikus detekcija vgezhet el prozdiai jellemzkre val visszavezets alapjn. A hangsly detekcijt cscskeresssel, illetve a szkapcsolati szinten rtelmezend intoncira (hanglejtsre) alkotott osztlyok alapjn vgzem HMM technikval. Ksrletileg igazolom, hogy a mdszerrel a szhatrok elfogadhat szint pontossggal s hatkonysggal detektlhatk a folyamatos beszdben. Az gy elksztett szhatr-detektl rendszert finn nyelvre is megvalstom s tesztelem, ezltal igazolom az algoritmus ms kttt hangsly nyelvekre trtn kzvetlen alkalmazhatsgt. Vizsglom a tbbnyelv megvalsts lehetsgeit is. Megmutatom, hogy a szhatr-detektlbl prozdiai szegmentl kszthet. Ksrletileg igazolom, hogy a prozdiai szegmentl beszdfelismerbe ptve a felismersi eredmnyt javtja egy orvosdiagnosztikai beszdfelismer alkalmazsban.

    Bemutatom s igazolom, hogy a ltrehozott prozdiai szegmentl megfelel talaktsval lehetsg nylik a mondatok modalitsnak automatikus felismersre s a tagmondathatrok detektlsra, ezltal a megfelel rsjelek kittelre a felismert szlncban a prozdia alapjn. Ismertetem a modalitsfelismer rendszer nmet nyelv vltozatt is, igazolva annak ms nyelvre val adaptlhatsgt.

    Az rtekezs vgn az elrt eredmnyeket sszegzem, tziseimet sszefoglalom.

  • ii

    Abstract

    The title of my thesis is The Role and Use of Supra-segmental Features in Automatic Speech Recognition.

    The goal of my work is to demonstrate and prove that information carried acoustically by speech prosody can improve speech recognition and add an extra functionality on syntactic and on semantic level to ASRs.

    My thesis work is constructed as follows: first I shortly review some concepts related to supra-segmental range and prosody, and link acoustic prosodic features to them. I address only concepts relative to speech technology engineering, but not those related strictly to linguistics. Also, some concepts are used in a different meaning than in linguistics.

    Next on, I present how prosody can be used in standard speech recognition technology, including the extraction issues of prosodic features from the speech signal, and the available international research results in the field.

    The main part of the thesis is formed by Chapters 4 to 7. These chapters present algorithms suited to fixed stress languages which allows word-boundary detection based on stress detection carried out on prosodic features, fundamental frequency and energy. Peak detection and statistical (HMM based) algorithms modelling intonation classes are used. I confirm with experiments that by these algorithms, word boundaries can be detected with acceptable accuracy and efficiency for fixed stress Hungarian. The system is adapted to Finnish to prove adaptability within the family of fixed stress languages. A bilingual architecture is also investigated. I show that a prosodic segmenter can be constructed based on HMM word boundary detection, and that this segmenter improves word recognition in a Hungarian language medical ASR application.

    I justify that the obtained word boundary detector or prosodic segmenter can be modified to perform clause level segmentation and modality recognition in Hungarian. This technique allows the placement of punctuation marks and semantic processing based on prosody of the recognized speech. I show that this so called modality recognizer can be adapted easily to German language.

    Finally, I give a summary of results and theses.

  • iii

    Tartalomjegyzk

    Bevezets .............................................................................................................................1 1. A beszd szupraszegmentlis szerkezete.........................................................................2

    1.1 A szupraszegmentlis szerkezet sajtossgai ............................................................3 1.2 Az egyes szupraszegmentumok rvid jellemzse......................................................3

    1.2.1 Hangsly .............................................................................................................3 1.2.2 Hanglejts, intonci ..........................................................................................5 1.2.3 Hanger...............................................................................................................6 1.2.4 Beszdtemp.......................................................................................................6 1.2.5 Ritmus s hangsznezet .......................................................................................7 1.2.6 Sznet..................................................................................................................7

    1.3 A szupraszegmentlis szerkezet ltrehozsa s alapvet funkcii ............................8 1.4 Nhny alapfogalom ................................................................................................10

    2. Prozdiai jellemzk akusztikai szint feldolgozsa s annotlsa ................................12 2.1 Az alapfrekvencia ....................................................................................................12 2.2 Energia .....................................................................................................................14 2.3 Idtartamok..............................................................................................................14 2.4 Beszdfelvtelek szupraszegmentlis tartomny feldolgozsa..............................15

    3. A szupraszegmentlis informci felhasznlsa a beszdfelismersben.......................16 3.1 A statisztikai alap state-of-the-art beszdfelismers ..........................................16 3.2 Elvi megfontolsok a szupraszegmentlis jellemzk felhasznlsa kapcsn ..........17 3.3 Mondat-, frzis- s szhatr-detekci ......................................................................17 3.4 Mondattagols s modalits.....................................................................................19

    3.4.1 Modalits s tagmondatokra bonts..................................................................19 3.4.2 A szintaktikai elemzs elsegtse....................................................................20

    3.5 A szemantikai rtelmezs tmogatsa .....................................................................20 3.6 Szupraszegmentlis jellemzk felhasznlsa a fonmafelismersben.....................22 3.7 Irodalmi ttekints konkrt alkalmazsok ............................................................22

    3.7.1 Prozdiai modellezs lehetsgei .....................................................................22 3.7.2 A VerbMobil automatikus fordt- s tolmcsolrendszer...............................24 3.7.3 Szhatr-detekci alapfrekvencia alapjn ........................................................26 3.7.4 Lexikai alap mondathatr detekci .................................................................26

    4. Szhatrok automatikus detekcija ...............................................................................28 4.1 A hangsly detektlsnak lehetsgei....................................................................28 4.2 Hangslydetekci cscskeresssel...........................................................................32 4.3 Ksrlet cscskeresssel trtn szhatr-detektlsra............................................34

    5. Szhatr-detektls statisztikai mdszerrel ...................................................................38 5.1 Elvi megfontolsok ..................................................................................................39 5.2 Szkapcsolati intoncis osztlyok rtelmezse......................................................40

  • iv

    5.3 A statisztikai alap szhatr-detekcit vgz rendszer felptse ...........................40 5.4 A betant anyag elksztse..................................................................................42 5.5 Akusztikai szint elfeldolgozs a szupraszegmentlis tartomnyban ...................43 5.6 Nyelvtan intoncis osztlyokra..............................................................................44 5.7 Teszteredmnyek .....................................................................................................44

    5.7.1 Pontossg s hatkonysg a HMM rendszerrel ................................................44 5.7.2 Az llapotok s a Gauss komponensek szmnak optimalizlsa....................45

    5.7 Statisztikai alap szhatr-detekci finn nyelvre ....................................................46 5.8 Statisztikai alap szhatr-detektls ktnyelv rendszerrel .................................48

    6. Magyar nyelv szhatr-detektl integrlsa gpi beszdfelismerbe........................49 6.1 A beszdfelismer rendszer felptse.....................................................................49 6.2 A szkapcsolati szint intoncis modellek finomtsa ..........................................50 6.3 A szupraszegmentlis tartomny akusztikai feldolgozs finomtsa.....................52 6.4 A prozdiai szegmentl betant anyaga ...............................................................54 6.5 Az automatikus prozdiai szegmentls menete s nyelvtana ................................54 6.6 A hipotzis grfok jraslyozsa.............................................................................55 6.7 Tesztels ..................................................................................................................57

    6.7.1 A ksrleti rendszer bemutatsa ........................................................................57 6.7.2 Teszteredmnyek ..............................................................................................57

    7. A modalits felismerse.................................................................................................60 7.1 A modalitsfelismer rendszer felptse................................................................60 7.2 Szupraszegmentlis akusztikai elfeldolgozs ........................................................61 7.3 A betant anyag s elksztse .............................................................................61 7.4 Az automatikus modalitsfelismers menete s nyelvtana......................................64 7.5 Modalitsfelismersbeli eredmnyek ......................................................................65 7.6 A magyar nyelv modalitsfelismer s mondathatr-detekcis rendszer tkletestse..................................................................................................................67 7.7 Nmet nyelv modalitsfelismer s tagmondathatr-detekcis rendszer ..............69

    8. sszegzs s a tzisek sszefoglalsa ...........................................................................71 Irodalomjegyzk ................................................................................................................78 Publikciim......................................................................................................................82

  • v

    Ksznetnyilvnts

    Ezton szeretnm megksznni tmavezetmnek, Dr. Vicsi Klrnak a sok v sorn nyjtott segtsgt, valamint a Beszdakusztikai Kutatlaboratrium hallgatinak s munkatrsainak elssorban Borostyn Gbornak, Nmeth Zsoltnak, Pter Attilnak s Sztah Dvidnak kzremkdsket a munkm sorn.

    Szaszk Gyrgy 2008. szeptember

  • 1

    Bevezets

    Napjainkban, az informcis trsadalomban s a mestersges intelligencia korban alapvet ignyknt jelentkezik az ember kpessgeinek gp ltali minl hebben val megvalstsa, st kiegsztse. Nincs ez msknt a beszdfelismersben sem, az ember rgi vgya, hogy gpeivel sajt nyelvn kommuniklhasson. Jllehet a kezdetek ta jelents eredmnyek, st korszakvltsok is bekvetkeztek a beszdfelismers trtnetben, maga a beszdfelismers problmakre napjainkban sem tekinthet mg megoldott problmnak. St, ha arra gondolunk, hogy a valdi beszdfelismers tulajdonkppen a beszd gp ltali rtelmezst, megrtst is jelenti sokak szmra a beszdtechnolgiban jrtasak ekkor mr a beszdrts fogalmt hasznljk a feladat megjellsre mg messzebb rezhetjk magunkat a cltl.

    A klasszikus beszdfelismersben lassan b vtizede egyfajta egyhelyben topogs mutatkozik. A statisztikai eljrsokkal az adott technikai sznvonalon elrhet eredmnyek megszlettek, azokat lnyegben mr csak tovbbragozni lehet. Ennek ellenre a kutatk figyelme csak az utbbi idben fordult az emberi beszd ms dimenzii fel, s mostanra terjedt el az a szemllet, amely a beszdet a kommunikci egy rsznek, egyik lehetsges csatornjnak tekinti, s megprblja a beszddel prhuzamosan megjelen egyb informciforrsokat is kiaknzni. Ide tartozik az audi-vizulis beszdfelismers, de mg inkbb a multimodlis beszdfelismers, amelyet taln helyesebb volna gy megfogalmaznunk, mint az emberi kommunikci beszdvetletnek vizsglata a tbbi kommunikcis tnyez prhuzamos figyelembe vtelvel.

    Maga a beszd mint informcihordoz sincs mg azonban teljesen kihasznlva a szkebben vett beszdfelismersben sem. A hagyomnyos beszdfelismers a beszdet fonmaszekvencinak tekinti. (A ksbbiekben ezt a beszdhangok hossznak nagysgrendjbe es idtartomnyt fogjuk szegmentlis tartomnynak nevezni.) A beszdfelismersben a szegmentlis tartomnyba es fonetikai szervezdsi szintet, majd e felett a szavak, st inkbb a szkapcsolatok szintjt veszik figyelembe, elbbit a fonma modellek, utbbit a nyelvi modell testestik meg a beszdfelismerkben. Ebben a feldolgozsi lncban a beszd mint akusztikai produktum csak a legels szinten, szegmentlis tartomnyban jelenik meg, utna nem veszik figyelembe. Meggyzdsem, hogy a beszd szupraszegmentlis tartomnyban akusztikailag is altmasztja a szkapcsolati szintet, s gy informciforrsknt hozzjrulhat a teljesebb beszdfelismershez, megnyitva az utat a valdi beszdrts irnyba is. Gondoljunk csak arra, hogy a szupraszegmentlisan (prozdiailag) rosszul megformlt kzlemny azaz helytelenl hangslyozott, nem megfelel hanglejts vagy ppen tl monoton, beszd az emberi beszdrtst megzavarja, st, meg is tvesztheti, mgis ritkasgszmba mennek a szupraszegmentlis tartomnybeli kutatsok, a szupraszegmentlis tartomny akusztikailag is megjelen elemeit a szupraszegmentlis beszdjellemzket pedig nem hasznljk a beszdfelismersben. rnyalja a kpet, hogy a fonetikai s fonolgiai tudomny sem egysges rszletekbe menen mr a szupraszegmentlis jellemzk pontos meghatrozsa krdsben sem, nemhogy az egyes jellemzk mrnki tudomnyokban is jl felhasznlhat egzakt lersban.

  • 2

    1. A beszd szupraszegmentlis szerkezete

    Az emberi beszd szupraszegmentlis, azaz a szegmentumok felett ll, azokon tvel jellegzetessgeit sokfle nven emlegetik a nyelvtudomnyban. A szupraszegmentlis szerkezet mellett igen elterjedt a prozdia elnevezs is, de tallkozhatunk a mondat- vagy szvegfonetikai eszkzk, a beszd zenei elemei, intonci, stb. elnevezsekkel is.

    Mivel munkmnak nem clja a szupraszegmentlis jellemzk szigoran fonetikai, fonolgiai szempontbl trtn vizsglata, ezrt nem is vllalkozom arra, hogy mlyebben bemutassam e szmtalan elnevezs kztt esetlegesen meglv rnyalatbeli klnbsgeket, a tovbbiakban a prozdia s a szupraszegmentlis szerkezet fogalmakat szinonimkknt hasznlom, a tbbi emltett elnevezs hasznlattl pedig tartzkodom. Fontosnak tartom megjegyezni azt is, hogy a prozdival egyesek ltal szinonimaknt hasznlt intonci fogalmt megfelel jelentsvel mint hanglejts, azaz mint prozdiai elem, de nem mint maga a prozdia hasznlni fogom.

    A prozdia, illetve a szupraszegmentlis jellemzk pontos definilsnak krdsben igencsak megosztott, illetve bizonytalan a nyelvtudomny. Egy elterjedt, ugyanakkor nem tl sokatmond meghatrozs szerint a szupraszegmentlis hangszerkezet azokat a beszdtulajdonsgokat foglalja ssze, amelyek nem szrmaztathatk [pusztn] a kzlseket alkot fonmk szekvencilis sorozatbl [35]. Ennl jval megfoghatbb s rtelmesebb, a tovbbiak sorn jval hasznosabbnak grkez meghatrozst ad a fogalomra Mark [32]: a szupraszegmentlis szerkezet a beszdprodukcis folyamat ltal ltrehozott komplex beszdjelnek az a vetlete, amely az id, a frekvencia s az intenzits folyamatvltozsaiknt rhat le, s amelynek szlelse lland viszonytsban lehetsges.

    Ez a meghatrozs kt fontos szempontot is egysgbe foglal: egyrszt kiemeli, hogy a prozdiai elemek szlelse mindig viszonytst felttelez, szemben a beszdhangok szlelsvel, ahol egyfajta objektv kvalitatv osztlyozs is szerepet kap. A fenti definciban megfogalmazd msik kiemelsre rdemes kittel az id, a frekvencia, s az intenzits vltozsaiknt val szlelhetsg. Ez szempontunkbl azrt szerencss megfogalmazs, mert a mszaki gyakorlatban a prozdiai jellemzk kinyerse ppen e hrom alapmrsre vezethet vissza: az idtartam mrse (1); a frekvencia meghatrozsa (2), illetve frekvenciatartomnybeli elemzs; s az intenzits mrse (3). Egyes szerzk (lsd [56]) a hangslyt is kiemelik, mint egy negyedik, jl detektlhat alapelemet, jllehet a hangsly kialaktsban pp a fent emltett hrom alapjellemz jtszik szerepet, gy tovbbi megklnbztetse nem igazn tnik indokoltnak mg akkor sem, ha a beszdfelismersbeli alkalmazsok zmmel ppen a hangslydetekcin alapulnak.

    A szupraszegmentlis szerkezetet ltrehoz elemeket a szupraszegmentumokat ltalban az albbi 7 tnyezben hatrozzk meg: hanglejts, hanger, hangsly, temp, ritmus, hangsznezet s vgl a sznet. Ezeket a tnyezket tekintjk t az 1.2 szakaszban, eltte azonban kiemelnm a szupraszegmentlis szerkezet nhny ltalnos sajtsgt.

  • 3

    1.1 A szupraszegmentlis szerkezet sajtossgai

    A beszd szupraszegmentlis szerkezetnek formlsa a beszdhangok kpzsvel prhuzamosan trtnik, igaz annl kevsb tudatos folyamat [10], ugyanakkor az ember mr a beszdtanuls korai fzisban kpes alapvet informcik megrtsre, illetve kifejezsre a prozdia, st akr pusztn a prozdia alapjn.

    A szupraszegmentlis szerkezet nyelvi univerzl azaz minden nyelv sajtossga abban az rtelemben, hogy segtsgvel a beszl modalitst, rzelmeket, szintaktikai s pragmatikai informcit, stb. fejezhet ki [10], illetve a beszl stlusra rendszerint jellemz egyfajta prozdiai stlus is. A szupraszegmentlis szerkezet azonban nyelv- (st egy ponton tl egynre) specifikus abban az rtelemben, hogy az univerzlis prozdiai eszkzk segtsgvel a beszl az adott funkcit mely szupraszegmentlis jellemzk (szupraszegmentumok) segtsgvel s hogyan valstja meg. Az egyni specifikumok trgyalsa termszetesen nem clunk, ugyanakkor a nyelvspecifikus tulajdonsgok kztt szmos olyan, nyelvek egy kisebb-nagyobb csoportjra jellemz sajtossgot tallunk, amelyek ugyan nem univerzlisak, mgis szmos nyelv esetn rvnyesek (lsd pldul a kttt hangslyt az 1.2.1 pontban).

    A prozdiai elemek zmmel a hangszalagok (kvzi)periodikus fizikai rezgsre vezethetek vissza, rzeti oldali megfelelik pedig a hangmagassg, hangossg, illetve a szubjektven szlelt idtartam. Mg azonban az egyes fizikai paramterek egymstl egyrtelmen elhatrolhatk, a szubjektv rzeti tulajdonsgokrl ez mr nem mondhat el [21], az rzeti oldalon e tulajdonsgok szervesen sszetartoznak. Pldul a hangmagassg megtlsekor nem tekinthetnk el a hangossg, illetve az idtartamok aktulis alakulsnak vizsglattl sem.

    A zaj a prozdiai elemek emberi felismerst sokkal kevsb befolysolja (rontja), mint a beszdhangokt. E megllapts alapjul szmos nyelvszeti ksrlet szolgl, amelyekre jelen munkban nem trnk ki.

    1.2 Az egyes szupraszegmentumok rvid jellemzse

    A szakaszban az egyes szupraszegmentumokat mutatom be rviden.

    1.2.1 Hangsly A hangsly valamely sz egy sztagjnak kiemelse, megklnbztetse a tbbi sztagtl. Attl fggen, hogy a beszd mely szintjn, milyen egysghez kapcsolva rtelmezznk, beszlhetnk szhangslyrl, szakaszhangslyrl (szszerkezetek esetben) s mondathangslyrl, st a szveg szintjn a ttelhangslyt is el szoks klnteni, ez utbbi azonban szmunkra rdektelen.

    Hangslyozs szempontjbl a nyelvek kt csoportba sorolhatk, a kttt s a ktetlen vagy szabad hangslyozs nyelvek csoportjba. A hangsly ktttsge azt jelenti, hogy ha a kzlsben valamely sz hangslyos, akkor a hangsly mindig a sz egyrtelmen azonostott sztagjra esik. A magyar nyelvben a hangsly kttt, mivel mindig az els

  • 4

    sztagon realizldik. Kttt hangsly mg a francia nyelv a szvgi (utols sztagra es) hangsllyal, az angol s nmet nyelvekben azonban a hangsly ktetlen, st, az angolban a hangsly jelentselklnt szerep is lehet, pldul a 'contrast' szban fnvknt hasznlva az els sztagot, igeknt a msodik sztagot hangslyozzuk [21]. Az angolhoz hasonl nyelvekben teht ltezik az nll szhangsly, a kttt hangslyozs nyelvekben azonban a hangsly funkcijt magasabb nyelvi szinteken a szszerkezetek s a mondat szintjn tlti be, szerepe teht tisztn a kzls lnyeges elemeinek kiemelsre s a kzls logikai tagolsra szortkozik. Megjegyezzk, hogy ers rzelmek kifejezsekor a hangsly a kttt hangslyozs nyelvekben is eltoldhat, illetve akr egy sz minden sztagjn is megjelenhet [21].

    Szoks elklnteni f- s mellkhangslyokat is. Pldul jelzs szerkezetekben a jelzn magn fhangsly, a jelzett szn mellkhangsly esik. sszetett szavaknl hasonl jelensg figyelhet meg.

    A hangsly ltrehozsban hrom tnyez egyttesen vagy egyedileg jtszhat szerepet. E hrom tnyez (1) az alapfrekvencia kiemelkedse a hangslyos sztagon, (2), a hangslyos sztag nagyobb intenzitssal val kiejtse (ezt nevezzk nyomatknak) s (3) a hangslyos sztag magnhangzjnak idtartambeli meghosszabbodsa. A francia nyelvben a hangslyt tipikusan az alapfrekvencia-emelkeds hordozza, mg az amerikai angolban legjellemzbb a magnhangz megnylsa. (Magyarban a magnhangzk megnylsa dnten rzelmeket fejez ki [10]). Egyes nyelvszek szerint a magyar nyelvben a hangsly elssorban nyomatki, azaz intenzitstbbletbl ered, azonban Kassai [21], illetve sajt tapasztalataim alapjn is meghatroznak tartom a hangslyban az alapfrekvencia szerept. Annl is inkbb, mivel a hanger emelkedse fiziolgiai okokbl automatikusan maga utn vonja az alapfrekvencia emelkedst is, mivel a megnvekedett szubglottlis nyoms a hangszalagokat szaporbb rezgsre knyszerti [21], gy a hangintenzits s az alapfrekvencia menete sem tekinthetk egymstl fggetlennek. Tovbbi problma, hogy az intenzitst jelentsen befolysolja a szegmentlis szerkezet is, mg az alapfrekvencia esetben ez csak a zngs-zngtlen klnbsgttelre igaz. Kassai azt javasolja, hogy a hangsly vizsglatnl mind az alapfrekvencia, mind az intenzits, mind az idtartam alakulst vegyk figyelembe, mivel e ltrehoz paramterekkel a hangsly sokkal bonyolultabb viszonyban van, mint az intonci (lsd 1.3.2), amelyet tekinthetnk az alapfrekvencia ltal meghatrozottnak.

    Az alapfrekvencia s a hangsly kapcsolatt igen rszletesen vizsglja magyar nyelvre Olaszy [38], kt fontosabb, a hangslyozshoz szorosan kapcsold megllaptst idzzk e helyen:

    Sztagon bell meredeken esik az alapfrekvencia, amennyiben a sztag kiemelten hangslyos. Kiemelten hangslyos sztagot tallunk pldul a fkuszpozciban1 ll sz (ige) els sztagjn, illetve ilyen jelleg meredek ess figyelhet meg eldntend krds utols eltti sztagjban. Ez a jelensg a magyarban egysgesen jellemz, az alapfrekvencia cscsa pedig minden esetben a magnhangzban tallhat meg. A meredek ess ktflekppen realizldhat a hangkrnyezet fggvnyben. Ha a magnhangzt megelz hang zngtlen gerjeszts (gy F0 nem tartozik hozz), akkor a magnhangzban az alapfrekvencia a csccsal indt s meredeken esik; ha a magnhangz eltt zngs

    1 Fkuszpozcinak nevezi a nyelvszet a mondatban a leghangslyosabb szt, illetve annak helyt.

    Magyarban ez jellemzen az ige eltti pozcit jelenti, amennyiben betlttt.

  • 5

    mssalhangzt tallunk a sztagban, akkor az alapfrekvencia a megelz hangban magasrl indul, de enyhn tovbb emelkedik, cscst a magnhangzban ri el.

    A hangslyozs megkvetelte alapfrekvencia-emelkeds elmaradhat akkor, ha a nyelvi szervezdsben magasabban elhelyezked intonci (lsd 1.3.2) ezt megkvnja: gyakran tallkozunk ezzel a jelensggel tagmondatok vgn ll rvidebb (

  • 6

    Ezzel is magyarzhat, hogy [alapveten] nem befolysolja az emberi szlelst a mikrointonci, azaz a beszdhangok kapcsoldsai miatt ltrejv kisebb alapfrekvencia vltozs, amely gy tudatunktl fggetlen, teht [valsznleg] nyelvi szerepe sincs [10]. Megjegyezzk ugyanakkor, hogy egyes szerzk ([27] s [56]) a mikrointonci szerept bizonyos szegmentlis sszetevk esetn nem tartjk elhanyagolhatnak, mindenesetre a mikrointoncival jelen munknkban nem kvnunk foglalkozni.

    A ksbbiekben hasznlni fogom az intonci fogalmt mondat szinten is rtelmezett alakjban, rtelemszeren ekkor a mondat intoncijn a teljes mondat hanglejtst rtjk, melynek alapvet funkcija a tagols s a modalits jelzse.

    A modalits fogalma maga is tisztzsra szorul, magam a tovbbiakban a mondat modalitsa alatt tisztn a mondat tpust rtem, amely lehet kijelent, krd, felszlt, felkilt s hajt.

    1.2.3 Hanger A hanger a nyelvszeti szakirodalomban lnyegben a pszichoakusztikai hangossg fogalmnak felel meg. Jllehet az szlelt hangossgot alapveten a hangintenzits hatrozza meg, termszetesen a frekvencia, s kisebb mrtkben az idtartam is befolysolja.

    Jl ismert, hogy a hangossg megvltozsnak szlelse frekvenciafgg, alacsonyabb frekvencin mr kisebb (200Hz-6kHz tartomnyban akr 1 dB) intenzitsvltozst is szlelnk. A beszd esetben ez a hatr 3 dB krl felttelezhet [49].

    A hanger mint szupraszegmentlis jellemz szerepet elssorban mondatok modalitsnak elklntsben kaphat, ez a felkilt s hajt mondatokban a legszembetnbb a kijelent mondatokhoz viszonytva.

    Mint azt az 1.2.1 szakaszban mr jeleztem, a hangslyt nem tartjom a hanger ltal meghatrozottnak, azonban ktsgtelen, hogy a hangslyos sztagot ltalban nagyobb hangervel ejtjk.

    1.2.4 Beszdtemp A beszd tempjt a beszd- s az artikulcis sebessgekkel adhatjuk meg. Elbbi hnyados az egysgnyi hossz kzlsfolyamra es beszdhangok szmt, utbbi a tisztn beszdkpzsre fordtott id alatt kiejtett beszdhangok szmt adja meg. A kett kztti klnbsget az adja, hogy a beszdsebessgbe a sznetek, hezitls, stb. idtartama is beleszmt, mg az artikulcis sebessgbe nem.

    A beszdtemp esetn is igaz, hogy az objektven azonos sebessg beszdet szubjektven lassabbnak vagy gyorsabbnak tlhetjk a hanger, a hangmagassg, st a hangslyozs hatsra. Lassabbnak rzkeljk pldul a beszdet mlyebb hangfekvsben, gyr hangslyozs mellett, mg magasabb hangfekvs, illetve hangslyozst tekintve dinamikus beszd gyorsabb beszd benyomst kelti [21].

    A temprtkek jellemzen nyelv s egynfggek, de termszetesen egynen bell is

  • 7

    variancit mutatnak.

    Az tlagos temprtkeknl kevsb ltalnos, m annl sokkal hasznosabb lehet az egyes beszdhangok, klnsen a sztagok magnhangzinak idtartamt megllaptani, mivel utbbi egyes nyelvekben a hangsllyal ersen korrell, illetve szmos nyelvre jellemz, hogy a frzisok (kt beszdsznet, jellemzen levegvtel kzti szakasz), mondatok vgn a beszdhangok idtartamai megnvekednek.

    1.2.5 Ritmus s hangsznezet A beszdritmus tern a kutatsok mg nem trtk fel kellkppen, mit s hogyan rzkelnk a beszdben ritmusnak, jllehet a ritmus valamikppen ktsgtelenl ltezik benne [10]. A ritmus valsznleg szorosan ktdik a hangslyozshoz s az idtartamviszonyokhoz, mivel azonban a krds egyelre nem tisztzott, s a mszaki alkalmazhatsga sem ismert, a tovbbiakban nem foglalkozunk vele.

    A hangsznezet kapcsn ugyanazokat mondhatjuk, mint a ritmus esetben: a terlet nyelvszetileg nem kellkppen feltrt. A beszl felismersnek, illetve egyes rzelmek kifejezsben ktsgtelenl fontos szerepe van a hangsznezetnek, jelen munknkat azonban ez nem rinti.

    1.2.6 Sznet A sznet az egyik legfontosabb prozdiai jellemz, alapformja a beszdet megszakt nma szakasz, azaz az akusztikai rtelemben vett jelkimarads. Sznetnek csak a beszd kzben fellp akusztikai jelkimarads tekinthet, a beszdet megelz s zr nma szakaszokat ettl clszer elklnteni, ennek neve lehet a csend [21]. Termszetesen nem tekintjk sznetnek az sszetett kpzs beszdhangokban elfordul jelmentes szakaszt, gy a zngtlen felpattan zrhangokban a nma fzis semmikppen nem sznet.

    A sznetet a puszta akusztikai jelkimaradsnl tgabban clszer rtelmezni, gy szmos ms n. sznethordozt azonosthatunk, amelyek a percepci szempontjbl a jelkimaradssal kzel azonos hatst keltenek. Kassai nyomn [21] a magyar nyelvben az albbi sznethordozkat klnthetjk el:

    akusztikai jelkimarads az egybknt jellemz alkalmazkodsok (pl. hasonulsok) elmaradsa, illetve a

    gondos artikulci beszdhangok megnyjtsa a sznet eltt vagy utn, illetve a beszdtemp

    lassulsa glottlis zr megjelense a sz eleji magnhangzk eltt kiemelked hangsly a hangmagassg hirtelen megvltozsa kitlttt (hangos) sznet (pl. -zs, mm-zs)

    Gyakori, hogy a fenti sznethordozk egyttesen fordulnak el, ezltal is javtva a sznet szlelhetsgt. Univerzlis (teht minden nyelvben meglv) sznethordoznak maga az akusztikai jelkimarads, illetve korltozottan a kitlttt sznet tekinthet, az egyb sznethordozk jellemzen nyelvspecifikusak.

  • 8

    A sznet nyelvi funkcija a kzlemny tagolsa a knnyebb dekdolhatsg rdekben, illetve a sznet rvn a beszl s a hallgat is idt nyer, elbbi mondandjnak megfogalmazsra, utbbi a beszd rtelmezsre. Lehetsget adhat a sznet a beszl nkorrekcijra is, teht egyfajta hibajelz s -javt funkcit is ellthat. Spontn beszdben a sznetek jval gyakrabban fordulnak el.

    Br a beszd akusztikai megjelenst tekintve eleve szaggatott, de ezt mgsem rzkeljk sznetknt. Tbbek kztt ezen az alapon is felmerlhet a krds, milyen hossz akusztikai jelkimaradst szlelnk mr sznetknt. Szmos nyelvszeti kutats foglalkozott mr ezzel a krdssel (lsd [10], [21] stb.), ltalnosan rvnyes idtartam-hatrokat azonban mg nyelv-, st beszlspecifikusan sem igazn sikerlt jl krlhatrolni, a megllaptott idtartomnyok sokszor tbb nagysgrendet tfognak, egymssal tlapolnak, gy a szmszer adatok ismertetstl el is tekintnk. Annyi azonban bizonyos, hogy nagyon vltoz idtartam jelkimaradsokat szmos egyb tnyez hatsra szlelnk vagy ppen nem szlelnk sznetknt, mg az ennl akr jval hosszabban ejtett hossz felpattan zrhang nma fzisa pldul nem kelt sznetrzetet.

    Mieltt tovbblpnnk, megemltjk, hogy a prozdiai frzis3 rtelmezse ppen kt sznet kztti beszdszakasz. Tvesen intoncis frzisnak is nevezik, fleg az angol nyelv szakirodalomban tallkozni ilyen szhasznlattal. Mi a tovbbiakban prozdiai frzis alatt kt akusztikai jelkimaradssal is jelzett sznet kztti beszdszakaszt, intoncis frzis alatt pedig olyan beszdszakaszt rtnk, amely hanglejts s hangslyozs szempontjbl egy egysgnek tekinthet [36], azaz kttt hangsly nyelv esetn hangslyos sztaggal indt s homogn hanglejts (azaz besorolhat az 1.2.2 alpontban ismertetett 5 alapvet dallammenet tpus valamelyikbe). A nyelvszeti szakirodalomban tallkozni lehet pldul a hangslyozsi-hanglejtsi szakasz fogalmval is, ez alatt is az intoncis frzis rtend.

    1.3 A szupraszegmentlis szerkezet ltrehozsa s alapvet funkcii

    A szupraszegmentlis jegyek ltal betlttt funkcikkal a legegyszerbben gy ismerkedhetnk meg, ha azokat mint a beszdprodukci rszeit tekintjk. ppen ezrt a szakaszban az emberi beszdkpzs egy modelljt tekintjk t rviden [30] s [32] alapjn. Az 1.1 brn a napjainkban ltalnosan elfogadott, Levelt-fle beszdprodukcis modell [30] egyszerstett rszlett, mghozz a prozdia genertort lthatjuk, amelyen a szupraszegmentlis szerkezet kpzst kvethetjk nyomon.

    3 Frzisnak szoks nevezni egybknt minden, valamilyen (prozdiai) beszdesemnytl a kvetkez

    ugyanilyen esemnyig terjed szakaszt.

  • 9

    1.1 bra: A folyamatos beszd kpzsnek Levelt-fle modellje ([30] s [32] nyomn)

    Az brn szmunkra elssorban a prozdia genertor ngy bemenete rdekes. A prozdia generlsnak f alapja a felszni szerkezet4. A felszni szerkezetet magt most fogjuk fel gy, mint egy a beszl ltal mr gondolatilag megfogalmazott kzls vzt, ha gy tetszik fejben sszerakott mondato(ka)t, amelyeket beszd tjn szeretne kifejezni. Mg jobb, ha a felolvass esett vesszk, ekkor a felszni szerkezet maga az rott szveg. Ehhez addik hozz a metrikai szerkezet, azaz ez a bemenet a hangslyok helyt, illetve a hangslyozsi mintt hatrozza meg. Termszetesen a felszni szerkezet a metrikai szerkezetre dnt hatssal van, ez kttt hangsly nyelvre fokozottabban igaz. Szmunkra ebbl a lnyeges az, hogy leegyszerstve a metrikai szerkezet finomtja tovbb a felszni szerkezet ismeretben pldul azt, hol fog a beszl hangslyozni, illetve milyen lesz a prozdiai temezs. A harmadik bemenet a szegmentlis szerkezet, amelyet most nyugodtan azonosthatunk a kimondand beszdhang-sorozattal. Magtl rtetdik, hogy ez is a felszni szerkezet kzvetett fggvnye5. Vgl a felszni szerkezethez a beszl hozzadja az intoncis jelentst szndkainak, rzelmeinek, illetve hozzllsnak megfelelen. Az intoncis jelents teht a beszl szndkt s rzelmeit tkrzi. Ebbl a ngy forrsbl generlja a beszl a kzls szupraszegmentlis szerkezett. A prozdia genertor kimenetn a paramterek belltsa az artikulcis paramterekre vonatkozik. A fonetikai szint terv szmtstechnikai hasonlattal lve a beszd kpmsnak tekinthet.

    Mark megjegyzi [32], hogy a Levelt-fle modell alapjn a magyar nyelvben a szupraszegmentlis szerkezetet dnten befolysolja a felszni szerkezet s az intoncis jelents, mellettk a metrikai, s kisebb rszben a szegmentlis szerkezet hatsa elhanyagolhat. A prozdia elsdleges funkcija a magyar nyelvben a mondanival

    4 Mivel munkmban terjedelmi okokbl nincs lehetsgem valamennyi, az 1.3 szakaszban felbukkan

    nyelvszeti fogalom ismertetsre, ezrt az olvas a [30] s [32] irodalmakban tjkozdhat pontos defincijukat illeten.

    5 Szerepe a magyarban minimlis, ellenben pldul a francia nyelv jellegzetes hangktseit (liasion) ez a

    bemenet hatrozza meg.

  • 10

    felszni szerkezetnek, s a beszl viszonyulsnak, rzelmeinek, szndkainak tkrzse. Munkmban az elbbivel kvnok rszletesen foglalkozni, ugyanis meggyzdsem, hogy a prozdiai szerkezet nyomon kvetse s az ltala hordozott informci kinyerse sokat segthet a gpi beszdfelismers technolgijban. gy vlem, a magyar nyelven kvl szmos ms nyelvben is hasonl felttelek teljeslnek.

    Termszetesen nem minden nyelvre igaz a prozdia csaknem tisztn felszni szerkezetet hordoz szerepe. Egyes nyelvekben a prozdinak lexikai szint jelentselklnt szerepe is van. Az ilyen nyelveket tonlis nyelveknek nevezik, mg az e tulajdonsggal nem rendelkez nyelvek a monoton nyelvek. Utbbiakban a prozdia tisztn a magasabb nyelvi szinteknek megfelel funkcit lt el, amely mint lttuk jellemzen a beszd rtelmi tagolsban, illetve a mondattpusnak megfelel mondatszint intoncis minta kialaktsban mutatkozik meg, mg elbbiekben, azaz a tonlis nyelvekben az egyes szavak jelentse a prozdiai struktrtl, leggyakrabban a sz hanglejtsi mintzattl is fgg. A legtipikusabban tonlis nyelvekben (ezek fleg dlkelet-zsiai, illetve afrikai trzsi nyelvek) egy-egy sznak a sz szintjn megjelen hanglejtstl fggen akr 4-5 klnbz jelentse is lehet [21]. Az eurpai nyelvek kzl a norvg, a svd s a szerbhorvt is tonlis nyelvek. A magyar nyelv a monoton, teht a nem tonlis nyelvek kz tartozik.

    1.4 Nhny alapfogalom

    Mieltt tovbblpnnk a szupraszegmentlis szerkezet beszdfelismersbeli alkalmazsra, rvid kitrt tesznk nhny, a ksbbiekben hasznos alapfogalmak bevezetsre, illetve jelentsk tisztzsra.

    A nyelvszet fejldse sorn rengeteg irnyzat alakult ki sajt szemlletvel s vizsglati mdszereivel, ezrt magt a nyelvet szmtalan mdon lerhatjuk, elemeire bonthatjuk vagy kategorizlhatjuk [23], [24]. A gpi beszdfeldolgozs s beszdfelismers (statisztikai) algoritmusai szintn kialakultak, kiforrtak, m felptskben nem lehettek tekintettel a nyelvszet ltal meghatrozott kategrikra. gy az a furcsa helyzet llt el, hogy a beszdfeldolgozs tudomnya szmos fogalmat klcsnz a nyelvszet tudomnytl, m ugyanazon fogalom az id haladtval gyakran egyre inkbb ms jelensget fed, mint eredetileg a nyelvszetben. Vlemnyem szerint ennek akr csak vzlatos bemutatsa mg nyelvsz-beszdtechnolgus szakembereknek is komoly kihvst jelentene, ezrt erre ksrletet sem teszek. Helyette az albbiakban az 1. fejezet kiegsztseknt megadom, hogy a tovbbiakban milyen fogalmakat milyen rtelemben kvnok hasznlni.

    Tekintsk a nyelvi egysgeket, amelyeket a strukturlis lingvisztika6 [24] hatroz meg. A legkisebb, mr nll jelentssel br egysg a fonma (beszdhang), ezt rendre a morfmk (szelemek), lexmk (szavak), szintagmk (szszerkezetek)7, majd a mondat s a szveg kvetik8. Ezen egysgekkel lltsuk prhuzamba a szegmentlis s a

    6 A strukturlis lingvisztika lnyegben a nyelv szerkezett rja le a legkisebb ptegysgek fell a

    legmagasabb nyelvi struktrk fel haladva. 7 A szszerkezet meghatrozs helyett a kicsit ltalnosabb szkapcsolat fogalmat is hasznlom a

    tovbbiakban. 8 Egyesek mg megklnbztetik a frzist is, amely a szszerkezet s a mondat kztt helyezkedik el, ettl

  • 11

    szupraszegmentlis szerkezetet! Mivel e szerkezeteket elklnt tnyez az idtartam, ezrt a tovbbiakban szegmentlis, illetve szupraszegmentlis tartomnyknt fogunk hivatkozni rjuk.

    Harmadikknt tekintsk a mrnki megkzeltsben legmegfelelbbnek bizonyult felosztst [1], s ezeket fogjuk a tovbbiakban nyelvi szinteknek tekinteni, jllehet az imnt nyelvi egysgknt bevezetett tnyezk is egy szintenknti felosztst adnak, s a szakirodalomban gyakran tallkozhatunk a fonmaszint, szszint, szszerkezeti szint vagy ppen mondatszint kifejezsekkel. Mi azonban szintek alatt elssorban az akusztikai, fonetikai, szintaktikai s szemantikai szinteket rtjk. Ezek a szintek a gpi beszdfeldolgozs szekvencilis felptsbl addnak, nyelvszetileg ilyen feloszts nem ltezik. Az akusztikai szint amelyet igazsg szerint inkbb egy vetletnek kellene tekintennk, hiszen a beszdet hordozza, de hierarchiba csak olyan rtelemben kapcsoldik bele, hogy a beszdfeldolgozs szksgszeren az akusztikai feldolgozssal kezddik szmunkra maga az akusztikai beszdjel, s az akusztikai szinthez tartozik mg minden olyan feldolgozsi lps, amely a beszdjelet valamilyen mdon talaktja. Az ezt kvet szint a gpi beszdfelismerkben a fonetikai szint, amelyet a beszdhangok akusztikai modelljei hoznak ltre az akusztikai szintet a beszdhangok, a beszdhang sorozatok szintjre kpezve. A szintaktikai szintet azonban mr tbbflekpp rtelmezhetjk. Szigoran vve a beszdfelismer nyelvi modellje szintaktikai szintre kpez, de a szintaktikai szintbe belerthet a szszerkezetek, mondatok elemzse is, amit egy beszdfelismer rendszertl hagyomnyosan nem vrtak el, de egy beszdrtsre kpes rendszerben mindenkppen helye van (pl. [5], [27], [45]). Hasonlt mondhatunk el a szemantikai szint feldolgozsrl is: eredetileg nem szerepelt a beszdfelismers repertorjn, mra azonban jelentsen vltozott a helyzet ([27], [58]). A szintaktikai s fleg a szemantikai szint feldolgozs a termszetes nyelvek feldolgozsnak tmaterlete, az akusztikai jelfeldolgozs szerepe ebben az lehet, hogy az akusztikai beszdjelben jelenlv szintaktikai s szemantikai informcit tkrz komponenseket azonostsa, kinyerje, feldolgozza, majd tovbbadja a termszetes nyelvet feldolgoz modul szmra.

    most tekintsnk el. A morfmkkal sem kvnunk foglalkozni.

  • 12

    2. Prozdiai jellemzk akusztikai szint feldolgozsa s annotlsa

    Az 1. fejezetben mr emltettk, hogy a szupraszegmentlis jegyek akusztikai sszetevit (megfelelit, ltrehozit) hrom alapvet kategriba sorolhatjuk, melyek az idtartam, a frekvencia, s az intenzits. Az egyes szupraszegmentumok bemutatsa kapcsn is kitrtnk r, hogy ltrehozsukban a fenti hrom sszetev kzl melyek vesznek rszt. Ebben a fejezetben a beszd szupraszegmentlis tartomnynak akusztikai feldolgozsi lehetsgeit tekintjk t rviden, vgezetl pedig megemltnk egy, a szupraszegmentlis tartomny beszdfeldolgozst segt annotlsi rendszert.

    2.1 Az alapfrekvencia

    Valamennyi jellemz kzl ktsgkvl az alapfrekvencia mrse a legkomplexebb feladat. Szmtalan algoritmus alapjn lehetsges az alapfrekvencia meghatrozsa, gy nem vllalkozhatunk teljes kr bemutatsukra, az ltalunk a ksbbiekben hasznlt mdszert azonban ttekintjk.

    Az alapfrekvencia detektlsnak egyik rgen ismert lehetsges mdja az autokorrelcis fggvny maximumainak meghatrozsn alapul ([9], illetve [41]). Azaz a beszdjelet nmaghoz kpest eltolva a legjobb illeszkedst az eredeti s az eltolt fggvny kztt akkor kapjuk, ha az eltols mrtke ppen a peridusidvel egyezik meg, zngs beszdszakaszra teht az autokorrelcis fggvny is majdnem periodikus. Cscskeresssel az autokorrelcis fggvny peridusideje jl meghatrozhat. Az autokorrelcis fggvny helyett leggyakrabban egy rokon fggvnyt, az tlagos magnitd klnbsg fggvnyt ([9], ill. [43]) AMDF, Average Magnitude Difference Function) hasznljk, ugyanis sokkal gyorsabb szmtst tesz lehetv. Az AMDF fggvny a beszdjel alapperidusnak megfelelen nem maximumokat, hanem minimumokat ad. Az AMDF fggvny (Dn(k)) pldul az albbi sszefggssel definilhat:

    +=

    =

    n

    Nnikiin xxN

    kD1

    ||1)( (2.1)

    Itt az x beszdjel i diszkrt idpontbeli rtke xi, n az az idindex, amelyre az AMDF fggvny rtkt szeretnnk szmtani, N pedig az ablakszlessg, amelyre tlagolunk. A minimumokat a k vltoz szerint kell keresnnk.

    A beszdjelbl kinyert alapfrekvencia-rtkeket felhasznlsuk eltt elfeldolgozsnak clszer alvetni. Leggyakoribb clok az alapfrekvencia kontrjnak (grbjnek) simtsa a mikroprozdiai ingadozsok eltntetsre s az alapfrekvencia interpolcija a zngtlen helyeken, ugyanis szmos esetben nehezten a feldolgozst, ha az alapfrekvencia-menet szaggatott lenne. Egyes esetekben az alapfrekvencit szndkosan nem interpolljk (pl. [46]), ilyenkor azonban rendszerint nem a teljes beszd, hanem csak egy-egy jl krlhatrolt beszdszegmens (pl. szhatrok krnyke, egy-egy sztag, stb.) esetn kvncsiak az F0 alakulsra.

  • 13

    Simtsra hatkonyan alkalmazhat, egyszer mdszer a medin szrs [56], jellemzen 5-7-9 pontos9 ablakokkal. Elnye, hogy a zngs-zngtlen hatrt nem mossa el (szemben pl. az tlagol (mean) szrssel), s valdi, azaz tnylegesen mrt s nem szmtott F0 rtkeket ad a kimenetn, gy a nhny mintartkre kiterjed durva ugrsokat is kiszri. Az alapfrekvencia-kvetk a zngs szakaszok kezdetein a zngseds (voice onset) ideje alatt jellemzen bizonytalanabbak a tnyleges F0-rtk meghatrozsban, e problmt hatkonyan orvosolja a medin szr. Gyakran mr maga az alapfrekvencit kinyer algoritmus (pitch tracker) is tartalmaz medin szrt.

    Az alapfrekvencia detektlsa sorn fellp msik gyakori problma az oktvugrs, amikor is a tnyleges alapfrekvencia rtk fele vagy ktszerese jelenik meg a detektor kimenetn. Ez ellen rszben a beszl F0 tartomnynak megadsval, rszben utlagos intelligens szrssel lehet vdekezni. A ksbbiekben konkrtan ismertetem az ltalam hasznlt oktvugrs-szrt, ezrt rszletekbe itt nem bocstkozunk.

    A simtshoz hasonlan az alapfrekvencia menet folytonoss ttelre is ltezik egy egyszer, de igen hatkony eljrs: az egyszer lineris interpolci (pl. [8]), amelyet logaritmikus tartomnyban elvgezve gyakorlatilag optimlis kzeltst nyernk. Az interpolci logaritmikus tartomnyban val elvgzst az indokolja, hogy az alapfrekvencia kezdeti ersds utni hossz lecseng szakasza amennyiben a hangslyozs s a prozdiai frzishatrok befolystl eltekintnk e-x jelleg fggvnnyel kzelthet (v. a beszdszintzisben alkalmazott Fujisaki modell [7]).

    Az interpolci kifinomultabb mdon is elvgezhet (v. [11]), igaz ltalban a logaritmikus tartomnyban lineris eljrsok bsgesen elegendnek bizonyulnak. Egy lehetsges finomtott eljrs pldul a kvetkez: a zngtlen szegmens kzepn egy alacsony F0 rtket rgztenek, majd lineris interpolcival a szomszdos zngs szakaszok vg, illetve kezdpontjaihoz illesztik e kzps rtket. Ezt kveten a teljes jelet csaknem lineris fziskarakterisztikj alultereszt Butterworth szrvel szrik. Mivel a zngtlen szakaszon alacsony F0-rtket adtunk meg, a szrs a zngs szakaszok F0 rtkeit is eltorztotta (lehzta), ezrt ezeket a szrs utn eredeti rtkkre lltjk vissza gy, hogy kzben a zngtlen szakaszra add F0 rtkeket hozzjuk igaztjk (felhzzk) a zngs-zngtlen hatron jelentkez tlzott megtrets elkerlse rdekben. Az eljrst iteratvan ismtelni kell mindaddig, amg a szrs utn a zngs szakasz alapfrekvencia-rtkei kellen kzel nem kerlnek az eredeti rtkekhez.

    Az alapfrekvencia szintmrtkre is tszmthat, erre egy lehetsges eljrs a ksbbiekben ltalunk is hasznland harmonikus hangmagassgszintre (H) val tszmts [49]. Ekkor a

    0

    0

    0

    0 lg40lg2lg

    12c

    Fc

    FH = (2.2)

    sszefggs adja meg a harmonikus hangmagassgszintet, amelyben c0 rtke szoksosan c0=131 Hz. H mrtkegysge az n. harmonikus oktv [49]. Mivel az alapfrekvencia kifejezetten szk tartomnyban vltozik, a logaritmikus sklzsnak a beszdben nincs

    9 1-1 pont tvolsga jellemzen 10-30 ms.

  • 14

    igazn jelentsge. Normls tekintetben elterjedten alkalmazzk azt a mdszert, hogy a prozdiai frzis alapfrekvencijnak kizrlag a zngs rszekbl kpzett tlagt igaztjk egy adott frekvenciaszintre vagy akr nullra.

    2.2 Energia

    A beszdjel energijnak szmtsa a legalapvetbb jelfeldolgozsi mveletek kz tartozik.

    +=

    =

    n

    Nniin xE

    1

    2 (2.3)

    Ehelytt csak azt jegyezzk meg, hogy a szupraszegmentlis jegyek figyelemmel ksrsekor az energit nagyobb ablakkal (nagyobb N-re) szksges szmtanunk, mint azt a szegmentlis tartomnyban megszokhattuk. Egyes esetekben hasznos lehet az energia kiszmtst svokra bontva elvgezni, ekkor a svok jval szlesebbek, mint a hallsmodell alapjn vgzett kritikus svok szerinti szrsoros elemzsnl. Gyakran hasznljk azonban az sszenergit is, mint a szupraszegmentlis jegyek akusztikai korrelltjt.

    Az energia mint a hangsly s intonci kapcsn mr utaltunk r ersen fgg a szegmentlis szerkezettl, azaz gyakorlatilag az egyes beszdhangoktl, szupraszegmentlis tartomnyban azonban megfelelen vlasztott idtartamra tlagolva hasznos mrszm. A beszdhangra vonatkoztatott normalizls tapasztalataim szerint legalbbis magyar nyelvre nem ad megbzhat eredmnyt, mivel valsznleg nemcsak a beszdhang tpust, de sz-, sztag-, st mondatbeli elhelyezkedst is figyelembe kellene venni, nem beszlve az egyni klnbsgekrl, s arrl sem, hogy beszdhang hatrok a folyamatos beszdben csak elmletileg lteznek, a koartikulci miatt sokszor igen nehz egyes beszdhangok szegmentlsa.

    Az energia szmtsnl kzponti krds az tlagolsnl figyelembe veend mintk szma (vagy ha gy tetszik, az idablak nagysga az tlagolskor). Nyilvnval, hogy a szupraszegmentlis tartomny feldolgozsakor a szegmentlis esetben alkalmazott integrlsi idk tl rvidek, gy ezeknl nagyobb rtkeket clszer vlasztanunk. Az is knnyen belthat, hogy a mondathatrok detekcijhoz vagy az intonci kvetshez valsznleg mg hosszabb ablakokat kell hasznlnunk, mint a szhatr- vagy hangsly-detekcihoz.

    2.3 Idtartamok

    Az alapfrekvencihoz hasonlan az idtartamok mrse is problms. A nehzsg abbl addik, hogy ahhoz, hogy brmilyen beszdszakasz idtartamt meghatrozhassuk, pontosan ki kell jellnnk az adott szakaszt. Miutn automatikus algoritmusokkal dolgozunk, gy e kijellst is automatikusan tudjuk csak vgezni, emiatt pedig ktsgkvl hibval terhelt eredmnyeket kapunk.

    Az idtartamok jellemzen a beszdhangok vagy sztagok hossza rdekelhet bennnket

  • 15

    mrsnek kivl alapja a beszdfelismer kimenete, hiszen a dekdols sorn knnyszerrel megvalsthat annak az llapotsorozatnak visszakvetse, amelyen vgighaladva a felismersi eredmny addott. Ily mdon az egyes beszdhangok kezd- s vgidpontjai is rendelkezsnkre llnak. Ennek htultje, hogy a szupraszegmentlis tartomny feldolgozshoz meg kell vrnunk a dekdols vgt, vagy annak hatkony szakaszolst kell biztostanunk, hiszen felismersi eredmnynk csak akkor lesz, ha az adott szakasz vgre rtnk, ahonnan megkezdhetjk a visszakvetst. Ha ehhez hozztesszk, hogy a szupraszegmentlis tartomny feldolgozsval egyik clunk ppen a szakaszolhatsg biztostsa lehet, mris oda jutunk, hogy a kt feladat egymst klcsnsen felttelezi. Termszetesen elmletileg lehetsgnk van arra, hogy e kt feladatot iteratvan felvltva vgezzk, ehhez azonban megkerlhetetlen, hogy tbb dekdolsi ciklust futtassunk, ami viszont a futsi id drasztikus emelkedst vonn maga utn, hiszen a dekdols a beszdfelismers legmveletignyesebb folyamata. Emiatt vals idej mkdst aligha valsthatnnk meg a mai technikai s technolgiai sznvonalon.

    Az idtartamok kapcsn az energia trgyalsakor emltett problmk ugyancsak fennllnak. Nem trivilis a normalizls, rszben az abszolt egyrtelm s pontos beszdhang-szegmentls lehetetlensge miatt, de amiatt sem, hogy rengeteg tnyezre kell figyelemmel lennnk. Szmolnunk kell a sz-, st a mondatbeli elhelyezkedssel, a beszdhang tpusval s valsznleg a beszdhang-krnyezettel is, s ekkor mg az egyes beszlk kztti eltrseket figyelembe sem vettk.

    2.4 Beszdfelvtelek szupraszegmentlis tartomny feldolgozsa

    A beszdadatbzisok szupraszegmentlis tartomny prozdiai feldolgozsra a 90-es vek elejn elszr az amerikai angol nyelvre dolgoztk ki a ToBI (Tones and Break Indices) annotlsi ajnlsgyjtemnyt [47]. Ksbb szmtalan egyb nyelvre is elkszlt a ToBI rendszer adott nyelvre specializlt vltozata (pl. [3], [54]), magyar nyelv ToBI azonban nem kszlt. Mint az elnevezsbl sejthet, a ToBI rendszerben a beszdsznetek (sz-, frzis- s mondathatrok) jellsre, s az alapfrekvencia nagyobb vltozsaira koncentrltak.

    A magyar nyelvre trtn, a prozdia beszdfelismersben val felhasznlhatsgt clz kutats megkezdsekor problmaknt jelentkezett a felismers oldali megfelel prozdiai annotlsi szablyrendszer kidolgozatlansga, illetve a prozdiailag feldolgozott beszdadatbzisok hinya. Mindezzel egytt a Beszdakusztikai Kutatlaboratriumban gy hatroztunk, hogy a rendkvl nagy id- s kltsgrfordtst ignyl ToBI-adaptci helyett nll, a ToBI-nl egyszerbb, rugalmasabb, a magyar nyelv sajtossgaiban rejl lehetsgeket jobban kihasznl, de adott esetben ms nyelvekre is adaptlhat, nll prozdiai feldolgozsi rendszert vezetnk be. A ksbbiekben az ltalam kidolgozott s hasznlt feldolgozsi mdszert ismertetni fogom. A ToBI rendszer meghonostsa ellen szlt az is, hogy szmtalan sikeres kutats zajlott mr ilyen tpus prozdiai annotls nlkl, illetve hogy azokra a nyelvekre, amelyekre a ToBI rendszerben feldolgozott adatbzisok rendelkezsre llnak, az annotlt informcinak csupn tredkt hasznltk fel tnylegesen.

  • 16

    3. A szupraszegmentlis informci felhasznlsa a beszdfelismersben

    3.1 A statisztikai alap state-of-the-art beszdfelismers

    A statisztikai alap beszdfelismersben [15] eredenden nem veszik figyelembe a beszd szupraszegmentlis szerkezett, csak a szegmentlisat. A napjainkban leginkbb elterjedtnek tekinthet folyamatos, fonma alap beszdfelismerk felismersi alapegysge szegmentlis jelleg, hiszen ebben a tartomnyban trtnik a beszdhangok akusztikai-fonetikai szint modellezse. Az egyes beszdhangokbl a sztr ltal megadott specifikciknak megfelelen egy adott nyelv szavai konstrulhatk meg, s a felismersi feladatot magt jellemzen ennek alapjn fogalmazzk meg. Leggyakrabban az albbi meghatrozshoz hasonl defincikkal tallkozhatunk ([15], [4], [59], stb.): a felismersi feladat nem ms, mint az ismertnek felttelezett [s szegmentlis tartomnyban feldolgozott] akusztikai beszdjel folyamhoz legjobban illeszked szszekvencia kivlasztsa [a sztr ltal megadott s a nyelvi modell ltal lert kapcsoldsi tulajdonsgokkal rendelkez szhalmazbl]. Az gy rtelmezett felismersi feladatra sszelltott beszdfelismer egyik fontos alkoteleme a beszdhangokat ler akusztikai-fonetikai modell, msik fontos eleme pedig a nyelvi modell, amelyeket a jl ismert formula alapjn Bayes ttelt is felhasznlva a kvetkezkppen rhatunk:

    )()|()()()|()|( WPWXP

    XPWPWXPXWP = , (3.1)

    ahol X jelli az akusztikai beszdjelbl szrmaztatott megfigyelsvektorok sorozatt, W pedig a keresett szszekvencia. Mindekzben azt is felttelezzk, hogy a beszd s gy a megfigyelsvektorok egy diszkrt beszdhang szekvencit fednek, annak felszni megnyilvnulsai, gy az akusztikai modell-re

    =M

    WMPWMXPWXP )|(),|()|( (3.2)

    ahol M tulajdonkppen a rejtett llapotok sorozatnak felel meg, szegmentlis tartomnyban. A statisztikai n-gram nyelvi modell esetn a nyelvi modellt a

    =

    +=

    l

    iniiil wwwPwwwPWP

    11121 ),...,|(),...,,()( (3.3)

    kzelts hasznlatval kapjuk, ergodicitst is felttelezve. Ez a nyelvi modell teht a nyelv szintaktikai viszonyait10 rja le, a napjainkban ismert eljrsok alapjn korntsem teljes szintaktikai szint modellezst megvalstva. A szegmentlis tartomnyban rtelmezett akusztikai s fonetikai szinthez teht a nyelvi modell rvn szintaktikai szint informci addik hozz, emellett azonban nem veszik figyelembe a szintaktiknak az akusztikai szinten, de szupraszegmentlis tartomnyban megjelen elemeit, ezltal egy

    10 Az n-gram nyelvi modellt nyugodtan nevezhetnnk statisztikai alap szszerkezeti szintaxismodellnek is.

  • 17

    jelents informciforrsrl fosztva meg a beszdfeldolgozsi folyamatot. A jelensget a szemantikai szinten vizsglva tovbbi vesztesg jelentkezik, ugyanis szemantikai tartalmat a szegmentlis tartomny kzvetlenl gyakorlatilag nem tkrz, ezzel szemben a szupraszegmentlis igen! Meggyzdsem, hogy a szupraszegmentlis tartomny integrlsa a gpi beszdfelismers folyamatba nagymrtkben hozzjrulhat egyrszt a beszdfelismers teljestmnynek javtshoz, msrszt a beszdfelismers egy teljesebb szintaktikai s szemantikai szint megvalsts irnyba trtn kiterjesztshez, az akusztikai szinten tekintett beszdjelbl ms mdon ki nem nyerhet informci dekdolsa rvn. E ponton szabadon idznm Hunyadi Lszl egy gondolatt [13], miszerint a prozdia s szemantika kapcsolatnak vizsglata kapcsn azt az lltst fogalmazza meg, hogy a nyelvben a szemantikai tartalmat tkrz Logikai Forma s a [akusztikai-fonetikai szint] fonetikai reprezentcit hordoz Fonetikus Forma kztti kapcsolatban a prozdia kzponti szerepet jtszik, a kettt mintegy egymshoz rendelve.

    A 3. fejezet tovbbi rszben azt tekintjk t, konkrtan milyen problmk megoldst vrhatjuk a szupraszegmentlis tartomny (prozdiai) akusztikai feldolgozs, majd a szegmentlis tartomny analgijra a szupraszegmentlis tartomny fonetikai, szintaktikai, illetve szemantikai feldolgozs s modellezs megvalstsval. Mivel a terletet a beszdfelismers kapcsn tudtommal igen kevesen vizsgltk, lehetsgnk nylik a szakirodalombl nhny konkrt megvalstsi tletet is rviden ttekinteni, a 3. fejezet befejez rszt ezrt ennek szenteljk. Ennek kapcsn ttekintjk a szupraszegmentlis tartomny modellezs elvi lehetsgeit is.

    3.2 Elvi megfontolsok a szupraszegmentlis jellemzk felhasznlsa kapcsn

    A beszdfelismersben a prozdia felhasznlsakor clszer lehet elklntennk, hogy a szupraszegmentlis szerkezet elsdlegesen informcihordoz szerep-e, avagy inkbb msodlagosan, azaz redundns jelleggel hordoz a beszdbl egybknt msknt is kinyerhet informcit. Nyilvnval, hogy az elsdlegesen hordozott informci esetn a prozdia figyelembe vtele nlkl valsznleg nem lesznk kpesek ennek az informcinak a kzlsbl val kiemelsre, mg a msodik esetben elvileg a szupraszegmentlis szint feldolgozs elmaradsa esetn sem vesztnk informcit. Azonban ebben az esetben is rdemes lehet a prozdival foglalkoznunk, hiszen a redundancia rvn lehetsgnk nylik tbb lbon ll, azaz robusztusabb rendszert sszelltani, vagy az is meglehet, hogy a prozdia alkalmazsval adott esetben gyorsabban jutunk eredmnyre, arrl nem is beszlve, hogy szmos esetben az informci prozdit nlklz megkzeltsben trtn kinyerse korntsem tekinthet megoldott problmnak (lsd a szveg alap szintaktikai s/vagy szemantikai szint nyelvi elemzs).

    3.3 Mondat-, frzis- s szhatr-detekci

    Az egyik els pont, amelyen keresztl a prozdit a folyamatos beszdfelismersben is megprbltk hasznostani, a folyamatos beszdfolyam szegmentlsa kisebb, pldul mondat, frzis vagy sz egysgekre (lsd pl. [33], [34]). A kutatst az is motivlhatta,

  • 18

    hogy pldul viszonylag pontos szhatr-detektlssal a folyamatos beszdfelismerst az egyszerbb s fleg gyorsabb, izollt vagy kapcsolt szavas felismerkben alkalmazott algoritmusokkal is meg lehetne oldani [34]. Ennl fontosabb azonban, hogy ltalban a folyamatos felismerk dekdolsi fzisban nagyon hasznosnak bizonyulhat a mondatok, a prozdiai frzisok vagy a szavak hatrainak ismerete, ezltal ugyanis lehetsg van a keressi tr (lnyegben a Viterbi dekdols sorn felptett trellis vagy hipotzis grf) szmottev egyszerstsre, az ezzel megtakartott mveletigny pedig vagy a mkdst gyorstja, vagy pldul a sztr, illetve a nyelvi modell bvtst teszi lehetv.

    Nem trivilis az sem, hogyan szakaszoljuk a dekdolsi algoritmust, hiszen sejthet, hogy egyszerbb a dolgunk akkor, ha mondatonknt is vgeztethetjk a felismerst, mr csak azrt is, mert az n-gram nyelvi modell a mondathatrokon nem felttlenl ad olyan j becslseket, mint a mondatok belsejben elhelyezked szlncokra [8]. Ha pldul a nyelvben a mondaton bell a szavak korrelltsga nagyobb, mint mondathatrokon tvelen, utbbi helyeken a nyelvi modell torztani fog. Hasznos a mondathatrok ismerete akkor is, ha a nyelvi modellben a mondathatrokat is szerepeltetni szeretnnk.

    Mindezek fnyben teht a frzis- s mondathatr-detekci legtrivilisabb alkalmazsi mdja, hogy a felismers lnyegi megkezdse eltt a detektlt hatrokon mintegy sztvgjuk a beszdfolyamot, s kln-kln vgezzk rjuk a dekdolst. Ez a megkzelts azonban tbbnyire nem bizonyul hatkonynak [14], s rendkvl rzkeny a hatrdetektlsi hibkra. Ezrt ma mr elterjedtebben hasznljk a ktmenetes beszdfelismersi technikt a prozdiai jellemzk gy akr a szhatrok jelentette informci megragadsra. Ekkor hagyomnyos, szegmentlis tartomny beszdfelismers zajlik, ezzel prhuzamosan s egyelre tbbnyire ettl fggetlenl szupraszegmentlis tartomny feldolgozs s prozdiai osztlyozs, illetve erre visszavezetett beszdfolyam-szegmentls trtnik. A hagyomnyos felismerst nem futtatjuk vgig teljesen, hanem a hipotzis grf elkszltvel flbeszaktjuk. Ekkor kombinljuk a szegmentlis tartomny informcit a szupraszegmentlissal, s a hipotzis grf slyozst mr gy ksztjk, illetve mdostjuk. A msodik felismersi menetre marad a slyozott grfbl a legnagyobb pontszm t (utak) megkeresse, azaz a felismers befejezse. Szmos kutats igazolta, hogy ilyen alkalmazsokban a szhatrok ismerete a beszdfelismers hibaarnyt cskkenti [12], [27], [53]11.

    A szhatrok ismerete valamikppen az emberi beszdpercepciban is szerepet jtszik, Tth Lszl [50] vgzett tanulsgos ksrleteket annak tisztzsra, hogy hogyan teljest az emberi percepci, ha olyan feladatokkal kell megbirkznia, mint a gpi beszdfelismerknek. Az idzett ksrletben a beszdfelismer akusztikai modelljnek feladatt (beszdhang-felismerst) kellett a ksrleti alanyoknak vgrehajtaniuk olyan beszdet hallgatva, amely a nyelvre jellemz beszdhang-eloszlsnak megfelelt, de csupa rtelmetlen szbl llt. Az eredmnyek azt mutattk, hogy az rtelmetlen beszdet hallgatva mg igen gyenge beszdhang-felismersi teljestmny mellett is meglepen magas volt a szhatrok felismersi arnya, jllehet a beszl termszetesen nem tartott sznetet azok rzkeltetsre.

    Napjainkban az automatikus mondathatr-detektls renesznszt li, hiszen Broadcast News adatbzisokban j kiindulsi alapja lehet a tma szerinti osztlyozsnak [46],

    11 A szerzk [53]-ban nem a felismersi hibaarnyt, hanem azt vizsgltk, hogy a 10 legnagyobb pontszm

    ton a helyes hipotzis tlagosan hnyadik helyre volt rangsorolva.

  • 19

    prbeszdekben, tbbszerepls beszlgetsben a beszlvltsok detektlsnak [26], kpezheti a szemantikai feldolgozs alapjt [57], stb.

    3.4 Mondattagols s modalits

    A szupraszegmentlis szerkezet szmos esetben elsdlegesen hordozhat informcit a modalits s az aktulis mondattagols12 tekintetben. Az ezt kihasznl alkalmazsok jellemzen szintn hatrdetekcin alapulnak ([7, 8]), de fokozottan figyelembe veszik a szintaktikai s szemantikai sszefggseket is ezek nagy rszt egybknt ppen a szhatr-detekci kapcsn kezdtk/tk el vizsglni. Persze a mondat modalitsa azaz a mondat tpusa , illetve a helyes, az aktulis kzlsnek megfelel mondattagols szmos esetben kikvetkeztethet alapvet szintaktikai vagy szemantikai szint megfontolsok alapjn, ilyenkor a prozdia redundns jelleggel megersti ezt az informcit.

    3.4.1 Modalits s tagmondatokra bonts A mondat modalitsa alatt a mondat tpust rtem, amelyet elssorban az intonci hatroz meg. Modalitsa szerint a mondat lehet kijelent, krd, felszlt, felkilt vagy hajt.

    A hagyomnyos beszdfelismersben a mondat modalitsnak automatikus felismerse gyakorlatilag nem lehetsges13, illetve csak toldozott-foldozott trkkzssel oldhat meg korltozott szinten, pldul az rsjelek nyelvi modellbe val felvtelvel s a hozzjuk tartoz fiktv sztrelem definilsval. Ha a modalitst mgis meg szeretnnk hatrozni, prblkozhatunk a termszetes nyelvfeldolgozsban hasznlatos szintaktikai vagy szemantikai eszkzkkel, elemzkkel. Pldul krd mondatok esetn szintaktikai szint rulkod jel lehet a krdsz jelenlte, vagy egyes nyelvekben az alany-lltmny inverzi, az igekt elvlsa, stb. E mdszer egyik nagy htultje, hogy a felismer szvegkimenetn dolgozik, gy felmerl az esetleges felismersi hibk tovbbterjedse a modalitst meghatroz modulba is. Emellett knnyen elkpzelhet olyan eset is, hogy a prozdin kvl semmilyen ms elem nem jelzi a modalitst. Tekintsk pldul az albbi, dialgusbl kiragadott pldt:

    Ngy rakor tallkozunk

    rsban a megfelel rsjelbl eldnthetjk, hogy a beszl lltsknt vagy krdsknt, esetleg felkiltsknt fogalmazta-e meg a fenti mondatot, ha azonban csak az elhangz kzlemnyt ismerjk, egyedl a szupraszegmentlis szerkezet a mondat intoncija alapjn tudjuk egyrtelmen eldnteni a modalitst. Klnsen fontos a krds s llts elklntse, hiszen a krdsre a dialgusban rendszerint vlaszolnunk kell (pldul megerstssel), mg az llts inkbb tudomsul veend tnyt kzl. Kln kiemeli a problma fontossgt, hogy pldul informcis lekrdezskor azaz a beszdfelismerk egyik hagyomnyos mkdsi terletn tipikusan krdsek s megerstsek

    12 Az aktulis mondattagols lnyegben azt adja meg, mely szavak, szszerkezetek tartoznak egybe, illetve

    ezek egymssal milyen viszonyban llnak, azaz tulajdonkppen szempontunkbl a klasszikus mondatelemzsnek felel meg.

    13 Eltekintve termszetesen attl a trivilis, de korntsem felhasznlbart megoldstl, hogy a mondat

    vgn kln jelezni kell e kiteend rsjelet.

  • 20

    vltakoznak a beszlgets sorn.

    Hasonlan fontos szerepet jtszhat egyes esetekben a prozdia a kzlemny tagolsa szempontjbl, hiszen elkpzelhet, hogy az aktulis mondattagols fggvnyben a jelents is gykeresen megvltozik, mint pldul az albbi mondatban:

    Jnos mondta Pter ksik

    rsban vesszvel, mg a beszdben a megfelel intoncival s sznettel jelezzk a fenti mondat megfelel tagolst, ennek ismeretben tudunk dnteni arrl, hogy a beszl azt akarja-e kzlni, Jnos mondta Pter ksik, azaz Pter azt mondta, hogy Jnos ksik, avagy Jnos mondta, Pter ksik, azaz Jnos mondta, hogy Pter ksik. A fenti problematikt tkrzi az a kirlynt meglni nem kell flnetek j lesz ha mindnyjan beleegyeztek n nem ellenzem kzlemny tagolsnak fggvnyben ltrejv kt egymssal homlokegyenest ellenttes jelents (lsd [10]), igaz ez az eset beszdfelismersi feladatban kevss realisztikus pldnak tekinthet, gy a kt lehetsges jelentsvltozat bemutatstl el is tekintnk.

    3.4.2 A szintaktikai elemzs elsegtse Az elz pontban elmondottakhoz fontos azonnal megjegyeznnk, hogy a szupraszegmentlis szerkezet sokszor finomabb tagolst is tkrz, mint amit rsban jellnnk [27], ezt az lltst sajt tapasztalataim is altmasztjk. Az aktulis mondattagols teht semmikppen nem jelenti csupn a vesszk vagy a mondatvgi rsjel(ek) helyes kittelt, hanem a szintaktikai viszonyokat jval rnyaltabban tkrzi. Emiatt a prozdia a mondattagolsnl kisebb lptket tekintve is hasznos lehet a szintaktikai elemzsben, hiszen a szintaktikai egysgek behatrolsa rvn jelentsen megknnytheti a rszletesebb szintaktikai elemzst, amelynek komplexitsa cskkenhet, sebessge s megbzhatsga (egyrtelmsge) jelentsen nvekedhet, illetve alkalmazhatsgi kre jelentsen bvlhet a prozdiai informci sikeres kiaknzsval. Emlkezznk r, hogy a Levelt-fle prozdia produkcis modellben a felszni szerkezetnek kitntetett szerepe van aligha vletlenl.

    Msrszrl, a mai gpi feldolgozs s gpi tuds egyelre nem annyira kifinomult, mint az emberi, ezrt sokszor az ember szmra a nyelvileg egyrtelmen rtelmezhet kzlst gpi szinten egyrtelmsteni szksges, ezrt clszer minl tbb tudsforrst bepteni a beszdrt rendszerekbe [27], kihasznlva a mr emltett nyelvi redundancit. A krdskrrel rszletesebben foglalkozunk a 4. fejezetben, ahol egyik tzisem ppen a szupraszegmentlis tartomnyban feldolgozott akusztikai jellemzk s a mondat szintaktikai tagolsnak sszefggseire vonatkozik majd. A 3.3 pontban bemutatott szhatr-detekci tekinthet a szintaktikai elemzs egyszer esetnek.

    3.5 A szemantikai rtelmezs tmogatsa A szemantikai s pragmatikai szint mondat- s szvegelemzsben a prozdia szintn kiemelt szerep lehet. Ha a mondat topik-prediktum szerkezett (a topik-komment, illetve a tma-rma szerkezet gyakorlatilag ugyanezt fedi)14 tekintjk, akkor ltalnosan

    14 Rszletesen lsd pl. [23], [24]

  • 21

    elmondhat, hogy a topik a mr ismert informcit tartalmazza, amelyhez a prediktum rsz valamilyen j informcit ad hozz (v. [27]). gy is fogalmazhatunk, hogy a topik a mondat logikai alanya, a prediktum pedig a logikai lltmnya [6]. A prediktum meghatrozsa szerint az els hangslyos sszetevvel kezdd mondatrsz, gy a prozdia segtsgvel knnyen azonosthat. A prediktumon bell az ige eltti pozci, a mondat n. fkusza specilisan megklnbztetett, tartalmilag, s ennek megfelelen hangslyozsban is a mondat slypontja.

    A fkuszpozci nem minden esetben van betltve, ebben az esetben a hangsly az igre esik (ezt igei nyomatk mondatnak is nevezik). Ha azonban betlttt, a hangslyt elveszi az igtl (s pldul a magyarban ekkor az igekts igk igektje is elvlik s az ige mg kerl).

    A fkuszon kvl a kvantorok15 is specilis helyzetben szerepelhetnek a prediktumban, ugyanis ha szerepelnek a mondatban, a fkusz el kerlnek. Ez a kvantorpozci. Kvantorbl akr tbb is lehet a mondatban, ekkor a kvantoros igei kifejezsek a prediktumot mintegy rtegekre, skokra bontjk, s minden ilyen rteg els f sszetevjre hangsly esik [6].

    Az elmondottakat nhny pldn is megvilgthatjuk (flkvr karakterekkel kiemelve mindig a prediktum szerepel, a kiemeletlen rsz a topik):

    (a) Ma reggel Pter lement a boltba. (b) Ma reggel Pter ment le a boltba.

    Az (a) mondat egyszer igei nyomatk mondat, mg a (b) pldamondatban a Pter sz fkuszpozciba kerl, szerepe a kimert azonosts [6], azaz annak kiemelse, hogy Pter s nem valaki ms ment le a boltba. Hasonlan, a fkusz az adott mondatban t is helyezdhet attl fggen, hogy a beszl milyen informcit szndkozik kiemelni: a (c) mondatban a hangsly a boltba szn van, (azaz a boltba s nem mshova ment le Pter jelentst kiemelve); a (d) mondatban a hangsly az idhatrozra kerl.

    (c) Ma reggel Pter a boltba ment le. (d) Pter ma reggel ment le a boltba.

    Az (e) mondatban a minden kvantor s a hatkrbe es reggel sz llnak kvantorpozciban, a fkuszpozci betltetlen, mg az (f) mondatban a kvantor utn a fkuszpozci is betlttt. Az (e) s (f) mondatokban a kvantorpozcit alhzssal jelltk.

    (e) Pter minden reggel lement a boltba. (f) Pter minden reggel a boltba ment le.

    Termszetesen nem clunk s nem is tisztnk rszletesebben elmlyedni a mondattanban, a fentieket mgis fontosnak tartottuk kiemelni annak rdekben, hogy a prozdia jelentsgt szemantikai szinten is rzkeltethessk.

    15 A kvantor egyfajta hatrozatlan determinns, amely a hatkrbe (pl. utna) kerl fnvhez mennyisgi

    jelleg attribtumot ad.

  • 22

    3.6 Szupraszegmentlis jellemzk felhasznlsa a fonmafelismersben

    A szupraszegmentlis jellemzket ebben a megkzeltsben lnyegben a szegmentlis tartomnyban hasznljuk fel, hiszen a fonmafelismers egyrtelmen szegmentlis feladat. Az ellentmondst rszben feloldja, ha megjegyezzk, hogy ebben az esetben arra gondolunk, hogy egyes szupraszegmentlis jellemzk szegmentlis tartomnyban is detektlhatak, pldul egy megnylt vg kzls (lassul beszdtemp) esetn rendszerint az egyes beszdhangok klnsen a magnhangzk tbb sztagra kiterjed idtartambeli nylsa szegmentlisan is szlelhet.

    Waibel a prozdia beszdfelismersbeli felhasznlsi lehetsgeit ttekint munkjban [56] emlt nhny amerikai angol nyelvre vgzett fonetikai kutatst, amelynek alapjn felttelezheten van nmi szerepe a prozdinak a szegmentlis tartomnyban is, a tovbbiakban azonban nem foglalkozik vele. A sznetek kapcsn korbban ismertetettek kapcsn is felmerlhet, hogy egyes sznethordozk nha nagyon is szegmentlis jellegnek tekinthetk (v. 1.3.6). Kompe sszefoglal munkjban [27] szintn csak emltst tesz errl a lehetsgrl s megjegyzi, hogy angol nyelvre egyes szavak hangsly alapjn trtn elklntshez hasznos lehet a prozdia szegmentlis tartomnybeli felhasznlsa. Szmos fonetikai kutats (pl.: [29]) vizsglja a terletet, beszdfelismers szempontjbl rszletesen foglalkoznak a problmval Chen s tsai. [22], akik prozdiafgg allofn akusztikai-fonetikai beszdhang modellezsi eljrst javasolnak. Az allofn modellek elssorban a klnbz fonma idtartamok, illetve esetleg a hangslyozs kvetkeztben tisztbb artikulci finomabb modellezse rvn lehetnek hatsosak, ez utbbi esetben teht a kepsztrlis jellemzk is vltozhatnak, ennek modellezsbeli lekezelse azonban korntsem egyszer feladat (v. [39]). Br Chen s tsai. s Ostendorf [39] ksrleteikben rtek el eredmnyeket, ezzel egytt elmondhat, hogy a prozdiai jellemzk beszdhang-modellezsben val felhasznlsa mg krdses terlet a beszdfelismersben.

    3.7 Irodalmi ttekints konkrt alkalmazsok

    Ebben a pontban az eddig elmondottakat szeretnm jobban megvilgtani nhny konkrt szakirodalmi plda alapjn.

    3.7.1 Prozdiai modellezs lehetsgei Ostendorf s munkatrsai ttrkknt vizsgltk a prozdia felhasznlsi lehetsgeit a beszdfelismersben amerikai angol nyelvre [39], [53]. Megkzeltsk a prozdira gyakorlatilag megegyezik a beszdfelismers hagyomnyos paradigmjval: a felismersi feladatot kzbens fonolgiai szint beiktatsval fogalmazzk meg, ezttal szupraszegmentlis jellemzkre [53]:

    =sM

    ssss HMPMXPHXP )|()|()|( (3.4) Krds teht, hogy egy-egy rgztett felismersi hipotzis (H) mellett mennyire valszn a megfigyelt Xs, ezttal szupraszegmentlis tartomnyban tekintett akusztikai realizci.

  • 23

    Ha felttelezzk, hogy a meghatrozott akusztikai realizcik egy-egy jl krlhatrolt prozdiai esemnyhez tartoznak, akkor ebbl kpezhetnk egy prozdiai esemnysorozatot, az ennek megfeleltetett rejtett llapotsorozat Ms, mely ezttal szupraszegmentlis esemnyekre rtelmezend. A (3.4) sszefggst (3.2)-vel sszevetve jl lthat, hogy a fonma alap beszdfelismershez hasonlan arra visszavezetve ismt kt modellre van szksg: (3.4) jobb oldalnak els tagja megadja, hogy adott prozdiai esemnysorozatra egy-egy akusztikai realizci mennyire valszn, mg a msodik azt, hogy az adott felismersi hipotzis esetn (rtsd pl. egy adott hipotetikus szlncot tekintve) az Ms prozdiai esemnysorozat mennyire valszn. Mskppen fogalmazva a P(Xs|Ms) modell funkcijt tekintve megadja, hogy az egyes szupraszegmentumok melyek itt a hangslyra s sznetekre korltozdnak milyen mrhet akusztikai jellemzkkel rhatak le, azaz tulajdonkppen azt definilja, mit jelent az egyes jellemzk akusztikai szint vltozsa a nyelvben. A msodik modell, a P(Ms|H) adja a prozdia-szintaxis megfeleltetst, hiszen egy-egy hipotetikus szlnc (parse) adott szintaktikai struktrval rendelkezik. Az ehhez a szintaktikai struktrhoz val prozdiai illeszkeds (ez tekinthet szupraszegmentlis jegyek megalapozottsgnak, adekvtsgnak is) mrszma a szmtott valsznsg. Lthat teht, hogy lnyegben a P(Xs|Ms) modell a beszdfelismersbeli akusztikai-fonetikai, a P(Ms|H) a nyelvi modellel azonos szerep. Az Ms esemnysorozat maga lehet pl. a sztagok egymsutnjnak hangslyos volta, sznetek meglte vagy elmaradsa, ill. tpusa (v. [53] s 2.4 szakasz), stb.

    A prozdia egy lehetsges felhasznlsa a beszdfelismersben teht, ha a kzls szupraszegmentlis szerkezett egy referencival vetik ssze, amelyet a szintaktikai struktra ismeretben generlnak le. Ehhez termszetesen szksg van a felismersi hipotzisekre. Az aktulis s a referenciaminta korrelcija alapjn (hasonlsgnak mrsvel) a szmtott hasonlsgi mrtk vagy pontszm (score) rvn a felismersi hipotzisek (jra)slyozhatak, gy az akusztikai-fonetikai slyok, illetve a nyelvi modell ltal adott szintaktikai slyok utlag kombinlhatk a prozdiai pontszmokkal mint slyokkal. Ez a mdszer a felismerst kiss lasstja, hiszen a szupraszegmentlis referenciastruktra generlshoz mr a Viterbi algoritmussal slyozott hipotzis grfnak el kell llnia.

    A szupraszegmentlis informci feldolgozst mlyebben is a beszdfelismerbe integrlva a szupraszegmentlis tartomny feldolgozst a hagyomnyos beszdfelismers egyes fzisaihoz szorosabban is hozzkapcsolhatjuk [53]: ekkor a zmmel sznkpelemzsen alapul elfeldolgozs kiegszl a szupraszegmentlis jellemzk kvetsvel s elfeldolgozsval, a nyelvi modell pedig prozdiai informcit is tartalmaz. Azaz a hagyomnyos beszdfelismerssel szemben, melynek sorn a legvalsznbb szszekvencit keressk az adott akusztikai (szegmentlis) jellemzk ismeretben, most a szszekvencit s az elvlaszthatatlanul hozzkapcsolt, teht mr egyrtelm szintaktikai elemzst egytt keressk a szegmentlis s szupraszegmentlis tartomnyban feldolgozott akusztikai forma ismeretben.

    Veilleux s Ostendorf [53]-ben bemutatott, s fentiekben vzlatosan ttekintett mvben a szerzk a prozdiai jellemzk beszdfelismersbeli felhasznlst vizsgljk, mgis a szegmentlis tartomny fel cssznak. Ez jl kivehet abbl, hogy az elz bekezdsben bemutatott mlyebben integrlt rendszer tulajdonkppen nem ms, mint egy olyan fonma alap beszdfelismer, amelybe szegmentlisan reprezentlhat

  • 24

    szupraszegmentlis jellemzket csempsznek. Ezt megtehetik, mivel a hangslyt s a szneteket vizsgljk, ezek ugyanis akusztikailag a szegmentlis tartomnyban szoksos lptkek mellett is azonosthatk. Vlemnyem szerint mdszerk igen hatsosan alkalmazhat az amerikai angol nyelvre, amelyben a szintaktikai viszonyok akusztikai jelzsben kiemelked jelentsg a szegmentlis szerkezet idbeli modulcija.

    3.7.2 A VerbMobil automatikus fordt- s tolmcsolrendszer A prozdia beszdfelismersben val felhasznlhatsgt vizsgl, ismereteink szerint eddigi legtfogbb kutats a VerbMobil projekt [8, 11, 27, 28, 58] keretben zajlott 2000-ig. A Verbmobil projekt maga gpi fordts s vals idej tolmcsols megteremtst clozta, ehhez a tervezett rendszer beszdfelismer komponenst is tartalmazott, ennek kapcsn vgeztek ksrleteket a szupraszegmentlis jellemzk beszdfelismersbe val integrlsra.

    Egyik kiindulsi alaptletk [8], hogy a frzishatrokat a szavakhoz hasonlan szerepeltetik a nyelvi modellben. Ennek altmasztsra [8]-ben a szerzk hangslyozzk, hogy mondathatrokon a nyelvi modell nem ad megfelel becslst (alulbecsls jelentkezik). A frzishatrok detektlst szorosan a beszdfelismers folyamatba integrljk, ennek megfelelen gyakorlatilag egyes alapvet sznethordozkat a csndet, kitlttt sznetet s ms nem-verblis jelensgeket modelleznek HMM technikval. E mdszer korltai els olvasatra is szembetnek: ezek az alapvet sznethordozkat ler HMM modellek lnyegben szegmentlis tartomnyban mkdtek, s a beszdhang modellekkel analgnak tekinthet akusztikai-fonetikai csnd, hezitls, stb. modelleket valstottak meg, s nem is ismeretlenek a beszdfelismersben, hiszen a csendet, kitlttt sznetet minden beszdfelismer rendszerben kezelni kell. A mdszer jat abban a tekintetben hozott, hogy a frzishatrok megjelentek a nyelvi modellben is, logikailag egy-egy specilis szra lettek lekpezve, amelyeket rsjelekbl, illetve a nyelvi modell betantsra szolgl szvegkorpusz szintaktikai-szemantikai elemzse rvn knnyedn el lehetett helyezni automatikusan is. Ms krds, hogy e beszdszintzis kapcsn is alkalmazott eljrsok rvn ugyan prozdiailag megfelel minta generlhat az adott szvegre, korntsem biztos azonban, hogy az gy ksztett generatv modell analitikai alkalmazsban is megllja a helyt. (Ugyanez elmondhat egybknt a 3.7.1 pontban bemutatott eljrsrl.) Nmet nyelvre vgzett ilyen irny vizsglatok szerint az automatikus frziscmkzs 92%-os fedst mutatott lehallgatsi tesztek sorn a hallgati tletekkel [2]. Mindenesetre a prozdia egy szkebb szeletnek ezltal megfelel helyet sikerlt tallni a mr ltrehozott rendszermodelleken bell gy, hogy abba minden tovbbi jelentsebb mdosts nlkl is illeszkedik. St, mivel spontn beszdben gyakran nem csak szintaktikailag indokolt esetekben tart sznetet a beszl, hanem pldul a mentlis lexikonban trtn keress idejre a prozdiai frzis kzben is (ekkor jellemzen kitlttt sznetet tallunk), ezrt [8]-ben megklnbztettk azokat az eseteket, amikor a sznetjelensg szintaktikailag indokolt s amikor nem. Ennek megfelelen kt HMM modell kszlt egy adott akusztikai sznetjelensgre a szintaktikai megalapozottsgtl fggen. A szintaktikailag nem megalapozottnak (indokoltnak) osztlyozott szneteket a tovbbi feldolgozs sorn egyszeren figyelmen kvl hagytk.

    Az eljrs ltalnostsaknt a VerbMobilban ksrletet tesznek arra is [8], hogy egy keret erejig akkor is modellezzk a frzishatrt, ha az egybknt a sznetre, kitlttt sznetre,

  • 25

    stb. betantott HMM modellek rvn nem lenne lehetsges. Ez trtnik, ha pldul nem tallhat az ltaluk modellezett sznethordoz a frzishatron. (Vlemnyem szerint klnsen a spontn beszdben ez igen gyakori eset, jllehet [8]-ben erre vonatkoz adatokat nem talltam.) Egy keret felldozsval azonban lehetv vlik a tgabb rtelemben, valban szupraszegmentlis tartomnyban megvalsul frzishatr-detektls, ugyanis a ms ton, teht nem HMM modellel detektlt frzishatr ily mdon a felismersi folyamatban elll HMM lncolatba szrhat. Ehhez persze kln prozdiai modulra van szksg, amely a VerbMobilban szupraszegmentlis jellemzk (F0 s energia, illetve bellk szrmaztatott mennyisgek) felhasznlsval vgez frzishatr-detekcit MLP-vel megvalstott osztlyozs alapjn. Az MLP (Multi Layer Perceptron) osztlyoz minden keretre meghatrozza a frzishatr valsznsgt. A prozdiai modullal kibvtett beszdfelismer felptse (a hipotzis grf elkszltig) a 3.1 brn lthat.

    3.1 bra: Beszdfelismerbe illesztett prozdiai osztlyoz blokkvzlata ([8] nyomn)

    Az brn szaggatott vonallal jellt irny a szupraszegmentlis tartomny a szegmentlis tartomny feldolgozson alapul beszdfelismersi folyamatba val szerves integrlhatsgnak tipikus problematikjt jelzi: nyilvnvalan elnys lenne a szegmentlis s szupraszegmentlis tartomnyokat egysgesen s szimultn kezelni, s ezltal jl ttekinthet s optimlis rendszert megvalstani, hiszen a kutati kzssg is vlelmezi, hogy a kt tartomny az emberi percepciban sem vlik el lesen egymstl, kzttk a folyamatos informciramls biztostott. Ugyanakkor ha hozztesszk, hogy a szupraszegmentlis jellemzk rtelmezse sokszor felttelezi a szegmentlis tartomnyban nyert informci rendelkezsre llst (pldul a beszdtemp megtlshez ismernnk kell a beszdhang szint szegmentlst), mris hatalmas pofont adtunk az integrlt rendszernknek, hiszen ekkor a szegmentlis feldolgozsnak meg kell elznie, de legalbbis eltte kell jrnia a szupraszegmentlis tartomnynak. A gyakorlatban ppen ezrt tbb-kevsb azt a kompromisszumos megoldst vlasztjk ([8], [53], stb.), hogy kln valstjk meg a szupraszegmentlis tartomnyt feldolgoz prozdiai modult, de megprbljk azt a dekdols minl korbbi fzisban megvalsul informcicservel szorosan a rendszerbe fzni, ez azonban csak korltozottan jelent a sz valdi rtelmben vett integrltsgot.

    Megjegyezzk, hogy a 3.6 pontban bemutatott eljrsok szupraszegmentlis jelleg informci hasznlata a fonmafelismersben ppen a fordtott irny, szupraszegmentlistl a szegmentlis fel trtn informciramls megteremtst

    Szupraszegmen-tlis akusztikai elfeldolgozs

    Szegmentlis akusztikai

    elfeldolgozs

    MLP Frzishatr-

    detekci

    Szfelismers

    HMM

    Nyelvi modell

    Beszdjel

    Prozdiailag slyozott

    hipotzis grf

  • 26

    clozzk. Valsznnek tartom, hogy a jvben a tnyleges integrcit valamilyen e mindkt irnyt biztost rendszertl vrhatjuk, ez azonban tovbbi kutatsokat s elrehaladst felttelez mind az emberi percepci, mind a gpi felismers terletn.

    3.7.3 Szhatr-detekci alapfrekvencia alapjn Iwano s trsai a japn nyelv specilis adottsgait kihasznlva a prozdiai sajtossgokat is felhasznltk a beszdfelismersben [12, 14]. Tonlis nyelvek esetn amgy is megkerlhetetlen az alapfrekvencia kezelse, ami csak szupraszegmentlisan oldhat meg, nem vletlen, hogy a knai vagy az Indiban beszlt bengli [31] nyelvekre is napvilgot lttak a prozdia dnten az alapfrekvencia beszdfelismersbeli alkalmazst firtat kutatsok. Visszatrve a japn nyelvre, jllehet az nem tonlis, mgis, az alapfrekvencia vltozsa a flsztag (pontosabban ennek japn megfelelje, a mora) szintjn igen gazdag, s hozztartozik a helyes kiejtshez. Iwano s mtsai prozdiai sznak nevezik azokat a gyakran valban szavaknak vagy szrszleteknek megfelel, nll alapfrekvencia-mintzattal jellemezhet egysgeket, amelyek a japn nyelvre jellemzek. Ezt gy is felfoghatjuk, hogy a japn szavaknak nll de nem jelentselklnt alapfrekvencia-mintzata van. Innen mr egyenes t vezet egy olyan beszdfelismer megvalstshoz, amely ezt az alapfrekvencia-mintzatot is figyelembe veszi. A rejtett Markov modelles beszdfelismer architektrn semmit nem kell vltoztatni, elegend, ha a kepsztrlisan reprezentlt, szegmentlis tartomny jellemzvektorok helyre a szupraszegmentlis tartomnyban feldolgozott, alapfrekvencibl szrmaztatott jellemzk kerlnek. Ezutn Markov modelleket tantanak az alapfrekvencia-mintzat alakfelismersre (sszesen mindssze 7-et), illetve bi-gram prozdiai nyelvi modellt adnak a Viterbi dekdols elvgzshez (v. (3.4) sszefggs). Felismerskor a szegmentlis s szupraszegmentlis tartomny modellek prhuzamosan futnak, majd a ktmenetes felismersnek megfelelen a felismers megszakad a pontszm-kombinci idejre, hogy azutn a kirtkelssel folytatdjon. Az gy megvalstott felismer sztagfelismersi arnya [12] szerint a prozdia nlkli esethez kpest 74,5%-rl 76,7%-ra nvekedett. Kr, hogy a ksrleteket csak 2 (!) beszlre vgeztk el, mert gy tnik, a japn nyelvre rdemes lenne tovbb foglalkozni a tmaterlettel.

    3.7.4 Lexikai alap mondathatr detekci Az SRI-ben a Switchboard s az LDC Broadcast News adatbzisn vizsgltk a mondathatrok detektlhatsgt (mondatszint szegmentlst) s a tma szerinti osztlyozst, illetve az eltr tmj szakaszok hatrainak detektlhatsgt [46]. Mindkt szegmentlsi feladatot elvgeztk mind prozdiai jellemzk felhasznlsval, mind egy n-gram nyelvi modellek kiterjesztsvel megvalstott lexikai osztlyoz alapjn.

    Mivel munkjukban a gpi beszdfelismer kimenett dolgoztk fel, a ksz felismersi eredmnnyel egy hipotetikus szhatr szekvencia is rendelkezskre llt, a prozdiai jellemzket csak ezen hatrok szk (mintegy 200 ms nagysg) krnyezetben vizsgltk. A szupraszegmentumokat ltrehoz fizikai paramterek kzl az energival (illetve amplitdval) egyltaln nem foglalkoztak, mrtk azonban a sznetek s beszdhangok hosszt a szhatrokon. Ezen kvl az alapfrekvencia szolgltatott mg bemen informcit. Az alapfrekvencia feldolgozst szakirodalmi sszehasonlts alapjn meglehetsen bonyolultan valstottk meg, az ltaluk stilizlt F0-kontr-nak

  • 27

    nevezett alapfrekvencia menet lnyegben az eredeti F0 grbe szrkkel simtott vltozatnak tekinthet. A zngtlen helyeken az alapfrekvencit nem interpolltk. Az alapfrekvencibl szrmaztatott msodlagos jellemzket ngy csoportba soroltk: indts (levegvtel utni F0 reset) s folytatds jelleg jellemzk, F0-tartomnybl s a loklis (zngs szegmensre rtelmezett) meredeksgbl szrmaztatott jellemzk.

    Az gy nyert rengeteg paramterbl automatikusan (leaving-one-out) vlasztottk ki azokat, amelyekkel tmren jellemezhetnek talltk a szupraszegmentlis jegyek alakulst a szhatrokon. Mint emltettk, a szhatrok osztlyozsa a reduklt prozdiai jellemzket felhasznl dntsi fkkal trtnt. A figyelembe vett prozdiai jellemzk kzl igaz feladatspecifikusan de leginkbb a sznetek hossza, a megelz sz vgn s a kvet sz elejn mrt F0 rtkek klnbsge, s tma szerinti szegmentlsnl az alapfrekvencia-tartomny bizonyultak diszkriminatvnak. A szhatrok osztlyozst tekintve a hibaarny a Switchboard korpuszon 10,9%-nak, a Broadcast News adatbzison 22,9%-nak addott. A szerzk nem kzlnek rszletesebb adatokat, gy nem derl ki, a hibk milyen arnyban addtak a nem mondathatr szhatrok mondathatrral trtn azonostsbl, illetve a mondathatrok fel nem ismersbl. Mivel a nem mondathatr szhatrok jval gyakoribbak, mint a mondathatrral egybeesk (6,2%), gy a fenti eredmnyek nehzkesen rtelmezhetk.

    A prozdiai (dntsi fs) modellek mellett a szerzk n-gram alap lexikai modelleket is hasznltak a mondathatrok azonostsra, amelyekben a mondat- s tmahatrok rejtett esemnyknt szerepeltek. A tisztn lexikai alap (teht lnyegben szintaktikai informcin alapul), 4-gram modellekkel szinte pontosan a prozdiaival egyez mondathatr detektlsi hibaarnyt sikerlt elrni. A prozdiai s a lexikai mdszer kombincija azonban nem cskkentette jelentsen ezt a hibaarnyt.

    A szerzk a mondatszint szegmentlshoz hasonlan a tma szerinti szegmentlst is vizsgltk, ennek rszleteire azonban e helytt nem trnk ki, hanem a [46] irodalomra utalunk.

  • 28

    4. Szhatrok automatikus detekcija

    A kvetkezkben bemutatand szhatr-detekci alaptlete, hogy ha egy nyelv kttt hangslyozs, akkor a szhatroknak a hangslyhoz kpesti pozcija viszonylag pontosan meghatrozhat a hangsly helynek ismeretben, ily mdon a szhatr-detekcit tulajdonkppen hangslydetekcira vezethetjk vissza. Az ezt megfogalmaz tzisem:

    Tzis I. [J1, C1] A kttt hangslyozs magyar nyelvben lehetsges a szhatrok detekcija a hangsly, illetve tttelesen a hangslyt meghatroz akusztikai-prozdiai jellemzk, az alapfrekvencia s az energia menete alapjn.

    Az I. tzis teht azt mondja ki, hogy a magyar nyelvben a hangsly az alapfrekvencia- s energiamenet alapjn detektlhat, illetve, hogy a hangsly detektlsa alapjn szhatr-detekci vgezhet. Korbban lttuk, hogy tbb ms nyelv mellett a magyar nyelv is kttt hangslyozs, amelyben a hangsly az extrm kivtelektl eltekintve az els sztagon realizldik. Termszetesen nem llthatjuk, hogy valamennyi szhatrt detektlni tudnnk a bemutatand mdszerrel, hiszen a kzlsben nem valamennyi sz hangslyos, s klnbsg lehet a hangslyozs mrtkben is. A tzis mindssze azt felttelezi, hogy ha valahol hangslyt tallunk, akkor az biztosan egy sz els sztagjt jelli ki a beszdben. A nyelvben a ktszavak, nvelk, stb. igen gyakran hangslytalanok, gy ezek azonostsra a hangsly alapjn kicsi az eslynk, a gyakran hangslyos pozciba kerl szavak esetn azonban segtsgnkre lehet a fent vzolt mdszer. Ne feledjk, hogy a beszd prozdiai szerkezete leggyakrabban pp az j informcit, ismeretet hordoz elem kiemelst szolglja, errl a prozdia szerepnek trgyalsa kapcsn mr ejtettnk szt. Nyilvnval, hogy a beszdfelismersi s beszdrtsi alkalmazsokban is elnys, ha ppen a nagyobb informcirtk elemek felismerst sikerl megbzhatbb, pontosabb tenni, gy a hangslydetekcit mint a beszdrtst nagymrtkben elmozdt feladatot tekinthetjk.

    4.1 A hangsly detektlsnak lehetsgei

    Az 1. fejezetben a szupraszegmentumok ttekintse kapcsn mr megismerkedtnk a hangsllyal s a sznetekkel. A hangsly kapcsn utaltunk r, hogy egy sztagon a hangslylmnyt az alapfrekvencia-emelkeds, a nagyobb intenzits s a megnylt hangzidtartam kln-kln vagy leggyakrabban kombinldva hozhatjk ltre. Arra is utaltunk, hogy e hrom tnyez kzl klnbz nyelvszeti szakemberek ms-ms tnyez szerept tartjk dominnsnak a hangslyozs szempontjbl. E szempontokon tl azonban azt is figyelembe kell vennnk, hogy a hangsllyal szoros kapcsolatban ll egyes akusztikai-prozdiai elemek mszakilag hogyan, illetve mennyire biztosan s mennyire tfogan szrmaztathatak.

    A hangslytpusok kzl elssorban a mondat- s szhangsly ll rdekldsnk kzppontjban, az ennl tfogbb nyelvi szervezdshez tartoz hangslyokkal nem foglalkozunk, mr csak azrt sem, mert utbbiak gyakran inkbb szintaktikai s szemantikai szint logikai viszonytsban szlelhetek, semmint a szupraszegmentlis

  • 29

    szerkezet tnyleges, akusztikai szinten is megjelen vltozsban.

    A hangslydetekci kapcsn a sznettel is foglalkoznunk kell, mivel a hangslyozssal ersen sszefgg. A sznetek kapcsn megismerkedtnk a sznethordozk fogalmval is, amelyek a sznet ltalnostsnak is tekinthetk. A sznethordozk kzl az egyes beszdhangok artikulcijval sszefggeket gy a hasonulsok esetleges elmaradst, a gondosabb artikulcit vagy