puheentuoton fonetiikan kertausta vfo 251, …puheentuoton fonetiikan kertausta vfo 251,...

Puheentuoton fonetiikan kertaustaVfo 251, Puhesynteesin perusteet

Martti Vainio

Fonetiikan laitos, Helsingin yliopisto

Puheentuoton fonetiikan kertausta – p.1/109

Äänet, resonanssi ja spektrit

Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.2/109

Puhe äänenä• Kaikki äänteet ovat luonteeltaan ns. seosääniä. Ts. ne ovat

komplekseja ja sisältävät useita taajuuksia.

• Seosäänet voidaan analysoida osiinsa.

• Ne koostuvat siniaalloista, jotka yhdessä tuottavat äänelle

sen luontaisen spektrin.

• Äänentuottojärjestelmän resonanssit antavat äänille niiden

tunnistettavat luonteen.

• Puheentuotossa ääniväylän tuottamat resonanssit ovat

puheen kannalta kaikkein olennaisimpi piirteitä.


Äänen tuotto ja eteneminen

• Ääni syntyy hiukkasten muuttaessa jonkin ulkoisen häiriön

(disturbance) vuoksi paikkaansa aineessa.

• Ulkoisen toiminnan tuottaman häiriö etenee aineessa sen

muodostamien hiukkasten edestakaisena liikkeenä.

• Puheessa ääni tuotetaan aiheuttamalla paikallinen häiriö

ilmahiukkasten liikkeeseen jossain kohtaa ääniväylää.

• Esim. vokaalien aikana nämä häiriöt ovat äänihuulten

välisen raon – glottiksen – umpeutumisesta ja

avautumisesta ulosvirtaavaan hengitysilmaan johtuvia

pulsseja.


Äänen nopeus vs. hengitysilma

• Äänen nopeus ilmassa on n. 330 m/s.

• Se etenee suhteellisen nopeasti verrattuna hengitysilman

virran nopeuteen; n. 0.3 m/s.

• Näin ollen ilmavirran itse aiheuttamat häiriöt – ns.

glottispulssit – etenevät ääniväylässä huomattavasti sitä

itseään nopeammin – n. 1200 km/h vs. n. 1,8 km/h.


Yksinkertainen harmoninen liike

Heilurin kaltainen liike

voidaan kuvata tasaisena liikkeenä ympyrässä.


Harmoninen liike ympyrässä• Yhdenmukainen (uniform) ympyräliike voidaan kuvata

kahden muuttujan avulla: täyteen kierrokseen vaadiittu aika

– periodi ja liikkuvan pisteen etäisyydellä ympyrän

keskipisteestä – – amplitudi.

• Ilmassa etenevän äänen suhteen nämä kaksi ovat

ilmahiukkasten yhden edestakaisen värähtelyn – periodin –

kesto ja niiden liikkeen koko.


Heilurin liike

Ajassa heilurin liike

muodostaa siniaallon.


Siniaalto

• Siniaallon jakso (periodi) on yhden täydellisen syklin

vaatima aika, joka useinmiten ilmaistaan taajuutena

(frekvenssi) ja edelleen hertzeinä (Hz) = periodia/sekunti.


Siniaalto (jatkoa)• Siniaallon liikemäärää kutsutaan siis sen amplitudiksi. Se

on yhtä kuin värähtelyn ekstensio lepotilasta.

• Puheen sisältämät taajuudet ovat 50 Hz:n ja 10 kHz:n

välillä. Ne siis käytännössä kattavat suurimman osan

kuultavista taajuuksista.


Siniaaltojen taajuudet


Vaimeneminen• Todelliset värähtelevät järjestelmät eivät koskaan ole

ideaaleja ja niiden tuottama värähtely on aina vaimenevaa.

• Esim. ilman sisäinen kitka aiheuttaa siinä etenevän aallon

amplitudin vaimenemista.

• Sinimäinen vaimentunut aalto ei siis ole puhdas siniaalto

koska sen amplitudi ei ole vakio.

• Vaimentuneet siniaallot voidaan kuitenkin analysoida

joukoksi eritaajuisiksi siniaalloiksi.


Resonanssi• Värähtelevä objekti tekee sen aina sille ominaisella

taajuudella – esim. heilurin ns. resonanssitaajuus

määräytyy sen fysikaalisten ominaisuuksien – pituuden ja

painon – mukaan.

• Toinen esimerkki on ilman värähtely pullossa – voimme

saada pullossa olevan ilmapatsaan värähtelemään esim.

aukaisemalla korkki äkkinäisesti tai puhaltamalla viistosti

pullon suulle.


Ilman värähtely pullossa


Värähtelyn taajuus• Edellisessä kuvassa kahteen aallon lepotilasta

edestakaiseen matkaan kului 2 millisekuntia tai 1/500 s.

Tämä on siis yhden periodin kesto. Sykli toistuu siis 500

kertaa sekunnissa ja on pullon matalin resonanssitaajuus.

• Edellisen kuvan pullon tuottaman värähtelyn taajuus on

riippuvainen pullon koosta – mitä korkeampi pullo, sen

matalampi ”poksahdus"pulloa avattaessa kuuluu.

• Voimme laskea pullon tuottaman äänen taajuuden äänen

nopeuden ja pullon korkeuden avulla.

• Taajuus:

f =c

λ


Värähtelytaajuuden määrittäminen• Toisesta päästä avoimen putken resonanssin määrittelevät

seuraavat rajoitteet: aallon hiukkasnopeuden pitää olla

suljetussa päässä minimissään ja avoimessa päässä

maksimissaan. Vastaavasti paineen täytyy olla avoimessa

päässä minimissään.

• Resonanssitaajuudet:

f =c ∗ (2n − 1)

4L

jossa n on mikä tahansa kokonaisluku ja L on putken pituus.


Resonanssitaajuudet

1/4 λ

3/4 λ

17.5 cm


Hiukkasnopeus vs. paine


Resonanssit puheessa• Puheessä esiintyvät resonanssit tuotetaan edellä kuvattujen

prosessien mukaisesti.

• Vokaaleja tuotettaessa ilmavirtaan glottiksessa tuotetut

”katkokset"etenevät farynksin kautta suuonteloon

paineaaltoina, jotka edelleen heijastuvat takaisin

ääniväylään suuaukolla (käänteisinä).

• Äänihuulet toimivat toisessa päässä heijastavana pintana.

• Tyypillisesti miesäänellä äänihuulipulssin väliin mahtuu

kymmenkunta edestakaista heijastusta – siis n. viisi

periodia.


Formantti• Puheessä ääniväylän resonansseja kutsutaan formanteiksi.

Miehillä, joiden ääniväylän keskimääräinen pituus on 17.5

cm, alin resonanssitaajuus – siis formantti – on n. 500 Hz.

• Ääniväylässä – kuten kaikissa putkissa – on myös muita,

taajuudeltaan korkeampia, resonansseja.

• Itse asiassa lähes kaikki äänteet eroavat toisistaan juuri

resonanssitaajuuksiensa ja näin ollen formanttiensa

suhteen.


Spektrianalyysi• Mikä tahansa aaltomuoto voidaan luoda summaamalla

keskenään joukko siniaaltoja, joilla on oikeanlaiset

taajuudet ja amplitudit.

• Näitä siniaaltoja, joista kompleksit äännökset koostuvat,

kutsutaan niiden komponenteiksi.

• Analysoidaksemme minkä tahansa kompleksin äänen,

etsimme jollain keinolla sellaisest komponentit, jotka

summattuina tuottavat analysoimme äänen – yleensä tähän

käytetään Fourier analyysiä.


Vaimentuva siniaalto

• 500 Hz:n siniaalto on täysin synkroninen vastaavan

vaimentuvan aallon kanssa.


Kompleksi ääni

• Kolme siniaaltoa voidaan summata yhdeksi vaimentuvaksi

aalloksi.


Spektrin osat


Toistuva vaimentuva aalto . . .

• 500 Hz:n vaimentuva aalto, jota toistetaan 100

millisekunnin välein.


. . . ja sen spektri

• Edellistä kuvaa vastaava spektri, joka koostuu 100 Hz:n

kerrannaisista siten, että voimakkain huippu vastaa

toistetun vaimentuvan aallon taajuutta (500 Hz).


Perustaajuus• Edellisen kuvan 100 Hz:n komponentti on sen ns.

perustaajuus (fundamental frequency).

• Spektriä, joka koostuu perustaajuutensa kerrannaisista,

kutsutaa harmoniseksi spektriksi. Vastaavasti

kerrannaistaajuuksia kutsutaan harmonisiksi osasäveliksi.

• Osasävelten voimakkuus/amplitudi näkyy spektrissä sen

korkeutena.

• Spektriä, joka koostuu osasävelistä, kutsutaan usein

viivaspektriksi (line spectrum), jonka vastakohta on jatkuva

spektri (continuous spectrum).


Esimerkki puheesta

Time (s)0 0.0287075

–0.4538

0.5618

0

• Aaltomuoto keskeltä pitkää [A]-vokaalia sanassa [lA:t�u].


Esimerkki puheesta

Frequency (Hz)0 2000

Soun

d pr

essu

re le

vel (

dB/

Hz)

0

20

40

• Esimerkki n. 100 millisekuntia pitkästä osasta [A] -

vokaalia. Perustaajuus on n. 105 Hz.


Pulsseista puheeksi• Glottispulsseista lähtöisin olevat äänteet ovat

kokonaisuudessaan resonanssivärähtelyistä koostuva

kombinaatio, joka säteilee suuaukosta.

• Jokainen resonanssivärähtely vaimentuu lähes kokonaan

ennen seuraavaa pulssia.

• Pulssit toistuvat kuitenkin niin usein ja tasaisin välein, että

havaitsemme vain jatkuvan soinnillisen äänteen –

useinmiten kyseessä on vokaali.


Glottispulssi ja aaltomuoto

• Glottaalinen hiukkasnopeus ja siitä johtuva aaltomuoto

soinnillisen äänteen alussa.


Aperiodiset äänteet• Puhe sisältää myös ei-periodisia ääniä

• Ne voivat syntyä kahdella tavalla:

1. Yhtäkkinen (transientti) paineen vapautuminen esim.

klusiilien sulkeumavaiheen jälkeen.

2. Ääniväylässä olevan kaupeuman aiheutta turbulenssi

ilmavirrassa.

• Näinen äännösten spektrit muodostuvat niiden lähteen

muodostasta spektristä sekä ääniväylän resonanssien

vaikutuksesta alkuperäiseen ääneen.


Puheentuotto


Ääntöelimistö


Ihmisen äänentuottomekanismi skemaattisesti


Artikulaatiopaikat ääniväylässä


Artikulaatiopaikat:

1. huulet (bi)labiaalinen

2. huulet + ylähampaat labiodentaalinen

3. hampaat dentaalinen

4. hampaiden takapinta post-dentaalinen

5. hammasvalli alveolaarinen

6. (kova) kitalaki palataalinen

7. kitapurje velaarinen

8. uvula uvulaarinenls

9. nielu faryngaalinen

10. kurkunpää faryngaalinen

11. kielen kärki apikaalinen

12. kielen lapa koronaalinen, laminaalinen

13. kielen selkä dorsaalinen

14. kielen tyvi radikaalinen

15. kielen alapinta sublaminaalinen


Suomen vokaalit

y•

æ•

œ•

A•

o•

u•

e•

i•


Suomen konsonantit

Paikka

TapaBilab. Labiodent. Alveol. Postalveol. Palat. Velaarinen

Klusiilit p,b t�,d k,g

Nasaalit m n N

Lateraalit l

Tremulantit r

Frikatiivit f s S h

Approksimantit V j


Puheentuoton lähde-suodin -malli


Glottaalinen äänilähde

• Vokaalit saavat alkunsa larynksissa, missä tuotetaan

kaikkien soinnillisten äänteiden perusta.

• Kurkunpään äänentuotto perustuu ns. ääniraon (glottis)

nopeasti toistuvaan avautumiseen ja sulkeutumiseen.

• Tätä glottiksen toimintaa kutsutaan fonaatioksi (phonation).


Fonaatio

• Fonaatio perustuu siis äänihuulten (vocal folds) liikkeisiin.

Äänihuulet ovat lihaksista, jänteistä ja kudoksesta

koostuvat ulokkeet ilmaväylän molemmin puolin.

• Äänihuulten primitiivinen, alkuperäinen tarkoitus lienee

ollut pitää vieraat esineet poissa keuhkoista, mutta niiden

puheeseen liittyvä funktio on niin tärkeä, että niitä on alettu

kutsua äänihuuliksi.


Kurkunpää (larynx)

• Äänihuulten asentoa muutetaan ns. arytenoidiruston

(arytenoid cartilage) välityksellä.


Glottispulssi• Fonaatiossa ääniraon toistuva sulkeutuminen ja

avautuminen muodostaa sen läpi kulkevaan ilmavirtaan

jonon pulsseja, jotka toistuvat jotakuinkin tasaisin välein.

• Pulssijonon spektraalinen muoto toimii pohjana kaikille

soinnillisille äänteille – etenkin vokaaleille. Näin ollen

glottaalisen äänilähteen spektri on kuultavissa kaikissa

soinnillisissa äänteissä.

• Glottispulssin spektraaliset ominaisuudet lähes täysin

riippuvaisia siitä, millä tavoin äänihuulet sitä tuotettaessa

värähtelevät.


Äänihuulten mekaaninen malli

• Värähtely säilyy äänihuulissa, koska niiden osat liikkuvat

toistensa suhteen yhtenä järjestelmänä, joka voidaan

mekaanisesti kuvata edellisen kuvan kaltaisesti.


Äänihuulten toiminta fonaation aikana


Äänihuulten toiminta fonaation aikana

• Subglottaalinen paine pakottaa äänihuulet erilleen, jolloin

niiden välisen ilman paine laskee ja kääntää niiden liikkeen

suunnan sulkeutuvaksi. Ns. Bernoullin efekti aiheuttaa

niiden sulkeutumisen äkkinäisesti.

• Tämän jälkeen subglottaalinen paine ja kudosten elastiset

voimat aloittavat syklin uudelleen.


Glottispulssin muoto

• Glottispulssi muistuttaa muodoltaan ns. sahanteräaaltoa

(sawtooth wave).


Glottispulssin spektrin komponentit

• Glottispulssin spektrillä on kaksi erityisen tärkeää piirrettä:

1. Spektraalisten komponenttien – siis perussävelen ja sen

kerrannaistaajuuksien välimatka, joka on riippuvainen

pulssin toistumisen taajuudesta.

2. Komponenttien amplitudit taajuuksien suhteen, jotka

ovat riippuvaisia perättäisten glottispulssien muodosta.


Glottispulssin spektri

• Idealisoitu 100Hz:n taajuudella toistuvan glottispulssin

spektri.


Ääniväylän vaikutus fonaatioon

• Yleensä ääniväylän muoto ei vaikuta glottiksen toimintaan:

1. Väylässä etenevien tasoaaltojen suhteen sen

käyryydellä ei ole vaikutusta

2. Väylässä olevat sulkeumat (constriction) vaikuttavat

vain vähän pulssin muotoon.

• Glottispulssijono muistuttaa siis sahanteräaaltoa, joka

voidaan analysoida tasavälein toistuviksi

kerrannaistaajuuksiksi, joiden amplitudi laskee 12 dB

jokaisella oktaavilla.


Lähde-suodin -teoria

• Vokaalien ja voimakkaasti soinnillisten äänteiden suhteen

glottis siis tuottaa niille niiden äänellisen perustan –

voimme siis kuvitella, että glottiksen yläpuolinen ääniväylä

toimii jonkinlaisena suotimena tai torvena, joka voimistaa

lähteen tuottamista komponenteista niitä, jotka ovat lähellä

väylän resonanssitaajuuksia.

• Lähde-suodin -teorian (source-filter theory) avulla voimme

siis selvittää kuinka vokaalien spektrit muodostuvat

glottaalisen lähteen ja ääniväylän suodinfunktion

kombinaationa.


Lähde-suodin -teoria (kuva)

• Gunnar Fant: The Acoustic Theory of Speech Production,

1960.

• Teorian perustana on olettamus, että ääniväylä on täysin

riippumaton lähteestä.


Suotimen vaikutus lähteen spektriin


Lopullisen spektrin kaltevuus

• Muiden kuin neutraalin keskivokaalin – [@] – spektrin

kaltevuus riippuu väylän resonanssien välisistä

etäisyyksistä. Lähellä olevat resonanssit vahvistavat

toisiaan ja vastaavasti resonanssit vaikuttavat negatiivisesti

korkeammilla taajuuksilla oleviin resonansseihin.


Äänentuottotavan vaikutus spektriin

• Ääviväylän resonanssien vuorovaikutusten lisäksi

vokaalien spektrin yleiseen muotoon (spectral envelope)

vaikuttaa se miten glottispulssit tuotetaan.

• Toisin sanoen glottispulssin taajuuden lisäksi vokaalin

lopulliseen spektriin vaikuttaa se, minkä muotoinen pulssi

on. Muoto on taas riippuvainen pitkälti siitä, kuinka paljon

sen tuottamiseen käytetään fyysistä toimintaa (vocal effort).

• Voimakkaasti tuotettu pulssi sisältää enemmän energiaa

korkeilla taajuuksilla, jolloin spektri on vähemmän kalteva.


Vocal effort

• Äänilähteen spektrin kaltevuus heikosti ja voimakkaasti

tuotetuilla [A] -vokaaleilla.


Ääniväylän vaikutus vokaalien spektreihin


Ääniväylän mallit

• Akustisessa tutkimuksessa on huomattu, että

yksinkertaisella – putkiin perustuvalla – ääniväylämallilla

voidaan tuottaa luonnolliselta kuulostavia vokaaleita.

• Ääniväylää (pharyngeal-oral tract) voidaan mallintaa yhden

tai usean putken kombinaatiolla.

• Koska ääni kulkee väylässä ns. tasoaaltona, ei väylän

taipuvalla muodolla ole mainittavaa vaikutusta sen

suodinfunktioon.

• Väylän poikkipinta-alan pienet poikkeamat eivät myöskään

ole vaikutuksiltaan suuria.


Formantti

• Tässä vaiheessa on hyvä määritellä, mitä tarkoitamme usein

esiintyvällä termillä formantti.

• Teknisesti formantti on ääniväylän äänensiirtoon liittyvä

resonanssi, jonka vaikutukset näkyvät mm. äänteiden

spektreissä.

• On kuitenkin huomattava, että spektreissä ja

spektrogrammeissa esiintyvät energian kasaumat eivät ole

itse formantteja.

• Formantit ovat siis ääniväylään liittyviä akustisia piirteitä.


Formanttien järjestys

• Puheessa formantit numeroidaan taajuuksiensa mukaan

siten, että alin formantti on ensimmäinen (F1) ja sitä seuraa

ylemmät formantit (F2 jne.).

• Kolmen ensimmäisen formantin taajuudet ovat suoraan

riippuvaisia ääniväylän muodosta huulten, kielen ja leuan

sekä kurkunpään muodostaessa eri konsonantteja ja

vokaaleja.

• Ylemmät formantit pysyvät jotakuinkin vakiona puheen

aikana.


Ääniväylän vaikutus formantteihin

• Edellä olemme jo nähneet, että tärkein formanttien

taajuuksiin vaikuttava tekijä on ääniväylän pituus.

• Toinen formanttitaajuuksiin vaikuttava tekijä on

ääniväylään (yleensä) kielen avaulla tuotettava kapeuma,

jonka aste ja pituus vaikuttavat alempien formanttien

taajuuksiin ja amplitudeihin.


Kardinaalivokaalit


Etuvokaalit


Takavokaalit


Neljän putken ja kolmen parametrin malli

• Parametrit ovat kapeuman horisontaalinen etäisyys,

kapeuman pinta-ala ja huuliaukon pituus.


Parametrien vaikutus formanttitaajuuksiin


Neutraali keskivokaali

• .


[u]

• .


[i]

• .


[A]

• .


Puhesynteesi


Puhesynteesin historiaa

• Mekaaniset synteesit: 1700-luvulla asiaa harrastivat

Wolfgang von Kempelen ja Christian Kratzenstein.

• 1900-luvulla tulivat elektromekaaniset sekä elektroniset

synteesit ja vuosisadan loppupuolella digitaaliset

syntisaattorit.• Ks. http://www.acoustics.hut.fi/ slemmett/dippa/chap2.html


Historiaa: Kratzenstein


Historiaa: Kempelen


Historiaa: Kempelen


Puhesynteesin historiaa: 1930-luku

• 1936: Englannin puhelinyhtiön puhuva kello käytti optista

tallennusta – lausekkeet, sanat ja sanojen osat.

• 1939: Bell Laboratorion VODER (Homer Dudley) –

mekaaninen urkujen kaltainen laite jolla voitiin ’soittaa’

puhetta. (1)*

• Dudleyn VOCODER, jossa puhesignaali jaettiin

lähde-suodin mallin mukaisesti.

* = ääniesimerkin numero osoitteessa

http://www.festvox.org/history/klatt.html


Historiaa: VODER


Historiaa: pattern playback


Historiaa: 1940 ja 1950-luvut

• Terminaalianalogiaan perustuvat mallit – formanttisynteesi

• Gunnar Fantin OVE, 1953. (4)

• Georg Rosenin artikulatorinen DAVO-syntetisaattori (MIT,

1958). (11)


Historiaa: 1960-luku

• Ensimmäiset digitaaliset mallit ja sääntösynteesi – tekstistä

puheeksi

• Brittienglanti; Holmes, Mattingly ja Shearme, 1964.

(17)

• Cokerin sääntöpohjainen artikulatorinen malli, 1968.

(19)

• Mattinglyn ensimmäinen prosodinen synteesi, 1968.

(20)



• TTS (Text-To-Speech) tuotteet ja difonisynteesi

• Ensimmäinen täydellinen TTS-järjestelmä, Noriko

Umeda, Japani, 1968. (24)

• Lausetason fonologiset säännöt, Dennis Klatt, 1976.

(21)

• Lineaariprediktioon perustuvien difonien

konkatenaatio, Joseph Olive, 1977. (22)

• Votraxin Type-n-Talk, Richard Cagnon, 1978. (28)

• MIT:n MITalk, Jonathan Allen, Sheri Hunnicut ja

Dennis Klatt, 1979. (30)



• Konkatenaatio valtaa alaa – suuremmat järjestelmät:

• AT&T Bell Laboratories, TTS-järjestelmä, 1985. (34)

• DECtalk (35)

• DECtalk, 300 sanaa/minuutti. (36)



• Tuotteet, monikielisyys, ’unit selection’

• Yleinen ’unit selection’, CHATR, Japani, 1994.

• Monikielinen MBROLA, ’vapaa’ synteesi, Belgia,

1995.

• Mikropuhe, TIMEHOUSE, Suomi

• 2000-luku: ...

• Toisaalta kaupalliset järjestelmät perustuvat usein valmiiksi

äänitettyyn materiaaliin ja sanojen liimaamiseen (vertaa

1936!) koska lopputulos on parempi.


Puhesynteesin kolme peruslajia:

1. Analyysi-resynteesi

• LPC-synteesi

• GSM koodaus . . .

2. Tekstistä puheeksi (TTS = Text-to-Speech)

• Vammaissovellukset

• Puhelinpalvelut; sähköpostin luku . . .

3. Konseptista puheeksi (CSS = Concept-to-Speech Synthesis)

• Tietokantojen luku, listat, aikataulut

• Dialogijärjestelmät


Kolme perusparametriä:

1. Sanaston suuruus

• Rajattu sanasto – kuulutukset

• Rajaton sanasto – vapaa teksti

2. Synteesitapa

• Valmiin puheen leikkaa-liimaa menetelmät

• Pienten yksiköiden konkatenaatio

• Formanttisynteesi

3. Syötteen laatu

• Puhe

• Teksti

• Tietokanta


Kahdenlaista motivaatiota:

1. Sovellukset

• Vammaissovellukset

• TTS-järjestelmät

• Dialogijärjestelmät

2. Tieteellinen tutkimus

• Puheen havaitseminen – kontrolloidut ärsykkeet

• Puheen tuoton mallit

• Prosodian tutkimus


Kolme lähestymistapaa:

1. Konkatenaatio

• Sanat, lausekkeet, lauseet

• Sanaa pienemmät osat; tavut, puolitavut

• Difonit

• ”Mikrofoneemit"

2. Formanttisynteesi

• Puhe tuotetaan synteettisesti alusta pitäen

3. Artikulatorinen synteesi

• Fyysiset mallit – puhe on fysiikkaa


Konkatenaatio

• Oikeata puhetta leikkaa-ja-liimaa -periaatteella.

• Mitä leikataan: lausekkeita, sanoja, tavuja, puoli-tavuja,

äänteitä, difoneja.

• Miten: tarkasti leikatut yksiköt voidaan liimata päistään

yhteen, tasoitus (smoothing), PSOLA (pitch-syncronous

overlap and add) . . .

• Etuja: äärellinen määrä puhedataa riittää, prosessointi on

yksinkertaista, lopputuloksena korkeatasoinen ääni.


Difonikonkatenaatio: TD-PSOLA

• TD-PSOLA: alennettu perustaajuus


Formanttisynteesi

• Miten: Generoidaan periodista ja aperiodista ääntä ja niitä

yhdistelemällä tuotetaan puheenkaltainen ääni.

• Etuja: erittäin muokkautuvainen, voidää päästä lähes

täydelliseen lopputulokseen, suhteellisen helppo

implementoida, tieteellisesti kiinnostava.


Formanttisynteesi: kaavio

A1

impulsetrain

glottalfilter

LPfilter

randomnumbers

A2

A3

A4

A5

A6

R5

cascade

R4R3R2R1ZNRN

parallel

R1

R2

R3

R4

R5

R6

+ pre-empasis

syntheticspeechoutput

• Klatt syntetisaattori


Formanttisynteesi: rinnakkainen vai sarjassa• Sarjaan kytkettyjen resonaattorien etu on, että niille täytyy

kertoa vain formanttien taajuudet ja kaistanleveydet;

amplitudit hakeutuvat automaattisesti oikeiksi.

• Rinnakkaisesta synteesiä rasittaa lisäksi vaatimus

formanttien amplitudeista; rinnakkaismallilla voidaan

kuitenkin simuloida helpommin sellaisia konsonantteja

(etenkin frikatiiveja), joilla on antiformantteja. (Toisaalta

rinnakkaismallin resonanssien summaaminen implikoi sitä,

että resonaattorit ovat itsenäisempiä ja ovat siten

itsenäisesti kontrolloitavissa.)

• Sarjamalli perustuu suoremmin puheentuoton akustiseen

teoriaan, jonka mukaan ääntöväylän siirtofunktio on

esitettävissä suotimien tulona.Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.93/109

Formanttisynteesi: glottaalinen eksitaatio

• Periaatteessa pelkkä impulssijono riittää tuottamaan puheen

kaltaisen tuloksen syntetisaattorista. Luonnollisuus vaatii

kuitenkin lähteeltä enemmän. Esim. KLATT-synteesissä

lähteeseen liittyy useita parametrejä, joiden avulla voidaan

mallintaa muutoksia niin eri äänteiden kuin puhujienkin

välillä.

• Glottislähteen parametrejä ovat mm. sulkeuma- ja

avaumavaiheiden suhde (open quotient), aspiraatiohälyn

määrä, ns. jitter (perustaajuuden perturbaatio) ja lähteen

spektraalinen kaltevuus. Myös glottiksen alapuolisen

väylän vaikutus pulssin muotoon on otettu huomioon.


Formanttisynteesi: resonaattori

• Formanttiresonaattorin impulssivaste ja sen spektri;

formantin kaistanleveys on suoraan verrannollinen

impulssivasteen vaimenemiseen.

Time (s)–0.0001 0.01

–0.9898

1

0

Frequency (Hz)0 11025

Soun

d pr

essu

re le

vel (

dB/

Hz)

0

20

40

60


Artikulatorinen synteesi

• Miten: Mallinnetaan ääniväylää pinta-alojen ja ilman

virtausten sekä heijastusten suhteen – puheentuotto

nähdään sovellettuna fysiikkana.

• Etuja: Parantunut kontrolli, potentiaalisesti luonnollista

puhetta, perustutkimusta.


Artikulatorinen synteesi: esimerkki

• Äänenpaineet ja hiukkasnopeudet artikulatorisessa

mallissa:


Artikulatorinen synteesi: esimerkki 2

• Haskins laboratorion artiulatorinen malli:


Artikulatorinen synteesi: esimerkki 3

• Haskins laboratorion artiulatorinen malli:


Tekstistä puheeksi:

teksti

signaalin generointi

Perustaajuudenestimointi

Äänekkyydenestimointi

Äännekesto-jenestimointi

Merkkijonojen identifiointi jaesiprosessointi = normalisointi

Lingvistinen analyysi; sanaluo-kat ja morfosyntaksi

Prosodinen ryhmitys”phrasing”

Sana- ja lausepainonmäärittely


Modulaarisuus

• Lähes kaikki modernit puhesynteesijärjestelmät ovat

modulaarisia: tekstianalyysiä seuraa prosodiset modulit,

joita seuraa synteesimodulit.

• Usein suuremmat modulit on vielä jaettu useimpiin tarpeen

mukaan – esim. intonaatiota voidaan mallintaa usealla

tavalla saman järjestelmän sisällä.


Data vs. tieto

• Historiallisesti sääntösynteesijärjestelmät ovat perustuneet

tietoon – datapohjaiset järjestelmät ovat uudempi suuntaus.

• Kielen kombinatorinen kompleksisuus on kuitenkin niin

valtava, että suuretkin tietokannat ovat tuomittuja

edustamaan vain äärimmäisen pientä osaa koko puhutun

kielen avaruudesta.


Tekstin analyysi

• Tekstin analyysiin kuuluu kaikki tekstin esiprosessointi ja

normalisointi.

• Teksti muunnetaan järjestelmän ymmärtämään

lingvistiseen muotoon, joka sisältää yleensä sanat ja niiden

kieliopilliset kategoriat, morfologiset analyysit, fonologiset

transkriptiot, aksentuaaliset ja tonaaliset piirteet sekä

prosodisten rajojen paikat.


Tekstin analyysi: esimerkki Festivalista


Prosodinen esiprosessointi

• Prosodinen esiprosessointi pitää sisällään syntaktisen

analyysin (joka voi yksinkertaisimmillaan olla

funktiosanojen tunnistamista) ja lauseiden sekä

lausekkeiden rajojen paikantamisen.

• Myös lausepainon paikan määritys kuuluu prosodiseen

tähän vaiheeseen.


Prosodian estimointi: ajoitus

• Järjestelmään sisältyvän ajoituskomponentin tehtävänä on

laskea puheelle sen temporaalinen rakenne annetusta

symbolisesta syötteestä: foneemit, paino- ja

lausepainomerkinnät.

• Yleensä ajoituksella tarkoitetaan äännekestoja, mutta

muunlaistakin temporaalista informaatiota tarvitaan; esim.

perustaajuuden huippujen paikka vokaaliin nähden.

• Ajoitus voidaan laskea joko sääntöjen avulla tai dataan

perustuen esim. keinotekoisia hermoverkkoja käyttäen.


Prosodian estimointi: intonaatio• Intonaatiokomponentin tehtävänä on laskea tuotettavalle

lauseelle sen perustaajuuskontuuri ajoituskomponentin

käyttämästä syötteestä ja sen tuottamista äännekestoista.

• Teorioiden ja mallien suhteen intonaation tutkimus on

äärimmäisen vaihtelevaa ja mallien kirjo heijastuukin

synteesijärjeselmiin.

• Fonologisella puolella ei ole kunnollista konsensusta

yksiköiden suhteen ja foneettisella puolella ei ole

yksimielisyyttä siitä, miten käyrät tulisi laskea: lauseke ja

aksenttikomponenttien superpositio (Fujisaki),

tonaaliarvojen interpolaatio (Pierrehumbert),

linjasegmenttien konkatenaatio (IPO).


Intonaatiomallit:

x

x x

xx

Dutch

Fujisaki

Ladd

Phonology Intermediate Level

British

Pierrehumbert

(Halliday)

Accents,

Phrases

fall-rise

fall

H* + L

L*

HL +downstep

1, 2, 3,

targets

impulses and steps

registers

standardised shapes

F0

Redundancy

Fixed gradient slopes

Isard andPearson

.


Signaalin generointi• Synteesikomponentti ottaa vastaan äännejonotietoa ja

prosodista informaatiota, joista sen tehtävänä on generoida

kuultava signaali.

• Historiallisesti signaalin generointi on perustunut

lähde-suodin -malliin; formanttisynteesi. Nykyisin

kuitenkin suurin osa syntetisaattoreista käyttää

jonkinasteista konkatenaatiomenetelmää (difoni tai ns.

unit-selection).

• Difonikonkatenaatiossa yksikköinä ovat nimen mukaisesti

difonit (kahden äänteen keskipisteiden välinen osa). “unit

selection” -tyyppisessä synteesissä yksikön koko vaihtelee

jopa kokonaisista lauseista difoniin.


puheentuoton fonetiikan kertausta vfo 251, …puheentuoton fonetiikan kertausta vfo 251,...

Documents