puheentuoton fonetiikan kertausta vfo 251, …puheentuoton fonetiikan kertausta vfo 251,...
TRANSCRIPT
Puheentuoton fonetiikan kertaustaVfo 251, Puhesynteesin perusteet
Martti Vainio
Fonetiikan laitos, Helsingin yliopisto
Puheentuoton fonetiikan kertausta – p.1/109
Äänet, resonanssi ja spektrit
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.2/109
Puhe äänenä• Kaikki äänteet ovat luonteeltaan ns. seosääniä. Ts. ne ovat
komplekseja ja sisältävät useita taajuuksia.
• Seosäänet voidaan analysoida osiinsa.
• Ne koostuvat siniaalloista, jotka yhdessä tuottavat äänelle
sen luontaisen spektrin.
• Äänentuottojärjestelmän resonanssit antavat äänille niiden
tunnistettavat luonteen.
• Puheentuotossa ääniväylän tuottamat resonanssit ovat
puheen kannalta kaikkein olennaisimpi piirteitä.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.3/109
Äänen tuotto ja eteneminen
• Ääni syntyy hiukkasten muuttaessa jonkin ulkoisen häiriön
(disturbance) vuoksi paikkaansa aineessa.
• Ulkoisen toiminnan tuottaman häiriö etenee aineessa sen
muodostamien hiukkasten edestakaisena liikkeenä.
• Puheessa ääni tuotetaan aiheuttamalla paikallinen häiriö
ilmahiukkasten liikkeeseen jossain kohtaa ääniväylää.
• Esim. vokaalien aikana nämä häiriöt ovat äänihuulten
välisen raon – glottiksen – umpeutumisesta ja
avautumisesta ulosvirtaavaan hengitysilmaan johtuvia
pulsseja.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.4/109
Äänen nopeus vs. hengitysilma
• Äänen nopeus ilmassa on n. 330 m/s.
• Se etenee suhteellisen nopeasti verrattuna hengitysilman
virran nopeuteen; n. 0.3 m/s.
• Näin ollen ilmavirran itse aiheuttamat häiriöt – ns.
glottispulssit – etenevät ääniväylässä huomattavasti sitä
itseään nopeammin – n. 1200 km/h vs. n. 1,8 km/h.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.5/109
Yksinkertainen harmoninen liike
Heilurin kaltainen liike
voidaan kuvata tasaisena liikkeenä ympyrässä.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.6/109
Harmoninen liike ympyrässä• Yhdenmukainen (uniform) ympyräliike voidaan kuvata
kahden muuttujan avulla: täyteen kierrokseen vaadiittu aika
– periodi ja liikkuvan pisteen etäisyydellä ympyrän
keskipisteestä – – amplitudi.
• Ilmassa etenevän äänen suhteen nämä kaksi ovat
ilmahiukkasten yhden edestakaisen värähtelyn – periodin –
kesto ja niiden liikkeen koko.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.7/109
Heilurin liike
Ajassa heilurin liike
muodostaa siniaallon.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.8/109
Siniaalto
• Siniaallon jakso (periodi) on yhden täydellisen syklin
vaatima aika, joka useinmiten ilmaistaan taajuutena
(frekvenssi) ja edelleen hertzeinä (Hz) = periodia/sekunti.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.9/109
Siniaalto (jatkoa)• Siniaallon liikemäärää kutsutaan siis sen amplitudiksi. Se
on yhtä kuin värähtelyn ekstensio lepotilasta.
• Puheen sisältämät taajuudet ovat 50 Hz:n ja 10 kHz:n
välillä. Ne siis käytännössä kattavat suurimman osan
kuultavista taajuuksista.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.10/109
Siniaaltojen taajuudet
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.11/109
Vaimeneminen• Todelliset värähtelevät järjestelmät eivät koskaan ole
ideaaleja ja niiden tuottama värähtely on aina vaimenevaa.
• Esim. ilman sisäinen kitka aiheuttaa siinä etenevän aallon
amplitudin vaimenemista.
• Sinimäinen vaimentunut aalto ei siis ole puhdas siniaalto
koska sen amplitudi ei ole vakio.
• Vaimentuneet siniaallot voidaan kuitenkin analysoida
joukoksi eritaajuisiksi siniaalloiksi.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.12/109
Resonanssi• Värähtelevä objekti tekee sen aina sille ominaisella
taajuudella – esim. heilurin ns. resonanssitaajuus
määräytyy sen fysikaalisten ominaisuuksien – pituuden ja
painon – mukaan.
• Toinen esimerkki on ilman värähtely pullossa – voimme
saada pullossa olevan ilmapatsaan värähtelemään esim.
aukaisemalla korkki äkkinäisesti tai puhaltamalla viistosti
pullon suulle.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.13/109
Ilman värähtely pullossa
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.14/109
Värähtelyn taajuus• Edellisessä kuvassa kahteen aallon lepotilasta
edestakaiseen matkaan kului 2 millisekuntia tai 1/500 s.
Tämä on siis yhden periodin kesto. Sykli toistuu siis 500
kertaa sekunnissa ja on pullon matalin resonanssitaajuus.
• Edellisen kuvan pullon tuottaman värähtelyn taajuus on
riippuvainen pullon koosta – mitä korkeampi pullo, sen
matalampi ”poksahdus"pulloa avattaessa kuuluu.
• Voimme laskea pullon tuottaman äänen taajuuden äänen
nopeuden ja pullon korkeuden avulla.
• Taajuus:
f =c
λ
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.15/109
Värähtelytaajuuden määrittäminen• Toisesta päästä avoimen putken resonanssin määrittelevät
seuraavat rajoitteet: aallon hiukkasnopeuden pitää olla
suljetussa päässä minimissään ja avoimessa päässä
maksimissaan. Vastaavasti paineen täytyy olla avoimessa
päässä minimissään.
• Resonanssitaajuudet:
f =c ∗ (2n − 1)
4L
jossa n on mikä tahansa kokonaisluku ja L on putken pituus.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.16/109
Resonanssitaajuudet
1/4 λ
3/4 λ
17.5 cm
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.17/109
Hiukkasnopeus vs. paine
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.18/109
Resonanssit puheessa• Puheessä esiintyvät resonanssit tuotetaan edellä kuvattujen
prosessien mukaisesti.
• Vokaaleja tuotettaessa ilmavirtaan glottiksessa tuotetut
”katkokset"etenevät farynksin kautta suuonteloon
paineaaltoina, jotka edelleen heijastuvat takaisin
ääniväylään suuaukolla (käänteisinä).
• Äänihuulet toimivat toisessa päässä heijastavana pintana.
• Tyypillisesti miesäänellä äänihuulipulssin väliin mahtuu
kymmenkunta edestakaista heijastusta – siis n. viisi
periodia.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.19/109
Formantti• Puheessä ääniväylän resonansseja kutsutaan formanteiksi.
Miehillä, joiden ääniväylän keskimääräinen pituus on 17.5
cm, alin resonanssitaajuus – siis formantti – on n. 500 Hz.
• Ääniväylässä – kuten kaikissa putkissa – on myös muita,
taajuudeltaan korkeampia, resonansseja.
• Itse asiassa lähes kaikki äänteet eroavat toisistaan juuri
resonanssitaajuuksiensa ja näin ollen formanttiensa
suhteen.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.20/109
Spektrianalyysi• Mikä tahansa aaltomuoto voidaan luoda summaamalla
keskenään joukko siniaaltoja, joilla on oikeanlaiset
taajuudet ja amplitudit.
• Näitä siniaaltoja, joista kompleksit äännökset koostuvat,
kutsutaan niiden komponenteiksi.
• Analysoidaksemme minkä tahansa kompleksin äänen,
etsimme jollain keinolla sellaisest komponentit, jotka
summattuina tuottavat analysoimme äänen – yleensä tähän
käytetään Fourier analyysiä.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.21/109
Vaimentuva siniaalto
• 500 Hz:n siniaalto on täysin synkroninen vastaavan
vaimentuvan aallon kanssa.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.22/109
Kompleksi ääni
• Kolme siniaaltoa voidaan summata yhdeksi vaimentuvaksi
aalloksi.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.23/109
Spektrin osat
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.24/109
Toistuva vaimentuva aalto . . .
• 500 Hz:n vaimentuva aalto, jota toistetaan 100
millisekunnin välein.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.25/109
. . . ja sen spektri
• Edellistä kuvaa vastaava spektri, joka koostuu 100 Hz:n
kerrannaisista siten, että voimakkain huippu vastaa
toistetun vaimentuvan aallon taajuutta (500 Hz).
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.26/109
Perustaajuus• Edellisen kuvan 100 Hz:n komponentti on sen ns.
perustaajuus (fundamental frequency).
• Spektriä, joka koostuu perustaajuutensa kerrannaisista,
kutsutaa harmoniseksi spektriksi. Vastaavasti
kerrannaistaajuuksia kutsutaan harmonisiksi osasäveliksi.
• Osasävelten voimakkuus/amplitudi näkyy spektrissä sen
korkeutena.
• Spektriä, joka koostuu osasävelistä, kutsutaan usein
viivaspektriksi (line spectrum), jonka vastakohta on jatkuva
spektri (continuous spectrum).
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.27/109
Esimerkki puheesta
Time (s)0 0.0287075
–0.4538
0.5618
0
• Aaltomuoto keskeltä pitkää [A]-vokaalia sanassa [lA:t�u].
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.28/109
Esimerkki puheesta
Frequency (Hz)0 2000
Soun
d pr
essu
re le
vel (
dB/
Hz)
0
20
40
• Esimerkki n. 100 millisekuntia pitkästä osasta [A] -
vokaalia. Perustaajuus on n. 105 Hz.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.29/109
Pulsseista puheeksi• Glottispulsseista lähtöisin olevat äänteet ovat
kokonaisuudessaan resonanssivärähtelyistä koostuva
kombinaatio, joka säteilee suuaukosta.
• Jokainen resonanssivärähtely vaimentuu lähes kokonaan
ennen seuraavaa pulssia.
• Pulssit toistuvat kuitenkin niin usein ja tasaisin välein, että
havaitsemme vain jatkuvan soinnillisen äänteen –
useinmiten kyseessä on vokaali.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.30/109
Glottispulssi ja aaltomuoto
• Glottaalinen hiukkasnopeus ja siitä johtuva aaltomuoto
soinnillisen äänteen alussa.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.31/109
Aperiodiset äänteet• Puhe sisältää myös ei-periodisia ääniä
• Ne voivat syntyä kahdella tavalla:
1. Yhtäkkinen (transientti) paineen vapautuminen esim.
klusiilien sulkeumavaiheen jälkeen.
2. Ääniväylässä olevan kaupeuman aiheutta turbulenssi
ilmavirrassa.
• Näinen äännösten spektrit muodostuvat niiden lähteen
muodostasta spektristä sekä ääniväylän resonanssien
vaikutuksesta alkuperäiseen ääneen.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.32/109
Puheentuotto
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.33/109
Ääntöelimistö
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.34/109
Ihmisen äänentuottomekanismi skemaattisesti
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.35/109
Artikulaatiopaikat ääniväylässä
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.36/109
Artikulaatiopaikat:
1. huulet (bi)labiaalinen
2. huulet + ylähampaat labiodentaalinen
3. hampaat dentaalinen
4. hampaiden takapinta post-dentaalinen
5. hammasvalli alveolaarinen
6. (kova) kitalaki palataalinen
7. kitapurje velaarinen
8. uvula uvulaarinenls
9. nielu faryngaalinen
10. kurkunpää faryngaalinen
11. kielen kärki apikaalinen
12. kielen lapa koronaalinen, laminaalinen
13. kielen selkä dorsaalinen
14. kielen tyvi radikaalinen
15. kielen alapinta sublaminaalinen
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.37/109
Suomen vokaalit
y•
æ•
ϥ
A•
o•
u•
e•
i•
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.38/109
Suomen konsonantit
Paikka
TapaBilab. Labiodent. Alveol. Postalveol. Palat. Velaarinen
Klusiilit p,b t�,d k,g
Nasaalit m n N
Lateraalit l
Tremulantit r
Frikatiivit f s S h
Approksimantit V j
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.39/109
Puheentuoton lähde-suodin -malli
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.40/109
Glottaalinen äänilähde
• Vokaalit saavat alkunsa larynksissa, missä tuotetaan
kaikkien soinnillisten äänteiden perusta.
• Kurkunpään äänentuotto perustuu ns. ääniraon (glottis)
nopeasti toistuvaan avautumiseen ja sulkeutumiseen.
• Tätä glottiksen toimintaa kutsutaan fonaatioksi (phonation).
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.41/109
Fonaatio
• Fonaatio perustuu siis äänihuulten (vocal folds) liikkeisiin.
Äänihuulet ovat lihaksista, jänteistä ja kudoksesta
koostuvat ulokkeet ilmaväylän molemmin puolin.
• Äänihuulten primitiivinen, alkuperäinen tarkoitus lienee
ollut pitää vieraat esineet poissa keuhkoista, mutta niiden
puheeseen liittyvä funktio on niin tärkeä, että niitä on alettu
kutsua äänihuuliksi.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.42/109
Kurkunpää (larynx)
• Äänihuulten asentoa muutetaan ns. arytenoidiruston
(arytenoid cartilage) välityksellä.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.43/109
Glottispulssi• Fonaatiossa ääniraon toistuva sulkeutuminen ja
avautuminen muodostaa sen läpi kulkevaan ilmavirtaan
jonon pulsseja, jotka toistuvat jotakuinkin tasaisin välein.
• Pulssijonon spektraalinen muoto toimii pohjana kaikille
soinnillisille äänteille – etenkin vokaaleille. Näin ollen
glottaalisen äänilähteen spektri on kuultavissa kaikissa
soinnillisissa äänteissä.
• Glottispulssin spektraaliset ominaisuudet lähes täysin
riippuvaisia siitä, millä tavoin äänihuulet sitä tuotettaessa
värähtelevät.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.44/109
Äänihuulten mekaaninen malli
• Värähtely säilyy äänihuulissa, koska niiden osat liikkuvat
toistensa suhteen yhtenä järjestelmänä, joka voidaan
mekaanisesti kuvata edellisen kuvan kaltaisesti.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.45/109
Äänihuulten toiminta fonaation aikana
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.46/109
Äänihuulten toiminta fonaation aikana
• Subglottaalinen paine pakottaa äänihuulet erilleen, jolloin
niiden välisen ilman paine laskee ja kääntää niiden liikkeen
suunnan sulkeutuvaksi. Ns. Bernoullin efekti aiheuttaa
niiden sulkeutumisen äkkinäisesti.
• Tämän jälkeen subglottaalinen paine ja kudosten elastiset
voimat aloittavat syklin uudelleen.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.47/109
Glottispulssin muoto
• Glottispulssi muistuttaa muodoltaan ns. sahanteräaaltoa
(sawtooth wave).
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.48/109
Glottispulssin spektrin komponentit
• Glottispulssin spektrillä on kaksi erityisen tärkeää piirrettä:
1. Spektraalisten komponenttien – siis perussävelen ja sen
kerrannaistaajuuksien välimatka, joka on riippuvainen
pulssin toistumisen taajuudesta.
2. Komponenttien amplitudit taajuuksien suhteen, jotka
ovat riippuvaisia perättäisten glottispulssien muodosta.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.49/109
Glottispulssin spektri
• Idealisoitu 100Hz:n taajuudella toistuvan glottispulssin
spektri.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.50/109
Ääniväylän vaikutus fonaatioon
• Yleensä ääniväylän muoto ei vaikuta glottiksen toimintaan:
1. Väylässä etenevien tasoaaltojen suhteen sen
käyryydellä ei ole vaikutusta
2. Väylässä olevat sulkeumat (constriction) vaikuttavat
vain vähän pulssin muotoon.
• Glottispulssijono muistuttaa siis sahanteräaaltoa, joka
voidaan analysoida tasavälein toistuviksi
kerrannaistaajuuksiksi, joiden amplitudi laskee 12 dB
jokaisella oktaavilla.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.51/109
Lähde-suodin -teoria
• Vokaalien ja voimakkaasti soinnillisten äänteiden suhteen
glottis siis tuottaa niille niiden äänellisen perustan –
voimme siis kuvitella, että glottiksen yläpuolinen ääniväylä
toimii jonkinlaisena suotimena tai torvena, joka voimistaa
lähteen tuottamista komponenteista niitä, jotka ovat lähellä
väylän resonanssitaajuuksia.
• Lähde-suodin -teorian (source-filter theory) avulla voimme
siis selvittää kuinka vokaalien spektrit muodostuvat
glottaalisen lähteen ja ääniväylän suodinfunktion
kombinaationa.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.52/109
Lähde-suodin -teoria (kuva)
• Gunnar Fant: The Acoustic Theory of Speech Production,
1960.
• Teorian perustana on olettamus, että ääniväylä on täysin
riippumaton lähteestä.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.53/109
Suotimen vaikutus lähteen spektriin
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.54/109
Lopullisen spektrin kaltevuus
• Muiden kuin neutraalin keskivokaalin – [@] – spektrin
kaltevuus riippuu väylän resonanssien välisistä
etäisyyksistä. Lähellä olevat resonanssit vahvistavat
toisiaan ja vastaavasti resonanssit vaikuttavat negatiivisesti
korkeammilla taajuuksilla oleviin resonansseihin.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.55/109
Äänentuottotavan vaikutus spektriin
• Ääviväylän resonanssien vuorovaikutusten lisäksi
vokaalien spektrin yleiseen muotoon (spectral envelope)
vaikuttaa se miten glottispulssit tuotetaan.
• Toisin sanoen glottispulssin taajuuden lisäksi vokaalin
lopulliseen spektriin vaikuttaa se, minkä muotoinen pulssi
on. Muoto on taas riippuvainen pitkälti siitä, kuinka paljon
sen tuottamiseen käytetään fyysistä toimintaa (vocal effort).
• Voimakkaasti tuotettu pulssi sisältää enemmän energiaa
korkeilla taajuuksilla, jolloin spektri on vähemmän kalteva.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.56/109
Vocal effort
• Äänilähteen spektrin kaltevuus heikosti ja voimakkaasti
tuotetuilla [A] -vokaaleilla.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.57/109
Ääniväylän vaikutus vokaalien spektreihin
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.58/109
Ääniväylän mallit
• Akustisessa tutkimuksessa on huomattu, että
yksinkertaisella – putkiin perustuvalla – ääniväylämallilla
voidaan tuottaa luonnolliselta kuulostavia vokaaleita.
• Ääniväylää (pharyngeal-oral tract) voidaan mallintaa yhden
tai usean putken kombinaatiolla.
• Koska ääni kulkee väylässä ns. tasoaaltona, ei väylän
taipuvalla muodolla ole mainittavaa vaikutusta sen
suodinfunktioon.
• Väylän poikkipinta-alan pienet poikkeamat eivät myöskään
ole vaikutuksiltaan suuria.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.59/109
Formantti
• Tässä vaiheessa on hyvä määritellä, mitä tarkoitamme usein
esiintyvällä termillä formantti.
• Teknisesti formantti on ääniväylän äänensiirtoon liittyvä
resonanssi, jonka vaikutukset näkyvät mm. äänteiden
spektreissä.
• On kuitenkin huomattava, että spektreissä ja
spektrogrammeissa esiintyvät energian kasaumat eivät ole
itse formantteja.
• Formantit ovat siis ääniväylään liittyviä akustisia piirteitä.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.60/109
Formanttien järjestys
• Puheessa formantit numeroidaan taajuuksiensa mukaan
siten, että alin formantti on ensimmäinen (F1) ja sitä seuraa
ylemmät formantit (F2 jne.).
• Kolmen ensimmäisen formantin taajuudet ovat suoraan
riippuvaisia ääniväylän muodosta huulten, kielen ja leuan
sekä kurkunpään muodostaessa eri konsonantteja ja
vokaaleja.
• Ylemmät formantit pysyvät jotakuinkin vakiona puheen
aikana.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.61/109
Ääniväylän vaikutus formantteihin
• Edellä olemme jo nähneet, että tärkein formanttien
taajuuksiin vaikuttava tekijä on ääniväylän pituus.
• Toinen formanttitaajuuksiin vaikuttava tekijä on
ääniväylään (yleensä) kielen avaulla tuotettava kapeuma,
jonka aste ja pituus vaikuttavat alempien formanttien
taajuuksiin ja amplitudeihin.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.62/109
Kardinaalivokaalit
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.63/109
Etuvokaalit
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.64/109
Takavokaalit
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.65/109
Neljän putken ja kolmen parametrin malli
• Parametrit ovat kapeuman horisontaalinen etäisyys,
kapeuman pinta-ala ja huuliaukon pituus.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.66/109
Parametrien vaikutus formanttitaajuuksiin
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.67/109
Neutraali keskivokaali
• .
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.68/109
[u]
• .
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.69/109
[i]
• .
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.70/109
[A]
• .
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.71/109
Puhesynteesi
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.72/109
Puhesynteesin historiaa
• Mekaaniset synteesit: 1700-luvulla asiaa harrastivat
Wolfgang von Kempelen ja Christian Kratzenstein.
• 1900-luvulla tulivat elektromekaaniset sekä elektroniset
synteesit ja vuosisadan loppupuolella digitaaliset
syntisaattorit.• Ks. http://www.acoustics.hut.fi/ slemmett/dippa/chap2.html
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.73/109
Historiaa: Kratzenstein
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.74/109
Historiaa: Kempelen
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.75/109
Historiaa: Kempelen
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.76/109
Puhesynteesin historiaa: 1930-luku
• 1936: Englannin puhelinyhtiön puhuva kello käytti optista
tallennusta – lausekkeet, sanat ja sanojen osat.
• 1939: Bell Laboratorion VODER (Homer Dudley) –
mekaaninen urkujen kaltainen laite jolla voitiin ’soittaa’
puhetta. (1)*
• Dudleyn VOCODER, jossa puhesignaali jaettiin
lähde-suodin mallin mukaisesti.
* = ääniesimerkin numero osoitteessa
http://www.festvox.org/history/klatt.html
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.77/109
Historiaa: VODER
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.78/109
Historiaa: pattern playback
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.79/109
Historiaa: 1940 ja 1950-luvut
• Terminaalianalogiaan perustuvat mallit – formanttisynteesi
• Gunnar Fantin OVE, 1953. (4)
• Georg Rosenin artikulatorinen DAVO-syntetisaattori (MIT,
1958). (11)
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.80/109
Historiaa: 1960-luku
• Ensimmäiset digitaaliset mallit ja sääntösynteesi – tekstistä
puheeksi
• Brittienglanti; Holmes, Mattingly ja Shearme, 1964.
(17)
• Cokerin sääntöpohjainen artikulatorinen malli, 1968.
(19)
• Mattinglyn ensimmäinen prosodinen synteesi, 1968.
(20)
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.81/109
Historiaa: 1970-luku
• TTS (Text-To-Speech) tuotteet ja difonisynteesi
• Ensimmäinen täydellinen TTS-järjestelmä, Noriko
Umeda, Japani, 1968. (24)
• Lausetason fonologiset säännöt, Dennis Klatt, 1976.
(21)
• Lineaariprediktioon perustuvien difonien
konkatenaatio, Joseph Olive, 1977. (22)
• Votraxin Type-n-Talk, Richard Cagnon, 1978. (28)
• MIT:n MITalk, Jonathan Allen, Sheri Hunnicut ja
Dennis Klatt, 1979. (30)
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.82/109
Historiaa: 1980-luku
• Konkatenaatio valtaa alaa – suuremmat järjestelmät:
• AT&T Bell Laboratories, TTS-järjestelmä, 1985. (34)
• DECtalk (35)
• DECtalk, 300 sanaa/minuutti. (36)
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.83/109
Historiaa: 1990-luku
• Tuotteet, monikielisyys, ’unit selection’
• Yleinen ’unit selection’, CHATR, Japani, 1994.
• Monikielinen MBROLA, ’vapaa’ synteesi, Belgia,
1995.
• Mikropuhe, TIMEHOUSE, Suomi
• 2000-luku: ...
• Toisaalta kaupalliset järjestelmät perustuvat usein valmiiksi
äänitettyyn materiaaliin ja sanojen liimaamiseen (vertaa
1936!) koska lopputulos on parempi.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.84/109
Puhesynteesin kolme peruslajia:
1. Analyysi-resynteesi
• LPC-synteesi
• GSM koodaus . . .
2. Tekstistä puheeksi (TTS = Text-to-Speech)
• Vammaissovellukset
• Puhelinpalvelut; sähköpostin luku . . .
3. Konseptista puheeksi (CSS = Concept-to-Speech Synthesis)
• Tietokantojen luku, listat, aikataulut
• Dialogijärjestelmät
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.85/109
Kolme perusparametriä:
1. Sanaston suuruus
• Rajattu sanasto – kuulutukset
• Rajaton sanasto – vapaa teksti
2. Synteesitapa
• Valmiin puheen leikkaa-liimaa menetelmät
• Pienten yksiköiden konkatenaatio
• Formanttisynteesi
3. Syötteen laatu
• Puhe
• Teksti
• Tietokanta
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.86/109
Kahdenlaista motivaatiota:
1. Sovellukset
• Vammaissovellukset
• TTS-järjestelmät
• Dialogijärjestelmät
2. Tieteellinen tutkimus
• Puheen havaitseminen – kontrolloidut ärsykkeet
• Puheen tuoton mallit
• Prosodian tutkimus
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.87/109
Kolme lähestymistapaa:
1. Konkatenaatio
• Sanat, lausekkeet, lauseet
• Sanaa pienemmät osat; tavut, puolitavut
• Difonit
• ”Mikrofoneemit"
2. Formanttisynteesi
• Puhe tuotetaan synteettisesti alusta pitäen
3. Artikulatorinen synteesi
• Fyysiset mallit – puhe on fysiikkaa
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.88/109
Konkatenaatio
• Oikeata puhetta leikkaa-ja-liimaa -periaatteella.
• Mitä leikataan: lausekkeita, sanoja, tavuja, puoli-tavuja,
äänteitä, difoneja.
• Miten: tarkasti leikatut yksiköt voidaan liimata päistään
yhteen, tasoitus (smoothing), PSOLA (pitch-syncronous
overlap and add) . . .
• Etuja: äärellinen määrä puhedataa riittää, prosessointi on
yksinkertaista, lopputuloksena korkeatasoinen ääni.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.89/109
Difonikonkatenaatio: TD-PSOLA
• TD-PSOLA: alennettu perustaajuus
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.90/109
Formanttisynteesi
• Miten: Generoidaan periodista ja aperiodista ääntä ja niitä
yhdistelemällä tuotetaan puheenkaltainen ääni.
• Etuja: erittäin muokkautuvainen, voidää päästä lähes
täydelliseen lopputulokseen, suhteellisen helppo
implementoida, tieteellisesti kiinnostava.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.91/109
Formanttisynteesi: kaavio
A1
impulsetrain
glottalfilter
LPfilter
randomnumbers
A2
A3
A4
A5
A6
R5
cascade
R4R3R2R1ZNRN
parallel
R1
R2
R3
R4
R5
R6
+ pre-empasis
syntheticspeechoutput
• Klatt syntetisaattori
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.92/109
Formanttisynteesi: rinnakkainen vai sarjassa• Sarjaan kytkettyjen resonaattorien etu on, että niille täytyy
kertoa vain formanttien taajuudet ja kaistanleveydet;
amplitudit hakeutuvat automaattisesti oikeiksi.
• Rinnakkaisesta synteesiä rasittaa lisäksi vaatimus
formanttien amplitudeista; rinnakkaismallilla voidaan
kuitenkin simuloida helpommin sellaisia konsonantteja
(etenkin frikatiiveja), joilla on antiformantteja. (Toisaalta
rinnakkaismallin resonanssien summaaminen implikoi sitä,
että resonaattorit ovat itsenäisempiä ja ovat siten
itsenäisesti kontrolloitavissa.)
• Sarjamalli perustuu suoremmin puheentuoton akustiseen
teoriaan, jonka mukaan ääntöväylän siirtofunktio on
esitettävissä suotimien tulona.Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.93/109
Formanttisynteesi: glottaalinen eksitaatio
• Periaatteessa pelkkä impulssijono riittää tuottamaan puheen
kaltaisen tuloksen syntetisaattorista. Luonnollisuus vaatii
kuitenkin lähteeltä enemmän. Esim. KLATT-synteesissä
lähteeseen liittyy useita parametrejä, joiden avulla voidaan
mallintaa muutoksia niin eri äänteiden kuin puhujienkin
välillä.
• Glottislähteen parametrejä ovat mm. sulkeuma- ja
avaumavaiheiden suhde (open quotient), aspiraatiohälyn
määrä, ns. jitter (perustaajuuden perturbaatio) ja lähteen
spektraalinen kaltevuus. Myös glottiksen alapuolisen
väylän vaikutus pulssin muotoon on otettu huomioon.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.94/109
Formanttisynteesi: resonaattori
• Formanttiresonaattorin impulssivaste ja sen spektri;
formantin kaistanleveys on suoraan verrannollinen
impulssivasteen vaimenemiseen.
Time (s)–0.0001 0.01
–0.9898
1
0
Frequency (Hz)0 11025
Soun
d pr
essu
re le
vel (
dB/
Hz)
0
20
40
60
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.95/109
Artikulatorinen synteesi
• Miten: Mallinnetaan ääniväylää pinta-alojen ja ilman
virtausten sekä heijastusten suhteen – puheentuotto
nähdään sovellettuna fysiikkana.
• Etuja: Parantunut kontrolli, potentiaalisesti luonnollista
puhetta, perustutkimusta.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.96/109
Artikulatorinen synteesi: esimerkki
• Äänenpaineet ja hiukkasnopeudet artikulatorisessa
mallissa:
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.97/109
Artikulatorinen synteesi: esimerkki 2
• Haskins laboratorion artiulatorinen malli:
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.98/109
Artikulatorinen synteesi: esimerkki 3
• Haskins laboratorion artiulatorinen malli:
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.99/109
Tekstistä puheeksi:
teksti
signaalin generointi
Perustaajuudenestimointi
Äänekkyydenestimointi
Äännekesto-jenestimointi
Merkkijonojen identifiointi jaesiprosessointi = normalisointi
Lingvistinen analyysi; sanaluo-kat ja morfosyntaksi
Prosodinen ryhmitys”phrasing”
Sana- ja lausepainonmäärittely
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.100/109
Modulaarisuus
• Lähes kaikki modernit puhesynteesijärjestelmät ovat
modulaarisia: tekstianalyysiä seuraa prosodiset modulit,
joita seuraa synteesimodulit.
• Usein suuremmat modulit on vielä jaettu useimpiin tarpeen
mukaan – esim. intonaatiota voidaan mallintaa usealla
tavalla saman järjestelmän sisällä.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.101/109
Data vs. tieto
• Historiallisesti sääntösynteesijärjestelmät ovat perustuneet
tietoon – datapohjaiset järjestelmät ovat uudempi suuntaus.
• Kielen kombinatorinen kompleksisuus on kuitenkin niin
valtava, että suuretkin tietokannat ovat tuomittuja
edustamaan vain äärimmäisen pientä osaa koko puhutun
kielen avaruudesta.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.102/109
Tekstin analyysi
• Tekstin analyysiin kuuluu kaikki tekstin esiprosessointi ja
normalisointi.
• Teksti muunnetaan järjestelmän ymmärtämään
lingvistiseen muotoon, joka sisältää yleensä sanat ja niiden
kieliopilliset kategoriat, morfologiset analyysit, fonologiset
transkriptiot, aksentuaaliset ja tonaaliset piirteet sekä
prosodisten rajojen paikat.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.103/109
Tekstin analyysi: esimerkki Festivalista
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.104/109
Prosodinen esiprosessointi
• Prosodinen esiprosessointi pitää sisällään syntaktisen
analyysin (joka voi yksinkertaisimmillaan olla
funktiosanojen tunnistamista) ja lauseiden sekä
lausekkeiden rajojen paikantamisen.
• Myös lausepainon paikan määritys kuuluu prosodiseen
tähän vaiheeseen.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.105/109
Prosodian estimointi: ajoitus
• Järjestelmään sisältyvän ajoituskomponentin tehtävänä on
laskea puheelle sen temporaalinen rakenne annetusta
symbolisesta syötteestä: foneemit, paino- ja
lausepainomerkinnät.
• Yleensä ajoituksella tarkoitetaan äännekestoja, mutta
muunlaistakin temporaalista informaatiota tarvitaan; esim.
perustaajuuden huippujen paikka vokaaliin nähden.
• Ajoitus voidaan laskea joko sääntöjen avulla tai dataan
perustuen esim. keinotekoisia hermoverkkoja käyttäen.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.106/109
Prosodian estimointi: intonaatio• Intonaatiokomponentin tehtävänä on laskea tuotettavalle
lauseelle sen perustaajuuskontuuri ajoituskomponentin
käyttämästä syötteestä ja sen tuottamista äännekestoista.
• Teorioiden ja mallien suhteen intonaation tutkimus on
äärimmäisen vaihtelevaa ja mallien kirjo heijastuukin
synteesijärjeselmiin.
• Fonologisella puolella ei ole kunnollista konsensusta
yksiköiden suhteen ja foneettisella puolella ei ole
yksimielisyyttä siitä, miten käyrät tulisi laskea: lauseke ja
aksenttikomponenttien superpositio (Fujisaki),
tonaaliarvojen interpolaatio (Pierrehumbert),
linjasegmenttien konkatenaatio (IPO).
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.107/109
Intonaatiomallit:
x
x x
xx
Dutch
Fujisaki
Ladd
Phonology Intermediate Level
British
Pierrehumbert
(Halliday)
Accents,
Phrases
fall-rise
fall
H* + L
L*
HL +downstep
1, 2, 3,
targets
impulses and steps
registers
standardised shapes
F0
Redundancy
Fixed gradient slopes
Isard andPearson
.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.108/109
Signaalin generointi• Synteesikomponentti ottaa vastaan äännejonotietoa ja
prosodista informaatiota, joista sen tehtävänä on generoida
kuultava signaali.
• Historiallisesti signaalin generointi on perustunut
lähde-suodin -malliin; formanttisynteesi. Nykyisin
kuitenkin suurin osa syntetisaattoreista käyttää
jonkinasteista konkatenaatiomenetelmää (difoni tai ns.
unit-selection).
• Difonikonkatenaatiossa yksikköinä ovat nimen mukaisesti
difonit (kahden äänteen keskipisteiden välinen osa). “unit
selection” -tyyppisessä synteesissä yksikön koko vaihtelee
jopa kokonaisista lauseista difoniin.
Vfo251 • Puhesynteesin perusteet • Kevat 2002 – p.109/109