prosodins mekanik talande maskiner och maskinellt tal

40
PROSODINS MEKANIK talande maskiner och maskinellt tal Staffan Larsson April 2003 ”Mitt Hjärtas Melodi”

Upload: nida

Post on 19-Jan-2016

37 views

Category:

Documents


0 download

DESCRIPTION

PROSODINS MEKANIK talande maskiner och maskinellt tal. Staffan Larsson April 2003 ”Mitt Hjärtas Melodi”. Översikt. Talande maskiner Talsyntes Källa-filter-modellen Formantsyntes Linjär prediktion Formantsyntes och sång Emotionell prosodi i formantsyntes Maskinellt tal - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: PROSODINS MEKANIK talande maskiner och maskinellt tal

PROSODINS MEKANIKtalande maskiner och maskinellt tal

Staffan LarssonApril 2003

”Mitt Hjärtas Melodi”

Page 2: PROSODINS MEKANIK talande maskiner och maskinellt tal

Översikt• Talande maskiner

– Talsyntes• Källa-filter-modellen• Formantsyntes• Linjär prediktion• Formantsyntes och sång

– Emotionell prosodi i formantsyntes

• Maskinellt tal– Mekaniska strukturer– Åke Hodell: General Bussig, Igevär– Steve Reich: Different Trains– Charles Dodge: Speech Songs– Med mera

Page 3: PROSODINS MEKANIK talande maskiner och maskinellt tal

Grunder

• Övertoner (harmoniska)– Ett harmoniskt ljud med grundfrekvens F har

övertoner med frekvens 2F, 3F, …

• Filter– Ändrar amplituden hos övertoner– Resonansfilter/bandpassfilter: förstärker

övertoner kring en viss frekvens

• Sampling– Diskretisering i tid; indelning i ”frames”

• Kvantisering– Diskretisering av varje tidsutsnitt

Page 4: PROSODINS MEKANIK talande maskiner och maskinellt tal

Talande maskiner

Page 5: PROSODINS MEKANIK talande maskiner och maskinellt tal

Text till tal

En abstrakt lingvistisk representation av en text genomgår ett antal transformationer som resulterar i en akustisk vågform

Page 6: PROSODINS MEKANIK talande maskiner och maskinellt tal
Page 7: PROSODINS MEKANIK talande maskiner och maskinellt tal

Talsyntes

• Källa-filter-modellen

• F0 modellerar glottis; en övertonsrik grundton• Filtret modellerar munhålan

PITCH-PULSEGENERATOR

NOISEGENERATOR

RESONATIONSYSTEM (FILTER)

F0

SPEECH

AMP

Page 8: PROSODINS MEKANIK talande maskiner och maskinellt tal

Talsyntes forts.

• Filtermodeller– Formantsyntes– Linear Predictive Coding (LPC)

• Syntesmetoder– Regelbaserad: baserat på teori

implementerad i regelsystem– Analysbaserad: baserad på inspelat tal

(vanligtvis samplat)• Resultatet av analysen är en uppsättning

dynamiska parametrar

Page 9: PROSODINS MEKANIK talande maskiner och maskinellt tal

Formantsyntes

• Akustisk modell– Filtret analyseras som ett antal formanter, F1-F4– Normalt varieras bara F1 och F2; resten är statiska

• Formanterna modelleras av bandpassfilter med variabel frekvens– Parallell- eller seriekopplade

• Vokaler definieras av värden på formantfrekvenserna

• Vissa konsonanter kan modelleras som lokuspunkter– Andra konsonanter modelleras som brus, (”s”, ”f”)

Page 10: PROSODINS MEKANIK talande maskiner och maskinellt tal
Page 11: PROSODINS MEKANIK talande maskiner och maskinellt tal

Tidiga exempel på talsyntes• Bell labs (1950)

– forskning om analys och syntes av tal i syfte att minimera mängden information som skickas t ex i en telefonledning

• Vocoder– Analysera tal som akustiska parametrar

• F0/noise• 10 bandpassfilter med variabel amplitud

– Använd dessa parametrar för att driva syntes som approximerar originalet

• Voder *– Manuell kontroll av parametrar

• Pattern Playback * – Parametrar styrs av spektrogramläsare

Page 12: PROSODINS MEKANIK talande maskiner och maskinellt tal
Page 13: PROSODINS MEKANIK talande maskiner och maskinellt tal

OVE I

• Oratis Verbis Electris– Gunnar Fant– Svensk vokalformantsyntes från 50-talet– utvecklades främst i pedagogiskt syfte, men

kan möjligen även ses som ett mellanting mellan musikinstrument och talmaskin.

• Fyra seriekopplade bandpassfilter – F0, F1 och F2 styrs manuellt

• Demo *– Analog– Digital

Page 14: PROSODINS MEKANIK talande maskiner och maskinellt tal

Ove II

Page 15: PROSODINS MEKANIK talande maskiner och maskinellt tal

Linjär prediktion

• Artikulatorisk modell– Filtret modellerar munhålan, modellerad

som en tub med ett antal cylindriska sektioner av olika längd och diameter

• Filter: ett ”all-pole” filter• Predicera nästa sampel baserat på

viktad summa av föregående samples• Mer realistisk återgivning

– MEN svårare att kontrollera parametrar, t ex F0; filtret är instabilt

Page 16: PROSODINS MEKANIK talande maskiner och maskinellt tal

Regelbaserad vs. Analysbaserad syntes

• Regelbaserad: regler för övergångar mellan fonem– Formant: regler för formantövergångar, lokusteori

(OVE II)– LPC: regelbaserad konkatenering (Klatt, Arkiv B&C)*

• Analysbaserad: sampling och analys av mänskligt tal– Formant: formantdetektion– LPC: den metod som numera är vanligast

• Manuell syntes– Ove, VODER

Page 17: PROSODINS MEKANIK talande maskiner och maskinellt tal

Flera talsyntessystem

• DECtalk (1980-) *– Baserad på KlattTalk (formantsyntes)– Formanter, lokusregler– Flera olika röster (Klatt, arkiv D)

• Speak and Spell (1980)– Linjär prediktion

Page 18: PROSODINS MEKANIK talande maskiner och maskinellt tal

Emotionell prosodi i formantsystes

• Formantsyntes har även använts i forskning på prosodins roll i uttryckandet av emotioner

• Janet Cahn– The Generation of Affect in Synthesized

Speech– Affect Editor (program)

• Grundantagandern– Affektinformation är i stort sett oberoende

av lexikal information– Emotioners effekt på talsignalen kan

kvantifieras

Page 19: PROSODINS MEKANIK talande maskiner och maskinellt tal

Tidigare forskning…

• …om akustiska korrelat till emotioner– Sporadiskt sedan 40-talet– Primära parametrar: F0 och rytm

• Dessa parametrar kan kontrolleras i syntes

• Fysiologiska förklaringar (Williams & Stevens 1981)– Sympatiska(?) nervsystemet aktiveras (rädsla, ilska,

glädje) > högre blodtryck och puls > högljutt, snabbt tal med hög frekvensenergi

– Paraympatiska nervsystemet aktiveras (uttråkadhet, sorg) > lägre blodtryck och puls > långsamt tal med låg tonhöjd och frekvensenergi

Page 20: PROSODINS MEKANIK talande maskiner och maskinellt tal

Alternativa representationer

• Generativ modell– Utgår från talarens mentala tillstånd

• Akustisk modell– Utgår från den akustiska signalen som den uppfattas

av åhöraren– En uppsättning parametrar som motsvarar

talsignalens emotionella korrelat

• Den förra är teoretiskt mer intressant, men den andra är enklare– Lättare att kvantifiera och utvärdera– Vi vet mer om akustiska än mentala korrelat

Page 21: PROSODINS MEKANIK talande maskiner och maskinellt tal

Affektparametrar

• Fyra grupper– Tonhöjd (pitch): egenskaper hosF0– Timing: rytm och talhastighet– Röstkvalitet– Artikulation

• Tonhöjd och timing är även egenskaper hos ord och fraser

• Ej absolut indelning• Parametrar har värden mellan –10 och

10; 0 är neutral

Page 22: PROSODINS MEKANIK talande maskiner och maskinellt tal

Tonhöjdsparametrar

• Accent shape: the rate of F0 change for any pich accent– Pitch accent: distinctive pitch applied to the lexically stressed

syllable of a word such that the word as a who is percieved as reciveving sentential stress

• Average pitch: average F0 relative to speaker’s normal pitch

• Countour slope: overall trend of pitch range (expanding, contracting or level)

• Final lowering: terminal pitch contour• Pitch range: range of F0 variation• Reference line

Page 23: PROSODINS MEKANIK talande maskiner och maskinellt tal

Timingparametrar

• Fluent pauses: frequency of pausing between syntactic or semantic units

• Hesitation pauses: frequency of pausing within syntactic or semantic units

• Speech rate• Stress frequency: ratio of stressed

(pitch accented) to stressable (potentially pitch accented) words

Page 24: PROSODINS MEKANIK talande maskiner och maskinellt tal

Röstkvalitetsparametrar• Breathiness: amount of frication noises

co-present with nonfricatives• Brilliance: ratio of low to high frequency

energy• Laryngearization: narrow and irregular

subglottal pulse; ”creakiness”• Loudness: percieved loudness

Artikulationsparametrar• Precision: degree of slurring or

enunciation

Page 25: PROSODINS MEKANIK talande maskiner och maskinellt tal

Affect Editor

• Akustisk beskrivning av emotionellt tal > syntetiskt expressivt tal

• Syntes: DECtalk3– Stor grad av kontroll över prosodi och röstkvalitet

• Mappning – från akustiska parametrar + text (annoterad med

intonation och ordklassinformation)– till syntesens inställningar + fonologisk

representation

>ghostview

Page 27: PROSODINS MEKANIK talande maskiner och maskinellt tal

Formantsyntes av sång (Dodge)

• Kräver mer komplex modell av munhålan (mer komplext filter)

• Interaktion mellan glottis och munhåla

• ”Sångformanten”– Lägre frekvens på F4 och F5 än i tal– F4 och F5 ligger nära varandra (2500-

3500 Hz)

Page 28: PROSODINS MEKANIK talande maskiner och maskinellt tal

Sångsyntes: tidiga exempel

• Bell labs (1961)– 1961: Max Mathews (with the

assistance of a number of technicians at Bell Labs) made a computer sing "Bicycle Built for Two."

• DAVO (1958) *– Georg Rosen, MIT

• Charles Dodge (mer senare)

Page 29: PROSODINS MEKANIK talande maskiner och maskinellt tal

Mekaniskt tal

Page 30: PROSODINS MEKANIK talande maskiner och maskinellt tal

Mekaniska strukturer (Manovich)

• Mekanisering av media: diskretisering– Sampling– Kvantisering

• Möjliggör mekaniska operationer– Upprepning, loopning– Utsträckning i tid– Gradvis modifiering / modulering– Överlagring (”compositing”)

• Har även använts inom ljudkonst och musik

Page 31: PROSODINS MEKANIK talande maskiner och maskinellt tal

”Cross-synthesis” (Dodge)• Analys – manipulation – syntes

– Tal samplas och analyseras som parametrar som kodas digitalt (vanligtvis LPC)

– Valda parametrar manipuleras– Återsyntes med manipulerade parametrar

• Vanliga operationer– Kopiera parametrar från en sekvens till en annan; skapa

repetitioner– Interpolera värdet av en given parameter för en sekvens

(värde 1 -> värde 2)– Förläng en sekvens i tid– Ändra värdet på en parameter i en sekvens till ett fixt

värde– Öka värdet på en parameter i en sekvens till ett fixt värde

Page 32: PROSODINS MEKANIK talande maskiner och maskinellt tal

Ljudkonst och tal

• ”Konkret poesi”– Utgångspunkten är talets fysiska egenskaper,

snarare än innehållet– I Sverige: Fylkingen (Sten Hansson, Ilmar

Laaban, Åke Hodell mfl)

• EMS, Stockholm– 1960-tal– En av världens mest avancerade ljudstudios

(ryms numera på en billig PC)– Ej digital sampling, men analog teknik med

linkande möjligheter; dock mycket arbetsamt

Page 33: PROSODINS MEKANIK talande maskiner och maskinellt tal

Åke Hodell

• General Bussig *– Upprepning, gradvis modifiering– Noggrant modulerad prosodi, närmar sig

musik

• Igevär *– Utsträckning i det absurda– Från språkljudet abstraheras det språkliga

bort, kvar blir ett ljud som balanserar på gränsen mellan mänskligt och mekaniskt

Page 34: PROSODINS MEKANIK talande maskiner och maskinellt tal

Steve Reich

• Different Trains *• Använder talets prosodiska melodi som

grundmaterial för musikaliska figurer• Sampling, överlagring, upprepning• Melodi i tal och musik

– Tal: glidande toner (glissando)– Musik: diskreta toner – Transformation av F0 till melodi innebär en

ytterligare (manuell) ”sampling”, d v s diskretisering i tid och tonhöjd

Page 35: PROSODINS MEKANIK talande maskiner och maskinellt tal

Charles Dodge

• Sysslade tidigare med orkester- och kammarmusik

• Speech Songs (1972)– ”A man sitting in a cafe”– Detta är en dikt inläst av Dodge som

analyserats och återsyntetiserats – Modifierad F0, repetition, m.m.

• Any similarity is purely coincidental– ”cross synthesis” av inspelning av Caruso

Page 36: PROSODINS MEKANIK talande maskiner och maskinellt tal

Andra artister som använder talsyntes

• Nämnda i Computer Music:– Paul Lansky– Frances White– Judy Klein

• www.epitonic.com– 386DX– Gamers In Exile

• Samt ett flertal som använder vocoder

Page 37: PROSODINS MEKANIK talande maskiner och maskinellt tal

Sammanfattning

• Tal kan mekaniseras– samplas, analyseras, lagras, manipuleras och syntetiseras

• Exempel på detta är– Talsyntes

• Formantsyntes• Linear Predictive Coding

– Sångsyntes– Språkbaserad ljudkonst och musik

• Tal, även syntetiskt, bär emotioner– Vare sig man vill eller ej– Kan i viss mån kontrolleras– Kan utnyttjas i konstnärliga syften

• Mekaniskt tal är verkligen märkligt/konstigt/knäppt!– Varför?

Page 38: PROSODINS MEKANIK talande maskiner och maskinellt tal

• A: the consonant /d/ before a series of vowels having the same F1. The second formant transition appears to originate from an invisible locus at 1800 Hz, after Delattre et al. (1955).

• B: If the second formant onset frequency (hub) is fixed at 1800 Hz, left panel, several different consonants are heard.

 

Page 39: PROSODINS MEKANIK talande maskiner och maskinellt tal

En abstrakt lingvistisk

representation av en text genomgår ett antal

transformationer som resulterar i en akustisk

vågform

Text till tal:

Page 40: PROSODINS MEKANIK talande maskiner och maskinellt tal

Genusperspektiv?

• Talsyntes oftast manliga röster• Svårare att syntetisera kvinnliga röster?

– Svårare att analysera pga färre övertoner– Att minska storleken på den simulerade

munhålan samt höja F0 fungerar inte

• ”Mannen är normen”– De flesta analyser av tal utgår från manliga

talare– Inte konstigt att denna modell inte

omedelbart fungerar för att syntetisera kvinnligt tal