stimmliche charakteristika bei globaler und lokaler ... · ÎÄnderung der stimmqualität zu...
TRANSCRIPT
Stimmliche Charakteristika bei globaler und lokaler Lautstärkevariation
Christine Mooshammer& Jennifer Schneeberg
Institut für Phonetik und digitale SprachverarbeitungChristian-Albrechts-Universität KielDeutschland
DAGA 2005 München
Einführung
Globale Lautstärkeerhöhung primär: größerer subglottaler Luftdruck
Schnelleres Schließen der Stimmlippen ( höhere f0)
Flacher abfallendes Quellspektrum
sekundär: supralaryngale ArtikulationLängung der VokaleTieferer Kiefer bei Vokalen und damit höherer F1
DAGA 2005 München
Einführung
Lokale Lautstärkeänderung: = linguistisch bedingt: Akzentuierung
Wortakzent in Sprachen mit dynamischen Akzent (z.B. „Tenor“)
Intensität als Hauptmerkmal neben Dauer und Grundfrequenz(s. Sweet 1906, Sluijter et al. 1996)
kontrolliert durch subglottalen LuftdruckNachweis: Änderung des spectral tiltsGilt auch in deakzentuierter Position, d.h. ohne Grundfrequenzunterschiede
DAGA 2005 München
EinführungSatzbetonung: realisiert durch melodische Unterschiede mittels Anpassung der Stimmlippenspannung
Hypothesen:I. Nur lexikalischer Wortakzent bewirkt ähnliche
Änderungen in den stimmlichen Parametern wie globale Lautstärkeänderungen, nicht aber der Satzakzent.
II. Unterschiede in der Wortbetonung sind unabhängig davon, ob das Wort satzbetont ist oder nicht.
DAGA 2005 München
Korpus1. Wortakzent
/ ze /
/ le / Lenor/len/
Lena/lena/
Senat/zenat/
Sehnen/zenn/
Unstressed[-S]
Stressed[+S]
DAGA 2005 München
Korpus2. Satzbetonung: Frage-Antwort Paradigma
(durch Variation des Fokus + Emphase)
FOCUS [+F]Q: Wolltest Du Dir Friedas Buch ausleihen?A: Nein, ich wollte Lenas Buch ausleihen.
NON-FOCUS [-F]Q: Wie findest Du Lena?A: Ich hasse Lena und ihre Schusseligkeit.
DAGA 2005 München
Korpus3. Globale Lautstärkevariation
Sätze mit wortbetonten, fokussierten Testsequenzen wurden in drei Lautstärkebedingungen gesprochen:Normal (N)laut: „Sprich laut ohne zu schreien“ (L)leise: „Sprich leise ohne zu flüstern“ (S)
8 bis 9 Wiederholungen
DAGA 2005 München
Aufnahmen6 Sprecher aus Norddeutschland (20-30 Jahre alt, Nichtraucher, männlich)Akustik und Glottissignal (Lx) mittelsLaryngographie (Glottal Enterprises)Die erste Ableitung des Lx-Signals (DEGG) wurde mittels Differenzierung berechnet.Akustische Etikettierung mit Praat
DAGA 2005 München
Messungen LxHalbautomatische Etikettierung mittels EMU/RAlle Perioden während des Vokals /e/
Analysierte Parameter:a) f0 basierend auf dem DEGG Signalb) RMS basierend auf dem Audio-Signalc) Open Quotient OQd) Speed Quotient SQe) Steigungen der Öffnungs- und
Schließungsbewegungen (Oslope, Cslope)
DAGA 2005 München
MessungenOpen Quotient:100*top/TProblem: Festlegung des Zeitpunkts der Öffnung:
752 754 756 758 760
-3-2
-10
12
3
times
lxx
* 2
T
top1
1. Negativer Gipfel der ersten Ableitung = top1
top2
2. 4/7 Schwellwert (Howard‘s method) = top2
DAGA 2005 München
Messungen
Speed Quotient:100*tcl/top(10% Schwellwert)
736 738 740 742 744
-600
0-4
000
-200
00
2000
4000
6000
8000
timesl
data
l
SQ= 20.93
Schließung Öffnung
toptcl
CslopeCslope
Oslope
Oslope
DAGA 2005 München
Vorhersagen(basierend auf Marasek (1997), Zwei-Massen-Modell -> Lx-Signal aus Glottisfläche)
Problem: Trennung der Einflüsse des subglottalen Luftdrucks und der Stimmlippenspannung auf die EGG Parameter
=↑Oslope
=↑Cslope
↑(↓ )SQ
↑↓OQ
Focus≈Pitch
Stress≈ Loudness
Parameter
DAGA 2005 München
Stimmparameter: globale Lautstärke
• Bei lautem Sprechen: höhere f0 und größerer Bereich
• Signifikant tiefere f0 bei leisem Sprechen
100
140
180
f0 [H
z]
100
140
180
loud normal soft
/l//z/
Grundfrequenz
• Für alle Sprecher signifikante Unterschiede zwischen den Lautstärkeniveaus
5055
6065
7075
RM
S [d
B]
5055
6065
7075
loud norm al soft
/l//z/
Intensität
DAGA 2005 München
Stimmparameter: globale Lautstärke
• OQ vergrößert sich von laut und normal nach leise
• Konsistent für alle Sprecher
4050
6070
OQ
[%]
4050
6070
loud normal soft
/l//z/
Open Quotient
• Signifikant steilere Steigungen für lautes Sprechen
• Konsistent für laut-normal• Nur 3 Spr. für normal-leise
2000
6000
OSl
ope
2000
6000
loud normal soft
/l//z/
Steigung der Öffnungsbewegung
DAGA 2005 München
Stimmparameter: Prominenz
5560
6570
RM
S [d
B]
5560
6570
[+F,+S] [+F,-S] [-F,+S] [-F,-S]
/l//z/
Intensität
Fokus Non-Fokus
• /l/: Wortakzent bewirkt höhere Intensität bei +F und –F
•/z/: höhere Intensität bei –F nur bei 3 Sprechern
8012
016
0
f0 [H
z]
8012
016
0
[+F,+S] [+F,-S] [-F,+S] [-F,-S]
/l//z/
Grundfrequenz
Fokus Non-Fokus
Konsonanteneffekt bei [-F]:• /l/: F0 unterscheidet sich für
Wortakzent (aufgrund von 2 Sprechern)f0_stress.jpg
•/z/: F0 Neutralisation
DAGA 2005 München
Stimmparameter: ProminenzVorhersagen:• Wortakzent: [+S]<[-S]• Fokus: [+F]>[-F]
Wortakzent: • niedrigerer OQ für [+S] • ähnlich laut-normal
4555
6575
OQ
[%]
4555
6575
[+F,+S] [+F,-S] [-F,+S] [-F,-S]
/l//z/
Fokus: • meist niedriger für [+F] • entgegen Vorhersage
Open Quotient
[+F,+S] [+F,-S] [-F,+S] [-F,-S]
5052
5456
5860
/l//z/
Fokus Non-Fokus
DAGA 2005 München
Stimmparameter: Prominenz
Wortakzent: • [+F]: vier Sprecher zeigen
steilere Steigungen für [+S]• [-F]: 4 Sprecher /l/,
nur 1 Sprecher /z/Fokus: • In beiden Bedingungen
meist signifikanter Anstieg der Steigung für [+F]
[+F,+S] [+F,-S] [-F,+S] [-F,-S]
010
0020
0030
00 /l//z/
Fokus Non-Fokus
Vorhersagen:•Wortakzent: [+S]>[-S]•Fokus: [+F]=[-F]
Steigung der Öffnungsbewegung
DAGA 2005 München
Zsf.: StimmparameterLautes Sprechen: erhöhter subglottaler LuftdruckLeises Sprechen: weniger konsistente Druckunterschiede
Änderung der Stimmqualität zu behaucht?Wortakzent: Evidenz für höheren subglottalen Luftdruck nur bei fokussierten Wörter und hauptsächlich nach /l/Fokus: kaum Hinweise auf geänderte Stimmlippen-spannung, dafür Evidenz für erhöhten Luftdruck
Tentative Erklärung:1. Bestimmung des Zeitpunkts der glottalen Öffnung2. Verwendete Parameter könnten abhängig von der
Grundfrequenz sein (z.B. Steigungen).
DAGA 2005 München
2. FormanalyseAlternativer holistischer Ansatz: gesamte Wellenform bildet die Basis, z.B. PCA (Mokhtari et al. 2003) oder Functional Data Analysis (FDA, z.B. Ramsay)
0 200 400 600 800 1000
0.0
0.2
0.4
0.6
0.8
1.0
Normalized time
Nor
mal
ized
am
plitu
de
Input:• Mittlere zwei Perioden• Zeit- und amplituden-
normalisiert• 317 ItemsVerarbeitung:• Berechnung von Spline
Funktionen
DAGA 2005 München
Hauptkomponentenanalyse:Positiv: längere Geschlossenphase, steile Verschließbewegung, linksschiefNegativ: lange Offenphase, langsamere Verschließbewegung, symmetrischer Impuls
++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++
+++
0.1 0.2 0.3 0.4 0.5 0.6 0.7
0.0
0.4
0.8
PCA function 1 (Percentage of variability 64.3 )Normalized time
---------------------------------------------------------------------------------------
Click to advance to next plotHauptkomponente (64.3 %)
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
Alle Sprecher
Fakt
or 1
-0.0
50.
000.
05
Lena
Lenor
LautstärkeX
XX
FaktorscoresLautstärke:
Laut: pos. Werte Normal: Werte um nullLeise: neg. Werte
Wortakzent:„Lena“: positive Werte„Lenor“: negative Werte
Fokus: kein Unterschied
DAGA 2005 München
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
BD Var= 79-0
.10
0.00
0.10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
DP Var= 75
-0.1
00.
000.
10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
GA Var= 80
-0.1
00.
000.
10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
NU Var= 65
-0.1
00.
000.
10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
SB Var= 76
-0.1
00.
000.
10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
SZ Var= 76-0
.10
0.00
0.10
Lena Lenor Lena Lenor
Lautstärke
XX XXX
Signifikant für 5 Sprecher
Prominenz: keine signifikanten Effekte
DAGA 2005 München
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
BD Var= 71
-0.1
00.
000.
10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
DP Var= 81
-0.1
00.
000.
10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
GA Var= 76
-0.1
00.
000.
10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
NU Var= 75
-0.1
00.
000.
10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
SB Var= 76
-0.1
00.
000.
10
LAUT [+F,+S] [-F,+S] [+F,-S] [-F,-S] LEISE
SZ Var= 78-0
.10
0.00
0.10
Sehnen Senat Sehnen Senat
Prominenz:signifikanten Effekte bei DP
Lautstärke: signifikante Effekte bei 5 Sprechern
DAGA 2005 München
SchlussfolgerungenGlobale Lautstärkeveränderung: verändert die Form des glottalen PulsesWortakzent:
Sehr inkonsistente EffekteNur für einen Sprecher in die erwartete Richtung
Nachdem f0- und Amplitudenunterschiede entfernt wurden, ergeben sich keine Effekte für Wortakzent
DAGA 2005 München
Schlussfolgerungen (cont.)Warum keine Effekte bei Prominenz?
1. Unterschiede könnten zu subtil sein, um sich signifikant niederzuschlagen. Keine klare Tendenz erkennbar
2. Unterschiede zeigen sich nicht im Lx Signal aufgrund der bekannten ProblemeLautstärkeeffekte sind sehr konsistent
3. Wortakzent wird nicht durch Änderung des subglottalen Luftdrucks realisiertNeue Hypothese: Flacherer Abfall bei wortbetonten Vokalen ist eine Folge der laryngalen und/oder supralaryngalenArtikulation
DAGA 2005 München
AusblickParameter des spektralen Abfalls
spectral balance, spectral tilt und spectral emphasis??? Abhängig von Grundfrequenz ???
Systematischer Vergleich zwischen verschiedenen Maßen mittels Synthese
Supralaryngale Artikulation: Parameter wie Dauern und Formanten
Vorläufige Ergebnisse: große Unterschiede bei Wortakzent, aber nicht in Richtung lautes Sprechen nur selten konsistente Unterschiede für Fokus
Erhebung von artikulatorischen Daten