A/D- und D/A-Wandlung
A/D-Wandlung = Digitalisierunganaloges Signal wird in ein digitales Signal umgewandelt = Sampling und Quantisierung mittels A/D-Wandler (A/D-Converter = ADC)
Auflösung in Bit Geschwindigkeit
um digitale Weiterverarbeitung und Speicherung zu ermöglichen
Gegenstück D/A-Wandlung mittels D/A-Wandler (D/A-Converter = DAC)
Vom analogen zum digitalen Signal
analoges Signal
Abtastung Zeit wird diskret
Quantisierung Werte werden diskret
Abtastung (Sampling)
Input: zeitkontinuierliches und wertekontinierliches Signal
Output: zeitdiskretes, wertekontinuierliches Signal
Abtastrate = Anzahl der Abtastungen pro Sekunde
Abtastrate / Samplingfrequenz
Abtasttheorem
nach Nyquist/Shannon besagt, dass ein analoges Signal nach einer Digitalisierung
wieder vollständig rekonstruierbar ist, wenn die Abtastfrequenz mindestens doppelt so hoch wie die größte enthaltene Signalfrequenz ist
fabtast > 2 fmax sonst tritt Aliasing auf (hohe Frequenzen werden als
niedrigere Frequenzen interpetiert)
für Sprachanalysen übliche Abtastfrequenz: 16 kHz weil das Sprachsignal nur Frequenzen bis etwa 7 kHz enthält
Quantisierung
Quantisierungsfehler
Spektrum
(meist grafische) Darstellung der Eigenschaften eines Signals spektrale Eigenschaften = Energie aller enthaltenen
Frequenzen eines Signals
200 Hz
100 Hz
Spektren verschiedener
Signale
aua
Beispiele Signal und Wasserfallspektrogramm
Beispiel Spektrogramm
Akustische Modelle der Sprachproduktion
Quelle-Filter-Modell
Röhrenmodell
Perturbation Model (Formantverschiebung)
Quelle–Filter–ModellSchematische Darstellung
Quelle-Filter-Modell
Quelle = Anregungssignal oder Primärsignal im Kehlkopf erzeugter Primärschall Grundfrequenz mit ihren Vielfachen (Obertöne, Harmonische) Spektrum ähnelt dem Spektrum der Sägezahnschwingung
(Dämpfung von -12 dB / Oktave) Filter = Artikulationstrakt
Veränderung der Anregungssignals durch Resonanzfrequenzen (Dämpfung bestimmter Frequenzbereiche)
Filterfunktion verändert sich ständig mit der Artikulation(aber: Gesamtverstärkung von +6 dB / Oktave)
Engstellen wirken als zusätzliche Rauschgeneratoren (nicht-periodische Schwingungen)
an den Lippen abgestrahltes Schallsignal = Ergebnis der Faltung von Quellsignal und Filterfunktion
gewöhnlich: spectral slope von –6 dB / Oktave
Quelle-Filter-Modell
Literatur zum Quelle-Filter-Modell
Gunnar Fant (1960): Acoustic theory of speech production
Gerold Ungeheuer (1962): Elemente einer akustischen Theorie der Vokalartikulation
Röhrenmodell
Modellierung des Vokaltrakts aus Rohrstücken mit verschiedenen Durchmessern
vereinfachtes Röhrenmodell
Annahme: gesamter Vokaltrakt ist eine homogene Röhre von 17cm Länge Durchmesser ist relativ gering zur Länge gleichbleibender Querschnitt Glottis = schallhartes, geschlossenes Ende totale Reflexion Lippen = offenes Ende
Stehende Wellen
entstehen durch Überlagerung von 2 gegenläufigen Wellen (gleiche f, gleiche A) aus 2 Quellen durch Reflexion einer Welle an einem Hindernis
Beispiel: einseitig geschlossenes Rohr geschlossene Seite ist Hindernis Reflexion
Anwendung: Musikinstrumente
Vermeidung: Konzertsaal
Formanten
sind Energiemaxima im Spektrum entstehen aufgrund der Resonanzeigenschaften des
Artikulationstraktes abhängig von Größe und Form des Artikulationstraktes
sind unabhängig von der Grundfrequenz kennzeichnend für Vokale sind der 1. und 2. Formant
bestimmen die Klangfarbe und damit den Vokal sind am stärksten variabel abhängig von Kieferöffnung (F1) und Artikulationsstelle
(vorn-hinten, F2)
Bandbreite Mittenfrequenz wird als Formantfrequenz angegeben
Berechnung des 1. Formanten des schwa-Lautes (im vereinfachten Röhrenmodell)
= 1. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¼ der Wellenlänge
f = c / λ = 340 m/s : (17cm * 4) = 500 Hz
2. Formant
= 2. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei ¾ der Wellenlänge
f = c / λ = 340 m/s : (17cm * 4/3) = 1500 Hz
Rohr mit 1.3.5. stehender Welle
3. Formant sowie alle weiteren
= 3. Eigenfreuenz (Resonanz, stehende Welle) des Rohres bei 5/4 der Wellenlänge
F3 = c / λ = 340 m/s : (17cm * 4/5) = 2500 Hz F4 = c / λ = 340 m/s : (17cm * 4/7) = 3500 Hz F5 = c / λ = 340 m/s : (17cm * 4/9) = 4500 Hz
allgemeine Formel: Fn = c (n-1) / 4 L
Dynamische Querschnittsveränderungen
Resonanzfrequenzen des nicht querschnittsneutralen Artikulationstraktes lassen sich nicht wie beim neutralen Rohr veranschaulichen
beim Sprechen: dynamische Veränderungen des Querschnitts beeinflussen die Frequenzen
der Resonanzen Verengung an den Lippen oder
Erweiterung an der Glottis: Absenkung der Frequenz des
1. Formanten
Einfluss lokaler Querschnittsveränderungenauf die Lage der Formanten
nach Tillmann (1980)
Sigma Querschnittsfläche, L Rohrlänge
Formantverschiebung(Perturbation Model)
Erhöhung (+) bzw. Verminderung (-) der ersten drei Formanten aufgrund der Verschiebung der lokalen Verengung des Artikulationstraktes
Spektrale Eigenschaften: Vokale
Formanten Einfluss Kieferöffnung auf 1. Formanten:
große Öffnung hoher F1z.B. / a /
kleine Öffnung niedriger F1z.B. / i /
Einfluss Artikulationsstelle auf den 2. Formanten: vorn an den Lippen hoher F2
z.B. / i / hinten am Rachen niedriger F2
z.B. / u /
Sonagramme i, u, a
Zusammenhang zwischen artikulatorischen und akustischen Eigenschaften der Vokale
Spektrale Eigenschaften: Glides und Liquide
sind Sonoranten und damit den Vokalen sehr ähnlich periodisch, energiereich, aber etwas schwächer als Vokale größter Teil der Energie steckt in den unteren Formanten
Glides = Halbvokale, z.B. /j/ sind transient, haben kürzere stationäre Phase als Vokale
Liquide, z.B. /l/ und /r/ sehr ähnlich zu Vokalen, nur sind ihre Formanten etwas
schwächer /l/ hat Antiresonanz im Bereich von F2-F4
Beispiele Liquide, Glides - Sonagramme
Spektrale Eigenschaften: Nasale
Ähnlichkeit zu Vokalspektren, aber schwächer weil zusätzliche Dämpfung im Nasenraum
Formanten erscheinen nicht nur in 1-kHz-Abständen, sondern etwa alle 850 Hz weil insgesamt größere Länge des Artikulationstraktes F1 bei 250 Hz dominiert, F2 ist sehr schwach, F3 bei 2200 Hz
„Antiformanten“ (keine Energie) zwischen 750-1250 Hz bei /m/ 1450-2200 bei /n/ über 3 kHz bei //
Sprünge im Spektrum bei Zu- und Abschaltung des Nasenraumes (Änderung der
Stellung des Gaumensegels = Velum)
Beispiele Nasale - Sonagramme
Spektrale Eigenschaften: Frikative
Spektren sind sehr verschieden von denen der Sonoranten: aperiodisch geringere Intensität
aufgrund einer starken Verengung im Vokaltrakt, an der starke Verwirbelungen (Turbulenzen) auftreten, die sich in Rauschen äußern
größter Teil der Energie in den hohen Frequenzen
mit oder ohne Stimmbeteiligung voice bar
Stimmlose Frikative
keine Stimmbeteiligung kein Primärschall Rauschquelle im Artikulationstrakt
nur der Teil des Artikulationstraktes, der zwischen Engstelle und Lippenöffnung liegt, wird zum Schwingen angeregt
wenig tieffrequente Anteile im Signal Hochpass-Spektren mit Grenzfrequenz, die ungefähr
umgekehrt proportional zur Länge des angeregten Mundraumes ist
Intensität: palatale Frikative (s, ) sind am energiereichsten dentale und labiale Frikative besitzen die geringste Energie alveolare Frikative liegen dazwischen /h/ hat ebenfalls wenig Energie, da an der Glottis
normalerweise ein schwächeres Rauschen als bei oralen Konstriktionen erzeugt wird
Stimmhafte Frikative
mit Stimmbeteiligung 2 akustische Quellen Primärschall und Rauschen aufgrund der oralen Verengung
Voice-bar (Stimmbalken) = energiereiches Frequenzband bei etwa 150 Hz (F0) und
können Formantstrukturen aufweisen, falls die stimmliche Anregung alle Resonanzen des Vokaltraktes anregt
weitere Eigenschaften: /v/ ist fast periodisch, mit nur geringem Rauschanteil /z/ und // weisen starke Energie besonders im
hochfrequenten Bereich auf (wie /s/ und //)
Beispiele Frikative - Sonagramme
Spektrale Eigenschaften: Plosive
akustisch komplex, kein stationäres Spektrum Phasen:
Verschluss, Burst, (Friktion), Aspiration
Verschlussphase ist entweder ruhig (keine Energie im Spektrum sichtbar) oder deutliche Voicebar (bei stimmhaften Plosiven) meist geringe Energie für 20-120 ms während des
Verschlusses
Phase der Verschlusslösung kurze Geräusch-Explosionsphase
regt alle Resonanzfrequenzen an, am stärrksten die, die denen eines Frikativs am gleichen Artikulationsort entsprechen
Plosive II
Friktionsphase Friktionsgeräusch an der sich öffnenden Verengung für
weitere 10-40 ms (stimmhaft, bei stimmlosen länger) Anregung höherer Resonanzfrequenzen, weil die
Artikulationsposition für den nachfolgenden Sonoranten eingenommen wird
Aspirationsphase normalerweise nur bei stimmlosen Plosiven (kann in einigen
Sprachen auch bei stimmhaften Plosiven auftreten) nicht-aspirierte Plosive weisen bei tiefen Frequenzen geringe
periodische Energie auf
Beispiele Plosive - Sonagramme
Spektralanalyse
Grundlage:jedes beliebige komplexe Signal kann in Komponenten zerlegt werden, die nur aus Sinusschwingungen bestehenSumme der Sinusanteile = Gesamtsignal
Fourier-Analyse:= schrittweises Abtasten des Signals nach Komponentfrequenzen Vorgehen: 1. Fensterung
2. syst. Vergleich mit Sinusschwingungen derFrequenzen, die in das Fenster passen
Abhängigkeit von Frequenz- und Zeitauflösung
Ergebnis: Kurz- oder Langzeitspektrum
Überlagerung von Sinuswellen
Überlagerung von Sinustönen verschiedener Frequenz Addition der Einzeltöne = komplexes Signal
Einfluss der Phasenlage
Spektrogramm
Aneinanderreihung vieler Kurzzeitspektren zusätzlich zeitliche Dimension Darstellung quasi-dreidimensional (oder seltener als
Wasserfallspektrogramm = perspektivisch)
dazu notwendig: viele Spektralanalysen in kurzen, sich leicht überlappenden
Zeitintervallen Fensterung
Ergebnis: je nach gewählter Zeit- und Frequenzauflösung
Schmalbandspektrogramm oder Breitbandspektrogramm
Breitbandspektrogramm zeigt Eigenschaften des
Filters = Resonanzfunktion des Artikulationstraktes Formanten
Schmalbandspektrogramm zeigt Eigenschaften des
Quellsignals = Harmonische
Fensterung
notwendig, weil das Signal (normalerweise) nicht periodisch ist, aber nur periodische Signale per Fourieranalyse in ihre Komponenten zerlegt werden können
Fensterung = zeitliche Aufteilung des Signals in gleich große Abschnitte, von denen jeder als periodisch angesehen wird
Analyse wird für jedes Fenster durchgeführt, sodass für jeden Abschnitt als Ergebnis ein Spektrum vorliegt
Fensterbreite = zeitliche Auflösung bestimmt die Frequenzauflösung (indirekt proportional) nicht frei wählbar muss Zweierpotenz sein
an den Rändern des Fensters kommt es zu Störungen
Fensterfunktionen
Arten Rechteck Dreieck Hamming Hanning Blackman sowie weitere, aber am besten ist Gauß
Kriterien Symmetrie Breite der Hauptkeule (möglichst schmal) Anzahl und Amplituden der Nebenkeulen (mögl. niedrige Ampl.) Maximaler Abtastfehler
Bild Fenstertypen