wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka...
TRANSCRIPT
![Page 1: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/1.jpg)
Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy
Wykonano w ramach projektu: Lingwistyczny warsztat do analizy i rozpoznawania mowy
NCN nr DEC-2011/03/D/ST6/00914
Bartosz Ziółko, Magdalena Igras Katedra Elektroniki
Zespół Przetwarzania Sygnałów
Zespół Przetwarzania Sygnałów
![Page 2: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/2.jpg)
Plan prezentacji
O pracach Zespołu Przetwarzania Sygnałów
System rozpoznawania mowy
Modelowane cechy prozodyczne
Pauzy
Iloczasy fonemów
Kontury intonacyjne
Cechy energetyczne
Sylaby
Modelowanie akcentów i końców zdań
Ironia prozodycznie
Przykłady zastosowania wyników badań
![Page 3: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/3.jpg)
Prace Zespołu Przetwarzania Sygnałów
dsp.agh.edu.pl
System rozpoznawania mowy
=> Interfejsy głosowe
System rozpoznawania mówcy
Przetwarzanie języka naturalnego
=> Systemy dialogowe
Silnik audio dla gier
RAYAV
![Page 4: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/4.jpg)
System automatycznego rozpoznawania mowy polskiej
• Nowa wersja Sarmaty (XI 2013) osiągnęła średnią skuteczność 97,7% w testach na przeszło 5 000 nagranych wypowiedziach.
• W 99,6% przypadków prawidłowa hipoteza była w pierwszej trójce listy najsilniejszych hipotez.
![Page 5: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/5.jpg)
Przepływ danych w systemie AGH
Nagranie
VAD
Mowa
Dla każdej paczki:
![Page 6: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/6.jpg)
Przepływ danych w systemie AGH
parametryzacja:
Segmentacja i partycjonowanie
Wyniki
• Możliwości:
– Dekompozycja Falkowa (18 cech) + DCT
– MFCC – 13 Filtrów + Energia, Pochodna + Druga pochodna + DCT + FeatureWarping => 39 cech
• Modelowanie cech przy użyciu 20-sto elementowych GMM
• Segmentacja równomierna 20ms, z przesunięciem co 10ms
![Page 7: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/7.jpg)
Transkrypcje - ortfon
• Zamiana zapisu ortograficznego na transkrypcję fonetyczną
• 37 klas fonemów podstawowych ( w wersji 2.0: 85 klas fonetycznych)
7
bezpieczeństwo jest bardzo ważne b|e|s|p|j|e|0|e|3|s|t|f|o|j|e|z|t|b|a|r|6|o|v|a|Z|n|e
minister środowiska powiedział ważne rzeczy m|i|3|i|s|t|e|r|5|r|o|d|o|v|i|s|k|a|p|o|v|j|e|X|a|w|v|a|Z|n|e|Z|e|0|y
wnoszę o przerwę w obradach v|n|o|S|e|o|p|S|e|r|v|e|v|o|b|r|a|d|a|x
![Page 8: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/8.jpg)
Niedoskonałości systemu
System automatycznego
rozpoznawania mowy tworzy
bezpośrednie transkrypcje zawartości
akustycznej nagrania
Bez interpunkcji
Bez wielkich liter
Łącznie z nieciągłościami
i sygnałami akustycznymi
niebędącymi mową
Takie transkrypcje są mało czytelne dla użytkownika i mniej
przydatne dla systemów przetwarzania języka naturalnego
Tracone są informacje paralingwistyczne i nielingwistyczne
![Page 9: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/9.jpg)
Wyzwanie: przetwarzanie mowy spontanicznej
• Regularna prozodia
• Brak nieciągłości
• Poprawność składniowa
• ’Ukryta’ interpunkcja
• Nieciągłości
• Częste błędy
Mowa czytana
Mowa spontaniczna
![Page 10: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/10.jpg)
Rodzaje cech w systemach rozpoznawania mowy
Wysokopoziomowe:
• Pauzy
• Intonacja
• Długość głosek
• Energia sygnału
Niskopoziomowe:
• MFCC
• falkowe
• n-gramy
• Zawartość semantyczna
• Szyk zdania
• Reguły gramatyczne
Cechy akustyczne
Cechy językowe
![Page 11: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/11.jpg)
Cecha 1: pauzy Typy pauz akustycznych w nagraniach mowy
• Pauzy ciche (s_p)
• Pauzy oddechowe (b_p)
• Pauzy wypełnione (f_p)
yyy, mmm, hmm, yh
![Page 12: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/12.jpg)
Źródła pauz w mowie
• regularne naturalne pauzy związane z czynnością respiracyjną (b_p)
• nieregularne intencjonalne pauzy, używane celowo jako środek wyrazu, zwłaszcze przez profesjonalnych mówców (s_p)
• nieregularne nieintencjonalne nieciągłości, efekt wahania, niepewności lub krótkiego namysłu (f_p lub s_p)
![Page 13: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/13.jpg)
Analizowany zbiór nagrań
monologi:
• 30 min monologów spontanicznych (prezentacje, przemówienia)
• 30 min tłumaczeń w czasie rzeczywistym
• 60 min wywiadów radiowych
• 15 min mowy czytanej
• Niedoświadczeni i profesjonalni mówcy (łącznie 30 mówców)
![Page 14: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/14.jpg)
Statystyki fraz
Nagrania Ilość
słów/min
Ilość kropek /min
Średnia długość
zdania [s]
Ilość słów w zdaniu
Ilość przecinków /min
Średnia długość frazy [s]
Ilość słów we
frazie
Prezentacje 11 ,9 (24,3)
6,2 (2,4)
10,9 (3,7)
19,6 (5,8)
19,4 (6,0)
3,3 (0,8)
4,4 (1,0)
Tłumaczenia 117,2 (20,1)
6,6 (2,0)
10,0 (3,2)
19,1 (4,7)
14,6 (3,3)
4,3 (1,0)
4,6 (0,8)
Wywiady radiowe
129,7 (29,1)
9,9 (3,3)
6,7 (2,3)
13,9 (3,3)
16,1 (4,2)
2,5 (0,8)
5,4 (0,8)
Średnia 117,6 (23,8)
7,1 (2,8)
9,7 (3,5)
18,2 (5,3)
16,8 (5,1)
3,5 (1,1)
4,7 (0,9)
![Page 15: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/15.jpg)
![Page 16: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/16.jpg)
Pauzy oddechowe
Oddechy w sygnale mowy
![Page 17: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/17.jpg)
Pauzy oddechowe
Średnia fizjologiczna częstość oddechu zmienia się wraz z wiekiem:
• 40-50 oddechów/minutę u noworodków i niemowląt,
• 18-25 u dzieci,
• 12-20 u osób dorosłych.
Stany patologiczne:
• > 35 oddechów/min
• < 8 oddechów/min.
Podczas produkcji mowy: 10,8(3,4) / min
![Page 18: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/18.jpg)
Dystrybucja długości oddechów u poszczególnych mówców
Mówcy
Dłu
go
ść o
de
ech
u
[ms]
![Page 19: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/19.jpg)
Automatyczna detekcja oddechów
1. Normalizacja amplitudy względem średniej energii sygnału
2. Sygnał jest analizowany w obrębie ramek o długości 20 ms z zakładką 10 ms
3. Wskazane zostają regiony sygnału spełniające kryterium czasu, energii i F0:
• lokalna energii sygnału na poziomie 0.05 - 0.4 max. amplitudy sygnału
• przez czas dłuższy niż 150 ms.
• brak F0.
4. Dla wskazanych fragmentów sygnału wyznaczane są wartości energii w poszczególnych pasmach częstotliwościowych transformacji falkowej.
5. Podobieństwo do wzorców liczone jest algorytmem DTW.
F0
energia
![Page 20: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/20.jpg)
Wypełnione pauzy
Proporcje częstości użycia wypełnionych pauz
sygnalizujących interpunkcję
Nagrania #f_p(yyy)/min #f_p(mmm)/min
Prezentacje 6,5(5,5) 0,6(0,9)
Tłumaczenia 5,8(3,5) 0,9(1,0)
Radiowe 7,4(3,6) 1,27(1,14)
Średnia 6,4(4,3) 0,9(1,0)
![Page 21: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/21.jpg)
Automatyczna detekcja wypełnionych pauz
formanty
F0
![Page 22: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/22.jpg)
0 50 100 150 200 250 300 3500
50
100
150
200
0 50 100 150 200 2500
50
100
150
200
250
300
350
400
0 50 100 150 200 250 3000
100
200
300
400
500
600
700
Cecha 2: Długość głoski
Dystrybucja lognormalna długości realizacji przykładowych fonemów:
/a/ /r/
/sz/
2
2)
2(
2
1)(
x
exf
2
2)
2
ln(
22
1)(
x
ex
xf
![Page 23: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/23.jpg)
Długość głosek
Średnie długości i ich odchylenia standardowe
sp l j r ni g d n l_w y t f i mb N u k h p e odziz a rzdzzidrzc ciszs sicza_e_20
40
60
80
100
120
140
160
180
200
220
Phonemes
Mea
n d
ura
tio
ns o
f p
ho
ne
me
s a
nd
th
eir
sta
nd
ard
devia
tio
ns [
ms]
![Page 24: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/24.jpg)
Mapa polskich fonemów
Względna długość
Wzglę
dna e
nerg
ia
![Page 25: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/25.jpg)
Cecha 4: częstotliwość podstawowa (F0)
• Algorytmy: oparte na ZCR, autokorelacji, spectrum; RAPT, YAAPT
• Modelowanie regresją liniową lub wielomianami
0 2 4 6 8 10 12 14 1695
100
105
110
115
120
125
130
dF0
dt
tg α= dF0/dt
α
Mean F0
Max F0
Min F0
F0 [H
z]
czas [ramki]
![Page 26: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/26.jpg)
Modelowanie F0
czas [ramki]
F0 [H
z]
![Page 27: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/27.jpg)
Algorytm segmentacji na sylaby
Detekcja słów w sygnale mowy
Na podstawie wartości progowej oraz wartości średniej, w sygnale znajdujemy fragmenty odpowiadające wyrazom lub połączonym ciągom wyrazów.
![Page 28: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/28.jpg)
Algorytm segmentacji na sylaby (Mermelstein 1975)
Rekurencyjne wywoływanie algorytmu Convex Hull.
Warunek zatrzymania algorytmu:
Długość segmentu < minimalna długość sylaby (80 ms)
Wartość d < wartość progowa
![Page 29: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/29.jpg)
Algorytm segmentacji na sylaby
Procent Delecji / usunięcia/ (d)
Procent Insercji /wstawienia/ (i)
Accuracy ( h - i) / (h + d)
Ins = 2.4%
Del = 4.7%
Acc = 93.0%
![Page 30: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/30.jpg)
Końce zdań
Cechy prozodyczne Cechy funkcjonalne
koniec zdania
pauzy
iloczas
energia
F0
![Page 31: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/31.jpg)
Korelacje pomiędzy pauzami a interpunkcją (mowa spontaniczna)
Różne typy pauz determinujące:
kropki przecinki
![Page 32: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/32.jpg)
Korelacje pomiędzy pauzami a interpunkcją
0
10
20
30
40
50
60
n_p. s_p. f_p. b_p. n_p, s_p, f_p, b_p,
kropki przecinki
czytana
spontaniczna
![Page 33: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/33.jpg)
0 0.5 1 1.5 2 2.5 3 3.50
1000
2000
3000
4000
5000
6000
7000
8000
Zmiana długości głosek na końcach zdań
No o
f occure
nces
0 0.5 1 1.5 2 2.5 3 3.50
100
200
300
400
500
600
700
Duration ratio
Duration ratio
88.5%
Mean:1.54
![Page 34: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/34.jpg)
Zmiana długości głosek na końcach zdań
Model Gaussowski:
Jakość dopasowania
RMSE: 0.0327
0.5 1 1.5 2 2.5 30
0.1
0.2
0.3
0.4
0.5
0.6
0.7
y vs. x
fit 1
2)92.0
68.2(
747.0)(
x
n edf
Względna długość
Pra
wdopod
obie
ństw
o w
ystą
pie
nia
Końca z
dania
2
2)
2(
2
1)(
x
exf
![Page 35: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/35.jpg)
Zmiana długości głosek na końcach zdań
![Page 36: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/36.jpg)
Modelowane prawdopodobieństwo wystąpienia końca zdania
nmj e j s7enaobe j Ze3ek t u regova r t opSezna0y8 t yXe3a l bo f tSyd3 i mj as t ok t u regob l i SSepozna3evymagamj e5 i en7y t u r y0
0.1
0.2
0.3
0.4
0.5
0.6
JPA28
![Page 37: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/37.jpg)
Zmiany energii głosek na końcach zdań
Współczynnik energii
Ilość w
ysta
pie
ń
0 0.5 1 1.5 2 2.5 3 3.50
2000
4000
6000
8000
10000
12000
0 0.5 1 1.5 2 2.5 3 3.50
100
200
300
400
500
mean: 0.6
86.5%
Współczynnik energii
Średnia: 0,6
86,5%
![Page 38: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/38.jpg)
Zmiany energii głosek na końcach zdań
Względna energia
Pra
wdopod
obie
ństw
o w
ystą
pie
nia
Końca z
dania
![Page 39: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/39.jpg)
Zmiany mocy głosek na końcach zdań
Współczynnik mocy
Ilość w
ystą
pie
ń No of
occurrenc
es
0 0.5 1 1.5 2 2.5 3 3.50
2000
4000
6000
8000
10000
12000
0 0.5 1 1.5 2 2.5 3 3.50
50
100
150
200
250
mean: 0.36
99.6%
Współczynnik mocy
99,6%
Średnia: 0,36
Ilość w
ysta
pie
ń
![Page 40: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/40.jpg)
Zmiany mocy głosek na końcach zdań
0 0.5 1 1.5 2 2.50
0.02
0.04
0.06
0.08
0.1
0.12
0.14
y vs. x
fit 1
Względnia moc
Pra
wdopod
obie
ństw
o w
ystą
pie
nia
Końca z
dania
![Page 41: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/41.jpg)
Akcenty
Cechy prozodyczne Cechy funkcjonalne
akcent
iloczas
energia
F0
![Page 42: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/42.jpg)
Accents | phonemes duration
0 0.5 1 1.5 2 2.5 30
0.5
1
1.5
2
2.5
3x 10
4
Względna długość
Ilość w
ystą
pie
ń
![Page 43: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/43.jpg)
Accents | phonemes energy
0 0.5 1 1.5 2 2.5 30
5000
10000
15000
Względna energia
Ilość w
ystą
pie
ń
![Page 44: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/44.jpg)
Accents | phonemes power
0 0.5 1 1.5 2 2.5 30
2000
4000
6000
8000
10000
12000
14000
16000
18000
Względna moc
Ilość w
ystą
pie
ń
![Page 45: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/45.jpg)
Zmiana F0 w miejscach samogłosek akcentowanych
Samogłoska Średnia F0 wszystkich
samogłosek [Hz]
Średnia F0 Akcentowanych samogłosek [Hz]
Zmiana dla akcentowanych [Hz]
'a' 164 170 + 6 'a_' 155 168 +13 'e' 163 173 +10 'e_' 164 171 + 7 'o' 160 162 +2 'u' 170 180 +10 'i' 156 159 +3 'y' 172 180 +8
![Page 46: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/46.jpg)
Podsumowanie
akcenty Końce zdań
ꜛ iloczas
ꜜ energia, moc
ꜜ F0
ꜛ iloczas
ꜛ energia, moc
ꜛ F0
0,9
0,95
1
1,05
1,1
1,15
1,2 duration
energy
power
F0
average
accents
0
0,5
1
1,5
2 duration
energy
power
F0
average
sentence ends
![Page 47: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/47.jpg)
Rozkład cech głosek akcentowanych i końcowych
Względna długość
Wzglę
dna e
nerg
ia
![Page 48: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/48.jpg)
Ironia
• zamaskowana kpina, drwina zawarta w pozornej aprobacie; lekki sarkazm, ujęty w wypowiedź, której zamierzony sens jest odwrotnością dosłownego znaczenia słów
• w powiązaniu z kontekstem
• środek wyrazu, emocja złożona, postawa emocjonalna?
• ton ironiczny jest dodatkową informacją niesioną przez sygnał mowy – reprezentującą postawę emocjonalną wobec wypowiadanej treści
![Page 49: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/49.jpg)
Percepcja ironii
Testy percepcyjne nagrań
oryginalnych
Emocja prezentowana w nagraniu
złość zdziw ironia neutr. smutek radość strach
Ro
zp
ozn
an
ie
złość 75,0 2,7 2,8 1,4 0 1,4 2,7
zdziwienie 0 58,1 15,3 6,9 0 2,7 9,5
ironia 1,4 23,0 66,7 2,8 0 20 6,8
neutralny 0 1,4 2,8 56,9 10,3 5,5 1,4
smutek 2,8 0 1,4 6,9 78,2 0 12,2
radość 1,4 5,4 4,2 2,8 0 32,9 0
strach 2,8 2,7 0 1,4 2,6 0 35,1
nierozpoznane 16,7 6,8 6,9 20,8 9,0 35,6 32,4
![Page 50: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/50.jpg)
Percepcja ironii
Testy percepcyjne nagrań
bez treści
Emocja prezentowana w nagraniu
złość zdziw ironia neutr. smutek radość strach
Ro
zp
ozn
an
ie
złość 30 10 10 5 20 0 0
zdziwienie 0 80 10 0 0 0 0
ironia 20 10 40 15 10 20 10
neutralny 20 0 10 35 30 20 0
smutek 0 0 10 20 30 0 0
radość 10 0 0 10 0 30 0
strach 10 0 10 5 0 10 70
nierozpoznane 10 0 10 10 10 20 20
![Page 51: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/51.jpg)
Cechy prozodyczne ironii
• Kadencja F0, szczególnie w końcowej części frazy
• Większe odchylenie standardowe F0
• Wzrasta iloczas wypowiedzi
• Silniejsze akcentowanie
• Zmiana stosunku iloczasu sąsiadujących sylab w akcentowanym wyrazie
![Page 52: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/52.jpg)
Znaczenie prac badawczych nad środkami prozodycznymi w technologii mowy
System rozpoznawania mowy
Synteza mowy
Interfejsy głosowe, systemy
dialogowe
System rozpoznawania mówcy
Detekcja emocji w mowie
System detekcji oddechu
w sygnale mowy
Systemy wspomagające
szkolenie mówców
Źródło informacji dla modelowania
języka
Cechy biometryczne
Związek z emocjami
Aspekt medyczny
Aspekt szkoleniowy
![Page 53: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/53.jpg)
Dziękujemy za uwagę
{bziolko,migras}@agh.edu.pl
![Page 54: Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka …prozodia_semantyka_ziolko... · 2014. 6. 11. · Przetwarzanie języka naturalnego => Systemy dialogowe](https://reader036.vdocuments.pub/reader036/viewer/2022071014/5fcc9159cb02a45a9a2aa9f3/html5/thumbnails/54.jpg)
Bibliografia
1. M. Igras, B. Ziółko „Different types of pauses as a source of information
for biometry”, MAVEBA, Florence, 2013
2. M. Igras, B. Ziółko, M. Ziółko ”Length of Phonemes in a Context of Their
Positions in Polish Sentences”, SIGMAP 2013, The International
Conference on Signal Processing and Multimedia Applications,
Reyklavik.
3. M. Igras, B. Ziółko, ”Wavelet method for breath detection in audio
signals”, IEEE ICME, San Jose, 2013.
4. M. Igras, B. Ziółko ”Modelowanie i detekcja oddechu w sygnale
akustycznym”, Modelowanie i Pomiary w Medycynie 2013, Krynica.
5. M. Igras, B. Ziółko ”Rodzaje pauz akustycznych i ich konotacje z
interpunkcją w transkrypcjach mówionego języka polskiego”, Bogactwo
współczesnej polszczyzny, Kraków 2013.
6. M. Igras, B. Ziółko, „Rodzaje pauz akustycznych i ich korelacje z
interpunkcją w transkrypcjach mówionego języka polskiego” w Piotr
Żmigrodzki [red.], Sylwia Przęczek-Kisielak [red.] Bogactwo
współczesnej polszczyzny, Towarzystwo Miłośników Języka Polskiego,
2014.