ukryte modele markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5....
TRANSCRIPT
![Page 1: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/1.jpg)
Ukryte Modele Markowa w rozpoznawaniu
słów
![Page 2: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/2.jpg)
Parametryzacja sygnału mowy
Widmo
Widmo ampl. [dB]
cepstrum
( ) ( ) ( )X k G k H k
log ( ) log ( ) log ( )X k G k H k
1 1 1( ) log ( ) log ( ) log ( )c n X k G k H k
![Page 3: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/3.jpg)
Parametryzacja sygnału mowy - cepstrum
![Page 4: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/4.jpg)
Parametryzacja sygnału mowy – mel-cepstrum
„przepróbkowanie” widma: X(k) -> S(k) (skala melowa)
X
S
Mel-cepstrum: MFCC(n) = F-1 [log |S(k)|] Co 5-10 ms mierzymy kilkanaście
współczynników MFCC:
Tworzą one wektory obserwacji
o1,o2,…,oT
![Page 5: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/5.jpg)
Modele obserwacji
Model ciągły (np. gaussowski)
Model dyskretny: kwantujemy wyniki obserwacji (kwantyzator wektorowy) i podajemy prawdopodobieństwa wystąpienia każdego z nich:
)( j
i ob
„i” jest indeksem modelu (np. określoną głoską), a „j” identyfikuje jeden ze
skwantowanych wektorów obserwacji
![Page 6: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/6.jpg)
HMM – dynamiczny model ciągu obserwacji
Np. „lalalalala…”
„l” „a”
Kolejne obserwacje dokonane podczas wypowiadania danej frazy są przypisywane
określonym stanom, tworząc ukryty ciąg stanów:
Q = [ q(1), q(2), ... , q(t), ..., q(T)]
gdzie q(t) jest jednym z N stanów: S1, S2 lub SN
Np. Dla „lalala”, T=6, N=2, Q=[S1,S2,S1,S2,S1,S2]
HMM l jest opisany następująco: l [A,B,p], gdzie A – macierz przejść między stanami,
B – modele (po jednym dla każdego stanu), p – prawdopodobieństwa startu (po jednym dla
każdego stanu)
![Page 7: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/7.jpg)
Topologie HMM
ergodyczny
Bakisa
równoległo-szeregowy
Sk stan
przejście aij
![Page 8: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/8.jpg)
Opis HMM
1
3 4
2
ergodyczny
[ ]4321
54535251
44434241
34333231
24232221
14131211
44434241
34333231
24232221
14131211
pppp
bbbb
bbbb
bbbb
bbbb
bbbb
B
aaaa
aaaa
aaaa
aaaa
A
A – macierz prawdopodobieństw
przejść między stanami
B – macierz prawdopodobieństw
wystąpienia zdarzenia w danym
w stanie
Π – wektor prawdopodobieństwa
inicjalizacji
1
1
1
![Page 9: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/9.jpg)
HMM szeregowy (Bakisa 1-go rzędu)
1 2 3 4
[ ]0001
000
00
00
00
54535251
44434241
34333231
24232221
14131211
44
3433
2322
1211
bbbb
bbbb
bbbb
bbbb
bbbb
B
a
aa
aa
aa
A
![Page 10: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/10.jpg)
HMM w rozpoznawaniu słów
- ciągłe modele gaussowskie
X - ciąg obserwacji
![Page 11: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/11.jpg)
Wpływ struktury HMM na rozpoznawanie
słów
Dobre właściwości dyskryminacyjne ma struktura
szeregowa z wymuszeniem dojścia do ostatniego węzła
![Page 12: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/12.jpg)
Projektowanie HMM – kryterium ML
(maximum likelihood)
![Page 13: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/13.jpg)
Właściwości dyskryminacyjne HMM
![Page 14: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/14.jpg)
Dyskryminacyjne metody projektowania
HMM
Minimum błędów klasyfikacji
![Page 15: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/15.jpg)
Dyskryminacyjne metody projektowania
HMM
Maksimum prawdopodobieństwa warunkowego
![Page 16: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/16.jpg)
Dyskryminacyjne metody projektowania
HMM
Maksimum odstępu (LM – large margin)
![Page 17: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/17.jpg)
Porównanie metod ML i LM
Wypowiedzi słowa „pięć”, uporządkowane rosnąco względem d(i,j),
i = ‘pięć’, j=‘dziewięć’
ML ML
LM LM
![Page 18: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/18.jpg)
Porównanie metod ML i LM
Wypowiedzi słowa „dziewięć”, uporządkowane rosnąco względem d(i,j),
i = ‘dziewięć’, j=‘pięć’
LM
ML
LM
ML
![Page 19: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/19.jpg)
Porównanie metod ML i LM
Wypowiedzi słowa „osiem”, uporządkowane rosnąco względem d(i,j),
i = ‘osiem’, j=‘oś’
ML
LM ML
LM
![Page 20: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/20.jpg)
Porównanie metod ML i LM
Wypowiedzi słowa „oś”, uporządkowane rosnąco względem d(i,j),
i = ‘oś’, j=‘osiem’
LM
ML
LM
ML
![Page 21: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/21.jpg)
Rozpoznawanie wypowiadanych cyfr
baza ucząca
0 10 20 30 40 50 60 70 80 90-8000
-7000
-6000
-5000
-4000
-3000
-2000
-1000
0testowana liczba: Cztery, zbiór uczacy
loglik
numer probki glosu
Praca mgr. Łukasz Marasek
![Page 22: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/22.jpg)
Rozpoznawanie wypowiadanych cyfr
test
Praca mgr. Łukasz Marasek
0 10 20 30 40 50 60-8000
-7000
-6000
-5000
-4000
-3000
-2000
-1000
0testowana liczba: Cztery, zbiór testowy
loglik
numer probki glosu
![Page 23: Ukryte Modele Markowa w rozpoznawaniu słówcygnus.tele.pw.edu.pl/psyt/slowa_hmm.pdf · 2014. 5. 29. · Modele obserwacji Model ciągły (np. gaussowski) Model dyskretny: kwantujemy](https://reader035.vdocuments.pub/reader035/viewer/2022071419/611781760ef2f4065f7c19e5/html5/thumbnails/23.jpg)
Rozpoznawanie mówców
wypowiedzi mówcy M3
baza ucząca test
HMM(M3)
HMM(M3)
HMM(M3)
ML HMM
18 CC
LM HMM
18 CC
LM HMM
18 CC +T0
CC - wsp. cepstralne, T0 – ton krtaniowy, ML – max likelihood, LM – Large Margin
Praca mgr. Marta Korbin