traitement de la parole 2006-06-23
DESCRIPTION
Traitement de La ParoleTRANSCRIPT
![Page 1: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/1.jpg)
TRAITEMENT DE LA PAROLEhttp://scgwww.epfl.ch/courses
Dr. Andrzej Drygajlo, ELE [email protected]
Speech Processing and Biometrics Group (GTPB)Laboratoire de l’IDIAP (LIDIAP)
Signal Processing Institute (ITS)Swiss Federal Institute of Technology Lausanne (EPFL)
National Center of Competence in Research (NCCR)“Interactive Multimodal Information Management (IM)2”
IDIAP Research Institute, Martigny
![Page 2: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/2.jpg)
Examen
• Question 1– Production et perception de la parole– Analyse et modélisation de la parole
• Question 2– Reconnaissance de la parole et du locuteur– Synthèse de la parole– Compression et codage de la parole
• Question 3– Calcul
20 minutes de préparatifs et 20 minutes de réponses
![Page 3: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/3.jpg)
Question 1
• Production et perception de la parole
1. Acoustique de la phonation2. Caractères des sensations auditives (sonie,
tonie)3. Effet de masque simultané (fréquentiel)4. Bandes critiques (échelles Bark et mel)
![Page 4: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/4.jpg)
Question 1
• Analyse et modélisation de la parole5. Analyse temporelle à court terme (énergie, puissance,
amplitude moyenne et passages par zéro)6. Autocorrélation à court terme, AMDF et estimation de la
periode du fondamental7. Analyse de Fourier à court terme et spectrogramme8. Analyse homomorphique: cepstre complexe, cepstre
réel et estimation des formants9. Modèle autorégressif de production du signal vocal et
prédiction linéaire, méthode de corrélation10. Algorithme de Levinson-Durbin, filtres d’analyse et de
synthèse en treillis11. Prédiction linéaire: spectre du modèle et estimation des
formants
![Page 5: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/5.jpg)
Question 2
• Reconnaissance de la parole et du locuteur
1. Reconnaissance de mots isolés. Comparaison dynamique de formes acoustiques
2. Reconnaissance de mots isolés. Méthode statistique: chaînes de Markov cachées, fonctions de densité de probabilité discrètes et continues
3. Algorithme de Baum-Welch et algorithme de Viterbi4. Réestimation des paramètres5. Reconnaissance du locuteur: méthodes déterministes6. Reconnaissance du locuteur: méthodes statistiques
![Page 6: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/6.jpg)
Question 2
• Synthèse de la parole
7. Synthétiseur à formants8. Synthétiseur à prédiction lineaire9. Synthèse de messages et synthèse à partir du
texte– Synthèse par diphones– Synthèse par règles
![Page 7: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/7.jpg)
Question 2
• Compression et codage de la parole
10. Modulation par impulsions codées (MIC-PCM) et quantification non uniforme
11. Codage MIC différentiel (MICD-DPCM)12. Codage MIC différentiel adaptatif (MICDA-
ADPCM) et quantification adaptative13. Codage en sous bandes14. Vocodeur et codeur prédictif excité par codes
(CELP)
![Page 8: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/8.jpg)
Question 3
Calcul1. Spectrogramme2. Coefficients cepstraux3. Coefficients de prédiction linéaire et d’énergie
résiduelle de prédiction4. Fréquence centrale du formant5. Coefficients de corrélation partielle6. Distance accumulée7. Probabilité totale et maximale d’émission8. Réestimation de paramètres du modèle9. "Segment list generation“10. Allocation de bits
![Page 9: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/9.jpg)
Spectrogramme (1)
![Page 10: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/10.jpg)
Spectrogramme (2)
![Page 11: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/11.jpg)
Coefficients cepstraux
![Page 12: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/12.jpg)
Coefficients de prédiction linéaire et d’énergie résiduelle de prédiction
On cherche à approcher le signal suivant:
, 0, , 1avec 0.5,
)4,
(1
nx n NN
npα
α = −= =
==
…
Ce signal est produit par un système autorégressif d’ordre 1:
1
( ) 1( )( ) 1 (1)
( ) (1) ( 1) ( )
ou ( ) ( ) (1) 0.5
X zT zU z a z
x n a x n u n
u n n et aδ α
−= =+ ⋅
= − ⋅ − +
= = − = −
![Page 13: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/13.jpg)
Fréquence centrale du formant
Soit
La fréquence d’échantillonnage de ce signal vaut .
La fonction de transfert du filtre inverse est calculée àl’aide de la méthode de corrélation de prédiction linéaire et pour l’ordre de prédiction et elle vaut:
Déterminer la fréquence de la sinusoïde .
2( ) sin( ) sinkx n n k nNπω ⎛ ⎞= ⋅ = ⋅ ⋅⎜ ⎟
⎝ ⎠
8 kHzef =
( )A z
2p = 8N =
1 2 2.3571 2.3571 2( ) 1 (1) (2) ( 0.9574 )( 0.9574 )j jA z a z a z z e z e z− − ⋅ − ⋅ −= + ⋅ + ⋅ = − ⋅ − ⋅ ⋅
kf ( )x n
![Page 14: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/14.jpg)
Coefficients de corrélation partielle
3
2
3
2
3(0) (1) (2) (3)(1) (0) (1) (2) 0(2) (1) (0) (1) 0(3) (2) (1) (0) 0
r r r rr r r r
kr r r r
E E
Er r r
k
r
⎧ ⎫ ⎡ ⎤⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤⎪ ⎪ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪ ⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⋅ + ⋅ = + ⋅ =⎨ ⎬
⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎢ ⎥⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎪ ⎪⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎣ ⎦⎩ ⎭
Soit
La représentation matricielle d’un système de prédiction d’ordre 3.
Calculer:1) Le coefficient de corrélation partielle k3 en fonction des coefficients deprédiction a2(i) et de l’énergie résiduelle E2 d’un système d’ordre 2, ainsi que de coefficients r(i).
2) L’énergie résiduelle E3 en fonction de E2 et k3.
![Page 15: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/15.jpg)
Distance accumulée
• Déterminez un chemin w qui donne une distance accumulée minimale entre un mot de test T(I=5) et un mot de référence R(J=3), si le contraintes locales sont de type C:
( , )D I J
( 1, )( , ) ( , ) min ( 1, 1) ( , )
( , 1)
D i jD i j d i j D i j d i j
D i j
⎧ −⎪= + − − +⎨⎪ −⎩
(1,1) 2 (1,1)D d= ⋅
![Page 16: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/16.jpg)
12
6.011 =a
0.122 =a
4.012 =a
0=t 1=t 2=t 3=t
1x 1x 2x
La probabilité en avant
⎥⎦
⎤⎢⎣
⎡==
2.0)2(8.0)1(
11
11
bb
⎥⎦
⎤⎢⎣
⎡==
5.0)2(5.0)1(
12
12
bb
⎥⎦
⎤⎢⎣
⎡==
7.0)2(3.0)1(
22
22
bb
0.0
0.1
2.0
48.0
76.0
23.0 03.0
0.163.00.1 ⋅ 3.00.1 ⋅ 7.00.1 ⋅
5.04.0 ⋅ 5.04.0 ⋅ 5.04.0 ⋅
8.06.0 ⋅ 8.06.0 ⋅ 2.06.0 ⋅
⎪⎩
⎪⎨⎧
>⋅⋅−=∧=
= ∑i
ijijij ttXBat
Ijtt 0))(()1(
01)( αα
)()()( WXPXPL TOTF ==α
)(tjα
La probabilité totale
Probabilité totale
![Page 17: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/17.jpg)
12
6.011 =a
0.122 =a
4.012 =a
0=t 1=t 2=t 3=t
1x 1x 2x⎥⎦
⎤⎢⎣
⎡==
2.0)2(8.0)1(
11
11
bb
⎥⎦
⎤⎢⎣
⎡==
5.0)2(5.0)1(
12
12
bb
⎥⎦
⎤⎢⎣
⎡==
7.0)2(3.0)1(
22
22
bb
0.0
0.1
2.0
48.0
09.0
23.0 03.0
0.063.00.1 ⋅ 3.00.1 ⋅ 7.00.1 ⋅
5.04.0 ⋅ 5.04.0 ⋅ 5.04.0 ⋅
8.06.0 ⋅ 8.06.0 ⋅ 2.06.0 ⋅
[ ] ))(()1(max)( txbatptp ijijiij ⋅⋅−=
[ ])log())1(log(min))((log())(log( ijiiijj atptxbtp +−−−=−
Probabilité maximale
![Page 18: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/18.jpg)
12
6.011 =a
0.122 =a
4.012 =a
0=t 1=t 2=t 3=t
1x 1x 2x
Réestimation de
⎥⎦
⎤⎢⎣
⎡==
2.0)2(8.0)1(
11
11
bb
⎥⎦
⎤⎢⎣
⎡==
5.0)2(5.0)1(
12
12
bb
⎥⎦
⎤⎢⎣
⎡==
7.0)2(3.0)1(
22
22
bb
0.1 24.08.06.0 ⋅
0.1
0.0
708.016.0
236.08.06.00.1)1(11 =⋅⋅⋅
=γ
11a
![Page 19: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/19.jpg)
12
6.011 =a
0.122 =a
4.012 =a
0=t 1=t 2=t 3=t
1x 1x 2x
Réestimation de
⎥⎦
⎤⎢⎣
⎡==
2.0)2(8.0)1(
11
11
bb
⎥⎦
⎤⎢⎣
⎡==
5.0)2(5.0)1(
12
12
bb
⎥⎦
⎤⎢⎣
⎡==
7.0)2(3.0)1(
22
22
bb
0.1 48.08.06.0 ⋅
0.1
0.0
288.016.0
2.08.06.048.0)2(11 =⋅⋅⋅
=γ
2.0
11a
![Page 20: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/20.jpg)
12
6.011 =a
0.122 =a
4.012 =a
0=t 1=t 2=t 3=t
1x 1x 2x
Réestimation de
⎥⎦
⎤⎢⎣
⎡==
2.0)2(8.0)1(
11
11
bb
⎥⎦
⎤⎢⎣
⎡==
5.0)2(5.0)1(
12
12
bb
⎥⎦
⎤⎢⎣
⎡==
7.0)2(3.0)1(
22
22
bb
0.1 48.02.06.0 ⋅
0.0
016.0
0.02.06.023.0)2(11 =⋅⋅⋅
=γ
23.0
51.097.0996.0
996.0
)()(
)(
11211
111
11 =+
=+
=
∑
∑
=
=L
t
L
t
tt
ta
γγ
γ
11a
![Page 21: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/21.jpg)
Segment list generation (exercice)
• After some language processing, the command“_ #120 s #70 I #150 _ #100” is presented at the input of the synthesizer.
• In the segment list generator the following units are available:
Segment names Duration of sub-segments
_s #100 #50
sI #30 #90
I_ #90 #200
![Page 22: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/22.jpg)
Segment list generation (exercice)
• Durations have to be adapted.
• A constant shortening (or lengthening) ratio can be applied throughout a given phoneme
• The final synthesis command:“_s #120 #44 sI #26 #75 I_ #75 #100” where #nnn
denotes the desired duration of subsegments_____________________________________• s(_s) + s(sI) = 70 and s(_s):s(sI)=50:30• Hence: s(_s) = 44 and s(sI) = 26
![Page 23: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/23.jpg)
Allocation de bits
2222
222
171
1716b)
21a)
10
10
xxxx
xxx
and σσσσ
σσσ
==
==
Décomposition en deux sous-bandes
Pour 623 =⋅=⋅Nb trouvez 0b et 1b où Nbbb ⋅=+ 10
( )( )[ ] 322
2log213a) 2122
2
20 =+=xx
xbσσ
σ
( )( )[ ] 4171716
1716log213b) 2122
2
20 =⋅
⋅+=
xx
xbσσ
σ
dB01log10log10a) SB ≅⋅=⋅ G
dB38
17log10log10b) SB ≅⋅=⋅ G
![Page 24: Traitement de La Parole 2006-06-23](https://reader034.vdocuments.pub/reader034/viewer/2022051416/563dbb6b550346aa9aacff2c/html5/thumbnails/24.jpg)
Contenu
• Production et perception de la parole• Analyse et modélisation de la parole• Reconnaissance de la parole• Reconnaissance du locuteur• Synthèse de la parole• Compression et codage de la parole• Communication vocale homme-machine