reconnaissance de locuteur par methode cepstrale
TRANSCRIPT
UNIVERSITE DâANTANANARIVO
ECOLE SUPĂRIEURE POLYTECHNIQUE DâANTANANARIVO
DEPARTEMENT ELECTRONIQUE
MEMOIRE DE FIN DâETUDES EN VUE DE LâOBTENTION DU DIPLOME DâINGENIEUR
RECONNAISSANCE DE LOCUTEUR PAR
METHODE CEPSTRALE
Présenté par: RABEMAMPIANDRA Eric Noël
FiliĂšre : Electronique
Option: Informatique Appliquée
Soutenu le: 14 AOUT 2012
N° dâordre: 05/EN/IA/2011 AnnĂ©e Universitaire: 2010-2011
UNIVERSITE DâANTANANARIVO
ECOLE SUPĂRIEURE POLYTECHNIQUE DâANTANANARIVO
DEPARTEMENT ELECTRONIQUE
MEMOIRE DE FIN DâETUDES EN VUE DE LâOBTENTION DU DIPLOME DâINGENIEUR
FiliĂšre : Electronique
Option: Informatique Appliquée
RECONNAISSANCE DE LOCUTEUR
PAR METHODE CEPSTRALE
Présenté par: RABEMAMPIANDRA Eric Noël
Membres de Jury:
Monsieur RAKOTOMIRAHO Soloniaina Président du Jury
Monsieur RATSIMBA Mamy Nirina Examinateur
Monsieur RATSIMBAZAFY Guy Predon Claude Examinateur
Monsieur HERINANTENAINA Edmond Fils Examinateur
Rapporteur : Monsieur ANDRIAMANANTSOA Guy Danielson
Soutenu le: 14 AOUT 2012 Année Universitaire: 2010-2011
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
i
Remerciements Quâil me soit permis dâadresser en premier lieu mes sincĂšres
remerciements Ă Dieu tout puissant.
Je tiens Ă exprimer mes vives gratitudes et mes sincĂšres remerciements Ă toutes les
personnes qui mâont apportĂ©s leurs amitiĂ©s, leurs connaissances et leurs aides tout au
long de la rĂ©alisation de ce manuscrit ainsi que pendant les annĂ©es dâĂ©tudes Ă lâEcole
SupĂ©rieur Polytechnique dâAntananarivo, et en particulier :
Monsieur RATSIMBA Mamy Nirina, notre Chef de DĂ©partement et
qui accepte aussi de siéger parmi les membres de Jury.
Les membres de Jury ici présent qui acceptent de juger mon travail :
Monsieur RAKOTOMIRAHO Soloniaina et qui préside aussi la
soutenance de mémoire.
Monsieur RATSIMBAZAFY Guy Predon
Monsieur HERINANTENAINA Edmond Fils
Monsieur ANDRIAMANANTSOA Guy Danielson mon encadreur,
pour ses orientations et ses suggestions et idĂ©es mâa Ă©tĂ© prĂ©cieux. Câest grĂące Ă
la transmission de ses connaissances, Ă sa confiance et Ă sa rigueur que je peux
présenter mon travail.
Au corps des enseignants au sein département électronique.
Je voudrais particuliĂšrement remercier toutes ma famille, pour leurs soutiens et
leurs aides.
Je tiens Ă©galement Ă remercier tous mes collĂšgues et tous mes amis qui ont
contribué de prÚs ou de loin leurs aident.
Rabemampiandra Eric N.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
ii
RESUME
Les caractĂ©ristiques dâun son produit par une personne peuvent ĂȘtre rĂ©sumĂ©es et
extraites dans un fichier. Les donnĂ©es vocales doivent ĂȘtre numĂ©risĂ©es pour pouvoir traitĂ©s par
lâordinateur, cette Ă©tape est nommĂ©e numĂ©risation. La reconnaissance de locuteur se base sur
les traitements de son numĂ©risĂ©s, en particulier lâutilisation de lâanalyse Cepstrale de son.
Lâanalyse Cepstrale permet de donner les coefficients Cepstraux dâun signal sonore,
elle a pour but dâĂ©viter les pertes de donnĂ©es provoquĂ© par certaine problĂšme comme
lâenregistrement et aussi de manipuler le son tout entier.
La reconnaissance de locuteur se fait Ă la comparaison dynamique ou Dynamic Time
Wrapping (DTW) des MFCC ou Mel Frequency Cepstral Coefficients produite par un
locuteur ou dâaprĂšs un enregistrement vocal.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
iii
TABLE DES MATIERES
RĂ©sume ........................................................................................................................... ii
Table des matiĂšres ......................................................................................................... iii
Liste des Abréviations ................................................................................................... vi
Liste des Figures ........................................................................................................... vii
Liste des Tableaux ......................................................................................................... ix
Introduction .................................................................................................................... 1
Chapitre I. Généralités ................................................................................................. 2
I.1. Les Sons ............................................................................................................ 2
a. Ămission, Propagation, RĂ©ception du son ..................................................... 2
b. Caractéristiques du son [3] ............................................................................ 3
I.2. La parole [4] ..................................................................................................... 5
I.3. Empreinte vocale .............................................................................................. 7
I.4. Reconnaissance vocale [5] ................................................................................ 7
Chapitre II. Analyse acoustique du signal de la parole ................................................ 9
II.1. Traitement des signaux [6] ............................................................................ 9
a. Echantillonnage des signaux ......................................................................... 9
b. Représentation des signaux périodiques sous la forme de séries de Fourier
12
II.2. Analyse spectrale des signaux numériques ................................................. 14
a. Transformation de Fourier numérique [7]................................................... 14
b. Transformation de Fourier discrĂšte [8] ....................................................... 14
c. Transformée de Fourier Rapide .................................................................. 16
II.3. FenĂȘtrage [9] ............................................................................................... 18
II.4. Analyse Cepstrale [10] ................................................................................ 21
Chapitre III. Reconnaissance de locuteur .................................................................. 24
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
iv
III.1. Historique .................................................................................................... 24
a. Reconnaissance de locuteurs par des profanes ........................................... 24
b. Reconnaissance de locuteurs par des experts .............................................. 24
c. Reconnaissance de locuteurs automatisée................................................... 25
III.2. Principe et fonctionnement de la reconnaissance de locuteur [13] ............. 25
a. Création de l'empreinte vocale .................................................................... 26
b. DĂ©tection des zones de silence .................................................................... 26
c. Calcul des coefficients MFCC .................................................................... 26
d. Conversion de lâĂ©chelle en logarithme........................................................ 31
e. La transformée en cosinus discret (DCT) ................................................... 31
III.3. Comparaison dynamique (Dynamic Time Warping (DTW)) ..................... 32
III.4. Les variabilités du signal de parole ............................................................. 33
III.5. Application de la reconnaissance de locuteur ............................................. 34
III.6. ProblĂšmes majeurs ...................................................................................... 35
Chapitre IV. RĂ©alisation ............................................................................................ 36
IV.1. Présentation du logiciel ............................................................................... 36
a. Programmation ............................................................................................ 36
b. Fonctionnement ........................................................................................... 36
c. Organigramme ............................................................................................ 38
IV.2. Les interfaces de « zazakely »..................................................................... 39
a. FenĂȘtre de dĂ©marrage .................................................................................. 39
b. FenĂȘtre principale ........................................................................................ 39
c. FenĂȘtre dico ................................................................................................. 40
IV.3. Manuel dâutilisation de « zazakely » .......................................................... 40
a. Enregistrement ............................................................................................ 40
b. Reconnaissance dâun locuteur ..................................................................... 46
IV.4. Les matériels requis .................................................................................... 49
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
v
Conclusion et Perspectives ........................................................................................... 50
Annexes ........................................................................................................................ 51
Annexe 1 : JAVASOUND ............................................................................................ 52
Annexe 2: ALGORITHME DE DTW .......................................................................... 54
Référence bibliographie et webographie ...................................................................... 55
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
vi
LISTE DES ABREVIATIONS
API Application Programming Interface
Db DECIBEL
DCT Discrete Cosine Transform
DFT Discrete Fourier Transform.
DSP Densité Spectrale de Puissance
DTW Dynamic Time Warping
FFT Fast Fourier Transform
GMM Gaussian Mixture Modelling
HMM Hiding Markov Model
Hz HERTZ
iDCT inverse Discrete Cosine Transform
MATLAB MATrix LABoratory
MFCC Mel-Frequency Cepstral Coefficients
SPL Sound Presure Level
TDNN Time Delay Neural Network
TFD Transformation de Fourier discrĂšte
TFN Transformation de Fourier numérique
TFR Fast Fourier Transform,
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
vii
LISTE DES FIGURES
Figure I-1 Emission et perception du son [2] ................................................................. 2
Figure I-2 un signal dâune pĂ©riode ................................................................................. 3
Figure I-3 SystĂšme de production de voix humain ........................................................ 6
Figure I-4 Types de reconnaissance vocale .................................................................... 8
Figure II-1 LâĂ©chantillonnage idĂ©al. ............................................................................... 9
Figure II -2 Composition spectrale dâun signa ............................................................. 10
Figure II-3 Aspect fréquentiel du sous-échantillonnage .............................................. 11
Figure II-4 Ăchantillonnage-blocage dâun signal analogique....................................... 11
Figure II-5 Discontinuités de seconde espÚce .............................................................. 13
Figure II-6 Répartition des fréquences discrÚtes .......................................................... 15
Figure II-7 Effet du fenĂȘtrage sur un signal analogique ............................................... 19
Figure II-8 CritĂšres de choix dâune fenĂȘtre .................................................................. 19
Figure II-9 Cepstre rĂ©el complet pour une fenĂȘtre de 250 Ă©chantillons (Ă gauche), et les
20 premiers coefficients cepstraux (Ă droite). .......................................................................... 21
Figure III-1 Schéma de fonctionnement ....................................................................... 26
Figure III-2 Etape pour le calcul de MFCC .................................................................. 27
Figure III-3 Exemple de dĂ©coupage de fenĂȘtre ............................................................ 28
Figure III-4 Banc de filtre de Mel[14] ......................................................................... 29
Figure III-5 Exemple de comparaison dynamique ....................................................... 32
Figure III-6 Chemin optimal dâalignement .................................................................. 33
Figure III-7 Les informations captées dans les enregistrements .................................. 34
Figure IV-1 Fonctionnement ........................................................................................ 37
Figure IV-2 Organigramme du logiciel « zazakely » ................................................... 38
Figure IV-3 FenĂȘtre de dĂ©marrage ............................................................................... 39
Figure IV-4 FenĂȘtre principale ..................................................................................... 39
Figure IV-5 FenĂȘtre dico .............................................................................................. 40
Figure IV-6 Représentation temporelle du son ............................................................ 41
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
viii
Figure IV-7 SĂ©lection du phonĂšme ............................................................................... 42
Figure IV-8 Enregistrement du son au format wav ...................................................... 42
Figure IV-9 DĂ©marrage de MATLAB .......................................................................... 43
Figure IV-10 Extraction des paramĂštres MFCC .......................................................... 44
Figure IV-11 Ajout des informations dans le dico ....................................................... 45
Figure IV-12 SĂ©lection de lâempreinte ......................................................................... 46
Figure IV-13 Identification du locuteur ....................................................................... 47
Figure IV-14 Chargement de lâempreinte de locuteur X .............................................. 47
Figure IV-15 Lancement du serveur MATLAB ........................................................... 48
Figure IV-16 Affichage des distances par rapport Ă lâempreinte de lâinconnu ............ 48
Figure IV-17 Affichage du résultat .............................................................................. 49
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
ix
LISTE DES TABLEAUX
Tableau 1. Exemple dâamplitude sonore
Tableau 2. Les phonÚmes français
Tableau 3. Types des fenĂȘtres avec leurs dĂ©finitions
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
1
INTRODUCTION
Au cours de ces derniĂšres annĂ©es, les progrĂšs sur lâutilisation de lâinformatique
comme un grand moyen de communication croissent exponentiellement et prennent une place
dans la vie quotidienne. En passant par le domaine de lâinformatique, les informations Ă
communiquer sont numérisées quelques soit le transport utilisés.
Les informations numériques qui sont transmis à travers des médias multiples comme
les réseaux téléphoniques, le cùble, le satellite et surtout le Web qui deviennent une des
ressources essentielles. Les streaming sur lâinternet permettent dâĂ©couter ou de voir les
émissions radios ou télévision en différé. Ce technologie est aussi disponible pour les
terroristes pour envoyer des informations préenregistrer.
Les menaces sont devenues nombreux, ce travail a pour but de faire une
reconnaissance dâun locuteur Ă partir dâun enregistrement dâune conversation. Il prĂ©sente tout
dâabord les gĂ©nĂ©ralitĂ©s sur les sons et les principales sources de variabilitĂ©s pour
comprendre comment un individu peut ĂȘtre reconnu par sa voix. Ensuite lâanalyse
acoustique du signal audio dans un systÚme de reconnaissance du locuteur qui présente le vif
du sujet, lâanalyse cepstrale. Et enfin, le dernier chapitre va se concentrer sur la conception du
logiciel « zazakely ».
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
2
Chapitre I. GENERALITES
I.1. Les Sons
Les sons sont des phénomÚnes physiques que notre sens auditif peut apercevoir.
L'acoustique, science traitant des phénomÚnes sonores dit que les sons des énergies qui se
propagent sous forme de vibrations dans un milieu compressible comme dans l'eau, dans l'air,
dans les matériaux solides, mais pas dans le vide et perçues par notre ouïe.[1]
a. Ămission, Propagation, RĂ©ception du son
Pour qu'un son soit Ă©mis, une Ă©nergie doit avant tout mettre en mouvement un
corps pour produire une vibration. Ainsi, le muscle du larynx, la chute d'un objet sur
le sol, ou la tension électrique dans un haut-parleur, provoqueront l'énergie nécessaire pour
produire cette vibration. Ensuite, pour que ce son puisse se propager, il faut un milieu
élastique favorable à la transmission de la vibration. En créant des surpressions ou des
dépressions, l'air permet la propagation de l'onde. Les matériaux solides ont aussi cette
capacité de transmettre le son. Dans le vide par contre, aucun son ne peut se propager, car il
n'y a aucun de support. Enfin, pour ĂȘtre perçue, il doit y avoir un rĂ©cepteur sensible. Chez
l'homme, l'oreille possĂšde une membrane (le tympan) capable de transmettre les
informations de vibration en signaux nerveux jusqu'au cerveau, grĂące au nerf auditif. De
mĂȘme, le microphone possĂšde Ă©galement une membrane permettant de transformer les
déplacements de l'air en signaux électriques.
Figure I-1 Emission et perception du son [2]
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
3
b. Caractéristiques du son [3]
Comme tout phĂ©nomĂšne vibratoire, les sons peuvent ĂȘtre analysĂ©s comme des signaux
qui varient dans le temps.
Les sons peuvent ĂȘtre dĂ©finis par les 3 paramĂštres:
fréquence
amplitude
timbre
Dans les techniques de prise de son, de mixage, synthÚse sonore (synthétiseurs), ces
paramĂštres sont fondamentaux. Toute la «chaĂźne» du son, câest Ă dire les diffĂ©rentes machines
que traverse le son utilisent ces paramĂštres.
i. La fréquence
La fréquence est le paramÚtre qui permet de préciser la tonalité c'est-à -dire aigu ou
grave du signal.
- Plus la Fréquence est élevée, plus le son est aigu,
- Plus la Fréquence est basse, plus le son est grave.
LâunitĂ© de mesure est le HERTZ qui est Ă©gale Ă oscillations par secondes.
Une période est une oscillation complÚte.
Figure I-2 un signal dâune pĂ©riode
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
4
ii. Lâamplitude
Lâamplitude est le paramĂštre qui permet de prĂ©ciser le niveau sonore soit fort ou
faible.
Plus lâamplitude est grande, plus le son est fort,
Plus Lâamplitude est petite, plus le son est faible.
LâunitĂ© de mesure est le DECIBEL (dB) ou plus prĂ©cisĂ©ment en acoustique, le dB
SPL, qui représente la pression / m2
Le dB est un rapport de signaux avec comme référence en acoustique le seuil
dâaudition (0dB).
Voici un ordre dâidĂ©e de la mesure du dB acoustique :
Tableau 1. Exemple dâamplitude sonore
Amplitude Niveau Exemple
>120 Insupportable IntĂ©rieur dâune grosse caisse
90 dB 120 dB TrĂšs fort Tutti dâorchestre
60 dB 90 dB Fort Piano joué à 1 mÚtre
30 dB 60 dB Faible Appartement calme
10 dB 30 dB TrĂšs faible Studio dâenregistrement
0 dB 10 dB Inaudible Seuil dâaudition
Le dB est Ă©galement utilisĂ© pour dâautres unitĂ©s de mesure prĂ©sents sur les
équipements électroniques pour indiquer les niveaux, les gains ou atténuations de tensions de
lâentrĂ©e dâun amplificateur, prĂ©-ampli micro, table de mixage, enregistreurs, etc.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
5
iii. Le Timbre
Le timbre est le paramÚtre qui permet de préciser la « couleur » du signal (son).
Suivant le thĂ©orĂšme de Fourrier, un son complexe peut ĂȘtre dĂ©composĂ© en une somme
de sinusoĂŻdes de frĂ©quence et dâamplitude donnĂ©es.
- La fréquence la plus basse est appelée « FONDAMENTALE »,
- Les fréquences multiples à la fondamentale sont appelées «HARMONIQUE».
Plus le son a des harmoniques, plus on dit quâil est «riche».
Lâanalyseur de spectre permet : de montrer le contenu spectral du son (signal)
Certains sons nâont pas de spectre bien dĂ©fini: les frĂ©quences sont gĂ©nĂ©rĂ©es
aléatoirement.
- le bruit rose (Pink Noise) : contient toutes les harmoniques dont la somme donne un
contenu spectral «plat»
- le bruit blanc (White Noise) : contient toutes les harmoniques dont la somme donne
un contenu croissant.
I.2. La parole [4]
La parole est un moyen de communication trĂšs efficace et naturel de l'humain. La
parole se distingue des autres sons par ses caractéristiques acoustiques qui ont leur origine
dans les mécanismes de production. La parole apparaßt physiquement comme une variation de
la pression de l'air causée et émise par le systÚme articulatoire. Les sons de parole sont
produits soit par des vibrations des cordes vocales (source de voisement), soit par une
turbulence crĂ©e par l'air sâĂ©coulant rapidement dans une constriction ou lors du relĂąchement
dâune occlusion du conduit vocal (sources de bruit). L'unitĂ© de parole de plus petite taille est
un phonÚme (voyelle ou consonne). Le nombre de phonÚmes est toujours trÚs limité,
normalement inférieur à cinquante.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
6
Par exemple : la langue française comprend 36 phonÚme.
Tableau 2. Les phonÚmes français
La parole est produite par le systÚme articulatoire, présenté par la figure I-3.
Figure I-3 SystĂšme de production de voix humain
Lâappareil vocal humain est constituĂ© dâun excitateur, le complexe glotte-cordes
vocales, et dâun ensemble de rĂ©sonateurs de lâappareil phonatoire : le pharynx, la cavitĂ©
buccale, la cavitĂ© labiale, les fosses nasales. Lorsquâun excitateur entre en vibration, il fournit
un signal, dont le résonateur va amplifier certaines composantes et on obtient des formants.
Ce sont des facteurs fondamentaux qui forment le timbre de la voix, et caractérisent donc ce
dernier. Le nombre de formants est variable, pouvant passer dâun seul Ă une infinitĂ©. Mais
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
7
mĂȘme sâil en existe beaucoup, seuls quelques-uns jouent un rĂŽle du point de vue perceptif. Par
contre, un formant ne peut jamais ĂȘtre ramenĂ© Ă une frĂ©quence fixe ; il sâagit plutĂŽt dâune
bande de fréquence.
LâĂ©tendue spectrale du signal acoustique est comprise entre 80 et 8000Hz, avec une
étendue dynamique de 60 à 70dB. Il est à noter que la fréquence fondamentale moyenne de
vibration des cordes vocales, appelĂ©es « pitch » est situĂ© entre 40 â 140 Hz pour les hommes,
entre 180 â 300 Hz pour les femmes et entre 300 â 600 Hz pour les enfants.
I.3. Empreinte vocale
Une Empreinte vocale est un résumé numérique généré à partir d'un signal audio. Cette
empreinte permet d'identifier un échantillon sonore, ou de localiser une séquence sonore dans
une base de données audio.
Le procédé d'empreinte vocale fut mis au point à partir d'expérimentations réalisées
par des scientifiques désirant convertir les sons linguistiques en enregistrements visuels
destinĂ©s Ă ĂȘtre analysĂ©s et mesurĂ©s.
Les sons vocaux sont convertis en impulsions électriques et enregistrés sur une bande
magnétique, comme dans un enregistrement sonore ordinaire, mais les impulsions sont ensuite
traitées électroniquement par un balayage successif de l'enregistrement magnétique original et
converties en un enregistrement sous forme d'images sur un papier de spectrogramme
sensibilisé électriquement.
Les images qui en rĂ©sultent peuvent ĂȘtre systĂ©matiquement classĂ©es par durĂ©e,
fréquence et intensité et comparées avec des images en provenance d'autres sources.
L'empreinte vocale est quelquefois utilisée par la police pour identifier des personnes
proférant des menaces téléphoniques ou à l'origine d'appels anonymes.
I.4. Reconnaissance vocale [5]
Il existe deux grands types de reconnaissance vocale :
La reconnaissance de la parole ou Speech recognition :
La reconnaissance de la parole est utilisée pour reconnaßtre ce qui est dit. DÚs lors, elle
permet de transformer le discours/la voix en texte. Beaucoup de personnes pensent que la
reconnaissance vocale et la reconnaissance de la parole sont similaires alors que ce nâest pas
du tout le cas. Seul le contenu de la parole est reconnu par la reconnaissance de la parole.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
8
La reconnaissance du locuteur ou Speaker recognition :
Le but de la reconnaissance du locuteur est de reconnaĂźtre qui parle et donc de
reconnaĂźtre le locuteur et non pas le contenu.
La figure I-4 montre les diffĂ©rents types de reconnaissance vocale que lâon peut
rencontrer fréquemment.
Figure I-4 Types de reconnaissance vocale
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
9
Chapitre II. ANALYSE ACOUSTIQUE DU SIGNAL DE LA PAROLE
II.1. Traitement des signaux [6]
Traitement des signaux est une thĂ©orie permettant dâeffectuer une description ou une
modĂ©lisation et une analyse des signaux et des systĂšmes porteurs dâinformation.
a. Echantillonnage des signaux
Le traitement numérique des signaux se fait sur des valeurs discrÚtes: il n'est pas
possible de traiter par ordinateur des signaux à temps continu. Par souci de simplicité, on
échantillonne les signaux à un rythme régulier. Une horloge de cadence T permet de
conserver entre les instants nT et (n+1)T la valeur qu'avait le signal Ă l'instant nT, ce qui
permet ensuite de calculer la valeur numérique binaire du signal par une succession
d'opérations de comparaisons à des tensions de référence de la forme et de
soustractions.
Il existe plusieurs types dâĂ©chantillonnage : Ă©chantillonnage idĂ©ale et Ă©chantillonnage
par blocage.
i. Ăchantillonnage idĂ©ale
LâopĂ©ration dâĂ©chantillonnage consiste Ă prĂ©lever sur un signal analogique dont
lâĂ©volution est continue dans le temps, des Ă©chantillons reprĂ©sentant lâamplitude aux instants
de prélÚvement.
Pour des raisons de simplification, les prélÚvements sont réalisés réguliÚrement avec
une pĂ©riodicitĂ© constante Te appelĂ©e pĂ©riode dâĂ©chantillonnage. LâĂ©chantillonnage est qualifiĂ©
dâidĂ©al dĂšs lors que lâon peut supposer ou approcher une prise instantanĂ©e des Ă©chantillons.
Figure II-1 LâĂ©chantillonnage idĂ©al.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
10
MathĂ©matiquement, lâĂ©chantillonnage idĂ©al peut ĂȘtre modĂ©lisĂ© par le produit entre x(t)
et une suite pĂ©riodique dâimpulsions idĂ©ales appelĂ©e peigne de Dirac.
( ) ( ) â ( )
Le facteur Te permet de normaliser lâĂ©nergie du signal Ă©chantillonnĂ© xâ(t)
ii. Spectre du signal échantillonné
En utilisant la transformation de Fourier appliquée aux signaux échantillonnés, on
montre que le spectre du signal xâ(t) est constituĂ© dâune suite de rĂ©pliques du spectre de x(t)
décalées avec une périodicité de
La transformée de Fourier du peigne de Dirac est un peigne de Dirac fréquentiel :
â ( )
â â ( )
Or
( ) ( ) â ( )
Donc le spectre du signal Ă©chantillonnĂ© sâĂ©crit :
( ) â ( )
Figure II -2 Composition spectrale dâun signa
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
11
iii. ThĂ©orĂšme de lâĂ©chantillonnage ou thĂ©orĂšme de Shannon
En considérant un spectre initial X(f) borné supérieurement par une limite fsup, on peut
espĂ©rer conserver toute lâinformation lorsque fe est choisie telle que
Le non respect de la condition précédente conduit à un sous-échantillonnage qui
engendre le repliement des motifs spectraux (figure II.3). En dâautres termes, il y a perte ou
modification des informations originales.
Figure II-3 Aspect fréquentiel du sous-échantillonnage
iv. Ăchantillonnage-blocage
LâopĂ©ration dâĂ©chantillonnage-blocage dâun signal x(t) consiste Ă conserver la valeur
Ă©chantillonnĂ©e entre deux prĂ©lĂšvements successifs, (figure II.4). Le signal issu dâun tel
traitement prend une forme dite en marches dâescalier.
Figure II-4 Ăchantillonnage-blocage dâun signal analogique
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
12
b. Représentation des signaux périodiques sous la forme
de séries de Fourier
Joseph FOURIER, mathématicien français, affirma, dans un mémoire daté de 1807,
quâil Ă©tait possible, dans certaines conditions, de dĂ©composer une fonction pĂ©riodique f sous
la forme dâune somme infinie de signaux sinusoĂŻdaux
ThéorÚme de Fourier : Toute fonction continue est décomposable en série de
FOURIER. Si de plus cette fonction est périodique de période T, le nombre de termes de la
décomposition est fini.
i. Coefficients du développement
La décomposition en séries de Fourier peut s'étendre aux fonctions non périodiques.
Dans ce cas nous aurons une décomposition sous la forme :
( )
â« ( ) (
)
Ou bien
( )
â ( )
( )
( ) â ( )
Avec
â« ( ) ( )
et â
â« ( ) ( )
(
)
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
13
ii. DĂ©veloppement sous forme complexe
Un signal x(t) périodique de période T0 peut se décomposer sous la forme d'une
somme de signaux sinusoïdaux, les harmoniques dont la fréquence est un multiple de la
fréquence fondamentale
On aura :
( ) â ( ) ( )
L'amplitude complexe de chaque harmonique ( ) se calcule de la maniĂšre suivante
( )
â« ( ) (
)
iii. Conditions de validité du développement
Comme dans tout problĂšme de dĂ©veloppement dâune fonction, le critĂšre de validitĂ©
repose sur la convergence de la série en tout point vers x(t). Ainsi une fonction périodique x(t)
est développable en séries de Fourier si :
x(t) est dĂ©fini et continue sur lâintervalle
Ă lâexception dâun nombre
fini de points.
x(t) ne présente pas de discontinuités de seconde espÚce
Figure II-5 Discontinuités de seconde espÚce
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
14
II.2. Analyse spectrale des signaux numériques
a. Transformation de Fourier numérique [7]
i. TFN directe
Soit une suite numĂ©rique de N valeurs xk pour k variant de 0 Ă N â 1.
On peut toujours considĂ©rer que ces valeurs sont issues de lâĂ©chantillonnage Ă la
cadence fe du signal x(t) câest-Ă -dire que
( )
La version numérique de la transformation devient :
( ) â
Ce rĂ©sultat est conforme Ă la thĂ©orie de lâĂ©chantillonnage vue prĂ©cĂ©demment
ii. TFN inverse
La fonction X( f ), obtenue par lâĂ©quation (12), est pĂ©riodique donc dĂ©composable en
série de Fourier. Les coefficients du développement ne sont autres que les échantillons xk que
lâon peut obtenir par :
â« ( ) (
)
k variant de 0 Ă N-1
b. Transformation de Fourier discrĂšte [8]
Pour utiliser la transformé de Fourier discrÚte il faut un signal périodique
i. DiscrĂ©tisation de lâintervalle frĂ©quentiel
On pose le pas fréquentiel
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
15
Les fréquences discrÚtes sont alors données par :
Ou
ii. TFD directe
est appelée transformation de Fourier discrÚte (TFD) :
( ) â
â
Figure II-6 Répartition des fréquences discrÚtes
Avec
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
16
pour N pair
Ou
pour N impair.
La TFD fournit N points de spectre Ă partir de N valeurs temporelles. Pour un signal xk
purement réel, Re{Xn} est une fonction paire et Im{Xn} est une fonction impaire. La
détermination de la moitié des valeurs spectrales complexes est suffisante
iii. TFD inverse
La transformation de Fourier discrĂšte inverse est obtenue Ă partir de lâĂ©quation de la
TFN en remplaçant :
â«
â
Ce qui donne,
â
(
)
(
)
k variant de 0 Ă N-1
c. Transformée de Fourier Rapide
La Transformée de Fourier Rapide (notée par la suite FFT) est simplement une TFD
calculĂ©e selon un algorithme permettant de rĂ©duire le nombre dâopĂ©rations et, en particulier, le
nombre de multiplications Ă effectuer.
Il faut noter cependant, que la rĂ©duction du nombre dâopĂ©rations arithmĂ©tiques Ă
effectuer, nâest pas synonyme de rĂ©duction du temps dâexĂ©cution. Tout dĂ©pend de
lâarchitecture du processeur qui exĂ©cute le traitement.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
17
Soit ( ) une TFD dâun signal x de longueur N. LâĂ©quation de ( ) donnĂ©e par
la relation (12).
Si on effectue le calcul directement sans algorithme efficace, on doit effectuer:
N2 multiplications complexes
N(N â 1) additions complexes
Il existe différents algorithmes de FFT Le plus connu est sûrement celui de Cooley-
Tukey (appelĂ© aussi Ă entrelacement temporel ou à « decimation in time «) qui rĂ©duit Ă
le nombre de multiplications.
Il existe deux versions de lâalgorithme:
âą FFT avec entrelacement temporel,
⹠FFT avec entrelacement fréquentiel.
Lâalgorithme nĂ©cessite que N soit une puissance de 2. Le principe de lâalgorithme
consiste Ă dĂ©composer le calcul de la TFD dâordre N = 2l en l Ă©tapes successives.
i. FFT avec entrelacement temporel
Illustrons tout dâabord la mĂ©thode par un exemple pour N = 4.
Les données sont notées x(n) et la suite TFD X(n).
La notation w reprĂ©sente eâ j2Ï /N
, câest-Ă - dire eâ j2Ï /4
. On peut remarquer que wN = 1
et
wN/2
= â 1.
Pour N = 4, w4 = 1 et w
2 = â 1
La suite TFD sâĂ©crit:
X(0) = x(0) + x(1) + x(2) + x(3) = (x(0) + x(2)) + (x(1) + x(3))
X(1) = x(0) + w1x(1) + w
2x(2) + w
3x(3) = (x(0) â x(2)) + w
1 (x(1) â x(3))
X(2) = x(0) + w2x(1) + w
4x(2) + w
6x(3) = (x(0) + x(2)) â (x(1) + x(3))
X(3) = x(0) + w3x(1) + w
6x(2) + w
9x(3) = (x(0) â x(2)) â w
1 (x(1) â x(3))
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
18
Les donnĂ©es (x(0),x(1),... ,x(N â 1)) sont regroupĂ©es en 2 paquets: un paquet formĂ©
des donnĂ©es dâindices pairs (x(0),x(2),... ,x(N â 2)) et un paquet formĂ© des donnĂ©es dâindices
impairs (x(1),x(3),... ,x(N â 1)).
Soit pour N = 4, un paquet (x(0),x(2)) et un paquet (x(1),x(3)).
Puis sur chaque paquet on effectue une DFT dâordre N/2 et on combine les rĂ©sultats de
ces 2 DFT pour obtenir celle dâordre N. Ce qui donne, toujours pour N = 4:
Pour obtenir les 4 valeurs X(k), il suffit donc de calculer 2 DFT dâordre N/2 = 2 et de
combiner les rĂ©sultats 2 Ă 2 Ă lâaide dâune addition et dâune multiplication au maximum, pour
chaque valeur X(k). Cette étape est appelée étage de « papillons «, pour des raisons évidentes
liées à la forme du schéma de calcul. Ce résultat se généralise à toute valeur valeur de N
multiple de 2.
ii. FFT avec entrelacement fréquentiel
Cet algorithme est symétrique du précédent. Les données temporelles x(n) restent
dans lâordre naturel, mais les rĂ©sultats ( ) sont dĂ©sordonnĂ©s.
Le principe consiste encore Ă dĂ©composer le calcul de la TFD dâordre N = 2l en l
étapes successives. Mais le regroupement de données se fait différemment.
II.3. FenĂȘtrage [9]
Lâanalyse spectrale par TFD impose de travailler sur un signal numĂ©rique xk de durĂ©e
limitĂ©e. La multiplication du signal par une fenĂȘtre wk de troncature temporelle permet de
limiter la durée à N échantillons. Cette multiplication temporelle correspond à une
convolution fréquentielle figure 11.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
19
Figure II-7 Effet du fenĂȘtrage sur un signal analogique
De maniĂšre gĂ©nĂ©rale, la transformation de Fourier dâune fenĂȘtre de troncature prend
lâallure dĂ©crite en figure II.8.
Figure II-8 CritĂšres de choix dâune fenĂȘtre
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
20
Les caractĂ©ristiques principales dâune fenĂȘtre dâanalyse sont :
la rĂ©solution frĂ©quentielle. Celle-ci, notĂ©e Îf, peut ĂȘtre dĂ©finie comme la
possibilitĂ© de pouvoir sĂ©parer deux frĂ©quences proches lâune de lâautre. Elle est
caractĂ©risĂ©e par la largeur Ă â3 dB du lobe principal de la fenĂȘtre ;
la dynamique imposĂ©e par lâamplitude des lobes secondaires dĂ©finit la dynamique
de la fenĂȘtre.
Tableau 3 Types des fenĂȘtres avec leurs dĂ©finitions
La fenĂȘtre couramment utilisĂ©es est la fenĂȘtre de Hamming.
i. FenĂȘtre de Hamming
La fenĂȘtre de Hamming gĂ©nĂ©ralisĂ©e a pour Ă©quation:
( )
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
21
La fenĂȘtre de Hamming proprement dite est le cas particulier de la fenĂȘtre gĂ©nĂ©ralisĂ©e
pour α= 0,54. Cette valeur correspond à une annulation quasi parfaite du premier lobe
secondaire de la fenĂȘtre rectangulaire.
Les fenĂȘtres de la famille Hamming se caractĂ©risent par un pic central de largeur
double de la fenĂȘtre rectangulaire mais une attĂ©nuation des oscillations sensiblement plus
importante. La reprĂ©sentation frĂ©quentielle de la fenĂȘtre de Hamming gĂ©nĂ©ralisĂ©e a pour
Ă©quation :
( )
(
)
(
)
II.4. Analyse Cepstrale [10]
Les coefficients produits Ă la sortie des bancs de filtre selon lâĂ©chelle MEL ou les
coefficients LPC peuvent ĂȘtre utilisĂ©s pour mesurer des diffĂ©rences entre deux
spectrogrammes. Ils présentent cependant de nombreux inconvénients comme par exemple
de dĂ©pendre de lâĂ©nergie du signal et de lâexcitation. De maniĂšre Ă pouvoir comparer
diffĂ©rents spectres, plusieurs mĂ©thodes de normalisation et de mesure existent qui peuvent ĂȘtre
exprimĂ©es dans un contexte plus gĂ©nĂ©ral de la thĂ©orie de lâinformation.
La figure II.9 illustre les courbes données par les coefficients Cepstraux.
Figure II-9 Cepstre rĂ©el complet pour une fenĂȘtre de 250 Ă©chantillons (Ă gauche), et les 20 premiers
coefficients cepstraux (Ă droite).
Si nous admettons la représentation source/filtre du signal de parole, ce signal résulte
dâune convolution dans le domaine temporel de la source et du filtre.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
22
s(t) = e(t)* h(t)
Cependant, ce qui nous intéresse pour identifier et pour mesurer des différences (ou
des similitudes) entre spectres est lâenveloppe spectrale.
Nous transformons dans le domaine spectral lâĂ©quation de s(t) pour avoir le produit de
lâexcitation E (f ) e t de la fonction de transfert du filtre H (f ):
S (f ) = E (f ) . H (f )
Comme nous voulons dĂ©coupler la source du filtre de maniĂšre Ă nâavoir plus que
lâenveloppe spectrale, nous utilisons la fonction log, de maniĂšre Ă ce quâen ne prenant que le
module du spectre nous obtenions:
log |S (f )| = log |E (f )| + log |H (f )|
Une maniÚre naturelle de découpler les composants de log |S (f )| qui varient lentement
de ceux qui reprĂ©sentent les variations de lâexcitation, consiste Ă appliquer une transformĂ©e de
Fourrier inverse. Les coefficients temporels ainsi obtenus sont appelés coefficients
Cepstraux.
Les premiers coefficients donnent les paramĂštres de lâenveloppe spectral (ou la
réponse impulsionnelle du conduit vocal), les coefficients plus élevés, les variations de
lâexcitation (figure II.9).
Si les coefficients cepstraux sont issus dâune analyse en banc de filtres sur une Ă©chelle
MEL, on les dĂ©nommera MFCC (Mel Frequency Cepstrum Coefficients), sâils sont issus
dâune analyse LPC on les appellera coefficients LPCC (Linear Predicting Coding Cepstrum).
Il existe une méthode directe pour passer des coefficients ap de la LPC à des coefficients
Cepstraux Cm.
LPCC utilise les récursions suivantes:
â (
)
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
23
â (
)
Un des avantages importants de la comparaison de spectres en utilisant les coefficients
Cepstraux est le fait que nous pouvons utiliser une mesure de distance euclidienne simple Ă
estimer.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
24
Chapitre III. RECONNAISSANCE DE LOCUTEUR
III.1. Historique
La reconnaissance vocale est définie comme étant un processus de prise de décision
utilisant des caractéristiques de la parole, afin de déterminer si une personne en particulier est
Ă lâorigine dâune Ă©nonciation. Cette prise de dĂ©cision porte sur une Ă©ventuelle familiaritĂ© entre
la voix cible et les voix de référence. [11]
a. Reconnaissance de locuteurs par des profanes
Une croyance ancienne, toujours dâactualitĂ© de nos jours, stipule que lâhumain peut
ĂȘtre fiable Ă identifier autrui en entendant sa voix. En effet, en se basant sur notre capacitĂ© Ă
reconnaĂźtre des voix dâamis ou dâidentifier des voix dâacteurs ou de politiciens, le mythe
dâune reconnaissance vocale auditive par des profanes exacte et prĂ©cise est nĂ©. Selon le mĂȘme
auteur, les humains surestiment leur performance dans le domaine de la reconnaissance de
locuteurs.
Un grand nombre de paramĂštres entre Ă©galement en jeu dans ce genre de
reconnaissance : la qualitĂ© de la voix, la nature du discours, la durĂ©e de lâĂ©coute, le temps
Ă©coulĂ© entre lâĂ©coute de la voix du locuteur et la procĂ©dure dâidentification, la diffĂ©rence
dâĂąge, de genre et dâethnie entre le tĂ©moin auditif et le locuteur, le dĂ©guisement de la voix,
etc. De ce fait, de nombreux auteurs préconisent de prendre avec précaution les résultats
dâune identification de locuteur par des profanes.
b. Reconnaissance de locuteurs par des experts
Les experts phonéticiens analysent en détail la voix du locuteur, pour extraire des
paramĂštres au niveau de la voix (hauteur, et timbre), de la parole (articulation, diction, vitesse
dâĂ©locution, pauses, intonation et dĂ©fauts), du langage (dynamique, style et prosodie), ainsi
quâau niveau de caractĂ©ristiques linguistiques (syntaxe, idiotisme et respiration).
Lâutilisation de moyens techniques pour extraire certaines de ces caractĂ©ristiques
permet de les quantifier. Ces experts se basent sur lâamplitude, les bandes de frĂ©quence, la
distribution spectrale des énergies, la fréquence fondamentale, ainsi que sur la durée et rythme
des segments de voix.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
25
AprĂšs la 2Ăšme
Guerre Mondiale, une approche consistant Ă comparer visuellement les
spectrogrammes, «empreinte vocale», des voix indiciaires et de comparaison est apparue. Les
limites de cette approche ont rapidement été mis en évidence durant la fin du 20Úme
siĂšcle :
contrairement Ă ce que le nom dâ «empreinte vocale» nous laisse croire, les spectrogrammes
dâun mĂȘme locuteur ne sont, ni invariants tout au long de la vie, ni uniques, comme les
empreintes digitales. Malgré le manque de fiabilité et de validité de cette méthode, ce type
dâidentification est encore autorisĂ© dans les tribunaux amĂ©ricains.[12]
c. Reconnaissance de locuteurs automatisée
Il existe plusieurs types de systĂšme de reconnaissance automatique de locuteurs : les
systÚmes dépendants du texte et les systÚmes indépendants. Le premier cas comprend les
situations dans lesquelles la confection dâenregistrements de contrĂŽle du locuteur suspectĂ© est
possible, ce qui est relativement rare dans le domaine forensique. Le second cas comprend les
situations dans lesquelles la confection dâenregistrement de contrĂŽle est impossible.
Un grand nombre de systÚmes de caractérisation et de comparaison des paramÚtres ont
été testées.
Actuellement, la plupart des systÚmes utilisent la modélisation des caractéristiques du
locuteur par plusieurs fonctions gaussiennes, appelée «Gaussian Mixture Modelling» ou
GMM. Les systÚmes indépendants du texte utilisant ce type de modélisation sont plus
performants que les autres mĂ©thodes de caractĂ©risation, comme par exemple lâutilisation des
réseaux de neurones, la quantification vectorielle et les modÚles de Markov cachés.
III.2. Principe et fonctionnement de la reconnaissance de
locuteur [13]
Etapes Ă suivre :
Enregistrement de son du locuteur
SĂ©lection dâune partie de signal
CrĂ©ation de lâempreinte
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
26
a. Création de l'empreinte vocale
Figure III-1 Schéma de fonctionnement
b. DĂ©tection des zones de silence
Lors de la paramĂ©trisation du signal de la parole, une des premiĂšres Ă©tapes consiste Ă
séparer les zones de silence de celles de parole. Afin de réaliser cette séparation, on va
calculer un seuil en se basant sur le logarithme de lâĂ©nergie moyenne de la zone que lâon veut
tester du signal. L'énergie moyenne est mesurée en décibels (dB) selon une échelle
logarithmique. Ainsi, on ne va conserver que les zones de paroles qui sont supérieures au seuil
fixé (en dB) :
( )
â ( )
avec N = le nombre dâĂ©chantillons de la zone du signal de parole testĂ©e et x(n) = la
valeur de lâĂ©chantillon n de la zone du signal de parole testĂ©e.
Dans ce travail de fin dâĂ©tudes, on calculera lâĂ©nergie moyenne de la fenĂȘtre aprĂšs
lâĂ©tape de dĂ©coupage en plusieurs fenĂȘtres (donc N correspondra aux N Ă©chantillons de la
fenĂȘtre). Si cette fenĂȘtre est une zone de silence, on la jette. Si câest une zone de parole, on la
garde.
c. Calcul des coefficients MFCC
La mĂ©thode des MFCC (Mel-Frequency Cepstral Coefficients) permet dâextraire des
caractéristiques du signal à partir de la FFT et de la DCT, ceci sur une échelle de Mel. Cette
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
27
mĂ©thode est la plus utilisĂ©e en reconnaissance vocale car elle a lâavantage dâĂȘtre robuste,
dâavoir des coefficients qui sont dĂ©corrĂ©llĂ©s et de bien simuler lâoreille humaine.
Voici un schéma qui reprend les différentes étapes pour calculer les coefficients
MFCC :
Figure III-2 Etape pour le calcul de MFCC
i. DĂ©coupage en plusieurs fenĂȘtres
Tout dâabord, on va dĂ©couper le signal en plusieurs fenĂȘtres de 20-30 ms. Cette
longueur de fenĂȘtre est choisie car la parole varie peu en 20-30 ms et donc elle respecte
lâhypothĂšse de stationnaritĂ©. On utilise aussi un recouvrement en gĂ©nĂ©ral de 50 % de façon Ă
ce que deux fenĂȘtres consĂ©cutives se recouvrent bien.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
28
La figure III.3 illustre la méthode de découpage.
Figure III-3 Exemple de dĂ©coupage de fenĂȘtre
ii. FenĂȘtre de Hamming
La fenĂȘtre de Hamming est appliquĂ©e Ă chaque fenĂȘtre rĂ©sultante de lâĂ©tape de
découpage précédente. Elle est utilisée pour atténuer les effets de bords dus au découpage en
fenĂȘtres et ainsi diminuer la distorsion spectrale du signal au dĂ©but et Ă la fin de chaque
fenĂȘtre
On lâapplique Ă chaque fenĂȘtre du signal de parole de la façon suivante :
( ) ( ) ( )
iii. La transformée de Fourier rapide (FFT)
La transformée de Fourier rapide est un algorithme permettant de calculer rapidement
la transformée de Fourier discrÚte (DFT) :
( ) â ( )
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
29
Cette mĂ©thode permet de convertir chaque fenĂȘtre du domaine temporel dans le
domaine frĂ©quentiel. Comme le signal est rĂ©el, lâinformation spectrale est symĂ©triquement
redondante et les fréquences négatives sont identiques aux positives. Par conséquent, on ne
récupérera que les échantillons compris entre 0 et N/2. Ce qui veut dire que la méthode nous
renseignera sur les fréquences comprises entre 0 et fe/2.
Pour commencer, il faut que le nombre dâĂ©chantillon N de la fenĂȘtre soit une puissance
de 2. En gĂ©nĂ©ral, on choisit des fenĂȘtres de N = 256 Ă©chantillons. Si la fenĂȘtre initiale ne
contient pas assez dâĂ©chantillons, on va utiliser la technique du bourrage de zĂ©ros (zero-
padding). Elle consiste à remplir les échantillons manquants par des zéros. Cela permet de
nâapporter aucune information supplĂ©mentaire pour le spectre. Ensuite, on calcule la
transformĂ©e de Fourier rapide de chaque fenĂȘtre et on rĂ©cupĂšre leur spectre en magnitude
|S(k)|.
iv. Banc de filtres MEL
On va pondérer le spectre de magnitude par un banc de filtres triangulaires espacés
selon l'échelle de Mel afin de reproduire la sélectivité du systÚme auditif humain.
Tout dâabord, la bande de frĂ©quence utilisĂ©e se situe entre 0 et fe/2Hz. Cette bande va
ĂȘtre divisĂ©e en K filtres triangulaires Ă©quidistants dans le domaine de frĂ©quence Mel avec un
recouvrement de 50%.
Figure III-4 Banc de filtre de Mel[14]
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
30
Tout dâabord, il faut savoir que lâĂ©chelle de frĂ©quence Mel est espacĂ©e linĂ©airement
jusque 1000 Hz et ensuite elle est espacée logarithmiquement au dessus de 1000 Hz. La
transformation de la frĂ©quence en frĂ©quence de Mel sâeffectue de la façon suivante :
( ) (
)
LâopĂ©ration inverse se fait de la maniĂšre suivante :
(
) .
Pour connaitre l'intervalle de fréquence Mel entre chaque filtre, on utilise la constante:
( ) ( )
oĂč Mel(fmax)= la frĂ©quence maximale sur lâĂ©chelle de Mel calculĂ©e Ă partir de fmax = frĂ©quence
maximale, Mel(fmin )= la frĂ©quence minimale sur lâĂ©chelle de Mel calculĂ©e Ă partir de fmin =
fréquence minimale et M = le nombre de filtres.
En termes dâindices FFT pour la frĂ©quence centrale des filtres, on a :
( ) ( ( )
)
oĂč round(.) arrondi Ă lâentier le plus proche, fe= frĂ©quence dâĂ©chantillonnage et NFFT
correspond Ă la taille de la fenĂȘtre FFT.
Ensuite, on va pondĂ©rer le banc de filtres Mel en fonction dâoĂč se trouve lâindice k de
fréquence :
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
31
Finalement, on applique le banc de filtres au spectre de magnitude calculé par la FFT :
( ) â ( )
( )
oĂč M = nombre de filtres et N = la taille de la fenĂȘtre FFT.
d. Conversion de lâĂ©chelle en logarithme
LâĂ©tape suivante consiste Ă appliquer le logarithme sur les valeurs de lâĂ©tape
prĂ©cĂ©dente. Cela permet dâobtenir le spectre logarithmique de Mel et de compresser la somme
précédente:
( ) ( ( ))
e. La transformée en cosinus discret (DCT)
Finalement, on obtient les coefficients MFCC en appliquant la transformée en cosinus
discret au spectre logarithmique de Mel :
( ) â [
(
) ] ( )
avec M = nombre de filtres, K = nombre de coefficients, k = numéro de coefficients et
m = numĂ©ro du filtre. Pour n = 0, a0=1/â pour n > 0, am= â
.
à noter que am la constante est utilisée pour orthogonaliser la matrice DCT.
La transformée en cosinus discret permet de revenir dans le domaine temporel en
convertissant le spectre logarithmique de Mel du domaine fréquentiel au domaine temporel.
On lâutilise aussi pour sa capacitĂ© Ă dĂ©corrĂ©ler les donnĂ©es.
En général, on rejettera le coefficient c(0) car il ne représente que le logarithme de
lâĂ©nergie moyenne de la fenĂȘtre. Donc par exemple pour 13 coefficients de dĂ©part, on ne
gardera que les 12 derniers.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
32
III.3. Comparaison dynamique (Dynamic Time Warping
(DTW))
La comparaison dynamique est un algorithme permettant de résoudre des problÚmes
dâalignement sĂ©quentiel. Il permet de calculer la distance entre deux sĂ©quences qui peuvent
varier en temps et en vitesse.
Dans le cadre de la reconnaissance du locuteur on va comparer deux séquences de
vecteurs acoustiques, celle que lâon veut tester et celle de rĂ©fĂ©rence du locuteur. Le principal
problĂšme est que si le locuteur veut citer un mĂȘme mot ou une mĂȘme phrase, sa vitesse
dâĂ©locution ne sera pas la mĂȘme dâun segment de parole Ă lâautre. Câest pourquoi on utilise
lâalgorithme de comparaison dynamique qui permet de palier Ă ce problĂšme. Il va effectuer un
alignement temporel optimal afin de réduire la déformation temporelle et le coût entre les
deux segments de parole.
Figure III-5 Exemple de comparaison dynamique
Le chemin (warping path) alignant deux séquences de taille N et M est une séquence
( ) de taille L oĂč ( ) Ï” [1 : N] x [1 : M] et l Ï” [1 : L]. Ce chemin doit
satisfaire les conditions suivantes :
1. La condition de limite : p1=[1,1] et pl=[N,M]. Cela impose que les premiers
Ă©lĂ©ments ainsi que les derniers Ă©lĂ©ments des deux sĂ©quences soient alignĂ©s lâun avec lâautre.
2. La condition de continuitĂ© : le chemin avance dâun seul pas Ă la fois. Donc les
indices m et n ne peuvent ĂȘtre augmentĂ©s que de 1 Ă la fois le long du chemin.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
33
3. La condition de monotonie : n1â€âŠ.â€nL et m1â€âŠâ€mL .Le chemin ne peut pas
revenir sur lui-mĂȘme, ses indices ne peuvent jamais dĂ©croĂźtre seulement croĂźtre.
Figure III-6 Chemin optimal dâalignement
III.4. Les variabilités du signal de parole
Types dâinformations avec recouvrement :
Anatomie de lâappareil phonatoire
Phonétique : cibles phonémiques
Prosodie : rythme, vitesse, intonation, volume, modulation
Diction, prononciation, accents régionaux
Linguistique : syntaxe, grammaire, sémantique
Emotionnelle, pathologique
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
34
Pour y résumer, la figure III-7 montre les informations captées avant, pendant et aprÚs
un enregistrement :
Figure III-7 Les informations captées dans les enregistrements
III.5. Application de la reconnaissance de locuteur
On voit trÚs souvent la reconnaissance de locuteur sur les domaines de sécurité, voici
quelques exemples :
contrĂŽle dâaccĂšs (en complĂ©ment dâun code, dâun badge)
banques, voitures, entrepriseS
consultation de compte bancaire par téléphone
Police criminelle pour lâidentification de suspects :
filtrage de voix suspectes (avec validation humaine)
pas assez fiable pour utiliser comme preuve
Transcription automatique :
adaptation des modĂšles acoustiques Ă la voix du locuteur
Indexation multimédia :
indexation par locuteur
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
35
III.6. ProblĂšmes majeurs
Comme tous les systÚmes dépendants des paramÚtres humains, la reconnaissance de
locuteur lui aussi avaient des problĂšmes. Voici quelques exemples :
Variabilité due au locuteur
Ămotion, fatigue, stress, refus de coopĂ©ration.
conditions dâenregistrement variables
Microphone, bruit ambiant.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
36
Chapitre IV. REALISATION
Le but de cette rĂ©alisation est de donner quelques exemples dâimplĂ©mentations
informatiques des principes physiques et mathĂ©matiques quâon a vu antĂ©rieurement. A ce
sujet, On a développé une application nommée « zazakely » pour montrer la simulation sous
Windows de la reconnaissance de locuteur via son empreinte vocale.
Ce chapitre prĂ©sente tout dâabord le logiciel « zazakely » afin de le dĂ©crire clairement
et ensuite les matériels requis pour le mieux intégrer dans un environnement.
IV.1. Présentation du logiciel
a. Programmation
«zazakely » a été écrit en langage de programmation JAVA avec NetBeans IDE 7.0 et
le langage de script de MATLAB qui est actuellement utilisé dans un grand nombre
de discipline scientifique. Ce logiciel utilise :
- Les API pour la manipulation du fichier audio : Java Speech, Java Sound.
- Les API graphique : API AWT, API Swing
- La librairie « jamal-2.2»
- Une fonction MATLAB assurant lâalgorithme D.T.W pour le calcul de distance
- Un script MATLAB permettant de créer les MFCC et de les représenter dans
une interface graphique.
b. Fonctionnement
La figure 4.1. Illustre le fonctionnement de la reconnaissance de locuteur dont
ces étapes sont expliquées comme suit :
- La paramétrisation
On lâappelle aussi analyse acoustique du signal de parole. Elle consiste
généralement à extraire les informations pertinentes et réduire au maximum la
redondance.
Le nombre de coefficients acoustiques est ici fixé à 13 dans cette simulation et
capturés sur des blocs de signal de longueur fixe 25 ms.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
37
- La comparaison
Elle consiste Ă calculer les distances entre une empreinte inconnue et les
empreintes enregistrées dans une base de données.
Compte tenu des dĂ©calages temporels entre les diffĂ©rentes prononciations dâun
mĂȘme mot, On a choisi la comparaison dynamique(DTW) car elle met en
correspondance des séquences de paramÚtres par distorsion temporelle (Time Warping).
- La décision
La phase de décision désigne le locuteur finalement reconnu. Dans cette phase de
décision, le locuteur sera accepté, reconnu ou rejeté suivant un seuil de décision, car on ne
pourra jamais avoir 100% de similitude entre le signal du locuteur testé et le signal des
locuteurs de la base de référence.
Figure IV-1 Fonctionnement
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
38
c. Organigramme
Lâorganigramme prĂ©sentĂ© dans la figure IV-2 montre tous les Ă©tapes Ă suivre pour la
manipulation du logiciel. Chaque module du programme du logiciel zazakely est conçu Ă
partir de cet organigramme.
Figure IV-2 Organigramme du logiciel « zazakely »
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
39
IV.2. Les interfaces de « zazakely »
a. FenĂȘtre de dĂ©marrage
Lancer le logiciel en exécutant le fichier zazakely.jar
Figure IV-3 FenĂȘtre de dĂ©marrage
b. FenĂȘtre principale
AprĂšs le dĂ©marrage, la fenĂȘtre principale sâaffiche.
Figure IV-4 FenĂȘtre principale
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
40
c. FenĂȘtre dico
Comme ce logiciel contient les informations sur les locuteurs enregistrĂ©s, la fenĂȘtre
dico permet dâafficher ses informations. Les informations dans ce dico peuvent ĂȘtre effacĂ© en
cas de besoin mais ne pas seulement consulter.
Figure IV-5 FenĂȘtre dico
IV.3. Manuel dâutilisation de « zazakely »
a. Enregistrement
Lâenregistrement dans la base de donnĂ©es suit plusieurs Ă©tapes :
Capture de son
SĂ©lection du phonĂšme
CrĂ©ation dâempreinte
Enregistrement des informations du locuteur
Capture de son
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
41
Figure IV-6 Représentation temporelle du son
Le bouton Record permet de capturer le son via le micro. Et pour stopper la capture, il
suffit de cliquer sur le bouton Stop.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
42
SĂ©lection du phonĂšme
Et maintenant, on passe dans lâĂ©tape le plus important de lâenregistrement, il
sâagit de repĂ©rer le phonĂšme qui se sonne plus que les autres comme exemple « a ». AprĂšs
lâavoir repĂ©rer, on recadre ou « crop » cette partie de son en cliquant sur crop dans le
menu Edit. Enfin, on passe Ă lâenregistrement, il suffit de cliquer sur le menu fichier - save
ou save as.
Figure IV-7 SĂ©lection du phonĂšme
Figure IV-8 Enregistrement du son au format wav
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
43
CrĂ©ation dâempreinte
Lancer le logiciel MATLAB en cliquant sur lâicĂŽne MATLAB dans lâonglet
MATLAB.
Figure IV-9 DĂ©marrage de MATLAB
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
44
Figure IV-10 Extraction des paramĂštres MFCC
Case à cocher permettant de spécifier le résultat escompté. (MFCC)
Pour afficher les coefficients.
Pour enregistrer les coefficients dans un fichier texte.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
45
Enregistrement des informations du locuteur
AprĂšs lâĂ©tape prĂ©cĂ©dente, on peut ajouter des informations concernant le
locuteur dans la liste du dico, en cliquant sur le bouton Ajouter une empreinte ou sur
le bouton Ajouter dans la fenĂȘtre dico.
Figure IV-11 Ajout des informations dans le dico
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
46
Le bouton Parcourir sert Ă sĂ©lectionner le fichier contenant lâempreinte du locuteur.
Figure IV-12 SĂ©lection de lâempreinte
b. Reconnaissance dâun locuteur
La reconnaissance dâun locuteur suit aussi quelques Ă©tapes :
- Capture du son dâun locuteur inconnu et crĂ©ation de son empreinte
- Faire la reconnaissance
Capture du son dâun locuteur inconnu et crĂ©ation de son empreinte
Dâune façon analogue que la phase dâenregistrement
Faire la reconnaissance
Cliquer sur le bouton sâidentifier.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
47
Figure IV-13 Identification du locuteur
Ensuite, charger lâempreinte du locuteur inconnu via le bouton Parcourir.
Figure IV-14 Chargement de lâempreinte de locuteur X
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
48
AprĂšs le chargement de lâempreinte de lâinconnu, le bouton lancer lâanalyse
est activĂ©. La figure IV.15 sâaffiche aprĂšs lâavoir cliquĂ©.
Figure IV-15 Lancement du serveur MATLAB
Si la connexion avec MatlabServer est réussie, le bouton Continuer est activé.
Ce bouton permet dâafficher les rĂ©sultats de comparaison dynamique effectuĂ© par
le MatlabServer.
Figure IV-16 Affichage des distances par rapport Ă lâempreinte de lâinconnu
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
49
Ces distances sont ensuite comparées avec le seuil de décision pour tolérer des
éventuelles erreurs. Le bouton REPONSE affiche le résultat final.
Figure IV-17 Affichage du résultat
IV.4. Les matériels requis
Lâordinateur auquel on veut installer le logiciel « zazakely » requiert deux
applications : le JDK 1.7 (Java Development Kit) et le MATLAB 7.5 ou plus.
Ces logiciels ne sont pas supportés par des ordinateurs qui ont de
faibles performances.
Voici les paramĂštres minimaux requis pour lâordinateur :
Processeur pentium IV 3, 2 GHz
Ram 1,5Go
Carte son en bon Ă©tat
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
50
CONCLUSION ET PERSPECTIVES
La reconnaissance du locuteur est une tĂąche qui vise Ă affirmer un individu
aprĂšs lâĂ©tude des caractĂ©ristiques spĂ©cifiques de sa voix ou ses empreintes vocales.
Notons bien que les empreintes vocales ne sont pas les mĂȘme que les empreintes
biomĂ©triques que lâon rencontre souvent dans les marchĂ©s puisquâils Ă©voluent
selon les conditions environnementaux pendant les prises de son. Toutes les paramĂštres
biomĂ©trique est unique et constantes, câest pourquoi ils sont utilisĂ©s pour reprĂ©senter une
personne.
Le logiciel « zazakely » sert à créer les empreintes vocales et repérer si un son
que lâon introduit ou teste se trouve dans le dictionnaire. Ce dictionnaire est une base de
donnĂ©es, conçus pour stocker des minimums dâinformation pour chaque personne que lâon
enregistre.
La fiabilité de ce logiciel se pose sur les calculs de MFCC qui ne dépendent
pas des amplitudes de lâenregistrement, et aussi sur le choix de la sĂ©lection de lâĂ©chantillon Ă
extraire pour crĂ©er lâempreinte. Donc, la sĂ©lection manuelle donne plus de travaille
mais rend le logicielle plus stable c'est-à -dire un taux de fidélité élevé.
La continuitĂ© de ce travaille peut donc ĂȘtre envisagĂ© Ă partir des limites que prĂ©sente le
logiciel « zazakely ». Voici des propositions pour les perspectives :
Les sélections automatiques des phonÚmes, plusieurs méthodes sont en vues comme les
mĂ©thodes statistiques (HMM, GMM, etc), les mĂ©thodes en utilisant lâintelligence artificielle
(réseau de neurone TDNN, etc).
Utilisations des bases de données plus performant comme ORACLE Database pour que les
stockages de lâinformation soient sĂ©curisĂ©s.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
51
ANNEXES
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
52
ANNEXE 1 : JAVASOUND
Les API Java manipulant les sons
Java Speech
Java Speech est une API conçus pour les manipulations vocales. On trouve déjà dans
cette librairie des méthodes pour faire de reconnaissance de la parole ou speech recognition,
lecture des textes ou text-to-speech.
Dans notre logiciel, nous nâutilisons pas cet API mais seulement le Java Sound.
Java Sound
Java Sound nous donne une solution logicielle pour le traitement des sons sur
ordinateur et évite des cartes sons adéquates. Seul besoin un digital-to-analog converter ou
DAC fourni par les cartes sons. Il permet de lire et enregistrer des fichiers sons.
Programmation audio avec java Sound
Objet de la classe AudioFormat indiquant
â le type d'encodage (linĂ©aire ou pas),
â le nombre de canaux (1 pour monophonique, 2 pour stĂ©rĂ©ophonique),
â la vitesse d'Ă©chantillonnage, c'est Ă dire le nombre d'Ă©chantillon par seconde et par
canal,
â le nombre de bits pour coder un Ă©chantillon,
â la maniĂšre d'ordonner les octets (octets de poids fort en premier ou le contraire),
â le nombre et la taille des trames (une trame contenant les donnĂ©es sonores de tous les
canaux à un instant donné).
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
53
Pour obtenir les données audio du microphone
Pour envoyer les données audio vers les Hauts Parleurs
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
54
ANNEXE 2: ALGORITHME DE DTW
Soit la sĂ©quence de vecteurs acoustiques X=(x1,âŠ,xN) de rĂ©fĂ©rence de taille N, la
sĂ©quence de vecteurs acoustiques Y=(Y1 ,âŠ,YM) Ă tester de taille M, d(x,y) la distance
euclidienne entre deux vecteurs acoustiques et D(n, m) la distance cumulée du chemin
optimal allant du point (1, 1) jusquâau point (n, m), lâalgorithme de comparaison dynamique
se déroule comme suit :
Cet algorithme calcule le chemin optimal de coĂ»t minimal dĂ©marrant de (1, 1) jusquâĂ
(N, M) et alignant les deux séquences. Il retourne la distance totale minimale cumulée de ce
chemin. Cette distance est normalisée afin de la rendre indépendante de la longueur du
chemin.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
55
REFERENCE BIBLIOGRAPHIE ET WEBOGRAPHIE
[1] Jean-Paul ACHARD, livre « Théorie et technique des images et des sons»,
BibliothĂšque Site Ambatonakanga 2007
[2] http://raphael.isdant.free.fr/traitement_numerique/3-
traitement_numerique_du_son.pdf , Janvier 2012
[3] Pascale Snoeck , Livre « Cours de Sonorisation » version 2009
[4] LE Manh Tuan, « Analyse acoustique de sons bien identifiés par un systeme de
reconnaissance automatique de la parole » mĂ©moire de fin dâĂ©tudes, 2007
[5] Jean-François Bonastre , « La reconnaissance du locuteur et la détection
d'événements sonores » , 2006
[6] E341, «Théorie du Signal» cours en 3Úme
année 2009, Ecole Supérieure
Polytechnique dâAntananarivo-DĂ©partement Electronique.
[7] «Analyse de Fourier » cours en 2Úme
année 2008, Ecole Supérieure
Polytechnique dâAntananarivo-DĂ©partement Electronique.
[8] E531, « Traitement Numérique du Signal» cours en 5Úme année 2011,
Ecole SupĂ©rieure Polytechnique dâAntananarivo-DĂ©partement Electronique.
[9] Ătienne Tisserand, « Analyse et traitement des signaux » 2Ăšme
Ă©dition, DUNOD
[10] Ramamonjilaza Ruphin, « Reconnaissance de locuteur par empreinte vocale »,
IngĂ©niorat en Electronique de lâESPA 2012.
[11] Didier Meuwly, « Lâapport dâune approche automatique » ThĂšse de doctorat,
institut de police scientifique et de criminologie de lâUniversitĂ© de Lausanne, 2000.
RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE
56
[12] Solan LM, Tiersma PM, «Falling on Deaf Ears» Legal Affairs Nov-Dec, 2003.
[13] Anicet FOKOU, « Modest-encoding AlgoRithm with Vocal IdentificatioN »
EPITA - Avril 2002
[14] DALLA CORTE Ludovic, «Reconnaissance vocale sur Smartphone par
apprentissage automatique » 2Úme
master en sciences informatiques, Faculté des Sciences
Appliquées de l'Université de LiÚge, 2012.
Titre : « RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE»
Auteur : RABEMAMPIANDRA Eric Noël
Nombre de pages : 56
Nombre de figures : 37
Nombre de tableaux : 3
RESUME
La reconnaissance de locuteur est un domaine qui englobe des travaux mathématiques et
informatiques tels que: lâanalyse Cepstrale des sons, traitements des signaux, programmations en
utilisant les librairies qui manipulent les sons. Lâanalyse Cepstrale permet dâextraire les informations
portĂ©es dans les sons y compris lâempreinte vocale. Les comparaisons des empreintes donne la
possibilité de voir si un tel locuteur est bien celui dans un enregistrement données. « zazakely » est
un logiciel conçus pour faire tous les tùches du reconnaissance du locuteur, fiable et facile à utiliser.
Mots clés : Reconnaissance de locuteur, Analyse Cepstrale, MFCC, TFR, DTW
ABSTRACT
The speaker recognition is a domain including mathematics and informatics works as:
Cepstral Analysis, Signalâs treatments analysis, coding with a library which manipulate a sound.
Cepstral analysis allows us to extract the information carried in the sounds include the voice print.
The comparisons of the prints give us the possibility to see if such a speaker is well the one in a
registration data. âzazakelyâ is a software made to accomplish all task of speaker recognition, reliable
and easy to manipulate.
Keywords: Speaker recognizing, Cepstral Analysis, MFCC, TFR, DTW
DIRECTEUR DE MEMOIRE : ANDRIAMANANTSOA Guy Danielson
Adresse de lâauteur :
Lot G II 7 Q Ter Ampatsy Soamanandrariny Antananarivo