reconnaissance de locuteur par methode cepstrale

68
UNIVERSITE D’ANTANANARIVO ECOLE SUPÉRIEURE POLYTECHNIQUE D’ANTANANARIVO DEPARTEMENT ELECTRONIQUE MEMOIRE DE FIN D’ETUDES EN VUE DE L’OBTENTION DU DIPLOME D’INGENIEUR RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE PrĂ©sentĂ© par: RABEMAMPIANDRA Eric NoĂ«l FiliĂšre : Electronique Option: Informatique AppliquĂ©e Soutenu le: 14 AOUT 2012 N° d’ordre: 05/EN/IA/2011 AnnĂ©e Universitaire: 2010-2011

Upload: others

Post on 19-Jun-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

UNIVERSITE D’ANTANANARIVO

ECOLE SUPÉRIEURE POLYTECHNIQUE D’ANTANANARIVO

DEPARTEMENT ELECTRONIQUE

MEMOIRE DE FIN D’ETUDES EN VUE DE L’OBTENTION DU DIPLOME D’INGENIEUR

RECONNAISSANCE DE LOCUTEUR PAR

METHODE CEPSTRALE

Présenté par: RABEMAMPIANDRA Eric Noël

FiliĂšre : Electronique

Option: Informatique Appliquée

Soutenu le: 14 AOUT 2012

N° d’ordre: 05/EN/IA/2011 AnnĂ©e Universitaire: 2010-2011

Page 2: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

UNIVERSITE D’ANTANANARIVO

ECOLE SUPÉRIEURE POLYTECHNIQUE D’ANTANANARIVO

DEPARTEMENT ELECTRONIQUE

MEMOIRE DE FIN D’ETUDES EN VUE DE L’OBTENTION DU DIPLOME D’INGENIEUR

FiliĂšre : Electronique

Option: Informatique Appliquée

RECONNAISSANCE DE LOCUTEUR

PAR METHODE CEPSTRALE

Présenté par: RABEMAMPIANDRA Eric Noël

Membres de Jury:

Monsieur RAKOTOMIRAHO Soloniaina Président du Jury

Monsieur RATSIMBA Mamy Nirina Examinateur

Monsieur RATSIMBAZAFY Guy Predon Claude Examinateur

Monsieur HERINANTENAINA Edmond Fils Examinateur

Rapporteur : Monsieur ANDRIAMANANTSOA Guy Danielson

Soutenu le: 14 AOUT 2012 Année Universitaire: 2010-2011

Page 3: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

i

Remerciements Qu’il me soit permis d’adresser en premier lieu mes sincùres

remerciements Ă  Dieu tout puissant.

Je tiens Ă  exprimer mes vives gratitudes et mes sincĂšres remerciements Ă  toutes les

personnes qui m’ont apportĂ©s leurs amitiĂ©s, leurs connaissances et leurs aides tout au

long de la rĂ©alisation de ce manuscrit ainsi que pendant les annĂ©es d’études Ă  l’Ecole

SupĂ©rieur Polytechnique d’Antananarivo, et en particulier :

Monsieur RATSIMBA Mamy Nirina, notre Chef de DĂ©partement et

qui accepte aussi de siéger parmi les membres de Jury.

Les membres de Jury ici présent qui acceptent de juger mon travail :

Monsieur RAKOTOMIRAHO Soloniaina et qui préside aussi la

soutenance de mémoire.

Monsieur RATSIMBAZAFY Guy Predon

Monsieur HERINANTENAINA Edmond Fils

Monsieur ANDRIAMANANTSOA Guy Danielson mon encadreur,

pour ses orientations et ses suggestions et idĂ©es m’a Ă©tĂ© prĂ©cieux. C’est grĂące Ă 

la transmission de ses connaissances, Ă  sa confiance et Ă  sa rigueur que je peux

présenter mon travail.

Au corps des enseignants au sein département électronique.

Je voudrais particuliĂšrement remercier toutes ma famille, pour leurs soutiens et

leurs aides.

Je tiens Ă©galement Ă  remercier tous mes collĂšgues et tous mes amis qui ont

contribué de prÚs ou de loin leurs aident.

Rabemampiandra Eric N.

Page 4: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

ii

RESUME

Les caractĂ©ristiques d‟un son produit par une personne peuvent ĂȘtre rĂ©sumĂ©es et

extraites dans un fichier. Les donnĂ©es vocales doivent ĂȘtre numĂ©risĂ©es pour pouvoir traitĂ©s par

l‟ordinateur, cette Ă©tape est nommĂ©e numĂ©risation. La reconnaissance de locuteur se base sur

les traitements de son numĂ©risĂ©s, en particulier l‟utilisation de l„analyse Cepstrale de son.

L‟analyse Cepstrale permet de donner les coefficients Cepstraux d‟un signal sonore,

elle a pour but dâ€ŸĂ©viter les pertes de donnĂ©es provoquĂ© par certaine problĂšme comme

l‟enregistrement et aussi de manipuler le son tout entier.

La reconnaissance de locuteur se fait Ă  la comparaison dynamique ou Dynamic Time

Wrapping (DTW) des MFCC ou Mel Frequency Cepstral Coefficients produite par un

locuteur ou d‟aprùs un enregistrement vocal.

Page 5: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

iii

TABLE DES MATIERES

RĂ©sume ........................................................................................................................... ii

Table des matiĂšres ......................................................................................................... iii

Liste des Abréviations ................................................................................................... vi

Liste des Figures ........................................................................................................... vii

Liste des Tableaux ......................................................................................................... ix

Introduction .................................................................................................................... 1

Chapitre I. Généralités ................................................................................................. 2

I.1. Les Sons ............................................................................................................ 2

a. Émission, Propagation, RĂ©ception du son ..................................................... 2

b. Caractéristiques du son [3] ............................................................................ 3

I.2. La parole [4] ..................................................................................................... 5

I.3. Empreinte vocale .............................................................................................. 7

I.4. Reconnaissance vocale [5] ................................................................................ 7

Chapitre II. Analyse acoustique du signal de la parole ................................................ 9

II.1. Traitement des signaux [6] ............................................................................ 9

a. Echantillonnage des signaux ......................................................................... 9

b. Représentation des signaux périodiques sous la forme de séries de Fourier

12

II.2. Analyse spectrale des signaux numériques ................................................. 14

a. Transformation de Fourier numérique [7]................................................... 14

b. Transformation de Fourier discrĂšte [8] ....................................................... 14

c. Transformée de Fourier Rapide .................................................................. 16

II.3. FenĂȘtrage [9] ............................................................................................... 18

II.4. Analyse Cepstrale [10] ................................................................................ 21

Chapitre III. Reconnaissance de locuteur .................................................................. 24

Page 6: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

iv

III.1. Historique .................................................................................................... 24

a. Reconnaissance de locuteurs par des profanes ........................................... 24

b. Reconnaissance de locuteurs par des experts .............................................. 24

c. Reconnaissance de locuteurs automatisée................................................... 25

III.2. Principe et fonctionnement de la reconnaissance de locuteur [13] ............. 25

a. Création de l'empreinte vocale .................................................................... 26

b. DĂ©tection des zones de silence .................................................................... 26

c. Calcul des coefficients MFCC .................................................................... 26

d. Conversion de lâ€ŸĂ©chelle en logarithme........................................................ 31

e. La transformée en cosinus discret (DCT) ................................................... 31

III.3. Comparaison dynamique (Dynamic Time Warping (DTW)) ..................... 32

III.4. Les variabilités du signal de parole ............................................................. 33

III.5. Application de la reconnaissance de locuteur ............................................. 34

III.6. ProblĂšmes majeurs ...................................................................................... 35

Chapitre IV. RĂ©alisation ............................................................................................ 36

IV.1. Présentation du logiciel ............................................................................... 36

a. Programmation ............................................................................................ 36

b. Fonctionnement ........................................................................................... 36

c. Organigramme ............................................................................................ 38

IV.2. Les interfaces de « zazakely »..................................................................... 39

a. FenĂȘtre de dĂ©marrage .................................................................................. 39

b. FenĂȘtre principale ........................................................................................ 39

c. FenĂȘtre dico ................................................................................................. 40

IV.3. Manuel d‟utilisation de « zazakely » .......................................................... 40

a. Enregistrement ............................................................................................ 40

b. Reconnaissance d‟un locuteur ..................................................................... 46

IV.4. Les matériels requis .................................................................................... 49

Page 7: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

v

Conclusion et Perspectives ........................................................................................... 50

Annexes ........................................................................................................................ 51

Annexe 1 : JAVASOUND ............................................................................................ 52

Annexe 2: ALGORITHME DE DTW .......................................................................... 54

Référence bibliographie et webographie ...................................................................... 55

Page 8: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

vi

LISTE DES ABREVIATIONS

API Application Programming Interface

Db DECIBEL

DCT Discrete Cosine Transform

DFT Discrete Fourier Transform.

DSP Densité Spectrale de Puissance

DTW Dynamic Time Warping

FFT Fast Fourier Transform

GMM Gaussian Mixture Modelling

HMM Hiding Markov Model

Hz HERTZ

iDCT inverse Discrete Cosine Transform

MATLAB MATrix LABoratory

MFCC Mel-Frequency Cepstral Coefficients

SPL Sound Presure Level

TDNN Time Delay Neural Network

TFD Transformation de Fourier discrĂšte

TFN Transformation de Fourier numérique

TFR Fast Fourier Transform,

Page 9: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

vii

LISTE DES FIGURES

Figure I-1 Emission et perception du son [2] ................................................................. 2

Figure I-2 un signal d‟une pĂ©riode ................................................................................. 3

Figure I-3 SystĂšme de production de voix humain ........................................................ 6

Figure I-4 Types de reconnaissance vocale .................................................................... 8

Figure II-1 Lâ€ŸĂ©chantillonnage idĂ©al. ............................................................................... 9

Figure II -2 Composition spectrale d‟un signa ............................................................. 10

Figure II-3 Aspect fréquentiel du sous-échantillonnage .............................................. 11

Figure II-4 Échantillonnage-blocage d‟un signal analogique....................................... 11

Figure II-5 Discontinuités de seconde espÚce .............................................................. 13

Figure II-6 Répartition des fréquences discrÚtes .......................................................... 15

Figure II-7 Effet du fenĂȘtrage sur un signal analogique ............................................... 19

Figure II-8 CritĂšres de choix d‟une fenĂȘtre .................................................................. 19

Figure II-9 Cepstre rĂ©el complet pour une fenĂȘtre de 250 Ă©chantillons (Ă  gauche), et les

20 premiers coefficients cepstraux (Ă  droite). .......................................................................... 21

Figure III-1 Schéma de fonctionnement ....................................................................... 26

Figure III-2 Etape pour le calcul de MFCC .................................................................. 27

Figure III-3 Exemple de dĂ©coupage de fenĂȘtre ............................................................ 28

Figure III-4 Banc de filtre de Mel[14] ......................................................................... 29

Figure III-5 Exemple de comparaison dynamique ....................................................... 32

Figure III-6 Chemin optimal d‟alignement .................................................................. 33

Figure III-7 Les informations captées dans les enregistrements .................................. 34

Figure IV-1 Fonctionnement ........................................................................................ 37

Figure IV-2 Organigramme du logiciel « zazakely » ................................................... 38

Figure IV-3 FenĂȘtre de dĂ©marrage ............................................................................... 39

Figure IV-4 FenĂȘtre principale ..................................................................................... 39

Figure IV-5 FenĂȘtre dico .............................................................................................. 40

Figure IV-6 Représentation temporelle du son ............................................................ 41

Page 10: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

viii

Figure IV-7 SĂ©lection du phonĂšme ............................................................................... 42

Figure IV-8 Enregistrement du son au format wav ...................................................... 42

Figure IV-9 DĂ©marrage de MATLAB .......................................................................... 43

Figure IV-10 Extraction des paramĂštres MFCC .......................................................... 44

Figure IV-11 Ajout des informations dans le dico ....................................................... 45

Figure IV-12 SĂ©lection de l‟empreinte ......................................................................... 46

Figure IV-13 Identification du locuteur ....................................................................... 47

Figure IV-14 Chargement de l‟empreinte de locuteur X .............................................. 47

Figure IV-15 Lancement du serveur MATLAB ........................................................... 48

Figure IV-16 Affichage des distances par rapport à l‟empreinte de l‟inconnu ............ 48

Figure IV-17 Affichage du résultat .............................................................................. 49

Page 11: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

ix

LISTE DES TABLEAUX

Tableau 1. Exemple d’amplitude sonore

Tableau 2. Les phonÚmes français

Tableau 3. Types des fenĂȘtres avec leurs dĂ©finitions

Page 12: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

1

INTRODUCTION

Au cours de ces derniĂšres annĂ©es, les progrĂšs sur l‟utilisation de l‟informatique

comme un grand moyen de communication croissent exponentiellement et prennent une place

dans la vie quotidienne. En passant par le domaine de l‟informatique, les informations à

communiquer sont numérisées quelques soit le transport utilisés.

Les informations numériques qui sont transmis à travers des médias multiples comme

les réseaux téléphoniques, le cùble, le satellite et surtout le Web qui deviennent une des

ressources essentielles. Les streaming sur l‟internet permettent dâ€ŸĂ©couter ou de voir les

émissions radios ou télévision en différé. Ce technologie est aussi disponible pour les

terroristes pour envoyer des informations préenregistrer.

Les menaces sont devenues nombreux, ce travail a pour but de faire une

reconnaissance d‟un locuteur Ă  partir d‟un enregistrement d‟une conversation. Il prĂ©sente tout

d‟abord les gĂ©nĂ©ralitĂ©s sur les sons et les principales sources de variabilitĂ©s pour

comprendre comment un individu peut ĂȘtre reconnu par sa voix. Ensuite l‟analyse

acoustique du signal audio dans un systÚme de reconnaissance du locuteur qui présente le vif

du sujet, l‟analyse cepstrale. Et enfin, le dernier chapitre va se concentrer sur la conception du

logiciel « zazakely ».

Page 13: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

2

Chapitre I. GENERALITES

I.1. Les Sons

Les sons sont des phénomÚnes physiques que notre sens auditif peut apercevoir.

L'acoustique, science traitant des phénomÚnes sonores dit que les sons des énergies qui se

propagent sous forme de vibrations dans un milieu compressible comme dans l'eau, dans l'air,

dans les matériaux solides, mais pas dans le vide et perçues par notre ouïe.[1]

a. Émission, Propagation, RĂ©ception du son

Pour qu'un son soit Ă©mis, une Ă©nergie doit avant tout mettre en mouvement un

corps pour produire une vibration. Ainsi, le muscle du larynx, la chute d'un objet sur

le sol, ou la tension électrique dans un haut-parleur, provoqueront l'énergie nécessaire pour

produire cette vibration. Ensuite, pour que ce son puisse se propager, il faut un milieu

élastique favorable à la transmission de la vibration. En créant des surpressions ou des

dépressions, l'air permet la propagation de l'onde. Les matériaux solides ont aussi cette

capacité de transmettre le son. Dans le vide par contre, aucun son ne peut se propager, car il

n'y a aucun de support. Enfin, pour ĂȘtre perçue, il doit y avoir un rĂ©cepteur sensible. Chez

l'homme, l'oreille possĂšde une membrane (le tympan) capable de transmettre les

informations de vibration en signaux nerveux jusqu'au cerveau, grĂące au nerf auditif. De

mĂȘme, le microphone possĂšde Ă©galement une membrane permettant de transformer les

déplacements de l'air en signaux électriques.

Figure I-1 Emission et perception du son [2]

Page 14: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

3

b. Caractéristiques du son [3]

Comme tout phĂ©nomĂšne vibratoire, les sons peuvent ĂȘtre analysĂ©s comme des signaux

qui varient dans le temps.

Les sons peuvent ĂȘtre dĂ©finis par les 3 paramĂštres:

fréquence

amplitude

timbre

Dans les techniques de prise de son, de mixage, synthÚse sonore (synthétiseurs), ces

paramĂštres sont fondamentaux. Toute la «chaĂźne» du son, c‟est Ă  dire les diffĂ©rentes machines

que traverse le son utilisent ces paramĂštres.

i. La fréquence

La fréquence est le paramÚtre qui permet de préciser la tonalité c'est-à-dire aigu ou

grave du signal.

- Plus la Fréquence est élevée, plus le son est aigu,

- Plus la Fréquence est basse, plus le son est grave.

L‟unitĂ© de mesure est le HERTZ qui est Ă©gale Ă  oscillations par secondes.

Une période est une oscillation complÚte.

Figure I-2 un signal d’une pĂ©riode

Page 15: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

4

ii. L’amplitude

L‟amplitude est le paramĂštre qui permet de prĂ©ciser le niveau sonore soit fort ou

faible.

Plus l‟amplitude est grande, plus le son est fort,

Plus L‟amplitude est petite, plus le son est faible.

L‟unitĂ© de mesure est le DECIBEL (dB) ou plus prĂ©cisĂ©ment en acoustique, le dB

SPL, qui représente la pression / m2

Le dB est un rapport de signaux avec comme référence en acoustique le seuil

d‟audition (0dB).

Voici un ordre d‟idĂ©e de la mesure du dB acoustique :

Tableau 1. Exemple d’amplitude sonore

Amplitude Niveau Exemple

>120 Insupportable IntĂ©rieur d‟une grosse caisse

90 dB 120 dB Trùs fort Tutti d‟orchestre

60 dB 90 dB Fort Piano joué à 1 mÚtre

30 dB 60 dB Faible Appartement calme

10 dB 30 dB Trùs faible Studio d‟enregistrement

0 dB 10 dB Inaudible Seuil d‟audition

Le dB est Ă©galement utilisĂ© pour d‟autres unitĂ©s de mesure prĂ©sents sur les

équipements électroniques pour indiquer les niveaux, les gains ou atténuations de tensions de

l‟entrĂ©e d‟un amplificateur, prĂ©-ampli micro, table de mixage, enregistreurs, etc.

Page 16: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

5

iii. Le Timbre

Le timbre est le paramÚtre qui permet de préciser la « couleur » du signal (son).

Suivant le thĂ©orĂšme de Fourrier, un son complexe peut ĂȘtre dĂ©composĂ© en une somme

de sinusoĂŻdes de frĂ©quence et d‟amplitude donnĂ©es.

- La fréquence la plus basse est appelée « FONDAMENTALE »,

- Les fréquences multiples à la fondamentale sont appelées «HARMONIQUE».

Plus le son a des harmoniques, plus on dit qu‟il est «riche».

L‟analyseur de spectre permet : de montrer le contenu spectral du son (signal)

Certains sons n‟ont pas de spectre bien dĂ©fini: les frĂ©quences sont gĂ©nĂ©rĂ©es

aléatoirement.

- le bruit rose (Pink Noise) : contient toutes les harmoniques dont la somme donne un

contenu spectral «plat»

- le bruit blanc (White Noise) : contient toutes les harmoniques dont la somme donne

un contenu croissant.

I.2. La parole [4]

La parole est un moyen de communication trĂšs efficace et naturel de l'humain. La

parole se distingue des autres sons par ses caractéristiques acoustiques qui ont leur origine

dans les mécanismes de production. La parole apparaßt physiquement comme une variation de

la pression de l'air causée et émise par le systÚme articulatoire. Les sons de parole sont

produits soit par des vibrations des cordes vocales (source de voisement), soit par une

turbulence crĂ©e par l'air sâ€ŸĂ©coulant rapidement dans une constriction ou lors du relĂąchement

d‟une occlusion du conduit vocal (sources de bruit). L'unitĂ© de parole de plus petite taille est

un phonÚme (voyelle ou consonne). Le nombre de phonÚmes est toujours trÚs limité,

normalement inférieur à cinquante.

Page 17: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

6

Par exemple : la langue française comprend 36 phonÚme.

Tableau 2. Les phonÚmes français

La parole est produite par le systÚme articulatoire, présenté par la figure I-3.

Figure I-3 SystĂšme de production de voix humain

L‟appareil vocal humain est constituĂ© d‟un excitateur, le complexe glotte-cordes

vocales, et d‟un ensemble de rĂ©sonateurs de l‟appareil phonatoire : le pharynx, la cavitĂ©

buccale, la cavitĂ© labiale, les fosses nasales. Lorsqu‟un excitateur entre en vibration, il fournit

un signal, dont le résonateur va amplifier certaines composantes et on obtient des formants.

Ce sont des facteurs fondamentaux qui forment le timbre de la voix, et caractérisent donc ce

dernier. Le nombre de formants est variable, pouvant passer d‟un seul Ă  une infinitĂ©. Mais

Page 18: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

7

mĂȘme s‟il en existe beaucoup, seuls quelques-uns jouent un rĂŽle du point de vue perceptif. Par

contre, un formant ne peut jamais ĂȘtre ramenĂ© Ă  une frĂ©quence fixe ; il s‟agit plutĂŽt d‟une

bande de fréquence.

Lâ€ŸĂ©tendue spectrale du signal acoustique est comprise entre 80 et 8000Hz, avec une

étendue dynamique de 60 à 70dB. Il est à noter que la fréquence fondamentale moyenne de

vibration des cordes vocales, appelĂ©es « pitch » est situĂ© entre 40 – 140 Hz pour les hommes,

entre 180 – 300 Hz pour les femmes et entre 300 – 600 Hz pour les enfants.

I.3. Empreinte vocale

Une Empreinte vocale est un résumé numérique généré à partir d'un signal audio. Cette

empreinte permet d'identifier un échantillon sonore, ou de localiser une séquence sonore dans

une base de données audio.

Le procédé d'empreinte vocale fut mis au point à partir d'expérimentations réalisées

par des scientifiques désirant convertir les sons linguistiques en enregistrements visuels

destinĂ©s Ă  ĂȘtre analysĂ©s et mesurĂ©s.

Les sons vocaux sont convertis en impulsions électriques et enregistrés sur une bande

magnétique, comme dans un enregistrement sonore ordinaire, mais les impulsions sont ensuite

traitées électroniquement par un balayage successif de l'enregistrement magnétique original et

converties en un enregistrement sous forme d'images sur un papier de spectrogramme

sensibilisé électriquement.

Les images qui en rĂ©sultent peuvent ĂȘtre systĂ©matiquement classĂ©es par durĂ©e,

fréquence et intensité et comparées avec des images en provenance d'autres sources.

L'empreinte vocale est quelquefois utilisée par la police pour identifier des personnes

proférant des menaces téléphoniques ou à l'origine d'appels anonymes.

I.4. Reconnaissance vocale [5]

Il existe deux grands types de reconnaissance vocale :

La reconnaissance de la parole ou Speech recognition :

La reconnaissance de la parole est utilisée pour reconnaßtre ce qui est dit. DÚs lors, elle

permet de transformer le discours/la voix en texte. Beaucoup de personnes pensent que la

reconnaissance vocale et la reconnaissance de la parole sont similaires alors que ce n‟est pas

du tout le cas. Seul le contenu de la parole est reconnu par la reconnaissance de la parole.

Page 19: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

8

La reconnaissance du locuteur ou Speaker recognition :

Le but de la reconnaissance du locuteur est de reconnaĂźtre qui parle et donc de

reconnaĂźtre le locuteur et non pas le contenu.

La figure I-4 montre les diffĂ©rents types de reconnaissance vocale que l‟on peut

rencontrer fréquemment.

Figure I-4 Types de reconnaissance vocale

Page 20: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

9

Chapitre II. ANALYSE ACOUSTIQUE DU SIGNAL DE LA PAROLE

II.1. Traitement des signaux [6]

Traitement des signaux est une thĂ©orie permettant d‟effectuer une description ou une

modĂ©lisation et une analyse des signaux et des systĂšmes porteurs d‟information.

a. Echantillonnage des signaux

Le traitement numérique des signaux se fait sur des valeurs discrÚtes: il n'est pas

possible de traiter par ordinateur des signaux à temps continu. Par souci de simplicité, on

échantillonne les signaux à un rythme régulier. Une horloge de cadence T permet de

conserver entre les instants nT et (n+1)T la valeur qu'avait le signal Ă  l'instant nT, ce qui

permet ensuite de calculer la valeur numérique binaire du signal par une succession

d'opérations de comparaisons à des tensions de référence de la forme et de

soustractions.

Il existe plusieurs types dâ€ŸĂ©chantillonnage : Ă©chantillonnage idĂ©ale et Ă©chantillonnage

par blocage.

i. Échantillonnage idĂ©ale

L‟opĂ©ration dâ€ŸĂ©chantillonnage consiste Ă  prĂ©lever sur un signal analogique dont

lâ€ŸĂ©volution est continue dans le temps, des Ă©chantillons reprĂ©sentant l‟amplitude aux instants

de prélÚvement.

Pour des raisons de simplification, les prélÚvements sont réalisés réguliÚrement avec

une pĂ©riodicitĂ© constante Te appelĂ©e pĂ©riode dâ€ŸĂ©chantillonnage. Lâ€ŸĂ©chantillonnage est qualifiĂ©

d‟idĂ©al dĂšs lors que l‟on peut supposer ou approcher une prise instantanĂ©e des Ă©chantillons.

Figure II-1 L’échantillonnage idĂ©al.

Page 21: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

10

MathĂ©matiquement, lâ€ŸĂ©chantillonnage idĂ©al peut ĂȘtre modĂ©lisĂ© par le produit entre x(t)

et une suite pĂ©riodique d‟impulsions idĂ©ales appelĂ©e peigne de Dirac.

( ) ( ) ∑ ( )

Le facteur Te permet de normaliser lâ€ŸĂ©nergie du signal Ă©chantillonnĂ© x∗(t)

ii. Spectre du signal échantillonné

En utilisant la transformation de Fourier appliquée aux signaux échantillonnés, on

montre que le spectre du signal x∗(t) est constituĂ© d‟une suite de rĂ©pliques du spectre de x(t)

décalées avec une périodicité de

La transformée de Fourier du peigne de Dirac est un peigne de Dirac fréquentiel :

∑ ( )

→ ∑ ( )

Or

( ) ( ) ∑ ( )

Donc le spectre du signal Ă©chantillonnĂ© sâ€ŸĂ©crit :

( ) ∑ ( )

Figure II -2 Composition spectrale d’un signa

Page 22: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

11

iii. ThĂ©orĂšme de l’échantillonnage ou thĂ©orĂšme de Shannon

En considérant un spectre initial X(f) borné supérieurement par une limite fsup, on peut

espĂ©rer conserver toute l‟information lorsque fe est choisie telle que

Le non respect de la condition précédente conduit à un sous-échantillonnage qui

engendre le repliement des motifs spectraux (figure II.3). En d‟autres termes, il y a perte ou

modification des informations originales.

Figure II-3 Aspect fréquentiel du sous-échantillonnage

iv. Échantillonnage-blocage

L‟opĂ©ration dâ€ŸĂ©chantillonnage-blocage d‟un signal x(t) consiste Ă  conserver la valeur

Ă©chantillonnĂ©e entre deux prĂ©lĂšvements successifs, (figure II.4). Le signal issu d‟un tel

traitement prend une forme dite en marches d‟escalier.

Figure II-4 Échantillonnage-blocage d’un signal analogique

Page 23: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

12

b. Représentation des signaux périodiques sous la forme

de séries de Fourier

Joseph FOURIER, mathématicien français, affirma, dans un mémoire daté de 1807,

qu‟il Ă©tait possible, dans certaines conditions, de dĂ©composer une fonction pĂ©riodique f sous

la forme d‟une somme infinie de signaux sinusoïdaux

ThéorÚme de Fourier : Toute fonction continue est décomposable en série de

FOURIER. Si de plus cette fonction est périodique de période T, le nombre de termes de la

décomposition est fini.

i. Coefficients du développement

La décomposition en séries de Fourier peut s'étendre aux fonctions non périodiques.

Dans ce cas nous aurons une décomposition sous la forme :

( )

∫ ( ) (

)

Ou bien

( )

∑ ( )

( )

( ) ∑ ( )

Avec

∫ ( ) ( )

et √

∫ ( ) ( )

(

)

Page 24: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

13

ii. DĂ©veloppement sous forme complexe

Un signal x(t) périodique de période T0 peut se décomposer sous la forme d'une

somme de signaux sinusoïdaux, les harmoniques dont la fréquence est un multiple de la

fréquence fondamentale

On aura :

( ) ∑ ( ) ( )

L'amplitude complexe de chaque harmonique ( ) se calcule de la maniĂšre suivante

( )

∫ ( ) (

)

iii. Conditions de validité du développement

Comme dans tout problĂšme de dĂ©veloppement d‟une fonction, le critĂšre de validitĂ©

repose sur la convergence de la série en tout point vers x(t). Ainsi une fonction périodique x(t)

est développable en séries de Fourier si :

x(t) est dĂ©fini et continue sur l‟intervalle

à l‟exception d‟un nombre

fini de points.

x(t) ne présente pas de discontinuités de seconde espÚce

Figure II-5 Discontinuités de seconde espÚce

Page 25: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

14

II.2. Analyse spectrale des signaux numériques

a. Transformation de Fourier numérique [7]

i. TFN directe

Soit une suite numĂ©rique de N valeurs xk pour k variant de 0 Ă  N − 1.

On peut toujours considĂ©rer que ces valeurs sont issues de lâ€ŸĂ©chantillonnage Ă  la

cadence fe du signal x(t) c‟est-à-dire que

( )

La version numérique de la transformation devient :

( ) ∑

Ce rĂ©sultat est conforme Ă  la thĂ©orie de lâ€ŸĂ©chantillonnage vue prĂ©cĂ©demment

ii. TFN inverse

La fonction X( f ), obtenue par lâ€ŸĂ©quation (12), est pĂ©riodique donc dĂ©composable en

série de Fourier. Les coefficients du développement ne sont autres que les échantillons xk que

l‟on peut obtenir par :

∫ ( ) (

)

k variant de 0 Ă  N-1

b. Transformation de Fourier discrĂšte [8]

Pour utiliser la transformé de Fourier discrÚte il faut un signal périodique

i. DiscrĂ©tisation de l’intervalle frĂ©quentiel

On pose le pas fréquentiel

Page 26: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

15

Les fréquences discrÚtes sont alors données par :

Ou

ii. TFD directe

est appelée transformation de Fourier discrÚte (TFD) :

( ) ∑

∑

Figure II-6 Répartition des fréquences discrÚtes

Avec

Page 27: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

16

pour N pair

Ou

pour N impair.

La TFD fournit N points de spectre Ă  partir de N valeurs temporelles. Pour un signal xk

purement réel, Re{Xn} est une fonction paire et Im{Xn} est une fonction impaire. La

détermination de la moitié des valeurs spectrales complexes est suffisante

iii. TFD inverse

La transformation de Fourier discrĂšte inverse est obtenue Ă  partir de lâ€ŸĂ©quation de la

TFN en remplaçant :

∫

∑

Ce qui donne,

∑

(

)

(

)

k variant de 0 Ă  N-1

c. Transformée de Fourier Rapide

La Transformée de Fourier Rapide (notée par la suite FFT) est simplement une TFD

calculĂ©e selon un algorithme permettant de rĂ©duire le nombre d‟opĂ©rations et, en particulier, le

nombre de multiplications Ă  effectuer.

Il faut noter cependant, que la rĂ©duction du nombre d‟opĂ©rations arithmĂ©tiques Ă 

effectuer, n‟est pas synonyme de rĂ©duction du temps d‟exĂ©cution. Tout dĂ©pend de

l‟architecture du processeur qui exĂ©cute le traitement.

Page 28: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

17

Soit ( ) une TFD d‟un signal x de longueur N. Lâ€ŸĂ©quation de ( ) donnĂ©e par

la relation (12).

Si on effectue le calcul directement sans algorithme efficace, on doit effectuer:

N2 multiplications complexes

N(N − 1) additions complexes

Il existe différents algorithmes de FFT Le plus connu est sûrement celui de Cooley-

Tukey (appelé aussi à entrelacement temporel ou à « decimation in time «) qui réduit à

le nombre de multiplications.

Il existe deux versions de l‟algorithme:

‱ FFT avec entrelacement temporel,

‱ FFT avec entrelacement frĂ©quentiel.

L‟algorithme nĂ©cessite que N soit une puissance de 2. Le principe de l‟algorithme

consiste Ă  dĂ©composer le calcul de la TFD d‟ordre N = 2l en l Ă©tapes successives.

i. FFT avec entrelacement temporel

Illustrons tout d‟abord la mĂ©thode par un exemple pour N = 4.

Les données sont notées x(n) et la suite TFD X(n).

La notation w reprĂ©sente e− j2π /N

, c‟est-Ă - dire e− j2π /4

. On peut remarquer que wN = 1

et

wN/2

= − 1.

Pour N = 4, w4 = 1 et w

2 = − 1

La suite TFD sâ€ŸĂ©crit:

X(0) = x(0) + x(1) + x(2) + x(3) = (x(0) + x(2)) + (x(1) + x(3))

X(1) = x(0) + w1x(1) + w

2x(2) + w

3x(3) = (x(0) − x(2)) + w

1 (x(1) − x(3))

X(2) = x(0) + w2x(1) + w

4x(2) + w

6x(3) = (x(0) + x(2)) − (x(1) + x(3))

X(3) = x(0) + w3x(1) + w

6x(2) + w

9x(3) = (x(0) − x(2)) − w

1 (x(1) − x(3))

Page 29: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

18

Les donnĂ©es (x(0),x(1),... ,x(N − 1)) sont regroupĂ©es en 2 paquets: un paquet formĂ©

des donnĂ©es d‟indices pairs (x(0),x(2),... ,x(N − 2)) et un paquet formĂ© des donnĂ©es d‟indices

impairs (x(1),x(3),... ,x(N − 1)).

Soit pour N = 4, un paquet (x(0),x(2)) et un paquet (x(1),x(3)).

Puis sur chaque paquet on effectue une DFT d‟ordre N/2 et on combine les rĂ©sultats de

ces 2 DFT pour obtenir celle d‟ordre N. Ce qui donne, toujours pour N = 4:

Pour obtenir les 4 valeurs X(k), il suffit donc de calculer 2 DFT d‟ordre N/2 = 2 et de

combiner les rĂ©sultats 2 Ă  2 Ă  l‟aide d‟une addition et d‟une multiplication au maximum, pour

chaque valeur X(k). Cette étape est appelée étage de « papillons «, pour des raisons évidentes

liées à la forme du schéma de calcul. Ce résultat se généralise à toute valeur valeur de N

multiple de 2.

ii. FFT avec entrelacement fréquentiel

Cet algorithme est symétrique du précédent. Les données temporelles x(n) restent

dans l‟ordre naturel, mais les rĂ©sultats ( ) sont dĂ©sordonnĂ©s.

Le principe consiste encore Ă  dĂ©composer le calcul de la TFD d‟ordre N = 2l en l

étapes successives. Mais le regroupement de données se fait différemment.

II.3. FenĂȘtrage [9]

L‟analyse spectrale par TFD impose de travailler sur un signal numĂ©rique xk de durĂ©e

limitĂ©e. La multiplication du signal par une fenĂȘtre wk de troncature temporelle permet de

limiter la durée à N échantillons. Cette multiplication temporelle correspond à une

convolution fréquentielle figure 11.

Page 30: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

19

Figure II-7 Effet du fenĂȘtrage sur un signal analogique

De maniĂšre gĂ©nĂ©rale, la transformation de Fourier d‟une fenĂȘtre de troncature prend

l‟allure dĂ©crite en figure II.8.

Figure II-8 CritĂšres de choix d’une fenĂȘtre

Page 31: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

20

Les caractĂ©ristiques principales d‟une fenĂȘtre d‟analyse sont :

la rĂ©solution frĂ©quentielle. Celle-ci, notĂ©e Δf, peut ĂȘtre dĂ©finie comme la

possibilitĂ© de pouvoir sĂ©parer deux frĂ©quences proches l‟une de l‟autre. Elle est

caractĂ©risĂ©e par la largeur Ă  –3 dB du lobe principal de la fenĂȘtre ;

la dynamique imposĂ©e par l‟amplitude des lobes secondaires dĂ©finit la dynamique

de la fenĂȘtre.

Tableau 3 Types des fenĂȘtres avec leurs dĂ©finitions

La fenĂȘtre couramment utilisĂ©es est la fenĂȘtre de Hamming.

i. FenĂȘtre de Hamming

La fenĂȘtre de Hamming gĂ©nĂ©ralisĂ©e a pour Ă©quation:

( )

Page 32: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

21

La fenĂȘtre de Hamming proprement dite est le cas particulier de la fenĂȘtre gĂ©nĂ©ralisĂ©e

pour α= 0,54. Cette valeur correspond à une annulation quasi parfaite du premier lobe

secondaire de la fenĂȘtre rectangulaire.

Les fenĂȘtres de la famille Hamming se caractĂ©risent par un pic central de largeur

double de la fenĂȘtre rectangulaire mais une attĂ©nuation des oscillations sensiblement plus

importante. La reprĂ©sentation frĂ©quentielle de la fenĂȘtre de Hamming gĂ©nĂ©ralisĂ©e a pour

Ă©quation :

( )

(

)

(

)

II.4. Analyse Cepstrale [10]

Les coefficients produits Ă  la sortie des bancs de filtre selon lâ€ŸĂ©chelle MEL ou les

coefficients LPC peuvent ĂȘtre utilisĂ©s pour mesurer des diffĂ©rences entre deux

spectrogrammes. Ils présentent cependant de nombreux inconvénients comme par exemple

de dĂ©pendre de lâ€ŸĂ©nergie du signal et de l‟excitation. De maniĂšre Ă  pouvoir comparer

diffĂ©rents spectres, plusieurs mĂ©thodes de normalisation et de mesure existent qui peuvent ĂȘtre

exprimĂ©es dans un contexte plus gĂ©nĂ©ral de la thĂ©orie de l‟information.

La figure II.9 illustre les courbes données par les coefficients Cepstraux.

Figure II-9 Cepstre rĂ©el complet pour une fenĂȘtre de 250 Ă©chantillons (Ă  gauche), et les 20 premiers

coefficients cepstraux (Ă  droite).

Si nous admettons la représentation source/filtre du signal de parole, ce signal résulte

d‟une convolution dans le domaine temporel de la source et du filtre.

Page 33: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

22

s(t) = e(t)* h(t)

Cependant, ce qui nous intéresse pour identifier et pour mesurer des différences (ou

des similitudes) entre spectres est l‟enveloppe spectrale.

Nous transformons dans le domaine spectral lâ€ŸĂ©quation de s(t) pour avoir le produit de

l‟excitation E (f ) e t de la fonction de transfert du filtre H (f ):

S (f ) = E (f ) . H (f )

Comme nous voulons dĂ©coupler la source du filtre de maniĂšre Ă  n‟avoir plus que

l‟enveloppe spectrale, nous utilisons la fonction log, de maniùre à ce qu‟en ne prenant que le

module du spectre nous obtenions:

log |S (f )| = log |E (f )| + log |H (f )|

Une maniÚre naturelle de découpler les composants de log |S (f )| qui varient lentement

de ceux qui reprĂ©sentent les variations de l‟excitation, consiste Ă  appliquer une transformĂ©e de

Fourrier inverse. Les coefficients temporels ainsi obtenus sont appelés coefficients

Cepstraux.

Les premiers coefficients donnent les paramùtres de l‟enveloppe spectral (ou la

réponse impulsionnelle du conduit vocal), les coefficients plus élevés, les variations de

l‟excitation (figure II.9).

Si les coefficients cepstraux sont issus d‟une analyse en banc de filtres sur une Ă©chelle

MEL, on les dĂ©nommera MFCC (Mel Frequency Cepstrum Coefficients), s‟ils sont issus

d‟une analyse LPC on les appellera coefficients LPCC (Linear Predicting Coding Cepstrum).

Il existe une méthode directe pour passer des coefficients ap de la LPC à des coefficients

Cepstraux Cm.

LPCC utilise les récursions suivantes:

∑ (

)

Page 34: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

23

∑ (

)

Un des avantages importants de la comparaison de spectres en utilisant les coefficients

Cepstraux est le fait que nous pouvons utiliser une mesure de distance euclidienne simple Ă 

estimer.

Page 35: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

24

Chapitre III. RECONNAISSANCE DE LOCUTEUR

III.1. Historique

La reconnaissance vocale est définie comme étant un processus de prise de décision

utilisant des caractéristiques de la parole, afin de déterminer si une personne en particulier est

Ă  l‟origine d‟une Ă©nonciation. Cette prise de dĂ©cision porte sur une Ă©ventuelle familiaritĂ© entre

la voix cible et les voix de référence. [11]

a. Reconnaissance de locuteurs par des profanes

Une croyance ancienne, toujours d‟actualitĂ© de nos jours, stipule que l‟humain peut

ĂȘtre fiable Ă  identifier autrui en entendant sa voix. En effet, en se basant sur notre capacitĂ© Ă 

reconnaütre des voix d‟amis ou d‟identifier des voix d‟acteurs ou de politiciens, le mythe

d‟une reconnaissance vocale auditive par des profanes exacte et prĂ©cise est nĂ©. Selon le mĂȘme

auteur, les humains surestiment leur performance dans le domaine de la reconnaissance de

locuteurs.

Un grand nombre de paramĂštres entre Ă©galement en jeu dans ce genre de

reconnaissance : la qualitĂ© de la voix, la nature du discours, la durĂ©e de lâ€ŸĂ©coute, le temps

Ă©coulĂ© entre lâ€ŸĂ©coute de la voix du locuteur et la procĂ©dure d‟identification, la diffĂ©rence

d‟ñge, de genre et d‟ethnie entre le tĂ©moin auditif et le locuteur, le dĂ©guisement de la voix,

etc. De ce fait, de nombreux auteurs préconisent de prendre avec précaution les résultats

d‟une identification de locuteur par des profanes.

b. Reconnaissance de locuteurs par des experts

Les experts phonéticiens analysent en détail la voix du locuteur, pour extraire des

paramĂštres au niveau de la voix (hauteur, et timbre), de la parole (articulation, diction, vitesse

dâ€ŸĂ©locution, pauses, intonation et dĂ©fauts), du langage (dynamique, style et prosodie), ainsi

qu‟au niveau de caractĂ©ristiques linguistiques (syntaxe, idiotisme et respiration).

L‟utilisation de moyens techniques pour extraire certaines de ces caractĂ©ristiques

permet de les quantifier. Ces experts se basent sur l‟amplitude, les bandes de frĂ©quence, la

distribution spectrale des énergies, la fréquence fondamentale, ainsi que sur la durée et rythme

des segments de voix.

Page 36: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

25

AprĂšs la 2Ăšme

Guerre Mondiale, une approche consistant Ă  comparer visuellement les

spectrogrammes, «empreinte vocale», des voix indiciaires et de comparaison est apparue. Les

limites de cette approche ont rapidement été mis en évidence durant la fin du 20Úme

siĂšcle :

contrairement Ă  ce que le nom d‟ «empreinte vocale» nous laisse croire, les spectrogrammes

d‟un mĂȘme locuteur ne sont, ni invariants tout au long de la vie, ni uniques, comme les

empreintes digitales. Malgré le manque de fiabilité et de validité de cette méthode, ce type

d‟identification est encore autorisĂ© dans les tribunaux amĂ©ricains.[12]

c. Reconnaissance de locuteurs automatisée

Il existe plusieurs types de systĂšme de reconnaissance automatique de locuteurs : les

systÚmes dépendants du texte et les systÚmes indépendants. Le premier cas comprend les

situations dans lesquelles la confection d‟enregistrements de contrĂŽle du locuteur suspectĂ© est

possible, ce qui est relativement rare dans le domaine forensique. Le second cas comprend les

situations dans lesquelles la confection d‟enregistrement de contrîle est impossible.

Un grand nombre de systÚmes de caractérisation et de comparaison des paramÚtres ont

été testées.

Actuellement, la plupart des systÚmes utilisent la modélisation des caractéristiques du

locuteur par plusieurs fonctions gaussiennes, appelée «Gaussian Mixture Modelling» ou

GMM. Les systÚmes indépendants du texte utilisant ce type de modélisation sont plus

performants que les autres mĂ©thodes de caractĂ©risation, comme par exemple l‟utilisation des

réseaux de neurones, la quantification vectorielle et les modÚles de Markov cachés.

III.2. Principe et fonctionnement de la reconnaissance de

locuteur [13]

Etapes Ă  suivre :

Enregistrement de son du locuteur

SĂ©lection d‟une partie de signal

CrĂ©ation de l‟empreinte

Page 37: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

26

a. Création de l'empreinte vocale

Figure III-1 Schéma de fonctionnement

b. DĂ©tection des zones de silence

Lors de la paramétrisation du signal de la parole, une des premiÚres étapes consiste à

séparer les zones de silence de celles de parole. Afin de réaliser cette séparation, on va

calculer un seuil en se basant sur le logarithme de lâ€ŸĂ©nergie moyenne de la zone que l‟on veut

tester du signal. L'énergie moyenne est mesurée en décibels (dB) selon une échelle

logarithmique. Ainsi, on ne va conserver que les zones de paroles qui sont supérieures au seuil

fixé (en dB) :

( )

∑ ( )

avec N = le nombre dâ€ŸĂ©chantillons de la zone du signal de parole testĂ©e et x(n) = la

valeur de lâ€ŸĂ©chantillon n de la zone du signal de parole testĂ©e.

Dans ce travail de fin dâ€ŸĂ©tudes, on calculera lâ€ŸĂ©nergie moyenne de la fenĂȘtre aprĂšs

lâ€ŸĂ©tape de dĂ©coupage en plusieurs fenĂȘtres (donc N correspondra aux N Ă©chantillons de la

fenĂȘtre). Si cette fenĂȘtre est une zone de silence, on la jette. Si c‟est une zone de parole, on la

garde.

c. Calcul des coefficients MFCC

La mĂ©thode des MFCC (Mel-Frequency Cepstral Coefficients) permet d‟extraire des

caractéristiques du signal à partir de la FFT et de la DCT, ceci sur une échelle de Mel. Cette

Page 38: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

27

mĂ©thode est la plus utilisĂ©e en reconnaissance vocale car elle a l‟avantage d‟ĂȘtre robuste,

d‟avoir des coefficients qui sont dĂ©corrĂ©llĂ©s et de bien simuler l‟oreille humaine.

Voici un schéma qui reprend les différentes étapes pour calculer les coefficients

MFCC :

Figure III-2 Etape pour le calcul de MFCC

i. DĂ©coupage en plusieurs fenĂȘtres

Tout d‟abord, on va dĂ©couper le signal en plusieurs fenĂȘtres de 20-30 ms. Cette

longueur de fenĂȘtre est choisie car la parole varie peu en 20-30 ms et donc elle respecte

l‟hypothĂšse de stationnaritĂ©. On utilise aussi un recouvrement en gĂ©nĂ©ral de 50 % de façon Ă 

ce que deux fenĂȘtres consĂ©cutives se recouvrent bien.

Page 39: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

28

La figure III.3 illustre la méthode de découpage.

Figure III-3 Exemple de dĂ©coupage de fenĂȘtre

ii. FenĂȘtre de Hamming

La fenĂȘtre de Hamming est appliquĂ©e Ă  chaque fenĂȘtre rĂ©sultante de lâ€ŸĂ©tape de

découpage précédente. Elle est utilisée pour atténuer les effets de bords dus au découpage en

fenĂȘtres et ainsi diminuer la distorsion spectrale du signal au dĂ©but et Ă  la fin de chaque

fenĂȘtre

On l‟applique Ă  chaque fenĂȘtre du signal de parole de la façon suivante :

( ) ( ) ( )

iii. La transformée de Fourier rapide (FFT)

La transformée de Fourier rapide est un algorithme permettant de calculer rapidement

la transformée de Fourier discrÚte (DFT) :

( ) ∑ ( )

Page 40: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

29

Cette mĂ©thode permet de convertir chaque fenĂȘtre du domaine temporel dans le

domaine frĂ©quentiel. Comme le signal est rĂ©el, l‟information spectrale est symĂ©triquement

redondante et les fréquences négatives sont identiques aux positives. Par conséquent, on ne

récupérera que les échantillons compris entre 0 et N/2. Ce qui veut dire que la méthode nous

renseignera sur les fréquences comprises entre 0 et fe/2.

Pour commencer, il faut que le nombre dâ€ŸĂ©chantillon N de la fenĂȘtre soit une puissance

de 2. En gĂ©nĂ©ral, on choisit des fenĂȘtres de N = 256 Ă©chantillons. Si la fenĂȘtre initiale ne

contient pas assez dâ€ŸĂ©chantillons, on va utiliser la technique du bourrage de zĂ©ros (zero-

padding). Elle consiste à remplir les échantillons manquants par des zéros. Cela permet de

n‟apporter aucune information supplĂ©mentaire pour le spectre. Ensuite, on calcule la

transformĂ©e de Fourier rapide de chaque fenĂȘtre et on rĂ©cupĂšre leur spectre en magnitude

|S(k)|.

iv. Banc de filtres MEL

On va pondérer le spectre de magnitude par un banc de filtres triangulaires espacés

selon l'échelle de Mel afin de reproduire la sélectivité du systÚme auditif humain.

Tout d‟abord, la bande de frĂ©quence utilisĂ©e se situe entre 0 et fe/2Hz. Cette bande va

ĂȘtre divisĂ©e en K filtres triangulaires Ă©quidistants dans le domaine de frĂ©quence Mel avec un

recouvrement de 50%.

Figure III-4 Banc de filtre de Mel[14]

Page 41: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

30

Tout d‟abord, il faut savoir que lâ€ŸĂ©chelle de frĂ©quence Mel est espacĂ©e linĂ©airement

jusque 1000 Hz et ensuite elle est espacée logarithmiquement au dessus de 1000 Hz. La

transformation de la frĂ©quence en frĂ©quence de Mel s‟effectue de la façon suivante :

( ) (

)

L‟opĂ©ration inverse se fait de la maniĂšre suivante :

(

) .

Pour connaitre l'intervalle de fréquence Mel entre chaque filtre, on utilise la constante:

( ) ( )

oĂč Mel(fmax)= la frĂ©quence maximale sur lâ€ŸĂ©chelle de Mel calculĂ©e Ă  partir de fmax = frĂ©quence

maximale, Mel(fmin )= la frĂ©quence minimale sur lâ€ŸĂ©chelle de Mel calculĂ©e Ă  partir de fmin =

fréquence minimale et M = le nombre de filtres.

En termes d‟indices FFT pour la frĂ©quence centrale des filtres, on a :

( ) ( ( )

)

oĂč round(.) arrondi Ă  l‟entier le plus proche, fe= frĂ©quence dâ€ŸĂ©chantillonnage et NFFT

correspond Ă  la taille de la fenĂȘtre FFT.

Ensuite, on va pondĂ©rer le banc de filtres Mel en fonction d‟oĂč se trouve l‟indice k de

fréquence :

Page 42: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

31

Finalement, on applique le banc de filtres au spectre de magnitude calculé par la FFT :

( ) ∑ ( )

( )

oĂč M = nombre de filtres et N = la taille de la fenĂȘtre FFT.

d. Conversion de l’échelle en logarithme

Lâ€ŸĂ©tape suivante consiste Ă  appliquer le logarithme sur les valeurs de lâ€ŸĂ©tape

prĂ©cĂ©dente. Cela permet d‟obtenir le spectre logarithmique de Mel et de compresser la somme

précédente:

( ) ( ( ))

e. La transformée en cosinus discret (DCT)

Finalement, on obtient les coefficients MFCC en appliquant la transformée en cosinus

discret au spectre logarithmique de Mel :

( ) ∑ [

(

) ] ( )

avec M = nombre de filtres, K = nombre de coefficients, k = numéro de coefficients et

m = numĂ©ro du filtre. Pour n = 0, a0=1/√ pour n > 0, am= √

.

À noter que am la constante est utilisĂ©e pour orthogonaliser la matrice DCT.

La transformée en cosinus discret permet de revenir dans le domaine temporel en

convertissant le spectre logarithmique de Mel du domaine fréquentiel au domaine temporel.

On l‟utilise aussi pour sa capacitĂ© Ă  dĂ©corrĂ©ler les donnĂ©es.

En général, on rejettera le coefficient c(0) car il ne représente que le logarithme de

lâ€ŸĂ©nergie moyenne de la fenĂȘtre. Donc par exemple pour 13 coefficients de dĂ©part, on ne

gardera que les 12 derniers.

Page 43: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

32

III.3. Comparaison dynamique (Dynamic Time Warping

(DTW))

La comparaison dynamique est un algorithme permettant de résoudre des problÚmes

d‟alignement sĂ©quentiel. Il permet de calculer la distance entre deux sĂ©quences qui peuvent

varier en temps et en vitesse.

Dans le cadre de la reconnaissance du locuteur on va comparer deux séquences de

vecteurs acoustiques, celle que l‟on veut tester et celle de rĂ©fĂ©rence du locuteur. Le principal

problĂšme est que si le locuteur veut citer un mĂȘme mot ou une mĂȘme phrase, sa vitesse

dâ€ŸĂ©locution ne sera pas la mĂȘme d‟un segment de parole Ă  l‟autre. C‟est pourquoi on utilise

l‟algorithme de comparaison dynamique qui permet de palier à ce problùme. Il va effectuer un

alignement temporel optimal afin de réduire la déformation temporelle et le coût entre les

deux segments de parole.

Figure III-5 Exemple de comparaison dynamique

Le chemin (warping path) alignant deux séquences de taille N et M est une séquence

( ) de taille L oĂč ( ) Ï” [1 : N] x [1 : M] et l Ï” [1 : L]. Ce chemin doit

satisfaire les conditions suivantes :

1. La condition de limite : p1=[1,1] et pl=[N,M]. Cela impose que les premiers

Ă©lĂ©ments ainsi que les derniers Ă©lĂ©ments des deux sĂ©quences soient alignĂ©s l‟un avec l‟autre.

2. La condition de continuitĂ© : le chemin avance d‟un seul pas Ă  la fois. Donc les

indices m et n ne peuvent ĂȘtre augmentĂ©s que de 1 Ă  la fois le long du chemin.

Page 44: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

33

3. La condition de monotonie : n1≀ .≀nL et m1≀ ≀mL .Le chemin ne peut pas

revenir sur lui-mĂȘme, ses indices ne peuvent jamais dĂ©croĂźtre seulement croĂźtre.

Figure III-6 Chemin optimal d’alignement

III.4. Les variabilités du signal de parole

Types d‟informations avec recouvrement :

Anatomie de l‟appareil phonatoire

Phonétique : cibles phonémiques

Prosodie : rythme, vitesse, intonation, volume, modulation

Diction, prononciation, accents régionaux

Linguistique : syntaxe, grammaire, sémantique

Emotionnelle, pathologique

Page 45: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

34

Pour y résumer, la figure III-7 montre les informations captées avant, pendant et aprÚs

un enregistrement :

Figure III-7 Les informations captées dans les enregistrements

III.5. Application de la reconnaissance de locuteur

On voit trÚs souvent la reconnaissance de locuteur sur les domaines de sécurité, voici

quelques exemples :

contrĂŽle d‟accĂšs (en complĂ©ment d‟un code, d‟un badge)

banques, voitures, entrepriseS

consultation de compte bancaire par téléphone

Police criminelle pour l‟identification de suspects :

filtrage de voix suspectes (avec validation humaine)

pas assez fiable pour utiliser comme preuve

Transcription automatique :

adaptation des modĂšles acoustiques Ă  la voix du locuteur

Indexation multimédia :

indexation par locuteur

Page 46: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

35

III.6. ProblĂšmes majeurs

Comme tous les systÚmes dépendants des paramÚtres humains, la reconnaissance de

locuteur lui aussi avaient des problĂšmes. Voici quelques exemples :

Variabilité due au locuteur

Émotion, fatigue, stress, refus de coopĂ©ration.

conditions d‟enregistrement variables

Microphone, bruit ambiant.

Page 47: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

36

Chapitre IV. REALISATION

Le but de cette rĂ©alisation est de donner quelques exemples d‟implĂ©mentations

informatiques des principes physiques et mathĂ©matiques qu‟on a vu antĂ©rieurement. A ce

sujet, On a développé une application nommée « zazakely » pour montrer la simulation sous

Windows de la reconnaissance de locuteur via son empreinte vocale.

Ce chapitre prĂ©sente tout d‟abord le logiciel « zazakely » afin de le dĂ©crire clairement

et ensuite les matériels requis pour le mieux intégrer dans un environnement.

IV.1. Présentation du logiciel

a. Programmation

«zazakely » a été écrit en langage de programmation JAVA avec NetBeans IDE 7.0 et

le langage de script de MATLAB qui est actuellement utilisé dans un grand nombre

de discipline scientifique. Ce logiciel utilise :

- Les API pour la manipulation du fichier audio : Java Speech, Java Sound.

- Les API graphique : API AWT, API Swing

- La librairie « jamal-2.2»

- Une fonction MATLAB assurant l‟algorithme D.T.W pour le calcul de distance

- Un script MATLAB permettant de créer les MFCC et de les représenter dans

une interface graphique.

b. Fonctionnement

La figure 4.1. Illustre le fonctionnement de la reconnaissance de locuteur dont

ces étapes sont expliquées comme suit :

- La paramétrisation

On l‟appelle aussi analyse acoustique du signal de parole. Elle consiste

généralement à extraire les informations pertinentes et réduire au maximum la

redondance.

Le nombre de coefficients acoustiques est ici fixé à 13 dans cette simulation et

capturés sur des blocs de signal de longueur fixe 25 ms.

Page 48: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

37

- La comparaison

Elle consiste Ă  calculer les distances entre une empreinte inconnue et les

empreintes enregistrées dans une base de données.

Compte tenu des dĂ©calages temporels entre les diffĂ©rentes prononciations d‟un

mĂȘme mot, On a choisi la comparaison dynamique(DTW) car elle met en

correspondance des séquences de paramÚtres par distorsion temporelle (Time Warping).

- La décision

La phase de décision désigne le locuteur finalement reconnu. Dans cette phase de

décision, le locuteur sera accepté, reconnu ou rejeté suivant un seuil de décision, car on ne

pourra jamais avoir 100% de similitude entre le signal du locuteur testé et le signal des

locuteurs de la base de référence.

Figure IV-1 Fonctionnement

Page 49: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

38

c. Organigramme

L‟organigramme prĂ©sentĂ© dans la figure IV-2 montre tous les Ă©tapes Ă  suivre pour la

manipulation du logiciel. Chaque module du programme du logiciel zazakely est conçu à

partir de cet organigramme.

Figure IV-2 Organigramme du logiciel « zazakely »

Page 50: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

39

IV.2. Les interfaces de « zazakely »

a. FenĂȘtre de dĂ©marrage

Lancer le logiciel en exécutant le fichier zazakely.jar

Figure IV-3 FenĂȘtre de dĂ©marrage

b. FenĂȘtre principale

AprĂšs le dĂ©marrage, la fenĂȘtre principale s‟affiche.

Figure IV-4 FenĂȘtre principale

Page 51: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

40

c. FenĂȘtre dico

Comme ce logiciel contient les informations sur les locuteurs enregistrĂ©s, la fenĂȘtre

dico permet d‟afficher ses informations. Les informations dans ce dico peuvent ĂȘtre effacĂ© en

cas de besoin mais ne pas seulement consulter.

Figure IV-5 FenĂȘtre dico

IV.3. Manuel d’utilisation de « zazakely »

a. Enregistrement

L‟enregistrement dans la base de donnĂ©es suit plusieurs Ă©tapes :

Capture de son

SĂ©lection du phonĂšme

CrĂ©ation d‟empreinte

Enregistrement des informations du locuteur

Capture de son

Page 52: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

41

Figure IV-6 Représentation temporelle du son

Le bouton Record permet de capturer le son via le micro. Et pour stopper la capture, il

suffit de cliquer sur le bouton Stop.

Page 53: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

42

SĂ©lection du phonĂšme

Et maintenant, on passe dans lâ€ŸĂ©tape le plus important de l‟enregistrement, il

s‟agit de repĂ©rer le phonĂšme qui se sonne plus que les autres comme exemple « a ». AprĂšs

l‟avoir repĂ©rer, on recadre ou « crop » cette partie de son en cliquant sur crop dans le

menu Edit. Enfin, on passe à l‟enregistrement, il suffit de cliquer sur le menu fichier - save

ou save as.

Figure IV-7 SĂ©lection du phonĂšme

Figure IV-8 Enregistrement du son au format wav

Page 54: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

43

CrĂ©ation d‟empreinte

Lancer le logiciel MATLAB en cliquant sur l‟icîne MATLAB dans l‟onglet

MATLAB.

Figure IV-9 DĂ©marrage de MATLAB

Page 55: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

44

Figure IV-10 Extraction des paramĂštres MFCC

Case à cocher permettant de spécifier le résultat escompté. (MFCC)

Pour afficher les coefficients.

Pour enregistrer les coefficients dans un fichier texte.

Page 56: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

45

Enregistrement des informations du locuteur

AprĂšs lâ€ŸĂ©tape prĂ©cĂ©dente, on peut ajouter des informations concernant le

locuteur dans la liste du dico, en cliquant sur le bouton Ajouter une empreinte ou sur

le bouton Ajouter dans la fenĂȘtre dico.

Figure IV-11 Ajout des informations dans le dico

Page 57: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

46

Le bouton Parcourir sert Ă  sĂ©lectionner le fichier contenant l‟empreinte du locuteur.

Figure IV-12 SĂ©lection de l’empreinte

b. Reconnaissance d’un locuteur

La reconnaissance d‟un locuteur suit aussi quelques Ă©tapes :

- Capture du son d‟un locuteur inconnu et crĂ©ation de son empreinte

- Faire la reconnaissance

Capture du son d‟un locuteur inconnu et crĂ©ation de son empreinte

D‟une façon analogue que la phase d‟enregistrement

Faire la reconnaissance

Cliquer sur le bouton s’identifier.

Page 58: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

47

Figure IV-13 Identification du locuteur

Ensuite, charger l‟empreinte du locuteur inconnu via le bouton Parcourir.

Figure IV-14 Chargement de l’empreinte de locuteur X

Page 59: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

48

Aprùs le chargement de l‟empreinte de l‟inconnu, le bouton lancer l’analyse

est activĂ©. La figure IV.15 s‟affiche aprĂšs l‟avoir cliquĂ©.

Figure IV-15 Lancement du serveur MATLAB

Si la connexion avec MatlabServer est réussie, le bouton Continuer est activé.

Ce bouton permet d‟afficher les rĂ©sultats de comparaison dynamique effectuĂ© par

le MatlabServer.

Figure IV-16 Affichage des distances par rapport à l’empreinte de l’inconnu

Page 60: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

49

Ces distances sont ensuite comparées avec le seuil de décision pour tolérer des

éventuelles erreurs. Le bouton REPONSE affiche le résultat final.

Figure IV-17 Affichage du résultat

IV.4. Les matériels requis

L‟ordinateur auquel on veut installer le logiciel « zazakely » requiert deux

applications : le JDK 1.7 (Java Development Kit) et le MATLAB 7.5 ou plus.

Ces logiciels ne sont pas supportés par des ordinateurs qui ont de

faibles performances.

Voici les paramùtres minimaux requis pour l‟ordinateur :

Processeur pentium IV 3, 2 GHz

Ram 1,5Go

Carte son en bon Ă©tat

Page 61: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

50

CONCLUSION ET PERSPECTIVES

La reconnaissance du locuteur est une tĂąche qui vise Ă  affirmer un individu

aprĂšs lâ€ŸĂ©tude des caractĂ©ristiques spĂ©cifiques de sa voix ou ses empreintes vocales.

Notons bien que les empreintes vocales ne sont pas les mĂȘme que les empreintes

biomĂ©triques que l‟on rencontre souvent dans les marchĂ©s puisqu‟ils Ă©voluent

selon les conditions environnementaux pendant les prises de son. Toutes les paramĂštres

biomĂ©trique est unique et constantes, c‟est pourquoi ils sont utilisĂ©s pour reprĂ©senter une

personne.

Le logiciel « zazakely » sert à créer les empreintes vocales et repérer si un son

que l‟on introduit ou teste se trouve dans le dictionnaire. Ce dictionnaire est une base de

donnĂ©es, conçus pour stocker des minimums d‟information pour chaque personne que l‟on

enregistre.

La fiabilité de ce logiciel se pose sur les calculs de MFCC qui ne dépendent

pas des amplitudes de l‟enregistrement, et aussi sur le choix de la sĂ©lection de lâ€ŸĂ©chantillon Ă 

extraire pour crĂ©er l‟empreinte. Donc, la sĂ©lection manuelle donne plus de travaille

mais rend le logicielle plus stable c'est-à-dire un taux de fidélité élevé.

La continuitĂ© de ce travaille peut donc ĂȘtre envisagĂ© Ă  partir des limites que prĂ©sente le

logiciel « zazakely ». Voici des propositions pour les perspectives :

Les sélections automatiques des phonÚmes, plusieurs méthodes sont en vues comme les

mĂ©thodes statistiques (HMM, GMM, etc), les mĂ©thodes en utilisant l‟intelligence artificielle

(réseau de neurone TDNN, etc).

Utilisations des bases de données plus performant comme ORACLE Database pour que les

stockages de l‟information soient sĂ©curisĂ©s.

Page 62: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

51

ANNEXES

Page 63: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

52

ANNEXE 1 : JAVASOUND

Les API Java manipulant les sons

Java Speech

Java Speech est une API conçus pour les manipulations vocales. On trouve déjà dans

cette librairie des méthodes pour faire de reconnaissance de la parole ou speech recognition,

lecture des textes ou text-to-speech.

Dans notre logiciel, nous n‟utilisons pas cet API mais seulement le Java Sound.

Java Sound

Java Sound nous donne une solution logicielle pour le traitement des sons sur

ordinateur et évite des cartes sons adéquates. Seul besoin un digital-to-analog converter ou

DAC fourni par les cartes sons. Il permet de lire et enregistrer des fichiers sons.

Programmation audio avec java Sound

Objet de la classe AudioFormat indiquant

– le type d'encodage (linĂ©aire ou pas),

– le nombre de canaux (1 pour monophonique, 2 pour stĂ©rĂ©ophonique),

– la vitesse d'Ă©chantillonnage, c'est Ă  dire le nombre d'Ă©chantillon par seconde et par

canal,

– le nombre de bits pour coder un Ă©chantillon,

– la maniùre d'ordonner les octets (octets de poids fort en premier ou le contraire),

– le nombre et la taille des trames (une trame contenant les donnĂ©es sonores de tous les

canaux à un instant donné).

Page 64: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

53

Pour obtenir les données audio du microphone

Pour envoyer les données audio vers les Hauts Parleurs

Page 65: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

54

ANNEXE 2: ALGORITHME DE DTW

Soit la séquence de vecteurs acoustiques X=(x1,
,xN) de référence de taille N, la

séquence de vecteurs acoustiques Y=(Y1 ,
,YM) à tester de taille M, d(x,y) la distance

euclidienne entre deux vecteurs acoustiques et D(n, m) la distance cumulée du chemin

optimal allant du point (1, 1) jusqu‟au point (n, m), l‟algorithme de comparaison dynamique

se déroule comme suit :

Cet algorithme calcule le chemin optimal de coĂ»t minimal dĂ©marrant de (1, 1) jusqu‟à

(N, M) et alignant les deux séquences. Il retourne la distance totale minimale cumulée de ce

chemin. Cette distance est normalisée afin de la rendre indépendante de la longueur du

chemin.

Page 66: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

55

REFERENCE BIBLIOGRAPHIE ET WEBOGRAPHIE

[1] Jean-Paul ACHARD, livre « Théorie et technique des images et des sons»,

BibliothĂšque Site Ambatonakanga 2007

[2] http://raphael.isdant.free.fr/traitement_numerique/3-

traitement_numerique_du_son.pdf , Janvier 2012

[3] Pascale Snoeck , Livre « Cours de Sonorisation » version 2009

[4] LE Manh Tuan, « Analyse acoustique de sons bien identifiés par un systeme de

reconnaissance automatique de la parole » mĂ©moire de fin dâ€ŸĂ©tudes, 2007

[5] Jean-François Bonastre , « La reconnaissance du locuteur et la détection

d'événements sonores » , 2006

[6] E341, «Théorie du Signal» cours en 3Úme

année 2009, Ecole Supérieure

Polytechnique d‟Antananarivo-DĂ©partement Electronique.

[7] «Analyse de Fourier » cours en 2Úme

année 2008, Ecole Supérieure

Polytechnique d‟Antananarivo-DĂ©partement Electronique.

[8] E531, « Traitement Numérique du Signal» cours en 5Úme année 2011,

Ecole SupĂ©rieure Polytechnique d‟Antananarivo-DĂ©partement Electronique.

[9] Étienne Tisserand, « Analyse et traitement des signaux » 2Ăšme

Ă©dition, DUNOD

[10] Ramamonjilaza Ruphin, « Reconnaissance de locuteur par empreinte vocale »,

IngĂ©niorat en Electronique de l‟ESPA 2012.

[11] Didier Meuwly, « L‟apport d‟une approche automatique » ThĂšse de doctorat,

institut de police scientifique et de criminologie de l‟UniversitĂ© de Lausanne, 2000.

Page 67: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

56

[12] Solan LM, Tiersma PM, «Falling on Deaf Ears» Legal Affairs Nov-Dec, 2003.

[13] Anicet FOKOU, « Modest-encoding AlgoRithm with Vocal IdentificatioN »

EPITA - Avril 2002

[14] DALLA CORTE Ludovic, «Reconnaissance vocale sur Smartphone par

apprentissage automatique » 2Úme

master en sciences informatiques, Faculté des Sciences

Appliquées de l'Université de LiÚge, 2012.

Page 68: RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE

Titre : « RECONNAISSANCE DE LOCUTEUR PAR METHODE CEPSTRALE»

Auteur : RABEMAMPIANDRA Eric Noël

Nombre de pages : 56

Nombre de figures : 37

Nombre de tableaux : 3

RESUME

La reconnaissance de locuteur est un domaine qui englobe des travaux mathématiques et

informatiques tels que: l‟analyse Cepstrale des sons, traitements des signaux, programmations en

utilisant les librairies qui manipulent les sons. L‟analyse Cepstrale permet d‟extraire les informations

portĂ©es dans les sons y compris l‟empreinte vocale. Les comparaisons des empreintes donne la

possibilité de voir si un tel locuteur est bien celui dans un enregistrement données. « zazakely » est

un logiciel conçus pour faire tous les tùches du reconnaissance du locuteur, fiable et facile à utiliser.

Mots clés : Reconnaissance de locuteur, Analyse Cepstrale, MFCC, TFR, DTW

ABSTRACT

The speaker recognition is a domain including mathematics and informatics works as:

Cepstral Analysis, Signal‟s treatments analysis, coding with a library which manipulate a sound.

Cepstral analysis allows us to extract the information carried in the sounds include the voice print.

The comparisons of the prints give us the possibility to see if such a speaker is well the one in a

registration data. “zazakely” is a software made to accomplish all task of speaker recognition, reliable

and easy to manipulate.

Keywords: Speaker recognizing, Cepstral Analysis, MFCC, TFR, DTW

DIRECTEUR DE MEMOIRE : ANDRIAMANANTSOA Guy Danielson

Adresse de l’auteur :

Lot G II 7 Q Ter Ampatsy Soamanandrariny Antananarivo

[email protected]