thèse vf

TABLE DES MATIERES

INTRODUCTION ________________________________________________ 1 CHAPITRE 1 ETAT DE L'ART DES ALGORITHMES D'ESTIMATION PONCTUELLE ___________________________________ 5 1 2 3 4 5 6 7 L'ESTIMATEUR DE LA DENSITE DE PROBABILITE _________________ 6 THEOREME DE LHISTOGRAMME ET CONVERGENCE ______________ 7 ESTIMATION PAR LES FONCTIONS ORTHOGONALES _______________ 10 METHODE DU K-PLUS PROCHE VOISIN __________________________ 11 ESTIMATEUR A NOYAU ______________________________________ 12 METHODE DU NOYAU DIFFEOMORPHISME _______________________ 18 ESTIMATION NON PARAMETRIQUE PARLES RESEAUX DE NEURONE

___________________________________ 24

8

CONCLUSION ______________________________________________ 28

CHAPITRE 2 OPTIMISATION DU PARAMETRE DE LISSAGE DU NOYAU 1 2 3 4 _________________________________________________ 29

MTHODES RULE OF THUMB (ROT) ____________________________ 29 METHODES CROSS-VALIDATION ______________________________ 30 ALGORITHME DU PLUG-IN ___________________________________ 32 EVALUATION DES PERFORMANCES DES METHODES PLUG-IN,ROT ET CROSS VALIDATION ___________________________________

34

5 6

CONVERGENCE DE L'ALGORITHME PLUG-IN_____________________ 35 CONCLUSION ______________________________________________ 49

Table des matires

CHAPITRE 3 PROPOSITION D'UN ALGORITHME PLUG-INRAPIDE ________________________________________________ 51 1 Approximation analytique de J(f) dans le cas du noyau optimal ___________________________________________ 51 2 3 4 5 6 Algorithme itratif du noyau optimal analytique_________________ 53 Etude de la complexit ______________________________________ 54 Dtermination exprimentale de la puissance de hN ______________ 55 Etude comparative entre le Plug-in et le Plug-in rapide ___________ 58 Conclusion ________________________________________________ 60

CHAPITRE 4 APPLICATION A L'ESTIMATION DU TAUX DERREUR DANS LA NORME UMTS 1 2 _________________________________________________ 63 SIMULATION MONTE CARLO _________________________________ 64 ESTIMATION DU BER PAR LA DENSITE DE PROBABILITEDU SIGNAL REU ____________________________________________

67

3

ETUDE DES PERFORMANCES DE L'ESTIMATEUR __________________ 69 3.1 3.2 3.3 Etude du biais __________________________________________ 69 Etude asymptotique de la variance _________________________ 69 Etude asymptotique de la consistance_______________________ 69

4

ETUDE COMPARATIVE ENTRE LES DEUX METHODESD'ESTIMATION DU BER

______________________________________ 70

5

EVALUATION DE L'ESTIMATION DU TEB EN FONCTIONDU NOMBRE DE SYMBOLES GENERES

___________________________ 74

6

CONCLUSION ______________________________________________ 76

Table des matires

CHAPITRE 5 MISE EN UVRE D'UN SIMULATEUR D'ESTIMATION STATISTIQUE DE LA NEUTRALITE DES POPULATIONS ____________________________ 77 1 2 CONTEXTE DE L'ETUDE ______________________________________ 77 EVALUATION STATISTIQUE DE LA NEUTRALITE DES POPULATIONS___ 78 2.1 Estimation de 2.2 Estimateur de partir des sites polymorphes S ______________ 79 par Tajima ________________________________ 79

2.3 Test statistique de neutralit de Tajima_______________________ 81 2.3.1 2.3.2 3 Principe du test ______________________________________ 81 Evaluation de la neutralit ____________________________ 83

APPLICATION DE LA METHODE DU NOYAU AVEC PLUG-INANALYTIQUE _______________________________________________

84

4

CONCLUSION ______________________________________________ 86

CONCLUSION GNRALE _______________________________________ 89 ANNEXE 1 ANNEXE 2 ANNEXE 3 ANNEXE 4 _________________________________________________ 93 _________________________________________________ 97 _________________________________________________ 99 _________________________________________________ 103

BIBLIOGRAPHIE ________________________________________________ 109

INTRODUCTION

L'essor rcent des systmes sophistiqus de l'aronautique, des tlcommunications, de la mdecine, de la tldtection , est en partie la base d'un besoin de dveloppement de rsolutions numriques des mthodes statistiques les plus complexes. L'estimation des densits de probabilit comptant parmi ces disciplines, est un des principaux domaines de l'approche statistique en reconnaissance de formes. Il est bien reconnu que depuis une cinquantaine d'annes la littrature abonde dans cette branche au niveau de son utilisation. La modlisation probabiliste des paramtres rgissant les systmes technologiques les plus complexes et les grandeurs physiques dcrivant des phnomnes scientifiques est souvent requise. La complexit des formulations analytiques demande une tude par simulation. On est souvent amen estimer les densits de probabilit de ces grandeurs supposes alatoires (La modlisation stochastique des rseaux, la classification des signaux, la hirarchisation des bases de donnes avances : moteurs de recherche multimdia, la classification des images ariennes pour l'observation de la terre, la biomtrie, la classification des gnomes). Toutefois, en reconnaissance de formes, un des objectifs principaux de l'estimation est la mise en place de classifieurs. La classification talon, connue sous le nom de rgle de Bays [Gho90] car obtenue par minimisation de la probabilit d'erreur a posteriori, exige l'estimation des densits de probabilit conditionnelles de l'observation. D'autre part, l'extraction de primitives descriptives des objets classer est une phase essentielle. La description de ces objets est d'autant plus fine que le nombre de primitives est lev. On se retrouve alors dans un cas multivari de grande dimension et nul n'ignore l'exigence des thormes de convergence en termes de taille d'chantillon pour des prcisions minimales. C'est pourquoi la rduction de dimension est une solution souvent retenue. Les plus rcents dveloppements en matire de slection des primitives se ralisent par l'estimation des densits de probabilit dans un cadre multivari de basse dimension. Parmi les critres d'optimisation amenant des rductions de dimension tenant compte des statistiques d'ordre suprieur, nous citons

-1-

Introduction

les distances en probabilit, domaine en pleine investigation comportant des problmatiques encore non rsolues quant ses rgles de convergence [Pat69]. Il va de soi que l'application directe de l'estimation de densit de probabilit permettant la caractrisation complte en termes probabilistes des grandeurs physiques ou des paramtres d'un systme demeure d'une importance primordiale. Ces quantits et ces paramtres descripteurs extraits de la ralit, comportant souvent des singularits topologiques provenant de leur formulation (grandeurs bornes ou semi bornes), a rcemment ouvert un champ d'tude dnomm estimation tenant compte d'informations sur le support [Sao94][Sao97][Hal82]. Dans cette perspective, nous contribuons l'affinement de cette mthode en proposant un algorithme amliorant la convergence. Les premiers essais de l'estimation des densits de probabilit ont port sur le cas paramtrique. Nous citons essentiellement le maximum de vraisemblance et la mthode des moments d'ordre infrieur ou gal quatre connue sous la dnomination du systme de Pearson [Oja81]. Cette modlisation paramtrique continue faire l'objet d'une attention particulire dans les grandes applications telles que la tldtection, la transmission de donnes, la compression audiovisuelle et la modlisation du trafic dans les plus rcents rseaux puisque elle est moyen de pertinence et de compression de donnes complexes. L'ide principale de cette approche est d'mettre des hypothses sur le type de loi des grandeurs (systme de variables alatoires) dcrivant les systmes. Son avantage rside dans la simplicit algorithmique de sa mise en uvre. En effet, elle se ramne l'estimation des paramtres caractristiques de la loi du systme de variables alatoires suppose appartenir la famille large des lois exponentielle (loi Gamma, Bta, normale, multinomiale, loi K,). Paralllement, se sont dveloppes les mthodes dites non paramtriques, l'histogramme [Deh77] reprsentant la plus ancienne et la plus rpute parmi celles-ci. Malgr la vulgarisation de son utilisation, ses thormes de convergence restent assez mal connus par les utilisateurs. Pour les faibles tailles d'chantillon et lorsque les rgles de convergence sont respectes, l'histogramme aboutit une fonction en escalier. Un cart par rapport au modle continu reprsent par la densit de probabilit hypothtique est toujours prsent. Afin de remdier un tel inconvnient Rozenblatt [Roz56] en 1956 a propos un estimateur bas sur la convolution de la loi empirique par une fonction noyau prise sous forme d'une densit de probabilit. Il

-2-

Introduction

aboutit une fonction densit suffisamment rgulire. Les premiers travaux sur la convergence dvelopps ultrieurement [Par62][Hal82] fournissent des rgles en apparence quivalentes celles de l'histogramme. Les rgularits de l'estimateur noyau (continuit, drivabilit d'ordre suprieur) ont ensuite montr sa supriorit en termes de convergence. Nous signalons au passage les tudes sur la moyenne quadratique intgre et celles faisant appel au point de vue L1 dveloppes

essentiellement par les travaux de Devroye et al [Dev84]. Les fonctions orthogonales, jouant un rle fondamental en analyse harmonique, ont permis la naissance de l'estimateur des projections. Assez tt, Hall [Hal82] et d'autres ont pris en charge les tudes asymptotiques de cet estimateur prsentant un certain nombre de rgularits souhaitables, proches de celles de la mthode du noyau. La mthode des fonctions orthogonales prsente deux avantages essentiels. D'une part, elle s'adapte au type de support des grandeurs alatoires par le choix de la base convenable. D'autre part, sa gnralisation au cas multivari se fait de manire aise en considrant les produits tensoriels de ces fonctions de base. La convergence de toutes ces mthodes est directement dpendante du choix adquat d'un paramtre appel paramtre de lissage, fonction de la taille de l'chantillon. Cela a donn naissance un ensemble de procdures inspires des dveloppements limits des critres dcrivant la qualit de l'estimateur [Jon96] (Rot, cross validation, pas variable de P. Hominal.). Le Plug-in, algorithme itratif compte parmi ces mthodes et fera l'objet d'une attention particulire dans les travaux de cette thse [Hal87]. Nous contribuons par la proposition d'une version rapide de cet algorithme en introduisant un calcul analytique au niveau d'une de ses tapes. Rcemment, une adaptation de l'estimateur noyau tenant compte d'informations sur le support a t introduite [Sao94][Sao97]. Il s'agit d'un estimateur intgrant un changement de variable convenablement choisi et adapt la nature du support dnomm Noyau diffomorphisme. Ce dernier allie les avantages de rgularit de l'estimateur originel, de ses qualits de convergence et de son adaptation la nature topologique du support de donnes. Ce manuscrit est organis selon cinq chapitres. Le premier prsente un tat de l'art conceptuel, accompagn de simulations illustrant les principaux algorithmes

d'estimation ponctuelle rencontrs dans la littrature. Une attention particulire sera porte sur l'tude asymptotique de l'estimateur noyau dans ses deux variantes. Un

-3-

Introduction

accent particulier sera mis sur les dveloppements relatifs au critre de l'cart quadratique moyen intgr optimisant le type de noyau et le paramtre de lissage. Le second chapitre est consacr une description des travaux lis l'optimisation du paramtre de lissage, appel plus communment pas, pour la mthode du noyau. Les principales procdures algorithmiques d'ajustement de ce pas y sont dcrites. Une tude comparative comportant des simulations sur une panoplie de lois reprsentatives permet de souligner l'intrt thorique et pratique de l'algorithme Plug-in. Une premire contribution consistant en la proposition d'un algorithme itratif rapide pour la recherche du pas optimal intgrant un dveloppement analytique dans l'algorithme Plug-in est introduit dans le troisime chapitre. La complexit est analyse puis compare celle du Plug-in usuel d'un point de vue aussi bien conceptuel qu'exprimental. L'exprimentation dans ce mme chapitre ne concernera que les procdures de simulation. Deux chapitres ultrieurs permettront de confronter de tels dveloppements des cas rels manant d'exemples tirs de procdures contribuant la mise en uvre de grandes applications intressant l'activit humaine. Nous proposons dans un quatrime chapitre, d'valuer les performances d'un systme de communication de type UMTS par l'estimation de la probabilit d'erreur apparente plutt que par le taux d'erreur binaire puisque la premire s'exprime en fonction de la densit de probabilit des signaux reus permettent ainsi de rduire de manire significative le temps de calcul particulirement lorsque le rapport signal bruit est lev. Dans le cinquime chapitre, un simulateur de populations gntiquement neutre est mis en uvre. L'application du Plug-in analytique y est intgre permettant ainsi d'amliorer les performances en termes de prcision et de complexit.

-4-

CHAPITRE 1 ETAT DE L'ART DES ALGORITHMESD'ESTIMATION PONCTUELLE

Les diffrentes mthodes d'estimation des densits de probabilit rpertories lors de l'tude de l'tat de l'art se subdivisent en deux catgories : Les mthodes paramtriques et les mthodes non paramtriques. L'approche paramtrique pour l'estimation des densits de probabilit se base sur l'hypothse que la densit de probabilit suit une loi connue (loi normale, loi bta, loi Gamma etc.). Les paramtres de ces lois peuvent tre estims par certaines mthodes parmi lesquelles nous citerons les mthodes du maximum de vraisemblance [Rob67][We70a][We70b] ou encore l'estimation des moments d'ordre 3 et 4 (skewness et Kurtosis)[Oja81]. Cependant, lorsque la densit de probabilit est a priori inconnue, il est prfrable d'viter de faire des hypothses sur une des lois connues. Les mthodes non paramtriques reprsentent une alternative intressante, la plus connue tant la mthode de l'histogramme. La mthode du noyau, la mthode des fonctions orthogonales ainsi que la mthode des k plus proches voisins [Bow87][Hal82][Sil86] sont galement frquemment utilises dans la littrature et permettent d'estimer les densits de probabilit sans faire d'hypothses a priori sur les lois. Ce chapitre est ddi la prsentation des diffrentes mthodes non paramtriques pour l'estimation des densits de probabilit ci-dessus cites. Des simulations ont t menes afin d'illustrer l'importance du choix du paramtre de lissage pour une

-5-

Etat de l'art des algorithmes d'estimation ponctuelle

estimation correcte des densits de probabilit. Le chapitre 7 traite quant lui des tentatives ralises dans la littrature pour l'estimation des densits de probabilit l'aide des rseaux de neurones. Les rsultats obtenus sont cependant limits et encore peu probants.

1

L'estimateur de la densit de probabilit

Soit (X1,X2,,XN) les N ralisations dune variable alatoire X ayant pour densit de probabilit f inconnue. Nous nous intressons lestimation du paramtre f partir de lobservation (X1,X2,,XN). Dfinition :

Un estimateur de la densit de probabilit f est une application f N telle que : fN :n

x1 ,......, x n

R f N x1 ,....., x n ; x

fN x

Lvaluation de la qualit dun estimateur exige de mesurer la proximit entre la densit relle et la densit estime. Pour cela, il est possible davoir recours diffrentes normes parmi lesquelles nous citerons : La norme de la convergence simple :

fN

fx

fN x

f x

La convergence uniforme :

fN

f

sup f N x

f x

La convergence L2 :

fN

f

2 L2

R

fN x

f x

2

dx

La norme de convergence simple et la convergence uniforme font partie des normes L1 qui, bien que prsentant des proprits intressantes, sont extrmement dlicates manipuler au niveau des calculs. Les normes L2, plus faciles manipuler, sont quant elles plus gnralement utilises.

Ainsi, f N converge vers f au sens de la norme choisie lorsque la distance entre f et f N tend vers 0 quand N tend vers + .

-6-


Dans ce mmoire, les performances des estimateurs de densit de probabilit tudis seront values selon deux distances : LErreur Quadratique Moyenne (EQM)

EQM

E

fN

2

fx

E fN x

2

f x

LErreur Quadratique Moyenne intgre (EQMI)

EQMI

E

R

fN

2

fx

dx

E

R

fN x

2

f x

dx

2

Thorme de lhistogramme et convergence

La mthode de l'histogramme est la plus connue des mthodes d'estimation non paramtrique des densits de probabilit. Elle consiste subdiviser l'espace image de la variable alatoire en une partition. Dans le cas o l'espace image est la droite

relle, cette dernire est divise en intervalles de mesure constante hN : Il sagit du pas de lhistogramme.( Soit I k N ) , le kme intervalle de lhistogramme.

( I kN )

a khN , a

k 1 hN

a kN , a kN1

Le nombre de points de lchantillon se trouvant dans cet intervalle est not par N k ,avec

N k

N

1Ii 1

N k

Xi

f peut alors tre estim par f N x

N k ( pour tout x appartenant lintervalle I k N ) . Nh N

L'tude de l'erreur quadratique moyenne de

f N au point x est donne par :2

E

fN

2

fx

var f N x

E fN x

f x

-7-


( Pour tout x appartenant l'intervalle I k N ) , N k est une variable alatoire de loi

binomiale B(N, pN (x)) avec

pN x

p X1

I kN x

ak hN ak

f ( y )dy

On aura donc :

E fN xet

pN x hN

var f N x

pN x 1 pN x2 Nh N

En remplaant lesprance et la variance de f par leurs valeurs respectives dans lexpression de lEQMI, on obtient :

E

fN

2

fx

pN x 1 pN x2 NhN

f x

pN x hN

2

Pour obtenir la convergence de f N x vers f(x) en moyenne quadratique intgre, ilest ncessaire et suffisant que NhN tende vers + que le pas hN ne doit pas tendre trop vite vers 0. En pratique, le pas est dtermin en fonction de la taille de l'chantillon. Gnralement, on choisit hN et que hN tende 0. Cela veut dire

N

1 3

.

Limportance du choix du pas optimal est illustre par les figures 1.1, 1.2 et 1.3.

-8-


Estimation d'une densit de probabilit par la mthode de l'histogramme avec le pas optimal 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

0

1

2

3

4

Figure 1- Histogramme avec pas optimal

La figure 1 reprsente l'estimation dune densit de probabilit avec un pas hN choisi de manire optimale.Estimation de la densit de probabilit avec un pas infrieur au pas optimal 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

0

1

2

3

4

Figure 2 - Histogramme avec pas infrieur au pas optimal

Le choix dun pas plus faible (hN tend trop rapidement vers 0) implique une estimation moins fiable puisque la densit de probabilit apparat comme perturbe ainsi que le montre la figure 2.

-9-


Estimation de la densit de probabilit avec un pas infrieur au pas optimal 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -4

-3

-2

-1

0

1

2

3

4

Figure 3 - Histogramme avec pas suprieur au pas optimal

Par contre, le choix dun pas plus lev entrane un lissage de la densit estime (figure 3). Nous verrons plus loin que ce phnomne concerne galement les autres mthodes destimation des densits de probabilit qui sont galement tributaires du choix du pas hN. La simplicit de la mise en uvre de la mthode de l'histogramme reprsente un avantage important. Cependant, l'histogramme ne tient pas compte de la continuit de par sa construction mme.

3

Estimation par les fonctions orthogonales

Dans la mthode des fonctions orthogonales [Hal82], lestimation de f est ramene lestimation dun paramtre valeurs dans Rk. f scrit sous la forme dune srie :

f xm 0

am f em x

o les em sont des fonctions connues et am f

les

coefficients de Fourier de la densit de probabilit estimer f. En exemple de fonctions orthogonales pouvant tre utilises, nous pouvons citer la base de fonctions trigonomtriques dans X

,

forme par :

-10-


e0

1 2

; e 2i

cos ix1

; e 2i

sin ix

;

La mthode destimation consiste tronquer la srie qui devient :k

fk xm 1

am f em x

puis estimer les paramtres a1 f ,....., a k f . Il sagit en fait destimer, pour chaque m, le coefficient de Fourier am(f) partir des observations (X1,,XN), N ralisations d'une variable alatoire X suivant une loi dont la densit de probabilit est f.

am f

f x em x dx peut tre estim par :

a m, N

1 N

N

em X im 1

Par consquent, f (x) peut tre estime par :

fN X

1 N

KN

a m, N e m Xm 1

Cet estimateur est sans biais quand KN tend vers l'infini et KN /N tend vers 0 lorsque N tend vers l'infini. Cette mthode a l'intrt d'tre adapte aux diffrents types d'espaces de reprsentation particulirement les densits de probabilit avec information sur le support. En effet, elle utilise des familles de fonctions orthogonales diffrentes lorsque la nature du support de la densit n'est pas la mme.

4

Mthode du k-plus proche voisin

Il s'agit pour cette mthode de fixer un entier que l'on notera k(N) avec 1= k(N) =N puis de rechercher le plus petit intervalle centr sur x et contenant k(N) points de l'chantillon. Soit lintervalle I x, r

x r , x r et N x, r le nombre de points de lchantillon

(X1,,XN) tombant dans I x, r . On pose galement :

-11-


rN x I x, rN x

inf r

0 / N x, r

k N

.

est le plus petit voisinage symtrique de x contenant k(N) points de

lchantillon. En posant, p x, r

P X1

I x, r

x r x r

f t dt , alors

limr 0

p x, r 2r

f x .k N 2 N rN x

On dfinira f N x par f N x

L'tude de la convergence montre que f N xk N N 0.

f x

lorsque k N

et

5

Estimateur noyau

L'estimateur noyau a t introduit par Rozenblatt en 1956 [Roz56] puis dvelopp par Parzen en 1962 [Par62]. Il est dfini par :

fN x

1 NhN

N

Ki 1

x Xi hN

avec (X1, X2,, XN) N ralisations dun chantillon et K une densit de probabilit appele noyau. Ainsi, le noyau K est centr sur le point x dont on veut estimer limage par f : il sagira de sommer les contributions des diffrents xi en normalisant par lentit hN appele "paramtre de lissage" ou plus simplement "pas". Gnralement, les noyaux K utiliss rpondent aux proprits suivantes : K est symtrique, i.e., K uR

K

u .

K u du 1 u j K u duu k K u du

R

0 pour j0

1,....., k 1

R

-12-


Dans ce cas, K est dit noyau d'ordre k. Il est noter qu'en raison de la symtrie K est

ncessairement paire. La seconde proprit implique quant elle que f N x est unedensit de probabilit, i.e.,R

f N x dx 1 .

En pratique, les noyaux utiliss sont des noyaux d'ordre 2 ce qui implique que le noyau K est lui-mme une densit de probabilit. Des exemples de noyaux d'ordre 2, sont prsents dans le tableau 1.

Noyaux

Ku1 I u 2

Uniforme

1

Triangle

1 u I u3 1 u2 I u 4

1

Epanechnikov

1

Gaussien

1 2

exp

1 2 u 2

Tableau 1 - Exemples de noyaux d'ordre 2 I( ) reprsente la fonction indicatrice

5.1 Importance du paramtre de lissageLe choix du pas hN est d'une importance primordiale pour une bonne estimation de f(x). En effet, l'obtention de la convergence en moyenne quadratique exige que NhN tende vers l'infini lorsque N tend vers l'infini. En ce qui concerne la convergence en moyenne quadratique intgre, la condition exige est plus restrictive puisque N(hN)2 doit tendre vers l'infini lorsque N tend vers l'infini. Les figures 4, 5 et 6 illustrent le lien entre la qualit de l'estimation de la densit de probabilit et le choix du pas hN.

-13-


Les simulations sont ralises sur une densit trimodale issue d'un mlange de trois densits normales (0.35 N(-0.5,(0.1)2 ) +0.35 N(0,(0.1)2 ) +0.3 N(0.4,(0.1)2 ) ). La densit simule est estime en faisant varier la valeur du pas hN : De faibles variations de ce dernier induisent des estimations trs loignes de la densit relle. Le choix dun pas infrieur au pas optimal mne une estimation trs "perturbe" ainsi que le montre la figure 4. Ces perturbations induisent une augmentation de l'EQMI et par consquent une mauvaise estimation de la densit relle. La figure 5 permet galement de visualiser une trs mauvaise estimation de la densit de probabilit obtenue en utilisant un pas plus lev que le pas optimal. Cela conduit

un lissage de la courbe f N . Cette dernire est trs loigne de la densit thorique.Par contre, avec le pas optimal, une rduction significative de l'EQMI est observe. Ainsi que le montre la figure 6, la densit de probabilit simule est correctement estime. Il est important de remarquer que de faibles variations du pas hN (de l'ordre de 10-3) peuvent mener des variations importantes des densits de probabilit estimes. Par consquent, le paramtre de lissage hN doit tre dtermin de manire suffisamment prcise afin de garantir une estimation fiable de la densit de probabilit.

hn faible = 0.0288 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 -1.5 Densit thorique Densit estime

-1

-0.5

0

0.5

1

1.5

Figure 4 - Estimateur noyau avec hN infrieur au pas optimal

-14-


hn lev = 0.0313 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 -1.5 Densit thorique Densit estime

-1

-0.5

0

0.5

1

1.5

Figure 5 - Estimateur noyau avec hN suprieur au pas optimal

hn optimal = 0.0307 2 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 -1.5 Densit thorique Densit estime

-1

-0.5

0

0.5

1

1.5

Figure 6 - Estimateur noyau avec hN optimal

-15-


5.2 Etude de la convergenceL'tude thorique de la convergence de

fN

vers f permet de formuler

mathmatiquement l'expression du pas optimal. Elle permet galement de dterminer le noyau optimal permettant la meilleure estimation de la densit de probabilit.

L'Ecart Quadratique Moyen (EQM) est compos de deux parties : la variance de f etle carr du biais qui a pour expression f

E fN

2

.

EQM

E fN E f N2 var f N

2

f E fNf

E f N22

f 2 2 f E fN E fN2

2

f 2 2 f E fN

E fN

Le dveloppement de l'expression de la variance de f permet de l'exprimer commesuit :

var f N

1 K 2 u f x hN u du NhN1 hN

1 N

2

K u f x hN u duK u f x uhN du

[Eq. 1]

De mme, E f N

K u f x uhN hN du

Ainsi, le biais, second terme de l'EQM, devient gal :

E fN

f

2

K u f x uhN duK u f x uhN

K u f x du2

2

[Eq. 2]

f x du

D'aprs les quations 1 et 2, l'EQM a pour expression :

E fN

2

f

1 K 2 u f x hN u du NhN K u f x uhN f x du2

1 N

K u f x hN u du

2

-16-


Le dveloppement de Taylor de f x hN u , permet d'approcher l'EQMI en fonction de hN par

hN .hN M K Nh N4 J f hN 4

EQMI

[Eq.3]

avec

M K

K 2 u du

et

J f

f" x

2

dx

f" tant la drive seconde de f . (Annexe A) Pour minimiser

h N , il suffit de rsoudre l'quation3 hN J ( f )

' (h N ) 0 .

' hN

M (K )2 NhN

0

* La valeur optimale de hN note h N devient alors :1 5. 1 5. 1 5

* hN

N

J f

M K

[Eq. 4]

Ainsi, lexpression thorique du pas optimal au sens de lEQMI est fonction de la taille de lchantillon N, de lintgrale du noyau choisi lev au carr M(K) ainsi que

de lintgrale de la drive seconde leve au carr de f N note J(f). Or, cettedernire entit est directement lie f, fonction inconnue que nous cherchons estimer. L'EQMI minimum thorique sexprime par :

EQMI

5 N 4

4 5

M K

4 5

J f

1 5

Il est noter que l'EQMI dpend galement de f N .De la mme manire, l'expression du noyau optimal not Ko, peut tre retrouve au sens de l'EQMI [Deh77], et correspond :

0 si x Ko x 3 4 5 1

5 x2 si x 5 5

-17-


Un simple changement de variable permet de retrouver le noyau d'Epanechnikov.

6

Mthode du noyau diffomorphisme

Les densits de probabilit support born ou semi born prsentent des difficults d'estimation dues en particulier l'effet de Gibbs observ sur les bords. En effet, le recours la mthode du noyau ou la mthode des fonctions orthogonales pour l'estimation de ce type de densits de probabilit mne des rsultats prsentant des biais sur les bords. La mthode du noyau diffomorphisme [Sao94] [Sao97] permet une meilleure estimation grce un changement de variable par un C1-diffomorphisme not -dire que la limite de

de ]a, b[ dans R.

doit tre suffisamment rgulier c'est-

'(x) est infinie lorsque x tend vers a ou lorsque x tend vers b.

L'estimateur du noyau diffomorphisme s'exprime par :

fN x

' x NhN

N

Ki 1

x hN

Xi

L'tude de la convergence montre que cet estimateur est sans biais pour tout x dans ]a, b[. Pour vrifier la convergence en moyenne quadratique, il faut que hN NhN + lorsque N + . 0 et

Afin dobtenir la convergence en moyenne quadratique intgre, l'application x

' f x doit tre intgrable sur ]a, b[ car :b a 2

E

fX xb a

f x2

dx 1 Nb a

1 NhN

fX x

' x dx K 2 y dyR

f X2 x dx

b a

hN

Deux exemples de diffomorphismes pouvant tre appliqus sont prsents ci- dessous

D1 :

a ,b

: a, b x

R Log x a / b x

-18-


D2 :

a ,b

: a, b x

R tg b x

avec Remarque :

/b a

et

a b /2

Plus le diffomorphisme crot ou dcrot lentement, plus lerreur quadratique moyenne est faible. Le diffomorphisme de type logarithmique est donc celui qui estime le mieux la vraie densit de probabilit. Comme pour la mthode du noyau, la qualit de l'estimation est tributaire du choix du pas hN car elle est plus ou moins lisse selon la vitesse avec laquelle le pas hN tend vers 0. La valeur optimale de ce dernier est calcule par tude de la convergence puis par minimisation de la moyenne quadratique intgre.

E

f

2 N

x

f x

AN x

BN x

C N x avec

AN x

' x NhN

2

K 2 y g N x, y dyR

2

BN xR

K y

' g N x, y

f x

dy

CN x

' x N

2

2

K y g N x, y dyR

Le dveloppement de Taylor de la fonction Hy dfinie par :

-19-


x

Hy

fo

1

x

yhN

1

'

x

yhN

au voisinage du point

x implique quil existe un nombre compris entre 0 et 1 tel que :

Hy

x

yhN

Hy2 y 2 hN '' Hy 2

x x

' yhN H y

x x yhN

3 y 3 hN ''' Hy 6

En effectuant le calcul des drives successives de la fonction Hy au point approximations suivantes sont obtenues :

x , les

AN x

' x f x NhN4 hN

M K avec M K

R

K 2 y dy

BN x

4

' x

8

F 2 x avec

F x

f x 3 '' xf x N2

2

' x ''' x

3 f ' x ' x '' x

f '' x

' x

2

CN x

Ltude asymptotique de lEcart Quadratique Moyen Intgr permet dcrire les dveloppements suivants :

D2 f N , f

R

AN x NhNR

BN x

CN x dx F2 xR 8

M K

h4 ' x f x dx N 4

dx

' x

-20-


Dans le cas o M

et J existent et en posant

Met

K

M K

R

' x f x dx

J

f

F2 xR

' x

8

dx

* il est possible de dduire la valeur de hN qui minimise lEQMI, que lon notera h N .

* hN

M

K

1 5

J

f

1 5

N

1 5

Pour illustrer l'intrt de la mthode du noyau-diffomorphisme, nous avons procd des simulations sur deux densits : une densit de probabilit semi borne, en l'occurrence une loi exponentielle de moyenne 1 estime partir d'un chantillon de taille 1500, une densit de probabilit borne, savoir une loi uniforme entre ]0, 0.1[. La figure 7 reprsente l'estimation de la densit d'une loi exponentielle simule par la mthode du noyau (Noyau optimal) avec recherche du pas optimal par l'algorithme Plug-in usuel. Nous remarquons le phnomne de Gibbs aux bords ainsi qu'un manque de lissage de la densit estime. La figure 8 reprsente l'estimation de cette densit de probabilit par la mthode du Noyau-Diffomorphisme. Non seulement, le phnomne de Gibbs est compltement absent de par le principe mme de la mthode mais la densit recherche est estime d'une manire presque parfaite. Nous pensons que cela est du au fait que la vitesse de convergence est acclre aux bords tout en gardant une vitesse de convergence raisonnable l'intrieur de la densit de probabilit.

-21-


noyau optimal f f estime 1

0.8

0.6

0.4

0.2

0 -2

-1

0

1

2

3

4

5

6

7

8

Figure 7 -Estimation d'une loi exponentielle par la mthode du noyau.

noyau diffeomorphisme ptimal f f estime 1

0.8

0.6

0.4

0.2

0 -2

-1

0

1

2

3

4

5

6

7

8

Figure 8 -Estimation d'une loi exponentielle par la mthode du noyau diffomorphisme

-22-


noyau optimal 12 f f estime 10

8

6

4

2

0 -0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

Figure 9 -Estimation d'une loi uniforme par la mthode du noyau diffomorphisme

noyau diffomorphisme optimal 12 f f estime 10

8

6

4

2

0 -0.04

-0.02

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

Figure 10 -Estimation d'une loi uniforme par la mthode du noyau diffomorphisme

Les figures 9 et 10 reprsentent l'estimation de la densit d'une loi uniforme par l'estimateur du noyau et l'estimateur du noyau diffomorphisme. Les rsultats obtenus

-23-


confirment ceux observs pour la loi exponentielle. Le phnomne de Gibbs est l aussi compltement matris. En ce qui concerne le lissage de la densit de probabilit, il est moins facile observer que pour la loi exponentielle. Cela peut tre expliqu par le fait que la loi uniforme est particulirement connue par ses difficults d'estimation.

7

Estimation non paramtrique par les rseaux de neurone

L'estimation paramtrique des densits de probabilit par les rseaux de neurone multicouches a t tudie par White [Whi92]. Pour cela la fonction d'activation des couches caches doit tre non constante, continue et borne. Les densits de probabilit tant des fonctions positives, la fonction de sortie doit tre croissante, positive et localement continue. La normalisation est quant elle assure en imposant des contraintes empiriques sur les poids de sortie. L'estimation non paramtrique des densits de probabilit par les rseaux de neurones a t quant elle peu aborde dans la littrature du domaine en raison notamment de la complexit algorithmique de type gnralement NP complet [Jon92]. Cependant, quelques auteurs [Mod94][Lik00]ont propos une mthode d'estimation des densits de probabilit support compact base sur une loi d'apprentissage par rtro propagation minimisant l'entropie relative entre l'estimateur et la densit de probabilit. Soit g(X) la densit de probabilit support compact inconnue dfinie sur un sous ensemble compact S tel que S RM1. Cette densit peut tre estime par un rseau de

neurone poids borns ayant une seule sortie et une seule couche cache, formellement dcrit par :

p X,

Fc

f X,

avec

p X,

, l'estimateur de la densit de probabilit inconnue

, l'ensemble des poids du rseau Ml le nombre d'units de la lme couche, la premire couche tant la couche d'entre. (1.0.X) (1.0.x1,..,xM1) est le vecteur d'entre de dimension (M1+1)augment du

biais d'entre.

-24-


lij

correspond au poids de la ime unit de la lme couche associe la jme unit de la

couche prcdente. La sortie du rseau est formellement dcrite de la manire suivante :M2 M1

f X,i 1

Gj 0

xj

2 ij

31i

.

G tant la fonction d'activation des units caches. Les bornes des poids du rseau sont donnes par :Ml1

c

B i.ej 0

l, j

B avec B

R+ .

c( ) le poids du biais entre la couche cache et la couche de sortie. Il doit tre dtermin de manire empirique pour queS

p X,

dX

1.

En choisissant la fonction exponentielle en tant que fonction d'activation de la sortie du rseau F, la sortie de l'estimateur devient une famille de densits exponentielles qui possdent la proprit d'entropie relative minimale [Kul59]:M2 M1

p X,

ci 1

Gj 0

xj

2 ij

31i

.

La fonction d'activation des units caches G doit tre choisie de manire ce que le rseau puisse approximer le log des densits. Pour cela, il suffit de choisir la fonction logistique ou encore la fonction tangente hyperbolique. Le poids du biais de sortie est choisi de la manire suivante :

c

logS

exp f X ,

dX

-25-


Pour un chantillon X de taille N, la valeur Leibler [Kul59],S

o

minimisant la distance de Kulback-

g X log g X / p( X , ) dX entre l'estimateur et la vraie densit

g(X) ou celle maximisant l'entropie de Shanon-Wiener [Sha62] de l'estimateur,S

g X log p( X , ) dX ,

est

connue

comme

l'estimation

du

maximum

de

vraisemblance de . Elle peut alors tre calcule en tant que valeur maximisant le log de la vraisemblance. g X log p X , dX Eg log p X ,

S

X

g(X) tant la densit de probabilit inconnue, ( ) ne peut tre calcule. Il est cependant possible de l'estimer grce la loi des grands nombres.N N

N

N

1

log p X k ,k 1

N

1

ck 1

f Xk,

Il suffit alors de maximiser N N

pour obtenir une estimation de

o.

Cependant

n'tant pas concave, la rsolution de l'quation se fait grce des heuristiques

telles que le recuit simul ou les algorithmes gntiques. Les mthodes de rtro propagation bases sur la descente du gradient sont galement valables pour approcher la solution optimale. L'ide de base consiste driver une rgle delta modifie gnralise pour l'estimation des densits de probabilit.N 0 k 1

0N

0c

N

1

f Xk,

Soient

k I li

M1 j 0

k lij z l 1 j

k et z li respectivement la somme affine de tous les poids

d'entre et la sortie de la ime unit de la lme couche durant le kme passagek d'apprentissage. Dans les couches caches, z li k G I li .

-26-


Il convient en un premier temps de calculer partielle

0

f Xk,

en calculant sa drive

f Xk,lij

f Xk,k I li

k I li lij

.

En notant par

k li

=

f Xk,k I li

, on obtient

f Xk,lij

k li lij

M1 q 0

k liq z l 1 q

k k li z l 1 j

Il suffit de calculer

k li

.

Pour la couche de sortie,

k li

f Xk,k I li

1

Pour les couches caches,

k li

f Xk,k I li

f Xk,k z li

k z li k I li

f Xk,k z li

k G ' I li avec

G' la drive de G, fonction d'activation des units caches.

Il convient de calculer

f Xk,k z li

pour chaque couche cache :

f Xk,k z li

Ml

1

f Xk, I (kl 1) p

I (kl

p 1

1) p k z li

Ml

1

k (l 1) p (l 1) pi

p 1

Par substitution

k li

k G ' I li

Ml

1

k (l 1) p (l 1) pi

p 1

Aucune sortie dsire n'tant requise, cet estimateur peut tre class en tant que non paramtrique. Rappelons la dfinition du biais [Kul59] :

-27-


0c S

1 exp f X , dX

. exp f X ,S

0

f X,

dX

0N

N

1

N 0 k 1

f Xk,S

1 exp f X , dX

. exp f X ,S

0

f X,

dX

L'algorithme de rtro propagation se prsente de la manire suivante :nouveau ancien

limN

N

ancien

avec

une petite constante.

8

Conclusion

Dans ce chapitre, nous avons prsent les mthodes d'estimations ponctuelles relatives au domaine recenses dans la littrature. La mthode du noyau, souvent considre comme une gnralisation de la mthode de l'histogramme, prsente l'avantage de prserver la continuit des densits de probabilit estimes et d'tre relativement simple mettre en uvre. Elle fera l'objet de dveloppements ultrieurs notamment pour le choix du paramtre de lissage, choix dterminant pour l'obtention de la convergence en moyenne quadratique et en moyenne quadratique intgre. Ainsi, dans le chapitre suivant, nous prsenterons les diffrents algorithmes d'optimisation du paramtre de lissage en menant une tude comparative entre les mthodes les plus courantes.

-28-

CHAPITRE 2 OPTIMISATION DU PARAMETREDE LISSAGE DU NOYAU

L'tude de la convergence de l'estimateur noyau a permis de formuler l'expression thorique du pas optimal hN. Ce dernier peut tre directement dtermin partir de l'quation 3, condition de connatre les deux entits M(K) et J(f). Or, si M(K) ne prsente aucune difficult pour sa dtermination puisqu'il s'agit de l'intgrale du noyau lev au carr, il n'en est pas de mme pour J(f). En effet, J(f) correspond l'intgrale de la drive seconde leve au carr de la densit estimer. Cette problmatique a fait l'objet d'un nombre important de travaux. Plusieurs mthodes ont t dveloppes dans la littrature. Nous en citons ci-dessous les principales : Les mthodes Rule of thumb (rot) [Sil86][Hr91][Ter92] Les mthodes cross-validation [Ha87a][Sco87][Hal91b] La mthode Plug-in[Ha87b][Par90] Toutes ces mthodes tentent de donner une estimation du pas optimal en minimisant l'Erreur Quadratique Moyenne Intgre (EQMI).

1

Mthodes Rule of thumb (rot)

La mthode Rule of thumb ou rot a t dveloppe par Deheuvels [Deh77] pour l'estimation de la densit de probabilit par la mthode de l'histogramme. Elle a pour

-29-

Optimisation du paramtre de lissage du noyau

principe de remplacer la densit inconnue par une fonction de distribution de rfrence ayant la mme variance que celle de l'chantillon. En prenant titre d'exemple le noyau gaussien et la distribution normale comme distribution de rfrence, l'expression du pas optimal devient :

h rot

1.06 N

1 5

,

tant l'cart type estim partir de l'chantillon.

Une version plus robuste a t construite en remplaant la variance par le rang interquartile R [Sil86][Har91]. L'expression de l'estimateur devient alors :

h rot

R 1.06 min , N 1.34

1 5

.

En 1990, Terrel [Ter90] a propos une borne infrieur pour J(f) et par consquent une borne suprieure pour hN . C'est cette borne suprieure qu'il propose de choisir comme pas optimal que l'on1/ 5

notera

hMSP (Maximal

Smoothing

Parameter).

hMSP

3 35

1/ 5

M K

N

1 5

Ces mthodes donnent gnralement des rsultats fiables pour les densits unimodales. Cependant, en ce qui concerne les densits multimodales, les estimations obtenues sont gnralement assez loignes des densits relles toujours au sens de l'EQMI.

2

Mthodes Cross-validation

La mthode Pseudo Likelihood Cross Validation (PLCV) consiste choisir hN de faon maximiserN f i 1 N

X i [Dui76].

fN x

1 Nh N

N

Ki 1

x Xi hN

est remplace par f N , i x

1 NhN

N

Ki 1 j i

x Xj hN

.

-30-


Le pas slectionn par cette mthode minimise la distance de Kullback-Leibler entre

f N x et f(x). Cependant, cette mthode prsente l'inconvnient d'tre inconsistanceenvers certaines distributions telles que la distribution de Student. La mthode Least Squares Cross Validation [Bow84] (LSCV) est d'aprs la littrature la plus populaire et la plus tudie. Elle consiste estimer le paramtre de lissage permettant de minimiser l'Erreur Quadratique Intgre (EQI).

EQI

fN x fN x2

2

f x dx

dx f N x f x dx22

f x

dx

La fonction LSCV(h) est un estimateur de EQIR

f

x dx

Par estimation des moments, elle s'exprime par :

LSCV hR

f N2 x dx 2

N i 1

fN, i Xi

La valeur de hN permettant de minimiser la fonction LSCV est slectionne en tant que pas optimal. L'inconvnient de cette mthode est que les pas slectionns prsentent une grande variance en fonction des chantillons issus d'une mme distribution. Par ailleurs, la fonction LSCV peut prsenter plusieurs minimums. La mthode Biased Cross Validation, propose par Scott et Terrel [Sco87], considre quant elle l'estimation asymptotique de l'Erreur Quadratique Moyenne Intgre.

EQMI

M K Nh N

4 J f hN 4

L'entit J(f) est remplace par une estimation obtenue par minimisation de la fonction BCV suivante :

BCV hN

M (K ) Nh N

4 hN

4N

2 i j

" " K hn * K hn X i

Xj

-31-


Plusieurs minimums peuvent galement tre observs pour cette mthode bien que plus rarement que pour la mthode LSCV. Dans ce cas la meilleure performance est obtenue en choisissant la plus faible valeur de hN obtenue partir des minimums. La mthode Smoothed Cross-Validation (SCV) propose par Hall, Marron et Park [Hal92] se base sur l'estimation de l'intgrale du biais savoir

K u f x uh N

f x du en remplaant f par son estimation note f g x un

autre estimateur avec un pas g et un noyau L diffrents.SCV h N M (K ) Nh N 1 N N 1 Kh * Khi jn

n

2 K hN

K 0 * Lg * Lg X i

Xj

Le pas hN optimal est suppos tre celui qui minimise la fonction SCV.

3

Algorithme du Plug-in

La mthode Plug-in fait appel un algorithme itratif pour la recherche du pas optimal [Ha87b]. Le principe de cette mthode est de recalculer chaque itration l'entit J(f) puis de r-estimer la densit de probabilit avec le nouveau J(f). Ainsi, le premier J(f) peut tre fix de manire alatoire.

3.1 Description de l'algorithme Plug-inLes diffrentes tapes de l'algorithme Plug-in sont dtailles ci dessous : tape 1: Dtermination de M(K) . Cette tape est ralise analytiquement lorsque le carr du noyau choisi est intgrable. Dans le cas contraire, on a recours une estimation numrique. tape 2 : Fixation alatoire de J(0) f . Il est galement possible de fixer J(0) f par des mthodes telles que la mthode rot. hN(0) est ensuite dduit partir de J(0) f . tape 3 : Estimation de f par la mthode du noyau en utilisant le pas hN(0). On

obtient alors f 0 premire estimation de f par l'algorithme Plug-in. Cette premireestimation converge rarement vers f particulirement dans le cas des densits multimodales. tape 4 : R-estimer J(k) f

en estimant la drive seconde de f k

1

puis en

l'intgrant. hN(k) est ainsi dduite chaque itration k.

-32-


tape 5 : L'arrt de l'algorithme a lieu lorsque hN converge, i.e., la diffrence entre hN(k) et hN(k-1) est trs faible. Les diffrentes tapes cites sont schmatises dans la figure 11.

Calcul de J(k)(f) Dbut puis de hN(k)

Estimation de f avec hN(k)

Calcul de M(K) Choix arbitraire de J(f). Estimation de f k=0 fin k=k+1non

|hN(k)-hN(k-1) | = e

oui

Figure 11 -Schma descriptif de l'algorithme Plug-in

3.2 Complexit de l'algorithme Plug-inL'tude de la complexit algorithmique montre que cet algorithme est polynomial de l'ordre de O(2kNp) avec k le nombre d'itrations ncessaire pour atteindre la convergence, N la taille de l'chantillon et p la rsolution que l'on dfinira comme le nombre de point pour lesquels on estime l'image par f. En effet, pour chaque itration, l'estimation de f par la mthode du noyau a une complexit de O(2Np) et l'estimation de J(f) a une complexit de O(2p).

-33-


4

Evaluation des performances des mthodes Plug-in, rot et Cross validation

L'valuation des performances des mthodes Plug-in, rot et Cross Validation pour la slection du pas optimal, est ralise dans ce chapitre par une comparaison de leurs EQMI respectifs. En ce qui concerne les mthodes rot, le pas optimal est choisi

comme suit : hMSP

3 35

1/ 5

M K

1/ 5

N

1 5

.

Pour les mthodes Cross Validation, le pas est dtermin par la mthode Least Square Cross Validation (LSCV). La mthodologie adopte consistera estimer les erreurs quadratiques moyennes intgres (EQMI) pour les trois mthodes sur plusieurs simulations en faisant varier les distributions et les noyaux. Deux principaux noyaux seront tests : le noyau gaussien souvent utilis en pratique et le noyau d'Epanechnikov qui n'est autre que le noyau optimal cens donner une meilleure estimation des densits de probabilit. Les caractristiques des simulations unimodales, bimodales ou trimodales servant de base de test sont dtailles dans le tableau 2. Chacune des 8 figures numrotes de 12 19 reprsente les estimations d'une des 8 densits de probabilit thoriques par les quatre mthodes slectionnes. A vue d'il, il est possible de noter que les mthodes Plug-in sont au moins aussi performantes que les mthodes rot et LSCV pour les densits unimodales. Par contre, lorsqu'il s'agit d'estimer des densits multi modales, les mthodes Plug-in apparaissent nettement plus performantes indpendamment du noyau utilis. Comparativement, les mthodes rot et LSCV affichent des rsultats mdiocres. L'estimation des diffrentes erreurs quadratiques moyennes intgres (EQMI) permettent de conforter ces hypothses, puisque dans tous les cas de figure, les plus faibles EQMI sont observs sur les estimations par la mthode du noyau avec recherche du pas optimal par des algorithmes Plug-in. Ces valeurs, prsentes dans le tableau 3, nous permettent de conclure sans aucune ambigut l'intrt d'avoir recours aux algorithmes Plug-in

-34-


pour la recherche du pas optimal lors de l'estimation des densits de probabilit par la mthode du noyau.

5

Convergence de l'algorithme Plug-in

Dans la section 4, nous avons montr que l'algorithme Plug-in converge vers le pas optimal hN pour toutes les densits de probabilit que nous avons testes. Cette section est ddie l'tude de la vitesse et de l'uniformit de convergence de cet algorithme. La mthodologie adopte consistera mesurer les valeurs de l'EQMI en fonction des itrations pour les densits de probabilit test. Ces mesures concerneront les deux noyaux tests : le noyau gaussien et le noyau optimal. Les valeurs obtenues (tableau 4) nous permettent de conclure la rapidit de convergence de l'algorithme Plug-in indpendamment du noyau choisi. En effet, dans tous les cas de figure, les carts quadratiques moyens intgrs sont suffisamment faibles pour pouvoir conclure une bonne estimation de la densit de probabilit ds la 5me itration. Nous pouvons donc supposer que 10 itrations de l'algorithme Plug-in suffisent largement pour dterminer le pas optimal dans la majorit des cas. Lors de l'implantation des diffrents algorithmes Plug-in, nous avons opt pour un nombre fixe d'itrations quelque soit la densit de probabilit estimer. Les figures allant de 20 27 reprsentent l'volution de l'EQMI en fonction du nombre d'itrations et illustrent bien cette rapidit de convergence. Par ailleurs, la stabilit de l'algorithme Plug-in est tudie afin de mettre en vidence la faible variabilit des carts quadratiques intgrs (EQI) pour une mme densit de probabilit. Dans le tableau 4, les EQMI reprsents sont les valeurs moyennes de 100 EQI estims pour chaque densit test. Nous avons galement inclus dans ce tableau les variances des EQI ainsi que les valeurs extrmes estimes. Ces dernires prsentent dans la majorit des cas des carts importants ce qui implique des variances leves. En effet, chaque estimation est effectue partir de la gnration d'un chantillon diffrent. Les estimations tant tributaires de l'chantillon observ, les performances des estimateurs le sont galement. Cependant, le tableau 4 met en vidence la stabilit des deux estimateurs puisque les EQMI, variances et valeurs extrmes sont proches indiffremment du noyau utilis.

-35-


Il est galement intressant d'observer que l'algorithme Plug-in converge dans certains cas vers une valeur de hN ne donnant pas l'EQMI minimal. Ainsi, on obtient au bout de la seconde ou de la troisime itration l'EQMI minimal qui augmente ensuite lgrement au fil des itrations et finit par converger vers une valeur lgrement plus leve. Cet cart est cependant tellement faible qu'il peut tre considr comme ngligeable puisque aucune altration de la qualit de l'estimation n'est observe.

-36-


Distribution G1

Caractristiques Distribution unimodale de taille 1000 obtenue partir d'une Gaussienne Distribution bimodale de taille 1000 obtenue partir d'un mlange de deux gaussiennes1 *

0 0.3 -0.15 0.152

*1

G2

2

=

0.1 0.5 -0.3 0.3 0.1 0.5 -0.3 0 0.33

pi1 = pi21

G3

Distribution bimodale de taille 1000 obtenue partir d'un mlange de deux gaussiennes1

2

=

2

pi1 = pi21 2

G4

Distribution trimodale de taille 1000 obtenue partir d'un mlange de trois gaussiennes1

3

=

2=

0.1 0.35 0.3 -0.4 0 0.4 0.1 0.35 0.3 [-2, 3] [-2, 1] 0.4 [-1, 3] 0.6 [-0.5, 0.5] 0.6 0.3 0.2

pi1 = pi2 pi31 2

G5

Distribution trimodale de taille 1000 obtenue partir d'un mlange de trois gaussiennes1

3

=

2=

3

pi1 = pi2 pi3 G6 Distribution uniforme de taille 5000 Mlange de deux distributions uniformes de taille 5000 [a, b] [a1, b1] pi1 [a2, b2] pi2 [a, b] pi1 (LU) G8 Mlange d'une loi uniforme et d'une gaussienne

G7

Pi2 (LN) Tableau 2 - Caractristiques des densits de probabilit testes

0.4

: moyenne -

: Ecart-type pi : proportion [a, b] : intervalle pour la loi uniforme

-37-


Plug-in avec le noyau gaussien 1.5 f f-est 1 1 1.5

Plug-in avec le noyau optimal f f-est

0.5

0.5

0 -2

-1

0

1

2

0 -2

-1

0

1

2

Least Square Cross-Validation 1.5 f f-est 1.5

Rule Of Thumb f f-est

1

1

0.5

0.5

0 -2

-1

0

1

2

0 -2

-1

0

1

2

Figure 12 -G1 en fonction de la mthode de slection de hN

Plug-in avec le noyau gaussien 2.5 2 1.5 1 0.5 0 -1 -0.5 0 0.5 1 f f-est 2.5 2 1.5 1 0.5 0 -1


-0.5

0

0.5

1

Least Square Cross-Validation 3 f f-est 2 2 3


1

1

0 -1

-0.5

0

0.5

1

0 -1

-0.5

0

0.5

1


-38-


Plug-in avec le noyau gaussien 2 1.5 1 0.5 0 -1 -0.5 0 0.5 1 f f-est 2 1.5 1 0.5 0


-1

-0.5

0

0.5

1

Least Square Cross-Validation 2 1.5 1 0.5 0 -1 -0.5 0 0.5 1 f f-est 2 1.5 1 0.5 0 -1


-0.5

0

0.5

1


Plug-in avec le noyau gaussien 1.5 f f-est 1.5


1

1

0.5

0.5

0

-0.5

0

0.5

1

0

-0.5

0

0.5

1

Least Square Cross-Validation 1.5 1 0.5 0 f f-est 1.5 1 0.5 0


-0.5

0

0.5

1

-0.5

0

0.5

1

Figure 15 -G4 en fonction de la mthode de slection hN

-39-


Plug-in avec le noyau gaussien 1.5 f f-est 1.5


1

1

0.5

0.5

0

-1

-0.5

0

0.5

1

0

-1

-0.5

0

0.5

1

Least Square Cross-Validation 1.5 1 0.5 0 f f-est 1.5 1 0.5 0


-1

-0.5

0

0.5

1

-1

-0.5

0

0.5

1


Plug-in avec le noyau gaussien 0.2 0.15 0.1 0.05 0 -2 0 2 4 6 f f-est 0.2 0.15 0.1 0.05 0


-2

0

2

4

6

Least Square Cross-Validation 0.2 0.15 0.1 0.05 0 -2 0 2 4 6 f f-est 0.2 0.15 0.1 0.05 0 -2


0

2

4

6


-40-


Plug-in avec le noyau gaussien 0.3 0.2 0.1 0 f f-est 0.3 0.2 0.1 0


-2

0

2

4

-2

0

2

4

Least Square Cross-Validation 0.3 0.2 0.1 0 f f-est 0.3 0.2 0.1 0


-2

0

2

4

-2

0

2

4


Plug-in avec le noyau gaussien 2 1.5 1 0.5 0 -1 f f-est 2 1.5 1 0.5 0 -1


-0.5

0

0.5

1

-0.5

0

0.5

1

Least Square Cross-Validation 2 1.5 1 0.5 0 -1 f f-est 2 1.5 1 0.5 0 -1


-0.5

0

0.5

1

-0.5

0

0.5

1


-41-


EQMI par la mthode du noyau selon hN Plug-in Noyau gaussien G1 G2 G3 G4 G5 G6 G7 G8 7.45*10-5 8.78*10-5 8.73*10-5 1.48*10-4 2.49*10-4 2.24*10-4 3.03*10-4 2.08*10-4 Noyau optimal 5.41*10-5 7.01*10-5 8.99*10-5 1.34*10-4 2.99*10-4 2.21*10-4 3.04*10-4 2.04*10-4 8.46*10-5 4.64*10-4 5.45*10-5 8.67*10-4 4.1*10-3 9.52*10-4 7.56*10-4 5.88*10-4 4.27*10-5 2.91*10-4 2.30*10-3 5.47*10-4 3.1*10-3 6.09*10-4 5.70*10-4 3.93*10-4 rot LSCV

Tableau 3 - EQMI en fonction de la mthode de slection de hN.

-42-


Distribution

Nombre d'itrations Type de noyau 1 1 0.872 36 36 10.6 12.2 21 21 50 56 0.342 0.352 0.365 0.371 1.2 1.2 2 0.085 0.066 14 0.250 0.425 1.5 0.265 0.775 0.40 17 0.302 0.306 0.304 0.305 0.338 0.346 3 0.060 0.052 0.62 0.230 0.264 0.180 0.166 0.244 0.184 0.272 0.287 0.289 0.280 0.280 0.231 0.235 4 0.570 0.051 0.434 0.210 0.200 0.144 0.121 0.110 0.166 0.156 0.280 0.282 0.271 0.274 0.195 0.199 5 0.570 0.051 0.326 0.200 0.171 0.143 0.102 0.095 0.163 0.151 0.277 0.280 0.269 0.271 0.180 0.183 6 0.570 0.051 0.247 0.200 0.159 0.144 0.098 0.093 0.162 0.151 0.276 0.280 0.269 0.270 0.174 0.179 7 0.570 0.051 0.200 0.197 0.155 0.144 0.098 0.094 0.162 0.151 0.275 0.278 0.269 0.270 0.170 0.178 8 0.570 0.051 0.174 0.196 0.153 0.144 0.098 0.094 0.162 0.151 0.275 0.277 0.270 0.270 0.169 0.178 9 0.570 0.051 0.160 0.195 0.153 0.144 0.098 0.094 0.161 0.151 0.275 0.276 0.270 0.270 0.169 0.178 10 0.570 0.051 0.153 0.195 0.153 0.144 0.098 0.094 0.161 0.151 0.275 0.276 0.270 0.270 0.169 0.178

Gaussien G1 optimal Gaussien G2 optimal Gaussien G3 optimal Gaussien EQMI *10-3 G4 optimal Gaussien G5 optimal Gaussien G6 optimal Gaussien G7 optimal Gaussien G8 optimal

Tableau 4 -Evolution de l'EQMI en fonction du nombre d'itrations.

-43-


1.5

x 10

-3

choix de hn par plug-in noyau optimal

1 EQMI

0.5

0

1 x 10-3

2

3

5 6 7 8 Nombre d'itrations choix de hn par plug-in noyau Gaussien

4

9

10

1.5

1 EQMI

0.5

0

1

2

3

4

5 6 Nombre d'itrations

7

8

9

10

Figure 20 - Evolution de l'EQMI de G1 en fonction du nombre d'itrations.

1.5

x 10

-3


1 EQMI

0.5

0

1 x 10-3

2

3


4

9

10

1.5

1 EQMI

0.5

0

1

2

3

4


7

8

9

10

Figure 21 -Evolution de l'EQMI de G2 en fonction du nombre d'itrations.

-44-


1.5

x 10

-3


1 EQMI

0.5

0

1 x 10-3

2

3


4

9

10

1.5

1 EQMI

0.5

0

1

2

3

4


7

8

9

10


1.5

x 10

-3


1 EQMI

0.5

0

1 x 10-3

2

3


4

9

10

1.5

1 EQMI

0.5

0

1

2

3

4


7

8

9

10


-45-


1.5

x 10

-3


1 EQMI

0.5

0

1 x 10-3

2

3


4

9

10

1.5

1 EQMI

0.5

0

1

2

3

4


7

8

9

10


1.5

x 10

-3


1 EQMI

0.5

0

0 x 10-3

1

2

4 5 6 7 8 Nombre d'itrations choix de hn par plug-in noyau Gaussien

3

9

10

1.5

1 EQMI

0.5

0

0

1

2

3

4 5 6 Nombre d'itrations

7

8

9

10


-46-


1.5

x 10

-3


1 EQMI

0.5

0

0 x 10-3

1

2


3

9

10

1.5

1 EQMI

0.5

0

0

1

2

3


7

8

9

10


1.5

x 10

-3


1 EQMI

0.5

0

0 x 10-3

1

2


3

9

10

1.5

1 EQMI

0.5

0

0

1

2

3


7

8

9

10


-47-


Variance Type de noyau EQMI*10-4 *10-4 Noyau gaussien G1 Noyau optimal Noyau gaussien G2 Noyau optimal Noyau gaussien G3 Noyau optimal Noyau gaussien G4 Noyau optimal Noyau gaussien G5 Noyau optimal Noyau gaussien G6 Noyau optimal Noyau gaussien G7 Noyau optimal Noyau gaussien G8 Noyau optimal 2.31 0.83 2.84 2.28 0.33 0.87 2.89 2.04 0.35 0.44 2.24 2.15 0.84 0.47 1.77 2.31 0.82 0.88 2.19 1.82 0.83 0.81 1.70 2.23 0.75 0.90 1.53 1.73 0.84 0.75 1.45 0.8

EQI minimal*10 0.21 0.2 0.41 0.36 0.42 0.35 0.39 0.43 0.43 0.74 1.37 2.12 1.07 2.05 0.97 0.98-4

EQI maximal*10-4 5.57 4.89 3.98 4.5 4.51 4.27 4.45 4.30 5.03 5.03 3.68 3.91 3.10 4.02 5.51 5.28

Tableau 5 -EQMI, Ecart Types et valeurs extrmes.

-48-


6

Conclusion

Dans ce chapitre, nous avons prsent l'tat de l'art des algorithmes d'optimisation du paramtre de lissage pour la mthode du noyau. Des simulations ont t ralises dans l'objectif de mener une tude comparative entre les algorithmes les plus frquemment utiliss dans la littrature. Nous avons observ que, pour la quasi-totalit de ces mthodes, l'efficacit est gnralement acquise lorsqu'il s'agit d'estimer des densits prsentant un seul mode. Par contre, avec l'augmentation du nombre de modes, l'estimation des densits devient plus dlicate. L'efficacit de l'algorithme du Plug-in a pu tre dmontre car il est pratiquement le seul permettre, dans la majorit des cas de figure, une estimation correcte du paramtre de lissage et par consquent de la densit de probabilit. Ainsi, le recours cet algorithme permet de garantir une estimation non paramtrique fiable pour des densits inconnues.

-49-

CHAPITRE 3 PROPOSITION D'UN ALGORITHME PLUG-IN RAPIDE

Nous proposons dans cette section une version rapide de la mthode Plug-in pour la recherche du pas optimal. En effet, lorsque les noyaux utiliss sont deux fois drivables ou au moins deux fois drivables par morceaux, il est possible de calculer l'expression analytique de J(f) qui n'est autre que l'intgrale de la drive seconde leve au carr de la de la densit de probabilit f estimer. Cela permet de n'estimer la densit de probabilit qu'une seule fois alors que l'approximation numrique de J(f) implique l'estimation de la densit de probabilit chaque itration. Nous avons choisi de travailler sur le noyau optimal qui permettrait thoriquement dapprocher le mieux les densits estimes au sens de lEQMI.

1

Approximation analytique de J(f) dans le cas du noyau optimal

J(f) tant lintgrale de la drive seconde leve au carr de la densit estimer f, il est possible de lexprimer analytiquement en drivant directement le noyau utilis. Nous avons choisi d'utiliser le noyau d'Epanechnikov. f " sexprime comme suit :

f " ( x)

12 Nh N n

N

Ki 1

x

Xi hN Xi hN

"

1

3 Nh N i 1

K"

x

-51-

Proposition d'un algorithme Plug-in rapide

0 si xOr, l'expression du noyau optimal tant :

5 1 x2 si x 5 5

K x

3 4 5

0Sa drive seconde correspond : K " x

si

x x x

5 5 5

indfini si 3 5 50 si

Dans la suite de notre dveloppement et pour les diffrentes simulations, nous avons ignor le cas o K" (x) est indfini. Nous avons considr K" comme s'il tait gal :

0 K" x 3 5 50

si si

x x

5 5

Ce choix sera justifi dans la suite de cette section. Ainsi, nous proposons d'approximer J(f) par : J f 13 Nh N N

K"i 1

x

Xi hN

2

dx

16 N 2 hN

N

K"i 1

x

Xi hN

2

dx

N

La quantiti 1

K"

x

Xi hN2

2

peut s'crire de la manire suivante :

K"i AN ( X 1 .,..., X N )

x

Xi hN

avec AN un sous ensemble d'entiers tel que

AN ( X 1 .,..., X N )En remplaant

0la2

i

N;

x

Xi hN

5seconde du2

drive

noyau

par

sa

valeur,

K"i AN x

x

Xi hN

9 500

N AN ( X1 .,..., X N ) ( x ) i 1

9 500

x

(x) est une fonction constante par intervalles et formant une partition sur la droite relle.

-52-


Ainsi, J(f), est compos par la somme finie des drives secondes de la fonction noyau optimal. Il s'exprime par :

J f

9 1 2 6 500 N h N

x dx

[Eq. 5]

Cette expression analytique de J(f) ne tient pas du tout compte des points indfinis qui seront traits de la mme manire que les points dont la valeur absolue est strictement suprieure 5 , c'est--dire que leur contribution sera considre comme nulle. En

effet, comme le nombre de points non dfinis pour (x) est fini, on peut considrer la contribution de ces points dans J(f) comme ngligeable. Pourtant, ainsi que nous l'observerons dans la section 4 de ce chapitre, les diffrentes simulations ralises permettent de constater que l'quation 5 ne permet pas de converger vers le pas optimal. Cependant, nous avons observ que cette convergence peut tre atteinte en faisant varier le facteur de puissance de hN dans l'quation 5. Ainsi, en remplaant la puissance 6 du pas hN par une puissance comprise entre les valeurs 4 et 5, l'algorithme Plug-in rapide converge vers le pas optimal. Cela peut tre thoriquement justifi par le fait que la drivation de J(f) s'apparente la mthode d'approximation du noyau dont la variance a besoin d'tre ajuste. Ainsi, dans l'estimation analytique de J(f), le pas hN sera lev un facteur de puissance gal 4,5. J(f) sera par consquent estim par :

J f

9 1 2 4.5 500 N h N

x dx

[Eq.6]

2

Algorithme itratif du noyau optimal rapide

Les tapes de l'algorithme itratif du noyau optimal avec approche analytique de J(f) sont dcrites ci-dessous: Etape 1 : Dtermination analytique de M(K). Etape 2 : Initialisation arbitraire de J valeur de hN. Etape 3 : A la kme itration, J l'chantillon Xi. hNkk

0

f

0 afin de dterminer h N , premire

f

est calcul directement partir dek

est ensuite calcul et J f

r-estim. A chaque

itration J(f) est calcul analytiquement.

-53-


Etape 4 : Critre d'arrt : h Nk

1

h Nk

.

Ainsi, l'approximation analytique de J(f) n'exige pas d'estimer la densit de probabilit chaque itration ce qui permet de rduire la complexit par rapport l'algorithme Plug-in usuel. La figure 28 reprsente graphiquement les diffrentes tapes de l'algorithme Plug-in rapide.

Dbut

Calcul de J(k)(f) partir de lchantillon puis de hN(k)

Calcul de M(K) Choix arbitraire de J(f). Dtermination de hN. k=0

k=k+1

non

|hN(k)-hN(k-1) | = e

oui

fin

Estimation de f

Figure 28 -Schma descriptif de l'algorithme Plug-in rapide

3

Etude de la complexit

Dans le cas de l'algorithme Plug-in pour la recherche du pas optimal dans la mthode du noyau, f et J(f) sont estims k fois, k tant le nombre d'itrations. L'estimation de f est O(2Np), et l'estimation de J(f) est O(2p) avec N la taille de l'chantillon et p le nombre d'lments x dont on va estimer l'image par la mthode du noyau. La complexit de l'algorithme est de O(2kNp). Dans le cas de l'algorithme Plug-in rapide, f n'est estime qu'une seule fois. La complexit devient O(2p(k+N)). k tant trs faible comparativement N, il peut tre nglig. La complexit devient alors O(2pN).

-54-


4

Dtermination exprimentale de la puissance de hN

La puissance optimale de hN est dtermine exprimentalement partir des diffrentes distributions tests dj prsentes dans le chapitre 2. Le tableau 6 prsente les valeurs des EQMI obtenues en faisant varier la puissance du pas hN. On peut remarquer que la convergence de l'algorithme Plug-in vers le pas optimal est obtenue pour les puissances de hN comprises entre 4 et 5. Le plus souvent c'est la puissance 4.5 qui permet de donner les meilleurs rsultats, raison pour laquelle elle a t retenue dans l'algorithme du Plug-in rapide.

Estimation du pas optimal pour la mthode du noyau avec noyau optimal par Plug-in Distributions EQMI * 10-4 G1 G2 G3 G4 G5 G6 G7 G8 1.40 1.68 2.10 1.75 2.25 3.51 3.50 1.67 6 77 56 65 52 54 51 49 62 EQMI * 10-4 en fonction de la puissance de hN 5 3.17 1.91 2.19 1.87 2.22 4.69 4.53 1.79 4.5 1.40 1.70 2.12 1.73 2.70 3.48 3.48 1.66 4 1.25 9.40 27 8.95 24 3.58 3.56 2.46 3.5 2.28 21 116 16 46 4.06 4.18 3.76 Plug-in rapide

Tableau 6 - EQMI en fonction de la puissance de hN

Les figures suivantes illustrent cette conclusion en montrant les diffrentes estimations de f en fonction de la puissance de hN. Nous pouvons remarquer que pour certaines distributions (G1, G6, G7 et G8) pouvant tre assimiles des distributions unimodales, les puissances infrieures 4.5 n'engendrent pas une dtrioration rapide de la qualit de l'estimation. Plus le nombre de modes augmente, plus l'estimation se dtriore rapidement lorsque la puissance de hN diminue par rapport 4,5. La

-55-


distribution G5 qui prsente 3 modes spars est mieux estime par une puissance de hN gale 5. Les figures 29, 30, 31, 32 et 33 illustrent parfaitement les observations cidessus cites.Plug-in analytique avec puissance hn=6 3 2 1 0 -2.5 2 1 0 -2.5 2 1 0 -2.5 f f-est f f-est -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 f f-est

Plug-in analytique avec puissance hn=4.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5


-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

Figure 29 -G1 en fonction de la puissance de hN.

Plug-in analytique avec puissance hn=6 4 f f-est 2

0 -1.5 4 2 0 -1.5 2 1 0 -1.5

-1

-0.5

0

0.5

1

1.5

Plug-in analytique avec puissance hn=4.5 f f-est

-1

-0.5

0

0.5

1

1.5

Plug-in analytique avec puissance hn=3.5 f f-est

-1

-0.5

0

0.5

1

1.5


-56-


Plug-in analytique avec puissance hn=6 3 2 1 0 -1.5 2 1 0 -1.5 2 1 0 -1.5 f f-est f f-est -1 -0.5 0 0.5 1 1.5 f f-est


-1

-0.5

0

0.5

1

1.5


-1

-0.5

0

0.5

1

1.5


Plug-in analytique avec puissance hn=6 0.4 0.2 0 -4 -3 -2 -1 0 1 2 3 4 f f-est

Plug-in analytique avec puissance hn=4.5 0.5 f f-est

0 -4

-3

-2

-1

0

1

2

3

4

Plug-in analytique avec puissance hn=3.5 0.5 f f-est

0 -4

-3

-2

-1

0

1

2

3

4

Figure 32 - G7 en fonction de la puissance de hN.

-57-


Plug-in analytique avec puissance hn=6 3 2 1 0 -1.5 2 1 0 -1.5 2 1 0 -1.5 f f-est f f-est -1 -0.5 0 0.5 1 1.5 2 2.5 f f-est


-1

-0.5

0

0.5

1

1.5

2

2.5


-1

-0.5

0

0.5

1

1.5

2

2.5


5

Etude comparative entre le Plug-in et le Plug-in rapide

Le tableau 6 permet galement de comparer les valeurs des EQMI obtenus par la mthode Plug-in usuelle avec celles obtenues par la mthode Plug-inrapide. Les valeurs obtenues sont sensiblement proches dans tous les cas tudis et permettent de conclure l'quivalence de la qualit de l'estimation au sens de l'EQMI. Nous illustrons notre propos par une tude comparative d'une distribution mlange d'une loi normale et d'une loi uniforme ayant une densit de probabilit de la forme suivante :

f ( x)avec

1f

1, 1

( x)1 =0.2,

2 f a ,b ( x )

1 =0.3,

a =-0.3, b =0.2.1

Les probabilits a priori l'chantillon de 4000.

et

2

sont respectivement de 0.75 et 0.25 et la taille de

La figure 34 reprsente les deux diffrentes estimations de la densit de probabilit thorique. On peut observer que les estimations obtenues par les 2 mthodes sont

-58-


comparables. Ce rsultat est corrobor par les valeurs des EQMI prsentes dans le tableau 7. Ces valeurs sont obtenues partir de 1000 simulations de la densit thorique ce qui nous permet d'estimer la variance de l'cart quadratique intgr. Ces valeurs sont trs proches indpendamment l'algorithme utilis.Estimateur itratif du noyau avec approche analytique de J(f) 2 1.5 1 0.5 0 -1.5 Densit thorique Densit estime

-1

-0.5

0

0.5

1

1.5

2

Estimateur itratif du noyau optimal avec approche numrique de J(f) 2 1.5 1 0.5 0 -1.5 Densit thorique Densit estime

-1

-0.5

0

0.5

1

1.5

2

Figure 34 -Estimation par la mthode du noyau avec dtermination de hN par Plug-in usuel et Plug-inrapide.

EQMI Mthode du noyau optimal avec algorithme Plug-in usuel Mthode du noyau optimal avec algorithme Plug-inrapide 0.0223 0.0223

Variance 2.6130.10-5 2.6432. 10-5

Tableau 7 -EQMI et variance de l'EQMI par Plug-in et par Plug-in rapide.

-59-


0.07 0.065 0.06 0.055 0.05 0.045 0.04 0.035 0.03 0.025 0.02 500 EQMI de l'estimateur noyau analytique EQMI de l'estimateur noyau numrique

1000

1500

2000

2500

3000

3500

4000

Figure 35 -Plug-inet Plug-in rapide : EQMI en fonction de la taille d'chantillon

Dans la figure 35, l'EQMI est moyenn sur 100 rptitions en faisant varier la taille d'chantillon. On peut observer que les valeurs de l'EQMI dcroissent rgulirement avec l'augmentation de la taille d'chantillon confirmant ainsi que la prcision d'estimation est d'autant plus leve que le nombre d'observations est important.

6

Conclusion

Dans cette section, nous proposons une version plus rapide de l'algorithme du Plug-in en drivant directement le noyau utilis lors du calcul de l'entit J(f). Il n'est alors plus

ncessaire d'estimer f chaque itration ce qui implique un gain au niveau de lacomplexit. Il est important de souligner que l'expression mathmatique de J(f) ne permet pas d'obtenir une bonne convergence. Cependant, l'ajustement exprimental de la puissance du paramtre de lissage hN qui prend la valeur de 4,5 au lieu de 6 dans l'expression de J( f ), permet d'estimer les densits de probabilit avec une fiabilit

-60-


comparable celle obtenue avec l'algorithme du Plug-in classique. En effet, l'tude comparative mene entre l'algorithme Plug-in usuel et l'algorithme Plug-in rapide permet de conclure une efficacit proche des deux algorithmes au sens de l'EQMI.

-61-

CHAPITRE 4 APPLICATION A L'ESTIMATION DUTAUX DERREUR DANS LA NORME

UMTS

Gnralement, les performances d'un systme de communication numrique, ne peuvent tre calcules analytiquement. Elles sont values par estimation du taux d'erreur binaire ou BER (Bit Error Rate) par la mthode de simulation Monte Carlo (MC) [Jer84][Efr83][Lau68]. Cette mthode consiste simuler le transfert d'un nombre suffisant de signaux binaires travers le systme de communication, valuer puis dtecter le nombre d'erreurs de transmission afin de calculer la frquence d'erreurs. Malheureusement, la taille d'chantillon ncessaire pour un intervalle de confiance correct devient, lorsque le rapport signal bruit est lev, trs importante. Par consquent, la mthode MC, galement lie la complexit algorithmique du rcepteur, devient trs couteuse en temps de calcul. En effet, pour une prcision de l'ordre de 10-1, le nombre de symboles gnrs doit tre suffisamment lev pour permettre de comptabiliser 100 erreurs de transmission. Cela implique qu'il faut gnrer environ 108 symboles lorsque la probabilit d'erreur est de 10-6 [Web81] [Jer84]. Dans ce chapitre, nous proposons, comme alternative cette mthode, d'estimer le BER directement partir de la densit de probabilit du signal reu. En effet, en se fixant comme contrainte de ne transmettre que des +1 (resp. -1), la probabilit d'erreur

-63-

Application l'estimation du taux d'erreur dans la norme UMTS

0

du

systme

valu

serait

estime

par

l'erreur

apparente

f x dx

(resp.0

f x dx ), f (x) tant la densit de probabilit du signal reu.

En pratique, il est gnralement difficile de connatre la densit de probabilit du signal reu puisqu'il dpend des rcepteurs et des canaux tudis. Ainsi, il s'agira d'une loi normale pour un canal AWGN (Additive White Gaussien Noise), d'un mlange gaussien pour un rcepteur de type AWGN CDMA (Code Division Multiple Access), des distributions d'un autre type pour les canaux de Rayleigh, Nakagami ou Rice. Pour les rcepteurs base de techniques itratives ou filtres non linaires tels que les turbos codes, la distribution du signal reu ne peut gnralement pas tre identifie une distribution connue. L'absence d'information sur la densit de probabilit du signal reu, implique l'utilisation de mthodes non paramtriques pour son estimation. En l'occurrence, nous proposons d'avoir recours la mthode du noyau avec recherche du pas optimal par la mthode Plug-in. Ce chapitre est organis en quatre sections. La premire section prsente le systme de communication CDMA sur lequel se base notre tude. Puis, la mthode usuelle d'estimation de la probabilit d'erreur, savoir le TEB, est dtaille. La section suivante est ddie la prsentation de la mthode d'estimation de la probabilit d'erreur par l'estimation de l'erreur apparente. La dernire section traite d'une tude comparative entre les deux mthodes.

1

Simulation Monte Carlo

Les simulations Monte Carlo permettent d'valuer les performances de n'importe quel systme de communication numrique quelque soit la technique de transmission utilise (CDMA, MC-CDMA, TDMA, .). La figure 36 schmatise un modle de transmission k utilisateurs. Chaque utilisateur transmet une suite de symboles binaires de type BPSK (Binary Phase Shift Keying) laquelle est associe une squence d'talement Si. Ce signal sera amplifi diffremment pour chaque utilisateur i. Un bruit additif, gnralement gaussien sera additionn la somme des signaux envoys par les k utilisateurs lors du passage par le canal de transmission.

-64-


Utilisateur 1

S1Utilisateur 2

A1

Bruit additif rn

S2Utilisateur k

A2

Canal de transmission

Sk

AkFigure 36 -Modle de transmission en CDMA

y1 ST1 y2 ST2 rn Rcepteur

X1

X2

yk STk

Xk

Figure 37 -Modle de Rception pour une transmission CDMA

La figure 37 schmatise la rception du signal transmis, Xi tant le signal reu pour l'utilisateur i.

-65-


Considrons bi

1 i N

1, 1 un ensemble de N symboles indpendants transmis.

Considrons galement

Xi

1 i N

le signal reu au niveau du rcepteur. bi sera

estim en fonction du signe de Xi i.e. bi

sgn X i .

L'erreur d'estimation peut tre considre comme une loi de Bernouilli dfinie comme suit :

bi

1 si bi 0 sinon

bi

La probabilit d'erreur pe est gale :

pe

Pr bi

bi

Pr

bi

1

E

bi

avec E(.) l'oprateur Esprance

mathmatique.

Dans la mthode Monte Carlo, pe est estim par calcul de la moyenne arithmtiquedes

bi :

pe

1 N

N

bii 1

L'estimateur

Monte

Carlo

n'est .

pas

biais

puisque

E(e)

=

0,

avec

e

pe

pe

1 N

N

pei 1

bi

Sa variance est donne par :2 e

E

pe

pe

2

pe 1 pe N

L'erreur relative de l'estimateur Monte Carlo est gale :e

E pe

1 pe pe N 1 pe N

[Eq. 7]

Lorsque le BER est faible (pe

thèse vf

Documents