identification des facteurs d’ un bon suivi...

73
IDENTIFICATION DES FACTEURS D’ UN BON SUIVI DU TRAITEMENT ANTIRETROVIRAL Par : LEMOU TIEYAM Sonia Danielle Master de statistique appliquée Dirigé par : Dr. Eugène-Patrice NDONG NGUEMA Chargé de Cours à l’ENSP de Yaoundé Sous l’encadrement professionnel de : Mr. Peter TENDON Sous la supervision du : Pr. Henri GWET Chef de Département de Mathématiques et Sciences Physiques à l’ENSP de Yaoundé. Septembre 2010

Upload: vunhu

Post on 15-Sep-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

IDENTIFICATION DES FACTEURSD’ UN BON SUIVI DU

TRAITEMENT ANTIRETROVIRAL

Par :LEMOU TIEYAM Sonia DanielleMaster de statistique appliquée

Dirigé par :Dr. Eugène-Patrice NDONG NGUEMA

Chargé de Cours à l’ENSP de Yaoundé

Sous l’encadrement professionnel de :Mr. Peter TENDONSous la supervision du :Pr. Henri GWET

Chef de Département de Mathématiques et SciencesPhysiques à l’ENSP de Yaoundé.

Septembre 2010

Page 2: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Table des matières

Dédicaces iv

Remerciements v

Abréviations vii

Table des figures viii

Liste des tableaux ix

Avant-propos x

résumé xi

Abstract 1

INTRODUCTION GENERALE 2

Résumé éxécutif 6

1 Présentation de la structure et présentation des données 81.1 Présentation de la structure d’acceuil :Le Groupe Technique Central

(GTC) du Comité National du Lutte contre le Sida (CNLS) . . . . . . 81.1.1 Comité national de lutte contre le SIDA (CNLS) et Attributions 81.1.2 Organisation du GTC/CNLS. . . . . . . . . . . . . . . . . . . . 9

1.2 Présentation et Description des données . . . . . . . . . . . . . . . . . 101.2.1 Contexte de l’étude . . . . . . . . . . . . . . . . . . . . . . . . . 101.2.2 Presentation du formulaire . . . . . . . . . . . . . . . . . . . . . 111.2.3 Identification et lexique des données . . . . . . . . . . . . . . . . 111.2.4 Modélisation de la variable observance . . . . . . . . . . . . . . 131.2.5 Illustration des données manquantes . . . . . . . . . . . . . . . 13

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 3: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

TABLE DES MATIÈRES ii

1.2.6 Analyse descriptive des données . . . . . . . . . . . . . . . . . 141.2.7 Choix de la méthode d’analyse des données . . . . . . . . . . . . 22

2 Outils statisques et algorithmiques pour l’analyse 232.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2 Structure d’un arbre binaire . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232.2.2 Terminologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.3 La discrimination à deux classes . . . . . . . . . . . . . . . . . . . . . . 252.4 L’erreur de prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.4.2 L’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.5 Prédicteur de Bayès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.6 Le critère Cp de Mallows . . . . . . . . . . . . . . . . . . . . . . . . . . 272.7 La validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.7.1 Idée générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.7.2 Leave-one out . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.7.3 Généralisation : validation croisée par blocs ou paquets . . . . . 28

2.8 Le test du Khi-deux pour l’indépendance entre deux variables . . . . . 29

3 Aarbre binaire de décision : méthode CART (Classification And Re-gression Trees) 303.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.2 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.3 Notion d’impureté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.4 Critères de division d’un noeud terminal de l’arbre courant . . . . . . . 343.5 Arrêt de la construction de l’arbre . . . . . . . . . . . . . . . . . . . . 353.6 METHODE CART5(1984) : Elagage de T . . . . . . . . . . . . . . . . 36

3.6.1 Généralités : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.6.2 Procédure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.7 Remarques pratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4 Application de la méthode aux données et interprétations des résul-tats 404.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.2 Estimation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.2.1 Construction de l’arbre . . . . . . . . . . . . . . . . . . . . . . . 404.2.2 Interprétation des résultats obtenus . . . . . . . . . . . . . . . . 404.2.3 Exemple plus explicatif . . . . . . . . . . . . . . . . . . . . . . . 444.2.4 Elagage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 4: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

TABLE DES MATIÈRES iii

4.3 Prévision de l’échantillon test . . . . . . . . . . . . . . . . . . . . . . . 504.4 Conclusion de l’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5 Conclusion 56

6 Annexes 57

Bibliographie 60

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 5: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Dédicaces

je dédie ce travail avec tout mon amour à mon papa Mr TIEYAM Ernest.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 6: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Remerciements

Ce travail est le résultat des actions conjuguées de plusieurs forces. Je ne sauraisdont m’abstenir de remercier tous ceux qui de près ou de loin ont mis du leur pour quece travail soit bien effectué. En particulier :

♦ Du Pr.Henri GWET pour ce qu’il fait pour la bonne marche du Master destatique Appliquée de polytechnique,♦ du Dr. NDONG NGUEMA Eugène pour les efforts consentis qui m’ont

permis d’avoir une bonne compréhension de son cours, et aussi pour ces conseilsavisés pour la rédaction de notre mémoire,♦ de Mr. Peter Tendoh, pour l’amabilité, l’encadrement .professionnel et le sa-

voir faire qu’il a bien voulu partager.

Mes sincères remerciements vont également tout le corps enseignant et les respon-sables du Master pour l’encadrement qu’ils nous ont accordé. Il s’agit :

2 du Pr. J. C. THALABARD ;2 du Pr. Bernard ROYNETTE ;2 du Pr. HILI ;2 du Dr. Jerome FERENBACH ;2 du Dr. Erwan Le PENNEC ;2 du Dr. Armelle Fabrice YODE ;2 du Dr. Michel NDOUMBE2 du Dr. Jacques TAGOUDJEU .

Et je pense aussi à- Tous mes camarades de promotion, leur présence a contribué m’a beaucoup aidé

tout au long de ces deux années,- Ma famille pour son soutien,- Et à tous mes amis et ceux que je n’ai pas cités, mais qui ont une place pour moi

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 7: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

TABLE DES MATIÈRES vi

dans leur coeur.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 8: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Abréviations

ARV : AntiRétroVirauxCD4+ : CELLULE...CNLS : Comité National de Lutte Contre Le SIDACART : Classification And Regression TreesCTA : Centre Technique d’AppuiGTC : Groupe Technique CentraleGTR : Groupe Technique RégionaleIST : Infection Sexuellemnt TransmissibleOEV : Orphelins et Enfants VulnérablesPNLS : Programme National de Lutte contre le SIDAPSLS : Programme Stratégique de Lutte contre LE SIDAPVVIH : Personne Vivant avec le VIHSIDA : Syndrome De l’Immuno-Déficience AcquisVIH : Virus Immuno-déficience Humaine

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 9: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Table des figures

1.1 Camembert représentatif du sexe . . . . . . . . . . . . . . . . . . . . . 171.2 Camembert représentatif du niveau scolaire . . . . . . . . . . . . . . . . 171.3 Camembert représentatif de la profession . . . . . . . . . . . . . . . . . 171.4 Camembert représentatif de la durée du traitement . . . . . . . . . . . 181.5 Camembert représentatif des niveaux de difficultés des doses . . . . . . 181.6 Représentation graphique de la variable à expliquer correct . . . . . . . 191.7 Diagramme croisée de la durée de traitement et correct . . . . . . . . . 191.8 Diagramme croisée de effets secondaire pas récents et correct . . . . . . 201.9 Diagramme croisée de rupture de stock et correct . . . . . . . . . . . . 201.10 Diagramme croisée de la profession et correct . . . . . . . . . . . . . . 201.11 Boxplot de l’age et correct . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.1 Exemple d’un arbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.2 Exemple d’un noeud père et ses fils . . . . . . . . . . . . . . . . . . . . 24

4.1 l’arbre détaillé non lisible . . . . . . . . . . . . . . . . . . . . . . . . . . 414.2 l’arbre détaillé plus lisible . . . . . . . . . . . . . . . . . . . . . . . . . 414.3 Arbre moins détaillé . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.4 Arbre obtenu après élagage par échantillon de validation . . . . . . . . 514.5 Graphe de la décroissance de l’estimation de l’erreur par validation croi-

sée en fonction du coeeficient de cpmlexité . . . . . . . . . . . . . . . . 514.6 Arbre obtenue après élagage par validation croisée externe . . . . . . . 524.7 Représentation du R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 10: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Liste des tableaux

1.1 Pourcentages des données manquantes par variable. . . . . . . . . . . . . . . . 131.2 Résumé des variables à modalité "oui" et "non" . . . . . . . . . . . . . 141.3 Résumé de la variable nseance . . . . . . . . . . . . . . . . . . . . . . . 151.4 Résumé de la variable nconsul . . . . . . . . . . . . . . . . . . . . . . . 151.5 Résumé de la variable age . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.6 Résumé de la variable durée de la maladie . . . . . . . . . . . . . . . . . . . . 161.7 Test du Khi-deux de quelques variables. . . . . . . . . . . . . . . . . . . . . . 21

4.1 Summary de l’arbre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.2 Erreur de prévision sur l’échantillon de validation pour l’initialisation

du générateur à 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 484.3 Erreur de prévision sur l’échantillon de validation pour l’initialisation

du générateur à 40 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.4 Erreur de prévision sur l’échantillon de validation pour l’initialisation

du générateur à 100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 504.5 Tableau de cp et de l’erreur obtenue par validation croisée . . . . . . . 524.6 Matrice de confusion de l’arbre obtenu après le premier et le deuxième

élagage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.7 Matrice de confusion de l’arbre obtenu après le troisième élagage . . . . 53

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 11: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Avant-propos

Le Master de Statistiques Appliquée est une formation offerte par l’Ecole NationaleSupérieure Polytechnique. Elle a pour objectifs de former des hommes et des femmesvaleureux au métier de statisticien. Cette formation qui a une durée de 2 ans ce clotûrepar un stage en entreprise et la rédaction d’un mémoire portant sur un problème posépar l’entreprise en question. C’est donc dans ce contexte que ce mémoire a été rédigé.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 12: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Résumé

Notre travail porte sur les facteurs qui peuvent influencés le bon suivi du traitementantirétroviral :application aux données receuillies au cours d’une enquête à l’hopital laquitinie de Douala en 2009. L’objectif des d’identifier dans un liste de facteurs désignéspar le CNLS ceux qui pouvaient influencer l’observance au traitement ARV. Pour celanous avons commencé par sélection les variables qui logiquement pouvait avoir un effetsur l’observance. Puis nous avons coder les variables pour les rendre pratiques à l’étudetout en gardant un nom informatif. Nous avons ensuite fait une anlyse descriptive (ana-lyse Univariée et bivariée) des données pour avoir une idée générale de la forme desdonnées et des corrélations possibles entre les variables. Enfin nous avons procéder àl’analyse discriminante par arbre binaire de décision. La description des données nousa permis de voir que l’échantillon de l’étude était assez homogène et que la populationactive est la plus touchée. L’arbre binaire de décision retenue nous a montré que lesfacteurs influençant de manière significative le traitement était la durée du traitement,l’avis du patient de son traitement et les effets secondaires que le patient aurait res-sentis récemment.

Mots clés :

arbres binaires de décision, observance, traitement ARV, Elagage, facteurs, VIH/Sida.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 13: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Abstract

Our work concerns the factors which can influenced the good follow-up of the anti-retroviral :application treatment to the data receuillies during an investigation at thehospital the Quitinie of Douala in 2009.The objective of to identify in a list of fac-tors indicated by the CNLS those which could influence the observance with treatmentARV. For that we began with selection the variables which logically could have aneffect on the observance.Then we have to code the variables to make them practicalbeing studied while keeping an informative name.We then made a descriptive analyse(analyzes one-dimensional and two-dimensional) of the data to have a general idea ofthe form of the data and possible correlations between the variables.Finally we have tocarry out the discriminating analysis by binary tree of decision.The description of thedata enabled us to see that the sample of the study was rather homogeneous and thatthe working population is touched.The binary tree of decision selected showed us thatthe factors influencing the treatment significantly was the duration of the treatment,the opinion of the patient of its treatment and the side effects that the patient wouldhave felt recently.

Key words :

decision binaries trees, adherence, ARV treatment, factors, HIV/Aids.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 14: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Introduction générale

Introduction

Depuis La description des premiers cas en 1980 sur la côte ouest des Etats-Unis,le SIDA n’a cessé de se répandre au point où elle est devenue une pandémie. Dufait de son mode de transmission c’est la population active qui est le plus touchée etavec plus de 20millions de morts que cette maladie a causés depuis sa découverte oncomprend pourquoi les autorités nationales et internationales se sont lancées dans lalutte pour freiner l’évolution de cette maladie. Une vue épidémiologique de la maladiemontre qu’en fin 2007 33,2 millions de personnes vivaient avec le VIH. L’Afrique sub-saharienne avec 22.5 millions de personnes (soit près des 2/3 de la population mondialeatteinte) reste la plus touchée et en 2010 560.000 camerounais vivent avec le VIH1. Ilexiste trois principaux modes de transmission du virus du SIDA : la transmission parvoie sexuelle qui est la plus courante, la transmission de la mère à l’enfant et enfin latransmission par objets tranchants infectés.

La venue des antirétroviraux (ARV) en 1996 a constitué une note d’espoir pourtoutes les personnes porteuses du virus car bien que les multiples thérapies antiré-trovirales n’exterminent pas définitivement le virus, elles contribuent à diminuer laréplication virale. Cela a entraîné une réduction de la mortalité et de la morbidité,améliorant ainsi la qualité de vie des personnes vivantes avec le VIH (PVVIH). LeSIDA est donc passé du stade de maladie fatale à celui de maladie chronique. Le traite-ment antirétroviral est un traitement à vie. Ainsi donc, la prise en charge des PVVIHs’articule autour de la prise en charge clinique, la prise en charge psychosociale, et dessoins communautaires.

Cependant au fil du temps, on a constaté une perte d’efficacité du traitement contrel’infection par le VIH causée par un phénomène qu’on appelle résistance au médica-ment. En effet on s’est rendu compte que certains patients sous traitement avaientdéveloppé une résistance aux médicaments et on a observé aussi que le virus pour cer-tains de ces patients subissait des mutations. Ces observations ont surpris le monde

1Source ONUSIDA

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 15: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

LISTE DES TABLEAUX 3

scientifique étant donné que l’association de médicaments dont est constitué le traite-ment ARV attaque le virus sur plusieurs fronts à la fois retardant ou prévenant ainsil’apparition possible d’une résistance. Des recherches entreprises pour déterminer ce quipouvait expliquer ces phénomènes ont montré que cela était dû à l’observance au trai-tement ARV La seule méthode fiable permettant de savoir si le patient est observant autraitement ARV est celle qui consiste à faire un examen d’évaluation de la charge viralesix au moins après le début du traitement. Or dans le contexte de pauvreté actuelle,le coût de cet examen étant élevé il est difficile pour au moins 50% des Patients soustraitement d’avoir recours à cet examen au bout de 6 mois de traitement. La questionde savoir quels sont les déterminants d’un bon suivi du traitement ARV au Camerounest donc très importante. C’est important d’abord pour le malade, puis pour le corpsmédical et les organes de lutte contre le VIH et le SIDA comme le Comité National deLutte conte le SIDA en abrégé CNLS où j’ai effectué un stage académique d’une duréede 4 mois. Ce rapport qui est le résultat de ce que nous avons fourni comme effort aucors de ce stage est composé de quatres chapitres :

- dans le premier chapitre, nous faisons une présentation du Groupe TechniqueCentral (GTC) du Comité National de Lutte contre le Sida (CNLS), ainsi qu’uneprésentation et une description des donnïées de notre étude ;

- dans le deuxième chapitre, nous présentons les outils statistiques et algorith-miques pour la discrimination par arbre binaire ;

- dans le troisième chapitre, nous présentons les l’analyse discriminante par arbresbinaires de décision de (Méthodes CART) ;

- enfin, au chapitre quatre, nous faisons une application aux données.

Revue de la littérature

Nous pensons que pour un début qu’il est nécessaire d’avoir une idée générale del’action du VIH dans le corps humain ainsi que les conséquences de ces actions. Levirus VIH est un virus qui agglutine les cellules CD4 +, plus le virus se multiplie plusle taux de CD4+ diminue. Or les cellules CD4+ sont des agents d’une importancecapitale pour le système immunitaire, en effet ils sont comme des gardiens vigilantsdu corps humain qui doivent dans un premier temps détecter toute nouvelle intrusiondans l’organisme, puis veuillez à l’élimination de tout organisme gênant. Quand leurnombre diminue dans l’organisme, ce dernier est fragilisé ce qui ouvre ainsi la porteaux maladies opportunistes.

Le traitement antirétroviral est pour l’heure l’une des principales ripostes contrel’infection par le VIH. Bien qu’il ne permette pas l’éradication du VIH, il transformel’infection en une maladie chronique et doit être pris à vie. Mais ce traitement est

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 16: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

LISTE DES TABLEAUX 4

complexe avec nombreuses contraintes liées aux horaires de prise, à la quantité demédicaments et parfois aux restrictions alimentaires associées2. En effet le traitementantirétroviral doit être constitué de deux ou trois médicaments pour espérer atteindreles objectifs fixés par le traitement. Cela est dû aussi au fait que le virus doit traverserplusieurs phases avant de se propager et si l’une ou l’autre des étapes à franchir estbloquée le virus ne peut plus se reproduire3. Une étude menée à la Fondation ChantalBiya ayant pour objectif l’évaluation de l’observance du traitement antirétroviral chezles enfants de 0 à 15 ans infectés par le VIH, a montré que malgré un taux d’observancede 92.1%, le bon suivi du traitement dépendait de l’éducation des parents ou tuteursdes enfants et de la distribution régulière des antirétroviraux4.

Définitions et Compréhension des concepts L’observance correspond au com-portement du patient relatif à la prise de ses médicaments par rapport aux recomman-dations prescrites et expliquées par le prestataire de soins. Elle comporte trois compo-santes :

- l’observance médicamenteuse : c’est le respect de la prescription du médecin parle patient. Elle implique le respect des horaires et la régularité des prises, demême que la durée du traitement.

- l’observance des règles hygiéno-diététiques : elle prend en compte les régimes ali-mentaires et leurs contraintes, la décision d’adopter un mode de vie sain (évictionde tabac, alcool et comportements à risques).

- l’observance du suivi médical engageant la responsabilité du patient et du per-sonnel soignant dans le processus de respect du rythme de consultation et desbilans paramédicaux.

La coopération active du patient étant ainsi sollicité, on parle alors d’adhésion autraitement.

Objectifs

Objectif générale* identifier les déterminats de l’observance au traitement ARV.

Objectifs spécifiques**Savoir si l’histoire de la maladie influence le bon suivi du traitement ARV **Savoir

2www.Sidanet - Evaluation de l’observance du traitement antirétroviral chez les enfants de 0 à 15ans infectés par le VIH.mht

3www.Merck Frosst Canada - Infection par le VIH et le SIDA.mht4www.Sidanet - Evaluation de l’observance du traitement antirétroviral chez les enfants de 0 à 15

ans infectés par le VIH.mht

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 17: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

LISTE DES TABLEAUX 5

si l’aide à l’observance organisé par les pouvoirs publics influence le bon suivi du trai-tement ARV.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 18: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Résumé éxécutif

Problème

La lutte contre la pandémie VIH SIDA s’éffectue sur plusieurs plans qui sont : lasensibilisation, le dépistage,le suivi des patients atteints de VIH. Il est nécessaire aubout d’un certain temps de traitement d’évaluer l’évolution de celui-ci et d’entreprendredes procédures d’amélioration du traitement. Il existe un examen qui permet d’évaluerle niveau d’observance au traitement ARV au bout de 6 mois. Cet examen coûte trèschère. Etant dans un contexte de pauvreté actuel au Cameroun, on se demande si on nepourrait pas établir une liste de facteurs ou caractéristiques qui pourraient permettred’identifier de façon claire des patients non observant.

Méthodologie et données

Les données sont issues d’une enquête réalisé à l’hopital la Quintinie de Douala. Ellea été réalisé par le CNLS. La taille de l’échantillon était de 315. Elle était destiné auCamerounais des deux sexes, anglophones et francophones. La liste des variables étantlongue, nous avons pensé qu’il nous fallait procéder à une fouille de données. L’aug-mentation de la puissance de calcul a permis le developpement de nouvelles méthodesde prédiction utilisant une approche algorithmique tel que les arbres de décisions. Enoutre nous avons choisi l’analyse discriminante par arbre binaire de décision pour salisibilité.

Résultats

Les facteurs déterminants de manière générale pour expliquer le bon suivi du trai-tement ARV sont :

- Avis du patient de son traitement- Les effets secondaires ressentis récemment- La modification des horaires de prise de médicaments- L’age

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 19: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

LISTE DES TABLEAUX 7

- La durée de traitement- Le fait d’avoir un partenaire- Manque de médicaments- Les conseils d’aide à l’observance

De manière spécifique :- Avis du patient de son traitement- effets secondaires ressentis recémment- La durée de traitement

Conclusion et Recommandations

En conclusion nous pouvons dire que le CNLS devrait mettre un accent particuliersur les moyens qui sont mis en oeuvre pour aider le patient à accéder à ces médicamentset revoir la manière donc les séances d’aide à l’obervance sont organisées pour amenerle plus de patients à y assisté.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 20: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

CHAPITRE 1

PRÉSENTATION DE LA STRUCTURE ET

PRÉSENTATION DES DONNÉES

1.1 Présentation de la structure d’acceuil :Le GroupeTechnique Central (GTC) du Comité National duLutte contre le Sida (CNLS)

1.1.1 Comité national de lutte contre le SIDA (CNLS) et Attribu-tions

Crée en 1986, le CNLS est l’organe qui définit les grandes orientations de la luttecontre le SIDA et les IST au Cameroun. Il est présidé par le Ministre de la santépublique et est relayé au niveau régional par le comité provincial de lutte contre leSIDA (CPLS), Le Groupe Technique Central (GTC) est son organe d’exécution. Eneffet suite à la décision N 0282/D/MSP/CAB du 15 mars 1999 du ministre de la santépublique que le GTC du Comité National de Lutte contre le Sida voit le jour. Il estdirigé par un secrétaire permanent assisté dans son travail par un adjoint. Il a pourmissions d’assurer :

- le secrétariat permanent du CNLS ;- La coordination et la gestion du Programme National de Lutte contre le SIDA

(PNLS) sur l’ensemble du territoire national ;- la coordination de l’ensemble des activités de lutte contre le VIH/SIDA et les

IST ;- la gestion des fonds mis à la disposition du PNLS par l’État, les partenaires

nationaux et internationaux.- le suivi évaluation des activités menées ;- l’appui à la recherche scientifique sur le sida.- l’appui technique aux partenaires impliqués dans les comités locaux ;

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 21: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 9

Afin de mener à bien ses activités et d’atteindre les objectifs cités plus haut, le GTC/CNLSa mis sur pied un Plan Stratégique de Lutte contre le Sida (PSLS) pour la période 2006-2010 structuré en six axes stratégiques :

- Axe stratégique 1 : Renforcement de la prévention globale ;- Axe stratégique 2 : Vers l’accès universel au traitement et soins en faveur des

Personnes Vivant avec le VIH/SIDA (PVVS) ;- Axe stratégique 3 : Protection et soutient aux Orphelins et Enfants Vulnérables

(OEV) ;- Axe stratégique 4 : Appropriation de la lutte par les acteurs ;- Axe stratégique 5 : Surveillance épidémiologique et promotion de la recherche ;- Axe stratégique 6 : Renforcement de la coordination, du partenariat et du suivi

évaluation.

1.1.2 Organisation du GTC/CNLS.

Le GTC/CNLS est composé d’un organe central qui est le GTC, de 10 organes dé-centralisés : les Groupes Techniques Régionaux (GTR). Chaque GTR regroupe en sonsein des comités locaux. Le CNLS est présidé par le ministre de la santépublique tandisque le GTC est placésous l’autorité d’un sécrétaire permanent assisté d’un sécrétairepermanent adjoint et composïé ainsi qu’il suit :

Le GTC/CNLS est composé d’un organe central qui est le GTC, de 10 organesdécentralisés : les Groupes Techniques Régionaux (GTR). Chaque GTR regroupe enson sein des comités locaux. Le CNLS est présidé par le ministre de la santé publiquetandis que le GTC est placé sous l’autorité d’un secrétaire permanent assisté d’unsecrétaire permanent adjoint et composé ainsi qu’il suit :

- Une section gestion administrative et financière ;- une section appui à la réponse santé ;- une section réponses sectorielles et partenariat ;- une section réponse locale ;- une section communication pour le changement de comportement et marketing

social ;- une section passation des marchés.- une section planification, suivi et évaluation ;

C’est dans cette dernière section que notre stage a eu lieu. La section planification, suiviet évaluation s’occupe du suivi des activités du GTC, évalue les activités menées endressant des rapports mensuels et annuels, puis, planifie l’action du GTC en fonctiondes priorités dans le but de l’aider à atteindre ses objectifs.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 22: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 10

1.2 Présentation et Description des données

Dans cette partie du travail nous allons nous appesantir sur l’origine des donnéespour justifier des résultats obtenus. Les données que nous avons concernent une enquêted’information, nous allons présenter d’une part comment l’enquête c’est déroulé etd’autre part nous présenterons le formulaire qui a permis de réaliser cette enquête.Notamment ces différentes rubriques et l’intérêt portésur chacune d’elle. Ensuite nousallons présenter toutes les modifications faites sur les variables ainsi qu’une analyseunidimensionnelle et bidimensionnel.

1.2.1 Contexte de l’étude

a -Lieu de l’étude

Notre étude s’est déroulée à l’hôpital de jour de l’hôpital Laquintinie de Douala.L’hôpital de jour est un CTA. Il est situé derrière la maternité, face au service d’on-cologie et assure les services suivants : prévention du VIH ; dépistage volontaire duVIH ; prise en charge psychosociale et nutritionnelle des PVVS ; traitement en ambu-latoire (consultations, hospitalisations de jour et dispensations des ARV ; organisationde campagnes de sensibilisation et/ou de dépistage du VIH/SIDA. L’hôpital de jourest ouvert à tout le monde.

b-Type d’étude

Notre étude est prospective transversale descriptive et analytique.

c-Période d’étude

Elle s’est déroulée sur une période de trois mois allant de mai à juillet 2009.

d-Population d’étude

Les patients sélectionnés seront les patients vivant avec le VIH/SIDA et répondantaux caractéristiques suivantes :

-Critères d’inclusion :

- Etre séropositif pour le VIH- Avoir plus de 18 ans- Avoir débuté les antirétroviraux depuis au moins 6 mois

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 23: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 11

- Avoir débuté la prophylaxie par Cotrimoxazole- Avoir répondu à au moins un rendez-vous de suivi- Etre suivi dans le centre de l’étude

-Critères d’exclusion :

- Patient répondant à tous les critères d’inclusion mais ayant refusé de participerà l’étude.

- Patient remplissant les critères d’inclusion mais dont les dossiers sont incomplets.

e- Echantillonnage

L’échantillon est de type systématique. La taille de l’échantillon est de 315 patients.

1.2.2 Presentation du formulaire

Le formulaire est rédigé en français et en anglais pour permettre à tous les came-rounais quelque soit sa language natale de remplir correctement le formulaire. Afin demieux cerner les informations recherchées le formulaire a été divisée en trois parties.Chaque partie avait un titre et les questions posées dans chaque partie donne uneinformation relative au titre de la partie.

- Caractéristiques générales* Informations personnelles* Histoire de la maladie

- Observance- Données clinico-médicales

1.2.3 Identification et lexique des données

Les données dont nous disposons dans le cadre de notre mémoire sont consignéesdans un tableau de 316 lignes et 31 colonnes. Les individus disposés en ligne repré-sentent des patients atteints du VIH sous ARV habitant de la ville de Douala. Encolonne, nous avons des variables qui sont des réponses aux questions contenues dansle formulaire. Toutes les questions du formulaire ne nous ont pas semblées pertinentespour notre étude, nous avons donc éffectuer une sélection des variables qui nous ontsemblées utiles. Ces trente et une variables sont contenues dans le lexique de donnéessuivant :

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 24: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 12

Variable définitionind : Numéro identifiant l’individusexe : Sexe du patientAge : Age actuel du patientnsco : Niveau scolaire de patientsitm : Situation matrimoniale du patientProf : Profession actuelle du patientTpsmal : Temps depuis lequel la maladie a été découverte(exprimé en mois)part : Le patient a-t-il un partenaire ?efrecent : Le patient a-t il à se plaindre d’effet secondaire récenttptrait : Temps depuis lequel le patient suit le traitement.

Cette variable est catégorielle, les données sont des intervalles.nseance : Nombre de séances d’aide à l’observance auquel le patient a assisté

au cours des 6 derniers. C’est une fraction.App : Appartient−il à une association de personne vivant avec le VIHDosedif : la dose de médicament la plus difficile à prendreFreq9 : Pourcentage de prise sur 9 en 3 joursFreq6 : Pourcentage de prise sur 6 en 3 jourstcor : Avis du patient de son traitementHmod : Les horaires ont été modifiés ?Oubli : Le patient a−t−il oublié de prendre ces médicamentsPlumed : Le patient n’avait plus de médicamentsPnh : Les prises sont−elles adaptées aux horaires de travailPesp : Le patient a−t−il peut d’être reconnuEfsec : : Les effets secondaires ont-ils rendus la prise de médicament difficilemmed : Le patient a marre des médicamentsDiffn : Le patient a des difficultés financièresDifamed : Le patient a des difficultés avec son médecinPnaj : Les prises ne sont pas adaptées au mois de jeunePam : Il avait arrêté parce qu’il n’avait pas noté d’amélioration significativeEfsec1 : Il a arrêté son traitement à cause des effets secondairesrupstock : Il a arrêté à cause de la rupture de stocktradi : Il a arrêté le traitement parce qu’il suivait une thérapie traditionnelle.Nconsul : Le nombre de consultations auquel il a assisté au cours des 6 derniers mois.Medc : Les médicaments sont-ils contraignant ?amsante : Les médicaments améliorent-il la santé du patient.correct1 : La variable qui exprime si le patient est observant ou non.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 25: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 13

1.2.4 Modélisation de la variable observance

elle est modélisé comme suit :- Correct si le taux de non prise est inférieur à 10% et qui n’a jamais arrêter de

prendre ces médicaments. Correct vaut 1.- Non correct si le traitement n’est pas correct. Non correct vaut 0.

1.2.5 Illustration des données manquantes

[htbp]

Variables Pourcentage de valeurs manquantesâge 0,95238095

nscolaire 0,31746032Sitm 0,31746032

Tpstrait 0,31746032Nseance 2,85714286

App 0,63492063Dosedif 2,85714286Hmod 0Oubli 0

Plumed 0Pnh 0

Efsec 0Mmed 0Diffn 0

Difamed 0Pnaj 0Pam 0

Efsec1 0Rupstock 0

Tradi 0Dureinterup 1,58730159

Nconsul 7,93650794Medc 2,53968254

Amsante 18,0952381

TAB. 1.1 – Pourcentages des données manquantes par variable.

Il ressort du tableau 1.7 que la variable amsante est la plus concernée par le pro-blème de données manquantes, avec 18.09% de données manquantes. Nous avons donc

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 26: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 14

pensé éliminer cette variable. Pour les variables dont le pourcentage de valeurs man-quantes était inférieurs a 4%, nous avons remplacé ces valeurs par le mode pour lesvariables qualitatives et la moyenne pour les variables quantitatives.

1.2.6 Analyse descriptive des données

Analyse unidimensionnelle

Nous allons d’abord présenter le résumé de toutes les variables.Pour les variables binaires à deux modalités "oui" et "non" on a :

Variables Non Ouipart 201 114

efrecent 144 171app 301 14tcor 192 123

hmod 265 50oubli 242 73

plumed 251 64pnh 268 47pesp 234 81efsec 252 63mmed 256 69diffn 189 126

difamed 277 38pnaj 301 14pam 243 72

efsec1 292 23Rupstock 299 16

tradi 306 9medc 241 74

correct 130 185

TAB. 1.2 – Résumé des variables à modalité "oui" et "non"

Nous avons fait quelques remarques dans ce tableau. Il y’a quelques variables quine sont pas réparties équitablement dans les deux modalités. Ce sont : tradi, app, pnaj.Cela amène à faire quelques hypothèses :

- très peu de patients avouent avoir arrêter leur traitement pour suivre une médé-cine traditionnelle, cela veut peut-être dire que les patients font plus confiance à

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 27: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 15

la médécine moderne.- Très peu de patients voue appartenir à une association donc nous pensons qu’il

faudrait sensibiliser les PVVIH sur le bien fondé d’appartenir à une association.Et nous pensons que pour cette raison cette variable ne va pas influencer lavariable à expliquer.

- Très peu de patients disent avoir arrêter leur traitement parce que celui-ci n’etaitpas adapté au jeune pratiqué dans leur réligion. Nous pensons donc que la variablepnaj ne va pas influencer de façon significative la variable correct.

Résumé d’autres variables qualitatives.

La variable nombre de séance d’aide à l’observance au cours des 6 der-niers moisNous remarquons qu’il y’a encore beaucoup de patients qui n’ont jamais assité à une

modalités nombre0/6 281/6 242/6 623/6 914/6 285/6 206/6 62

TAB. 1.3 – Résumé de la variable nseance

séance d’aide à l’observance. Nous pensons que les autorités devrait faire des éfforts dece côté là.

La variable nombre de consultation au cours des 6 derniers mois

modalités nombre1/6 112/6 713/6 774/6 205/6 66/6 130

TAB. 1.4 – Résumé de la variable nconsul

Nous observons que les patients sont consultés régulièrement de manière générale.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 28: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 16

La variable ageLe résumé de cette variable est contenue dans le tableau suivant :

Min. 19.01st Qu. 32.0Median 39.0Mean 39.5

3rd Qu. 45.0Max. 66.0σ2 9.446126

TAB. 1.5 – Résumé de la variable age

L’âge des patients varient entre 19 et 66 ans. La moyenne et la médiane n’ont pasun grand écart.l’écart-type est grand on peut dire que l’âge des patients de l’échantillonn’est pas regroupé autour de la moyenne. Donc la population est homogène.

la variable dureé de maladieLe résumé de cette variable est contenue dans le tableau suivant :

Min. 0.001st Qu. 24.00Median 36.00Mean 39.62

3rd Qu. 60.00Max. 96.00σ2 23.70295

TAB. 1.6 – Résumé de la variable durée de la maladie

La durée de traitement varient entre 0 et 96 mois. La médiane et la moyenne nesont pas proches. L’écart-type est grand on peut dire que la durée de traitement estbien répartie dans l’intervalle [0,96].

Pour les variables restantes nous avons fait des graphiques .

la variable sexeNous remarquons que 75% despatients sous traitement sont des femmes, et cela s’ex-

plique par le fait que la prévalence chez les hommes est plus élevée que chez les femmes.En effet le risque d’infection est plus élevée chez les femme que chez les hommes.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 29: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 17

FIG. 1.1 – Camembert représentatif du sexe

la variable niveau scolaireNous avons observé que 56,2% des patients de l’échantillon ont fait des études sencon-

FIG. 1.2 – Camembert représentatif du niveau scolaire

daires incomplètes, 27% ont juste fait des études primaires, 13% ont un Baccalauréatet plus et 3.5% sont non scolarisés. Au vu de ces chiffres peut-on dire que plus le niveauscolaire est élevé moins on a de risque d’être infecté et conclure aussi que on est plusobservant au traitement ? Nous avons noté aussi 3% de valeurs manquantes.

la variable professionNous observons que le secteurs informel est le plus représenté avec 43,8% des patients

FIG. 1.3 – Camembert représentatif de la profession

de l’échantillon, cela se comprend car dans notre pays le secteur d’activité qui emploitle plus de personne est le secteur informel. Ensuite vient les chomeurs qui représentent26,3% des patients de l’échantillon étant donné que l’échantillon est constitué en majo-rité de femmes cela se comprend. Les employés du secteur privée avec un pourcentage

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 30: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 18

de 17,8% ne sont pas négligéable non plus.

la variable durée du traitementNous avons remarqués que le groupe de patients le plus représenté est celui des patients

FIG. 1.4 – Camembert représentatif de la durée du traitement

qui ont fait plus de 36 mois sous traitement. Et aussi que le temps de traitement décroîtavec le nombre de patients. Cela veut-il dire que les patients qui ont mis plus de tempssous traitement sont plus observant ? Nous avons noté 3% de données manquantes.

la variable difficulté d’une doseNous observons que plus de la moitié des patients ne trouvent pas difficile de prendre

FIG. 1.5 – Camembert représentatif des niveaux de difficultés des doses

leur médicament.

la variable correct1Nous constatons que la variable traitement correct ne prend que deux modalités 0 et

1. La variable à expliquer est donc binaire.

Analyse bidimensionnelle

Pour faire l’analyse bidimensionnelle, nous avons procédé de plusieurs manièressuivant le type de la variable et l’information qu’elle apporte. Nous avons réalisé des

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 31: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 19

FIG. 1.6 – Représentation graphique de la variable à expliquer correct

diagrammes croisée de quelques variables explicatives avec la variable à expliquer etnous les avons commente. Nous avons aussi effectué des tests de khi-deux pour plusd’éclairage et enfin nous avons réalisé le boxplot pour les variables quantitatives. Danscette section les patients seront divisés en deux groupes : les patients observant et lespatients non observant.

Variable durée de traitementNous observons d’une manière générale que la proportion des patients non observant

FIG. 1.7 – Diagramme croisée de la durée de traitement et correct

ne change pas beaucoup quelque soit la durée du traitement. Ce qui est à peu près lamême chose chez les patients observant. On peu dire que le pourcentage des patientsnon observant est en moyenne de 40% et celui des patients observant est de 60%. Onremarque aussi que les patients qui ont entre 19 et 24 mois de traitement sont les plusnombreux dans le groupe des non observant. Au seuil de 5% le test du khi-deux avecune p-value = 0.5268 montre que la durée de traitement n’est pas significative pour

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 32: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 20

expliquer la variable traitement correct.

Variable effets secondairesNous observons que les patients non observant ont ressenti moins d’effets secondaires

FIG. 1.8 – Diagramme croisée de effets secondaire pas récents et correct

que les patients observant. L’écart entre les patients non observant qui ont ressenti deseffets secondaires et ceux qui n’ont pas ressenti est de 2% ce qui n’est pas significatif.

Variable Rupture de stockNous observons que la rupture de stock ne semble pas avoir d’effet sur la variable

FIG. 1.9 – Diagramme croisée de rupture de stock et correct

correct1 car les valeurs de rupture de stock sont pratiquement les mêmes quelques soitle groupe auquel le patient appartient. Au seuil de 5% le test du khi-deux avec unep-value = 0.9571 nous montre qu’il n’y a pas dépendance entre Rupture de stock ettraitement correct. Donc apparent la fourniture des médicaments dans les points dedistribution en zone urbaine est bien éffectuée.

Variable professionNous remarquons que d’une manière générale les proportions des patients de chaque

FIG. 1.10 – Diagramme croisée de la profession et correct

groupe sont égales quelques soit le secteur d’activité. Dont la profession ne semble pas

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 33: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 21

influencer la variable traitement correct. Au seuil de 5% la p-value du test du khi-deuxest : 0.2707, dont il n’a pas de dépendance entre ces deux variables.

Variable âgeNous remarquons une donnée aberrante qui doit être une valeur manquante. La

FIG. 1.11 – Boxplot de l’age et correct

moyenne d’âge des patients qui suivent bien leur traitement est supérieur à celle deceux qui ne suivent pas bien leur traitement. L’âge des patients non observant tourneautour de la médiane qui est de 39

Résultats du test du khi-deux au seuil de 5% pour d’autres variables.Nous remarquons que pour quelques unes de ces variables la p-value est très significa-

Variable p-valeur obtenuetcor 6.504e-09 ***

plumed 4.745e-06 ***hmod 0.1276 .

efrecent 0.06853 *part 0.1244 .

TAB. 1.7 – Test du Khi-deux de quelques variables.

tive pour d’autres elle est un peu significative. Dans l’ensemble ces variables semblentintéressantes pour notre modèle.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 34: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Présentation de la structure et présentation des données 22

1.2.7 Choix de la méthode d’analyse des données

Etant donné que nous devons procéder à une identification, pour avons pensez qu’ilnous fallait choisir une méthode fallait utilisée une méthode de fouille de données. Uneméthode qui nous permettrait insérer un maximum de variables dans notre modèleet ensuite de sortir celle qui semble les plus pertinentes. Cette méthode devait aussieffectuer un regroupement des modalités pour que nous puissions avoir des classes.Notre variable à expliquer étant binaire nous ne pouvions effectuer qu’une analysediscriminante par arbre binaire de décision.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 35: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

CHAPITRE 2

OUTILS STATISQUES ET

ALGORITHMIQUES POUR L’ANALYSE

2.1 Introduction

L’objectif de ce chapitre est de présenter les éléments mathématiques et algorith-miques utilisés dans le developpement et la mise en oeuvre de l’analyse discriminantepar arbre binaire de décision.

2.2 Structure d’un arbre binaire

2.2.1 Généralités

Soit E, un ensemble non vide. Un "arbre binaire sur E" s’obtient par partitions(oudivisions) binaires successives partant de E.

Exemple :La logique présidant à la construction d’un tel arbre dépend de son contexte d’uti-

lisation.

2.2.2 Terminologie

Notons T , l’arbre obtenu- Noeud de T : Sous-ensemble de E qui ∈ T- Fils d’un noeud N : noeuds lors de la division d’un noeudN ;- Père d’un noeud N : noeud N0 dont N est le fils ;

- descendant d’un noeud N :C’est un noeud N ′ tel qu’ ∃(NK)K=0,...,s+1 une suite

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 36: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Outils statisques et algorithmiques pour l’analyse 24

FIG. 2.1 – Exemple d’un arbre

FIG. 2.2 – Exemple d’un noeud père et ses fils

finie de noeud vérifiant :{(i)N0 = N etNs+1 = N ′,

(ii)∀k = 0, ..., sNK+1estfilsdeNK .

Mais vu la manière dont notre arbre est construit, c’est aussi équivalent à direque : N ′ ⊂ N ;

- ancêtre d’un noeud N : C’est un noeudN ′ dontN est le descendant, i.e.N ⊂ N ′

- racine de l’arbre : l’ensemble E. C’est le seul noeud de l’arbre n’ayant pas de père,c’est aussi l’ancêtre commun de tous les autres noeuds de l’arbre, lesquels sontdonc tous ses descendants ;

- Noeud terminal(ou feuille) :noeud n’ayant pas de fils ;- Noeud intermédiaire :noeud non terminal- Branche : arbre obtenu en considérant un noeud N (pris comme racine) de tous

ses descendants. On dit aussi branche partant de N- Elaguer la branche partant d’un noeud N c’est supprimer tous les descendants

du noeud N ;- Elagage de l’arbre T : consiste à élaguer un certain nombre de ses branches ;

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 37: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Outils statisques et algorithmiques pour l’analyse 25

- sous-arbre de T : arbre obtenu par un élagage de T ;- complexité de T : nombre de ses noeuds terminaux ;- profondeur d’un noeud N : nombre de divisions ou partitions éffectuées pour

passer de la racine à N ;- profondeur de T :maximun des rpofondeurs de ses noeuds (terminaux).En conclusion nous pouvons dire qu’un arbre binaire de décision est un arbre qui a

une racine et des noeuds, chaque noeud non terminal ayant deux fils. L’union disjointedes deux fils nous donne le père.

2.3 La discrimination à deux classes

Dans la méthode vues dans le chapitre qui suit, on évalue pour chaque individu iun probabilité pi que cet individu prenne la modalité Y=1. Cette valeur cpmprise entre0 et 1 est comparée à une valeur seuil s fixée à priori (en général 0.5).

Sipi > s, yi = 1sinonyi = 0

Pour un échantillon de taille n donc l’observation de Y est conuue ainsi que lesprobabiltés pi fourni par un modèle, il est alors facile de construire la matrice dite deconfusion croisant les modalités de la prédite au seuil avec celles de la variable observée

dans un table de contingence.

Y=1 Y=0yi = 1 n11(s) n10(s) n1+

yi = 0 n01(s) n11(s) n0+

Total n+1 n+0 nLes quantités suivantes sont considérées :– Vrais positifs les n11(s) observations bien classées (yi = 1etY = 1),– Vrais négatifs les n00(s) observations bien classées (yi = 0etY = 0),– Faux positifs les n01(s) observations mal classées (yi = 0etY = 1),– Faux négatifs les n10(s) observations mal classées (yi = 1etY = 0),– Le taux d’erreur : t(s) = n01(s)+n10(s)

n,

– Le taux de vrais positifs ou sensibilité =n11(s)n+1

– Le taux de vrais négatifs ou spécificité =n00(s)n+0

– Le taux de faux positifs=1-spéficité=1− n00(s)n+0

= n10(s)n+0

2.4 L’erreur de prévision

2.4.1 Définition

Soit Y la variable à expliquer, X la variable p-dimensionnel ou l’ensemble des va-riables explicatives, F la loi conjointe de Y et X, Z=(x1, y1), ..., (xn, yn) un échantillon

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 38: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Outils statisques et algorithmiques pour l’analyse 26

et

Y = φ(X) + ε (2.1)

Le modèle à estimer avec E(ε)=0, Var(ε)=σ2 et ε indépendant de X. L’erreur de pré-vision est définie par :

εp(z, F ) = EF [Q(Y, φ(X))] (2.2)

où Q est une fonction de perte.Si Y est quantitative, cette fonction perte est plus généralement quadratique : Q(y, y) =

(y − y)2, mais utilise parfois la valeur absolue :Q(y, y) = |y − y|. Cette dernière al’avantage d’être plus robuste, car moins sensible aux valeurs extrêmes mais nécessitedes algorithmes d’optimisation plus complexes et pas nécessairement à solution unique.Si Y est qualitative Q est une indicatrice de mal classé : Q(y, y) = 1y 6=y.Dans le cas quantitatif, l’estimation du modèle par minimisation de εp revient à uneapproximation de la fonction φ et la solution est l’espérance conditionnelle (connaissantl’échantillon) tandis que, dans le cas qualitatif, c’est la classe la plus probable qui estdésignée par le mode conditionnel qui est prédite. Pour notre cas nous allons donnerune défintion en probabilité de l’erreur de prédiction ou taux d’erreur. on le noteε(φ) = Pr(Y 6= Y ) = Pr(φ(

−→X ) 6= Y ) probabilité qu’on a à priori de se tromper dans

notre prédiction, avec notre prédicteur. Le taux de succès est donné par l’expression :1 − ε(φ) = Pr(Y = Y ). ⇒ Y est d’autant plus éfficace pour prédire Y que son erreurε(φ) est petite

2.4.2 L’estimation

La façon la plus simple d’estimer sans biais l’erreur de prédiction consiste à calculerεP sur un échantillon indépendant n’ayant pas participer à l’estimation du modèle.Ceci nécessite donc d’éclater l’échantillon en trois parties respectivement appelées ap-prentissage, validation et test.

z = zAppr

⋃zV alid

⋃zTest (2.3)

i εP (zAppr) est minimisé pour estimer le modèle,

ii εP (zV alid) sert à la comparaison des modèles au sein d’une même famille afin desélectionner celui qui minimise cette erreur,

iii εP (zTest) est utlisé pour comparer entre eux les meilleurs modèles de chacune desméthodes considérées.

Cette solution n’est acceptable que si la taille de l’échantillon est importante sinon :- la qualité d’ajustement est dégrader car n est plus petit,

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 39: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Outils statisques et algorithmiques pour l’analyse 27

- la variance de l’estimation de l’erreur peut être importante et ne pas être estimée.Si la taille de l’échantillon n’est pas importante, le point ii ci-dessus : la sélection dumodèle est basée sur un autre type d’estmation de l’erreur de prévision faisant appelsoit à une pénalisation soit à une simulation.

2.5 Prédicteur de Bayès

2.6 Le critère Cp de Mallows

Le Cp de Mallows repose sur une mesure de la qualité sur la base d’un risquequadratique .Cet indicateur est une estimation de l’erreur quadratique moyenne deprévision. L’erreur de prévision se décompose en :

εP = εP (zAppr) + Optim (2.4)

qui est le taux d’erreur apparent plus le biais par abus d’optimisme. Il s’agit doncd’estimer cet optimisme pour apporter une correction et ainsi une meilleure estimationde l’erreur. Cette correction peut prendre plusieurs formes.Elle est lié à l’estimation dela variance dans la décomposition en biais et variance de l’erreur où c’est encore unepénalisation associée à la complexité du modèle. On montre (cf. Hastie et col, 2001), àdes fins de comparaison qu’il peut aussi se mettre sous une forme équivalent :

Cp = εp + 2d

ns2 (2.5)

où d est le nombre de paramètres du modèle(nombre de variable plus 1), n le nombred’observations, s2 une estimation de la variance de l’erreur par un modèle de faiblebiais. Il est d’usage de rechercher le modèle qui minimise le Cp.

2.7 La validation croisée

Soit A ensemble d’apprentissage de taille n.

2.7.1 Idée générale

Lorsqu’on estime que la taille de l’échantillon est suffisament grande n ≥ 500, onpartitionne l’ensemble d’apprentissage A en 2 sous ensembles A1 et A2, de manièrealéatoire avec :

- A1 (23

de A) : pris comme échantillon d’apprentissage pour évaluer le prédicteur

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 40: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Outils statisques et algorithmiques pour l’analyse 28

- A2 (13

de A) pris comme échantillon de test.

Mode opératoire pour estimer ε(g)

- Utiliser A1 pour construire le prédicteur gA1

- Appliquer ce prédicteur pour prédire les classes respectives des individus de A2.gA1(−→x i),∀i ∈ A2

- Proposer comme estimation de la vraie erreur de prédiction ε(g) la valeur :1n2

∑i∈A2

1gA1(−→x i) 6=Yi

où n2 = cardA2

2.7.2 Leave-one out

Cette méthode consiste à appliquer la validation croisée tel que décrit plus hautavec A1 de taille n− 1 et A2 de taille 1.Début

- Pour i=1 (1) n faire

- Mettre de côté l’individu n i. Il va alors rester A(i)

- Construire le prédicteur g en prenant A(i) comme échantillon d’apprentis-sage ce qui va donner g(i)

- Utiliser g(i) pour prédire la classe de (i) :y(i) = g(i)(

−→x i)

- Estimer ε(g) par :

ε(g) =1

n

n∑i=1

1y(i) 6=yi

finAvantage : En général on obtient ainsi une bonne estimation de la vraie erreur de

prédiction ε(g)

.Inconvénient : Procédure très coûteuse en temps de calcul lorsque n devient modè-

rement grand notament si g est déjà lui-même couteux.

2.7.3 Généralisation : validation croisée par blocs ou paquets

On se fixe un entier L> 0 "petit". Les valeurs courantes sont : L=5 ou 10 (engénéral, 2≤ L < 10). Cette méthode consiste à prendre appliquer la validation croiséetel que décrit ci-dessus avec taille de A1 = (L−1)∗n

L, et la taille de A2 = n

L

début

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 41: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Outils statisques et algorithmiques pour l’analyse 29

- Partitionner aléatoirementA en L blocs tailles sensiblement égales :A1,A2, ...,AL

- Pour K=1(1)L faire- Mettre de côté le bloc n K, soit AK

- Regrouper les autres L-1 blocs, ce qui va donner : A(K) = A \ AK

- Construire le prédicteur g en prenant A(K) comme échantillon d’apprentis-sage. Ce qui va donner g(K)

- Appliquer g(K) aux individus du bloc AK pour prédire leurs classes respec-tives. Ce qui donne les valeurs : g(K)j

∈ 1, ..., G,∀j ∈ AK

- On peut en déduire ainsi une première estimation de la vraie erreur deprédiction de g i.e. ε(g) par :

εK(g) =1

nK

∑j∈AK

1g(K)j6=gj

, onK = cardAK

- Prendre comme estimation finale de ε(g) :

ε =1

L

L∑K=1

εK(g) ∈]0, 1[

finEn somme nous pouvons dire que la validation croisée(L) avec L=5 ou 10 est une pro-cédure universelle pour évaluer la performance future d’un pédicteur.

2.8 Le test du Khi-deux pour l’indépendance entredeux variables

Soit X et Y deux variables à r et s modalités. On peut utiliser le test du Khi-deuxpour tester la dépendance entre ces deux variables.Considérons nij le nombre d’observations tel que x prend la modalité i et y prend lamodalité j.Si pij, pi, pj ont les probabilités d’avoir les modalités i(X) et j(Y), i(X), j(Y), l’indépen-dance s’exprime par : pij = pi.pj Soient ni =

∑sj=1 nij, nj =

∑ri=1 nij, n =

∑i

∑j nij

On peut estimer pi et pj par pi = ni

net pj =

nj

n

Sous l’hypothèse (H0) d’indépendance, la quantité

∗D =∑

i

∑j

(nij − n.pij)2

n.pij

(2.6)

qui mesure l’écart entre le tableau observé et le tableau théorique sous (H0, suit uneloi du §2((r − 1)(s− 1)).

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 42: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

CHAPITRE 3

AARBRE BINAIRE DE DÉCISION :MÉTHODE CART (CLASSIFICATION

AND REGRESSION TREES)

3.1 Introduction

Les méthodes de discrimination par arbre, plus couramment connues sous le nom departitionnement ou de segmentation ; ont été initialement développées par Messengeret Mandell(1972) et Morgan et Messenger(1973)à la suite des travaux de Morgan etSonquist(1963) et Sonquist et Morgan(1964) qui portaient sur les arbres de regression.Dans la suite on parlera de CART pour faire référence à la méthode proposée parBreiman et col.(1984). Depuis les méthodes de discrimination basées sur une structured’arbre bénéficient d’une nouvelle popularité et connaissent un regain de diffusion. Enoutre cette méthode a comme priorité de fournir des règles de décisions transparenteset d’interprétation aisée.

3.2 Généralités

a- Rappel sur la situation de discriminationSoit à prédire Y → 1, .., G à base de l’observation de → X = (X1, ..., XP ) vecteur

aléatoire de variables explicatives de n’importe quel type (quantitatif ou qualitatif).Soit l’échantillon d’apprentissage donc les données observées A = (x1, y1), ..., (xn, yn).L’objectif est de prédire la classe Y = K d’un individu grâce à un prédicteur g(

−→X )

déduit d’un arbre binaire T construit à partir de A.

b-Principes généraux pour la construction de l’arbre

- Ensemble de départ A

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 43: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Aarbre binaire de décision : méthode CART (Classification And Regression Trees)31

- Pour diviser un noeud N de T- On sélectionne l’une des variables P variables explicatives Xj

- On répartit alors les individus du noeud N entre son fils gauche NG et sonfils droit ND uniquement à base des valeurs de la variable Xj observées sur lesindividus ∈ N

- Définir un critère d’arrêt approprié dans la construction de l’arbre C

Les questions qui se posent sont les suivantes :- Comment sélectionner l’une des P variables ?- Comment répartir les individus en deux ensembles sachant que la division ne sera

considérée comme "admissible que si NG,ND est une partion de N/NG 6= ∅ 6=ND ?

c-Classes et noeuds** Poids de la classe Y = K dans un noeudProportion des individus du noeud N qui sont dans la classe Y = K. Notation :pK/N (V pK/N ≥ 0

∀k = 1, .., G∑G

k=1 pK/N = 1).

** règle d’affectation d’un noeud N dans une classeOn décidera d’affecter un noeud N à la classe Y = K majoritaire dans ce noeud. Sielle est unique ˆpK/N = max1≤l≤g ˆpl/N alors on aura un prédicteur de Bayés estimé dansle noeud N .

**Règle de prédiction de Y pour un individu futur.Supposons avoir construit l’arbre T . Pour prédire la classe Y = K d’un individu futursur lequel on aura observé le vecteur d’attribut

−→X = −→x

- On parcourt l’arbre T à partir de sa racine A ;

- On s’oriente dans le parcours en suivant à chaque noeud intermédiaire N rencon-tré, la règle qui a permis de le diviser lors de la construction de l’arbre (suivantla valeur d’une variable Xj) ;

- Le parcours s’arrête lorsque on est parvenu à un noeud terminal : NF ;

- On prédit alors comme classe de l’individu celle qui est majoritaire dans NF .

d- objectif de la construction de l’arbre

- Plus on descend en profondeur dans l’arbre, plus les individus dans un mêmenoeud doivent tendre à se ressembler du point de vue de leurs valeurs pour lesvariables explicatives Xj.

- Plus on descend en profondeur dans l’arbre plus les noeuds tendent, chacun àavoir une classe de plus en plus dominante.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 44: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Aarbre binaire de décision : méthode CART (Classification And Regression Trees)32

Ainsi on a le moins de chance de se tromper dans la prédiction de la classe d’unindividu tel que

−→X = −→x .

3.3 Notion d’impureté

a- Définitions de base

1. Noeud pur : Noeud N ∈ T dans lequel une seule classe est représentée, i.e.tous les individus de N sont dans la même classe, ⇔ ∃k ∈ 1, ..., G/Pk/N = 1

⇔ ∀l 6= k, Pl/N = 0

2. Noued impur : Noeud qui n’est pas pur

3. Noued totalement impur : Noeud dans lequel toutes les classes ont le mêmepoids, i.e. P1/N = P2/N = ... = PG/N = 1/G

b- Mesure du dégrés d’impureté d’un noeud : notion d’indice de pureté

Pour mesurer le dégrés d’impureté des noeuds N ∈ T , on introduit donc un " indicede pureté" i : T → R+ N 7→ i(N ), avec les propriétés suivantes à satisfaire :

- i(N ) = Ψ(P1/N , ..., PG/N ) ≥ 0

- Ψ est une fonction symétrique de ces arguments

- i(N ) est minimale, i.e. i(N ) = 0,⇔ N est un pur.

- i(N ) est maximale ⇔ totalement impur.

Les mesures d’impureté d’un noeud les plus répandus sont :- Indice d’entropie de shannon

ish(N ) = −∑G

K=1 PK/N .lnPK/N (conv 0.ln0=0)- Indice de Gini

iGi(N ) =∑

k 6=l Pk/N .Pl/N = 1−∑G

k=1 P 2k/N = (

∑Gk=1 Pk/N )2 −

∑Gk=1 P 2

k/NL’indice de shannon et l’indice de Gini satisfont les propriétés de l’indice d’impuretécitées plus haut.

c- Indice global d’impureté de l’arbre T

** Poids d’un noeud dans l’arbre TLe poids N de l’arbre T est la proportion des individus de l’échantillon d’apprentissagequi forme N : PN/T = 1

ncardN

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 45: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Aarbre binaire de décision : méthode CART (Classification And Regression Trees)33

** Indice global d’impureté de TI(T ) =

∑N∈T PN/T .i(N ) ≥ 0 où T = ensemble des noeuds terminaux de T

**A priori, on devrait construire l’arbre pour que I(T ) soit la plus petite possible.

** remarque :∑N∈T PN/T .i(N ) = 1⇒ 0 ≤ I(T ) ≤ maxN∈T i(N )

d- Effet de la division d’un noeud terminal sur I(T )

**situationLa division d’un noeud N0 devrait entrainer la réduction de l’impureté du noeud. SoitN0 un noeud terminale de l’arbre au stade actuel T ; Et supposons qu’on le divise endeux fils NG et ND.On obtient alors un nouvel arbre T ′ tel que :I(T ′) =

∑N∈T PN/A.i(N )

Mais T ′ = (T N′)⋃{NG,ND}

⇒ I(T ′) = I(T )− PN0/A.i(N0) + PNG/A.i(NG) + PND/A.i(ND)

D’où la variation de l’unité globale d’impureté de T due à la division du noeud terminalN0 en ses fils NG et ND est donnée par : ∆I(T /N0, d) = I(T )− I(T ′)

Il vient que :∆I(T /N0, d) = PN0/A.∆I(N0/d), où ∆I(N0/d) = i(N0)−PNG/N0 .i(NG)−PND/N0 .i(ND)

est la variation de l’impureté au noeud N0 due à sa division en ses 2 fils NG et ND.On doit donc diviser N0 de telle sorte que ∆I(N0/d) soit la plus grande possible.

e- propriétés de la réduction de l’impureté d’un noeud

P1 : Si i(N ) = Ψ(P1/N , ..., PG/N ) avec Ψ strictement concave sur ]0, 1[G alors ∀N0 ∈T , ∀d division admissible de N0, on a :

- ∆(N0/d) ≥ 0,

- (∆(N0/d) = 0)⇔ ∀K = 1, ..., G Pk/NG= Pk/ND

= Pk/N0 où d = NG,ND

P2 : La fonction Ψ est strictement concave sur ]0, 1[G pour les valeurs de l’indicede pureté de shannon et celui de Ginni.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 46: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Aarbre binaire de décision : méthode CART (Classification And Regression Trees)34

3.4 Critères de division d’un noeud terminal de l’arbrecourant

a- mode opératoire générale

Soit N0 ∈ T , où T est l’arbre au stade actuel de la construction. On souhaitediviser N0 par une division d = {NG,ND} à choisir de manière appropriée pour quela réduction d’impureté associée à cette division de N0, soit ∆i(N0/d) la plus grandepossible.

*Idée générale :

Pour notre problème de discrimination les divisions possibles de N0 qui sont in-téressantes en pratique sont celles telle que les individus envoyés dans le fils gauche(respectivement dans le fils droit) tendent à être plus semblable du point de vu desvariables explicatives Xj, que ce n’était le cas au niveau de leur père.⇒ En pratique, on ne va s’interreser qu’au division de N0 déduite des valeurs des Xj

sur les individus ∈ N0

De manière plus précise en pratique pour diviser N0 ∈ T , on considére le macro-algorithme suivant :

- Pour j=1 (1) P faire

- On "essaye" toutes les combinaisons admissibles "possibles" de N0 qu’onpeut décider à base uniquement des valeurs observées de la variable Xj surles individus ∈ N0, Soit Dj l’ensemble de ses divisions.

- ∀d ∈ Dj, calculer ∆i(N0/d)

- Adopter comme "meilleure" division du noeud N0 relativement à la divisiond∗j ∈ Dj vérifiant : ∆i(N0/d

∗j) = maxd∈Dj

∆i(N0/d)

- A la sortie de l’étape 1, on a obtenu p divisions : d∗1, d∗2, ..., d

∗p chacune étant

optimale relativement à Xj, pour j = 1, ..., p . On adopte alors comme divisionfinale du noeud N0, la division d∗N0

∈ d∗1, d∗2, ..., d

∗p

∆i(N0, d∗N0

) = max1≤j≤p ∆i(N0/d∗j)

- On divise alors N0 par d∗N0, i.e. suivant les valeurs de la variable Xj_mathcalN0 tel

que jN0 ∈ 1, ..., p et d∗N0= d∗jN0

b- Divisions possibles pour un noeud à partir d’une variable donnée Xj

** ObjectifDiviser un noeud N0 en d = {NG,ND} uniquement sur la base des valeurs observées

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 47: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Aarbre binaire de décision : méthode CART (Classification And Regression Trees)35

de la variable explicative Xj sur les individus de N0, de telle sorte que ceux qui sontorientés dans NG (resp ND) se ressemblent du point de vue de leurs valeurs pour Xj,en tout cas plus que ce n’était le cas dans N0 dans son ensemble.Le mode opératoire dépend du type j.

- Variable Xj constante dans N0

. On ne peut pas diviser N0 à base de Xj .

- Variable Xj binaire dans N0 Supposons Xj ne prend que 2 modalités sur lesindividus de N0, par exemple 0 et 1.Alors il y’a une seule division possible de N0 à base de Xj, envoyer dans NG lesindividus pour lesquels Xj =0 et dans ND ceux pour lesquels Xj=1.

- Variable explicative Xj qualitative ordinale (ou quantitative discrète )On peut alors, pour simplifier identifier les modalités de XJ apparaîssant dansN0 aux entiers 1 < 2 < ... < q(q > 2).Les divisions possibles de N0 à base de Xj seront alors : d=(Xj ≤ C), (Xj > C)

où C ∈ 1,2,...q-1, soit q-1 divisions possibles.

- Variables explicatives Xj quantitatives continues Les divisions possibles sont "lescoupures " de la forme d = dC = (Xj ≤ C), (Xj > C) avec C ∈ R / mini∈N0 xij ≤C < maxi∈N0xij

.Comme les valeurs possibles de C seront potentiellement en grand nombre ici,il ne sera pas envisageable de les parcourir toutes comme en 2. souvent pourrésoudre ce problème on code Xj en une variable qualitative ordinale à quatresmodalités ordonnées qui sont : le minimun de xij, le 1er quartile, le 3mequartile etle maximun de xij puis on retourne à l’ étape 2.

- Variable explicative Xj qualitative nominale- Cas d’une prédiction à 2 Classes : Y=0 ou 1

Soient m1, ...,mq les modalités observées de Xj dans N0 (q > 2). On varanger ces modalités dans l’ordre des proportions des individus de N0 pourlesquels Y=0, i.e. posons ∀l = 1, ..., Πl/N0 =

card{i∈N0/xij=mletyi=0}card{i∈N0/xij=ml}

et on ordonne les modalités m1, ..,mq dans l’ordre des nombres Π1/N0 , Πl/N0

puis retour à l’étape 2.

- Cas G ≥ 2 Division possible : toute division de N0 : d = {(Xj ∈ S1), (Xj ∈S2)} où {S1S2} est une divison admissible de l’ensemble des modalités{m1, ...,mq}. Ce travail est fastidieux, en effet on a 2q−2

2= 2q−1 − 1

3.5 Arrêt de la construction de l’arbre

a- Critère d’arrêt naturel

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 48: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Aarbre binaire de décision : méthode CART (Classification And Regression Trees)36

On arrête la construction de l’arbre lorsqu’on ne peut plus descendre en profondeur,i.e on ne peut plus diviser aucun de ses noeuds terminaux actuels. Or, on ne peut plusdiviser un noeud terminal N0 lorsque l’une des situations suivantes est réalisée :

- N0 est un singleton

- N0 est un noeud pur

- Chaque variable explicative Xj est constante dans N0

b - problème

Si on arrête la construction de T suivant 1-2-3, l’expérience prouve que le pouvoirde prédiction de l’arbre pour les individus futurs n’est pas trés bon.* raison : Erreur apparente ξA(gT ) faible et donc gT trop attaché à A, et donctrés sensible aux fluctuations d’échantillonnage ⇒ vraie erreur de prédiction ξ(gT ) =

Pr(gT (−→x ) 6= Y ) est significative par rapport à d’autres méthodes.

* Origine du problème : Quand on arrête sur 1-2-3, les noeuds terminaux de-viennent trop petits, voire des singletons⇒ à la limite C ≈ A erreur apparente ξA(gT )

petite, mais vraie erreur de prédition ξ(gT ) beaucoup plus grande qu’avec d’autres mé-thodes.

** Une idée (avant 1984) : fixer ξ > 0 et remplace la première condition d’ar-rêt par : ∆i(N0/d

∗N0

) ≤ ξ Ceci ne marche pas beaucoup. Pour résoudre ce problèmeBrieman, Friedman,Olshen et Stone proposent la méthode CART en 1984.

3.6 METHODE CART5(1984) : Elagage de TCART (Classification And Regression Trees)

3.6.1 Généralités :

Soit Tmax l’arbre maximale obtenue à partir de l’échantillon d’appprentissage, ayantpour racine un noeud intermédiare N . Elaguer une branche T α de l’arbre Tmax consisteà ôter de l’arbre Tmax tous les descendants du noeud N , c’est à dire tous les élémentsd’une branche de N constitué soit par NG, soit par ND. On note Tmax − T α l’arbreainsi obtenu. Si l’arbre T est obtenu à partir de l’arbre Amax par élagae successifs,alors l’arbre T est un sous abre de l’arbre Tmax.Le coût de mauvais classement de l’arbre Tmax décroit au fur et à mesure de sa construc-tion, mais comme nous l’avons vu précédement certains division, en particulier celleseffectuées en dernier peuvent être peu pertinentes (Cas où on a un singleton). Pour

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 49: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Aarbre binaire de décision : méthode CART (Classification And Regression Trees)37

obtenir le sous arbre optimale, l’idée est d’utiliser l’échantillon test, en retenant lesous-arbre de l’arbre Tmax qui présente le coût le plus faible, quand il est estimé àl’aide de l’échantillon test. Il n’est pas possible (temps de calcul long) de sélectionner lesous arbre optimale parmi un nombre trop important de sous-arbres de l’arbre Tmax, cardans ce cas la sélection du sous-arbre optimal dépendrait trop de l’échantillon test.Lasolution proposé par Breiman et ses collègues consiste à construire une séquence desous-arbres emboîtés, par élagages succesifs de l’arbre Tmax, telle que le coût estimépar resubstitution de chaque sous-arbre de la séquence soit le plus faible parmi lessous-arbres de l’arbre Tmax ayant le même nombre de noeuds terminaux. En pratiquela méthode par élagage consiste à supprimer les branches de l’arbre Tmax les moinsinformatives. L’arbre sélectionné n’est pas réellement optimale, car la construction del’arbre Tmax s’effectue selon une procédure en pas à pas et l’élagage de l’arbre ne retientque quelques sous-arbres. L’essentiel ici est d’obtenir un arbre fiable plutôt optimale.

3.6.2 Procédure

a- idée 1

Construire l’arbre jusqu’au bout en s’arrêtant suivant les conditions d’arrêt -2-3 oualors remplacer la condition 1 par :

Card(N0) ≤ 5

b- idée 2

Ayant ainsi construit T , extraire de T par élagage un sous arbre T ∗ qui aura uneerreur de prédiction (estimé par échantillon test, validation croisée) beaucoup plus pe-tite que celle de T .

c- Idée souhaitable, mais irréalisable

- Recenser tous les sous-arbres de T

- Estimer l’erreur de prédiction associée à chacun d’eux

- Adopter comme sous-arbres final T ∗ celui de ces sous-arbres ayant présenté laplus petite erreur de prédiction estimée.

La procédure est fastidieuse et coûteuse.

d- Simplification : Suite optimale de sous-arbres emboités de T

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 50: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Aarbre binaire de décision : méthode CART (Classification And Regression Trees)38

Procédure algorithmique d’élagage

- T0 ← T

- Ayant Tq, on obtient Tq+1 comme suit :

- On considère chaque paire de noeuds terminaux frères (i.e. ayant le mêmepère ) N1,N2 de Tq et on calcule l’erreur apparente de l’arbre Tq/{N1,N2} =

Tq/N1,N2

- On supprime la paire de noeuds terminaux frères {N1, q,N2, q} pour laquelleon a obtenu la plus petite erreur apparente en 2-1.

- Tq+1 ← Tq/{N1, q,N2, q}

- On arrête l’élagage lorsqu’on a obtenu Tqmax = {A}, arbre réduit à la racine deT

Au terme de cet algorithme on obtient une suite de sous-arbre de T qui sont em-boîtés :

∗T = T0 ⊃ T1 ⊃ Tqmax = {A} (3.1)

On adopte comme arbre final f ∗ le sous-arbre Tj ayant la plus petite erreur de pré-diction (estimée par validation croisée) dans cette suite, i.e. ξ(T ∗) = min1≤j≤q ξ(Tj).

e- Variante pratique : Notion de coût-complexité

**idée : Avoir un arbre final T ′ tel que :- Son erreur apparente ξA(T ′) soit petite,- mais sans que ces noeuds terminaux ne soient trop petits, i.e. ne soient en nombre

trop élevé.** On introduit une mesure de coût-complexité d’un arbre T : Cα(T ) =

ξA(T ) + αcard(T ) où α est un paramètre réel ≥ 0 à ajuster. On montre que pourtout α ≥ 0 fixer, le nombre réel Cα(T ′) est minimun parmi les sous-arbres de la suite(T0, ..., Tqmax).On approche le sous-arbre optimal T ∗ pour T (α∗), où

∗α∗ = arg minα≥0

ξ(T ′α) (3.2)

∗T ′α = arg minTj∈sj

cα(Tj) (3.3)

3.7 Remarques pratiques

- La même variable Xj peut intervenir à différents niveaux dans les divisions desnoeuds dans l’arbre

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 51: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Aarbre binaire de décision : méthode CART (Classification And Regression Trees)39

- Avantage 1 : Interprétabilité pratique des résultats du rôle des variables explica-tives Xj dans la prédiction de Y.

- Avantage2 : La discrimination par arbre incorpore une sélection automatique desvariables explicatives réellement pertinente pour la prédiction de Y. Ce sont enfait, celles qui sont intervenues au moins une fois dans la division des noeuds del’arbre pendant sa construction.⇒ Intérêt en marketing et en diagnostic médicale.

- Inconvénient : Erreur de prédiction un peu moins bonne que celle de d’autresméthodes.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 52: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

CHAPITRE 4

APPLICATION DE LA MÉTHODE AUX

DONNÉES ET INTERPRÉTATIONS DES

RÉSULTATS

4.1 Généralités

Trois outils logiciels nous ont permit de réaliser cette analyse il s’agit de : EX-CEL, SSPS16 et R. Dans R Deux librairies proposent les techniques CART avec desalgorithmes assez performants. La librairies rpart fournit des graphes plus explicites,des options plus détaillées et une procédure d’élagage plus performante : c’est elle quenous avons utilisé. Nous réaliserons la validation croisée l’arbre finale que nous auronsretenu.

4.2 Estimation du modèle

L’estimation du modèle va consister à construire un arbre très détaillé, puis à pro-céder à l’élagage et enfin à faire une prévision de l’échantillon test.

4.2.1 Construction de l’arbre

La première estimation de l’arbre favorise un arbre détaille c’est-à-dire avec unfaible coefficient de pénalisation de la complexité de l’arbre et donc du nombre defeuilles important. Le critère d’hétérogénéité choisit est l’entropie.

4.2.2 Interprétation des résultats obtenus

Interprétation de l’arbre détailléLorsque nous construisons l’arbre maximal avec une complexité minimale de 0.001 on

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 53: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 41

FIG. 4.1 – l’arbre détaillé non lisible

FIG. 4.2 – l’arbre détaillé plus lisible

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 54: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 42

obtient un arbre à 78 noeuds. Notre variable à expliquer a deux modalités : 0 et 1. Enobservant l’arbre obtenu nous constatons qu’il est possible de caractériser les individusqui se retrouve dans la classe 1 et ceux qui se retrouve dans la classe 0. Les caractéris-tiques des individus de la classe 1 sont :*De ceux qui pensent avoir suivi correctement leur traitement on a :- Ceux qui n’ont pas ressenti un effet secondaire récemment ET qui ont effectué plusde 36 mois de traitement.- Ceux qui n’ont pas ressenti un effet secondaire récemment ET qui ont moins de 36mois de traitement ET son âgé de 39 ans et plus.- Ceux qui ont ressenti des effets secondaires, dont les horaires de prise de médicamentn’ont pas été modifiés, ET qui sont âgé de 34.5 et plus, ET ceux qui ont une durée detraitement comprise dans les intervalles suivants : entre 6 et 18 mois, entre 25 et 30mois et plus de 36 mois.*De ceux qui pensent ne pas avoir suivi correctement leur traitement on a : -Ceux quine manquait pas de médicaments ET qui ont consulté leur médecin 0, 2, 5 et 6 fois aucours des 6 derniers mois.-Ceux qui ne manquaient pas de médicaments, ET qui ont consulté leur médecin 1, 3et4 fois, ET qui ont assisté à 0, 1, 3, 4 et 5 séances d’aide à l’observance.-Ceux qui n’ont plus de médicaments ET n’ont pas de partenaire.Les caractéristiques des individus de la classe 0 sont :*De ceux qui pensent avoir suivi correctement leur traitement on a :-Ceux qui ont ressenti des effets secondaires récemment ET dont les horaires de prisede médicament ont été modifiés.-Ceux qui ont ressenti d’effets secondaires récemment, dont les horaires de prise demédicament n’ont pas été modifiés ET qui ont moins de 34.5 ans- Ceux qui ont ressenti des effets secondaires récemment, dont les horaires de prise demédicaments n’ont pas été modifiés ET qui ont plus de 34.5 ans ET dont la durée detraitement est comprise dans les intervalles suivants : entre 19 et 24 mois et entre 31et 36 mois.-Ceux qui ont ressenti des effets secondaires récemment, dont les horaires de prise demédicaments n’ont pas été modifiés ET qui ont moins de 48 ans, ET dont la durée detraitement est comprise dans les intervalles suivants : entre 6 et 18 mois, entre 25 et 30mois et plus de 36 mois.-Ceux qui n’ont pas ressenti des effets secondaires, dont la durée de traitement estcourte ET qui ont moins de 39 ans.*De ceux qui pensent ne pas avoir suivi correctement leur traitement on a : -Ceux quin’avaient pas de partenaire.-Ceux qui n’avaient plus de médicament, ET qui ont été consulté 0, 2, 5 et 6 fois ETqui ont assisté à 0, 1, 3, 5, 4 séances d’aide à l’observance.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 55: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 43

Lecture du résumé

Le résumé de l’arbre nous donne les valeurs suivantes :

N CP nsplit rel error xerror xstd1 0.238095238 0 1.0000000 1.0000000 0.074535602 0.061904762 1 0.7619048 0.7619048 0.070375203 0.038095238 3 0.6380952 0.7142857 0.069123814 0.028571429 4 0.6000000 0.7333333 0.069642575 0.014285714 6 0.5428571 0.7714286 0.070607536 0.007142857 8 0.5142857 0.8476190 0.072260217 0.001000000 12 0.4857143 0.9428571 0.07383695

TAB. 4.1 – Summary de l’arbre

Notre arbre compte 79 noeuds environ, 12 divisions ont été effectuées, l’erreur réelleest de 0.4857143 et elle la plus petite possible.

Lecture de l’affichage de l’arbre

n= 252node), split, n, loss, yval, (yprob)* denotes terminal node

1) root 252 105 1 (0.41666667 0.58333333)2) tcor=Oui 105 40 0 (0.61904762 0.38095238)4) efrecent=Oui 57 13 0 (0.77192982 0.22807018)8) hmod=Oui 10 0 0 (1.00000000 0.00000000) *9) hmod=Non 47 13 0 (0.72340426 0.27659574)

18) age< 34.5 15 1 0 (0.93333333 0.06666667) *19) age>=34.5 32 12 0 (0.62500000 0.37500000)

38) tpstrait=19_24_mois, 31_36_mois 8 1 0 (0.87500000 0.12500000) *39) tpstrait=13_18_mois,6_12_mois,Plusde36mois 24 11 0(0.54166667 0.45833333)

78) age< 48.5 17 6 0 (0.64705882 0.35294118) *79) age>=48.5 7 2 1 (0.28571429 0.71428571) *

5) efrecent=Non 48 21 1 (0.43750000 0.56250000)10) tpstrait=13_18_mois,19_24_mois,25_30_mois,31_36_mois 25 9 0(0.64000000 0.36000000)

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 56: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 44

20) age< 39 17 3 0 (0.82352941 0.17647059) *21) age>=39 8 2 1 (0.25000000 0.75000000) *

11) tpstrait=6_12_mois,Plusde36mois 23 5 1 (0.21739130 0.78260870) *3) tcor=Non 147 40 1 (0.27210884 0.72789116)

6) plumed=Oui 23 11 0 (0.52173913 0.47826087)12) part=Oui 8 1 0 (0.87500000 0.12500000) *13) part=Non 15 5 1 (0.33333333 0.66666667) *

7) plumed=Non 124 28 1 (0.22580645 0.77419355)14) nconsul=1/6,3/6,4/6 37 14 1 (0.37837838 0.62162162)

28) nseance=2/6,5/6 11 4 0 (0.63636364 0.36363636) *29) nseance=0/6,1/6,3/6,4/6,6/6 26 7 1 (0.26923077 0.73076923) *

15) nconsul=2/6,5/6,6/6 87 14 1 (0.16091954 0.83908046) *

InterprétationUne présentation détaillée de l’arbre nous montre pour chaque noeud de l’arbre, lavariable qui a divisé l’arbre avec les modalités déterminantes, Comment le nombred’individu du noeud a été répartis dans les deux noeuds fils, la valeur de Y=correct1prédite au niveau de ce noeud, la probabilité de chaque classe dans l’arbre.Nous remarquons que notre arbre compte treize noeuds terminaux dont un noeud pur,le noeud numéro 8, en effet tous les individus de ce noeud appartiennent à la classe0. Donc les patients qui pensent avoir bien suivi leur traitement, qui ont ressenti deseffets secondaires récemment et dont les horaires ont été modifié appartiennent à laclasse 0.Le noeud 18 est un noeud on pourrait dire presque pur car la probabilité de la classe0 est de 0.93. Donc on peut dire que les patients qui pensent avoir bien suivi leurtraitement, qui ont ressenti des effets secondaires récemment et dont les horaires n’ontpas été modifié âgé de moins de 34.5 ans appartiennent à la classe 0.

4.2.3 Exemple plus explicatif

Nous allons reconstruire l’arbre avec un Cp plus grand soit CP=0.1, pour permettreexpliquer aisément le résumé de l’arbre.Le graphe de l’arbre obtenu est :

0n obtient le résumé de l’arbre suivant :

Call:rpart(formula = correct1 ~ ., data = datapq, parms = list(split = "information"),

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 57: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 45

FIG. 4.3 – Arbre moins détaillé

cp = 0.1)n= 252

CP nsplit rel error xerror xstd1 0.2380952 0 1.0000000 1.0000000 0.07453562 0.1000000 1 0.7619048 0.7619048 0.0703752

Node number 1: 252 observations, complexity param=0.2380952predicted class=1 expected loss=0.4166667

class counts: 105 147probabilities: 0.417 0.583

left son=2 (105 obs) right son=3 (147 obs)Primary splits:

tcor splits as RL, improve=15.335490, (0 missing)plumed splits as RL, improve=10.200860, (0 missing)oubli splits as RL, improve= 5.315215, (0 missing)difamed splits as RL, improve= 4.981851, (0 missing)age < 49.5 to the left, improve= 3.496897, (0 missing)

Surrogate splits:oubli splits as RL, agree=0.663, adj=0.190, (0 split)difamed splits as RL, agree=0.635, adj=0.124, (0 split)plumed splits as RL, agree=0.607, adj=0.057, (0 split)sitm splits as RLRRR, agree=0.603, adj=0.048, (0 split)mmed splits as RL, agree=0.599, adj=0.038, (0 split)

Node number 2: 105 observations

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 58: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 46

predicted class=0 expected loss=0.3809524class counts: 65 40

probabilities: 0.619 0.381

Node number 3: 147 observationspredicted class=1 expected loss=0.2721088

class counts: 40 107probabilities: 0.272 0.728

L’affichage de l’arbre donne :

n= 252node), split, n, loss, yval, (yprob)

* denotes terminal node1) root 252 105 1 (0.4166667 0.5833333)

2) tcor=Oui 105 40 0 (0.6190476 0.3809524) *3) tcor=Non 147 40 1 (0.2721088 0.7278912) *

Le résumé affiche d’abord la formule à partir de laquelle l’arbre a été construit puisla liste des cp utilisés avec le nombre de divisions effectuer pour chaque valeur de Cp.Et trois autres informations : l’erreur réelle,l’érreur absolue, la déviation.

Pour chaque noeud de l’arbre, il renseigne sur :

- Le nombre d’individu composant le noeud- La valeur du cp utilisée pour la division- La classe prédite par ce noeud- La probabilité de la classe qui n’a pas été prédite- Le nombre d’individu de chaque classe- La probabilité arrondie à l’ordre 3 des deux classes dans le noeud- Pour chaque fils le pourcentage d’individu qu’il prend de son père- La liste des variables par ordre de priorité qui ont permis de diviser le noeud.

Avec pour chaque variable la direction (L=Left, R=Right ou alors sens du filsgauche et sens du fils droit) dans laquelle la division s’est faite dans l’arbre. Onremarque que ces variables sont divisées en deux groupes les variables primaireset les variables secondaires. C’est la définition des priorités.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 59: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 47

4.2.4 Elagage

Il est probable que l’arbre présente trop de feuilles pour une bonne prévision. Il estdonc nécessaire d’en réduire le nombre par élagage. C’est un travail délicat d’autantque la documentation n’est pas très explicite et surtout les arbres des objets très in-stables.

Elagage par échantillon de validationLa première étape consiste à l’extraction de l’échantillon de validation comme celaest fait pour l’échantillon test.Les tailles des échantillons ainsi obtenus sont relative-ment réduites d’où un manque de robustesse très probable de cette approche. Taillede l’échantillon d’apprentissage restant 201, taille de l’échantillon de validation 51.Ladeuxième étape estime le modèle sur l’échantillon d’apprentissage puis l’erreur de pré-vision sur l’échantillon de validation pour différentes valeurs du coefficient de péna-lisation. Pour la suite nous définissons cpmin comme le cp pour lequel la valeur del’erreur est minimale. Nous obtenons les résultats suivants pour différentes valeurs dugénérateur de nombre aléatoires ; Quand le générateur prend la valeur 4 on a :

cpmin=0.0823, 0.117649

Reprenons la même opération pour différentes valeurs du générateur de nombrealéatoire. La taille de l’échantillon d’apprentissage et de l’échantillon de validation nechange pas.Quand le générateur prend la valeur 40 on a :

cpmin=1, 0.7, 0.49, 0.343

Quand le générateur prend la valeur 100 on a :

cpmin=0.05764801

On remarque que plus le générateur de nombre aléatoire prend une valeur grandeplus on obtient des valeurs de l’erreur petites. Et généralement la valeur de cp pourlaquelle on obtient une erreur de prédiction acceptable dans l’ensemble est cp=0 .0823.La plus petite valeur cp pour laquelle on a la plus petite erreur est 0.05764801. Pourcette valeur de CP l’arbre obtenue après élagage est :

L’élagage de l’arbre montre que les variables déterminantes pour la division del’arbre sont : avis du patient sur son traitement tcor, effets secondaires ressentis récem-ment efrecent, le durée du traitement tpstrait.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 60: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 48

cp err1 0.372549

0.7 0.3725490.49 0.372549

0.343 0.3725490.2401 0.372549

0.16807 0.3725490.117649 0.2352941

0.0823543 0.23529410.05764801 0.27450980.04035361 0.27450980.02824752 0.27450980.01977327 0.27450980.01384129 0.3529412

0.009688901 0.35294120.006782231 0.35294120.004747562 0.41176470.003323293 0.41176470.002326305 0.41176470.001628414 0.41176470.001139890 0.4117647

TAB. 4.2 – Erreur de prévision sur l’échantillon de validation pour l’initialisation dugénérateur à 4

Elagage par validation croisée intégrée

La validation croisée tente d’améliorer la démarche précédente en moyennant l’es-timation de l’erreur sur plusieurs échantillons. La première étape consiste à tracer ladécroissance de l’estimation par validation croisée de l’erreur relative en fonction ducoefficient de complexité, c’est à dire plus ou moins enfonction de la taille de l’arbre ounombre de feuilles. Attention, cette relation entre complexité et nombre de feuilles n’estpas directe car l’erreur calculée sur des arbres estimés à partir d’échantillons aléatoires(k-1 morceaux) différents et sont donc différents les uns des autres avec pas nécessaire-ment le même nombre de feuilles, ils partagent juste le même paramètre de complexitéau sein de la même famille de modèles emboîtés.

Le graphe cp ci-dessous nous montre que la valeur minimale de cp est 0.049, soit la

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 61: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 49

cp err0.7 0.31372550.49 0.3137255

0.343 0.31372550.2401 0.372549

0.16807 0.3725490.117649 0.372549

0.0823543 0.3725490.05764801 0.3725490.04035361 0.3725490.02824752 0.39215690.01977327 0.39215690.01384129 0.3921569

0.009688901 0.45098040.006782231 0.45098040.004747562 0.45098040.003323293 0.45098040.002326305 0.45098040.001628414 0.45098040.001139890 0.4509804

TAB. 4.3 – Erreur de prévision sur l’échantillon de validation pour l’initialisation dugénérateur à 40

valeur la plus à gauche en dessous du trait en pointillé.En procédant à l’élage avec cette valeur de CP on arrive au même résultat que celuiobtenu en utilisant l’élagage par échantillon de validation.

Elagage par validation croisée externeElle consiste à calculé les prédictions obtenues par 5-fold validation croisée pour chaquearbre élagué suivant les valeurs du coefficients de complexité donné.Les résultats obte-nues sont dans le tableau 4.5 :

En testant pour différentes valeurs de cp l’erreur absolue, on obtient la plus petiteerreur absolue pour cp = 0.036. Après élagage on obtient l’arbre suivant :

L’élagage de l’arbre montre que les variables déterminantes pour la division del’arbre sont : avis du patient sur son traitement tcor, effets secondaires ressentis récem-ment efrecent, la durée du traitement tpstrait, l’âge age.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 62: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 50

cp err1 0.3921569

0.7 0.39215690.49 0.3921569

0.343 0.39215690.2401 0.3921569

0.16807 0.39215690.117649 0.2352941

0.0823543 0.23529410.05764801 0.21568630.04035361 0.29411760.02824752 0.29411760.01977327 0.29411760.01384129 0.2941176

0.009688901 0.29411760.006782231 0.29411760.004747562 0.29411760.003323293 0.35294120.002326305 0.35294120.001628414 0.35294120.001139890 0.3529412

TAB. 4.4 – Erreur de prévision sur l’échantillon de validation pour l’initialisation dugénérateur à 100

4.3 Prévision de l’échantillon test

Il est question ici de réaliser la prévision sur l’échantillon test, puis de croiser lavariable prédite avec la variable obervée afin de construire la matrice de confusion etdonc d’estimer le modèle et donc d’estimer un taux.La matrice de confusion obtenue à partir de l’arbre élagé par échantillon de validationest :

La matrice de confiusion obtenue à partir de l’arbre élagé par validation croiséeexterne est :

Le pourcentage des individus mal classés est de (7+17)(17+7+8+31)

= 38.09% dans le pre-

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 63: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 51

FIG. 4.4 – Arbre obtenu après élagage par échantillon de validation

FIG. 4.5 – Graphe de la décroissance de l’estimation de l’erreur par validation croi-sée en fonction du coeeficient de cpmlexité

miers cas.Le pourcentage des individus mal classés est de (6+19)

(6+6+19+32)= 39.68% dans le deuxième

cas.

Le résumé des résidus obtenus de l’arbre obtenu après l’élagage1.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 64: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 52

0.100000000 0.31746030.092928571 0.32539680.085857143 0.32539680.078785714 0.32936510.071714286 0.32936510.064642857 0.32936510.057571429 0.32936510.050500000 0.31349210.043428571 0.30555560.036357143 0.30555560.029285714 0.30952380.022214286 0.33333330.015142857 0.34126980.008071429 0.36507940.001000000 0.3849206

TAB. 4.5 – Tableau de cp et de l’erreur obtenue par validation croisée

FIG. 4.6 – Arbre obtenue après élagage par validation croisée externe

Min. : 0.00001st Qu. : 0.0000Median : 0.0000Mean : 0.26593rd Qu. : 1.0000Max. : 1.0000

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 65: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 53

* 0 10 8 71 17 31

TAB. 4.6 – Matrice de confusion de l’arbre obtenu après le premier et le deuxièmeélagage

* 0 10 6 61 19 32

TAB. 4.7 – Matrice de confusion de l’arbre obtenu après le troisième élagage

Le résumé des résidus obtenus de l’arbre obtenu après l’élagage3.Min. : 0.001st Qu. : 0.00Median : 0.00Mean : 0.253rd Qu. : 0.25Max. : 1.00

Quand on regarde l’étude des résidus on a l’impression que le troi-

sième modèle est meilleur car le troisième quartile est proche de la moyenne, et donc lamoyenne des résidus de ce modèle peut être significative pour représenter les résidus.Nous avons les figures qui suivent qui représentent le R2 apparent et relatif sur ungraphe en fonction du nombre de plits et sur un autre grapique l’erreur relative enfonction du nombre de splits. Pour les deux modèles on a :

Nous remarquons que le R2 apparent et le R2 relatif dans les deux modèles sont trèséloignés de 1 et ne diffère pas de beaucoup, dont nous pensons que ces deux modèlesne s’ajuste pas bien aux données. L’erreur relative est plus petite dans le deuxièmemodèle que dans le premier modèle.

4.4 Conclusion de l’analyse

Nous pouvons dire que nous sommes satisfait du modèle que nous avons réaliséavec un pourcentage de plus de 60% de prédiction sur l’échantillon test. De plus lesvariables déterminantes de manière générale pour expliquer le bon suivi du traitementARV sont :

- Avis du patient de son traitement- Les effets secondaires ressentis récemment- La modification des horaires de prise de médicaments

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 66: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 54

FIG. 4.7 – Représentation du R2

- L’age- La durée de traitement- Le fait d’avoir un partenaire- Manque de médicaments- Les conseils d’aide à l’observance

De manière spécifique :- Avis du patient de son traitement- effets secondaires ressentis recémment- La durée de traitementLe CNLS aurait donc intérêt à Encourager le dépistage précoce du SIDA pour que

les personnes atteintes du VIH plus vigilante aux traitement. Nous constatons aussique les conseils d’aide à l’observance ont un effet sur l’observance dont le CNLS auraitintérêt à améliorer ces séances pour de meilleur résultat. Le CNLS devrait revoir etpeut-être améliorer les procédures de ravitaillements en médicaments.Nous pensons que pour avoir de meilleur résultat il serait souhaitable de mener uneenquête avec une taille de l’échantillon plus grandes et l’intégration de d’autres facteursqui n’ont pas été pris en compte dans cette enquête.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 67: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Application de la méthode aux données et interprétations des résultats 55

Quelques hypothèses émises

- On pourrait penser que l’ancienneté de la durée de traitement a permis et l’ab-sence d’effet secondaire amène le patient à bien suivre son traitement.

- On pourrait aussi dire qu’une longue durée de traitement et la maturité en âge(35 et plus) rendent les patients plus observant au traitement.

- Le fait de ressenti des effets secondaires et la maturité en âge (35 et plus) rendentles patients plus observant au traitement.

- On pourrait penser que le fait de recevoir des conseils d’aide à l’observance ef-frayerait les patients leur faisant penser qu’ils ne suivent pas bien leur traitementalors que c’est le cas.

- le manque de médicament et l’absence d’un partenaire peut-être d’un soutienpourraient amener certaines personnes à penser qu’elles ne suivraient pas bienleur traitement.

- Le fait de ressentir des effets secondaires, associer peut-être à la jeunesse amène-rait certaines personnes à penser qu’elles suivent bien leur traitement alors quece n’est pas le cas.

- La jeunesse, la courte durée du traitement et l’absence d’effets secondaires feraitpenser au patient qu’il suit bien sont traitement alors que ce n’est pas le cas.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 68: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

CHAPITRE 5

CONCLUSION

Le travail qui nous a été demandé était d’indentifier dans une liste de facteurs ceuxqui pouvait expliquer le bon suivi du traitement antirétroviral. Il apparaît que la mé-thode de fouille des données qui fournirait de bons résultats est l’analyse discriminantepar arbre binaire de décision. Nous avons réaliser l’analyse descriptive des données àl’aide des graphiques et du test de Khi-deux. Le test du Khi-deux montre que certainesvariables ont une corrélation forte avec la variable à expliquer. En effet, au seuil de5% la variable plumed avec une p-value 4.7e− 6 et tcor avec une p-value 6.5e− 9 sonttrès significatives, la variable efrecent avec une p-value de 0.06 est signficative, et enfinhmod et part sont peu significative avec des p-value autour de 0.1. Ensuite nous avonsprocéder à la construction de l’arbre binaire de décision détaillé. Après nous avonsélagagé de l’arbre détaillé à l’aide de trois méthodes :

– Elagage par échantillon de validation– Elagage par validation croisée intégrée– Elagage par validation croisée externe

Les deux premières méthodes ont donné le même arbre final, et la troisième méthodea donné une arbre différent plus profond. Après la validation croisée effectuée surl’échantillon test, nous avons retenu le premier arbre qui avait un taux de mal classésde 38.09% contre 39.68%. Nous avons ainsi pu relevé trois facteurs remarquables pourle bon suivi du traitement, il s’agit de :

– l’avis que le patient a de son traitement– les effects secondaires– la durée du traitement.

Nous avons atteint nos objectifs spécifiques en partie, car nous avons pu montrer quel’histoire de la maladie et l’aide à l’observance influençait le bon suivi du traitementARV. Mais nous ne savons pas jusqu’à quel point ces deux éléments peuvent influencésle bon suivi du traitement ARV. Le temps imparti à notre travail ne nous a pas permitd’explorer d’autres méthodes de fouille des données tel que la méthode K-NN.

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 69: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

CHAPITRE 6

ANNEXES

donnee=read.table("donnee2.txt",header=TRUE) #importation du fichier de données#supppresion de quelques variables qui ne sont pas utiles ou qui n’entre pas dans notre modèle

donnee=donnee[,-14]donnee=donnee[,-14]donnee=donnee[,-35]donnee=donnee[,-35]donnee=donnee[,-35]donnee=donnee[,-35]donnee=donnee[,-34]donnee=donnee[,-25]donnee=donnee[,-1]donnee=donnee[,-28]

#gestion des valeurs manquantes à l’aide de la fonction m que nous avons écrit. Qui est plus bas.don=m(donnee)

#Résumé des données qui vont entrer dans la réalisation du modèle.summary(don)

#Calcul de l’écart type et la variance des variables quantitativessd(don$age)var(don$age)

#Converti de la variable correct1 en facteur pour qu’elle ne soit plus considérée comme numériquedon$correct1=as.factor(don$correct1)

# Extraction de l’échantillon test, pour réaliser la validation croisée avec l’arbre finale que nous aurons retenu, comme modèle explicatif de la variable à expliquer.set.seed(111)# Initialisation du générateur de nombre aléatoiretest.ratio=.2 # part de l’échantillon testnpop=nrow(don) # nombre de lignes des données ou nombres d’individusnvar=ncol(don) #Nombre de variables ou nombre de colonnesntest=ceiling(npop*test.ratio) #taille de l’échantillon testtesti=sample(1:npop,ntest) #indices de l’échantillon testappri=setdiff(1:npop,testi) #indices complémentaires de l’échantillon d’apprentissage

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 70: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Annexes 58

datapq=don[appri,] # construction de l’échantillon d’apprentissagedatestq=don[testi,] #construction de l’échantillon testsummary(datapq) #vérificationssummary(datestq)

Deux librairies, tree et rpart proposent les techniques CART avec des algorithmes analogues à ceux développés dans Splus mais avec moins de fonctionnalités ; la librairie rpart fournissant des graphes plus explicites, des options plus détaillés et des procédures d’élagage plus performantes est préférée.Library(rpart) #Chargement de la librairiefitq.tree=rpart(correct1~.,data=datapq,parms=list(split=’information’),cp=0.001)

#construction de l’arbre.summary(fitq.tree) #description de l’arbreplot(fitq.tree) # trace de l’arbretext(fitq.tree,FUN=text,pretty=1,cex.lab=0.001)#Ajout des légendes des noeudsprint(fitq.tree)post(fitq.tree) # gestion des titres et autres aspects du graphique

#Construction d’un arbre avec un grand coefficient de pénalisation de la complexité donc un faible nombre de feuillesfitq2.tree= rpart(correct1~.,data=datapq, parms=list(split=’information’),cp=0.1)summary(fitq2.tree)plot(fitq2.tree)text(fitq2.tree)print(fitq2.tree)

#Elagage par échantillon de validationset.seed(4) # autre initialisation du générateur#extraction des échantillons (*)valid.ratio=.2 # part de l’échantillon de validationnpop=nrow(datapq) #nombre de lignes dans les données restantesnvalid=ceiling(npop*valid.ratio) # taille de l’échantillon de validationvalidi=sample(1:npop,nvalid) # indices de l’échantillon de validationappri=setdiff(1:npop,validi) # indices complémentaires de l’échantillon de validationdatap2q=don[appri,] # Construction de l’échantillon d’apprentissage restantdavalq=don[validi,] #Construction de l’échantillon de validationsummary(datap2q) #vérificationssummary(davalq)cpi=1 # initialisation du coefficient de pénalisation de la complexitéfor(i in 1:20){tree_i=rpart(correct1~., data=datap2q, parms=list(split=’information’),cp=cpi) # estimation du modèle

pred_i=predict(tree_i, newdata=davalq, type="class") #prediction à partir du modèletab_i=table(pred_i,davalq$correct1) #calcul de l’érreur de prédictioncat("cp=",cpi,"err=",(tab_i[1,2]+tab_i[2,1])/nvalid,"\n") #affichagecpi=cpi*0.7 # incrementation de cp

}

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 71: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Annexes 59

#On refait l’élagage pour différentes valeurs du générateur 40, 100set.seed(40)#recommencer à (*)set.seed(100) #recommencer à (*)

#Construction de l’arbre obtenue après élagagefitq5.tree=prune(fitq.tree,cp=0.0.05764801)plot(fitq5.tree)text(fitq5.tree,pretty=1,use.n=TRUE)

#Elagage par validation croisée "intégrée"Après ré estimation de l’arbre sur l’échantillon d’apprentissage initial#les estimations des erreurs sont contenues dans la table de cpprintcp(fitq.tree)

#les estimations des erreurs sont tracées dans le grapheplotcp(fitq.tree)

#élagage avec le cp sélectionné.fitq3.tree=prune(fitq.tree,cp=0.049)plot(fitq3.tree)text(fitq3.tree,use.n=TRUE,pretty=1)

#Elagage par validation croisée externexmat=xpred.rpart(fitq.tree,xval=10,cp=seq(0.1,0.001,length=10))(**)

#Comparaison de la valeur prédite avec la valeur observéexerr=as.integer(datapq$correct1)!= xmat

#Calcul et affichage des estimations des taux d’erreurapply(xerr,2,sum)/nrow(xerr)

#Elagage puis affichage de l’arbrefitq4.tree=prune(fitq.tree,cp=0.036) # on fait varier la séquence de paramètres de (**) et on choisit le cp qui a la plus petite erreurpost(fitq4.tree)plot(fitq4.tree)text(fitq4.tree,use.n=TRUE,pretty=1)

#prévision sur l’échantillon testpredq.tree=predict(fitq3.tree,datestq,type="class")table(predq.tree,datestq$correct1)predq1.tree=predict(fitq4.tree,datestq,type="class")table(predq1.tree,datestq$correct1)

#étude des résidussummary(residuals(fitq3.tree))summary(residuals(fitq4.tree))par(mfrow=c(2,2))rsq.rpart(fitq5.tree)rsq.rpart(fitq4.tree)

#Fonctions pour la gestion des données manquantes

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 72: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Annexes 60

f=function(d){d[is.na(d)]<- round(mean(d,na.rm=TRUE),1);d

}g=function(v){v[is.na(v)]<- names(which.max(table(v)));v

}m=function(j){for (i in 2:31) {

if(is.factor(j[,i])){e=j[,i];

e <- g(e);j[,i]<- e ;

}else

{e=j[,i]e <- f(e);j[,i]<- e ;

}}j

}

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010

Page 73: IDENTIFICATION DES FACTEURS D’ UN BON SUIVI …mastat.visualstat.com/dissertation/2010/lemou.pdf · INTRODUCTION GENERALE 2 Résumé éxécutif 6 1 Présentation de la structure

Bibliographie

[1] Ndong Nguema Eugène, cours de data mining de l’année académique 2009-2010

[2] www.Sidanet - Evaluation de l’observance du traitement antirétroviral chez lesenfants de 0 à 15 ans infectés par le VIH.mht, Le 25/06/2010

[3] www.Merck Frosst Canada - Infection par le VIH et le SIDA.mht, Le 26/06/2010

[4] ONUSIDA RAPPORT UNGASS 2008

[5] Philippe Besse, CIMPA 2007- Apprentissage statistique

[6] Ricco Rakotomalala, Les méthodes d’induction d’arbre, fichier PDF

[7] GTC/CNLS Protocole d’enquête (2009)

[8] G. Saporta, Probabilités, Analyse de données et Statistique, Dunod, 2006

[9] éronique stéphan et Frédéric Corgodan, Applications des arbres de regression mul-tivariés pour la classification de courbes

[10] hilippe Besse, Appprentissage statistique et data minig, juillet 2009

[11] engne William,Estimation et prévision relatives à la prévention de la transmissiondu VIH de la mère à l’enfant, octobre 2007

[12] lain Bacinni et Philippe Besse, Data minig I Exploration Statistique, septembre2005

Mémoire de Master de Statistique Appliquée LEMOU TIEYAM Sonia Danielle c©ENSP 2010