contributions à la classification supervisée multi-classes ... · the exact (minimal) numerical...
TRANSCRIPT
LOUBNA BENABBOU
Cont~ibutions à la classification supervisée multi-classes et rnulticritère en aide à la décision
Thèse présentée à la Faculté des études supérieures de l'Université Laval
dans le cadre du programme de doctorat en sciences de l'administrat ion pour l'obtention du grade de Philosophiœ Doctor (Ph.D.)
FACULTÉ DES SCIENCES DE L'ADMINISTRATION UNIVERSITÉ LAVAL
QUÉBEC
2009
©Loubna Benabbou, 2009
ii
Résumé
La revue des méthodes de classification révèle des forces et des faiblesses dans chacun
des paradigmes de la classification. Notre ambition est d 'étendre le champ d 'application de certaines méthodes, en essayant de concilier ies avantages de l'apprentissage statis
tique et ceux de l'Aide Multicritère à la Décision. Cette thèse vise le développement de
modèles de classification supervisée dans un cadre multi-classes et multicritère. Elle ap
porte particulièrement des éléments de réponse aux questions de recherche suivantes:
Sous quelles conditions la classification multi-classes se réduit-elle à la classification
binaire? Quel est le lien entre cette réduction et la pénalisation des erreurs? Est-il pos
sible de déterminer des bornes multi-classes simultanées? De telles bornes peuvent-elles
être à la fois calculables et serrées? Peut-on concevoir un modèle de classification qui
satisfait d'une part les différentes exigences de l'aide multicritère à la décision et qui
offre d'autre part une gamme «suffisante» d'arbitrages entre précision et complexité?
Cette thèse offre une revue du champ de la classification. Pour bien saisir ce champ,
il s'avère nécessaire de s'arrêter sur les différentes approches de classification et de
caractériser les méthodes de classification connues. C'est ainsi que cette thèse adopte
une vision multidisciplinaire pour adresser le.s questions de recherche posées.
Des bornes multi-classes simultanées pour mesurer la performance des classificateurs
multi-classes sont développées. En énonçant et démontrant le principe de réduction,
nous montrons le lien entre l'asymétrie de la structure de pénalisation des erreurs et
la nature multi-classes du problème de classification. Nous généralisons par la suite les
bornes de la classification binaire dans le cas multi-classes. Ainsi, nous développons des
bornes optimales pour évaluer, voire estimer des classificateurs multi-classes.
Un modèle à base de pavés pour l'estimation d 'un classificateur multi-classes et
multicritère est proposé. Ce modèle établit la preuve qu'il est possible de concilier les
concepts et les avantages de l'apprentissage statistique et de l'aide multicritère à la déci
sion. La faisabilité du modèle est vérifiée sur un exemple de taille réduite. Nous illustrons
aussi un arbitrage fondamental entre précision et complexité des classificateurs.
iii
Abstract
Classification has been studied in different disciplines and is receiving an increasing
interest. The study and the analysis of different classification paradigms reveal specific strengths and weaknesses. The aim of this thesis is to develop models of supervised
classification in a multi-class and multicriteria context. We extend the scope of sorne
methods while trying to reconcile the advantages of Statistical Learning and Multicriteria Decision Aid (MCDA). This thesis tries to address the following questions: Under
what conditions is multi-class classification reducible to binary classification? What is
the relation between such reduction and the structure of error penalty? Is it possible to
determine simultaneous multi-class bounds? How can one reconcile the computability
and complexity of these bounds? Is it possible to develop a classification model that can
satisfy the requirements of MCDA and adequately trades off precision and complexity?
We propose an extension to multi-class contexts of known binary classification
bounds on the risk. A fundamental reduction principle allows us to characterize true multi-class problems. Thus, we show the relation between the asymmetry of the struc
ture of penalties and the multi-class nature of classification problem. We investigate
several possible definitions of test-set risk bounds. A mathematical program that finds
the exact (minimal) numerical valu~ of the bound is proposed. A computationally efficient probabilistic approximation is also proposed. A general solution algorithm is
offered. Experimental results are discussed.
A hyperrectangle learning model for multicriteria and multi-class classification pro
blem is proposed. This model shows that it is possible to reconcile the concepts and .
advantages of statistical learning with a MCDA-inspired approach. The feasibility of
the model is tested on a small example, which also illustrates a fundamental trade-off
between data fitting and complexity of classifiers.
iv
A la mémoire de mon père Mohammed B enabbou
v
Remerciements
Je tiens à remercier mon directeur de recherche, M. Pascal Lang de m 'avoir donné
l'opportunité d 'effectuer ma thèse sous sa direction. Je le remercie pour son implication incondit ionnelle, sa grande disponibilité, son encadrement et la confiance qu'il m'a
accordée tout au long de ce travail.
J 'aimerai également exprimer ma profonde reconnaissance à mon co-directeur de
recherche M. Adel Guitouni pour m 'avoir accueilli , guidé et soutenu pendant toutes ces années. Je le remercie pour sa confiance et sa générosité. Il m 'a inspiré par son
enthousiasme, son esprit critique et sa passion pour le travail.
Je souhaite remercier également M. Jean-Marc Martel d'avoir accepté de faire partie de mon jury de thèse. Ses conseils précieux et son soutien moral m'ont beaucoup aidé. Je remercie M. Mario Marchand et M. François Laviolette pour leur implication et leur intérêt pour la thèse. Mes remerciements les plus sincères s'adressent aussi à M. Pierre Hansen d'avoir accepté d 'agir comme examinateur externe.
Je remercie le personnel du programme de doctorat de la faculté des sciences de
l'administration. Je tiens à souligner l'implication et le soutien de Mme Marie-Claude
Beaulieu. Merci aussi au personnel du département Opérations et Systèmes de Décision, particulièrement à Mme Brigitte Riverin pour sa gentillesse et sa disponibilité. Je tiens à souligner les amitiés fraternelles tissées à la faculté: Anissa, Lamia et Leila. Merci pour leur soutien, leur implication et leur écoute.
Je dédie cette thèse à la mémoire de mon père Mohammed Benabbou, aucun mot
ne pourra exprimer ma reconnaissance et ma gratitude envers lui. A ma mère Khadija
Ouhsine, pour son amour inconditionnel, pour ses sacrifices, pour son soutien indéfec
tible jusqu'à la dernière étape de cette thèse. A mon époux Zouheir Malki pour sa grande patience, sa complicité, sa compréhension et son soutien moral. A mes deux sources de bonheur mes filles Maryam et Marwa pour la joie qu'elles m'apportent au
quotidien.
Remerciements vi
J'adresse mes remerciements les plus sincères à mes sœurs Asmâa et· Rajâa et mon
frère Issam pour leur soutien précieux, leur amour et leur implication. Merci à tous les
membres de ma famille et ma belle famille. Je tiens à souligner particulièrement laide
de ma belle mère Khadija Daoudi et mon beau père Mustapha Malki qui m a permis
de terminer cette thèse.
Finalement je tiens à souligner le support financier des organismes: le laboratoire de
Recherche et Développement pour la Défense Canada à Valcartier (RDDC-Valcartier)
le Fond Québécois de la Recherche. sur la Société et la Culture (FQRSC) , Mathéma
tiques des technologies de l'information et des systèmes complexes (MITACS) et le Fond
Qué bécois de la Recherche sur la Nature et les Technologies (FQRNT).
Table des matières
Résumé
Abstract
Remerciements
Table des matières
Liste des tableaux
Table des figures
1 Introduction générale 1.1 Définitions préliminaires . . . . . . . . . . .
1.1.1 L'inférence en classification ..... 1.1.2 Buts et modalités de la classification
1.1.3 Structure de l'espace des classes ... 1.2 La classification: un domaine multidisciplinaire
1.2.1 Classification et statistique ....... .
1.2.2 Classification et programmation mathématique. 1.2.3 Classification et apprentissage automatique ...
1.2.4 . Classification et aide multicritère à la décision 1.3 Organisation de la thèse . . . . . . . . . . . . . . . . .
2 Problématique de recherche
2.1 Introduction........ 2.2 Démarches de classification selon différents paradigmes
2.2.1 Classification automatique . .
2.2.2 Apprentissage automatique
2.2.3 Aide mul ticri tère à la décision
2.3 Caractérisation des méthodes de classification
2.4 Problématique de recherche
2.4.1 Objet de cette thèse .....
vii
ii
lil
v
vii
x
xi
1
1 2
3 3 4
4
5 5 6 7
9
9
10 10 12
18 22 27
27
Table des matières
2.4.2 Questions de recherche
2. 5 Conclusion...........
viii
29
31
3 Bornes sur le risque de généralisation en classification multi-classes 33 3.1 Introduction........................ 33
3.2 Classification multi-classes et fonctions de perte valuées 3.3 Principe de réduction des cas d 'erreurs de classification
3.4 Borne sur l'ensemble de test .............. .
3.5
3.4.1
3.4.2 3.4.3
Borne minimale de queue de multinomiale . . .
V ne borne minimale sous une approximation normale Optimisation de la borne ; . . . . . . . .
3.4.4 Expérimentation exploratoire des bornes Borne PAC-Bayes ......... . . .
3.5.1 Principes ........... .
3.5.2 Borne PAC-Bayes multi-classes 3.5.3 Estimation de la borne PAC-Bayes
3.6 Sélection ou construction de classificateurs
3.6.1 3.6.2
Compression des données . Autres approches
3.7 Concl usion. . . . . . . . . . . . .
34
36
37
39
40
41 44 46
46 49
51
53 53 56 56
4 Modèle de pavés pour une classification multi-classes et multicritère 58
4.1 Introduction............ 58 4.2 Contexte de classification .....
4.3 Modèle de classification par pavés 4.3.1 Vne illustration . . . . . . 4.3.2 Modélisation des classes .
4.4
4.5
4.3.3 Estimation d'un classificateur dans le cadre de la compression de données .............................. .
4.3.4 Représentation des pavés et forme du message complémentaire. 4.3.5 Dimension de l'espace des messages . . . . . . . . . . . . . . . . 4.3.6 L'estimation d'un classificateur par l'intermédiaire d'un programme
mathématique . . . . . . . . . . . . . . . .
Tests préliminaires du programme mathématique
Concl usion. . . .
5 Conclusion générale
Bibliographie
A Une revue des · méthodes de classification
A.1 Les méthodes de classification automatique .
59
61 62 64
66 67 69
71
80
81
85
88
92
92
Table des matières
A.1.1 Les méthodes hiérarchiques ............ .
A.1.2 Le partitionnement ................. . A.2 Les méthodes de classification avec apprentissage supervisé
A.2.1 Les techniques statistiques . . . . . . . . . A.2.2 Les méthodes d 'apprentissage automatique A.2.3 Affectation déductive .......... .
A.3 Les méthodes de tri multicritère . . . . . . . . .
A.3.1 Approche du critère unique de synthèse. A.3.2 Approche de surclassement de synthèse A.3.3 Ensembles approximatifs (Rough sets) .
B Complément de preuves mathématiques du chapitre 3 B.1 Principe de réduction des cas d'erreurs de classification B.2 Borne sur 1 ensemble de test . . . . .
B.3 Borne PAC-Bayes ..... B. 4 Compression des données . .
IX
93 96 98 99
102
109 110
111 112 119
121 121 121 124
126
Liste des tableaux
2.1 Caractéristiques des méthodes de classification . . . . .
2.2 · Caractéristiques des méthodes de classification (Suite) .
x
24
25
3.1 Matrice de la fonction de perte dans des cas valué et binaire. 35 3.2 Réduction des cas d'erreurs en catégories de perte . . . . . . 36
3.3 Impact des quatre facteurs de contrôle sur les bornes multinomiale et multi-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45
3.4 La moyenne et l'écart type de la différence entre les bornes multinomiale
et multi-nor~ale selon les paires (n , r) .................. 46 3.5 La moyenne et l'écart type de la différence entre les bornes multinomiale
et multi-normale selon les paires (n , s). . . . . . . . . . . . . . . 46
4.1 Résultats des tests préliminaires du programme mathématique. . 81
Table des figures
2.1 Illustration des concepts d 'homogénéité et de séparation
2.2 Processus d 'apprentissage automatique ....... .. 2.3 Illustration du compromis complexité versus précision 2.4 Taxonomie des méthodes de classification ...... .
3.1 a: Majorant sur la borne : qT p = (3. b : Centre j5 s'éloignant des
contraintes tout en améliorant l'objectif.
4.1 Représentation des pavés dans l'espace des critères.
4.2 Représentation des pavés du classificateur pour le cas 1
4.3 Représentation des pavés du classificateur pour le cas 19
xi
Il
13 15 23
43
65 82 83
A.1 Représentation d'un réseau de neurones avec une seule couche 103 A.2 Représentation de l'hyperplan séparant linéairement les données dans
l'espace des caractéristiques . . . . . . . . . . . . 108 A.3 Fonctions de goodness et de badness de nTOMIC . . . . . . . . . . .. 114
1
Chapitre 1
Introduction générale
La classification est une des modalités les plus anciennes de construction et de com
munication d 'interprétations du monde empirique. De nombreux historiens des sciences
s'accordent sur l 'idée que toute science empirique a ses fondements initiaux dans la
construction de nomenclatures. Lorsqu'une telle science, à un stade de plus grande
maturité, se concentre sur l'étude de processus dynamiques (plutôt que de catégories
statiques) cette étude se réfère toujours à, et peut remettre en question, une nomencla
ture sous-jacente.
Il existe plusieurs problématiques de classification. Le début de ce chapitre esquisse certaines distinctions à gros traits, et précise par la même occasion des éléments de ter
minologie. Nous rappelons ensuite les contributions de divers domaines de connaissances
à ce champ multidisciplinaire qu'est la classification.
1.1 Définitions préliminaires
Qu'est-ce que la classification? Examinons quelques définitions proposées par des
spécialistes. Pour Mari et Napoli (1996) :
"Effectuer une classification, c'est mettre en évidènce des relations entre
des objets, et entre ces objets et leurs paramètres" .
Un problème de classification selon Henriet (2000) :
Chapitre 1. Introduction générale
"consiste à affecter des objets, des candidats, des actions potentielles à
des catégories ou des classes prédéfinies" .
2
Michie et al. (1994) ont un point de vue axé sur l'apprentissage, ils définissent la
classification par :
"La classification est l 'action de regrouper en différentes catégories des
objets ayant certains points communs ou faisant partie d 'un même concept,
sans avoir connaissance de la forme ni de la nature des classes au préalable,
on parle alors de problème d'apprentissage non supervisé ou de classification
automatique, ou l'action d 'affecter des objets à des classes prédéfinies, on
parle dans ce cas d 'apprentissage supervisé ou de problème d 'affectation" .
Retenons aussi la définition de Bognar (2003)
"Le processus de classification cherche à mettre en évidence les dépen
dances implicites qui existent entre les objets, les classes entre elles, les
classes et les instances. La classification recouvre les processus de recon
naissance de la classe d 'un objet, et l 'insertion éventuelle d 'une classe dans
une hiérarchie. Ce mode de raisonnement permet de reconnaître un objet
en identifiant ses caractéristiques, relativement à la hiérarchie étudiée. La
classification fait intervenir un processus de décision d'appartenance" .
1.1.1 L'inférence en classification
Une classification a trait à des objets à classer. Les objets sont localisés dans un espace de caractéristiquesl . Il s'agit de les localiser dans un espace de classes. Ce problème n'a de sens que si on pose l'existence d'une correspondance entre ces deux espaces. Le problème de classification est celui de l'estimation de cette correspondance inconnue.
Nous appellerons:
- classificateur : une règle établie (estimée) de classification, c'est-à-dire une fonction sur l'espace des caractéristiques vers l'espace des classes;
- classification: la construction d'un classificateur; - classement : la mise en œuvre d'un classificateur existant.
10U critères ou attributs
Chapitre 1. Introduction générale 3
Le processus de construction d'un classificateur, et les qualités souhaitables d un tel
classificateur, sont des thèmes prééminents de cette thèse.
1.1.2 Buts et modalités de la classification
Généralement , l'inférence statistique traditionnelle peut couvrir plusieurs probléma
tiques:
- exploratoire : déceler des relations hypothétiques;
- prédictive: valider la performance globale d 'un système de relations; - explicative: valider des composantes détaillées d 'un système de relations· com-
prendre leurs contributions à ce système.
On retrouve des distinctions voisines en classification:
1. On appelle classification automatique, ou non supervisée, un ensemble de problé
matiques où l'espace des classes n'est pas spécifié à l'avance. Il s 'agit d 'identifier,
voire de construire, un système de classes sur la base d'observations dans l'espace
des caractéristiques.
2. On appelle classification supervisée un contexte où un ensemble de classes (et une
structure sur cet ensemble) est spécifié à l'avance.
3. Dans de nombreuses situations, la classification est balisée par des éléments contex
tuels importants. Ceux-ci peuvent prendre la forme de règles (paramétrées) , d 'archétypes, etc. C'est le cas par exemple dans certaines nomenclatures de sciences
naturelles. C'est aussi le cas dans certains contextes de gestion telle pré-diagnostic
médical. Souvent, dans de tels contextes, l'activité de classification vise à mieux
comprendre la nature constitutive (les critères de définition) des classes.
1.1.3 Structure de l'espace des classes
Différentes relations d'ordre peuvent être imposées sur l'espace des classes. À une
extrême se trouve le cas courant de l'échelle nominale simple, soit l'absence de toute
relation. Dans ce cas, on peut penser que si le problème de classification est parfaitement spécifié, l'ensemble des ~lasses devrait induire une partition sur l'espace des attributs2
.
2 Cela ne signifie pas que le classificateur, estimateur imparfait, doive nécessairement avoir cette
propriété.
Chapitre 1. Introduction générale 4
Un autre cas courant est celui d'un ordre total sur les classes (lorsqu'il y a plus de deux
classes). On parle alors de classification ordinale. Enfin on peut avoir des structures
plus complexes d'ordres partiels. C'est le cas, par exemple, lorsqu'on pose une relation arborescente (hiérarchique). C'est aussi le cas lorsque les échelons sont représentés par des distributions.
1.2 La classification un domaine multidisciplinaire
La classification a fait l 'objet de plusieurs travaux dans différents domaines de re
cherche. Nous allons en particulier discuter des liens que la classification entretient avec la statistique la programmation mathématique l'apprentissage automatique et laide
multicritère à la décision.
1.2.1 Classification et statistique
Les statisticiens figurent parmi les premiers à s'intéresser aux méthodes de clas
sification. Les méthodes statistiques de classification automatique se basent sur une
mesure de distance inter-objets. Ces méthodes sont divisées en deux catégories, mono
thétiques et polythétiques. Les méthodes monothétiques partent de l'ensemble d 'objets à classer et les divisent successivement en sous-groupes. Elles ne tiennent compte que
d'une seule variable à la fois. Cette dernière permet de différencier les objets en deux groupes. Parmi ces méthodes, nous retrouvons l'analyse des associations. Quant aux
méthodes polythétiques, elles tiennent compte de toutes les variables simultanément.
Les méthodes polythétiques sont à leur tour divisées en deux groupes: hiérarchiques ou
non hiérarchiques. Dans les méthodes hiérarchiques, nous retrouvons les méthodes descendantes et ascendantes. Les méthodes non hiérarchiques peuvent être des méthodes de partitionnement ou de recouvrement.
Les méthodes statistiques sont les techniques les plus anciennes pour la résolution des problèmes de classification supervisée. Elles sont issues de l'analyse des données:
Elles supposent l'existence d'un modèle probabiliste décrivant le~ données. L'objectif de ces méthodes est ainsi de caractériser ce modèle. La littérature nous offre une multitude
de méthodes et d'applications statistiques (Duda et al. , 2001). L'objectif de ce type de
techniques est d'arriver à classer de nouveaux cas, en réduisant le taux d'erreurs de
classification. Selon Weiss et Kulikowski (1991), ces méthodes ont fait leurs preuves pour des données assez simples. Avec le développement de la théorie statistique d'ap-
Chapitre 1. Introduction générale 5
prentissage, de nouvelles méthodes de classification s'appuyant sur la théorie statistique
et se basant sur l'apprentissage sont nées.
1.2.2 Classification et programmation mathématique
La programmation mathématique dans un premier temps, a été utilisée en classi- .
fication automatique. Le problème de partitionnement est souvent formulé comme un
programme mathématique. Le nombre de classes de la partition est donné à l avance.
L'objectif à optimiser peut refléter un souci d 'homogénéité intra-classe ou de différencia
tion inter-classes. La résolution fait appel à une variété de techniques de programmation mathématique discrètes, exactes ou heuristiques.
En classification supervisée, la programmation mathématique a été utilisée pour op
timiser la capacité prédictive du classificateur à construire. Des formes d 'approximations
très variées ont été proposées, incorporant parfois une mesure d 'erreurs empirique, parfois des repères paramétrés, etc. Toutefois, la contribution de la programmation mathé
matique est beaucoup plus importante en classification automatique qu'en classification
avec apprentissage supervisé.
1.2.3 Classification ·et apprentissage automatique
Vincent (2003) définit l'apprentissage automatique par «une tentative de comprendre
et de reproduire l 'habileté humaine d 'apprendre de ses expériences passées et de s'adap
ter dans les systèmes artificiels». Par apprentissage, on entend la capacité de généraliser
et de résoudre de nouveaux cas à partir des connaissances mémorisées et des expériences réussies dans le passé. Appelé souvent la branche connexionniste de l'intelligence artifi
cielle, l'apprentissage automatique puisait initialement ses sources en neurosciences. Au
cours des dernières années, il s'est détaché de ses origines pour faire appel à des théories et outils d'autres disciplines: théorie de l'information, traitement du signal, program
mation mathématique, statistique (Vincent, 2003). Des préoccupations convergentes
en analyse de données ont donné naissance à la théorie de l 'apprentissage statistique
(Vapnik, 1998).
Il existe trois principales tâches d'apprentissage automatique: apprentissage super. visé, apprentissage non supervisé et apprentissage par renforcement. L'apprentissage
supervisé consiste à établir des règles à partir des expériences réussies dans le passé.
Pour un problème de classification, un système d 'apprentissage supérvisé permet de
Chapitre 1. Introduction générale 6
construire une fonction de prise de décision (un classificateur) à partir des actions
déj à classées (ensemble d 'apprentissage) , pour classer des nouvelles actions. Dans le
cas de l'apprentissage non-supervisé, on dispose d 'un nombre fini de données d apprentissage sans aucune étiquette. L'apprentissage par renforcement a la particularité que les décisions prises par l'algorithme d 'apprentissage influent sur l'environnement et les observations futures (Vincent, 2003).
La classification compte parmi les plus grandes réussites de l'apprentissage automa
tique. Plusieurs applications illustrent la diversité des domaines d utilisation: moteur
de recherche , reconnaissance de la parole, reconnaissance de formes , reconnaissance de
l'écriture manuscrite, aide au diagnostic médical, analyse des marchés financiers , bio
informatique, sécurité des données, etc.
1.2.4 Classification et aide multicritère à la décision
Les méthodes de classification multicritère partent en général de classes prédéfinies, elles relèvent donc de l'apprentissage supervisé (Belacel, 1999; Henriet , 2000) , mais avec une composante contextuelle qui peut être importante. C'est pourquoi elles se
distinguent par des modalités particulières d'apprentissage.
La classification en aide multicritère à la décision se situe dans le cadre de la pro
blématique du tri. Selon Roy et Bouyssou (1993) «Elle consiste à poser le problème
en terme du tri des actions par catégorie». Les actions sont évaluées sur plusieurs cri
tères potentiellement conflictuels et non commensurables. Contrairement aux autres
. approches de classification, l'aide multicritère à la décision ne cherche pas uniquement
à développer des méthodes automatiques pour analyser les données afin de les classer.
Dans le cadre de l'affectation multicritère, les préférences du décideur/l 'humain sont aussi prises en compte. Ainsi, selon Henriet, (2000) «L'objectif des méthodes de clas
sification multicritère n'est pas de décrire au mieux les données, mais de respecter un
ensemble de préférences qui auront été articulées auparavant».
Plusieurs méthodes génériques sont apparues au fil du temps, dont le tri, le filtrage et
l'affectation. La plus ancienne, dite «tri», visait initialement un classement ordinal. Les
premières méthodes du tri multicritère, traitent uniquement le cas de classes ordonnées,
le qualificatif tri correspondait exactement au résultat des méthodes et dans ce cas on parlait du tri ordinal. Mais avec le développement de nouvelles méthodes, il y a eu le
traitement de cas de catégories non classées, qui est traduit par tri nominal.
Perny (1998) a introduit par la suite l'idée de filtrage. Il définit le filtrage des actions
Chapitre 1. Introduction générale 7
comme étant la comparaison des actions à des points de référence afin de décider à quelle
catégorie (classe) elles vont appartenir. Il distingue entre deux types de filtrage : par
préférence et par indifférence.
Dans la définition d 'Henriet (2000) de la classification multicritère, nous retrouvons
la notion d 'affectation :
"Soit un ensemble d 'actions évaluées sous différents critères et une liste
de catégories prédéfinies caractérisées par des points de référence spéc.ifiques.
Le problème d 'affectation multicritère consiste à évaluer l'appartenance de
chaque action à chaque catégorie. Si un jugement de valeur est associé avec
chaque catégorie, le problème d 'affectation consiste à évaluer la qualité in
trinsèque de chaqué action".
L'affectation est donc l'action de quantifier l'appartenance des objets aux catégories. Il n 'y a pas d'apprentissage proprement dit, mais l'accent est mis plus sur la construction
d 'une fonction d'affectation. Ceci constitue le principe de certaines méthodes de classification multicritère, c'est pour cette raison que ces méthodes sont souvent appelées
méthodes d 'affectation.
Dans la littérature, nous retrouvons plusieurs applications du tri multicritère : évalu~tion des dossiers de crédits (Moscarola et Roy, 1971) , reconnaissance de la parole (Pawlak, cf; Henriet , 2000), évaluation environnementale (Arondel et Girardin, 2000) , sélection de port feuilles en finance (Zopounidis et Doumpos, 2002), maintenance (Chelbi
et Ait-Kadi, 2002) et diagnostic médical (Belacel, 1999; Belacel et Boulassel, 2004, 2001 ; Belacel et al., 2006). Dans les dernières années, l'aide multicritère à la décision a fait
appel à d'autres domaines tels que la programmation mathématique et l'apprentissage
automatique pour améliorer et simplifier quelques méthodes (Mousseau et Slowinski,
2001 ; Zopounidis et Doumpos, 2002; Benabbou et al., 2004, 2006).
1.3 Organisation de la thèse
La revue de la littérature montre l'existence d'une panoplie de méthodes de clas
sification appartenant à différentes disciplines. Une telle diversité reflète une certaine
richesse et un dynamisme intellectuel, mais en même temps révèle les limites de ces
méthodes. Compte tenu de la complexité des problèmes de classification multi-classes
et multicritère, et des limites des méthodes existantes, nous avons jugé pertinent de
Chapitre 1. Introduction générale 8
mener une recherche plus étroite en apprentissage statistique et en aide multicritère à
la décision.
Tout au long de cette thèse, nous tenterons d 'apporter des éléments de réponse
à la question suivante: comment développer des modèles de classification mlti-classes
et multicritère ? Pour ce faire, nous préconisons une approche multidisciplinaire faisant appel, entre autres aux fondements de la théorie statistique d 'apprentissage et de l'aide
multicritère à la décision. Les modèles de classification proposés s appuient d 'une part
sur l'approche formelle et rigoureuse des méthodes d apprentissage statistique pour la
détermination de la performance des classificateurs et de la majoration des risques.
D 'aut re part ils s'appuient sur la prise en considération de la présence de l homme et
des différents aspects multicritères dans les méthodes de tri multicritère.
Dans le chapitre 2, nous explorons le champ de la classification. Nous nous arrêtons sur les différentes approches de classification et nous caractérisons les méthodes de
classification connues. Nous concluons ce chapitre par la présentation de notre problé
matique et nos questions de recherche.
Le chapitre 3 propose de mesurer la performance des modèles de classification dans
un contexte multi-classes en termes de borne sur le vrai risque du classificateur. Nous
montrons d'une part le lien entre l'asymétrie de la structure de pénalisation des erteurs et la nature multi-classes du problème de classification. D'autre part, nous développons
des bornes optimales pour évaluer voire estimer des classificateurs multi-classes.
Dans le chapitre 4, nous présentons un modèle à base de pavés · pour la classification
multi-classes et multicritère. Nous démontrons qu'il est possible de concilier les concepts
de l'apprentissage statistique et de l'aide multicritère à la décision pour résoudre les
problèmes de classification multi-classes et multicritère. Nous montrons la faisabilité du modèle sur un exemple de taille réduite. Nous illustrons également un arbitrage fondamental entre précision et complexité.
Nous concluons cette thèse en rappelant les contributions réalisées et en présentant
quelques pistes de recherches futures.
9
Chapitre 2
Problématique de recherche
2.1 Introduction
Le chapitre précédent nous a donné une idée de la variété des problématiques qui
se posent en classification. Cette variété, couplée à celle des contextes d 'application,
résulte en une grande diversité de méthodes proposées dans la littérature.
Ce chapitre présente notre problématique de recherche. Dans une première part ie, nous examinons les principales caractéristiques des méthodes actuellement disponibles.
La cohérence interne de ces méthodes n 'apparaît bien que lorsqu'on les replace dans leur
contexte paradigmatique. C'est pourquoi nous distinguons classification automatique,
classification supervisée, et tri multicritère.
Ce tour d 'horizon nous permettra, dans une deuxième partie, de dégager des questions de recherche, et d 'indiquer brièvement comment nous comptons y répondre.
Chapitre 2. Problématique de recherche 10
2.2 Démarches de classification selon différents pa
radigmes
2.2.1 Classification automatique
En classification automatique, les objets sont regroupés en un nombre restreint de
classes homogènes et séparées. Homogène signifie que les éléments d'une classe sont
les plus proches possibles les uns des autres. Séparé implique qu'il y a un maximum
d 'écart entre les classes. La proximité et l'écart ne sont pas nécessairement mesurés en
termes de distance. L'homogénéité et la séparation entrent dans le cadre des principes de cohésion et d 'isolation de Cormack (1971). La figure 2.1 de Gordon (1981) illustre
les différentes situations d 'homogénéité et de séparation des classes.
Nous retenons la démarche de Hansen et Jaumard (1997) pour traiter les problèmes
de classification automatique d'un point de vue recherche opérationnelle et statistique:
1. Échantillon. Sélectionner l'ensemble d'objets à classer. Est-ce un échantillon ou
une population?
2. Données. Mesurer les caractéristiques des objets et construire une matrice d 'éva
luation.
3. Dissimilarités.Calculer des dissimilarités entre toutes les paires d'objets.
4. Contraintes. Choisir le type de classification désirée (hiérarchique, partition). Spé
cifier les contraintes relatives aux classes, par exemple la taille maximale des
classes pour certains problèmes.
5. Critère. Choisir le critère (ou les critères) qui permet(tent) d'exprimer l'homogé
néité et/ou la séparation des classes (diamètre, écart).
6. Algorithme. Choisir ou développer un algorithme pour le problème défini avec les
étapes 4 et 5.
7. Calcul. Appliquer l'algorithme choisi pour obtenir les différentes classes.
8. Interprétation. Appliquer des tests formels ou informels pour sélectionner les
meilleures classifications obtenues dans l'étape 7. Décrire les classes par leurs
listes d'objets et par des rapports de statistique descriptive. Procéder à une in
terprétation contextuelle des résultats.
Les étapes 4 et 5 définissent le problème de classification comme un programme
mathématique. Les étapes 1, 2, 3 et 8 correspondent à un point de vue statistique de
la classification.
Chapitre 2. Problématique de recherche
.. ' • • • ..... J ••• . '. • ..... ' • ,,"'~ . . ". • '1:-" • • . ..... ' .. . , . " t.
.' . . '. t. • 1 • •••• -'. • • ' ~ f. . ' . .. 1 • ••• • ,. '\fI,' .' ... •• '.. . t •• .... ... (a) (h) (c)
FIG. 2.1 : Illustration des concepts d'homogénéité et de séparation:
Ca) Classes séparées et homogènes; (b) Classes séparées mais non homogènes; Cc) Classes homogènes mais non séparées.
Il
Chapitre 2. Problématique de recherche
2.2.2 Apprentissage automatique
Vapnik (1998) définit un processus d 'apprentissage par:
" The leaming process is a process of choosing an appropriate function
from a given set of functions" .
12
Cette définition générale a trait à tous les problèmes d 'apprentissage (estimation
de densité, classification, régression). Nous verrons dans le chapitre 3 que pour un
problème de classification, il s 'agit de choisir un classificateur h parmi une famille
7t de classificateurs. Dans la figure 2.2 , nous reprenons la présentation du processus d 'apprentissage de Vapnik (1998).
Le processus d 'apprentissage est constitué généralement de trois éléments princi
paux :
- Un générateur d 'exemples G. - Un superviseur S ou toute autre entité capable de donner pour chaque entrée
( exemple) x générée par G une sortie (classe) y. Généralement la classification
est binaire: y E {O; 1}. L'ensemble de tous les couples Z = {( Xi, Yi) : i : l .. n} constitue l'ensemble d 'apprentissage. On suppose que les exemples d 'un tel en
semble sont indépendants et identiquement distribués (iid.) selon une distribution
inconnue Pz. - Une machine d 'apprentissage (Learning machine LM) qui nous permet d 'ap
prendre automatiquement à partir de l'ensemble d'apprentissage puis d 'estimer une réponse y' pour chaque nouvel exemple x' de G en espérant commettre le
moins d 'erreurs possible.
Dans le cas de la classification, il s'agit de déterminer un classificateur h : X ~ y ,
h E 7t, par la suite utiliser h pour associer à tout nouveau x' généré par G une classe
h(x' ) = y'. L'objectif est d'avoir une valeur y' la plus proche de y , la réponse du
superviseur S. Dans le processus d'apprentissage, le superviseur est généralement une
base de connaissances ou un ensemble d'expériences passées.
Afin de quantifier les erreurs de classification, on utilise habituellement une fonction -de perte binaire et symétrique: L : Z ~ {O, l} définie comme suit:
L(y' , y) = { ~ si y' = y
si y' i- y (2.1)
Chapitre 2. Problématique de recherche 13
x G ... S .. ...
y
... .... .. LM ... .. ...
y
FIG. 2.2 : Processus d'apprentissage automatique
Chapitre 2. Problématique de recherche 14
Selon Vapnik (1998) , le choix d 'une fonction parmi toutes les fonctions possibles est
fait selon un critère donné. Ce critère permettra de mesurer la qualité du processus
d 'apprentissage en terme de capacité de généralisation.
Formellement , dans le cas de la classification, ceci signifie que pour un ensemble d 'apprentissage Z et un ensemble de classificateurs possibles 11, le critère de choix du
classificateur est donné par l'espérance de la fonct ion de perte selon la dist ribution
inconnue Pz : R = R(h) = Ez [L(h(X) Y) ] (2.2)
R est appelé erreur de généralisation ; erreur espérée ou vrai risque du classificateur h. C'est une quantité théorique, puisque la distribution Pz est inconnue. Idéalement , on voudrait trouver le classificateur h qui minimise le vrai risque R. Mais, on se contente
souvent de minimiser une valeur estimée de ce vrai risque dite risque empirique ou
erreur empirique:
(2.3)
Cette approche rentre dans le cadre du principe de minimisation du risque empirique
(ERM). Ce principe a été largement exploité par les statisticiens dans le cadre du
pattern recognition, et par la communauté de l'apprentissage automatique dans le cadre de l'apprentissage inductif. Le risque empirique constitue une bonne estimation du vrai
risque dans le cas des ensembles d'apprentissage de grande taille. On montre que pour
tout h E 11, le risque empirique r (h) converge vers le vrai risque R(h) quand la taille de l'échantillon (n) tend vers l'infini.
Selon Vapnik (1998) , le rythme de convergence du risque empirique vers le vrai risque varie en fonction du vrai risque et la complexité (en terme de capacité d'ajustement aux données) de 11. Considérons une séquence de classes de familles de classificateurs de
complexité croissante : 111 , 112 , ........ La figure (2.3) tirée de Marchand (2003) illustre le
comportement du vrai risque et de sa valeur estimée selon la croissance de la complexité
de la famille des classificateurs.
Le risque empirique décroit rapidement avec la croissance de la complexité. Le vrai risque atteint un minimum pour une famille de classificateurs 11m. La théorie statistique d 'apprentissage prédit un tel comportement et justifie ainsi la recherche du meilleur
compromis entre complexité et risque empirique au lieu de minimiser simplement le
risque empirique. Il s'agit du principe inductif baptisé par Vapnik (1998) : principe de
minimisation du risque structurel (SRM).
Chapitre 2. Problématique de recherché 15
/' , /' , "
/' /' Vrai risque
. ...... . ......... . _ .. - .
Risque empirique
FIG. 2.3 : Illustration d,u' compromis complexité versus précision
Chapitre 2. Problématique de recherche 16
A partir de l'analyse des méthodes issues de l'apprentissage automatique, nous avons mis en lumière cinq étapes essentielles dans les différents traitements des problèmes de .
classification en apprentissage supervisé :
2.2.2.1 L'ensemble d'apprentissage
L'ensemble d'apprentissage est une composante clé dans la construction du classificateur. Le traitement des problèmes de classification en apprentissage automatique
diffère selon l'utilisation et le rôle alloué à cet ensemble. Le classificateur peut être construit sur tout l'ensemble d'apprentissage (arbre de décision, apprentissage bayé
sien) ou sur un sous-ensemble (reflétant une compression de données) comme dans les Set Covering Machines (SCMs) de Marchand et Shawe-Taylor (2002). Dans certaines
situations, l'ensemble d'apprentissage nécessite une transformation avant le traitement
du problème de classification. Ceci est le cas de l'apprentissage par noyaux!, pour faire face au fléau de dimensionnalité (Herbrich, 2002). Notons aussi qu'à ce niveau, il faut
vérifier si les données sont conformes aux conditions d'application de la théorie statistique d'apprentissage. Principalement l'hypothèse que les données soient indépendantes
et identiquement distribuées (iid) (Vapnik, 1998).
2.2.2.2 La mesure de similarité
Elle correspond à la quantification de la comparaison entre une action et l'ensemble
d'apprentissage (comprimé ou non). Dans le cas de l'apprentissage bayésien, elle corres
pond à une probabilité conditionnelle. Dans l'apprentissage par noyaux, cette mesure prend la forme plus élaborée d'un noyau (Herbrich, 2002). Dans le cas des SCMs (Mar
chand et Shawe-Taylor, 2002), elle correspo~d à la forme donnée aux "caractéristiques". Pour une boule par exemple, elle correspond à une distance entre le centre de la boule
et la nouvelle action à classer. Le choix de la mesure de similarité est une condition
essentielle pour l'élaboration d'un bon classificateur. Il s'agit en particulier de vérifier
l'adéquation de cette mesure à la nature du problème traité.
IVoir Annexe A.
Chapitre 2. Problématique de recherche 17
2.2.2.3 La règle de classification
La règle de classification a pour objectif d'exploiter les relations qui existent entre
les actions et l'ensemble d'apprentissage pour construire un classificateur. Dans l'ap
prentissage bayésien, cette règle est déterminée par la comparaison des probabilités
conditionnelles. Dans le cas du classificateur optimal de Bayes (Mitchell, 1997) la
règle de la décision de classer l 'événement e dans la classe Ci, peut être formulée par:
Pr ( e / Ci) P ( Ci) 2:: Pr ( e / Cj } ) P ( C j ) pour chaque j i- i . La construction de cette règle
dépend principalement de la nature de l 'ensemble d 'apprentissage, et de la mesure de
similari té.
2.2.2.4 La détermination des paramètres
Il s 'agit d 'une étape peu explicite dans les méthodes d'apprentissage automatique,
bien que la présence des paramètres particuliers (différents selon la méthode) soit in
évitable. Cette détermination conditionne en grande partie la performance et la flexibi
lité des méthodes correspondantes. En retour, les besoins d'estimation des paramètres
peuvent être déterminants dans le choix d'une méthode.
2.2.2.5 La mesure de la performance du classificateur
Cette mesure est souvent réalisée en termes de la valeur du risque empirique du clas
sificateur. Utiliser tout l'échantillon pour construire le classificateur et pour mesurer le
risque empirique nous donnera un estimateur biaisé du vrai risque du classificateur. Afin
d'éviter ce biais, l'ensemble d'apprentissage est divisé en deux sous-ensembles: i) un
ensemble d'apprentissage (ou d'entraînement) pour construire le modèle ii) un ensemble de test pour le tester. Dans le cas où l'ensemble d'apprentissage est de petite taille, on
fait appel à la technique de la validation croisée (k-fold cross validation) (Marchand,
2003). Cette technique permet d'utiliser tout l'échantillon pour construire le modèle de
classification et presque tout cet ensemble pour le tester. Elle consiste à diviser l'en
semble d'apprentissage en k sous-ensembles. Pour chaque itération i, k - 1 ensembles
sont utilisés pour l'apprentissage et l'ième ensemble pour le test. A ch~que itération, le
risque empirique est calculé sur l'ième ensemble. La moyenne sur ces risques empiriques
est le risque Rkcv ; c'est une bonne estimation du vrai risque du classificateur. Une
autre manière de procéder se base sur le principe SRM de la théorie statistique d 'ap-:
prentissage. L'objectif est de trouver un compromis entre risque empirique et complexité
du classificateur. Pour estimer le vrai risque, on travaille plus sur des approximations
Chapitre 2. Problématique de recherche 18
(bornes) incorporant autant le risque empirique que des indicateurs des degrés de li
berté dont dispose le classificateur. Ces indicateurs nous permettent de mieux contrôler
la complexité du classificateur. La borne sur l'ensemble de test, Compression et PAC
( Probablement Approximativement Correct )-Bayes constituent les principales bornes sur le vrai risque dans la littérature (Marchand, 2003).
2.2.3 Aide multicritère à la décision
L'analyse des méthodes de la classification multicritère nous laisse penser qu il y a un modèle suffisamment établi de classification sous lequel s'inscrivent les différentes méthodes de classification. Selon Yu (1992), les méthodes de classification multicritère se déroulent en deux étapes prinicipales ': la modélisation des catégories et l'élaboration
de la procédure d 'affectation.
2.2.3.1 Modélisation des catégories
La modélisation des catégories en affectation multicritère se base sur la construction d'actions de référence. Cette modélisation se déroule en quatre sous-étapes: la première
consiste à définir le rôle que vont jouer les actions de référence selon la nature du tri en
question. La deuxième étape associe aux. actions de référence une norme d 'affectation qui permet de définir formellement la manière dont les actions de référence caractérisent
les différentes catégories. Quant à la troisième étape, il s'agit de la conception des actions
de référence. Pour valider cette conception, on a prévu une dernière étape de test de viabilité.
a) Rôle des actions de référence. La définition du rôle des actions de référence dé
pend de la problématique du tri en question. En effet, on distingue entre deux approches possibles: des actions de référence limites et des actions de référence centrales. Dans le
cas. du tri ordinal, il est possible d'établir une 1 structure de préférences entre les catégories, les actions de référence dans certains cas particuliers constituent les limites ou
les frontières inter-catégo~ies. Dans ces cas, nous parlons d'actions de référence limites
ou de profils limites. Cette forme de modélisation est adaptée dans les méthodes d 'affectation multicritère ordinales: segmentation trichotomique (Mitchell, 1997), N-tomic
(Belacel, 1999) , UTADIS (Zopounidis et Doumpos, 2002), Electre tri (Yu, 1992) , filtrage flou par préférence (Perny, 1998). Pour les problèmes de tri nomial, il est difficile de
cerner les frontières entre les différentes catégories. Ces derniers représentent les actions
Chapitre 2. Problématique de recherche 19
types (prototypes) de chaque catégorie. Les actions de référence sont appelées actions
de référence centrales. Dans cette catégorie nous retrouvons les méthodes PROAFTN
(Belacel, 1999) , Filtrage Flou par Indifférence (Henriet , 2000) et TRINOMFC (Léger
et Martel, 2002). Il existe une autre modélisation, moins connue que les premières,
sous forme d 'actions de référence excluantes ou anti-prototypes. Il s 'agit des profils qui
correspondent à des actions dont on est sûr de leur non-appartenance à la catégorie.
Les anti-prototypes correspondent à des raisons négatives pour éliminer l 'appartenance
d 'une action à une catégorie. Dans sa méthode de filtrage flou par préférence, Henriet
(2000) a fait appel à ce type de prototypes pour compléter la modélisation des catégo
ries. Il est important de noter que ces rôles alloués aux classes ne sont pas mutuellement
exclusifs. Il est possible pour des raisons théoriques ou pratiques d 'avoir recours à une
combinaison de ces modélisations pour représenter les différentes classes. Une fois le rôle des actions de référence précisé, il faut leur associer une norme d 'affectat ion.
b) Norme d'affectation. La norme d'affectation permet de définir formellement
la manière dont les actions de référence interviennent pour caractériser les catégories.
Dans la littérature, il existe plusieurs normes d 'affectation, selon la nature du tri en
question et le rôle alloué aux actions de référence. Dans l,e cas d'Electre Tri , Yu (1992) définit la norme d'affectation associée à la modélisation des catégories par des profils
limites' comme suit : «Toute action qui est jugée comme étant entre les deux limites
d 'une catégorie, donc meilleure que la frontière basse et pire que la frontière haute de
la catégorie, doit pouvoir être affectée à la catégorie en question». Dans la méthode
UTADIS , l 'application de cette norme d'affectation permet d'affecter directement les
actions aux catégories. En effet, en allouant une utilité globale à chaque action et aux
profils limites, UTADIS permet de comparer toutes les actions aux profils limites, et
par la suite de les classer directement. Afin d'intégrer la dimension de préférence dans
l'affectation, les autres normes utilisent des comparaisons par paire entre les actions à
affecter et les actions de référence par le biais d'un modèle de préférence. Ceci évite le
recours à des distances et permet d'utiliser des critères qualitatifs et/ou quantitatifs. En
outre, elles permettent d'écarter les complications rencontrées lorsque les données sont
exprimées dans différentes unités (Belacel, 1999). D'autre part, ces normes s'appuient
sur les notions de coalition de concordance et de discordance issues de la théorie du vote
de Condorcet et de la théorie du choix social. L'utilisation des indices de concordance et
de discordance aide à arbitrer les conflits quand les critères sont fortement conflictuels.
Pour pouvoir comparer les actions aux profils limites, Electre Tri construit une relation
de surclassement basée sur les notions de concordance, de discordance et de veto (Yu,
1992). Dans sa méthode Filtrage Flou par Préférence, Perny (1998) a introduit une
relation de préférence floue valuée 'dans [0, 1] entre les actions et les profils limites.
La relation de préférence floue représente un degré de préférence, elle est construite à
Chapitre 2. Problématique de recherche 20
partir de sous-ensembles flous concordant et discordant, caractérisés par des seuils de
concordance flous et des seuils de discordance flous. La norme d'affectation associée est
définie par Perny (1998) comme suit: «L'action a est affectée à une catégorie si et
seulement si elle est préférée pour quelques profils limites supérieurs de cette catégorie,
sans qu'elle soit préférée à aucun profil limite inférieur de la catégorie en question».
Dans le cas du tri nominal, la première norme, à notre connaissance, est l'affectation par indifférence. Elle a été définie initialement par Yu (1992) : «Toute action, qui
est jugée comme étant indifférente à au moins l 'une des actions de référence centrales
doit être affectée à la catégorie correspondante». Perny (1998) a repris cette norme
pour définir en général le filtrage flou par indifférence, en construisant une relation
d'indifférence floue entre les actions et les actions de référence centrales. Ce type de
filtrage a été repris dans les méthodes PROAFTN de Belacel (1999) et le filtrage flou par indifférence d'Henriet (2000). Plus récemment, Léger et Martel (2002) ont proposé
une autre norme d'affectation originale qui fait appel à la notion de degré de similarité entre les actions et les prototypes. À partir des principes de la méthode TRlN 0 MFC,
nous pouvons formuler la norme d'affectation comme suit: «Toute action, qui est jugée
similaire à au moins l'une des actions de référence centrales doit être affectée à la
catégorie correspondante». Les normes d'affectation sont des normes préétablies, qui
peuvent être exploitées immédiatement dans le cas où toutes OIes actions peuvent être
comparées aux actions de référence (cas UTADIS). Dans le cas contraire, il faut faire
appel à une procédure d'affectation.
c) Construction des actions de référence. Dans le cadre de l'affectation mul
ticritère, les actions sont décrites selon des critères. La classification ne se fait pas
uniquement en fonction des données, elle se fait aussi en fonction des préférences du
décideur. Il va donc exister autant de manières de classer que de décideurs. Dans le pa
ragraphe précédent, nous avons constaté comment les préférences du décideur peuvent
être intégrées dans l'établissement de la norme d'affectation. Toutefois, l'intervention
du décideur ne se limite pas uniquement à ce niveau. En effet, le décideur joue un rôle
important dans la construction des actions de référence nécessaires pour l' aboutisse
ment de ces méthodes. La majorité des méthodes d'affectation multicritère supposent
la connaissance des actions de référence des catégories. Dans la pratique, ces actions
de référence sont généralement spécifiées par le décideur, dans l'ensemble des actions
potentielles voire concevables (fictives ou réalistes). La disponibilité des connaissances
et l'augmentation de la capacité de stockage des données, augmentent de plus en plus
la taille des problèmes de classification. Dans plusieurs cas, le nombre d'actions de ré
férence à déterminer devient élevé, ce qui dépasse les capacités cognitives du décideur.
Dans des travaux récents en affectation multicritère, nous constatons un intérêt pour
inférer les actions de référence en se basant sur l'apprentissage inductif ((Mousseau et
Chapitre 2. Probiématique de recherche 21
Slowinski, 2001) ; (Zopounidis et Doumpos, 2002) ; (Benabbou et al. , 2004) , (Benabbou
et al. , 2006)). Les méthodes proposées sont basées sur la modélisation du problème
de détermination des actions de référence sous forme d'un programme mathématique
qui minimise les erreurs de classification de l'ensemble d 'apprentissage. Une fois les
paramètres produits, ils sont . validés avec le décideur.
d) Test de viabilité des actions de référence. Le test de viabilité des actions de
référence a été proposé par Yu (1992) dans le souci que les actions de référence jouent
véritablement leur rôle. Il s 'agit de tester si la conception des actions de référence
est viable, c'est-à-dire si les conditions de recevabilité et de spécificité sont vérifiées.
La condition de recevabilité traduit le fait que toute catégorie caractérisée par des
actions de référence doit pouvoir recevoir au moins une action. Quant à la condition de
spécificité elle consiste à ce que la norme d'affectation associée à chacune des catégories
soit spécifiée. Ces conditions sont intuitives. Pour la première condition, il serait non
pertinent de concevoir une action de référence pour une catégorie donnée, de telle sorte
qu'aucune action ne peut être affectée à la catégorie en question. Pour la deuxième
condition, il serait contradictoire qu'une action puisse être conforme à plus d'une norme
d'affectation à la fois. La norme d'affectation doit être propre à la catégorie concernée.
2.2.3.2 Élaboration de la procédure d'affectation
Les normes préétablies d'affectation, issues de la phase modélisation des catégories,
ne permettent pas toujours d'affecter toutes les actions. Dans l'approche du critère
unique de synthèse, toutes les actions peuvent être comparées aux actions de référence.
Cependant, dans l'approche de surclassement de synthèse, il se peut que certaines ac
tions soient incomparables aux actions de référence. Ceci est dû au fait que cette ap
proche accepte l'incomparabilité dans les modèles de préférences globales. Dans ce cas,
on ne peut exploiter immédiatement les résultats de la phase de modélisation : il faut
envisager une deuxième étape, celle de l'élaboration de la procédure d'affectation. ,
L 'objectif de la procédure d'affectation est l'exploitation de la relation binaire issue
de l'étape de modélisation des catégories entre les actions et les actions de référence.
Cette exploitation permet de construire une règle d'affectation des classes aux différentes
catégories. Ainsi, les différentes façons de prendre position sur les actions constituent
les diverses règles d'affectation. Il y a autant de règles d'affectation que de normes d'af
fectation. Dans sa méthode Electre tri, Yu (1992) a proposé deux règles d'affectation:
la première conduit à une affectation pessimiste, la seconde conduit à une affectation
optimiste. Ce sont deux procédures de filtrage respectivement conjonctif et disjonctif
Chapitre 2. Problématique de recherche 22
(Roy et Bouyssou, 1993). L'utilisation de ces deux procédures permet de gérer les si
tuations d 'incomparabilité. Ainsi, on aura deux attitudes vis à vis de l'incomparabilité.
Une attitude pessimiste qui consiste à affecter l'action à la plus mauvaise catégorie dont
la borne supérieure est incomparable. Quant à l'attitude optimiste, elle affecte l'action
à la meilleure des catégories dont la borne inférieure est incomparable. La règle d ' affec
tation dans la méthode de filtrage flou par préférence consiste à établir une relation de
préférence entre les actions et les profils limites. A partir de cette relation, Perny (1998)
construit deux règles d'affectation basées sur la comparaison avec le profil supérieur
et inférieur de la catégorie. La première, l'affectation ascendante, consiste à affecter
l'action à la catégorie dont le profil supérieur est préféré à l'action sans que tous les
profils inférieurs ne lui soient préférés. La seconde, l affectation descendante, consiste à
affecter l'action à la catégorie telle que l'action est préférée aux profils inférieurs sans qu'elle soit préférée à tous les profils supérièurs. Dans le cas du tri nominal à partir
des indices d 'indifférence floue ou de similarité des actions par rapport aux prototypes,
on détermine le degré d'appartenance de chaque action pour chaque catégorie. L'affec
tation des actions aux différentes catégories se fait graduellement, la règle d 'affectation
consiste à affecter l'action à la catégorie avec le degré d'appartenance maximal.
2.3 Caractérisation des méthodes de classification
Pour situer les' méthodes existantes les unes par rapport aux autres, il est utile de
les rattacher aux problématiques (sinon «paradigmes») dont elles s'inspirent. La figure
2.4 esquisse une taxonomie simplifiée des méthodes existantes.
L'Annexe A, tirée de Benabbou et al. (2004), dépeint en plus de détail, mais sans
prétendre à l'exhaustivité, la gamme de ces méthodes. La revue de ces méthodes permet
de dégager quelques dimensions intéressantes de comparaison des méthodes. Une brève
synthèse en est donnée dans les tableaux 2.5 et 2.6 ci-dessous.
U ne approche complémentaire pour caractériser les méthodes de classifications est de
type axiomatique: il s'agit de dégager des "propriétés souhaitables", ou "axiomes" que
ces méthodes pourraient satisfaire. Cette approche n'est nullement dogmatique, en ce
qu'elle ne préconise pas, et n'impose pas certains axiomes plutôt que d'autres; il se peut
d'ailleurs que certains soient incompatibles avec d'autres, et l'étude des axiomatiques
(systèmes d'axiomes) cohérentes reste un champ ouvert.
En classification automatique, Fisher et Van Ness (1971) ont mis en lumière quelques
propriétés qui permettent de guider le choix d'une méthode de classification automa-
Chapitre 2. Problématique de recherche
Classification
Automatique: .--- apprentissage
non supervisé
Affectation : ' apprentissage' supervisé
.....- Méthodes hiérarchiques
[
Méthodes ascendantes : - Méthodes des liens, - Médiane, - Centroide , - Ward 's.
Méthodes descendantes: Bi-coloration de graphes
P rt 't' t - Nuées dynamiques ,
[
Heuristiques: - K-means
- a 1 lonnemen _ Leader.
Algorithmes exacts
...- Apprentissage--Systèmes experts déductif
~ ~ppre~tissage - Analyse discriminante,
[
Techniques statistiques: - Apprentissage bayésien ,
inductif - k-plus proches voisins.
Affectation - multicritère
- Feature selection ... Machine learning: .
- Réseaux de neurones, - Arbre de décision , - SVM
- SCM ...
[
Critère unique de synthèse - UTADIS, - Ensembles approximatifs Surclassement de synthèse
Segmentation trichotomique, Méthodes N-Tomic, ELECTRE TRI , Filtrages flous, PROAFTN, TRINOMFC.
FIG. 2.4: Taxonomie des méthodes de classification
23
Chapitre 2. Problématique de recherche 24
T AB. 2.1 : caractéristiques des méthodes de classification
Nature des classes Nature des données
Caractéristiques Nombre de
Ordre Définition des Echelle de
Échantillon classes classes mesure
C lassi~ication automatique
Méthodes des Non connu n/a1 nia Gard2 Très grande taille
liens Médiane Non connu nia nia Gard <100
Centroïde Non connu nia nia Gard <100 Ward's Non connu nia nia Gard <100
Hiérarchiques Non connu nia nia Gard · <100
descendantes Partitionnement Fixé a priori nia nia Gard Très grande taille
Affectation avec apprentissage inductif
Apprentissage Quelconque
Non Ensemble Gard et lid5 Taille limitée bayésien ordonnées d'a pprentissage Analyse
Quelconque Non Ensemble Gard Quelconque
discriminante ordonnées d'apprentissage
KPPV Quelconque Non Ensemble
Gard Quelconque ordonnées d'a pprentissage
réseaux de Quelconque
Non Ensemble Gard Très grande taille
neurones ordonnées d'apprentissage Arbre de Nombre Non Ensemble
Ord3 et Gard Quelconque décision limité ordonnées d'apprentissage
SVM 2 nia Ensemble Gard et lid Quelconque
d'apprentissage
SCM 2 nia Ensemble Gard et lid Quelconque d'appsentissage
Affectation avec apprentissage déductif
système expert Quelconque Non Ensemble .
Gard Quelconque ordonnées d'apprentissage
Affectation multicritère
UTADIS Quelconque Ordonnées Seuils limites
Gard Quelconque d'utilité
Rough Set Quelconque Non Ensemble Gard, ord et
Quelconque ordonnées d'apprentissage nom4
Segmentation 3 Ordonnées Multiprofils Ord et Gard . Quelconque
trichotomique limites Intervalles
n-Tomic 3 à 12 Ordonnées d'indices de Ord et Gard Quelconque surclassement
Electre Tri Quelconque Ordonnées Monoprofil Ord et Gard Quelconque
limites
FFI Quelconque Non Multiprofils
Ord et Gard Quelconque ordonnées centraux
FFP Quelconque Ordonnées Multiprofils
Ord et Gard Quelconque limites
PROAFTN Quelconque Non Multiprofils Ord et Gard Quelconque
ordonnées centraux
TRINOMFC Quelconque Non Multiprofils
Ord et Gard Quelconque ordonnées centraux
1 nia : ne s'applique pas, 2 : Card : cardinale, 3: Ord : ordinale, 4: Nom: nominale., 5 : Iid : indépendants, identiquement distribués.
Chapitre 2. Problématique de recherche 25
T AB. 2.2 : caractéristiques des méthodes de classification (Suite)
Type de traitement Résultat escompté
Dissimilaritél Compensation Caractère Caractéristiques distancel
probabilité Inter-critères Nature explicatif
Classification automatique
Méthodes des liens Dissimilarité Totale Hiérarchie de
Subjectif Qartitions
Médiane Dissimilarité Totale Hiérarchie de
Subje~tif partitions
Centroïde Dissimilarité Totale Hiérarchie oe
Subjectif partitions
Ward's Dissimilarité Totale Hiérarchie de
Subjectif partitions
H iérarchiq ues Dissimilarité Totale Bipartition Subjectif
descendantes Partitionnement Dissimilarité Totale Une partition Subjectif
Affectation avec apprentissage inductif
Apprentissage bayésien Probabilité Totale Affectation Faible
Analyse discriminante Distance Totale Affectation Faible
KPPV Distance Totale Affectation Fort
Réseaux de neurones nIa Totale Affectation Absent
Arbre de décision Probabilité Partielle Affectation Fort
SVM Noyaux Totale Affectation Faible
SCM Selon la forme de
Totale Affectation Faible caractéristique
Affectation avec apprentissage déductif
Système expert nIa Totale Affectation Fort
Affectation multicritère
UTADIS utilité Partielle Affectation Fort Enveloppes Règle
Rough Set internes et Totale lexicographique Fort externes d'affectation
Segmentation Comparaison par Partielle Affectation Fort
trichotomique paire
n-Tomic Comparaison par Partielle Affectation Faible
paire
Electre Tri Comparaison par Partielle Affectation Fort
paire
FFI Comparaison par Partielle Affectation Fort
paire
FFP Comparaison par Partielle Affectation Fort
paire
PROAFTN Comparaison par
Partielle Affectation Fort paire
TRINOMFC Similarité Partielle Affectation Fort
Chapitre 2. Problématique de recherche 26
tique. Baulieu (1989) s'est placé dans le cadre bien particulier de la classification binaire
(présence-absence) pour dégager quelques postulats sur la fonction de dissimilarité. Han
sen et Jaumard (1997) ont établit une typologie de méthodes sur la base du résultat attendu : une partition, un packing, un clumping et une hiérarchie.
En apprentissage automatique, Vapnik (1998) fait référence à la théorie de cohérence
du processus d 'apprentissage. L'objectif de cette théorie est de déterminer les condi
tions nécessaires et suffisantes pour la cohérence du principe de minimisation du risque empirique, à savoir la convergence asymptotique du risque empirique vers le vrai risque.
Ainsi, la propriété de cohérence est relative aux méthodes d 'apprentissage automatique
qui cherchent à estimer le vrai risque par le biais, entre autres, du risque empirique.
Les tentatives d'axiomatisation les plus imp~rtantes se retrouvent dans le champ de
l'analyse multicritère. Yu (1992) puis Belacel (1999) et Henriet (2000) ont ainsi proposé
plusieurs propriétés souhaitables dans les méthodes de tri multicritère :
1. Universalité. Toute action est en mesure d 'être affectée à une des catégories.
2. Unicité. La catégorie à laquelle une action est affectée doit être unique.
3. Indépendance. L'affectation d'une action quelconque ne dépend pas de l'affectation
des autres actions. Cette propriété d'indépendance, distingue la problématique du tri des autres problématiques de choix ou de rangement. Le résultat obtenu par
une méthode de rangement ou de choix provient de comparaisons entre toutes les
paires d'actions, ce qui implique un risque de changement du résultat (renversement de rang pour la problématique de rangement) lors de l'ajout ou le retrait d'une action. La propriété d'indépendance interdit ce phénomène.
4. Homogénéité. Deux actions quelconques doivent être affectées à la même catégorie
lorsqu'elles se comparent de manière identique avec toutes les actions de référence.
5. Conformité. L'affectation des actions aux classes doit être conforme à la concep
tion des actions de référence.
6. Monotonie (Dans le cas particulier du tri ordinal). Si l'action a' domine l'action
a, alors a' doit être affectée à une catégorie supérieure ou égale à celle de a.
7. Stabilité. Le regroupement ou la division d 'une catégorie en plusieurs catégories
ne doit pas modifier l'affectation des actions aux catégories non concernées.
8. Nominalité. Un changement de numérotation des catégories ne doit pas modifier l'affectation des actions. Cet axiome est valable uniquement dans le cas du tri
nominal.
9. Neutralité. La permutation des actions ne doit pas modifier leur affectation. Cet axiome pour le cas des actions a été repris pour les points de profils par Henriet
(2000).
Chapitre 2. Problématique de recherche 27
Les axiomes présentés ont été élaborés dans un souci de conformité de la méthode
d 'affectation, d'une part à l'objectif de la problématique de tri , et d'autre part , à la
conception des actions de référence. Ces axiomes reflètent une forme de rationalité
parmi d'autres (Roy et Bouyssou, 1993; Yu, 1992). Cette brève caractérisation axioma
tique peut être complétée par une analyse de robustesse en introduisant la notion de
«version» de Roy (2004). Dans le cadre de la classification, ces versions pourraient re
présenter l'ensemble des informations (échantillon d 'apprentissage, hypothèses de forme ,
actions de référence, paramètres fixés à l'avance) qui permettent d 'estimer un classifi
cateur.
2.4 Problématique de recherche
Notre revue de l'état de l'art a révélé des forces et des faiblesses dans chacun des
grands paradigmes de la classification. L'ambition de cette thèse est d 'étendre le champ
d'application de certaines méthodes en tentant de conjuguer les avantages de l 'aide
multicritère à la décision et ceux de l 'apprentissage statistique supervisé.
2.4.1 Objet de cette thèse
Dans le cadre de cette thèse nous supposons que :
1. Les objets à classer sont situés dans un espace multidimensionnel de critères. Ces
critères sont définis par une structuration préalable du problème de classifica
tion. Ils sont potentiellement conflictuels et non commensurables. Ils peuvent être
mesurés sur un mélange d'échelles cardinales, ordinales ou nominales.
2. Les classes, au nombre de 3 ou plus, sont connues d'avance. Elles forment une
échelle nominale.
3. Le classificateur doit incorporer les informations contextuelles (normes, règles d'af
fectation) pertinentes ou imposées par l'instance humaine, organisationnelle res
ponsable.
4. À l'intérieur de ces contraintes, la construction du classificateur se base sur de
l'apprentissage supervisé. Il est possible de constituer un ensemble d 'apprentis
sage conforme aux contraintes exprimées et satisfaisant l'hypothèse de tirages
indépendants de distributions identiques.
Chapitre 2. Problématique de recherche 28
Détaillons certains de ces aspects.
2.4.1.1 Prise en compte du contexte de classification et du jugement de
«l'autorité de classification»
Cette dimension s'inspire de la démarche générale de l'aide multicritère à la décision. Nous empruntons à l'AMCD un état d 'esprit , une attitude constructiviste fondamentale
faite (i) de prudence (ii) d'attention au contexte, (iii) et de primauté donnée aux parties
prenantes.
Il importe toutefois de distinguer décision et classification. L'environnement humain (subjectif) de la décision se traduit par un système de préférences ou de valeurs selon
des axes orientés. En classification, l'accent est mis sur la cognition plutôt que le choix. Il
ne s'agit plus de préférences mais de jugement ou de croyances. Au décideur se substitue une «autorité de classification» (AC) consistant souvent en une communauté d 'experts.
Nous parlerons «d'aide multicritère à la classification» (AM CC) plutôt que de l'Aide Multicritère à la Décision (AMCD). Dans ce contexte:
(i) La prudence se manifeste en particulier dans l'affectation aux classes; elle requiert
entre autres de ne pas perdre de vue la définition préalable (sémantique) de ces classes, de justifier l'affectation, de qualifier les conséquences d'une mauvaise af
fectation.
(ii) L'attention au contexte signifie que le classificateur à construire doit être conforme aux hypothèses, aux normes de classification, voire . au langage utilisé par l'AC; il
doit par exemple incorporer les règles de classification souhaitées a priori; il doit aussi respecter la nature des données (imprécision, échelles de mesure, etc.).
(iii) Primauté de l'AC: l'AC est la responsable ultime de l'activité de classification. Il lui revient donc de normer cette activité, . au travers de différentes spécifications,
par exemple :
- la structuration du problème de classification: critères pertinents, échelles de
mesure, structures des classes; les règles a priori qui doivent être incorporées dans le classificateur;
- les prototypes de référence; - un modèle de classification (i.e. une famille de classificateurs) ;
- les modalités d'évaluation d'un classificateur.
La responsabilité ultime de l'AC interdit que le processus de classification soit entiè-
Chapitre 2. Problématique de recherche 29
rement automatique. Toutefois, ceci n 'exclut pas l'automatisation de certaines tâches ,
dans une perspective de facilitation du travail de l'AC.
2.4.1.2 Capacité de généralisation
En matière de classification, une exigence impérieuse à nos yeux est celle de la va
lidation empirique. Si l'AMCC traditionnelle prête attention à la validité contextuelle,
elle ne prévoit en général pas de mécanisme endogène à la construction du classificateur
pour tenir compte de données tirées au hasard. En effet , d 'une part , il ne semble pas
exister , à notre connaissance, de théorie ancrant solidement la construction de proto
types dans la réalité empirique. D 'autre part, l 'utilisation de tels prototypes au cours de l'estimation d'un classificateur ne semble pas limitee par des notions de «significativité»
au sens statistique.
On peut illustrer ce point par analogie avec l'inférence statistique classique. Celle-ci
nous enseigne que la procédure «construire d'abord (sans échantillon), tester ensuite »
est inefficace. Elle nous enseigne aussi une distinction fondamentale entre l'ajustement
d'un mo~èle et sa capacité prédictive.
L'apprentissage statistique offre un cadre plus général (non paramé~rique) pour
aborder cette même probl~matique. En raison de cett~ généralité, de grands échantillons
sont requis.
Certains contextes de clas~ification sont très peu bruités. Hormis ces rares cas, nous
tenons qu'une tentative de validation empirique est toujours souhaitable. Même l'an
nonce qu'un classificateur ne peut pas être statistiquement confirmé est une information
utile pour l'AC.
2.4.2 Questions de recherche
Nous pouvons maintenant énoncer de façon plus opératoire les questions de recherche
qui seront abordées dans les deux prochains chapitres.
Chapitre 2. Problématique de recherche 30
2.4.2.1 Prise en compte du «multi-classes nominal» en apprentissage statistique
La majorité des méthodes de classification en apprentissage statistique traitent de
la classification binaire. Sans perte de généralité, la fonction de perte est alors binaire (fonction de décompte d 'erreurs). Dans le cas de plus de deux classes, il n 'est pas évident qu'une simple fonction de décompte soit appropriée. Au contraire, l 'injonction
de prudence de l'AMCC nous invite à considérer en plus de détails les conséquences
d 'erreurs de classification, voire du refus de classer. Une première question de recherche
est:
Sous quelles conditions la classification multi-classes se réduit-elle ou non à la
classification binaire? Quel est le lien entre cette réduction et la pénalisation des
erreurs?
Comme en inférence classique, l'apprentissage statistique s'intéresse à la dérivation
d 'intervalles supérieurs de confiance (bornes) sur le risque (inconnu) d 'erreurs. En clas
sification binaire, il existe de bonnes approximations analytiques et des formules exactes
de calcul simple. Nous ne connaissons rien de comparable dans le cas multi-classes. Nous
tenterons de proposer des bornes multi-classes serrées et calculables, sachant que ces deux qualités sont antagonistes. La question suivante découle de cette réflexion :
Est-il possible de déterminer des bornes de «test» multi-classes simultanées? De
telles bornes peuvent-elles être à la fois calculables et serrées?
2.4.2.2 Conciliation AMCC - apprentissage statistique
L'AMCC et l'apprentissage statistique en classification se sont développés en vases
clos. Chacun de ces domaines a ses forces. Notre conjecture est qu'en combinant ces forces on peut améliorer la qualité et élargir le champ d'application de la classification
supervisée. Il s'agira donc de répondre à la question de recherche suivante:
Est-il possible de développer un modèle de classification (une famille générique de
classificateurs) :
(i) satisfaisant d'une part différentes exigences de l 'AMCC :
les critères sont incommensurables;
Chapitre 2. Problématique de recherche 31
- les critères peuvent être m esurés sur un m élange d 'échelles cardinales, ordinales,
nominales ;
- la règle d'affectation aux classes est facilem ent interprétable dans l'espace des
critères ;
- la règle d 'affectation peut incorporer facilem ent des éléments de règles a priori;
- elle permet d 'incorporer des prototypes.
(ii) et offrant d 'autre part une gamme «suffisante» d 'arbitrages entre précision et
complexité ?
La partie (i) de cett e question fera l'objet du chapit re 4. Soulignons que l'objet de ce chapitre n 'est pas de proposer un (<< meilleur») classificat eur, mais d 'examiner la possibilité de const ruire un classificateur selon les spécifications (i) de la question de
recherche ci-dessus. La richesse du modèle de classification proposé dans le chapit re 4
permettra d 'espérer répondre à la partie (ii).
2.5 Conclusion
Ce chapitre expose notre problématique de recherche. Il a été aussi l'occasion d 'ex
plorer le champ de la classification et de caractériser les différentes mét hodes. Not re
revue de l'état de l'art a fait ressortir d 'une part la richesse de ce domaine mult idis
ciplinaire qu'est la classification. D'autre part , la faiblesse et les limites des méthodes
existantes à traiter les problèmes de classification multi-classes et multicritère. Ceci a ap
puyé notre argumentation quant à la pertinence d 'une recherche qui tente de conjuguer les avantages de l'aide multicritère à la décision et ceux de l'apprentissage statistique
afin d 'étendre le champ d 'application de certaines méthodes de classification.
Deux soucis majeurs ont guidé cette recherche: i) la capacité de généralisation et ii) la prise en compte de la dimension multicritère et du jugement de l'autorité de
classification. Un premier défi de cette thèse est de mesurer la capacité de généralisation des classificateurs multL .. classes en termes de bornes sur le vrai risque. En effet , les bornes
dans la littérature concernent uniquement les classificateurs binaires. Nous pensons
qu 'il existe un lien entre l'asymétrie de la structure de pénalisation des erreurs et la
nature multi-classes du problème de classification. L'établissement et la formulation de
ce lien prouvera la possibilité d 'un bornage simultané du risque de généralisat ion des
classificateurs multi-classes.
Une question porteuse serait d'examiner dans quelle mesure il est possible de conci-
Chapitre 2. Problématique de recherche 32
lier les forces de ces deux approches: faire appel aux fondements de l 'apprentissage
statistique tout en incorporant des exigences de divers ordres propres au contexte multi
critère de classification: (jugements de l'autorité de classification, non-commensurabilité
des critères, diversité des échelles, etc). C 'est au niveau du modèle de classification que
cette conciliation doit être assurée. Notre deuxième défi sera de proposer un tel modèle.
Le prochain chapitre propose le développement des bornes sur le risque de généra
lisation en classification multi-classes. Dans un premier temps, nous énonçons et nous démontrons le principe de réduction, nous montrerons ainsi le lien entre le caractère
multi-classes d'un problème de classification et l'asymétrie de la structure de perte.
Dans un deuxième temps, nous développons deux types de bornes pour évaluer voir
construire des classificateurs multi-classes.
Chapitre 3
Bornes sur le risque de généralisation en classification
multi-classes
3.1 Introduction
33
En inférence statistique classique, on est souvent confronté à un arbit rage ent re ajustement du modèle d 'estimation aux données et capacité prédictive du modèle. Le
modèle est fondé sur des hypothèses sur les distributions de la population souvent fortes, qui permettent de développer des tests de signifiance sur tout l'estimateur ou une partie de l'estimateur. Cependant , dans la pratique, la vérification empirique des hypot hèses
distributionnelles est souvent sujette à débat.
En apprentissage statistique, la même problématique générale (ajustement aille don
nées vs. valeur prédictive) se pose, mais en termes différents. En effet , l 'apprentissage statistique, visant des estimateurs plus robustes , évite des hypothèses de dist ributions particulières de population, au prix d 'autres hypothèses, peut-être plus prudentes,
sur les estimateurs. Par suite, de nouveaux concepts et outils sont nécessaires pour
construire un estimateur. Ainsi , dans une problématique de classification, on cherchera
un estimateur, appelé ici classificateur, minimisant l 'erreur de généralisation, soit la probabilité de mal classer des observations futures. Une mesure particulière, communé
ment acceptée, de ce risque est exprimée par un intervalle de confiance, c'est-à-dire une
borne, qu'on tente de minimiser.
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 34
Ce chapitre est consacré au développement de telles bornes dans un contexte multi
classes. Dans un premier temps (sections 2 et 3), nous montrons que le caractère multi
classes d'un problème de classification est intimement lié à l'asymétrie de la structure
de perte retenue pour synthétiser les erreurs. Nous proposons ensuite (sections 4 et
5) deux méthodes de bornage pour évaluer la précision potentielle d'un classificateur
donné. Enfin (section 6), nous montrons comment ces méthodes peuvent être adaptées pour construire un classificateur en tenant compte du risque de généralisation.
3.2 Classification multi-classes et fonctions de perte
valuées
Les méthodes de classification issues de la théorie statistique d'apprentissage traitent
généralement de la classification binaire (à deux classes). Le problème de classification
multi-classes est décomposé en une série de problèmes binaires par une série de dichotomisations. Exemples: Allwein et al. (2000), Platt et al. (2000), avec l'exception d'Aiolli
et Sperduti (2005) et Dietterich et Bakiri (1995). Cependant, ce type de traitement pose certaines difficultés, telles que (i) l'allocation adéquate de l'espace entre les clas
sificateurs partiels (Abe et Inoue, 2002) (ii) l'expression des bornes sur le risque du classificateur global à partir des classificateurs partiels, (iii) l'évaluation uniforme des
erreurs. Dans ce chapitre, nous allons chercher plutôt des bornes simultanées (permettant des classificateurs simultanés) dans un contexte multi-classes, et permettant une
évaluation différenciée des erreurs de classification.
Nous considérons un problème de classification multi-classes, où chaque observation
(ci-après nommée exemple) z = (x, y) est constituée d'un vecteur x E X de m critères et d'un entier y E Y = {l, 2, ... , IYI} indiquant sa classe observée. Notons Z = X x y l'espace échantillonnaI d'un tel exemple, et zn l'espace des échantillons de n exemples générés aléatoirement par tirages indépendants. Nous adoptons l'hypothèse (Vapnik,
1998) que notre ensemble d'apprentissage est constitué d'exemples indépendants et
identiquement distribués (iid.) selon une distribution inconnue Pz. Cette hypothèse est
très générale et n'implique pas que pour différents y les aléas conditionnels (x 1 y), ou
pour différents x les aléas (y 1 x), soient iid ..
Soit C :2 y un ensemble fini des classes dites attribuables estimées par le modèle de
classification. Plusieurs raisons peuvent justifier l'ajout aux classes observées (y) des catégories supplémentaires telles «non-classé», «hésitation entre les classes YI et Y2»,
etc. En pratique, le fait d'admettre qu'un exemple est non-classé peut êtte plus prudent
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 35
que de le mal classer.
On appelle classificateur une règle d 'affectation (fonction) h : X ~ C . Tout 'classificateur repose sur un modèle de classification, c'est-à-dire une famille de formes possibles (hyperplans, boules et trous, intersections et unions de formes plus élémentaires, etc. ) dans l'espace des critères. Ainsi, le classificateur h est une instanciation d 'une famille générique de classificateurs 1i caractérisée par certains paramètres. L'assignation de valeurs à ces paramètres peut résulter du processus d 'estimation du classificateur. .
Dans ce contexte, on fait face à ICI x IYI cas d 'erreurs possibles (incluant les «non
erreurs») , à savoir toutes les paires (classe attribuée, classe observée). L'ensemble de ces cas d 'erreurs sera synthétisé par une fonction de perte Q : C x y ~ [0, 1]. Nous supposerons que la perte due à uhe non-erreur est t oujours nulle (Q(y , y) = 0 \/y E Y ) et que Maxc,yQ(c, y) = 1. Une fonction de perte sera dite binaire si Q(c, y) E {0, 1} V(c, y) E C x y , c'est-à-dire si elle n 'effectue qu'un décompte d 'erreurs. Elle sera dite
valuée si elle prend des valeurs intermédiaires quelconques entre 0 et 1. La fonction de perte valuée est plus générale, elle est cardinale et normalisée. Dans un contexte multiclasses, il est naturel de considérer une fonction de perte valuée, dans la mesure où les conséquences de différents cas d'erreurs de classification peuvent largement varier en gravité. Dans un diagnostic médical, par exemple, classer un patient cancéreux comme enrhumé est plus grave que de le classer comme ayant besoin d'autres examens. Cette nature valuée permettra une classification plus proche du langage de l'incertain. Le tableau 3.1 présente deux exemples de fonctions de perte valuée et binaire.
TAB. 3.1: Matrice de la fonction de perte dans des cas valué. et binaire.
Classes observées y Classes observées y
1 2 3 1 2 3 Classes 1 0 1 0,25 0 1 1
attribuées 2 0, 5 0 0 1 0 1 '
c 3 1 0, 1 0 1 1 0 NC* 1 0, 15 1 0 1 1
* : Non Classé Cas 1 : Q valuée Cas 2 : Q binaire
La construction d'un classific'ateur se fait sur un échantillon d'apprentissage S de zn. On appelle vrai risque R( h) associé au classificateur h la valeur espérée de la fonction de perte selon Pz : R(h) = EzQ (h(x) , fj), une quantité théorique inconnue. La valeur
empirique associée est le risque empirique défini par: r (h) = ~ ~7=1 Q (h( x j) , Yj) .
Nous montrons maintenant un résultat fondamental, à savoir que, sous les hypo
thèses précédentes, les qualificatifs multi-classes et valué sont indissociables.
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 36
3.3 Principe de réduction des cas d'erreurs de clas
sification
Le risque d 'un classificateur dépend d 'une part du décompte des erreurs de classification, d 'autre part de la forme de la structure de perte. Nous montrons ici que la complexité de représentation du premier point est intimement liée à celle du second point. L'évaluation de la performance d 'un classificateur h implique la prise en compte de tous les cas d 'erreurs (c y) E C x y. Soit Ney le nombre d 'observations dans § dans chaqùe cas d'erreurs (c , y) tel que L:(e,Y) ECx y N ey = n. Selon l'hypothèse iid, la
variable aléatoire N = ( Ney 1 (c y) E C x Y) suit une distribution multinomiale avec
des probabilités inconnues 7re ,y ~ Pr(x,y) {h( i ) = c 1 f) = y} (c , y) E C x y.
Considérons maintenant l'ensemble ordonné des différentes valeurs que peut prendre
"la fonction de perte noté ° = ql < ... < qs = 1. Il existe une fonction cl' agrégation a qui va projeter l'ensemble C x y des cas d'erreurs sur l'ensemble des catégories de perte
{l, ... , s} (tel que Q e,y = qi V(c, y) E a-1 (i) , 1 ~ i ~ s). Considérons le vecteur aléatoire
K = (Kl ' "' , Ks) , ou Ki ~ 2:(c,y)Ea-'
(i) Ney est le nombre d'observations de S dans la catégorie de perte i , 1 ~ i ~ s comme illustré dans le tableau 3.2 dérivé du tableau 3.1.
TAB. 3.2: Réduction des cas d'erreurs en catégories de perte
Catégorie de perte i · 1 2 3 4 5 6
Perte unitaire qi ° 0,1 0,15 0,25 0,5 1
Cellules (c , y) (1,1), (2,2) (2,1) ( 4,2) (1,3) (3,2)
(1 ,2) , (3 ,1) correspondantes (2,3), (3,3) (4,1), (4,3)
Nombre d'exemples ki 4 1 1 1 1 4
Soit J( = {k E Z~ 1 eTk = n} l'espace des réalisations possibles de K. Donc le risque empirique peut s'écrire sous forme f ~ lqTK. La proposition suivante permettra de
n
caractériser précisément les problèmes de classification multi-classes.
,Proposition 1 K = (K1 , ... , Ks) suit une distribution multinomiale avec les probabili
tés P i ~ L:(e,y)Ea-1(i ) 7re,y, 1 ~ i ~ s .
En conséquence, le vrai risque peut s'exprimer d 'une manière équivalente par R = T ~s
q P = L...ti=1 qiPi
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 37
Une conséquence importante du principe de réduction est la suivante:
Corollaire Un problème de classification avec IYI > 2 se réduit à un cas binaire si
et seulement si la fonction de perte est binaire.
Dans ce qui suit , multi-classes signifie que l~ fonction de perte prend des valeurs fractionnaires qui reflètent l 'intensité ou la gravité relative des erreurs t el que s > 2.
3.4 Borne sur l'ensemble de test
Rappelons que le vrai risque est une quantit é théorique inconnue. En ut ilisant un
ensemble de test , nous allons dét erminer un niveau de confiance supérieur sur ce vrai
risque. Ce niveau est appelé borne. Nous cherchons la borne la plus serrée possible. Le
contexte «ensemble de test » consiste à évaluer un classificateur donné h. Par cont re,
la question de design consiste à choisir un classificateur particulier parmi une famille de classificateurs. Notre objectif principal dans cette partie est le test.
Le fait que le classificateur h soit donné n 'implique pas que les entrées x soient connues. En effet , la performance du classificateur est évaluée uniquement en t erme des
paires de sortie observées (h(xj) , Yj), indépendamment du modèle de-classification.
La notation suivante sera utilisée :
- ei est le i èm e vecteur unitaire, - e(l , 1, .. . , I)T le vecteur somme de dimension appropriée au contexte,
- U = {x E lR~ 1 eT x = 1} le simplexe unitaire de dimension s - 1, - F(p; r) ~ Pr {f ::; r 1 p} la distribution du risque empirique comme fonction de p.
Si la distribution multinomiale représente exactement le processus d 'occurrence des
erreurs, nous allons démontrer par la suite qu'une approximation de cette distribution
peut s'avérer intéressante dans certains cas. Dans les définitions qui sui~ent , nous en
visageons donc un modèle d 'erreurs stochastique abstrait, qui est entièrement défini
par le vecteur de probabilité p. La définition suivante est une généralisation de celle de
Langford (2005).
Définition 2 Une borne de queue est une fonction B : [0 , 1]2 ~ [0 , 1] telle que \Ir E
[0 , 1] , 6 E (0, 1] et\lp E U tel que qTp > B(r, 6) : Pr{f::; r 1 p} < 6.
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 38
r est un seuil paramétrique, ce seuil va être considéré par la suite comme le risque
empirique observé. Avant d'examiner les observations, pour un niveau de confiance
donné 8, la borne est une fonction de ce seuil. La borne définit la propriété que quelque soit le seuil, sous un vrai risque plus grand que la borne, la. probabilité d 'observer
un risque empirique plus petit que le seuil ne dépasse pas 8. Une borne m inimale
(la plus serrée possible) est , bien entendu, unique. L'ensemble des paires (r , 8) où la borne est réalisable va dépendre du modèle probabiliste particulier considéré.
Les bornes minimales ne peuvent pas être exprimées analytiquement. Nous allons
plutôt chercher des bornes numériques qui nécessiteront de l'optimisation. La définition
2 peut être traduite par plusieurs programmes mathématiques, avec différents avantages
en termes de temps de calcul. Ceci est illustré par deux familles de formulation. Nous allons supposer dans ce qui suit que F est continue en p.
Le programme mathématique suivant est une représentation directe de la définition
de la borne:
(3.1)
Cette définition implique que pour n'importe quel p tel que qT p > Bl (r , 8) , F (p; r) < 8. Ceci nous appelle à remplacer la définition (3.1) par la variante suivante:
B~ (r,8) = Supp {qTp 1 p E U, F(p;r) = b}
La fonction F sera dite risque-complète si :
Vr E [0, 1) , lim F (p; r) = 0 p---tes
Proposition 3
i) Bl est une borne sur le risque dans le sens de la définition 2.
ii) Si F est risque complète, Bl = B~.
(3.2)
(3.3)
Une autre implication plus indirecte de la définition 2 peut être représentée par les
deux conditions suivantes:
v (jJ; r) ~ Supp
S.l.c.
F(p; r) qTp 2 jJ
pEU
(3.4)
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 39
B 2 (r , 5) = Sup {f3 1 V (f3; r) 2: 5} (3.5)
Dans l'équation (3.4) , le paramètre 13 E [0 , 1] prendra ultimement la valeur de la
borne. Pour chaque valeur possible de 13, nous cherchons la plus grande probabilité
possible d 'observer un risque empirique égal à r , en supposant que le vrai risque est au moins égale à {3 . Par un simple argument de relaxation, on vérifie que, V (.; r) n 'est pas croissante. Ceci implique que la borne B 2 choisie à l'étape (3.5) garant it que pour
n 'importe quel {3 > B 2 (r , 5) nous avons V (13; r) < 5. Ceci reste valable pour la vraie
distribution inconnue du risque empirique, étant donnée la maximalit é de V (.; r) .
Proposition 4
3.4.1 'Borne minimale de queue de multinomiale
Nous considérons le modèle probabiliste exact de la distribution multinomiale et
nous étudions la calculabilité de la borne Bl (r , 5). Nous considérons pour ce qui suit
la notation suivante :
-' Ck = ru:~ k i l (k E lC) ,
- f (p; k) = Pr {k = k 1 p} = Ck f1:=lP7 i (k E K) ,
- lCr = {k E lC 1 qT k ::; nr} ,
l'ensemble des réalisations possibles de k dont le
risque empirique ne dépasse pas r.
- F(p; r) = Pr {f ::; r 1 p} = LkElCr
f(p; k) ,
- Vx E :lRs, Diag(x ) est la matrice diagonale tel que Diag(x )ii = Xi Vi.
Il est facile de prouver que F est risque-complète. Nous allons établir maintenant
une autre propriété importante.
Rappelons (Mangasarian, 1969), que si 0 un ouvert dans:IR, une fonction B : 0 ~ :IR
est pseudo-concave si elle est différentiable sur 0 et si pour tous x, y E 0 nous avons:
\lB (x) (y - x) x ::; 0 ==;. B (y) ::; B (x) (3.6)
La propriété suivante est essentielle pour la détermination d 'une borne exacte.
Proposition 5 F est pseudo-concave en p sur :IR~+
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 40
Cette propriété a· deux implications cruciales : (i) un optimum local du problème
(3.1) est aussi un optimum global, et (ii) les conditions Karush-Kuhn-Thcker (KKT)
sont nécessaires et suffisantes pour caractériser l'optimalité globale (Mangasarian, 1969).
Ainsi , la résolution du problème (3.1) revient à déterminer un point KKT.
Nous avons donc un critère opérationnel pour trouver une solution exacte pour le problème (3.1) quand le processus d 'occurrence des erreurs est modélisé exactement par une distribution multinomiale. Cependant , n 'importe quelle procédure de calcul
nécessitera des évaluations multiples de F (.; r) ; par conséquent plusieurs énumérations
de Kr. Or, IKI = (n~~~l) = O(sn) (Benabbou, 2006) , et pour des valeurs non-triviales
de r , IKrl croit d 'une manière similaire.
3.4.2 Une borne minimale sous une approximation normale
Même si nous avons établi la calculabilité théorique de la borne, son talon d 'Achille
est celui, pratique, de la complexité. La complexité du ·problème (3.1) sous la distribution multinomiale nous incite à chercher des approximations moins contraignantes.
Plusieurs pistes sont possibles pour atteindre cet objectif. Un premier candidat serait
d'examiner la distribution normale multi-variée comme approximation de la distribu
tion multinomiale. En effet, à partir du théorème central limite, avec une grande taille
de l'ensemble n, la distribution multinomiale normalisée converge vers une distribution normale multivariée avec les deux premiers moments identiques.
Proposition 6 Pour n 2: 2 :
(i) E[~Klp] =p rv rvT
(ii) n (p) ~ Cov(~K, ~K 1 p) = ~(Diag(p) - ppT)
Comme approximation de ~K 1 p, nous considérons l'aléa multi-normal X 1 p rv
N (p , n (p)) . Le risque empirique devient alors r = qT X rv N (qT p, a 2 (p)) avec a 2 (p) =
qT0, (p) q = ~ (/'i;T P - (qTp)2) , et /'i; ~ Diag (q) q.
La fonction F dans le problème (3.1) devient:
(3.7)
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 41
Avec <I> la fonction de répartition de la loi normale cent rée réduite.
Une fois de plus , il est facile de démontrer que F est risque complète.
Proposition 7 F(. ; r ) est pseudo-concave
Nous pouvons obtenir donc une solut ion exacte pour le problème (3.1) sous une
distribut ion multi-normale. En outre, le t emps requis pour les évaluations des fonctions
est maintenant quasi-indépendant de la t aille des paramètres (n , s, r ) .
3.4.3 Optimisation de la borne
Sous les deux distributions multinomiale et multi-normale, la meilleure borne est la
solut ion du programme mathématique:
B(r, b) = Maxp
S.l.c.
qTp
F(p;r) 2: b eTp = 1
p2:0
(a) (3.8)
avec F pseudo-concave en p. La seule contrainte compliquante dans ce problème · est
(a). La non-concavité de F exclut la construction d 'enveloppes internes ou externes sur
son hypographe. Cependant, l'ensemble de niveau:
r 8 ~ {p E U 1 F(p; r) 2: b} (3.9)
est convexe. Ce qui implique que si un point pO n'appartient pas à l'intérieur relatif de
r 8 , l'inégalité (3.10)
est valide pour r 8. Notre stratégie de résolution consiste à construire des polyèdres
relaxations de r 8 qui seront progressivement reserrés.
Soit P = {p E U 1 aip 2: bi , 1:::; i :::; s} un polyèdre contenant r 8 et:
{3 = Max { qT P 1 pEP} (3.11)
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 42
Il est clair que (3 est une borne supeneure sur la borne optimale B(r 6) (voir
figure 2a). Considérons maintenant un point réalisable fi E r <5. Soit f3 = qT fi et P{3 ~ {p EPI qT p ~ f3 } (un ensemble de localisation). Comme f3 est une borne in
férieure de B (r , 6) , nous avons
Proposition 8 P{3 contient toutes les solutions optimales de 3.8.
Notre mécanisme de génération de coupes est une variante de la méthode générale
des centres (Huard, 1967) , qui jouit d 'excellentes propriétés de stabilité. A partir d 'un point P de l'intérieur relatif de P , on peut mesurer la distance pondérée à chaque hyperplan frontière de P. Un centre P peut être défini comme un point P qui maximise la plus petite distance pondérée (voir figure 3.1 :b).
Comme la distance euclidienne d 'un point donné fi à l'hyperplan {p 1 aT p = b} est
1 aT P - b 1 / Il a Il , un centre p de P{3 peut être déterminé en résolvant le programme li-
néaire :
Maxp,z S.l.c.
avec é > 0 un poids choisi.
z aip - Ilaili z ~ bi
qT P - é Il q Il z ~ f3 pEU
(3.12)
L'algorithme génère une suite (PJ, ) d'ensembles de localisation, deux suites de
points (Xt ) C r<5 et (Yt) C PJt \ r<5 et les bornes associées f3t = qTXt , 13t = qTyt . A chaque itération t, un centre Pt E PJt est calculé. Si F (Pt) > 6, ce centre devient le prochain Xt+ l' Sinon, une coupe à travers Pt est générée, et un nouveau seuil supérieur sur la borne Yt+l est calculé. Dans les deux cas, nous avons une amélioration de la borne
o < 13t+l - f3t+l < 13t - f3 t et PJ7+\ C PJt'
Proposition 9 N 'importe quel point d'accumulation de la séquence (Xt) est une solu
tion optimale de 3.8.
En pratique, l'algorithme peut être accéléré avec recherches unidimensionnelles ap
prochées. Il s'arrête quand un seuil de précision prédéterminé est atteint. La valeur
actuelle de 13t va servir comme estimation conservatrice de la borne sur l'ensemble de
test. Faisons remarquer que 13t est une borne de queue au sens de la définition 2.
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 43
----------
p
a
FIG. 3.1 : a : Majorant sur la borne qT p = fi. b : Centre ]3 s'éloignant des contraintes tout
en améliorant l'objectif.
Chapitre 3. Bornes sur le risque de généralisation en classiEcation multi-classes 44
3.4.4 Expérimentation exploratoire des bornes
L'objectif de cette section est ; primo d 'étudier le comportement et la performance
des deux bornes sous différentes conditions. Secundo, de comparer les deux bornes et d 'analyser la qualité de l'approximation multi-normale.
Plan expérimental
Les deux bornes ont été étudiées sous différentes conditions. Nous avons fixé quat re facteurs de contrôle :
Facteurs de contrôle
Risque empirique r
Niveau de confiance requis 6
Taille de l'ensemble de test n
N ombre des catégories de perte s
Valeurs
0.05 , 0.1 , 0.3 , 0.6, 0.9
0.02 , 0.05 , 0.10, 0.15
20, 50, 100, 200
3, 4, 6
Ce plan couvre 480 combinaisons possibles des paramètres. Nous avons utilisé MAT
LAB 7 pour calculer les bornes. La borne multi-normale a été obtenue dans un temps
de calcul négligeable dans tous les cas. Par contre, la borne multinomiale a été obtenue
dans seulement 316 sur 480 cas possibles. Les cas où la borne multinomiale n 'a pas pu être calculée sont :
s n r
4 100, 200 0.05, 0.1 , 0.3, 0.6, 0.9
6 50 0.3, 0~6 , 0.9
6 100, 200 0.1,0.3 , 0.6, 0.9
Modèle multiplicatif
Afin d'étudier le comportement des bornes, nous avons déterminé pour chaque borne un modèle multiplicatif de moindres carrés généralisé sous la forme:
ln Borne = ŒO + Œlln r + Œ2ln 6 + Œ3ln n + Œ4ln s + E (3.13)
L'impact des quatre facteurs de contrôle est résumé dans le tableau 3.3.
Les quatre facteurs de contrôle sont statistiquement signifiants pour le calcul de
la variation de la borne multinomiale. Les trois premiers le sont aussi pour la borne
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 45
TAB. 3.3: Impact des quatre facteurs de contrôle sur les bornes multinomiale et mult inormale
Borne M ul tinomiale Multi-normale
R2 ajusté 0.968 0.975
Coefficient du Estimé Intervalle de Estimé Intervalle de
facteur de contrôle confiance à 95% confiance à 95%
CY l 0.701 [. 683, .718] 0.746 [.735 , .757]
CY2 -0.103 [-.128, -.079] -0.105 [-.121 , -.090] .
CY3 -0.216 [-.240, -.192] -0.159 [-.173, -.146]
CY4 -0.103 [-.230, - .183] -0.01 [-.043, .041]
multi-normale. En plus, les signes des facteurs significatifs sont en accord avec nos anticipations a priori. Ceci nous ouvre une autre voix de recherche, à savoir la possibilit é
de développer des approximations très proches de la borne multinomiale.
Comparaison des deux bornes
Afin de déterminer la qualité de l'approximation multi-normale, nous avons ét udié la différence entre les deux . bornes. Soient B M et BR respectivement les deux bornes multinomiale et multi-normale. La différence BR - BM avait une moyenne globale de -0.00883 pour les 316 cas, et un écart type global de 0.00936. La sous-estimation de la borne multinomiale par la borne multi-normale s'explique par le fait que le support de la multi-normale se prolonge au-delà de celui de la multinomiale.
Il serait aussi instructif d 'examiner comment le biais multi-normal est distribué sous les différents cas. Les tableaux 3.4 et 3.5 nous donne la moyenne (avg) et l'écart type
(std) selon les différentes paires (n , r) et (n , s) respectivement:
Comme prévu, la différence entre les deux bornes se réduit avec l'augmentation de la taille de l'échantillon. Cependant , pour justifier n 'importe quel effet systématique des facteurs de contrôle, un modèle multiplicatif comme le précédent a été testé pour
Ln(BR/BM ) comme suit:
Ln(BR/BM) = -0.093 + 0.171n(r) - 0.0251n(s) - 0.0221n(b) - 0.0151n(n) (3.14)
Le R2 ajusté est de 0.255, et seul le risque empirique a été significatif ([0.011 , 0.022] comme intervalle de confiance à 95%) . Nous pourrions formuler la conjecture que les valeurs extrêmes de r peuvent causer une large dispersion via une asymétrie plus
prononcée de la distribution multinomiale.
Chapitre 3. Bornes sur le risque de généralisati?n en classification multi-classes 46
TAB. 3.4: La moyenne et l'écart type de la différence entre les bornes multinomiale et
multi-normale selon les paires (n , r)
n r
0.05 0.1 0.3 0.6 0.9
20 avg -0.02080 -0.01965 -0.01819 -0.01990 -0.01479 std 0.00817 0.00554 0.00149 0.00330 0.00042
50 avg 0.00519 -0.00465 -0.00394 -0.00613 -0.00786 std 0.00480 0.00294 0.00142 0.00176 0.00134
100 avg -0.00179 -0.00119 -0.00110 -0.00264 -0.00415 std 0.00207 0.00170 0.00105 0.00101 0.00109
200 avg -0.00742 -0.00018 -0.00045 -0.00114 -0.00191 std 0.01227 0.00097 0.00059 0.00056 0.00069
TAB. 3.5: La moyenne et l'écart type de la différence entre les borne? mul tinomiale et
multi-normale selon les paires (n , s). n s
3 4 6 20 avg -0.01934 -0.01820 -0.01846
std 0.00521 0.00503 0.00508
50 avg -0.00410 · -0.00294 0.00067 std 0.00527 0.00534 0.00653
100 avg -0.00233 -0.00095 -0.00163 std 0.00175 0.00171 0.00213
200 avg -0.00081 -- --* -0.01445**
std 0.00101 ----* 0.01444**
*Les valeurs de la multinomiale ne sont pas disponibles
** : 8 cas seulement.
3.5 Borne PAC-Bayes
3.5.1 Principes
L'approche PAC-Bayes remonte à McAllester (1999, 2003). Elle consiste à établir une garantie PAC pour un classificateur de Bayes. On cherche une borne valide avec probabilité 1- <5 sur le risque d'un classificateur de Bayes (Marchand, 2003). Le classificateur de Bayes est pris ici dans un sens plus large que sa définition classique. L'approche de Bayes dans un contexte PAC consiste à définir une distribution ~(h) sur un espace 7-{ de
classificateurs qui représente notre degré de croyance a priori que le vrai classificateur
-------------- --------
Chapitre 3. Bornes sur le risque de généralisation en classification mu1ti-classes 47
soit h. À partir de l'information fournie par les données (l 'échantillon d'apprentissage
S), et le degré de croyance a priori sur ce que sont les bons classificateurs, nous choisissons une distribution a posteriori Ù(h) qui servira à classer un nouvel exemple x .
Chaque distribution Ù(h) définit un classificateur de Bayes Bn. Pour tout exemple x,
la classe assignée Bn (x) par ce classificateur de Bayes est :
BDCx) = argmaxyEy [L:hEH . h(x)=yÜ(h)] (3.15)
Ainsi, le classificateur de Bayes exprime un vote de majorité sur 1{ pondéré par
Ù( h). Quel que soit le modèle de classification 1{, le classificateur de Bayes fournit la meilleure prédiction de la classe lorsque cette décision s'appuie uniquement sur Ù.
Cette propriété suggère que l'approche PAC-Bayes peut aussi avoir un intérêt dans un contexte de classification multi-classes.
Dans un contexte multi-classes, la définition du classificateur de Bayes est la même,
seul l'ensemble des classes étant sujet à changer. Dans notre contexte particulier, l'en
semble C des classes prédites par le classificateur h, comprenant celui des classes observées y, nous définirons le classificateur de Bayes par :
(3.16)
Le théorème PAC-Bayes nous fournira une borne sur .le risque de Bn valable pour
tout Ù. Cependant, pour peu que la famille 1{ soit grande, il devient rapidement incalculable. Il est alors d'usage de lui substituer un classificateur plus simple, associé à
la même distribution Ù, que l'on nomme classificateur de Gibbs Gn . Nous tirons au
hasard un classificateur h dans l'espace des classificateurs 1{ selon la distribution a
posteriori Ù. Le classificateur de Gibbs affecte alors à chaque exemple la classe donnée par le classificateur h retenu. Par définition, le vrai risque de Gn est l'espérance du vr~i
risque sous chaque classificateur h E 1{ selon la distribution Ù :
(3.17)
et son risque empirique est l'espérance du risque empirique de h selon la distribution
Ù:
(3.18)
Le classificateur de Gibbs est stochastique car, pour chaque x à classer, il tire au hasard un h selon Ù puis classe x avec h. Le classificateur de Bayes Bn, par contre, est
déterministe par définition.
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 48
Avant de l'étendre au cas multi-classes, nous rappelons le théorème PAC-Bayes dans
le cas de la classification binaire. Le théorème PAC-Bayes a été proposé initialement
par McAllester (1999, 2003). Nous énonçons ici la version due à Langford (2005) et Seeger (2002). La borne PAC-Bayes dépend de deux quantités le vrai risque et le risque empirique du classificateur de Gibbs.
Définition 10 Soient Q( et ~ deux distributions de probabilité sur un même espace.
On appelle divergence de K ullback-Leibler entre Q( et ~ la quantité
~(T) K L(SJ3 112l) = Er~'llin 2l(7')
Intuitivement , cette divergence mesure un "écart" (distance asymétrique) entre une
distribution œ et une distribution de référence 2L Dans le cas où les distributions en question sont deux Bernoulli avec taux respectifs de succès p et q, cette divergence sera notée:
q . 1- q kl(qllp) = qln- + (1- q)ln--.
p 1- p (3.19)
Théorème Il (Cas binaire) Pour tout espace de classificateurs H , pour toute distri
bution à priori s,p SUT H , pour tout b E (0, 1] on a :
Ce théorème implique que le risque empirique du classificateur de Gibbs est proche de son vrai risque lorsque K L(ü 1Is,p) est petit. Il nous donne une borne sur le classificateur de Gibbs. Cette borne peut être transformée en une borne sur le classificateur de Bayes. Dans un contexte de classification binaire, pour un ensemble de classificateurs binaires H, le classificateur de. Gibbs peut être défini par:
Gû(x) = Prhrvû {h(x) = 1} (3.20)
Dans un contexte multi-classes, nous allons plutôt utiliser la relation entre les vrais risques des deux classificateurs. Il est établi dans (Marchand, 2003) que pour des clas
sificateurs multi-classes, le vrai risque du classificateur de Gibbs est au moins la moitié
du classificateur de Bayes:
R(Bû) :::; 2R(Gû ) (3.21 )
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 49
Remarquons que dans le cas où la distribut~ion D possède la propriété qu'il existe un h* E 1t tel que h*(x ) = Bü(x ), la borne sur le risque du classificateur de Bayes peut être transformée en une borne sur un seul classificateur h* dit Bayes équivalent.
Par un choix avisé de .Q et de SfJ, on obtient une borne serrée sur le risque des SVMs à partir du théorème PAC-Bayes. Remarquons aussi qu 'en minimisant la probabilité
de différence entre un classificateur stochastique et un classificateur déterministe, les résultats du théorème PAC-Bayes ne se limitent pas aux classificateurs stochastiques et
peuvent s'appliquer à d 'autres formes de classificateurs (Catoni, 2006).
Nous établissons maintenant un nouveau théorème PAC-Bayes pour le cas multi
classes.
3.5.2 Borne PAC-Bayes multi-classes
Rappelons que le vrai risque d'un classificateur h, dans un contexte de classification
multi-classes, est R = qT p, et le risque empirique R( h) = ~qT K (p (h)) , où Ki (p (h)) est le nombre d'exemples qui tombent dans la catégorie de perte i, Pi (h) est la. probabilité (dépendant du classificateur h retenu) qu'un tirage tombe dans la catégorie de perte i,
et qi est la perte unitaire de la catégorie i, i E L.
Dans le contexte du classificateur (stochastique) de Gibbs , définissons pour i EL :
1\(0)
~i(D)
(3.22)
(~(D) est une variable aléatoire dont la distribution découle de c~lle de Z, avec
Ez~(.Q) = 15(0)).
Nous définissons le vrai risque du classificateur de Gibbs par:
(3.23)
et le risque empirique du classificateur de Gibbs par:
(3.24)
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 50
Dans le cas mult i-classes, pour un classificateur donné, l 'aléa fondamental gouver
nant chaque tirage observé est de type Hyper-Bernoulli1 plutôt que Bernoulli. En appli
quant directement la définition 10, on voit que la divergence de Kullback-Leibler entre
deux aléas Hyper-Bernoulli de paramètres resp~ctifs (a , s) et (b , s) est:
kl (b lia) = 2::=1 bi ln bi
(3.25) ai
Nous établissons mai~ltenant un théorème PAC-Bayes dans le cas multi-classes. Posons:
(3.26)
la probabilité que le classificateur h ait exactement ki exemples qui tombent dans la catégorie de perte i .
Lemme 12 Pour toute distribution à priori s,p sur 1{ :
~r(Eh~~B(~, h) ~~(n;~~l)) ~1-8
Lemme 13 Pour toute distribution a posteriori 0 et tout k E K :
Eh~n [~ln (B(~, h))] ~ kl(t;;(û) IIp(û))
En appliquant ces deux lemmes, nous obtenons le théorème PAC-Bayes suivant dans le cas multi-classes :
Théorème 14 Pour tout espace de classificateurs multi-classes 1{, pour toute distri
bution a priori s,p sur 1{, pour tout {) E (0, 1] on a :
( K L(Ollm) + In(l (n+S-1)))
~r \iû: kl(t;;(û) Il p(û)) ~ "., n 8 5-1 ~ 1 - 8 (3.27)
Le théorème PAC-Bayes dans le cas multi-classes nous donne une borne sur la
divergence kl(~(O) Il ]5(0)). Nous tentons maintenant de déterminer une borne sur le vrai risque R(O) du classificateur de Gibbs. s,p et {) étant fixés, considérons la fonction:
r(K, û) = SUPXEry>,' { qT xl n· kl(Kll x) ~ KL(ûll~) + ln G (n; ~ ~ 1) ) } Il est clair que r(ü) == r(~(ü) , ü) est une variable aléatoire dérivée de z.
1 Par extension de l 'aléa de Bernoulli , nous appelons aléa Hyper-Bernoulli de paramètres (p, s) l'aléa prenant comme valeur le i ème vecteur unitaire de dimension s avec probabilité Pi, 1 ::; i ::; s.
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 51
Théorème 15 Pour toute distribution à priori Sf-l ,
R.r (\iû : R(û) :::; r(û)) 2: 1 - 6. z
3.5.3 Estimation de la borne PAC-Bayes
Le théorème 15 permet de calculer une borne déterministe (sous la forme d 'une
espérance de vraie borne) pour toute distribution a posteriori Û donnée. En nous re
streignant au cas où la famille H de classificateurs est finie , nous montrons d 'abord que
pour Û fixée , l'estimation de cette borne PAC-Bayes revient à résoudre un programme
mathématique convexe simple. Nous considérons ensuite la recherche d'une distribution a posteriori permettant de resserrer cette borne.
Soit une famille finie 7-{ de classificateurs multi-classes. Les probabilités Sf-l et Û
peuvent maintenant être représentées respectivement par des vecteurs 1f E ryt~ 1 et p E ryt~ l .
Calcul de la borne pour p donné
Soit ~(p) = n-1 L:hEH K(h) la réalisation observée de ~(p). Posons:
f(p) = ~ L:hEH Ph ln ~~ + ~ ln(~ (n~~~l)) - L::=1 ~i(P) ln L::=1 ~i (P) g(p, p) = - L::=1 ~i(P) lnpi
Une borne B(p) sur le risque du classificate~r de Gibbs est obtenue en cherchant
des probabilités maximisant ce risque:
(SP)
B(p) = MaxpqTp
S.l.c.: g(p, p) :::; f(p)
L::=lPi = 1
p2:0
(1)
(2)
(3)
(3.28)
On voit que la contrainte (1) de ce programme mathématique est équivalente à
(1 (n + 8 - 1)) n·kl(~llp):::;KL(pll1f)+ln J 8-1 . (3.29)
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 52
Par suite, B(p) = r(l'\;(p) , p). Ainsi, la solution optimale p*(p) de (SP) nous donne pour chaque p une estimation pessimiste (défavorable) de p(p) garantissant un niveau de confiance uniforme 1 - 6.
Les remarques suivantes nous montrent que la résolution du programme mathéma
tique est facile.
Remarque 16 La fonction g(., p) est strictement positive, différentiable avec un gra
dient strictement négatif, et strictement convexe.
Remarque 17 Comme les contraintes (2) et (3) sont linéaires, et que la contrainte
(1) est de la forme «fonction convexe:::; constante)) , le domaine réalisable est convexe.
Comme la fonction objectif à maximiser est concave, il s 'agit d 'un problème convexe.
Optimisation locale sur p
Nous souhaitons trouver une distribution a posteriori p sur les classificateurs, don
nant la plus petite borne B(p) possible. Conceptuellement, le problème à résoudre est:
Minp B(p)
S.l.c.: LhE'H Ph = 1
p?,O
(3.30)
La fonction B n'a pas de régularité intéressante; notamment, elle peut avoir plu
sieurs optima locaux non connexes. Plusieurs stratégies sont envisageables pour s'approcher d'un optimum local. La méthode préconisée ici se veut prudente dans le sens
où elle se limite à un voisinage du point de départ2 . Chaque itération comprend deux
étapes:
Étape 1: recherche d'une direction de déplacement. Nous utilisons l'ap
proximation : B(p + dp) - B(p) R:< u* [ 'V pg(p, p)lp=p*(p) - 'V f(p))] dp (où u* > 0 est la
variable duale optimale associée à la contrainte (1) de (SP)}. Une direction d'amélio
ration sans contrainte est donc : dP = f (p )) - \7 pg (p, p) 1 p=p* (p)" La direction choisie est
la projection de dP sur le domaine réalisable {D E Dl~ I II:hE7-i Dh = 0, D 2': -p } .
2Le point de départ pourrait être, par exemple, 1L
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 53
Étape 2: recherche d'un pas de déplacement. Pour limiter les appels au pro
gramme mathématique (SP) avec des pas trop petit.s, on se contentera d 'une recherche
unidimensionnelle approchée de type Armijo (1966).
3.6 Sélection ou construction de classificateurs
Les deux sections précédentes traitent de l'évaluation d 'un classificateur, ou d 'une famille de classificateurs, donné. Ces classificateurs restent abstraits, leurs caractéris
tiques n 'interviennent pas dans la détermination des bornes.
Par contre, la sélection3 d'un classificateur dans une famille préétablie H se fait
après observation d 'un échantillon. Plus le modèle de classification H offre de degrés
de liberté, plus il y a un risque de surajustement (overfitting) , c'est-à-dire une erreur
empirique basse au détriment de la capacité de généralisation du modèle. Il y a donc un compromis à faire entre précision apparente et complexité du classificateur.
Une approche rigoureuse pour traiter ce compromis est la compression de données , que nous revoyons d'abord. Nous évoquons ensuite d 'autres voies possibles plus heuris
tiques.
3.6.1 Compression des données
Dans plusieurs cas (exemple: le Perceptron classique et les SVM, qui dépendent uni
quement de l'ensemble des vecteurs de support (Graepel etaI., 2000, 2001; Herbrich,
2002) , on observe que seul un sous-ensemble de l'échantillon d 'apprentissage détermine
le classificateur : on obtiendrait le même classificateur en retirant les autres exemples
de l'échantillon. Ce sous-ensemble est appelé ensemble de compression. Plusieurs algo
rithmes d'apprentissage comme les SCMs (Marchand et et Shawe-Taylor, 2002) et les DLMs (Marchand et Sokolova, 2005) construisent un classificateur en choisissant un
ensemble de compression correspondant.
Un algorithme de compression est basé sur deux fonctions: une fonction de construc
tion [ et une fonction de reconstruction R. [ nous donne une information de compres
sion (Sd, ()) qui détermine entièrement les paramètres du classificateur, où Sd est
l'ensemble de compression (sous-échantillon) de taille d tiré de l'échantillon d 'appren-
3 éventuellement probabiliste.
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 54
tissage S, et a est un message complémentaire de taille finie. L'échantillon résiduel sn-d ;:=: S\Sd est utilisé pour mesurer l'erreur empirique du classificateur. La com
plexité du classificateur est mesurée en terme de variété requise de l'algorithme R pour
décoder n 'importe quelle information de compression. Le classificateur est défini par h (S) = R (E (S)) avec: E (S) = (Sd , a).
On cherche une borne sur le vrai risque du classificateur qui dépend de l'information de compression. Une telle borne sur· le risque a été obtenue par Littlestone et Manfred
(1986) , d 'autres versions plus 'raffinées ont été obtenues par Langford (2005) et Seeger
(2002). Contrairement aux autres bornes, Marchand et Sokolova (2005) nous donnent une borne sur le risque de compression permettant la variation de l'ensemble des mes-
., sages selon la nature du classificateur. Nous montrons que la borne de compression de Marchand et Sokolova (2005) se généralise naturellement au cas multi-classes. Les
dérivations sont données en Annexe B.
Soit :1 l'ensemble de tous les sous-ensembles stricts de {l, ... , n}. Pour J E :1, notons J son complément. L'ensemble, supposé dénombrable, de tous les messages permis par
un ensemble de compression S J est noté M (S J ).
Soit Rh = R (R (Sd, a) ), le vrai risque associé au classificateur h (S). Étant donné un seuil de confiance 6" . E (0, 1], nous cherchons une borne B (6" , (Sd , a) , sn-d) , qui
dépend de l'information de compression, telle que :
(3.31 )
De façon générale, cette borne dépendra du niveau de · confiance recherché, mais aussi des données, sous la forme de l'information de reconstitution du classificateur et de l'échantillon résiduel. Enfin elle dépendra aussi des paramètres caractéristiques de la famille 1t de classificateurs retenue.
L'inégalité suivante est due à Marchand et Sokolova (2005) (voir les détails en annexe
B) :
Lemme 18 P§ {Rh> B (6", (Sd, a) ,sn-d)} ::; ~~=o (~)E§d ~aEM(Sd) P§n-d {Rh> B (6", (Sd , a) ,sn-d)}
n~d ~7::': Q (h(xj), Yj) le risque empirique mesuré sur un sous-
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 55
échantillon de taille n - d . Supposons une fonction majorante F garantissant :
(3.32)
En utilisant , au lieu de la borne abstraite B , la fonction F évaluée à des valeurs appropriées i(Sd , a) de t , on obtie~t du lemme précédant:
(3.33)
Certaines informations de compression peuvent apparaître plus vraisemblables que d 'aut res, selon le contexte de classificat ion. Ainsi , nous définissons ç (Sd a) une distribution a prioTi sur l'information de compression. En choisissant: i(Sd , a) = w(Sd, a).6 , avec w (Sd , a) = ç (Sd , a) (~) - \ nous avons bien :
6 ",n (nd
) E§d '" () w(Sd, a) ~d=O ~CJEM Sd
6 (3.34)
D'où la proposition suivante:
Proposition 19 Étant donnée une fonction majorante F (satisfaisant 3.32), les bornes
conditionnelles
garantissent que pour tout échantillon S de taille n :
On peut facilement intégrer ce cadre dans la borne PAC-Bayes en substituant
- n-dàn; - w(Sd , a).6 à 6.
Le choix (ou la construction) d'un classificateur minimisant ces bornes modifiées
limitera le risque d'erreurs de généralisation.
Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 56
3.6.2 Autres approches
Il est vraisemblable que, selon la tâche de classification à effectuer, on ait une idée
a priori de la complexité attendue du classificateur. L'approche PAC-Bayes pose une
distribution a priori SlJ sur la famille 1t de classificateurs. De même, l'approche de compression fait appel à une distribution a priori ç (Sd , (J) sur l'information de com
pression4 . Dans les deux cas, ilserait naturel de biaiser ces distributions a priori vers
les classificateurs les moins complexes. Une question générale qui reste ouverte est celle
de la calibration d 'une distribution a priori de façon à ce que l'arbitrage précision
complexité reflète "fidèlement" le risque de généralisation.
3.7 Conclusion
Ce chapitre généralise plusieurs résultats de la classification binaire à des problèmes
de classification multi-classes. Nous montrons d'abord que le caractère multi-classes d 'un problème de classification est intimement lié à la structure de pénalisation des erreurs retenue. Nous proposons par la suite des modèles de bornage multi-classes permettant
d'évaluer voire d'estimer des classificateurs donnés.
Dans un premier temps, nous étudions la problématique dela classification multi
classes et sa relation avec la structure de pénalisation des erreurs. Nous établissons un
principe de réduction des cas d'erreurs à des catégories de pertes en vertu duquel nous montrons le lien entre l'asymétrie de la fonction de perte et la nature multi-classes du
pro blème de classifica;tion.
Dans un deuxième temps, nous proposons des bornes multi-classes simultanées pour mesurer la performance des classificateurs multi-classes. Dans un contexte d 'une fonc
tion de perte valuée, nous développons deux types de bornes permettant d 'évaluer
l'erreur associée à un classificateur abstrait donné. La première borne est exacte et mi
nimale au prix d'un plus grand effort de calcul. La deuxième en est une approximation
beaucoup plus simple. La question d'évaluation d'un classificateur est un préalable à
celle du choix d'un classificateur dans une famille hétérogène. Plusieurs voies semblent
s'offrir pour adapter nos bornes de façon à garantir la valeur prédictive du classificateur
à choisir.
Nous consacrons le chapitre suivant au développement d'un modèle de classification
4Sans cette modulation, il est possible que la borne ne soit nulle part effective
Chapitre 3. Bornes sur le risque de généralisation en cl;;ssification multi-classes 57
à base de pavés pour l'estimation d 'un classificateur multi-classes et multicritère. Nous
montrerons qu'il est possible de concilier les concepts et les avantages de l'apprentissage statistique et de l'aide multicritère à la décision. Nous vérifierons la faisabilité du modèle sur un exemple de taille réduite. Ce chapitre illustrera aussi un arbitrage fondamental
entre précision et complexité des classificateurs.
Chapitre 4
Modèle de pavés pour une classification multi-classes et
multicritère
4.1 Introduction
58
La réflexion autour du développement d'un modèle de classification multi-classes et
multicritère, nous a conduit vers la proposition des bornes sur le risque de généralisat ion
en classification multi-classes. Dans ce chapitre, nous proposons un modèle de classifi
cation qui exploite les résultats du chapitre précédant. Rappelons qu'un classificateur
est une règle d 'affectation (une fonction) h : X ~ C. Pour construire un classificateur,
les préoccupations de faisabilité et de parcimonie dictent de se restreindre à un pet it
sous-ensemble de l'espace général H = {h : X ~ C} des classificateurs. Nous appelons.
mod~le de classification un tel sous-ensemble. Il repose souvent sur une famille para
métrée de formes élémentaires (hyperplans, boules et trous, intersections et unions de
formes plus élémentaires, etc) dans l'espace des critères. Le choix d'une telle famille est
habit uellement contextuel.
Ce chapitre traite de la construction d 'un classificateur dans un contexte multi
classes et multicritère. Le qualificatif «multi-classes» réfère à un processus d 'erreurs et
de perte analysé dans le chapitre précédent. Le terme «multicritère» réfère au fait que
la responsabilité ultime de classification relève de l'autorité de classification (AC). Dans ce contexte, un classificateur (automatique) a un rôle de soutien ; il doit incorporer les
connaissances et les jugements de l 'AC. En plus, pour être porteur de sens, le langage
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 59
et les opérateurs dans l'espace des critères qu 'il invoque doivent être congruents avec
ceux de l'AC.
Les méthodes de classification issues de l'apprentissage statistique se préoccupent
avant tout de la performance empirique anticipée d 'un classificateur relativement décon
textualisé. A l 'opposé, le tri multicritère traditionnel, privilégiant un dialogue constructiviste avec le décideur, se préoccupe p~u d 'introduire dans la conception de la méthode
de tri des dispositifs de validation a priori. Une question porteuse serait d 'examiner
dans quelle mesure il est possible de concilier les forces de ces deux. approches: faire appel aux notions d 'échantillonnage tout en incorporant des exigences de divers ordres
propres aux connaissances, jugements et représentations de l'AC. C 'est au niveau du
modèle de classification que cette conciliation doit être assurée. Notre premier défi sera de proposer un tel modèle à titre d 'exemple. Ce sera l 'objet des sections 4.2 et 4.3.
L'intégration de deux courants ajoutera nécessairement à la complexité du modèle
de classification proposé. Un second défi consistera à en explorer la faisabilité , au moins de façon préliminaire (<<proof of concept»). En lien avec le chapitre 3, la section 4.3.3
spécifiera, dans un contexte de compression de données, le codage et la capacité de traitement requis par le modèle proposé. La section 4.3.6 examinera dans quelle me
sure le modèle de classification retenu se prête à l'estimation de clas~ificateurs. Nous
nous limiterons à transcrire les hypothèses du modèle en un programme mathématique visant l'obtention d 'un classificateur «optimal» vis-à-vis d'un critère de performance
qui peut ou non s'inscrire dans un cadre de compression de données. La complexité
du problème exclut qu'un tel programme mathématique soit directement utilisable. Il
s'agit ici (i) d'apprécier les sources de complexité, et (ii) éventuellement d 'identifier des sous-problèmes de complexité moindre qui pourraient être importés dans des heuris
tiques. La section 4.4 testera sur un exemple de taille très réduite la fonctionnalité du modèle d'optimisation. Elle illustrera également un arbitrage fondamental entre erreur
empirique et complexité.
4.2 Contexte de classification
Nous souhaitons que la construction du classificateur puisse s'appuyer simultané
ment sur des observations empiriques et sur des prescriptions de l'AC. Pour que les
résultats du chapitre précédent soient exploitables, un tirage aléatoire et indépendant
de n objets dans une population (quasi-) infinie est nécessaire, et les spécifications du
modèle ne doivent pas remettre en cause l'hypothèse iid1. Ces spécifications reflètent
1 Une exigence assez faible.
Chapitre 4. Modèle de pavés pour une classification multi-classes et mL!lticritère 60
les aspects contextuels du problème de classification, en particulier les prescriptions de l'AC.
Rappelons que cette dernière a la maîtrise des principaux éléments de la définition
du problème de classification, à savoir:
- la structuration du problème de classification: critères pertinents, échelles de
mesure, structures des classes;
- les règles a priori qui doivent être incorporées dans le classificateur;
- les prototypes ·de référence;
- un modèle de classification (i.e. une famille de classificateurs) ;
- les modalités d'évaluation d 'un classificateur.
Mais surtout, c'est sa conception a priori de la relation critères----+classes qui est
déterminante dans la spécification du modèle de classification. Bien entendu, il y a
à ce titre autant de variations possibles que de situations distinctes de classification
et d'autorité de classification. Notre propos n'est pas de rendre compte de cette infinie
diversité, mais d'illustrer sur un jeu didactique d 'hypothèses la démarche que nous avons
en tête. Les hypothèses que nous retiendrons renvoient à plusieurs thèmes courants en
analyse multicritère.
Nous avons fait l'hypothèse que tous les critères sont mutuellement incomparables.
Dans ce cas, il n'y a pas de compensation possible entre les critères, ce qui exclut la
synthèse des critères par une fonction d'agrégation conventionnelle2 . Pour que l'outil de
classification ait du sens aux yeux de l'AC, il est nécessaire qu'il respecte cette exigence,
qui bien sûr ne facilitera pas le traitement de critères incomparables.
D'un autre côté, nous n'allons pas associer de «poids» aux critères3 . Nous nous
limiterons à déclarer un critère «effectif» (pertinent dans un sens empirique) ou non. En
effet , dans de nombreux contextes de classification (telle diagnostic médical), le nombre
m de critères, considérés comme potentiellement pertinents, peut être très grand. Si
l'estimation empirique permet, avec l'accord de l'AC, d'éliminer un sous-ensemble de
ces critères, le modèle de classification gagnera en concision et donc en pouvoir prédictif.
Par ailleurs, la qualité de la classification peut considérablement bénéficier de connais
sances a priori sur la relation critères----+classes.
En premier lieu, il est fréquent qu'une classe soit définie, au moins en partie, par
2 Essentiellement : continue. 3La notion de poids reste ambigüe tant qu'on ne précise pas leur mise en œuvre ([53]).
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 61
des exemples représentatifs. Ces objets peuvent servir à définir:
- des centres de classe caractérisant au mieux les classes, - des exemples de frontière servant à délimiter les classes.
Notre modélisation inclura de tels exemples représentatifs , que nous appellerons
prototypes. Sans référence à une notion de centralité ou de frontière un prototype sera
défini ici comme un objet que le classificateur doit classer correctement. Dans notre
modèle, un prototype joue donc un rôle de contrainte et non celui d 'une observation.
Notre modèle doit rendre possible la prise en compte de tels prototypes.
Par ailleurs, il n 'est pas rare que l'AC possède une connaissance même part ielle donc une base de règles, sur cette relation critères-----+classes. Notons que de telles règles
s'expriment souvent sous forme de clauses 'booléennes «si ... alors ... », élémentaires ou
composées. Pensons par exemple aux systèmes experts de diagnostic médical. Notre
modèle devra pouvoir incorporer de telles règles.
4.3 Modèle de classification par pavés
'Le modèle de classification proposé permettra de considérer et de combiner différents
types d'échelles pour les critères:
- échelles cardinales mais non absolues4 : nous supposerons que ces échelles sont
bornées; par suite, sans perte de généralité, elles seront normalisées entre 0 et
100.
- échelles ordinales: nous supposerons que celles-ci ont un nombre fini d 'échelons; - échelles nominales : erisembles finis non ordonnés de valeurs (éventuellement re-
présentés par des variables booléennes exprimant la présence ou l'absence d 'attri
buts, sous contraintes d'exclusion mutuelle et de complétude).
Les formes élémentaires du modèle de classification que nous proposons sont des
pavés5 • Un pavé est défini comme le produit cartésien de m' ensembles, chaque ensemble
correspond à un critère. Le terme «pavé» réfère au fait que pour toute échelle ordonnée (cardinale ou ordinale) l'ensemble est un intervalle. Par exemple; soient les critères:
- température (cardinale) : Xl E [0, 100] ;
4L 'extension à des échelles absolues est triviale, 5 Hyperrectangles en anglais.
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 62
- taille (ordinale) : X 2 E (nain, petit, moyen, grand, géant) ;
- couleur (nominale) : X 3 E {ocre, vert, bleu, autre}.
Un exemple de pavé pourrait être: [20 , 63.7] x (nain, ... , grand) x {vert, autre} .
L'appartenance à un pavé est une conjonction (booléenne) de clauses booléennes plus élémentaires :
(20 ::; Xl ::; 63.7) et (nain::; X 2 ::; grand) et (( X 3 = vert) ou ( X 3 = autre )) .
Remarquons aussi que l'appartenance à un pavé se constate sans compensation
inter-critères.
Dans la suite immédiate de ce chapitre, pour plus de clarté, nous nous restreindrons
au cas où tous les critères sont cardinaux, l'extension à des échelles ordinales ou nominales n 'étant pas difficile. Sous cette restriction et par convention, un pavé P est un produit d 'intervalles réels:
p = {x E [0, 100]m 1 a ::; X ::; b}
où a E [0, 100] m , b E [0, 100] m (a ::; b) sont respectivement le vecteur des bornes
inférieures et le vecteur des bornes supérieures du pavé dans l'espace des critères.
Sur un critère i , une borne inférieure ai = 0 ou supérieure bi = 100 sont dites triviales. Un critère dont les deux bornes sont triviales n'est simplement pas pertinent
pour définir le pavé.
4.3.1 Une illustration
Dans cette section nous illustrons un problème de classification multi-classes et multicritère. L'exemple didactique est construit à partir de la base de données Pima
lndian-diabet. C'est une base de données publique qui est utilisée dans la littérature
comme banc d 'essai pour la classification binaire en apprentissage supervisé. Cette base de données réelle est disponible dans: UCI Machine Learning Repository (Murphy et
Aha, 1992). Elle représente la classification des femmes de la communauté amérindienne Pima, en vue de déterminer si elles sont diabétiques ou non. Pour des fins de représen
tation, nous avons restreint le nombre d'exemples à 12 et le nombre de critères à deux. Le problème de classification qui nous intéresse étant multi-classes, nous avons rajouté
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 63
une troisième classe qui représente un deuxième type de maladie. Nous retenons comme
ensemble d 'apprentissage les douze exemples suivants:
Objet Coordonnées Classe
jl (31;54) 1
)2 (66; 86) 1
)3 (80;94) 3
) 4 (87; 30) 1
)5 (73;78) 2
)6 (52; 14) 3
)7 (24; 6) 2
) 8 (17; 22) 2
)9 (10; 38) 2
)10 (59; 46) 2
jl1 (38;62) 1
)12 (45; 70) 3
La matrice de perte est la suivante:
Classes observées y
1 2 3 Classes 1 0 0, 8 0, 5 attribuées 2 0, 5 0 1
c 3 0, 5 0 0 Ne 1 1 0, 8
Cas 1 : Q valuée
En appliquant le principe de réduction, cette matrice sera réduite au vecteur de
perte suivant de quatre catégories :
q = [0 ; 0.5 ; 0.8 ; 1]
Nous avons placé les objets de l'exemple Pima dans l'espace des critères. Par la
suite, nous avons imaginé les pavés suivants (voir figure 4.1) : 1
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 64
Si 24 :::; X l :::; 87 X E Pl
et X 2 :::; 30
Si Xl :::; 31 x E P 2
Si 10 :::; X l :::; 45 x E P 3
et 38 :::; X 2 :::; 70
Si Xl :::; 73 x E P 4
et X2 2 78 Si 10 :::; Xl :::; 80
x E P 5 et 38 :::; X2 :::; 94
4.3.2 Modélisation d'es classes
Etant donné un mode d 'affectation des exemples à des pavés, il s'agit maintenant d 'établir une correspondance entre· exemples et classes. Le classificateur ·h crée une
collection de pavés qui ne sont pas nécessairement disjoints et qui ne recouvrent pas nécessairement l'espace des critères.
Pour obtenir une affectation sans ambigüité des objets aux classes, le classificateur
fournira aussi :
- une affectation de chaque pavé à une classe unique 6, et
- un ordre total de priorité sur les pavés.
Sinon: Si X E P2 , h (x) = C2
Sinon:
Si X E Pk , h(x) = Ck
Sinon: Si X E PK , h(x) = CK
Sinon: h(x) = 0
(où h(x) = 0 représenterait un objet non classé).
Une telle règle lexicographique dans l'espace des critères est aussi' appelée liste de
décision (Marchand et Sokolova, 2005). Nous retrouvons un raisonnement semblable sous forme de règles de décision dans les travaux de Slowinski et al. (2007).
6 Cependant, plusieurs pavés peuvent être assignés à une· même classe.
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 65
90
70
50
:iD
40
1 1 1 1 1 1
j9- - - - - - --
10 2J 30 40
................... . ...... ........................ 1------
..............•.................................. :.:. :-:':':':' .. ':':-:':':':':':' :.:.:.:.: .. : .:.: ............ } .•........................ . .........
·:·:·:·:·:·:·' 10:':':':':':':':':':':':':':':' .. ..........................
50 ( 0 70 80 90 100
k : pavé d'indice k ; c : classe du pavé ; --- : frontières de la partie masquée du
du pavé; j : exemple; .: classe l ; • : classe 2 ; * : classe 3.
FIG. 4.1 : Représentation des pavés dans l'espace des critères
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 66
Une représentation équivalente serait de visualiser l'ensemble ordonné des pavés
comme une pile, avec les pavés de plus haute priorité au-dessus. Vus du dessus, certains
pavés. peuvent être en partie masqués par des pavés supérieurs (de plus haute priorité).
Spécifiquement, la partie visible (non masquée) d 'un pavé Pk sera:
Ainsi , une classe est représentée par une union de différences de pavés. Cette repré
sentation exclut toute compensation inter-critères.
Illustration (suite)
Nous avons établi la liste de décision suivante à partir · des classes des pavés et de
l'ordre fourni avec les pavés de Pima. Nous retrouvons la classe 0 en fin de liste:
Si x E Pl h(x) = 3 Sinon si
h(x) = 2 Sinon si
x E P3 h(x) = 1 Sinon si x E P4 h(x) = 1
Sinon si
xE P5 h(x) = 2 Sinon h(x) = 0
4.3.3 Estimation d'un classificateur dans le cadre de la com
pression de données
Comme nous l'avons vu au chapitre 3, l'idée de base derrière l'apprentissage par
compression, est de ne retenir que les éléments pertinents et suffisants pour construire le classificateur. Ces éléments constituent l'ensemble de compression Sd7. Dans notre
contexte, cet ensemble sera constitué d'actions qui bloqueront les bornes non triviales
des pavés.
7Dans l'éventualité où le modèle de classification comprend des prototypes créés spécifiquement pour délimiter les classes, il n 'est pas exclu que ces prototypes soient utilisés comme objets de compression,
permettant ainsi d 'augmenter la taille de l'échantillon résiduel.
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 67
Par ailleurs, dans le modèle de classification proposé, en plus de l'ensemble de com
pression, de l'information additionnelle est requise pour reconstituer le classificateur.
Nous introduisons des messages (J qui vont contenir cette information addit ionnelle.
Illustration (suite)
Dans notre exemple lndian-Pima, les objets {j1 , j3 , j4 , j5 , j7 , j9 , j12} sont suffisants pour déterminer sans ambigüité les pavés {Pl , P2 , P3 , P4 , P5 } .
4.3.4 Représentation .des pavés et forme du message complé
mentaire.
Dans un souci de réduire la complexité du modèle, nous allons restreindre la définition des pavés aux critères actifs (globalement pertinents). Un critère sera dit act if relativement à un classificateur donné, s'il existe au moins un pavé ayant une borne non
triviale sur ce critère. Nous notons ici l l'ensemble des critères actifs ( III = m' ::; m) ,
et PI la famille des pavés P = {x E Xia::; x ::; b} tels que ai = 0 Vi ~ l et bi = 100
Vi ~ I.
Pour définir des pavés à partir de l'ensemble de compression, nous distinguerons
deux formes possibles de représentation d'un pavé dans PI :
1. Un pavé plein est défini directement par sa borne globale inférieure (bgi ) a et sa
borne globale supérieure (bgs) b. Ces deux bornes globales correspondront , dans le sous-espace des critères actifs, à au plus deux exemples de compression distincts.
En d 'autres termes, P E PI est un pavé plein si et seulement il existe deux objets
de compression distincts, indexés par j1 et j2, tels que:
- soit ai = 0 Vi E I , soit il existe un objet de compression j1 tel que ai = X{l Vi E I , et
- soit bi = 0 Vi E I , soit il existe un objet de compression j2 =1- j1 tel que bi = X{2 Vi E I.
2. Un pavé ouvert est défini critère par critère. Pour chaque critère i , on indique,
pour chaque borne non triviale ai et/ou bi , l'exemple de compression qui borde de
l'extérieurle demi-espace de la forme X i 2: a~ ou Xi ::; b~, selon le cas. En d 'autres termes, le pavé P E PI est ouvert si et seulement si pour chaque i E l :
- soit ai = 0, soit il existe un objet de compression j1 tel que ai = X{l, et
Chapitre 4. Modèle de pavés pour une classincation multi-classes et multicritère 68
- soit bi = 0, soit il existe un objet de compression )2 tel que bi = X{2 .
Ainsi, le nombre d 'objets de compression ut ilisés pour définir un pavé ouvert n 'ex
cède pas 2 II I.
Le message complémentaire indiquera en premier lieu l'ensemble I des critères ret enus comme actifs. Il list era ensuite les pavés par ordre de pile (ordre de masquage) .
L'informat ion fournie pour chaque pavé sera la suivante:
Pour un pavé ouvert :
Pavé: Nature : ouvert Classe: Exemples de compression critère i Type de bornes (1 ou S)
E xemple 1 2 S
E xemple 2 1 S
Pour un pavé plein :
Pavé Nature: plein ; classe:
Exemples de compression Type de borne (bgi ou bgs)
E xemple 1 bgi
E xemple 2 bgs
Illustration (suite)
Dans l'exemple Indian-Pima, nous avons représenté l'information complémentaire
nécessaire pour la reconstitution du classificateur. Sur chaque critère nous avons au
moins une borne non triviale donc: I = {1 , 2}. Pour chaque pavé, nous indiquons sa
nature (ouvert ou plein) et sa classe d 'affectation. Pour chaque objet de compression
qui caractérise le pavé, nous indiquons s'il s'agit d 'une borne globale (dans ce cas bgi ou bgs). Sinon, nous définissons le critère de la borne non triviale et sa position inférieure
ou supérieure (l , S).
Pavé: Pl Nature : ouvert Classe: 3
Exemples de compression critère i l/S
) 4 bgs
)7 1 1
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 69
Pavé : P2 Nature: ouvert Classe: 2
Exemples de compression critère i Ils f--
JI 1 S
Pavé: P3 Nat ure : plein, classe: 1
Exem pIes de corn pression bgi lbgs
J 12 bgs
) 9 bgi
Pavé: P4 Nat ure : ouvert Classe: 1
Exemples de compression critère i I l s ) 5 1 S
J5 2 l
Pavé: P5 Nature: plein Classe: 2
Exemples de compression critère i Ils t--
bgs
J9 bgi
4.3.5 . Dimension de l'espace des messages
Commençons par un décompte sommaire de tous les messages rendus possibles par
la représentation précédente, pour une taille d donnée de l 'échantillon de compression.
Un pavé plein est spécifié par deux exemples· de compression. Il existe (~) façons
possibles de choisir une paire d 'objets de compression distincts. Le nombre de listes
ordonnées de KI pavés pleins distincts est donc:
(4.1)
Puisque la redondance n'est pas interdite dans un message, tous les messages à KI
pavés pleins sont (implicitement) contenus dans l'ensemble des messages à KI + 1 pavés
pleins. Par suite, si KI est une borne supérieure sur le nombre de pavés pleins, le nombre ·
d 'arrangements possibles des pavés pleins ne dépassera pas C1(d, KI).
8 Car ln (a - k) ~ ln a - ~ , 0 ~ k < a
~ -~--~~-~-~~~~~~~~~~~~~~------,
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 70
1!n pavé ouvert requiert la spécification des critères ' actifs , et celle des bornes infé
rieures et supérieures non triviales s 'appliquant à chacun de ces critères. Étant donné
un ensemble de m' critères actifs , il y a, dans le pire cas, (~) m' façons possibles de
spécifier un pavé ouvert. Par suite, pour m' fixé , il existe au plus
arrangements possibles de K 2 pavés ouverts (1 S K 2 < (~) m'). Comme il y a (;;:,) façons
de choisir une liste de m' critères actifs , le nombre total d'arrangements de K 2 pavés ouverts ne peut dépasser
et si K2 est une borne supérieure sur K2 ' le nombre des arrangements possibles de pavés
ouverts est majoré par C2(d~ K2).
-
Finalement, chaque pavé doit être assigné à une classe, ce qui entraine C1<1 +1<2
assignations possibles.
En conclusion, la taille de l'espace des mèssages généré par un ensemble de com
pression de d objets est majorée par
(4.2)
Cette borne augmente très rapidement avec les nombres KI et K2 de pavés permis.
Cependant le contexte de la classification nous permet de limiter ces nombres. En
effet , pour l'utilisateur, la complexité perçue (cognitive) du classificateur se mesure au
nombre de clauses de la liste. Ce nombre de clauses est proportionnel au nombre de pavés et ne dépend pas de l'ensemble de compression utilisé pour l'estimation. Nous
pourrions ainsi envisager des limites de la forme:
Enfin, nous pourrions pénaliser la complexité du classificateur par une mesure de
vraisemblance t;,( d, m' , KI , K 2 ) sur les paramètres effectivement utilisés dans l'estima-
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 71
tion. Ceci mènerait à une spécification particulière des coefficients W(Sd ,(J) invoqués
dans le chapitre 3, de la forme:
(4.3)
4.3.6 L'estimation d'un classificateur par l'intermédiaire d'un
programme mathématique
Nous proposons maintenant un modèle d 'optimisation ( minimisation) de la borne
sous les contraintes imposées par le modèle de classification à base de pavés et par l'approche de compression. Ce modèle, écrit dans le formalisme de la programmation
linéaire mixte, est générique mais non directement opératoire, en raison de sa très grande
complexité. Toutefois cette formulation est restreinte aux pavés pleins9 .
1. Paramètres
- n = nombre d'observations,
- :1 = ensemble d'indices de l'ensemble d'apprentissage (IJI = n), - P = ensemble d'indices des prototypes (P n:l = EB) ,
- m = nombre de critères, - x{ = évaluation de l'observation j sur le critère i (j E :1,1 ::; i ::; m) , - C = nombre de classes observées,
- y = {1 , ..... , C} =ensemble d'indices des classes observées,
- C = {a, 1, ..... , C} = ensemble d'indices des classes attribuables,
- Yj = classe observée de l'objet j (Yj E y, j E :1), Z = {(xj , yj ) E X x Y,j E:I} = ensemble d'apprentissage,
R( = KI dans la section précédente)= nombre maximal de pavés,
K = {1, ... , R}= ensemble d'indices des pavés disponibles,
é E ~~ :un vecteur de petites constantes positives.
e : le vecteur identité de dimension appropriée au contexte.
9Dans la spécification d'un pavé ouvert , chaque borne non triviale peut être associée à un objet de compression différent. Ceci introduit un grand facteur de complexité tant dans l'espace des messages (chapitre 3) que dans le programme mathématique. D'un intérêt secondaire, ces pavés ont été omis
pour alléger l'exposition.
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 72
2. Identification et forme des pavés
Les formes élémentaires du modèle de classification sont des pavés :
Au plus k pavés pourront être créés pour spécifier le classificateur. Il sera convenu que
la numérotation des pavés reflète un ordre total décroissant de priorité ( d 'empilement).
Ceci donné, il reviendra "au programme mathématique de déterminer :
- le nombre K E {l , ... , k} = nombre de pavés effectivement utilisés ( pavés que
nous qualifierons d'actifs) , - la géométrie de chaque pavé actif, "
- la classe qu'un tel pavé contribuera à construire.
Nous conviendrons sans perte de généralité que les K pavés actifs figurèrent en tête
de liste et qualifierons les suivants d'inactifs.
Ce premier bloc a trait aux pavés actifs : leur nombre et leur géométrie.
Variables - ak E X= vecteur des bornes inférieures du pavé k E K. - bk E X== vecteur des bornes supérieures du pavé k E K.
_ Wk = {l si le pavé k est utilisé k E K 0, 1 sinon
- K = nombre de pavés actifs.
Contraintes la.
lb.
lc.
Id.
le.
If·
ak 2: 0
bk :::; 100e b~ - a~ > E
1, 1,-
Wk+l - Wk :::; 0
L:kEKwk - K = 0 K:::;k
k E K k E K 1 :::; i :::; m, k E K 1 :::; k :::; k - 1,
La contrainte Id force les pavés inutilisés d'être en fin de liste. On pourra vérifier
dans ce qui suit que les formes des pavés inutilisés peuvent être chqisies sans interférer
avec les autres contraintes. En particulier, si l'objectif pénalise la taille de l'ensemble
de compression, chaque pavé inutilisé coïncidera avec l'espace des critères X.
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 73
Délimitation des pavés et choix de l'ensemble de compression
Délimitation des pavés : Un pavé plein est spécifié par deux vecteurs, une borne
inférieure a et une borne supérieure b. Chacune de ces bornes globales, si elle n 'est pas
triviale (a = 0 ou b = 100e) est associée à un objet de compression (contraintes 2c et
2d) . . Cette association est représentée par des variables binaires.
Variables
Contraintes
1
o 1
o
si la borne inférieure du pavé k est xj
sinon
si la borne supérieure d ~ pavé k est x j
SInon
2a.I:jEJ Àjk - Wk = 0 k E K 2b. I:jEJ )..jk - Wk = 0 k E K
j E:1, k E K
jE:1,kEK
2c. I:jEJ x{ Àjk - aik = OlS i S m , k E K 2d. I:jEJ x{ )..jk + 100 - bik = OlS i S m , k E K
Choix de l'ensemble de compression Nous définissons les éléments .de l'en
semble de compression qui est constitué de bornes supérieu~es et inférieures non triviales des pavés (contrainte 2e). Nous spécifions aussi la taille de l'ensemble de compression
(contrainte 2 f) .
Variables
~j = {~ d=
Contraintes
si l'observation j fait partie de l'ensemble de compression
sinon
nombre d'objets de compression
. 2e. I:kEK Àjk + I:kEK )..jk - 2K'l/Jj s 0 j E :1 2f· I:jEJ'l/Jj - d = 0
j E:1
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 74
Affectation de pavés aux classes
Une classe est une union de morceaux de pavés. Chaque pavé est affecté à au plus
une classe. Ainsi la contrainte 3a traduit le fait qu'un pavé sera :
- soit affecté à une classe; dans ce cas il va être qualifié d 'utilisé.
- soit non affecté (totalement) ; dans ce cas il est réputé inutilisé.
Dans le cas ou la pavé est utilisé, tous les objets qu'il contient exclusivement seront
affectés à cette classe;
Variables
{3kc =
Contraintes
{ 0
1 si le pavé k est assigné à la classe c
sinon k E K ,c E y
Localisation des objets de l'échantillon résiduel et des prototypes dans des
pavés
L'échantillon résiduel est ce qui reste de l'échantillon initial après en avoir retiré
l 'ensemble de compression. C'est sur ce sous-ensemble de l'échantillon que les erreurs
de classification sont évaluées. Pour évaluer ces erreurs, il faut connaître la classe à
laquelle chacune de ces observations a été affectée par le classificateur.
Dans un premier temps, il s'agira de déterminer à quels pavés une observation rési
duelle appartient. Ceci sera indiqué parles variables booléennes 'Jfjk' Le calcul des ces
variables est l'objet du bloc de contraintes qui suit.
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 75
Variables
1
1jk == 0
u~k == 0 ~ 0, 1
v1k 0 ~ 0, 1
Contraintes
si 'l/Jj ==O et l'observat ion j
est sit uée dans le pavé k
sinon
si x j > a~ ~ - ~
sinon
si x~ < b~ ~ - ~
sinon
j E J U P , k E JC
1 ~ i ~ m, j E J U P k E JC
1 ~ i ~ m, j E J U P , k E JC
j E J k E JC k E JC 1 ~ i ~ m , j E J U P , k E JC 1 ~ i ~ m , j E J U P , k E JC 1 ~ i ~ m , j E J U P , k E JC 1 ~ i ~ m , j E J U P , k' E JC j E J , k E J(
j E P , k E JC
La contrainte 4a force les variables indicatrices 1 jk à 0 pour tout objet de compres
sion. De même, l'appartenance à un pavé inactif n'est pas reconnue (contrainte 4b). Et
réciproquement , tout pavé actif doit contenir au moins un prototype ou un objet de
l 'échantillon (lequel sera résiduel par 4a). Les contraintes 4d - 4i définissent les variables
indicatrices 1 j k en les reliant aux frontières des pavés. Selon 4d - 4e , si 1jk = 1, alors
les frontières du pavé k doivent entourer l'objet j (condition «nécessaire») . Récipro
quement , 4f - 4i demandent que si 1 jk = 0, alors au moins une des front ières du pavé
k doit être transgressée par l'objet j (condition «suffisante»). Notons que pour signa
ler tout transgression, une sent inelle ( booléenne) indépendante u{k ou V{k est requise
pour chaque frontière ( sur chaque critère) , ce qui constitue une source majeure de
complexité.
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 76
Bonne classification des prototypes
Tout prototype doit être entouré d 'au moins un pavé (5a). Le premier pavé (dans
l'ordre d 'empilement ) auquel un prototype j appartient doit être assigné à la classe de
ce prototype (5b).
Contraintes 5a. L:kEK r jk 2: 1
5b. f3kYj 2: rjk - L:t<k rjt
Affectation des objets résiduels aux classes
j E P k EK, jEP
La classe attribuée à une observation résiduelle j sera la classe du premier pavé,
dans l'ordre d 'empilement, auquel elle appartient. Plus formellement , étant donnée une
famille de pavés actifs {Pk C X Il :::; k :::; K} , l 'observation résiduelle j sera classée dans la classe c si et seulement si il existe un k E {l , ... , K} satisfaisant les 3 condit ions :
- (i) Xj tt Pt Vt < k (i.e. r jt = 0 Vt < k) - (ii) Xj E Pk(i.e. r jk = 1) et - (iii) le pavé k est assigné à la classe c (i.e. f3 kc=l)
Variables
Pour alléger la notation, nous adopterons la convention : T jO == 0, j E J
1 si 'ljJ j=O et j est dans un pavé k' :::; k j E J , k E K Tjk =
0 sinon
Bjc = 1 si 'ljJ j = 0 et l'objet j est assigné à la classe c
j E J , c Ee 0, 1 sinon
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 77
Contraintes
6a T j,k-l - Tjk ~ 0 6b 1jk - Tjk ~ 0
6c T j k - T j,k- l - 1 j k ~ 0
6d f3kc - Bjc + Tj k - T j,k-l ~ 1
6e Bjc - f3 kc + T jk - T j ,k-l ~ 1
6f ~cEY Bjc - T jR ~ 0
6g ~CEC Bjc + 'l/;j = 1
6h W k - ~jEJ T jk + ~jEJ T jk- l ~ 0
j E :7, k E K j E :7, k E K j E :7, k E K j E :7, k E K .c E y j E :7, k E K ,.c E y j E :7 j E :7 k E K
La contrainte 6a indique que la suite ( 1jk ) est non-décroissant e en k. La cont rainte
6b implante la condition (i) précédente. Les contraintes 6b et 6h impliquent la condit ion
(ii).
Les contraintes 6d - 6e sont ensemble équivalentes à : IBj c - f3 k c l :::; 1- (Tjk - Tjk - l)
et impliquent donc (iii).
La contrainte 6f dit que si un objet n 'est associé à aucun pavé, il n 'est assigné à
aucune classe observée. La contrainte 6g dit que tout objet résiduel ( et seulement eux)
doit recevoir un numéro de classe, fût-celui de la catégorie «non-classée» .
Enfin la contrainte 6h impose que chaque pavé actif contribue à classer au moins un
objet résiduel.
Mesure du risque empirique
Le risque empirique est le rapport de la perte totale encourue sur l'échantillon ré
siduel divisé par la taille n - d de cet échantillon résiduel. Le dénominateur étant une
. quantité variable (entière) , il nous faudra énumérer les valeurs qu'il peut prendre. On
supposera aussi que l'objet incite à diminuer le risque empirique.
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 78
Variables
RE== risque empirique EJR EET== perte tot ale encourue EJR
çt == { 1 si d = t 0 sinon
O~ t ~n-1
Contraintes
7a. L jEJ L CEC Q(c, Yj)() jc - EET == 0 7b. EET + nçt - (n - t) RE ~ n 0 ~ t ~ n - 1
7c. L~:ll tçt - d == 0 7d. L~:Ol çt = 1
Fonction objectif
La fonction objectif dépendra de la nature de la borne B retenue (par exemple, borne
de compression). Dans tous les cas, cette borne dépendra d 'un vecteur de paramètres 8 E ~ calculé de façon endogène par le programme mathématiquel O
. En général, cette fonct ion ne sera pas linéaire, et l'étendue de son domaine ~ interdira de la calculer point à point. C 'est pourquoi la fonction objectif sera une approximation de la bornel1
. Nous esquissons une procédure possible d 'approximation, de type «interpolation locale» .
Il reste entendu que le contexte du problème de classification peut suggérer d 'aut res
types d 'approximations plus efficaces. Pour obtenir une interpolation locale, on peut const ruire une tessellation du domaine ~ en simplexes12 . Spécifiquement soit une famille
finie {St Il ~ t ~ T} de simplexes ( fermés et de pleine dimension)13 tels que:
- ~ ç Ul :::;t:::;r St, - Int St! n Int St2 = 0 Vt l -# t2 ,
- Vt l -# t 2 , si x est un point extrême de St! et si x E St2' x est un point extrême de
St2'
lOPar exemple : l'erreur empirique, la taille de l'ensemble de compression, le nombre de pavés ut ili
sés ... Il Idéalement , deux approximations : majorante et minorante. 12Le simplexe, seule polytope dont tout point est une combinaison convexe unique des ses points
ext rêmes, garant it une interpolation correcte. l3 p as nécessairement semblables .
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 79
On notera {Oh Il :S h :S H} l'ensemble de tous les points extrêmes de ces simplexes
et on supposera que la borne a été calculée de façon exacte à chacun de ces point s :
U ne interpolation de la borne est de la forme :
- 8.a (~) = L:=l (~~ )Àh , avec: - " 8.b Àh 2: a Vh et
- 8.c L:=l Àh = 1.
et fournit b comme approximation de B( 5).
Dans la mesure où la borne n 'est pas convexe, il faut assurer que l'interpolat ion
reste locale; nous imposerons qu'elle soit calculée sur un seul simplexe. À cette fin ,
introduisons la matrice d 'incidence sommets-simplexes A E {a, 1} H x T :
et les variables :
{ 1 si 5 k est un point extrême de St
Aht = a sinon
{ 1 si l'interpolation est faite dans le simplexe St
Wt= a sinon
L'objectif à minimiser est donc b, sous les contraintes:
- 8a - 8c.
- 8.d À:S Aw - 8.e eTw = 1
- 8.f WE{a , l}T.
Incorporation de règles de classification
De nombreux systèmes de classification reposent sur un corps non négligeable de
connaissances a priori. Ainsi intervient, dans le diagnostic médical, un grand nombre
de clauses élémentaires «si ... alors» et de clauses composées.
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 80
Il n 'est pas difficile d 'incorporer de telles clauses dans le programme mathématique.
Un exemple de clause élémentaire pourrait être:
«Dans la classe 2, la valeur du critère 5 .ne dépasse jamais 80»
Cette assertion peut être réécrite pavé par pavé:
«Si f3 k2 = 1, alors b~ ::; 80» , soit
b~ ::; 100 - 20f3 k2 . k E K
La représentation des clauses composées (conjonctions, négations, implications, disjonctions ... ) dans un programme linéaire fait appel à des opérations bien établies.
4.4 Tests préliminaires du programme mathématique
Le but de cette section est double :
(i) vérifier sur un exemple simple que le programme mathématique donne des ré
sultats conformes à nos attentes; (ii) illustrer, par -la même occasion, une antinomie fondamentale en théorie statis
tique, entre l'ajustement d'un modèle aux données et sa concision.
Nous conservons l'exemple Pima de petite taille et simulons une approximation
grossière de la borne de la forme :
Objectif = RE + ad (4.4)
où a est un paramètre d'importance que nous ferons varier de 0.005 à 0.5.
Le tableau 4.1 résume les résultats obtenus pour la résolution de ce programme
mathématique avec Cplexe Il.01.
Ces résultats illustrent bien le compromis complexité versus précision. En effet , avec
des pondérations faibles de d (moins que 0.05) le classificateur assure une précision maximale, avec un risque empirique nul. Ceci au détriment de la complexité, qui est plus
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 81
TAB. 4.1: Résultats des tests préliminaires du programme mathématique.
Cas Œ RE Obj d K 1 0.005 0 0.035 7 4
2 0.01 0 0.07 7 4
3 0.015 0 0, 105 7 4
4 0.02 0 0, 14 7 5
5 0.025 0 0, 175 7 4
6 0.03 0 0, 21 7 4
7 0.035 0 0, 245 7 4
8 0.04 0 0, 28 7 4
9 0.045 0 0, 3151 7 4
10 0.05 0 0, 35 7 4
Il 0.1 0.47 0, 67 2 1
12 0.15 0.47 0, 77 2 1
13 0.2 0.47 0, 969 2 1
14 0.25 0.47 0,969 2 1
15 0.3 · 0.47 1, 07 2 1
16 0.35 0.47 1, 17 2 1
17 0.4 0.47 1, 27 2 1
18 0.45 0.47 1, 37 2 1
19 0.5 0.46999 1,47 2 1
élevée avec un nombre important de pavés et une taille plus importante de l'ensemble de
compression. Par contre, en augmentant la pondération de d dans la fonction objectif,
le classificateur est moins précis avec un risque empirique plus élevé. En conséquence,
la complexité est plus faible avec un nombre moindre de pavés et un ensemble de
compression plus petit.
Les résultats du modèle pour les cas 1 et 19 sont représentés dans les figures 4.2 et
4.3.
4.5 Conclusion
Le principal but de ce chapitre est d'explorer la faisabilité de construire un classi
ficateur comportant une base empirique solide tout en tenant compte de spécifications
requises par l'autorité de classification.
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 82
lOJ --------------------------------------------------~-----------.J_ . -- -P 4 : (k=4, c=2)
8::1 --
6) - :.:.:.:.:.:.:.:.;.:~ .tj.:.:.:.:.:.:.:.:.:.:-:.:.:.:.:.:.:.;.:.:.;.;.:.:.:.:.:.: , :·:::·:::·:::-:::·:W2:;; ::(~~~·q.~)_:::-:::·:::·: ::::::::::::::::::ï :::::::::::::::::::::::::::::::::::::1 :::::::::::::::::
" ::}::::::: ; lf:i:::H::ili:l:ij::::::~l :::i::I:::1 • j 10
:'::::::::::::::::i :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: ••
J
10 23 30 40 53
J~ 13 1-
70 8:>
FIG. 4.2 : Représentation des pavés du classificateur pour le cas 1
so ]00
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 83
ICa
Pl : (k=1, c=2) j3
sa • 80 j2 • *il2
j5 70
itt EO • 50 1 jl
• jl0 1
!Jo 1 •• 19 .-30
20 j. .,- j
la *i6
a j7
G 10 20 30 40 50 60 70 BD 90 100
FIG. 4.3 : Représentation des pavés du classificateur pour le cas ·19
Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 84
Sur le premier aspect, nous avons mis en application plusieurs concepts présentés au
chapitre 3. Sur le second, nous avons introduit une approche de classification respectant:
- une condition stricte14 d'incomparabilité inter-critères;
- la possibilité d'introduire des cas exemplaires (prototypes) ;
- la possibilité d'introduire une base de règles.
Le modèle à base de pavés s'appuie sur la compression de données. Ceci permet de ne
retenir que les objets pertinents et suffisants pour construire le classificateur. Procédant
ainsi , nous contribuons à la réduction de la complexité du classificateur. Nous avons
choisi de représenter le calcul d 'un tel classificateur par un programme mathématique.
S'agissant d'une étude exploratoire et décontextualisée, l'enjeu n 'était pas de chercher une formulation de complexité minimale. En général, la complexité des problèmes de
classification exclut la recherche de solutions exactes dans la pratique.
Le développement de méthodes de calcul opératoires est une des principales ques
tions qui se posent maintenant. Dans le développement d'heuristiques, on rencontre souvent deux questions critiques: (i) la représentation de l'espace des solutions et (ii) la structuration du cheminement dans cet espace. Le programme mathématique peut
suggérer quelques pistes pour la première. Des solutions pourraient être générées en
fixant une partie des décisions et en effectuant une optimisation partielle sur le reste.
On remarque en particulier que la taille de l'échantillon et les conditions d 'appq,rte
nance d'objets à des pavés sont des sources importantes (et mutuellement renforcées)
de complexité. Du côté de l'échantillon, on pourrait par exemple:
- imposer à certains objets de faire partie de l'ensemble de compression ;
- imposer à certains objets d'être 'bien classés (à la façon des prototypes).
Du côté des pavés, en remarquant que la vérification de l'appartenance à un pavé
fixé peut être sortie du modèle d'optimisation, on pourrait envisager la construction
progressive d'une collection de pavés, utilisables dans la formulation, celle-ci permettant
la création d'un nombre très restreint de nouveaux pavés qui pourraient plus tard se
rajouter à la collection.
14Et coûteuse.
85
Chapitre 5
Conclusion générale
Notre objectif de recherche consiste à développer des modèles de classification mult i
classes et multicritère. Nous avons cadré notre champ d 'étude en spécifiant les hypo
thèses de t ravail suivantes :
1. Les objets à classer sont situés dans un espace multidimensionnel de critères. Ces
critères sont définis par une structuration préalable du problème de classifica
tion. Ils sont potentiellement conflictuels et non commensurables. Ils peuvent être
mesurés sur un ensemble d 'échelles cardinales, ordinales ou nominales.
2. Les classes, au nombre de trois ou plus, sont connues d 'avance. Elles forment une
échelle nominale.
3. Le classificateur doit incorporer les informations contextuelles (normes, règles
d 'affectation) pertinentes ou imposées par un agent humain ou organisat ionnel responsable.
4. La construction du classificateur se base sur l'apprentissage supervisé. Il est pos
sible de constituer un ensemble d'apprentissage conforme aux contraintes expri
mées et satisfaisant l'hypothèse de tirages indépendants de distributions iden
tiques.
Nous avons alors tenté d 'apporter des éléments de réponse aux questions de recherche
suivantes:
1. Sous quelles conditions la classification multi-classes se réduit-elle ou non à la
classification binaire? Quel est le lien entre cet te réduction et la pénalisation des
erreurs?
Chapitre 5. Conclusion générale 86
2. Est-il possible de déterminer des bornes multi-classes simultanées? De telles bornes
peuvent-elles être à la fois calculables et serrées?
3. Peut-on concevoir un modèle de classification satisfaisant d 'une part les différentes
exigences de l'aide multicritère à la décision et offrant d 'autre part une gamme
«suffisante» d'arbitrages entre précision et complexité?
Plusieurs disciplines se sont intéressées à la classification avec des préoccupations
particulières qui ont conduit à des méthodes et des démàrches spécifiques. Dans un
premier temps, dans le cadre des chapitres 1 et 2, nous avons tenté de repérer cer
taines dimensions susceptibles d 'aider à structurer ce champ multidisciplinaire qu'est
selon nous la classification. Ce tour d 'horizon a débouché sur notre problématique de
recherche.
Le chapitre 3 a été consacré aux bornes sur le risque de généralisation en classifica
tion multi-classes. Il aborde cette problématique sans la subordonner à celle du choix
d 'un modèle de classification. Dans un premier temps, il établit un lien entre l'asymé
trie de la structure de pénalisation des erreurs et la nature multi-classes du problème de classification. Ce principe de réduction permet de conclure sur l'opportunité d 'un
bornage simultané vs. séquentiel sur les classes.
Dans un deuxième temps, le chapitre 3 propose deux types de bornes pour évaluer
la précision potentielle d'un classificateur donné. L'une est exacte (minimale) , l'autre en est une approximation beaucoup moins complexe. Enfin, le chapitre montre aussi comment ces bornes peuvent être adaptées pour estimer (construire) des classificateurs
multi-classes.
Le chapitre 4 permet d'établir la possibilité de construire un classificateur dans
un contexte multi-classes et multicritère en conciliant les exigences de l'apprentissage
statistique et celles de l'aide multicritère à la décision. Ainsi, le modèle de classification
répond aux spécifications suivantes:
(i) il évite toute forme de compensation cardinale inter-critères, s'appuyant d 'une part sur des formes élémentaires de pavés, et d'autre part sur une affectation
lexicographique aux classes;
(ii) il est compatible avec un mélange d'échelles cardinales, ordinales et nominales;
(iii) il permet la prise en compte de prototypes et de règles a priori contraignant
l'affectation;
(iv) il permet la' compression de données;
Chapitre 5. Conclusion générale 87
( v) il effectue un décompte des erreurs de classification par catégorie d 'erreurs (et
serait donc compatible avec d 'autres fonctions de pénalité qu'une agrégation linéaire).
Nous estimons que cette thèse ouvre plusieurs pistes de recherche sur la classification
multi-classes et multicritère.
1. Il serait intéressant de voir si une idée similaire à notre principe de réduction peut
mener à la construction directe de bornes d 'apprentissage.
2. Notre approximation multi-normale de la distribution multinomiale a une préci
sion imparfaite. Il serait intéressant d 'envisager d 'autres approximations. Dans la même veine, peut-on borner l'imprécision d 'une telle approximation?
3. Il serait pertinent de calibrer les distributions a priori dans le cas des bornes
de compression et des bornes PAC-Bayes de façon à ce que l'arbitrage' précision
complexité reflète réellement le risque de généralisation.
4. Le modèle à base de pavés peut être adapté à d'autres contextes de classifica
tion. Dans la vie réelle, plusieurs raisons pourront justifier l'existence de l'incer
tain, particulièrement de type flou dans l'affectation des objets aux classes. Par
exemple, dans le cas du diagnostic médical, il est plus prudent d'associer des de
grés d'appartenance aux classes que de se prononcer d'une manière catégorique
sur la classification des patients. Dans ce cas, il s'agit de prévoir des fonctions d'appartenance qui vont quantifier l'appartenance des objets aux classes selon
leur position par rapport aux frontières des pavés. Les degrés d'appartenance ob
tenus peuvent être incorporés dans la fonction de perte afin de refléter l'incertain )
dans les erreurs de classification.
5. Du point de vue pratique, la complexité du modèle à base de pavés ne permet
pas son application directe sur un problème de classification multi-classes et mul
ticritère de grande taille. Des heuristiques doivent être prévues tout en tenant
compte de la représentation de l'espace des solutions et de la structuration du
cheminement dans cet espace. Afin de réduire la complexité du modèle, des tech
niques peuvent être envisagées pour réduire la taille de l'échantillon. Une fois les
heuristiques développées, plusieurs domaines d'application sont envisageables:
diagnostic médical, détection de missiles, classification de dossiers d 'assurance,
zonage, etc.
88
Bibliographie
[1] Abe, D. , Inoue, S. , Fuzzy Support Vector Machines for Multiclass Problems. Eu
ropean Symposium on Artificial Neural Networks, 24-26, 2002.
[2] Aiolli , F. , Sperduti, A. , Multiclass classification with multi-prototype support vec
tor machines. Journal of Machine Learning Research, 6 · :817-850, 2005.
[3] Allwein, E., Schapire, R. , Singer, Y. , Reducing multiclass to binary : A unifying approach for margin classifiers. Journal of Machine Learning Research, 1 :113-114,
·2000.
[4] Armijo, L., Minimization of functions having Lipschitz continuous first partial derivatives. Pacific Journal of Mathematics, 16 :1-3, 1966.
[5] Arondel, C. , Girardin, P. , Sorting cropping systems on the basis of their impact on groundwater quality. European Journal of Operational Research, 127 : 467-482,
2000.
[6] Baulieu, F.B., A classification of presence/absence based dissimilarity coefficients. Journal of classification, 6 :233-246, 1989.
[7] Belacel, N., "Méthodes de classification multicritère, méthodologie et applications
à l 'aide au diagnostic médicale". Thèse de doctorat en sciences, Université Libre
de Bruxelles, 1999.
[8] Belacel, N., Boulassel, M.R., Multicriteria fuzzy classification procedure PROCFTN : methodology and medical application. Fuzzy Sets and Systems,
141(2) : 203-217, 2004.
[9] Belacel, N., Boulassel, M.R., Multicriteria fuzzy assignment method : a useful tool to assist medical diagnosis. Arlificial Intelligence in Medicine, 21 : 201-207, 200l.
[10] Belacel, N., Wang, C., Richard, R. , Web integration of PROAFTN methodology for acute leukemia diagnosis. Telemedicine Journal and e-Health. 11(6), 2006.
[11] Benabbou, L. , "Modèles de classification multi-classes et multicritère". Projet de thèse, Faculté des Sciences de l'Administration, Université Laval, 2006.
[12] Benabbou, L. , Belacel, N. , Guitouni, A. , Algorithme d 'apprentissage pour inférer les paramètres de PROAFTN. Proceedings of ASAC, Québec, Canada, 2004.
Bi bliographie 89
[13] Benabbou, L. , Guitouni , A. , Belacel, N. , Une heuristique de recherche locale pour la détermination des seuils de préférence en classification multicritère. In the Pro
ceedings of MOSIM, Rabat, Maroc, 2006.
[14] Benabbou, L. , Guitouni , A. , Lang, P. , Méthodes de classificatio~ : revue de la littérature, essai de caractérisation et de comparaison. Document de travail 2004-023, Faculté des sciences de l'administration, Université Laval , Québec, Canada, . 2004.
[15] Blaszczynski, J. , Greco, S. , Slowinski, R. , Multi-criteria classification-A new scheme for application of dominance-based decision rules. European Journal of Operational
Research, 181 (3) : 1030-1044, 2007 . .
[16] Bognar, K., Aspects théoriques de la classification à base de treillis. Institut de mathématiques et informatique, Université Debrecen, 2003.
[17] Catoni, O. , Théorie statistique de l'apprentissage. Images des mathématiques, 2006.
[18] Chelbi, A., Ait-Kadi, D., Classifying equipment with respect to their import ance for maintenance: a multicriteria approach. Journal of decision systems, 11(1) :91-
108, 2002.
[19] Cormack, R.M. , A Review of Classification. Journal of the Royal Statistical Society,
A (134) :321-367, 1971.
[20] Dietterich, T.G., Bakiri, G. , Solving multiclass learning problems via error correc.ting output codes. Journal of Artificial Intelligence Research, 2 :263-286, 1995.
[21] Duda, R.O., Hart, P.E., Stork, D.G., "Pattern classification". John Wiley & Sons, 2001.
[22] Fisher, L. , Van Ness, J.W., Admissible clustering procedures. Biometrika, 58(1) :91 ,
1971.
[23] Gordon, A.D., "Classification: methods for the exploratory analysis of multivariate
data", New York: Chapman and Hall, 1981.
[24] Graepel, T., Herbrich, R. Shawe Taylor, J., Generalisation error bounds for sparse linear classifiers. Proceedings of the Thirteenth Annual conference on Computatio
nal learning Theory, 298-303, 2000.
[25] Graepel, T., Herbrich, R., Shawe Taylor, J., From margin to sparsity. Advances
in Neural Information Processing Systems, 210-216. Cambridge, MA : MIT Press,
2001.
[26] Hansen, P., Jaumard, B., Cluster analysis and mathematical programming. Ma
thematic Programming, 79 :191-215, 1997.
[27] Henriet , L., "Systèmes d 'évaluation et de classification multicritères pour l 'aide à
la décision, construction de modèles et procédures d 'affectation". Thèse de doctorat
en sciences, Université Paris Dauphine, 2000.
Bibliographie 90
[28] Herbrich, R. , "Learning kernel classifiers". MIT Press, 2002.
[29] Huard, P. , Resolution of mathematical programming problems wit h nonlinear
constraints by the method of centers. In J. Abadie, Ed. , Nonlinear Programming,
North-Holland, 206-219, 1967.
[30] Langford, J. , Thtorial on practical prediction t heory for classification. Journal of
Machine Learning R esearch, 6 :273-306, 2005.
[31] Léger, J. , Martel, J-M., A multicriteria assignment procedure for a nominal sort ing problemat ic. European Journal of Operational Research, 138(2) :349-364, 2002.
[32] Littlestone, N. , Manfred, K. , Relat ing data compression and learnability. Technical
report , University of California Santa Cruz, 1986.
[33] Mangasarian, O. , "Non-linear programming". McGraw-Hill , 1969.
[34] Marchand, M. , Notes du cours: Machine learning. Département informatique,
Faculté des sciences et génie, Université Laval, 2003.
[35] Marchand, M. , Shawe-Taylor, J. , The Set Covering Machine. Journal of Machine
Learning Research, 3 :723-746, 2002.
[36] Marchand, M. , Sokolova, M. , Learning with decision lists of data-dependent features. Journal of Machine Learning Research 6 :427-451 , 2005.
[37] Mari, J J, N apoli, A. , Aspects de la classification. Rapport technique 2909, INRIA, Juin 1996.
[38] McAllester, D. , Sorne PAC-Bayesian theorems. Machine Learning 37 :355-363,
1999.
[39] McAllester, D., PAC-Bayesian Stochastic model selection. Machine Learning 51 :5-
21 , 2003.
[40] Michalowski, W. , Rubin, S. , Slowinski, R., Wilk, S. , Mobile clinical support system
for pediatrie emergencies. Decision Support Systems 36(2) :161-176, 2003.
[41] Michie, D. , Spiegelhalter, D.J. , Taylor, C.C., "Machine learning, neural and sta
tistical classification" .New-York, Ellis Horwood, 1994.
[42] Mitchell, T. M. , "Machine Learning". WCBjMcGraw-Hill, 1997.
[43] Moscarola, J., Roy, B., Procédure automatique d 'examen de dossiers fondée sur une segmentation trichotomique en présence de critères multiples. R.A.I.R.O Recherche
opérationnelle, 11(2) :145-173, 1971.
[44] Mousseau, V. , Slowinski, R., Using assignment examples to infer weights for ELECTRE TRI method : Sorne experimental results. European Journal .Of Ope
rational Research, 130 :263-275, 200l.
[45] Murphy, P. M., Aha, D. W., UCI machine learning repository.
(www .ics. uci.eduj _ mlearnjMLRepository.html.) , 1992.
Bibliographie 91
[46] Murtagh, F., A survey of recent advances in hierarchical clustering algorithms. The
Computer Journal, 26 (4) : 354-359, 1983.
[47] Perny, P. , Multicriteria filtering methods based on concordance and non
discordance principles. Annals of operations research, 80 :137-165, 1998.
[48] Platt , J. , Cristianini, N. , Shawe Taylor, J. , Large margin DAGs for multiclass classi-. ,
fication. Advances in Neural Information Processing Systems, 547-553. Cambridge, MA : MIT Press , 2000.
[49] Roy, B. , La recherche de robustesse en recherche opérationnelle et aide à la décision. Proceedings of ASAC, Québec, Canada, 2004.
[50] Roy, B. , Bouyssou D. , "Aide multicritère à la décision". Economica, Paris, 1993.
[51] Seeger, M. , PAC-Bayesian generalization error bounds for gaussian process classificati.on. Journal of Machine Learning Research 3 :233-269, 2002.
[52] Slowinski, R., Greco, S. , Matarazzo, B., Rough Set Analysis of Preference-Ordered
Data. Rough Sets and Current Trends in Computing, 44-59, 2002.
[53] Vapnik, V.N., "Statisticallearning theory". Wiley, New York, NY, 1998.
[54] Vincent , P., "Modèles à noyaux à structure locale". Thèse de doctorat. Département d'informatique et de recherche opérationnelle. Université de Montréal, 2003.
[55] Weiss, SM., Kulikowski, CA., "Computer systems that learn, classification and pre
diction methods from statistics, neural nets, machine learning and expert systems" .
San Mateo, California Morgan Kaufman Publishers, 1991.
[56] Yu, Wei., "Aide multicritère à la décision dans le cadre de la problématique du tri:
concepts, méthodes et applications". Thèse de Doctorat, LAMSADE, Université de Paris Dauphine, 1992.
[57] Zopounidis, C., Doumpos, M., Multicriteria classification and sorting methods : A literature review. European Journal of Operational Research, 138(2) :229-246,
2002.
Annexe A
U ne revue des méthodes de classification
A.l Les méthodes d 'e classification automatique
92
Comme leur nom l'indique, ces méthodes classent automatiquement les objets , elles les regroupent en un nombre restreint de classes homogènes et séparées. «Homogènes» signifie que les éléments d 'une classe sont les plus proches possible les uns des autres. «Séparées» veut dire qu 'il y a un maximum d 'écart entre les classes. La proximité et l'écart ne sont pas nécessairement au sens de distance. L'homogénéité et la séparation
entrent dans le cadre des principes de cohésion et d'isolation de Cormack (1971).
Les méthodes de classification automatique déterminent leurs classes à l'aide d 'algorithmes formalisés. On parle aussi de méthodes exploratoires, qui ne sont pas expli
catives. Ces méthodes ont fait l'objet de plusieurs ouvrages: Benzecri, Caillez et Pages,
Roux, Celeux et al. cf; (Belacel, 1999). Les méthodes de classification automatique ont apporté une aide précieuse, notamment par leurs applications en biologie, en médecine,
en <;lStronomie et en chimie. Avant de présenter les différentes méthodes de classification,
nous rappelons la notion de dissimilarité :
Définition 20 Une fonction de dissimilarité est une fonction réelle d(k , l) positive et
symétrique, définie entre chaque paire d 'objet k et l de l 'échantillon d 'étude de taille N,
Annexe A. Une revue des méthodes de classification
telle que Vk, l: 1 ... N :
d(k , l) > 0
d(k , k)
d(k , l)
o d(l , k)
93
La distance est un cas particulier de la fonction de dissimilarité, qui respecte l'in
égalité triangulaire: d(k , l) :::; d(k , j) + d(j , l) pour k:::; j :::; l. Dans sa revue des méthodes de classification, Cormak (1971) présente les différentes propriétés algébriques
que doivent vérifier les fonctions de dissimilarité. Il propose aussi une revue de la littérature des différentes mesures de dissimilarité.
Les méthodes de classification automatique sont classées selon l'approche en ques
tion. Cormack (1971) distingue entre trois familles de méthodes : la classification hié
rarchique, le partitionnement et le groupement «Clumping». Quant à Gordon (1981) ,
il rajoute ~rois autres catégories à la taxonomie de Cormack: la classification auto ma
. tique sous contraintes, la classification automatique floue et les méthodes géométriques.
Hansen et Jaumard (1997) définissent deux autres types d 'algorithmes de classification:
les sous-ensembles, et le «Packing».
Pour présenter les méthodes de la classification automatique, nous avons retenu les deux principales catégories: les méthodes de classification hiérarchique et les méthodes
de partitionnement. La classification hiérarchique peut être ascendante ou descendante, le nombre de classes n'est pas fixé au préalable. Quant au partitionnement , c'est une classification non hiérarchique en un nombre fixe de classes. Elle se distingue par une multitude d'algorithmes exacts et d'heuristiques.
A.I.I Les méthodes hiérarchiques
La classification hiérarchique, consiste à effectuer une .suite de regroupements en classes de moins en moins fines en agrégeant à chaque étape les objets ou les groupes d'objets les plus proches. Le nombre d'objets n'est pas fixé a priori mais, sera fixé a
posteriori. Elle fournit ainsi un ensemble de partitions de l'ensemble d'objets (Celeux et
al. cf; (Belacel, 1999)). Il existe deux types de méthodes: i) les méthodes ascendantes
(algorithmes agglomératifs) , ii) les méthodes descendantes (algorithmes divisifs).
Annexe A. Une revue des méthodes de classification 94
La classification hiérarchique ascendante
Ces méthodes sont les plus anciennes et les plus utilisées dans la classification auto
matique. Supposons que nous avons N objets à classer. Les algorithmes agglomératifs
suivant cette approche , définissent d 'abord une partition initiale en N classes unit aires.
Par la suite, ils fusionnent successivement les classes jusqu'à ce que toutes les entités
soient dans la même classe. Dans chaque étape de fusion des classes, le recalcul des
dissimilarités entre les nouvelles classes est nécessaire. Le choix des classes se fait selon le critère qui caractérise la méthode.
Les méthodes suivant cette catégorie diffèrent selon le critère local choisi et selon la méthode de calcul des dissimilarités interclasses. Nous retrouvons notamment les méthodes issues de la théorie des graphes et les méthodes qui se basent sur la minimisation
des carrés des erreurs. Dans les méthodes issues de la théorie des graphes, nous retrou
vons la méthode du lien simple, du lien complet et du lien moyen. Quant 'à la deuxième
catégorie, elle regroupe les méthodes de médiane, centroïd, la méthode de Ward et la méthode de la variance. L'algorithme agglomérat if de la classification automat ique se déroule en quatre étapes (M urtagh, 1983) :
- Étape 1. Déterminer' toutes les dissimilarités inter-objets.
- Étape2. Construire une classe à partir des deux plus proches objets ou classes
(selon un critère local). - Étape3. Redéfinir les dissimilarités entre la nouvelle classe et les autres objets ou
classes (toutes les autres dissimilarités ne changent pas). - Étape 4. Retour à l'étape 2 jusqu'à ce que tous les objets soient dans la même
classe.
La formule combinatoire de Lance et William nous permet de redéfinir les différentes
dissimilarités inter-objets de l'étape 3 de l'algorithme agglomérat if. Soient i et j les deux
objets fusionnés à l'étape 2. La dissimilarité entre la nouvelle classe et n'importe quel
autre objet kest donnée par:
d (i + j, k) = a ( i) d ( i , k) + a (j) d (j , k) + bd ( i , j) + cid ( i , k) - d (j, k) 1 ( A.1 )
Les valeurs de a, b et c dépendent de la méthode de classification hiérarchique choisie.
Annexe A. Une revue des méthodes de classification 95
Classification hiérarchique descendante
Dans le paragraphe précédent, nous avons vu que la classification hiérarchique as
cendante se base sur un seul critère à la fois. Ceci engendre uniquement une séparation
(méthode du lien simple) ou une homogénéité (méthode du lien complet) optimale des
classes. Ce qui risque de donner naissance à l'effet de chaînage (deux entités très dis
similaires appartenant aux points extrêmes d 'une longue chaîne, peuvent appart enir à
la même classe) ou l'effet de dissection (deux entités très similaires peuvent être dans
deux classes différentes). Pour faire face à ces deux problèmes, nous retrouvons les al
gorithmes divisifs de la classification hiérarchique descendante. Ces méthodes ont eu
moins de succès que les premières. Les algorithmes divisifs commencent par former une
seule classe qui englobe tous les objets. Par la suite, ils choisissent une classe de la partition en cours selon un premier critère local. Ils procèdent ensuite à une bipartition
successive selon un deuxième critère local des classes choisies. Cette bipart ition cont i
nue jusqu'à ce que toutes les entités soient affectées à différentes classes. Cet algorithme
divisif se déroule suivant les cinq étapes (Murtagh, 1983) :
- Étapel. Déterminer toutes les dissimilarités inter-objets. - 'Étape 2. Choisir selon un critère local une classe.
- Étape 3. Partitionner la classe choisie en deux classes suivant un deuxième critère
local. Étape 4. Redéfinir les dissimilarités entre la nouvelle partition et les autres
classes. Étape 5, Retour à l'étape 2 jusqu'à ce que chaque objet soit dans une seule classe.
Le premier critère de l'étape 2 permet de donner directement l'ordre suivant lequel
les classes doivent être partitionnées. La difficulté réside dans le critère de partition
nement. Le problème de la classification descendante revient donc à un problème de -bipartition. Ce dernier peut être modélisé, sous forme d'un graphe. Les objets à classer représentent les sommets et les poids des 'arrêts sont les dissimilarités inter-objets.
Trouver la bipartition optimale, revient donc à résoudre le problème de bicoloration du
graphe. Il a été démontré que l'unique bicoloration de l'arbre partiel maximum d 'un
graphe définit une bipartition avec un diamètre minimal (Hansen et J aumard, 1997).
Donc le problème de bipartition revient à déterminer l'arbre partiel maximum d'un
graphe. Nous retrouvons dans la littérature plusieurs algorithmes qui permettent de
traiter ce problème. Exemples: Kruskal, Dijkstra, etc.
Les méthodes suivant cette approche présentent l'inconvénient de ne produire que
des bipartitions, c'est-à-dire uniquement deux classes. Aussi, dès que le nombre d'objets
à classer est très important , le problème de l'arbre partiel maximum devient fastidieux
Annexe A. Une revue des méthodes de classification 96
à résoudre.
Les méthodes hiérarchiques s'appliquent sur des petits échantillons (N < 100). Cette
restriction s'impose au niveau de l'interprétation des résultats. En effet , les méthodes
hiérarchiques produisent une hiérarchie de partitions. Cette hiérarchie est d 'autant plus
grande que l'échantillon est important. Ceci complique l'interprétation de la quantité
importante des partitions produites. D 'autre part, à chaque étape, les groupes sont fu
sionnés ou divisés et ceci de façon définitive. Ceci élimine toute possibilité de retour en
arrière ou d 'amélioration du résultat de la classification. L'interprétation de la significa
tion des classes est subjective. Les classes obtenues à l'aide du dendrogramme peuvent
être expliquées de plusieurs façons.
A.l.2 Le partitionnement
Les algorithmes divisifs et agglomérat ifs des méthodes hiérarchiques reflètent le pro
cessus naturel de l'évolution qui est le produit de séparation et de regroupement. La classification dans le domaine de la biologie, par exemple, correspond exactement au comportement de ce type d'algorithmes. Or, dans d'autres domaines, supposer qu'il y
a uniquement des séparations et des regroupements peut s'avérer restreint. Il est plus
intéressant d'être plus général pour traiter des problèmes de classification en gestion
des opérations par exemple. Les méthodes de partitionnement sont plus générales que les méthodes hiérarchiques. Le principe de cette famille de méthodes, est de trouver une
partition des objets qui optimise un critère additif donné. Cette partition est composée
d'un nombre de classes fixé au préalable.
Le problème de partitionnement se modélise généralement par un programme mathématique. La fonction objectif représente le critère à optimiser. Quant aux contraintes,
elles traduisent les règles de partitionnement à respecter. Les deux règles les plus im
portantes sont relatives au nombre de classes et à l'appartenance unique d 'un élément
à une classe donnée.
Soit l'échantillon 0 de N objets, il s'agit de trouver la partition optimale PM {Cl , .... , CM} de M classes, sous le critère additif f. Soit J l'ensemble des indices de toutes les classes possibles. La modélisation mathématique de partitionnement de l'en-
.----------~ -~ - ~ ~
Annexe A. Une revue des méthodes de classification
semble Q en M classes se présente comme suit :
(P)
Qpt f(PM ) = I: f(Cj)Yj
St
I: Yj = M jEJ I: aijYj = 1 jEJ
jEJ
Yj E {O, 1} , j = 1. .. 1 JI
a .. = {1 si Q i E Cj ~J i : 1. .. N o si Q i rt. Cj
97
(A.2)
Plusieurs algorithmes exacts et heuristiques sont développés pour résoudre le pro
blème (P). La programmation mathématique est utilisée avec toutes ses branches en
partitionneme.nt : programmation dynamique, théorie des graphes, branch and bound,
méthodes de coupes et génération de colonnes. Cette dernière constitue l'application
la plus concrète. En effet , l'algorithme exact pour les critères de la somme des carrées
des erreurs avec la méthode de génération de colonnes de Hansen et Jaumard a fait ses
preuves dans plusieurs applications (Hansen et J aumard, 1997).
Quant aux heuristiques, les méthodes les plus répandues de partitionnement sont
celles qui visent à minimiser la somme des carrées des erreurs. Parmi ces méthodes , nous retenons : la méthode de leader, la méthode de k-means et la méthode des nuées
dynamiques (Belacel, 1999). D 'autres méta-heuristiques ont fait leurs preuves dans le
partitionnement : recuit simulé, recherche tabou, algorithD?-es génétiques et variable
neighborhood search (Hansen et Jaumard, 1997).
Les méthodes de partitionnement permettent de traiter rapidement de grands en
sembles d 'individus. Grâce à l'évolution de la puissance de calcul des ordinateurs et le
développement de nouveaux algorithmes en programmation mathématique, nous arri
vons à résoudre le problème mathématique de partitionnement avec de plus en plus de variables. Ces méthodes produisent directement une partition en un nombre de classes fixé au départ. Les classes qui forment la partition finale sont mutuellement exclu
sives. Toutefois, les techniques de partitionnement présentent un problème au niveau
du nombre de classes qui doit être fixé au départ. Si le nombre de classes n'est pas connu
ou si ce nombre ne correspond pas à la configuration véritable de l'ensemble d 'individus
(d'où le risque d'obtenir des partitions de valeurs douteuses), il faut presque toujours tester diverses valeurs, ce qui augmente le temps de calcul. C'est la raison pour la
quelle, lorsque le nombre des individus n 'est pas trop élevé, on fait appel aux méthodes
hiérarchiques.
Annexe A. Une revue des méthodes de classification 98
A.2 Les méthodes de classification avec apprentis
sage supervisé
Comme leur nom l'indique, ces méthodes sont basées sur l'apprentissage supervisé.
L'apprentissage supervisé consiste à établir des règles de classification à partir des ex
périences réussies dans le passé. 'Un algorithme d 'apprentissage permet de construire
une fonction de prise de décision (un classificateur) à partir des actions déj à classées (ensemble d'apprentissage). Dans l'entrée du système de classification, nous trouvons
un ensemble d 'exemples et à la sortie un classificateur h. L'échantillon est divisé en deux ensembles : un ensemble d 'apprentissage S et un ensemble de test. Le système de
classification est basé sur un algorithme d 'apprentissage A tel que A(S) = h. L'ensemble de test permet d'évaluer l'algorithme d'apprentissage et de le valider.
Michie et al. (1994) distinguent deux raisonnements pour l'apprentissage. Le premier est le raisonnement inductif, il part du particulier vers le général. Il consiste à considérer '
un ensemble maximal de règles de classification, puis à réduire cet ensemble de règles à un sous-ensemble qui le résume au mieux. Le deuxième raisonnement est déductif, du
général au particulier, il consiste à construire les règles une à une jusqu'à obtenir une bonne description de l'ensemble d'apprentissage. Pour présenter ces techniques, nous
avons gardé les principales catégories pour traiter les problèmes de classification .selon
Weiss et Kulikowski (1991) :
- les techniques statistiques;
- l'apprentissage automatique.
Les techniques statistiques regroupent une panoplie de méthodes. Nous présentons
les techniques basées sur l'apprentissage bayésien, l'analyse discriminante et la méthode du k plus proche voisins. Dans la catégorie apprentissage automatique, nous présentons
les réseaux de neurones, les arbres de décision, et les SV~ (Support Vector Machine)
comme une technique d'apprentissage par les noyaux. Pour les autres techniques d'ap
prentissage automatique : algorithmes génétiques, apprentissage par renforcement, set
covering machine, apprentissage à base de règles, nous referons les lecteurs pour plus de
détail à : Weiss et Kulikowski (1991), Mitchell (1997), Michie et al. (1994) , Marchand
et Shawe-Taylor (2002), Herbrich (2002), Vincent (2003). Toutes ces méthodes sont basées sur l'apprentissage inductif. Pour illustrer l'apprentissage déductif, nous présenterons à la fin de ce paragraphe l'affectation par système expert. Quant aux méthodes
d'affectation multicritère, même si elles sont des méthodes de classification basées sur
l'apprentissage supervisé, vu leur manière de ' procéder nous avons jugé utile de les
mettre dans une autre partie.
Annexe A. Une revue des méthodes de classification 99
A.2.1 Les techniques statistiques
Les méthodes s~atistiques sont les plus anciennes techniques d 'apprentissage pour
la résolution des problèmes de classification. Elles sont issues de l'analyse des données et supposent l'existence d 'un modèle probabiliste décrivant les données . . L'objectif de ces méthodes est de caractériser ce modèle. La littérature nous offre une multitude
de· méthodes et d 'applications statistiques (Belacel, 1999). L'objectif de ce type de
techniques est d'arriver à classer de nouveaux cas, en réduisant le taux d 'erreurs de
classification. Selon Weiss et Kulikowski (1991) , ces méthodes ont fait leurs preuves pour
des données assez simples. Dans ce contexte, nous présentons les méthodes statistiques
suivantes:
- l'apprentissage bayésien ;
- l'analyse discriminante;
- la méthode du plus proche voisin.
L'apprentissage Bayésien
Comme son nom l'indique, l'apprentissage bayésien est basé sur le théorème de
Bayes. Le problème de classification peut se traduire par la minimisation du taux d 'erreurs, ce qui peut être formulé mathématiquement en utilisant la règle de Bayes. Dans
le cadre de l'apprentissage bayésien, nous retrouvons plusieurs types de classificateurs:
classificateur optimal de Bayes, classificateur Bayes naif, classificateur de Gibbs, réseaux
bayésiens (Mitchell, 1997). Dans cette partie nous allons présenter le classificateur optimal de Bayes qui est la base des autres méthodes.
Classificateur optimal de Bayes. Deux situations se présentent pour classer un
évènementei: i) si chaque occurrence de ei est de la même classe C, alors la réponse est la classe C. ii) si les occurrences de l'évènement ei sont des classes différentes, alors
la meilleure prédiction de classe est celle qui minimise le taux d'erreurs. On choisit la
classe Ci pour l'évènement e qui apparaît le pl us pour les différentes occurrences :
P(Ci/e) ~ P(Cj/e) pour chaque i i- j (A.3)
En appliquant la formule de Bayes, la règle de la décision de classer l'événement e dans
la classe Ci peut être formulée comme suit:
(A.4)
Annexe A. Une revue des méthodes de classification 100
Tout système qui classifie de nouvelles données suivant la règle de décision A.4 est
appelé classificateur optimal de Bayes. Ce classificateur maximise la probabilité qu'une
nouvelle instance soit correctement classée, pour un ensemble de données, en respect ant
la condition du théorème de Bayes et bien sûr des probabilités a priori des événements.
Théoriquement parlant , aucun classificateur ne peut battre celui ci, d 'où sa qualification
de classificateur ·optimal.
Dans cette analyse bayesienne, la difficulté se situe au niveau de la déterminat ion
. de la probabilité conditionnelle. L.'estimation de cette probabilité est le centre de la
résolution de tout problème de classification. En théorie, l'application de cette méthode
est très simple mais en pratique les valeurs des probabilités ne sont paS toujours faciles
à estimer. Chaque méthode de classification qui est basée sur la minimisation du taux d 'erreurs peut être considérée comme un cas particulier de la règle de Bayes. Toutefois ,
des compromis sont nécessaires afin d 'appliquer cette méthode (Weiss et Kulikowski ,
1991).
En guise de généralisation du classificateur optimal de Bayes, nous retrouvons le
classificateur Bayesien naïf qui simplifie l'hypothèse d'indépendance des données et
qui peut traiter avec des données manquantes. Les réseaux bayésiens se basent aussi
sur cette hypothèse simplifiée. Ils ont été largement utilisés en classification, toutefois,
ils demeurent plus des outils de représentation et de modélisation que de résolution.
L'aut re forme de l'apprentissage bayésien est le classificateur de Gibbs. Il consiste à
tirer un classificateur d'un ensemble de classificateurs prédéfinis selon une distribution
de probabilité et à classer une nouvelle instance selon le classificateur tiré (Mitchell,
1997).
L'analyse discriminante. L'analyse discriminante est le fruit des travaux de Fisher
depuis 1936. La littérature abonde d'ouvrages traitant cette approche : Tomassone,
Celeux et al., cf; (Belacel, 1999). Le but des méthodes suivant cette approche est de
produire des décisions concernant l'appartenance ou non d'un objet à une classe en
utilisant des fonctions discriminantes appelées également fonctions de décision.
La discrimination linéaire et logit. La discrimination linéaire est la forme la
plus simple des méthodes de cette catégorie. Elle présente l'avantage de pouvoir traiter
des données de très grande taille. Le mot linéaire fait référence à la combinaison linéaire
des évènements, hyperplans, qui va être utilisée afin de séparer entre les classes et de
déterminer la classe d'un nouveau cas.
Annexe A. Une revue des méthodes de classification 101
La construction de 'ces hyperplans de séparation peut être effectuée en utilisant
plusieurs techniques, comme c'est le cas avec la méthode des moindres carrées et la
méthode du maximum de vraisemblance. Les hyperplans sont construits de manière à
minimiser la: dispersion des points d 'une même catégorie autour du centre de gravité de
celle-ci. L'utilisation d 'une distance est alors nécessaire pour mesurer cette dispersion. Intuitivement, nous pouvons qualifier la discrimination linéaire comme une fonction d'agrégation pondérée. Cette technique est considérée comme une méthode de classification très compacte. Le défi dans cette méthode consiste à déterminer les poids de la
somme pondérée.
Comme dans l 'analyse discriminante linéaire, les modèles logit ont recours à des
hyperplans de séparation. Ils se distinguent par le recours à des modèles probabilistes d 'erreurs plus robustes (fonctions logistiques par exemple).
La discrimination quadratique. La discrimination quadratique est la générali
sation de la discrimination linéaire. Au lieu qiIe les classes soient séparées d 'hyperplans , elles sont séparées généralement d 'ellipsoïdes. On utilise dans ce cas plusieurs métriques
(une par classe) pour mesurer la dispersion de chaque classe par rapport au centre de
gravité (Henriet, 2000).
Le choix de la métrique n 'est pas toujours évident. En effet, il s'agit de choisir la métrique qui permet d'obtenir des classes où les points d'une même classe soient les moins dispersés possible autour du centre de gravité de la classe; Ces méthodes sont
totalement compensatoires. Dans les deux cas, on constate l'utilisation de fonctions d 'agrégation complète. Comme pour les autres méthodes statistiques, cette agrégation
ne tient pas compte de l'hétérogénéité des données, ceci renforce le côté arbitraire de la
méthode.
K plus proches voisins. Weiss et Kulikowski (1991) font référence à la méthode de
k plus proches voisins comme une technique de claSsification supervisée dans le cadre des méthodes statistiques. Le principe de cette méthode est de chercher pour chaque
action à classer un ensemble de k actions de l'ensemble d 'apprentissage parmi les plus
proches possibles de l'action. L'action est alors affectée à la classe majoritaire parmi
ces k plus proches voisins.
La fixation du paramètre k est délicate, une valeur très faible va engendrer une forte sensibilité au bruit d'échantillonnage. La méthode va devenir faiblement robuste. Un k
trop grand va engendrer un phénomène d'uniformisation des décisions. La plupart des
Annexe A. Une revue des méthodes de classification 102
actions vont être affectées à la classe la plus représentée. Pour remédier à ce problème,
il faut tester plusieurs valeurs de k et choisir le k optimal qui minimise le taux d 'erreurs
de classification (Henriet , 2000).
Le choix de la classe majoritaire entre les classes des voisins peut poser des problèmes
dans le cas où l'action à classer se trouve à la frontière de plusieurs classes. Pour
remédier à ce problème, on donne des poids aux voisins. Ce poids est généralement
proportionnel à l 'inverse du carré de la distance du voisin par rapport à l 'action à classer.
Une généralisation de la méthode a été proposée pour traiter le cas d 'appartenance floue
à des catégories. Cette extension floue de la méthode permet de prendre en compte la
distance comme une valeur qui n 'est plus uniquement ordinale (Henriet , 2000).
A.2.2 Les méthodes d'apprentissage automatique
Les réseaux de neurones
Les réseaux de neurones sont nés à partir de plusieurs sources : la fascination des
scientifiques par la compréhension et la simulation du cerveau humain et la reproduction
de la capacité humaine de compréhension et d 'apprentissage. Le fonctionnement d 'un
réseau de neurones est inspiré de celui du cerveau humain. Il reçoit des impulsions ,
qui sont traitées, et en sortie d'autres impulsions sont émises. Un réseau de neurones
s'exprime sous forme d 'un graphe composé de trois éléments: l'architecture, la fonction
de transfert et la règle d'apprentissage (Figure A.1).
L'architecture a trait, d'une part, à la structure du réseau en ce qui concerne le
nombre et la disposition des neurones et, d'autre part, aux caractéristiques (pondération
et direction) des arcs du réseau, aux couches d'entrées, de sorties et intermédiaires.
Le nombre de neurones des différentes couches dépend du contexte d'application. Par
ailleurs, la détermination du nombre de neurones à y associer demeure dans la plupart
du temps arbitraire. En général, les poids initiaux des arcs sont déterminés aléatoirement
et les valeurs sont modifiées par le processus d'apprentissage.
La fonction de transfert traduit le niveau d'activation d'un neurone en un état.
Le niveau d'activation d'un neurone est obtenu en cumulant l'état de l'ensemble des
entrées qui agissent sur lui. Par la suite, la fonction de transfert transforme le niveau
d'activation en une valeur binaire ou continue, identifiant ainsi l'état du neurone. Les
trois fonctions de transfert les plus utilisées sont: la fonction saut (avec ou sans seuil),
la fonction linéaire (avec ou sans seuil) et la fonction sigmoïde.
Annexe A. Une revue des méthodes de classification
Couche d'entrée Couche cachée
Sortie
Couche de sortie (Linéaire)
FIG. A.l : Représentation d'un réseau de neurones avec une seule couche.
103
Annexe A. Une revue des méthodes de classification 104
La règle d'apprentissage a trait au processus d 'ajustement des poids associés aux
arcs lorsque le réseau est en situation d'apprentissage. La réduction de l'erreur entre la valeur de sortie du réseau et la valeur initiale dans l'ensemble d 'apprentissage permet de
déterminer les paramètres (poids) du réseau. Il existe une variété de réseaux de neurones
à apprentissage non supervisé. Ces réseaux sont capables de mémoriser, ils raisonnent par analogie avec ce qu 'ils ont effectué. Pour ce type d 'apprentissage, on présente une
entrée sans aucune sortie et on laisse le réseau évoluer jusqu'à ce qu 'il se stabilise.
Il existe différents types de réseaux, selon le nombre de couches, la fonction de transfert ou l'architecture elle-même du réseau: Perceptron, Adali:ne et le réseau de
rétropropagation (Weiss et Kulikowski , 1991).
Les réseaux de neurones sont souples, ils sont capables de traiter une gamme très
étendue de problèmes. Leur résultat peut être une prédiction, une classificat ion ou
encore une analyse de clusters. Le degré de résolution est assez élevé. Ils donnent de
bons résultats , même dans des domaines complexes; ils sont beaucoup plus puissants
que les techniques statistiques ou les arbres de décision. Les techniques des réseaux de
neurones s'adaptent facilement à plusieurs types de variables et ils sont intégrés dans
plusieurs supports informatiques (4 Thought, Saxon, Neural connection, Clementine,
Intelligent Miner, SAS, etc.).
Les réseaux de neurones ont des problèmes au niveau du codage des entrées. Toutes
les entrées doivent se trouver dans un intervalle défini, en général, entre 0 et 1. Ce qui entraîne des transformations et risquent de fausser les résultats. La lisibilité au niveau
des résultats n'est pas satisfaisante dans la mesure où l'on ne peut avoir accès à des explications claires des résultats obtenus. Pour assurer de bons résultats , le nombre
d'exemples doit être très grand puisqu'il tient compte du nombre d'entrées, du nombre
de couches et du taux de connexion. Au niveau de la performance, le réseau peut
paraître optimal . d'une façon globale, mais il n 'est pas toujours la meilleure solution. Enfin le nombre de calculs à effectuer pour définir un réseau optimal peut être très consommateur de puissance, ce qui peut donner de mauvaises performances à cette
technique.
Les arbres de décision
Les arbres de décision ont pour objectif la classification et la prédiction. Leur fonc
tionnement est ba~é sur un enchaînement hiérarchique de règles exprimées en langage courant. Un arbre de décision est composé d 'un nœud racine par lequel entrent les don
nées, de nœuds feuilles qui correspondent à un classement de questions et de réponses
Annexe A. Une revue des méthodes de classification 105
qui conditionnent la question suivante.
La mise en place d 'un arbre de décision consiste à préparer les données par la suite
à créer et valider l'arborescence. Il s'agit d 'abord de définir la nature, le format des variables et leur méthode de traitement. Ces variables peuvent être non ordonnées ou encore continues. Dans le cas de l'existence d 'une base de règles simple et limitée, la construction de l'arbre se fait en interaction avec le décideur, en validant les arborescences une à la fois jusqu'à la détermination de l'affectation. C'est un processus -inter
actif d 'induction de règles qui permet d 'aboutir à une affectation bien justifiée. Mais , en général la création et la validation de l'arborescence se passe selon l'algorithme de calcul choisi. Il existe différents algorithmes développés pour appliquer cette technique: CART, C4.5 et CHAID (Henriet , 2000). Un autre critère de segmentation est l' entropie star qui est une généralisation floue de l'entropie de Shànnon. L'utilisation de ce cri
tère permet la construction d 'arbre de décision flou par une méthode dérivée de C4.5. L'affectation à une catégorie est alors calculée à l'aide d 'une probabilité conditionnelle
floue définie au niveau de chaque branche de l'arbre (Henriet , 2000).
Les avantages procurés par les arbres de décision sont leur rapidité et , surtout , leur facilité quant à l'interprétation des règles de décision. La clarté des règles de décision facilite le dialogue homme-machine. Ce sont des méthodes non paramétriques qui ne font aucune hypothèse sur les données. Ils peuvent traiter des ensembles d 'apprentissage avec des données manquantes. Cependant, les arbres de décision ont une faiblesse au niveau de la performance et le coût d'apprentissage. Ils deviennent peu performants et très complexes lorsque le nombre d 'attributs et de classes augmente. En effet , ils risquent de devenir trop détaillés, ce qui leur fait perdre un peu de leur lisibilité ou encore d'aboutir à de mauvais classements et d'augmenter le coût d'apprentissage.
Apprentissage par les n~yaux
Ce type d'apprentissage est parfaitement adapté pour les problèmes de classification. L'objectif des techniques d'apprentissage avec les noyaux est de réduire la complexité des algorithmes d'apprentissage. Cette réduction se passe via la minimisation du temps de calcul. Elle consiste à introduire les noyaux qui permettent de réduire le nombre d'opérations, notamment au niveau du produit scalaire dans le calcul des distances, quand nous avons un vecteur d'entrée de dimension assez importante (Herbrich, 2002).
Afin de formuler le problème de classification, nous introduisons les fonctions paramétriques qui permettent de transformer chaque cas (vecteur d'entrée dans le système) x E X en un nombre réel positif. La fonction fi va exprimer notre croyance que x cor-
Annexe A. Une revue des méthodes de classification 106
respond à la sortie réelle dans l'ensemble d 'apprentissage. Pour simplifier les calculs,
cette fonction doit être linéaire :
N
fi(X) = L WjXj j=l
(A.5)
Pour déterminer la valeur de chaque fi, il faut trouver la valeur du vecteur des
paramètres w.
Soit <P = (<Pl, <P2 , ........ , <pn) E "" un vecteur de caractéristiques qui permet de trans-former chaque vecteur d 'entrée x de dimension N en un nouveau vecteur <t>(x) avec une
dimension plus faible m < N. Donc, nous effectuons un changement de variable avec un changement de repère.
Le vecteur de paramètres W peut s'exprimer sous forme d 'une combinaison linéaire
des vecteurs caractéristiques de l'ensemble d'apprentissage de dimension m (Xl, X2, .... ,Xm ) :
m
W = L Œi<P(Xi) (A.6) i=l
La fonction f peut être exprimée sous forme d'une combinaison linéaire de produit
scalaire dans l'espace des caractéristiques <P.
m N m
f(x) = L Œi L <Pj (Xi)<Pj (x ) = L Œik(Xi, x ) (A.7) i=l j=l i=l
Au lieu de calculer le produit scalaire <t>(x).<p(x') , il suffit de calculer uniquement la
fonction k(x, x') appelée Noyau. La fonction linéaire f est appelée classificateur noyau, elle a comme paramètre Œ E }Rm.
De manière générale, la technique du noyau consiste à choisir d'abord un noyau
k(x, x'). Par la suite, il s 'agit d 'utiliser un algorithme d 'apprentissage (comme le plus
proche voisin, ou le perceptron dual), sur un échantillon d'apprentissage de m exemples
X, pour se construire un classificateur h dont la valeur de sortie h (x) est donnée par :
m
h(x) = LŒik(Xi'X ) (A.8) i=l
Annexe A. Une revue des méthodes de classification 107
Ce classificateur est un classificateur linéaire dans un espace de caractéristiques '" si et seulement si il existe un <P tel · que :
m
k( x, x') = <P( x). <p(X') = L <Pi (x). <Pi (x') (A.9) i=l
La condition A.9 s'appelle la condition de Mercer, et le noyau qui respecte cette condition est appelé noyau de M ercer.
Ainsi, l'introduction du noyau comme une fonction symétrique facilement calculable entre deux éléments, permet d'éliminer tous les calculs relatifs aux produits scalaires
entre les éléments. Un produit scalaire qui se trouve dans toutes les méthodes qui utilisent les distances. D 'autre part , le passage du vecteur simple x aux vecteurs de ca
ractéristiques <P permet de passer d 'un classificateur non linéaire dans l'espace d'entrée
à un classificateur linéaire dans l'espace des caractéristiques, dans le cas où le noyau
choisi satisfait la condition de Mercer. L'objectif de réduire la complexité de l'algorithme
doit être atteint tout en assurant la performance de l'algorithme. Cette performance
se mesure en terme de minimisation des erreurs de la classification de l'ensemble d ' apprentissage. Ainsi, les techniques d 'apprentissage par noyau essayent de minimiser la complexité des algorithmes d 'apprentissage et d'augmenter la performance du classifi
cateur résultant. Dans cette partie, nous allons présenter la méthode Support Vector Machine (SVM), comme une application directe de l'apprentissage par noyaux.
Support Vector Machine. Les SVMs traitent la classification binaire (deux classes). Soit S l'échantillon d'apprentissage composé de vecteurs d'entrée Xi' La classification
de ces vecteurs est connue au préalable. Elle est représentée par le vecteur de sortie
Yi = {-l , 1}. Donc, il suffit de connaître le signe du classificateur pour déterminer la classe de l'exemple. Si S est de dimension m, alors la valeur de sortie du classificateur
binaire h est donnée par :
m
h(x) = signe(L ŒiYik(Xi, x )) (A.10) i=l
Ayant choisi un noyau de Mercer, l'algorithme d 'apprentissage pour les SVMs consiste
à trouver l'hyperplan de marge géométrique maximale qui sépare les données dans l'es
pace des caractéristiques (voir figure A.2 tirée de (Vapnik, 1998)). Vapnik a été le pre
mier à avoir introduit les notions d'hyperplan dans l~s algorithmes vecteurs de support
(Her brich, 2002).
Annexe A. Une revue des méthodes de classification
Classe: 1
Hyperplan ---. ......
+ + +++ +
+ +
..
Marge .. " ~éométrique
Classe: -1
FIG. A.2 : Représentation de l'hyperplan séparant linéairement les données dans l'espace des caractéristiques
108
_____ - ___ _ __ ___�
Annexe A. Une revue des méthodes de classification 109
Pour déterminer l'équation de l'hyperplan, on modélise le problème sous forme d 'un
programme mathématique qui maximise la marge géométrique entre les données , tout
en tenant compte de la nécessité de la bonne classification de l'ensemble d 'apprentissage.
L'efficacité de l'algorithme SVM est due au fait qu 'il combine deux idées pertinentes.
La première est le changement de repère et des variables d 'entrée vers un autre .es
pace de caractéristiques. Ce double changement permet de simplifier la const ruction de classificateur non linéaire en utilisant uniquement les hyperplans dans l'espace des
caractéristiques. L'idée seconde est de construire des hyperplans de séparation, dans
l'espace des caractéristiques avec la marge géométrique la plus large possible (Vapnik,
1998; Marchand et Shawe-Taylor, 2002; Herbrich, 2002). D 'un autre côté, l 'approche
des SVM se base sur des fondements statistiques, une théorie bien enracinée dans le
temps, qui arrive à justifier aisément ses propos.
Les SVMs sont en pleine expansion ces dernières années. Nous retrouvons plusieurs
supports informatiques conviviaux sur le marché qui permettent l'utilisation de cette
méthode. Pour intégrer le cas de traitement de données dans un contexte d 'incertitude,
il existe un essai de traitement flou de la marge géométrique. Cependant, au niveau de
la résolution du programme mathématique il y a encore des améliorations à apporter.
Il serait profitable de développer des heuristiques ou d'autres techniques d 'optimisation
mathématique pour résoudre le problème de maximisation de la marge. D 'un autre côté,
les SVMs présentés traitent la classification binaire. Dans le cas mult,i-classes (n > 2) ,
Vapnik (1998) a proposé de construire n classificateurs binaires en procédant par dicho
tomisation. Chaque classificateur discrimine à chaque fois une classe des autres. Par la
suite, on construit le classificateur, de n-classes en choisissant la classe qui correspond
à la valeur maximale des classificateurs.
A.2.3 Affectation déductive
Système expert
Contrairement aux méthodes précédentes basées sur le raisonnement inductif, l'af
fectation par système expert utilise un raisonnement analytique avec, des inférences
déd ucti ves. On essaie par cette méthode de transformer les connaissances sous la forme
désirée par l'utilisateur. Weiss et Kulikowski (1991) ont définit le système expert comme
étant un modèle informatique qui reproduit le raisonnement et les conclusions d'un ex
pert humain face au même problème. Les connaissances sont représentées par une base
de règles et une base de faits. Les règles peuvent être interprétées comme des conditions
pour déclencher une action donnée. ~es règles sont déterminées par une expertise et
Annexe A. Une revue des méthodes de classification 110
non par des exemples comme c'est le cas dans les arbres de décision. La base de faits
contient des assertions, elle représente une connaissance relevant du cas particulier de l'individu à traiter. Il arrive que plusieurs règles soient simultanément applicables à un état donné de la base de faits, il faut donc choisir. Ce choix est réalisé par un module particulier du système expert. Ce module doit aussi savoir reconnaître quand il faut arrêter le processus. On définit pour cela une condition d'arrêt. Cette partie du système expert s'appelle la structure de contrôle (Lévine et Pomerol, cf; (Belacel, 1999)).
L'affectation des individus aux différentes classes se fait à l'aide de la base de règles, le système cherche l'ensemble des règles applicables en effectuant un choix, puis il applique la règle choisie et recommence le cycle. Le processus s'arrête lorsque le but est atteint ou lorsqu'il n'y a plus de règles applicables. Ce traitement est appelé moteur d 'inférence. Il n'est pas toujours évident pour l ' exp~rt d 'exprimer sa connaissance, ce
qui constitue l'un des inconvénients de ces systèmes. Notons aussi que le nombre de règles est énorme pour la plupart des applications pratiques, et les variables doivent
être qualitatives. Toutefois, Les systèmes experts présentent l'avantage d 'exprimer des connaissances certaines et . précises.
A.3 Les méthodes de tri multicritère
Dans cette partie, nous allons aborder la classification du point de vue aide multicritère à la décision. La classification en aide multicritère à la décision se situe dans le cadre de la problématique de tri. La problématique de tri consiste à affecter les actions à des catégories caractérisées par des actions de référence. Roy et Bouyssou (1993) définissent cette problématique comme suit :
"Elle consiste à poser le problème en terme de tri des actions par caté
gorie, celles-ci étant conçues relativement à la suite à donner aux actions
qu'elles sont destinées à recevoir, c'est-à-dire à orienter l'investigation vers une mise en ,évidence d'une affectation des actions de A à ces catégories en
fonction de normes portant sur la valeur intrinsèque de ces actions et ce,
compte tenu du caractère révisable et/ou transitoire de A; cette probléma
tique prépare une forme de prescription ou de simple participation" .
Bana e Costa distingue entre deux situations de la problématique de tri (Léger et Martel, 2002) :
- Problématique du tri ordinal. Les catégories sont ordonnées, elles sont caractéri-
Annexe A. Une revue des méthodes de classification 111
sées par des actions de référence (profils) limites. Ces profils limites définissent les frontières de la catégorie. Une action est affectée à une catégorie si elle est jugée
entre les frontières de la catégorie.
- Problématique du tri nominal. Les catégories sont non ordonnées, elles sont ca
ractérisées par des actions de référence centrales. Une action est affectée à une
catégorie, si elle est jugée semblable à au moins une action du profil central.
En aide multicritère à la décision, Roy et Bouyssou (1993) distinguent entre trois approches opérationnelles: i) l'approche du critère unique de synthèse, ii) l 'approche de
surclassement de synthèse et iii) l'approche du jugement local interactif. L'approche du critère unique de synthèse, attribuée à l'école anglo-saxonne, consiste à déterminer une
fonction de valeur ou d 'utilité qui représente les préférences du décideur. Le ·concept de surclassement de synthèse, attribué à l 'école francophone , se base sur l'introduction de
la relation de surclassement qui permet de juger deux actions lors de la comparaison
par paire. L'approche du jugement local interactif consiste à progresser avec le décideur
sur la base d 'alternance entre étapes de calculs et étapes de dialogue. Dans le cadre de
ce document, nous nous intéressons aux méthodes d'affectation multicritère discrètes représentées par les deux premières approches: critère unique de synthèse et surclas
sement de synthèse. En complément de ces deux approches, nous présentons à la fin
de cette section une adaptation de la théorie des ensembles approximatifs pour le tri multicritère.
A.3.1 Approche du critère unique de synthèse
UTADIS : Utilités Additives Discriminantes
La méthode UTADIS a été développée initialement par Jacquet-Lagrèze en 1995, et
améliorée par Zopounidis et Doumpos en 1999 (Zopounidis et Doumpos, 2002). UTA
DIS est une méthode de tri ordinal qui fait appel à l'agrégation par fonction d'utilité
pour classer les actions. Elle établit un modèle global' d'utilité additive pour classer un
ensemble d'alternatives dans des classes prédéfinies avec un minimum d'erreurs. Les
préférences du décideur doivent être des fonctions monotones sous l'échelle d'évaluation
des critères.
Les seuils d'utilité ont été introduits pour décider de l'affectation des actions aux classes selon leur utilité globale. L'objectif d ' UTADIS est de déterminer les utilités partielles et les seuils d'utilité en minimisant les erreurs de classification entre les classes
déterminées par la méthode et celles données par le décideur. Ce problème a était
Annexe A. Une revue des méthodes de classification 112
modélisé sous forme de programme mathématique linéaire.
UTADIS est accompagnée en général d 'une analyse post-optimale. On y analyse la sensibilité des utilités partielles. Ceci permet d'avoir une idée de la sensibilité des seuils d 'utilité. L'autre version de la méthode, UTADIS l, intègre la notion de distance par
rapport aux classes correctes dans sa fonction objectif. Ces méthodes ont eu plusieurs
applications, plus particulièrement en finance. UTADIS est disponible sur PREFDIS ,
un DSS (Decision Support System) développé par Zopounidis et Doumpos (2002).
La méthode UTADIS , repose sur la construction de la fonction d 'utilité, ce qui lui
assure une forte axiomatisation. En effet , la fonction d 'utilité, ou de valeur, suppose que les préférences vérifient les axiomes de Von-Neuman Morgen'sterm (existence d 'un ordre complet , transitivité, continuité, réduction des loteries composées, substitut ion).
Cette approche exclut toute incomparabilité et fournit un résultat très intéressant mais
qui ne reflète pas réellement les préférences du décideur.
Dans la méthode UTADIS , tous les critères sont mesurés par des échelles cardinales, une telle échelle ne reflète pas toujours la réalité des données. L'application d 'UTADIS
est basée sur le principe d 'agrégation complète. Une agrégation qui n 'est pas toujours justifiée dans le cas de plusieurs points de vue hétérogènes et conflictuels. UTADIS exige
la monotonie des fonctions des préférences du décideur. Une hypothèse mathématique très forte, qui permet de manipuler facilement les fonctions d'utilités partielles, au prix
de la considération des préférences réelles du décideur convenablement raisonnées.
A.3.2 Approche de surclassement de synthèse
Procédure Trichotomique de segmentation
Les travaux de Roy et de Moscarola (1971) ont été à l'origine de cette méthode. C 'est une procédure de choix dans laquelle on essaie d'affecter les actions à trois caté
gories selon les recommandations qu'on pourrait donner à un décideur. Ainsi , les actions
ayant des raisons suffisamment importantes pour être recommandées à un décideur sont
affectées à la catégorie Cl , celles qui ont des raisons importantes pour ne pas être re
commandées au décideur vont être affectées à la catégorie C3 , et les dernières qu'on ne
peut affecter ni à Cl ni à C3 vont être affectées à la catégorie C2 (Belacel, 1999).
Cette méthode fait appel à une relation de surclassement floue. Elle va prendre des valeurs dans l'intervalle [0, 1]. 1 correspond à un surclassement certain et 0 à une
Annexe A. Une revue des méthodes de classification 113
absence totale de surclassement. Cette relation floue fait appel aux niveaux de coupe
qui sont fixés par le décideur.
Le principe de fonctionnement de cette procédure est d 'établir des profils limites
B = {b1 , ..... , bl } et C = {Cl , ........ , Ck} qui sont respectivement les bornes inférieures
de Cl et supérieures de C3 puis de déterminer les degrés de surclassement , S, de x avec les profils B et C. On note :
S(x, b)
S(b*,x )
S(c, x)
S(x, c*)
l rpax S(x, bi )
2=1
l rr!ix { S (bi , x) / bi 1: b}
l rpax S(Ci x)
2=1
l rpax { S ( x, Ci ) / Ci 1: b} 2=1
(A. 11)
Les actions sont affectées selon le résultat de la comparaison de chaque degré de
surclassement avec les seuils fixés au préalable pour chaque classe (Moscarola et Roy,
1971).
nTOMIC
La procédure nTOMIC permet de classer des actions suivant des catégories ordon
nées. Issue des travaux de Ostanello et Massaglia, cette méthode est basée sur l 'utilisa
tion de deux profils fictifs b et C qui n 'ont pas de 'signification réelle en terme d'actions,
mais ils correspondent respectivement à une action jugée comme bonne et une autre
comme mauvaise sur tous les critères. Pour faire face au manque d 'information et à la
mauvaise détermination des évaluations, cette procédure introduit des seuils de discri
mination s et d'indifférence q (Belacel, 1999).
A chaque évaluation des profils pour chaque critère, on trouve un seuil d 'indiffé
rence et un seuil de discrimination. A partir des seuils, on définit respectivement deux
sous-ensembles goodness et badness. Ces sous-ensembles de critères confirment respec
tivement que l'action est bonne ou mauvaise. L'appartenance d'un critère donné à ces
sous-ensembles est déterminée par l'indice de goodness dj ( x) et de badness D j ( x) ; leurs
valeurs sont calculées à partir de l'évaluation de l'action x sur le critère j suivant la
courbe de la figure A.3.
Pour obtenir des indices globaux sur tous les critères de badness et de goodness,
deux approches d 'agrégation ont été proposées: une compensatoire et une autre non
Annexe A. Une revue des méthodes de classification 114
~(x)
FIG. A.3 : Fonctions de goodness et de badness de nTOMIC
Annexe A. Une revue des méthodes de classification 115
compensatoire. La fonction d'affectation est basée uniquement sur les indices globaux et
sur les seuils. Les catégories sont définies par une partition du plan (d , D) , en plusieurs
régions allant de bon jusqu'à mauvais.
Electre Tri
Due à Yu (1992), Electre tri est une méthode de tri ordinal. Chaque catégorie est
représentée par un profil limite supérieur et inférieur. Pour chaque action de référence bi,
on connaît son seuil d 'indifférence Pj , de préférence qj et de veto Vj pour chaque critère. Elect re tri se déroule en deux étapes principales. La première consiste à construire ·la
relation de surclassement valuée et la deuxième est la procédure d 'affectation.
La construction de la relation de surclassement se base sur les notions de concordance
et de discordance. L'indice de concordance global de l'action a avec l'action de référence
bh : C(a , bh ) exprime dans qu~lle mesure les évaluations de a et de b sur tous les critères sont en concordance avec « a surclasse b». L'indice de discordance partiel sur un critère donné exprime dans quelle mesure le critère en question s'oppose à la proposition « a
surclasse b».
Les degrés de crédi bili té entre chaque action et l'action de référence (as ( a, bi) , a s (bi
, a) ) sont calculés à partir des indices de concordance globaux et de discordance. Ce degré de crédibilité représente une relation de surclassement floue. Elle est transformée par la suite en relation nette en utilisant une valeur de coupe À.
La deuxième étape est la procédure d'affectation. Cette affectation est le résultat
du jumelage de deux procédures. la première conduit à une affectation pessimiste, la
seconde conduit à une affectation optimiste. Ce sont deux procédures de filtrage res
pectivement conjonctif et disjonctif (Roy et Bouyssou, 1993). L'utilisation de ces deux procédures permet de gérer les situations d'incomparabilité. Ainsi, on aura deux at
titudes vis à vis de l'incomparabilité. Une attitude pessimiste qui consiste à affecter l'action à la plus mauvaise catégorie dont l.a borne supérieure est incomparable, et
une attitude optimiste qui affecte l'action à la meilleure des catégories dont la borne
inférieure est incomparable.
Annexe A. Une revue des méthodes de classification 116
Filtrage Flou
Perny (1998) a introduit une approche générale avec indifférence floue et une rela
tion de préférence stricte construite en utilisant le principe de concordance et de non
discordance. L'idée de base derrière sa méthode est le filtrage flou. Il définit le filtrage
des actions comme étant la comparaison des actions à des points de référence afin de
décider à quelle catégorie (classe) elles vont appartenir.
Il considère deux types de filtrage :
- Filtrage flou par préférence stricte (FFP) : la règle d'affectation consiste à tester
quant est-ce qu'une action est préférée ou non à un point de référence qui reflète la limite inférieure de la catégorie.
Filtrage flou par indifférence (FFI) : dans ce cas, la règle d'affectation consiste à
tester quand est-ce qu'une action est indifférente ou non à un point de référence
qui représente un prototype de la catégorie.
Perny (1998) a largement étudié les méthodes de rangement basées sur des méca
nismes d'agrégation des relations de préférences floues. En 1998, il a proposé la méthode
FFP qui utilise une relation de préférence floue. Cette méthode traite la problématique
du tri ordinal et construit une relation de préférence floue binaire valuée dans [0 , 1].
Les catégories sont supposées ordonnées en ordre décroissant et chaque catégorie est
représentée par deux frontières supérieure et inférieure Yk et Yk - 1 , en supposant que la
frontière supérieure d'une classe est la frontière inférieure de la classe qui vient après.
L'action x est affectée à la catégorie Ct si et seulement si elle est préférée à au moins
un élément de Yk sans pour autant être préférée à aucun élément de Yk - 1 .
Quant à la méthode FFI, elle a été proposée initialement par Perny (1998) et amé
liorée par Henriet (2000). Elle traite la problématique du tri nominal. L'affectation des
actions aux différentes catégories se fait graduellement à partir d'une relation d'indif
férence des actions à chaque prototype qui caractérise la catégorie. La relation d'indif
férence floue est construite à partir d'un sous ensemble flou concordant et discordant
caractérisé par des seuils de concordance flous et des seuils de discordance flous. Une fois
les indices de concordance et de discordance de chaque action par rapport à un critère
donné sont calculés, on les agrège pour obtenir un indice global. Lorsqu'une action est
indifférente à un prototype d'une catégorie donnée, on affecte l'action à cette catégorie.
Annexe A. Une revue des méthodes de classification 117
PROAFTN : PROcédure d'Affectation Floue dans le cadre de la problématique du Tri Nominal
PROAFTN détermine la classe d'affectation d'une action à partir des relations de
ressemblances floues déterminées par les indices de ressemblance (Belacel, 1999). La
procédure PROAFTN se caractérise par une affectation graduelle des actions aux différentes classes. Cette méthode peut combiner les deux types d 'apprentissage: déduct if
et inductif, ce qui n 'est pas le cas des autres méthodes. Comme son nom l'indique, cette
méthode traite la problématique du tri nominal, chaque classe est caractérisée par un
ensemble de prototypes. PROAFTN traite les problèmes avec des données de nature
qualitative ou quantitative.
Dans un premier temps, PROAFTN détermine l'indice de concordance Cj(a , br ). C'est le degré avec lequel le critère gj est en concordance avec l'indifférence de l'action
a par rapport à l'un des prototype i de la classe h : b? Pour tenir compte de l'indifférence
faible on introduit à ce niveau les seuils de discrimination q;(b7) et qt(b?). Dans un deuxième temps, on calcule l'indice de discordance Dj(a, b7) qui exprime le degré de discordance avec l'indifférence de l'action a par rapport au prototype b7 en utilisant les seuils de veto.
En appliquant le principe de concordance et de non-discordance, nous déterminons l'indice d 'indifférence de l'action a par rapport au prototype b? :
(A.12) j j
En calculant cet indice sur tous les prototypes de la classe h, nous pouvons déterminer l'indice d'appartenance global, de l'action a par rapport à la classe h tel que:
d(a, Ch) = max {I(a , b~), .... , I(a, blh)} (A.13)
La décision d'affectation s'annonce comme suit:
avec k = l. .. K (A.14)
Il existe d 'autres variétés de la méthode, PROCTN et PROCFTN, ce sont deux procédures de choix dans le cadre de la problématique du tri nominal. La famille des
méthodes a eu beaucoup de succès, notamment dans le diagnostic médical. Nous re
tenons l'application pour le diagnostic des leucémies aigues, des tumeurs de cerveau
Annexe A. Une revue des méthodes de classification 118
et plus récemment , nous trouvons l'application de PROAFTN dans le diagnostic de
l'asthme (Belacel, 1999; Belacel et Boulassel, 2004, 2001 ; Belacel et aL , 2006).
L'analyse de la méthode PROAFTN nous permet de constater l'existence d 'une
procédure floue d'affectation multicritère avec un nombre illimité de catégories. Elle
combine les deux techniques d 'apprentissage inductif et déductif, tout en assurant une interaction avec le décideur afin de déterminer les paramètres. Cette interaction est très
importante dans un processus de décision. Seulement ,- le nombre de paramèt res que
doit déterminer le décideur augmente d 'une manière très rapide avec l'augmentation du nombre des classes et du nombre des critères. Ceci constitue le point faible de cette méthode, qui est généralisé pour les autres méthodes d 'affectation multicritère.
TRINOMFC : TRI NOMinal basé sur des Fonctions Critères
Développée par Léger et Martel (2002), TRIN 0 MFC est une méthode de tri nominal. Elle se base sur une extension de la notion de critère en lui introduisant une fonction , pour chaque critère, donnant la préférence du décideur pour une action par
rapport à une autre action. Elle fait appel aux indices de similarité au lieu des seuils de
concordance et de discordance. Contrairement à la dissimilarité, la similarité exprime
la proximité, pas nécessairement au sens de distance entre deux éléments. Ainsi, la
similarité entre l'objet et lui-même est égale à 1.
La première étape de TRINOMFC, consiste à choisir une des fonctions de critères
proposées par Léger et Martel (2002). Ces fonctions constituent une adaptation des fonctions de PROMÉTHÉE. À partir des fonctions de critères et des seuils de similarité
et de dissimilarité, nous calculons l'indice de similarité local SI;(a, b;) pour chaque prototype b;, pour chaque classe h et pour chaque critère j. La troisième étape consiste
à calculer l'indice de similarité global de chaque action a par rapport au prototype de . la classe h : SIh(a , b;).
La quatrième étape détermine l'indice d'appartenance de l'action a à la catégorie
Ch : h= 1, ... K. (A.15)
À partir de ce degré, nous pouvons formuler la décision d'affectation de la méthode
Annexe A. Une revue des méthodes de classification 119
TRINOMFC:
(A.16)
TRINOMFC est une méthode très simple. Grâce aux indices de similarité, elle ne
fait appel à aucun seuil de discordance ni de veto. Contrairement aux autres méthodes d 'affectation multicritère, TRINOMFC se base sur la similarité entre l'objet à classer et les prototypes des classes, au lieu des préférences.
A.3.3 Ensembles approximatifs (Rough sets)
La théorie des Rough sets, traduite par la théorie des ensembles approximatifs, a été introduite par Zdzislaw Pawlak au début des années 80. Elle fournit les outils nécessaires
pour induire des règles à partir de données et pour mener à bien l'analyse des décisions
et des données imparfaites. C 'est un cadre mathématique, à la fois riche et simple, pour des recherches dans différents domaines tels que la médecine, l'aide à la décision,
le marketing. Les informations imparfaites peuvent causer la non distinction entre les
objets. Cette relation de non distinction implique un espace approximatif à partir des
classes d 'équivalence des objets non distingués. Les ensembles approximatifs sont une
approximation supérieure et inférieure d'un ensemble en terme des classes d'équivalence (Blaszczynski et al., 2007).
Une extension de la théorie classique en classification multicritère est l'approche
basée sur la dominance: Dominance Rough Sets Approach (DRSA) (Slowinski et al. ,
2002). Cette approche se base sur la construction d'une base de règles. On considère
un ensemble de données classées au préalable. À partir de cet ensemble, la DRSA
construit un modèle de préférences du décideur qui est tout simplement la base de
règles. Cette dernière permet d'expliquer les décisions de classification antérieures, et
de classer de nouvelles données qui se présentent. La syntaxe des règles de décision: «si condition alors décision» permet de traiter des données hétérogènes (quantitative et qualitative, ordonnées ou non-ordonnées, échelle de mesure de préférence ordinale ou
cardinale). Elle permet aussi de traduire les préférences du décideur et l'incomplétude
dans les données. Ainsi la DRSA est adaptée au contexte de classification multicritère et s'accorde avec les approches de critère unique de synthèse ou de surclassement de
synthèse. La classification est la recommandation issue de la base de règles (Blaszczynski
et al., 2007).-
Annexe A. Une revue des méthodes de classification 120
U ne des applications concrètes des roughs set en classification est la conception et le développement d'un système mobile de triage aux urgences de l'hôpital pédiatrique de l'Est de l'Ontario. Installé sur un ordinateur de poche, ce système aide au diagnostic des douleurs abdominales chez les enfants quelque soit la nature de l'information disponible (Michalowski et al., 2003).
Annexe B
Complément de preuves ma.thématiques du chapitre 3
121
B.I Principe de réduction des cas d'erreurs de clas
sification
Preuve de la proposition 1. L'image de chaque variable indépendante multi-variée
de Bernoulli dans C x y par la fonction a est une variable indépendante multi-variée
de Bernoulli sur K. La probabilité associée en découle directement.
B.2 Borne sur l'ensemble de test
Preuve de la proposition 3 (ii). Soit p un vecteur de probabilité tel que F(p; r) > 6.
Considérons :
p(t) = (1 - t)p + tes, t E [0 , 1]
Comme F(p(O); r) > 6 > F(p(l); r) et comme F(.; r) est continue, il existe un a E (0 , 1) tel que F(p(a); r) = 6. Comme qTp(t) > .qTp est strictement croissante en t , qTp(a) > qT p. Donc p n'est pas optimale pour 3.1.
Annexe B. Complément de preuves mathématiques du chapitre 3
Preuve de la proposition 4.
SUP{3 { f3 1 SUPPEV({3 ) {F(p; r)} 2: 8} SUP{3 ,p {f3 1 pEU, qT P 2: f3, F(p; r) 2: 8} Supp {qTp 1 p E U, F(p;r) 2: 8} El (r , 8)
122
Preuve de la porposition 5. Soit p > O. Définissons D(p) = Diag(p )-1. Nous avons
donc \lk E K :
( i) f (p; k) > 0 (ii) \1 pf(p; k) = f(p; k)D(p)k (iii) \l~pf(p; k) = f(p; k)D(p) [-Diag(k) + f(p ; k)kkT] D(p)
Alors, \Ir E [0 , 1] :
( i v ) F (p; r) > 0
(v) gr(P) ~ \lpF(p; r) = D(P)f!r(P), avec f!r(P) = LkEKr f(p; k)k (vi) Hr (p) ~ \l~pF(p; r) = -Ar(p) + gr (p)gr (p)T , avec
Ar(P) = D(p)Diag(f!r(p))D(p) (une matrice diagonale)
La fonction F est pseudo-concave en p sur IR~+ si et seulement si pour chaque
p E IR~+ et pour n'importe quelle variation admissible dp (telle que p + dp E IR~+) nous avons:
Soit s' = max {i Il :S i :S s, qi :S nr} . Il est clair que:
et inversement :
ce qui implique avec (i) que (f!r(P))i > O.
Donc, pour n'iqlporte quelle variation admissible dp telle que dPi = 0, Vi :S s' , nous
avons: f(p + dp; k) = f(p; k)\lk E Kr, donc F(p + dp; r) = F(p; r)
Annexe B. Complément de preuves mathématiques du chapitre 3 123
Considérons maintenant le cas alternatif d 'une variation admissible dp telle que
dpi i= 0 pour certains i :s; s'.
Comme F(.; r) est doublement continue et différentiable,
F(p + dp; r) F(p; r) + gr(pf dp + ~dpT Hr(p)dp + o(lldpl12)
F(p; r) + gr (p)T dp + ~ (gr (p)T dp)2 - ~dpT Ar (p) dp + o(lldpI12)
À partir de l'hypothèse précédente, _~dpT Ar (p) dp < O. En plus, gr (p)T dp+~ (gr (p)T dp) 2 :s; o pour n 'importe quelle dp telle que 0 :s; -gr (p)T dp :s; 2. Cette dernière inégalité est vé-
rifiée en choisissant Ildpll finie mais suffisamment petite. Il en découle que F(p + dp' r) :s; F(p; r) dans un voisinage ouvert de p. Par t ransitivit é, cette inégalité est vérifi' e pour
n 'importe quelle variation admissible dp.
Preuve de la proposition 6. Considérons la fonction génératrice des moments
fj, [T Î< 1 (",,8 !!.J.. ) n M(B;p)==E e () n Ip = ~t=lPten ,
D'un côté nous avons
aM (B; p) !!i (",,8 !!1.) n-l --- =Pie n ~ pte n
aB i . t=l
D'ou
D 'un autre côté
a2M(B;p) _ n - 1 ( !!i.) ( . !!i.) (",,8 !!1. ) n-2 { Ipie~ (L:=lPte~ ) n- l ---- - -- Pie n Pje n ~ pte n + n aBi8B j n t=l 0
J = ~
j i= i
Donc
E -K, -K 1 p = \1()()M(B;p) I()=o= -Diag(p) + --pp [1- 1- T ] 2 1 n - 1 T
n n n n
et
lO(p) a un rang au maximum de s - 1 puisque O(p) e == O.
Annexe B. Complément de preuves, mathématiques du chapitre 3 124
Preuve de la proposition 7. La fonction w (p) ~ ~ [KT P - (qT P )2J est clairement
concave. Donc sa croissance monotone, transforme d 'une manière concave O' (p) ~ y'w(p). En plus , O'(p) > O. Il en découle que (voir: (Mangasarian, 1969)) G(p; r) ~ r~t{ est pseudo concave en p. La pseudo-concavité est préservée sous des transformat ions
croissantes différentiables, donc F(p; r) = <I>( G(p; r)) est pseudo-concave en p.
Preuve de la proposition 9. Aussi longtemps que (3t > (3t, l 'algorithme génère
une nouvelle borne supérieure (3t+ l ou une nouvelle borne inférieure (3t+l telle que
(3t > (3t+l > (3t cependant ~t > (3t+l > (3t · Donc \~t) et ((3t ) convergent à la limite en commun (3*, qui est la valeur optimale de la borne sur l'ensemble de test . Comme f 8
est compacte, n 'importe quel point d 'accumulation x* de (Xt ) est dans f 8 , nous donne une valeur object ive de qT X* = f3*, et donc optimale pour 3.8.
B.3 Borne PAC-Bayes
Prel,lve du lemme 12. Rappelons que K = {k E Ztl~ki = n} , nous avons :
E 1 i B(k, h)
Alors, pour chaque distribution s,p :
(n + 8 - 1)
8-1
Par l'utilisation de l'inégalité de Markov, nous avons le lemme 12.
Preuve du lemme 13. Nous avons:
Annexe B. Complément de preuves mathématiques du chapitre 3 125
n! rrs k · B(k , h) = -s - (Pi ) t
TI ki l i=l i =l
En utilisa~t l'approximation de Stirling nous avons:
In(B(k , h)) = -nkl(~(h) l lp(h)) + o(n)
Rappelons que kl(k(h)l lp(h)) est la divergence de Kulback Leibler dans le cas de la distribution multinomiale entre deux aléas Hyper-Bernoulli définie par :
nous avons donc :
~ ln (B(k\, h)) ~ kl(K(h)l lp(h))
en appliquant l'inégalité de Jensen nous avons:
Preuve du théorème 14. Pour chaque distribution 5,p, nous avons:
ln [Eh~'lJ B(~, h)] ln [Eh~j) ~ B(~, h)] 'ID,
> Eh~j) ln [~ B(~, h)] par l'inégalité de Jensen
- KL(DW}3) + Eh~j) ln [B(~, h)] par l'application du lemme 10 nous avons:
( [ 1 ] 1 (n + s - 1) ) ~r 'ID, Eh~j) ln B(k, h) S KL(DIISJ3) + In("5 s _ 1 ) ~ 1 - 15
par l'application du lemme 13 nous obtenons le théorème 14.
Preuve du théorème 15. Posons:
é (D) KL(DIISJ3) + ln G (n; ~ ~ 1) ) ,
A (,0) {~E Usi n· kl(~llp(,O) ~ é (,O)}
B (,0) {~E Usi R(,O) ~ r(~ , 'o)}.
Annexe B. Complément de preuves mathématiques du chapitre 3
Par construction de r(~, D) , on a :
La projection et l'intersection préservant l'inclusion, il s 'ensuit que:
\/D : A (ù) ç B (ù) , et 1 - 6 S Prz (K:(Ù) E A(Ù)) S Prz (K:(Ù) E B(Ù)) .
B.4 Compression des données
Preuve du lemme 18 Soit:
Nous avons:
Pl S P§ {3 (J E J, SJ E Z IJI, a E M (SJ)) : R (R (SJ , a-)) > B (6, (SJ , a) ,SJ)}
S LJEJ
P§{3a- E M(SJ): R(R(SJ ,a-)) > B(6, (SJ , a-) ,SJ)}
126
La première inégalité est le résultat d 'une implication (inclusion d'évènements) , la se
conde de l'application de la «borne sur l'union». Par l'identité PB {A} = E§JP§J {A n SJ} nous obtenons :
S'" E§ '" P§ _ {R(R(SJ , a))>B(6, (SJ , a-) , SJ)}~P2 L-tJEJ J L-tŒEM(SJ) J .
par une seconde application de la borne sur l'union.
Par hypothèse, les sous-échantillons aléatoires § J et § J sont mutuellement indépen
dants et ont les mêmes distributions que toute paire d 'échantillons indépendants §d et
§n-d de tailles respectives IJI = d et IJI = n - d. Ainsi: