contributions à la classification supervisée multi-classes ... · the exact (minimal) numerical...

LOUBNA BENABBOU

Cont~ibutions à la classification supervisée multi-classes et rnulticritère en aide à la décision

Thèse présentée à la Faculté des études supérieures de l'Université Laval

dans le cadre du programme de doctorat en sciences de l'administrat ion pour l'obtention du grade de Philosophiœ Doctor (Ph.D.)

FACULTÉ DES SCIENCES DE L'ADMINISTRATION UNIVERSITÉ LAVAL

QUÉBEC

2009

©Loubna Benabbou, 2009

ii

Résumé

La revue des méthodes de classification révèle des forces et des faiblesses dans chacun

des paradigmes de la classification. Notre ambition est d 'étendre le champ d 'application de certaines méthodes, en essayant de concilier ies avantages de l'apprentissage statis

tique et ceux de l'Aide Multicritère à la Décision. Cette thèse vise le développement de

modèles de classification supervisée dans un cadre multi-classes et multicritère. Elle ap

porte particulièrement des éléments de réponse aux questions de recherche suivantes:

Sous quelles conditions la classification multi-classes se réduit-elle à la classification

binaire? Quel est le lien entre cette réduction et la pénalisation des erreurs? Est-il pos

sible de déterminer des bornes multi-classes simultanées? De telles bornes peuvent-elles

être à la fois calculables et serrées? Peut-on concevoir un modèle de classification qui

satisfait d'une part les différentes exigences de l'aide multicritère à la décision et qui

offre d'autre part une gamme «suffisante» d'arbitrages entre précision et complexité?

Cette thèse offre une revue du champ de la classification. Pour bien saisir ce champ,

il s'avère nécessaire de s'arrêter sur les différentes approches de classification et de

caractériser les méthodes de classification connues. C'est ainsi que cette thèse adopte

une vision multidisciplinaire pour adresser le.s questions de recherche posées.

Des bornes multi-classes simultanées pour mesurer la performance des classificateurs

multi-classes sont développées. En énonçant et démontrant le principe de réduction,

nous montrons le lien entre l'asymétrie de la structure de pénalisation des erreurs et

la nature multi-classes du problème de classification. Nous généralisons par la suite les

bornes de la classification binaire dans le cas multi-classes. Ainsi, nous développons des

bornes optimales pour évaluer, voire estimer des classificateurs multi-classes.

Un modèle à base de pavés pour l'estimation d 'un classificateur multi-classes et

multicritère est proposé. Ce modèle établit la preuve qu'il est possible de concilier les

concepts et les avantages de l'apprentissage statistique et de l'aide multicritère à la déci

sion. La faisabilité du modèle est vérifiée sur un exemple de taille réduite. Nous illustrons

aussi un arbitrage fondamental entre précision et complexité des classificateurs.

iii

Abstract

Classification has been studied in different disciplines and is receiving an increasing

interest. The study and the analysis of different classification paradigms reveal specific strengths and weaknesses. The aim of this thesis is to develop models of supervised

classification in a multi-class and multicriteria context. We extend the scope of sorne

methods while trying to reconcile the advantages of Statistical Learning and Multicriteria Decision Aid (MCDA). This thesis tries to address the following questions: Under

what conditions is multi-class classification reducible to binary classification? What is

the relation between such reduction and the structure of error penalty? Is it possible to

determine simultaneous multi-class bounds? How can one reconcile the computability

and complexity of these bounds? Is it possible to develop a classification model that can

satisfy the requirements of MCDA and adequately trades off precision and complexity?

We propose an extension to multi-class contexts of known binary classification

bounds on the risk. A fundamental reduction principle allows us to characterize true multi-class problems. Thus, we show the relation between the asymmetry of the struc

ture of penalties and the multi-class nature of classification problem. We investigate

several possible definitions of test-set risk bounds. A mathematical program that finds

the exact (minimal) numerical valu~ of the bound is proposed. A computationally efficient probabilistic approximation is also proposed. A general solution algorithm is

offered. Experimental results are discussed.

A hyperrectangle learning model for multicriteria and multi-class classification pro

blem is proposed. This model shows that it is possible to reconcile the concepts and .

advantages of statistical learning with a MCDA-inspired approach. The feasibility of

the model is tested on a small example, which also illustrates a fundamental trade-off

between data fitting and complexity of classifiers.

iv

A la mémoire de mon père Mohammed B enabbou

v

Remerciements

Je tiens à remercier mon directeur de recherche, M. Pascal Lang de m 'avoir donné

l'opportunité d 'effectuer ma thèse sous sa direction. Je le remercie pour son implication incondit ionnelle, sa grande disponibilité, son encadrement et la confiance qu'il m'a

accordée tout au long de ce travail.

J 'aimerai également exprimer ma profonde reconnaissance à mon co-directeur de

recherche M. Adel Guitouni pour m 'avoir accueilli , guidé et soutenu pendant toutes ces années. Je le remercie pour sa confiance et sa générosité. Il m 'a inspiré par son

enthousiasme, son esprit critique et sa passion pour le travail.

Je souhaite remercier également M. Jean-Marc Martel d'avoir accepté de faire partie de mon jury de thèse. Ses conseils précieux et son soutien moral m'ont beaucoup aidé. Je remercie M. Mario Marchand et M. François Laviolette pour leur implication et leur intérêt pour la thèse. Mes remerciements les plus sincères s'adressent aussi à M. Pierre Hansen d'avoir accepté d 'agir comme examinateur externe.

Je remercie le personnel du programme de doctorat de la faculté des sciences de

l'administration. Je tiens à souligner l'implication et le soutien de Mme Marie-Claude

Beaulieu. Merci aussi au personnel du département Opérations et Systèmes de Décision, particulièrement à Mme Brigitte Riverin pour sa gentillesse et sa disponibilité. Je tiens à souligner les amitiés fraternelles tissées à la faculté: Anissa, Lamia et Leila. Merci pour leur soutien, leur implication et leur écoute.

Je dédie cette thèse à la mémoire de mon père Mohammed Benabbou, aucun mot

ne pourra exprimer ma reconnaissance et ma gratitude envers lui. A ma mère Khadija

Ouhsine, pour son amour inconditionnel, pour ses sacrifices, pour son soutien indéfec

tible jusqu'à la dernière étape de cette thèse. A mon époux Zouheir Malki pour sa grande patience, sa complicité, sa compréhension et son soutien moral. A mes deux sources de bonheur mes filles Maryam et Marwa pour la joie qu'elles m'apportent au

quotidien.

Remerciements vi

J'adresse mes remerciements les plus sincères à mes sœurs Asmâa et· Rajâa et mon

frère Issam pour leur soutien précieux, leur amour et leur implication. Merci à tous les

membres de ma famille et ma belle famille. Je tiens à souligner particulièrement laide

de ma belle mère Khadija Daoudi et mon beau père Mustapha Malki qui m a permis

de terminer cette thèse.

Finalement je tiens à souligner le support financier des organismes: le laboratoire de

Recherche et Développement pour la Défense Canada à Valcartier (RDDC-Valcartier)

le Fond Québécois de la Recherche. sur la Société et la Culture (FQRSC) , Mathéma

tiques des technologies de l'information et des systèmes complexes (MITACS) et le Fond

Qué bécois de la Recherche sur la Nature et les Technologies (FQRNT).

Table des matières

Résumé

Abstract

Remerciements

Table des matières

Liste des tableaux

Table des figures

1 Introduction générale 1.1 Définitions préliminaires . . . . . . . . . . .

1.1.1 L'inférence en classification ..... 1.1.2 Buts et modalités de la classification

1.1.3 Structure de l'espace des classes ... 1.2 La classification: un domaine multidisciplinaire

1.2.1 Classification et statistique ....... .

1.2.2 Classification et programmation mathématique. 1.2.3 Classification et apprentissage automatique ...

1.2.4 . Classification et aide multicritère à la décision 1.3 Organisation de la thèse . . . . . . . . . . . . . . . . .

2 Problématique de recherche

2.1 Introduction........ 2.2 Démarches de classification selon différents paradigmes

2.2.1 Classification automatique . .

2.2.2 Apprentissage automatique

2.2.3 Aide mul ticri tère à la décision

2.3 Caractérisation des méthodes de classification

2.4 Problématique de recherche

2.4.1 Objet de cette thèse .....

vii

ii

lil

v

vii

x

xi

1

1 2

3 3 4

4

5 5 6 7

9

9

10 10 12

18 22 27

27

Table des matières

2.4.2 Questions de recherche

2. 5 Conclusion...........

viii

29

31

3 Bornes sur le risque de généralisation en classification multi-classes 33 3.1 Introduction........................ 33

3.2 Classification multi-classes et fonctions de perte valuées 3.3 Principe de réduction des cas d 'erreurs de classification

3.4 Borne sur l'ensemble de test .............. .

3.5

3.4.1

3.4.2 3.4.3

Borne minimale de queue de multinomiale . . .

V ne borne minimale sous une approximation normale Optimisation de la borne ; . . . . . . . .

3.4.4 Expérimentation exploratoire des bornes Borne PAC-Bayes ......... . . .

3.5.1 Principes ........... .

3.5.2 Borne PAC-Bayes multi-classes 3.5.3 Estimation de la borne PAC-Bayes

3.6 Sélection ou construction de classificateurs

3.6.1 3.6.2

Compression des données . Autres approches

3.7 Concl usion. . . . . . . . . . . . .

34

36

37

39

40

41 44 46

46 49

51

53 53 56 56

4 Modèle de pavés pour une classification multi-classes et multicritère 58

4.1 Introduction............ 58 4.2 Contexte de classification .....

4.3 Modèle de classification par pavés 4.3.1 Vne illustration . . . . . . 4.3.2 Modélisation des classes .

4.4

4.5

4.3.3 Estimation d'un classificateur dans le cadre de la compression de données .............................. .

4.3.4 Représentation des pavés et forme du message complémentaire. 4.3.5 Dimension de l'espace des messages . . . . . . . . . . . . . . . . 4.3.6 L'estimation d'un classificateur par l'intermédiaire d'un programme

mathématique . . . . . . . . . . . . . . . .

Tests préliminaires du programme mathématique

Concl usion. . . .

5 Conclusion générale

Bibliographie

A Une revue des · méthodes de classification

A.1 Les méthodes de classification automatique .

59

61 62 64

66 67 69

71

80

81

85

88

92

92

Table des matières

A.1.1 Les méthodes hiérarchiques ............ .

A.1.2 Le partitionnement ................. . A.2 Les méthodes de classification avec apprentissage supervisé

A.2.1 Les techniques statistiques . . . . . . . . . A.2.2 Les méthodes d 'apprentissage automatique A.2.3 Affectation déductive .......... .

A.3 Les méthodes de tri multicritère . . . . . . . . .

A.3.1 Approche du critère unique de synthèse. A.3.2 Approche de surclassement de synthèse A.3.3 Ensembles approximatifs (Rough sets) .

B Complément de preuves mathématiques du chapitre 3 B.1 Principe de réduction des cas d'erreurs de classification B.2 Borne sur 1 ensemble de test . . . . .

B.3 Borne PAC-Bayes ..... B. 4 Compression des données . .

IX

93 96 98 99

102

109 110

111 112 119

121 121 121 124

126

Liste des tableaux

2.1 Caractéristiques des méthodes de classification . . . . .

2.2 · Caractéristiques des méthodes de classification (Suite) .

x

24

25

3.1 Matrice de la fonction de perte dans des cas valué et binaire. 35 3.2 Réduction des cas d'erreurs en catégories de perte . . . . . . 36

3.3 Impact des quatre facteurs de contrôle sur les bornes multinomiale et multi-normale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 45

3.4 La moyenne et l'écart type de la différence entre les bornes multinomiale

et multi-nor~ale selon les paires (n , r) .................. 46 3.5 La moyenne et l'écart type de la différence entre les bornes multinomiale

et multi-normale selon les paires (n , s). . . . . . . . . . . . . . . 46

4.1 Résultats des tests préliminaires du programme mathématique. . 81

Table des figures

2.1 Illustration des concepts d 'homogénéité et de séparation

2.2 Processus d 'apprentissage automatique ....... .. 2.3 Illustration du compromis complexité versus précision 2.4 Taxonomie des méthodes de classification ...... .

3.1 a: Majorant sur la borne : qT p = (3. b : Centre j5 s'éloignant des

contraintes tout en améliorant l'objectif.

4.1 Représentation des pavés dans l'espace des critères.

4.2 Représentation des pavés du classificateur pour le cas 1

4.3 Représentation des pavés du classificateur pour le cas 19

xi

Il

13 15 23

43

65 82 83

A.1 Représentation d'un réseau de neurones avec une seule couche 103 A.2 Représentation de l'hyperplan séparant linéairement les données dans

l'espace des caractéristiques . . . . . . . . . . . . 108 A.3 Fonctions de goodness et de badness de nTOMIC . . . . . . . . . . .. 114

1

Chapitre 1

Introduction générale

La classification est une des modalités les plus anciennes de construction et de com

munication d 'interprétations du monde empirique. De nombreux historiens des sciences

s'accordent sur l 'idée que toute science empirique a ses fondements initiaux dans la

construction de nomenclatures. Lorsqu'une telle science, à un stade de plus grande

maturité, se concentre sur l'étude de processus dynamiques (plutôt que de catégories

statiques) cette étude se réfère toujours à, et peut remettre en question, une nomencla

ture sous-jacente.

Il existe plusieurs problématiques de classification. Le début de ce chapitre esquisse certaines distinctions à gros traits, et précise par la même occasion des éléments de ter

minologie. Nous rappelons ensuite les contributions de divers domaines de connaissances

à ce champ multidisciplinaire qu'est la classification.

1.1 Définitions préliminaires

Qu'est-ce que la classification? Examinons quelques définitions proposées par des

spécialistes. Pour Mari et Napoli (1996) :

"Effectuer une classification, c'est mettre en évidènce des relations entre

des objets, et entre ces objets et leurs paramètres" .

Un problème de classification selon Henriet (2000) :

Chapitre 1. Introduction générale

"consiste à affecter des objets, des candidats, des actions potentielles à

des catégories ou des classes prédéfinies" .

2

Michie et al. (1994) ont un point de vue axé sur l'apprentissage, ils définissent la

classification par :

"La classification est l 'action de regrouper en différentes catégories des

objets ayant certains points communs ou faisant partie d 'un même concept,

sans avoir connaissance de la forme ni de la nature des classes au préalable,

on parle alors de problème d'apprentissage non supervisé ou de classification

automatique, ou l'action d 'affecter des objets à des classes prédéfinies, on

parle dans ce cas d 'apprentissage supervisé ou de problème d 'affectation" .

Retenons aussi la définition de Bognar (2003)

"Le processus de classification cherche à mettre en évidence les dépen

dances implicites qui existent entre les objets, les classes entre elles, les

classes et les instances. La classification recouvre les processus de recon

naissance de la classe d 'un objet, et l 'insertion éventuelle d 'une classe dans

une hiérarchie. Ce mode de raisonnement permet de reconnaître un objet

en identifiant ses caractéristiques, relativement à la hiérarchie étudiée. La

classification fait intervenir un processus de décision d'appartenance" .

1.1.1 L'inférence en classification

Une classification a trait à des objets à classer. Les objets sont localisés dans un espace de caractéristiquesl . Il s'agit de les localiser dans un espace de classes. Ce problème n'a de sens que si on pose l'existence d'une correspondance entre ces deux espaces. Le problème de classification est celui de l'estimation de cette correspondance inconnue.

Nous appellerons:

- classificateur : une règle établie (estimée) de classification, c'est-à-dire une fonction sur l'espace des caractéristiques vers l'espace des classes;

- classification: la construction d'un classificateur; - classement : la mise en œuvre d'un classificateur existant.

10U critères ou attributs

Chapitre 1. Introduction générale 3

Le processus de construction d'un classificateur, et les qualités souhaitables d un tel

classificateur, sont des thèmes prééminents de cette thèse.

1.1.2 Buts et modalités de la classification

Généralement , l'inférence statistique traditionnelle peut couvrir plusieurs probléma

tiques:

- exploratoire : déceler des relations hypothétiques;

- prédictive: valider la performance globale d 'un système de relations; - explicative: valider des composantes détaillées d 'un système de relations· com-

prendre leurs contributions à ce système.

On retrouve des distinctions voisines en classification:

1. On appelle classification automatique, ou non supervisée, un ensemble de problé

matiques où l'espace des classes n'est pas spécifié à l'avance. Il s 'agit d 'identifier,

voire de construire, un système de classes sur la base d'observations dans l'espace

des caractéristiques.

2. On appelle classification supervisée un contexte où un ensemble de classes (et une

structure sur cet ensemble) est spécifié à l'avance.

3. Dans de nombreuses situations, la classification est balisée par des éléments contex

tuels importants. Ceux-ci peuvent prendre la forme de règles (paramétrées) , d 'archétypes, etc. C'est le cas par exemple dans certaines nomenclatures de sciences

naturelles. C'est aussi le cas dans certains contextes de gestion telle pré-diagnostic

médical. Souvent, dans de tels contextes, l'activité de classification vise à mieux

comprendre la nature constitutive (les critères de définition) des classes.

1.1.3 Structure de l'espace des classes

Différentes relations d'ordre peuvent être imposées sur l'espace des classes. À une

extrême se trouve le cas courant de l'échelle nominale simple, soit l'absence de toute

relation. Dans ce cas, on peut penser que si le problème de classification est parfaitement spécifié, l'ensemble des ~lasses devrait induire une partition sur l'espace des attributs2

.

2 Cela ne signifie pas que le classificateur, estimateur imparfait, doive nécessairement avoir cette

propriété.


Un autre cas courant est celui d'un ordre total sur les classes (lorsqu'il y a plus de deux

classes). On parle alors de classification ordinale. Enfin on peut avoir des structures

plus complexes d'ordres partiels. C'est le cas, par exemple, lorsqu'on pose une relation arborescente (hiérarchique). C'est aussi le cas lorsque les échelons sont représentés par des distributions.

1.2 La classification un domaine multidisciplinaire

La classification a fait l 'objet de plusieurs travaux dans différents domaines de re

cherche. Nous allons en particulier discuter des liens que la classification entretient avec la statistique la programmation mathématique l'apprentissage automatique et laide

multicritère à la décision.

1.2.1 Classification et statistique

Les statisticiens figurent parmi les premiers à s'intéresser aux méthodes de clas

sification. Les méthodes statistiques de classification automatique se basent sur une

mesure de distance inter-objets. Ces méthodes sont divisées en deux catégories, mono

thétiques et polythétiques. Les méthodes monothétiques partent de l'ensemble d 'objets à classer et les divisent successivement en sous-groupes. Elles ne tiennent compte que

d'une seule variable à la fois. Cette dernière permet de différencier les objets en deux groupes. Parmi ces méthodes, nous retrouvons l'analyse des associations. Quant aux

méthodes polythétiques, elles tiennent compte de toutes les variables simultanément.

Les méthodes polythétiques sont à leur tour divisées en deux groupes: hiérarchiques ou

non hiérarchiques. Dans les méthodes hiérarchiques, nous retrouvons les méthodes descendantes et ascendantes. Les méthodes non hiérarchiques peuvent être des méthodes de partitionnement ou de recouvrement.

Les méthodes statistiques sont les techniques les plus anciennes pour la résolution des problèmes de classification supervisée. Elles sont issues de l'analyse des données:

Elles supposent l'existence d'un modèle probabiliste décrivant le~ données. L'objectif de ces méthodes est ainsi de caractériser ce modèle. La littérature nous offre une multitude

de méthodes et d'applications statistiques (Duda et al. , 2001). L'objectif de ce type de

techniques est d'arriver à classer de nouveaux cas, en réduisant le taux d'erreurs de

classification. Selon Weiss et Kulikowski (1991), ces méthodes ont fait leurs preuves pour des données assez simples. Avec le développement de la théorie statistique d'ap-


prentissage, de nouvelles méthodes de classification s'appuyant sur la théorie statistique

et se basant sur l'apprentissage sont nées.

1.2.2 Classification et programmation mathématique

La programmation mathématique dans un premier temps, a été utilisée en classi- .

fication automatique. Le problème de partitionnement est souvent formulé comme un

programme mathématique. Le nombre de classes de la partition est donné à l avance.

L'objectif à optimiser peut refléter un souci d 'homogénéité intra-classe ou de différencia

tion inter-classes. La résolution fait appel à une variété de techniques de programmation mathématique discrètes, exactes ou heuristiques.

En classification supervisée, la programmation mathématique a été utilisée pour op

timiser la capacité prédictive du classificateur à construire. Des formes d 'approximations

très variées ont été proposées, incorporant parfois une mesure d 'erreurs empirique, parfois des repères paramétrés, etc. Toutefois, la contribution de la programmation mathé

matique est beaucoup plus importante en classification automatique qu'en classification

avec apprentissage supervisé.

1.2.3 Classification ·et apprentissage automatique

Vincent (2003) définit l'apprentissage automatique par «une tentative de comprendre

et de reproduire l 'habileté humaine d 'apprendre de ses expériences passées et de s'adap

ter dans les systèmes artificiels». Par apprentissage, on entend la capacité de généraliser

et de résoudre de nouveaux cas à partir des connaissances mémorisées et des expériences réussies dans le passé. Appelé souvent la branche connexionniste de l'intelligence artifi

cielle, l'apprentissage automatique puisait initialement ses sources en neurosciences. Au

cours des dernières années, il s'est détaché de ses origines pour faire appel à des théories et outils d'autres disciplines: théorie de l'information, traitement du signal, program

mation mathématique, statistique (Vincent, 2003). Des préoccupations convergentes

en analyse de données ont donné naissance à la théorie de l 'apprentissage statistique

(Vapnik, 1998).

Il existe trois principales tâches d'apprentissage automatique: apprentissage super. visé, apprentissage non supervisé et apprentissage par renforcement. L'apprentissage

supervisé consiste à établir des règles à partir des expériences réussies dans le passé.

Pour un problème de classification, un système d 'apprentissage supérvisé permet de


construire une fonction de prise de décision (un classificateur) à partir des actions

déj à classées (ensemble d 'apprentissage) , pour classer des nouvelles actions. Dans le

cas de l'apprentissage non-supervisé, on dispose d 'un nombre fini de données d apprentissage sans aucune étiquette. L'apprentissage par renforcement a la particularité que les décisions prises par l'algorithme d 'apprentissage influent sur l'environnement et les observations futures (Vincent, 2003).

La classification compte parmi les plus grandes réussites de l'apprentissage automa

tique. Plusieurs applications illustrent la diversité des domaines d utilisation: moteur

de recherche , reconnaissance de la parole, reconnaissance de formes , reconnaissance de

l'écriture manuscrite, aide au diagnostic médical, analyse des marchés financiers , bio

informatique, sécurité des données, etc.

1.2.4 Classification et aide multicritère à la décision

Les méthodes de classification multicritère partent en général de classes prédéfinies, elles relèvent donc de l'apprentissage supervisé (Belacel, 1999; Henriet , 2000) , mais avec une composante contextuelle qui peut être importante. C'est pourquoi elles se

distinguent par des modalités particulières d'apprentissage.

La classification en aide multicritère à la décision se situe dans le cadre de la pro

blématique du tri. Selon Roy et Bouyssou (1993) «Elle consiste à poser le problème

en terme du tri des actions par catégorie». Les actions sont évaluées sur plusieurs cri

tères potentiellement conflictuels et non commensurables. Contrairement aux autres

. approches de classification, l'aide multicritère à la décision ne cherche pas uniquement

à développer des méthodes automatiques pour analyser les données afin de les classer.

Dans le cadre de l'affectation multicritère, les préférences du décideur/l 'humain sont aussi prises en compte. Ainsi, selon Henriet, (2000) «L'objectif des méthodes de clas

sification multicritère n'est pas de décrire au mieux les données, mais de respecter un

ensemble de préférences qui auront été articulées auparavant».

Plusieurs méthodes génériques sont apparues au fil du temps, dont le tri, le filtrage et

l'affectation. La plus ancienne, dite «tri», visait initialement un classement ordinal. Les

premières méthodes du tri multicritère, traitent uniquement le cas de classes ordonnées,

le qualificatif tri correspondait exactement au résultat des méthodes et dans ce cas on parlait du tri ordinal. Mais avec le développement de nouvelles méthodes, il y a eu le

traitement de cas de catégories non classées, qui est traduit par tri nominal.

Perny (1998) a introduit par la suite l'idée de filtrage. Il définit le filtrage des actions


comme étant la comparaison des actions à des points de référence afin de décider à quelle

catégorie (classe) elles vont appartenir. Il distingue entre deux types de filtrage : par

préférence et par indifférence.

Dans la définition d 'Henriet (2000) de la classification multicritère, nous retrouvons

la notion d 'affectation :

"Soit un ensemble d 'actions évaluées sous différents critères et une liste

de catégories prédéfinies caractérisées par des points de référence spéc.ifiques.

Le problème d 'affectation multicritère consiste à évaluer l'appartenance de

chaque action à chaque catégorie. Si un jugement de valeur est associé avec

chaque catégorie, le problème d 'affectation consiste à évaluer la qualité in

trinsèque de chaqué action".

L'affectation est donc l'action de quantifier l'appartenance des objets aux catégories. Il n 'y a pas d'apprentissage proprement dit, mais l'accent est mis plus sur la construction

d 'une fonction d'affectation. Ceci constitue le principe de certaines méthodes de classification multicritère, c'est pour cette raison que ces méthodes sont souvent appelées

méthodes d 'affectation.

Dans la littérature, nous retrouvons plusieurs applications du tri multicritère : évalu~tion des dossiers de crédits (Moscarola et Roy, 1971) , reconnaissance de la parole (Pawlak, cf; Henriet , 2000), évaluation environnementale (Arondel et Girardin, 2000) , sélection de port feuilles en finance (Zopounidis et Doumpos, 2002), maintenance (Chelbi

et Ait-Kadi, 2002) et diagnostic médical (Belacel, 1999; Belacel et Boulassel, 2004, 2001 ; Belacel et al., 2006). Dans les dernières années, l'aide multicritère à la décision a fait

appel à d'autres domaines tels que la programmation mathématique et l'apprentissage

automatique pour améliorer et simplifier quelques méthodes (Mousseau et Slowinski,

2001 ; Zopounidis et Doumpos, 2002; Benabbou et al., 2004, 2006).

1.3 Organisation de la thèse

La revue de la littérature montre l'existence d'une panoplie de méthodes de clas

sification appartenant à différentes disciplines. Une telle diversité reflète une certaine

richesse et un dynamisme intellectuel, mais en même temps révèle les limites de ces

méthodes. Compte tenu de la complexité des problèmes de classification multi-classes

et multicritère, et des limites des méthodes existantes, nous avons jugé pertinent de


mener une recherche plus étroite en apprentissage statistique et en aide multicritère à

la décision.

Tout au long de cette thèse, nous tenterons d 'apporter des éléments de réponse

à la question suivante: comment développer des modèles de classification mlti-classes

et multicritère ? Pour ce faire, nous préconisons une approche multidisciplinaire faisant appel, entre autres aux fondements de la théorie statistique d 'apprentissage et de l'aide

multicritère à la décision. Les modèles de classification proposés s appuient d 'une part

sur l'approche formelle et rigoureuse des méthodes d apprentissage statistique pour la

détermination de la performance des classificateurs et de la majoration des risques.

D 'aut re part ils s'appuient sur la prise en considération de la présence de l homme et

des différents aspects multicritères dans les méthodes de tri multicritère.

Dans le chapitre 2, nous explorons le champ de la classification. Nous nous arrêtons sur les différentes approches de classification et nous caractérisons les méthodes de

classification connues. Nous concluons ce chapitre par la présentation de notre problé

matique et nos questions de recherche.

Le chapitre 3 propose de mesurer la performance des modèles de classification dans

un contexte multi-classes en termes de borne sur le vrai risque du classificateur. Nous

montrons d'une part le lien entre l'asymétrie de la structure de pénalisation des erteurs et la nature multi-classes du problème de classification. D'autre part, nous développons

des bornes optimales pour évaluer voire estimer des classificateurs multi-classes.

Dans le chapitre 4, nous présentons un modèle à base de pavés · pour la classification

multi-classes et multicritère. Nous démontrons qu'il est possible de concilier les concepts

de l'apprentissage statistique et de l'aide multicritère à la décision pour résoudre les

problèmes de classification multi-classes et multicritère. Nous montrons la faisabilité du modèle sur un exemple de taille réduite. Nous illustrons également un arbitrage fondamental entre précision et complexité.

Nous concluons cette thèse en rappelant les contributions réalisées et en présentant

quelques pistes de recherches futures.

9

Chapitre 2

Problématique de recherche

2.1 Introduction

Le chapitre précédent nous a donné une idée de la variété des problématiques qui

se posent en classification. Cette variété, couplée à celle des contextes d 'application,

résulte en une grande diversité de méthodes proposées dans la littérature.

Ce chapitre présente notre problématique de recherche. Dans une première part ie, nous examinons les principales caractéristiques des méthodes actuellement disponibles.

La cohérence interne de ces méthodes n 'apparaît bien que lorsqu'on les replace dans leur

contexte paradigmatique. C'est pourquoi nous distinguons classification automatique,

classification supervisée, et tri multicritère.

Ce tour d 'horizon nous permettra, dans une deuxième partie, de dégager des questions de recherche, et d 'indiquer brièvement comment nous comptons y répondre.

Chapitre 2. Problématique de recherche 10

2.2 Démarches de classification selon différents pa

radigmes

2.2.1 Classification automatique

En classification automatique, les objets sont regroupés en un nombre restreint de

classes homogènes et séparées. Homogène signifie que les éléments d'une classe sont

les plus proches possibles les uns des autres. Séparé implique qu'il y a un maximum

d 'écart entre les classes. La proximité et l'écart ne sont pas nécessairement mesurés en

termes de distance. L'homogénéité et la séparation entrent dans le cadre des principes de cohésion et d 'isolation de Cormack (1971). La figure 2.1 de Gordon (1981) illustre

les différentes situations d 'homogénéité et de séparation des classes.

Nous retenons la démarche de Hansen et Jaumard (1997) pour traiter les problèmes

de classification automatique d'un point de vue recherche opérationnelle et statistique:

1. Échantillon. Sélectionner l'ensemble d'objets à classer. Est-ce un échantillon ou

une population?

2. Données. Mesurer les caractéristiques des objets et construire une matrice d 'éva

luation.

3. Dissimilarités.Calculer des dissimilarités entre toutes les paires d'objets.

4. Contraintes. Choisir le type de classification désirée (hiérarchique, partition). Spé

cifier les contraintes relatives aux classes, par exemple la taille maximale des

classes pour certains problèmes.

5. Critère. Choisir le critère (ou les critères) qui permet(tent) d'exprimer l'homogé

néité et/ou la séparation des classes (diamètre, écart).

6. Algorithme. Choisir ou développer un algorithme pour le problème défini avec les

étapes 4 et 5.

7. Calcul. Appliquer l'algorithme choisi pour obtenir les différentes classes.

8. Interprétation. Appliquer des tests formels ou informels pour sélectionner les

meilleures classifications obtenues dans l'étape 7. Décrire les classes par leurs

listes d'objets et par des rapports de statistique descriptive. Procéder à une in

terprétation contextuelle des résultats.

Les étapes 4 et 5 définissent le problème de classification comme un programme

mathématique. Les étapes 1, 2, 3 et 8 correspondent à un point de vue statistique de

la classification.

Chapitre 2. Problématique de recherche

.. ' • • • ..... J ••• . '. • ..... ' • ,,"'~ . . ". • '1:-" • • . ..... ' .. . , . " t.

.' . . '. t. • 1 • •••• -'. • • ' ~ f. . ' . .. 1 • ••• • ,. '\fI,' .' ... •• '.. . t •• .... ... (a) (h) (c)

FIG. 2.1 : Illustration des concepts d'homogénéité et de séparation:

Ca) Classes séparées et homogènes; (b) Classes séparées mais non homogènes; Cc) Classes homogènes mais non séparées.

Il


2.2.2 Apprentissage automatique

Vapnik (1998) définit un processus d 'apprentissage par:

" The leaming process is a process of choosing an appropriate function

from a given set of functions" .

12

Cette définition générale a trait à tous les problèmes d 'apprentissage (estimation

de densité, classification, régression). Nous verrons dans le chapitre 3 que pour un

problème de classification, il s 'agit de choisir un classificateur h parmi une famille

7t de classificateurs. Dans la figure 2.2 , nous reprenons la présentation du processus d 'apprentissage de Vapnik (1998).

Le processus d 'apprentissage est constitué généralement de trois éléments princi

paux :

- Un générateur d 'exemples G. - Un superviseur S ou toute autre entité capable de donner pour chaque entrée

( exemple) x générée par G une sortie (classe) y. Généralement la classification

est binaire: y E {O; 1}. L'ensemble de tous les couples Z = {( Xi, Yi) : i : l .. n} constitue l'ensemble d 'apprentissage. On suppose que les exemples d 'un tel en

semble sont indépendants et identiquement distribués (iid.) selon une distribution

inconnue Pz. - Une machine d 'apprentissage (Learning machine LM) qui nous permet d 'ap

prendre automatiquement à partir de l'ensemble d'apprentissage puis d 'estimer une réponse y' pour chaque nouvel exemple x' de G en espérant commettre le

moins d 'erreurs possible.

Dans le cas de la classification, il s'agit de déterminer un classificateur h : X ~ y ,

h E 7t, par la suite utiliser h pour associer à tout nouveau x' généré par G une classe

h(x' ) = y'. L'objectif est d'avoir une valeur y' la plus proche de y , la réponse du

superviseur S. Dans le processus d'apprentissage, le superviseur est généralement une

base de connaissances ou un ensemble d'expériences passées.

Afin de quantifier les erreurs de classification, on utilise habituellement une fonction -de perte binaire et symétrique: L : Z ~ {O, l} définie comme suit:

L(y' , y) = { ~ si y' = y

si y' i- y (2.1)


x G ... S .. ...

y

... .... .. LM ... .. ...

y

FIG. 2.2 : Processus d'apprentissage automatique


Selon Vapnik (1998) , le choix d 'une fonction parmi toutes les fonctions possibles est

fait selon un critère donné. Ce critère permettra de mesurer la qualité du processus

d 'apprentissage en terme de capacité de généralisation.

Formellement , dans le cas de la classification, ceci signifie que pour un ensemble d 'apprentissage Z et un ensemble de classificateurs possibles 11, le critère de choix du

classificateur est donné par l'espérance de la fonct ion de perte selon la dist ribution

inconnue Pz : R = R(h) = Ez [L(h(X) Y) ] (2.2)

R est appelé erreur de généralisation ; erreur espérée ou vrai risque du classificateur h. C'est une quantité théorique, puisque la distribution Pz est inconnue. Idéalement , on voudrait trouver le classificateur h qui minimise le vrai risque R. Mais, on se contente

souvent de minimiser une valeur estimée de ce vrai risque dite risque empirique ou

erreur empirique:

(2.3)

Cette approche rentre dans le cadre du principe de minimisation du risque empirique

(ERM). Ce principe a été largement exploité par les statisticiens dans le cadre du

pattern recognition, et par la communauté de l'apprentissage automatique dans le cadre de l'apprentissage inductif. Le risque empirique constitue une bonne estimation du vrai

risque dans le cas des ensembles d'apprentissage de grande taille. On montre que pour

tout h E 11, le risque empirique r (h) converge vers le vrai risque R(h) quand la taille de l'échantillon (n) tend vers l'infini.

Selon Vapnik (1998) , le rythme de convergence du risque empirique vers le vrai risque varie en fonction du vrai risque et la complexité (en terme de capacité d'ajustement aux données) de 11. Considérons une séquence de classes de familles de classificateurs de

complexité croissante : 111 , 112 , ........ La figure (2.3) tirée de Marchand (2003) illustre le

comportement du vrai risque et de sa valeur estimée selon la croissance de la complexité

de la famille des classificateurs.

Le risque empirique décroit rapidement avec la croissance de la complexité. Le vrai risque atteint un minimum pour une famille de classificateurs 11m. La théorie statistique d 'apprentissage prédit un tel comportement et justifie ainsi la recherche du meilleur

compromis entre complexité et risque empirique au lieu de minimiser simplement le

risque empirique. Il s'agit du principe inductif baptisé par Vapnik (1998) : principe de

minimisation du risque structurel (SRM).

Chapitre 2. Problématique de recherché 15

/' , /' , "

/' /' Vrai risque

. ...... . ......... . _ .. - .

Risque empirique

FIG. 2.3 : Illustration d,u' compromis complexité versus précision


A partir de l'analyse des méthodes issues de l'apprentissage automatique, nous avons mis en lumière cinq étapes essentielles dans les différents traitements des problèmes de .

classification en apprentissage supervisé :

2.2.2.1 L'ensemble d'apprentissage

L'ensemble d'apprentissage est une composante clé dans la construction du classificateur. Le traitement des problèmes de classification en apprentissage automatique

diffère selon l'utilisation et le rôle alloué à cet ensemble. Le classificateur peut être construit sur tout l'ensemble d'apprentissage (arbre de décision, apprentissage bayé

sien) ou sur un sous-ensemble (reflétant une compression de données) comme dans les Set Covering Machines (SCMs) de Marchand et Shawe-Taylor (2002). Dans certaines

situations, l'ensemble d'apprentissage nécessite une transformation avant le traitement

du problème de classification. Ceci est le cas de l'apprentissage par noyaux!, pour faire face au fléau de dimensionnalité (Herbrich, 2002). Notons aussi qu'à ce niveau, il faut

vérifier si les données sont conformes aux conditions d'application de la théorie statistique d'apprentissage. Principalement l'hypothèse que les données soient indépendantes

et identiquement distribuées (iid) (Vapnik, 1998).

2.2.2.2 La mesure de similarité

Elle correspond à la quantification de la comparaison entre une action et l'ensemble

d'apprentissage (comprimé ou non). Dans le cas de l'apprentissage bayésien, elle corres

pond à une probabilité conditionnelle. Dans l'apprentissage par noyaux, cette mesure prend la forme plus élaborée d'un noyau (Herbrich, 2002). Dans le cas des SCMs (Mar

chand et Shawe-Taylor, 2002), elle correspo~d à la forme donnée aux "caractéristiques". Pour une boule par exemple, elle correspond à une distance entre le centre de la boule

et la nouvelle action à classer. Le choix de la mesure de similarité est une condition

essentielle pour l'élaboration d'un bon classificateur. Il s'agit en particulier de vérifier

l'adéquation de cette mesure à la nature du problème traité.

IVoir Annexe A.


2.2.2.3 La règle de classification

La règle de classification a pour objectif d'exploiter les relations qui existent entre

les actions et l'ensemble d'apprentissage pour construire un classificateur. Dans l'ap

prentissage bayésien, cette règle est déterminée par la comparaison des probabilités

conditionnelles. Dans le cas du classificateur optimal de Bayes (Mitchell, 1997) la

règle de la décision de classer l 'événement e dans la classe Ci, peut être formulée par:

Pr ( e / Ci) P ( Ci) 2:: Pr ( e / Cj } ) P ( C j ) pour chaque j i- i . La construction de cette règle

dépend principalement de la nature de l 'ensemble d 'apprentissage, et de la mesure de

similari té.

2.2.2.4 La détermination des paramètres

Il s 'agit d 'une étape peu explicite dans les méthodes d'apprentissage automatique,

bien que la présence des paramètres particuliers (différents selon la méthode) soit in

évitable. Cette détermination conditionne en grande partie la performance et la flexibi

lité des méthodes correspondantes. En retour, les besoins d'estimation des paramètres

peuvent être déterminants dans le choix d'une méthode.

2.2.2.5 La mesure de la performance du classificateur

Cette mesure est souvent réalisée en termes de la valeur du risque empirique du clas

sificateur. Utiliser tout l'échantillon pour construire le classificateur et pour mesurer le

risque empirique nous donnera un estimateur biaisé du vrai risque du classificateur. Afin

d'éviter ce biais, l'ensemble d'apprentissage est divisé en deux sous-ensembles: i) un

ensemble d'apprentissage (ou d'entraînement) pour construire le modèle ii) un ensemble de test pour le tester. Dans le cas où l'ensemble d'apprentissage est de petite taille, on

fait appel à la technique de la validation croisée (k-fold cross validation) (Marchand,

2003). Cette technique permet d'utiliser tout l'échantillon pour construire le modèle de

classification et presque tout cet ensemble pour le tester. Elle consiste à diviser l'en

semble d'apprentissage en k sous-ensembles. Pour chaque itération i, k - 1 ensembles

sont utilisés pour l'apprentissage et l'ième ensemble pour le test. A ch~que itération, le

risque empirique est calculé sur l'ième ensemble. La moyenne sur ces risques empiriques

est le risque Rkcv ; c'est une bonne estimation du vrai risque du classificateur. Une

autre manière de procéder se base sur le principe SRM de la théorie statistique d 'ap-:

prentissage. L'objectif est de trouver un compromis entre risque empirique et complexité

du classificateur. Pour estimer le vrai risque, on travaille plus sur des approximations


(bornes) incorporant autant le risque empirique que des indicateurs des degrés de li

berté dont dispose le classificateur. Ces indicateurs nous permettent de mieux contrôler

la complexité du classificateur. La borne sur l'ensemble de test, Compression et PAC

( Probablement Approximativement Correct )-Bayes constituent les principales bornes sur le vrai risque dans la littérature (Marchand, 2003).

2.2.3 Aide multicritère à la décision

L'analyse des méthodes de la classification multicritère nous laisse penser qu il y a un modèle suffisamment établi de classification sous lequel s'inscrivent les différentes méthodes de classification. Selon Yu (1992), les méthodes de classification multicritère se déroulent en deux étapes prinicipales ': la modélisation des catégories et l'élaboration

de la procédure d 'affectation.

2.2.3.1 Modélisation des catégories

La modélisation des catégories en affectation multicritère se base sur la construction d'actions de référence. Cette modélisation se déroule en quatre sous-étapes: la première

consiste à définir le rôle que vont jouer les actions de référence selon la nature du tri en

question. La deuxième étape associe aux. actions de référence une norme d 'affectation qui permet de définir formellement la manière dont les actions de référence caractérisent

les différentes catégories. Quant à la troisième étape, il s'agit de la conception des actions

de référence. Pour valider cette conception, on a prévu une dernière étape de test de viabilité.

a) Rôle des actions de référence. La définition du rôle des actions de référence dé

pend de la problématique du tri en question. En effet, on distingue entre deux approches possibles: des actions de référence limites et des actions de référence centrales. Dans le

cas. du tri ordinal, il est possible d'établir une 1 structure de préférences entre les catégories, les actions de référence dans certains cas particuliers constituent les limites ou

les frontières inter-catégo~ies. Dans ces cas, nous parlons d'actions de référence limites

ou de profils limites. Cette forme de modélisation est adaptée dans les méthodes d 'affectation multicritère ordinales: segmentation trichotomique (Mitchell, 1997), N-tomic

(Belacel, 1999) , UTADIS (Zopounidis et Doumpos, 2002), Electre tri (Yu, 1992) , filtrage flou par préférence (Perny, 1998). Pour les problèmes de tri nomial, il est difficile de

cerner les frontières entre les différentes catégories. Ces derniers représentent les actions


types (prototypes) de chaque catégorie. Les actions de référence sont appelées actions

de référence centrales. Dans cette catégorie nous retrouvons les méthodes PROAFTN

(Belacel, 1999) , Filtrage Flou par Indifférence (Henriet , 2000) et TRINOMFC (Léger

et Martel, 2002). Il existe une autre modélisation, moins connue que les premières,

sous forme d 'actions de référence excluantes ou anti-prototypes. Il s 'agit des profils qui

correspondent à des actions dont on est sûr de leur non-appartenance à la catégorie.

Les anti-prototypes correspondent à des raisons négatives pour éliminer l 'appartenance

d 'une action à une catégorie. Dans sa méthode de filtrage flou par préférence, Henriet

(2000) a fait appel à ce type de prototypes pour compléter la modélisation des catégo

ries. Il est important de noter que ces rôles alloués aux classes ne sont pas mutuellement

exclusifs. Il est possible pour des raisons théoriques ou pratiques d 'avoir recours à une

combinaison de ces modélisations pour représenter les différentes classes. Une fois le rôle des actions de référence précisé, il faut leur associer une norme d 'affectat ion.

b) Norme d'affectation. La norme d'affectation permet de définir formellement

la manière dont les actions de référence interviennent pour caractériser les catégories.

Dans la littérature, il existe plusieurs normes d 'affectation, selon la nature du tri en

question et le rôle alloué aux actions de référence. Dans l,e cas d'Electre Tri , Yu (1992) définit la norme d'affectation associée à la modélisation des catégories par des profils

limites' comme suit : «Toute action qui est jugée comme étant entre les deux limites

d 'une catégorie, donc meilleure que la frontière basse et pire que la frontière haute de

la catégorie, doit pouvoir être affectée à la catégorie en question». Dans la méthode

UTADIS , l 'application de cette norme d'affectation permet d'affecter directement les

actions aux catégories. En effet, en allouant une utilité globale à chaque action et aux

profils limites, UTADIS permet de comparer toutes les actions aux profils limites, et

par la suite de les classer directement. Afin d'intégrer la dimension de préférence dans

l'affectation, les autres normes utilisent des comparaisons par paire entre les actions à

affecter et les actions de référence par le biais d'un modèle de préférence. Ceci évite le

recours à des distances et permet d'utiliser des critères qualitatifs et/ou quantitatifs. En

outre, elles permettent d'écarter les complications rencontrées lorsque les données sont

exprimées dans différentes unités (Belacel, 1999). D'autre part, ces normes s'appuient

sur les notions de coalition de concordance et de discordance issues de la théorie du vote

de Condorcet et de la théorie du choix social. L'utilisation des indices de concordance et

de discordance aide à arbitrer les conflits quand les critères sont fortement conflictuels.

Pour pouvoir comparer les actions aux profils limites, Electre Tri construit une relation

de surclassement basée sur les notions de concordance, de discordance et de veto (Yu,

1992). Dans sa méthode Filtrage Flou par Préférence, Perny (1998) a introduit une

relation de préférence floue valuée 'dans [0, 1] entre les actions et les profils limites.

La relation de préférence floue représente un degré de préférence, elle est construite à


partir de sous-ensembles flous concordant et discordant, caractérisés par des seuils de

concordance flous et des seuils de discordance flous. La norme d'affectation associée est

définie par Perny (1998) comme suit: «L'action a est affectée à une catégorie si et

seulement si elle est préférée pour quelques profils limites supérieurs de cette catégorie,

sans qu'elle soit préférée à aucun profil limite inférieur de la catégorie en question».

Dans le cas du tri nominal, la première norme, à notre connaissance, est l'affectation par indifférence. Elle a été définie initialement par Yu (1992) : «Toute action, qui

est jugée comme étant indifférente à au moins l 'une des actions de référence centrales

doit être affectée à la catégorie correspondante». Perny (1998) a repris cette norme

pour définir en général le filtrage flou par indifférence, en construisant une relation

d'indifférence floue entre les actions et les actions de référence centrales. Ce type de

filtrage a été repris dans les méthodes PROAFTN de Belacel (1999) et le filtrage flou par indifférence d'Henriet (2000). Plus récemment, Léger et Martel (2002) ont proposé

une autre norme d'affectation originale qui fait appel à la notion de degré de similarité entre les actions et les prototypes. À partir des principes de la méthode TRlN 0 MFC,

nous pouvons formuler la norme d'affectation comme suit: «Toute action, qui est jugée

similaire à au moins l'une des actions de référence centrales doit être affectée à la

catégorie correspondante». Les normes d'affectation sont des normes préétablies, qui

peuvent être exploitées immédiatement dans le cas où toutes OIes actions peuvent être

comparées aux actions de référence (cas UTADIS). Dans le cas contraire, il faut faire

appel à une procédure d'affectation.

c) Construction des actions de référence. Dans le cadre de l'affectation mul

ticritère, les actions sont décrites selon des critères. La classification ne se fait pas

uniquement en fonction des données, elle se fait aussi en fonction des préférences du

décideur. Il va donc exister autant de manières de classer que de décideurs. Dans le pa

ragraphe précédent, nous avons constaté comment les préférences du décideur peuvent

être intégrées dans l'établissement de la norme d'affectation. Toutefois, l'intervention

du décideur ne se limite pas uniquement à ce niveau. En effet, le décideur joue un rôle

important dans la construction des actions de référence nécessaires pour l' aboutisse

ment de ces méthodes. La majorité des méthodes d'affectation multicritère supposent

la connaissance des actions de référence des catégories. Dans la pratique, ces actions

de référence sont généralement spécifiées par le décideur, dans l'ensemble des actions

potentielles voire concevables (fictives ou réalistes). La disponibilité des connaissances

et l'augmentation de la capacité de stockage des données, augmentent de plus en plus

la taille des problèmes de classification. Dans plusieurs cas, le nombre d'actions de ré

férence à déterminer devient élevé, ce qui dépasse les capacités cognitives du décideur.

Dans des travaux récents en affectation multicritère, nous constatons un intérêt pour

inférer les actions de référence en se basant sur l'apprentissage inductif ((Mousseau et

Chapitre 2. Probiématique de recherche 21

Slowinski, 2001) ; (Zopounidis et Doumpos, 2002) ; (Benabbou et al. , 2004) , (Benabbou

et al. , 2006)). Les méthodes proposées sont basées sur la modélisation du problème

de détermination des actions de référence sous forme d'un programme mathématique

qui minimise les erreurs de classification de l'ensemble d 'apprentissage. Une fois les

paramètres produits, ils sont . validés avec le décideur.

d) Test de viabilité des actions de référence. Le test de viabilité des actions de

référence a été proposé par Yu (1992) dans le souci que les actions de référence jouent

véritablement leur rôle. Il s 'agit de tester si la conception des actions de référence

est viable, c'est-à-dire si les conditions de recevabilité et de spécificité sont vérifiées.

La condition de recevabilité traduit le fait que toute catégorie caractérisée par des

actions de référence doit pouvoir recevoir au moins une action. Quant à la condition de

spécificité elle consiste à ce que la norme d'affectation associée à chacune des catégories

soit spécifiée. Ces conditions sont intuitives. Pour la première condition, il serait non

pertinent de concevoir une action de référence pour une catégorie donnée, de telle sorte

qu'aucune action ne peut être affectée à la catégorie en question. Pour la deuxième

condition, il serait contradictoire qu'une action puisse être conforme à plus d'une norme

d'affectation à la fois. La norme d'affectation doit être propre à la catégorie concernée.

2.2.3.2 Élaboration de la procédure d'affectation

Les normes préétablies d'affectation, issues de la phase modélisation des catégories,

ne permettent pas toujours d'affecter toutes les actions. Dans l'approche du critère

unique de synthèse, toutes les actions peuvent être comparées aux actions de référence.

Cependant, dans l'approche de surclassement de synthèse, il se peut que certaines ac

tions soient incomparables aux actions de référence. Ceci est dû au fait que cette ap

proche accepte l'incomparabilité dans les modèles de préférences globales. Dans ce cas,

on ne peut exploiter immédiatement les résultats de la phase de modélisation : il faut

envisager une deuxième étape, celle de l'élaboration de la procédure d'affectation. ,

L 'objectif de la procédure d'affectation est l'exploitation de la relation binaire issue

de l'étape de modélisation des catégories entre les actions et les actions de référence.

Cette exploitation permet de construire une règle d'affectation des classes aux différentes

catégories. Ainsi, les différentes façons de prendre position sur les actions constituent

les diverses règles d'affectation. Il y a autant de règles d'affectation que de normes d'af

fectation. Dans sa méthode Electre tri, Yu (1992) a proposé deux règles d'affectation:

la première conduit à une affectation pessimiste, la seconde conduit à une affectation

optimiste. Ce sont deux procédures de filtrage respectivement conjonctif et disjonctif


(Roy et Bouyssou, 1993). L'utilisation de ces deux procédures permet de gérer les si

tuations d 'incomparabilité. Ainsi, on aura deux attitudes vis à vis de l'incomparabilité.

Une attitude pessimiste qui consiste à affecter l'action à la plus mauvaise catégorie dont

la borne supérieure est incomparable. Quant à l'attitude optimiste, elle affecte l'action

à la meilleure des catégories dont la borne inférieure est incomparable. La règle d ' affec

tation dans la méthode de filtrage flou par préférence consiste à établir une relation de

préférence entre les actions et les profils limites. A partir de cette relation, Perny (1998)

construit deux règles d'affectation basées sur la comparaison avec le profil supérieur

et inférieur de la catégorie. La première, l'affectation ascendante, consiste à affecter

l'action à la catégorie dont le profil supérieur est préféré à l'action sans que tous les

profils inférieurs ne lui soient préférés. La seconde, l affectation descendante, consiste à

affecter l'action à la catégorie telle que l'action est préférée aux profils inférieurs sans qu'elle soit préférée à tous les profils supérièurs. Dans le cas du tri nominal à partir

des indices d 'indifférence floue ou de similarité des actions par rapport aux prototypes,

on détermine le degré d'appartenance de chaque action pour chaque catégorie. L'affec

tation des actions aux différentes catégories se fait graduellement, la règle d 'affectation

consiste à affecter l'action à la catégorie avec le degré d'appartenance maximal.

2.3 Caractérisation des méthodes de classification

Pour situer les' méthodes existantes les unes par rapport aux autres, il est utile de

les rattacher aux problématiques (sinon «paradigmes») dont elles s'inspirent. La figure

2.4 esquisse une taxonomie simplifiée des méthodes existantes.

L'Annexe A, tirée de Benabbou et al. (2004), dépeint en plus de détail, mais sans

prétendre à l'exhaustivité, la gamme de ces méthodes. La revue de ces méthodes permet

de dégager quelques dimensions intéressantes de comparaison des méthodes. Une brève

synthèse en est donnée dans les tableaux 2.5 et 2.6 ci-dessous.

U ne approche complémentaire pour caractériser les méthodes de classifications est de

type axiomatique: il s'agit de dégager des "propriétés souhaitables", ou "axiomes" que

ces méthodes pourraient satisfaire. Cette approche n'est nullement dogmatique, en ce

qu'elle ne préconise pas, et n'impose pas certains axiomes plutôt que d'autres; il se peut

d'ailleurs que certains soient incompatibles avec d'autres, et l'étude des axiomatiques

(systèmes d'axiomes) cohérentes reste un champ ouvert.

En classification automatique, Fisher et Van Ness (1971) ont mis en lumière quelques

propriétés qui permettent de guider le choix d'une méthode de classification automa-


Classification

Automatique: .--- apprentissage

non supervisé

Affectation : ' apprentissage' supervisé

.....- Méthodes hiérarchiques

[

Méthodes ascendantes : - Méthodes des liens, - Médiane, - Centroide , - Ward 's.

Méthodes descendantes: Bi-coloration de graphes

P rt 't' t - Nuées dynamiques ,

[

Heuristiques: - K-means

- a 1 lonnemen _ Leader.

Algorithmes exacts

...- Apprentissage--Systèmes experts déductif

~ ~ppre~tissage - Analyse discriminante,

[

Techniques statistiques: - Apprentissage bayésien ,

inductif - k-plus proches voisins.

Affectation - multicritère

- Feature selection ... Machine learning: .

- Réseaux de neurones, - Arbre de décision , - SVM

- SCM ...

[

Critère unique de synthèse - UTADIS, - Ensembles approximatifs Surclassement de synthèse

Segmentation trichotomique, Méthodes N-Tomic, ELECTRE TRI , Filtrages flous, PROAFTN, TRINOMFC.

FIG. 2.4: Taxonomie des méthodes de classification

23


T AB. 2.1 : caractéristiques des méthodes de classification

Nature des classes Nature des données

Caractéristiques Nombre de

Ordre Définition des Echelle de

Échantillon classes classes mesure

C lassi~ication automatique

Méthodes des Non connu n/a1 nia Gard2 Très grande taille

liens Médiane Non connu nia nia Gard <100

Centroïde Non connu nia nia Gard <100 Ward's Non connu nia nia Gard <100

Hiérarchiques Non connu nia nia Gard · <100

descendantes Partitionnement Fixé a priori nia nia Gard Très grande taille

Affectation avec apprentissage inductif

Apprentissage Quelconque

Non Ensemble Gard et lid5 Taille limitée bayésien ordonnées d'a pprentissage Analyse

Quelconque Non Ensemble Gard Quelconque

discriminante ordonnées d'apprentissage

KPPV Quelconque Non Ensemble

Gard Quelconque ordonnées d'a pprentissage

réseaux de Quelconque

Non Ensemble Gard Très grande taille

neurones ordonnées d'apprentissage Arbre de Nombre Non Ensemble

Ord3 et Gard Quelconque décision limité ordonnées d'apprentissage

SVM 2 nia Ensemble Gard et lid Quelconque

d'apprentissage

SCM 2 nia Ensemble Gard et lid Quelconque d'appsentissage

Affectation avec apprentissage déductif

système expert Quelconque Non Ensemble .

Gard Quelconque ordonnées d'apprentissage

Affectation multicritère

UTADIS Quelconque Ordonnées Seuils limites

Gard Quelconque d'utilité

Rough Set Quelconque Non Ensemble Gard, ord et

Quelconque ordonnées d'apprentissage nom4

Segmentation 3 Ordonnées Multiprofils Ord et Gard . Quelconque

trichotomique limites Intervalles

n-Tomic 3 à 12 Ordonnées d'indices de Ord et Gard Quelconque surclassement

Electre Tri Quelconque Ordonnées Monoprofil Ord et Gard Quelconque

limites

FFI Quelconque Non Multiprofils

Ord et Gard Quelconque ordonnées centraux

FFP Quelconque Ordonnées Multiprofils

Ord et Gard Quelconque limites

PROAFTN Quelconque Non Multiprofils Ord et Gard Quelconque

ordonnées centraux

TRINOMFC Quelconque Non Multiprofils

Ord et Gard Quelconque ordonnées centraux

1 nia : ne s'applique pas, 2 : Card : cardinale, 3: Ord : ordinale, 4: Nom: nominale., 5 : Iid : indépendants, identiquement distribués.


T AB. 2.2 : caractéristiques des méthodes de classification (Suite)

Type de traitement Résultat escompté

Dissimilaritél Compensation Caractère Caractéristiques distancel

probabilité Inter-critères Nature explicatif

Classification automatique

Méthodes des liens Dissimilarité Totale Hiérarchie de

Subjectif Qartitions

Médiane Dissimilarité Totale Hiérarchie de

Subje~tif partitions

Centroïde Dissimilarité Totale Hiérarchie oe

Subjectif partitions

Ward's Dissimilarité Totale Hiérarchie de

Subjectif partitions

H iérarchiq ues Dissimilarité Totale Bipartition Subjectif

descendantes Partitionnement Dissimilarité Totale Une partition Subjectif

Affectation avec apprentissage inductif

Apprentissage bayésien Probabilité Totale Affectation Faible

Analyse discriminante Distance Totale Affectation Faible

KPPV Distance Totale Affectation Fort

Réseaux de neurones nIa Totale Affectation Absent

Arbre de décision Probabilité Partielle Affectation Fort

SVM Noyaux Totale Affectation Faible

SCM Selon la forme de

Totale Affectation Faible caractéristique

Affectation avec apprentissage déductif

Système expert nIa Totale Affectation Fort

Affectation multicritère

UTADIS utilité Partielle Affectation Fort Enveloppes Règle

Rough Set internes et Totale lexicographique Fort externes d'affectation

Segmentation Comparaison par Partielle Affectation Fort

trichotomique paire

n-Tomic Comparaison par Partielle Affectation Faible

paire

Electre Tri Comparaison par Partielle Affectation Fort

paire

FFI Comparaison par Partielle Affectation Fort

paire

FFP Comparaison par Partielle Affectation Fort

paire

PROAFTN Comparaison par

Partielle Affectation Fort paire

TRINOMFC Similarité Partielle Affectation Fort


tique. Baulieu (1989) s'est placé dans le cadre bien particulier de la classification binaire

(présence-absence) pour dégager quelques postulats sur la fonction de dissimilarité. Han

sen et Jaumard (1997) ont établit une typologie de méthodes sur la base du résultat attendu : une partition, un packing, un clumping et une hiérarchie.

En apprentissage automatique, Vapnik (1998) fait référence à la théorie de cohérence

du processus d 'apprentissage. L'objectif de cette théorie est de déterminer les condi

tions nécessaires et suffisantes pour la cohérence du principe de minimisation du risque empirique, à savoir la convergence asymptotique du risque empirique vers le vrai risque.

Ainsi, la propriété de cohérence est relative aux méthodes d 'apprentissage automatique

qui cherchent à estimer le vrai risque par le biais, entre autres, du risque empirique.

Les tentatives d'axiomatisation les plus imp~rtantes se retrouvent dans le champ de

l'analyse multicritère. Yu (1992) puis Belacel (1999) et Henriet (2000) ont ainsi proposé

plusieurs propriétés souhaitables dans les méthodes de tri multicritère :

1. Universalité. Toute action est en mesure d 'être affectée à une des catégories.

2. Unicité. La catégorie à laquelle une action est affectée doit être unique.

3. Indépendance. L'affectation d'une action quelconque ne dépend pas de l'affectation

des autres actions. Cette propriété d'indépendance, distingue la problématique du tri des autres problématiques de choix ou de rangement. Le résultat obtenu par

une méthode de rangement ou de choix provient de comparaisons entre toutes les

paires d'actions, ce qui implique un risque de changement du résultat (renversement de rang pour la problématique de rangement) lors de l'ajout ou le retrait d'une action. La propriété d'indépendance interdit ce phénomène.

4. Homogénéité. Deux actions quelconques doivent être affectées à la même catégorie

lorsqu'elles se comparent de manière identique avec toutes les actions de référence.

5. Conformité. L'affectation des actions aux classes doit être conforme à la concep

tion des actions de référence.

6. Monotonie (Dans le cas particulier du tri ordinal). Si l'action a' domine l'action

a, alors a' doit être affectée à une catégorie supérieure ou égale à celle de a.

7. Stabilité. Le regroupement ou la division d 'une catégorie en plusieurs catégories

ne doit pas modifier l'affectation des actions aux catégories non concernées.

8. Nominalité. Un changement de numérotation des catégories ne doit pas modifier l'affectation des actions. Cet axiome est valable uniquement dans le cas du tri

nominal.

9. Neutralité. La permutation des actions ne doit pas modifier leur affectation. Cet axiome pour le cas des actions a été repris pour les points de profils par Henriet

(2000).


Les axiomes présentés ont été élaborés dans un souci de conformité de la méthode

d 'affectation, d'une part à l'objectif de la problématique de tri , et d'autre part , à la

conception des actions de référence. Ces axiomes reflètent une forme de rationalité

parmi d'autres (Roy et Bouyssou, 1993; Yu, 1992). Cette brève caractérisation axioma

tique peut être complétée par une analyse de robustesse en introduisant la notion de

«version» de Roy (2004). Dans le cadre de la classification, ces versions pourraient re

présenter l'ensemble des informations (échantillon d 'apprentissage, hypothèses de forme ,

actions de référence, paramètres fixés à l'avance) qui permettent d 'estimer un classifi

cateur.

2.4 Problématique de recherche

Notre revue de l'état de l'art a révélé des forces et des faiblesses dans chacun des

grands paradigmes de la classification. L'ambition de cette thèse est d 'étendre le champ

d'application de certaines méthodes en tentant de conjuguer les avantages de l 'aide

multicritère à la décision et ceux de l 'apprentissage statistique supervisé.

2.4.1 Objet de cette thèse

Dans le cadre de cette thèse nous supposons que :

1. Les objets à classer sont situés dans un espace multidimensionnel de critères. Ces

critères sont définis par une structuration préalable du problème de classifica

tion. Ils sont potentiellement conflictuels et non commensurables. Ils peuvent être

mesurés sur un mélange d'échelles cardinales, ordinales ou nominales.

2. Les classes, au nombre de 3 ou plus, sont connues d'avance. Elles forment une

échelle nominale.

3. Le classificateur doit incorporer les informations contextuelles (normes, règles d'af

fectation) pertinentes ou imposées par l'instance humaine, organisationnelle res

ponsable.

4. À l'intérieur de ces contraintes, la construction du classificateur se base sur de

l'apprentissage supervisé. Il est possible de constituer un ensemble d 'apprentis

sage conforme aux contraintes exprimées et satisfaisant l'hypothèse de tirages

indépendants de distributions identiques.


Détaillons certains de ces aspects.

2.4.1.1 Prise en compte du contexte de classification et du jugement de

«l'autorité de classification»

Cette dimension s'inspire de la démarche générale de l'aide multicritère à la décision. Nous empruntons à l'AMCD un état d 'esprit , une attitude constructiviste fondamentale

faite (i) de prudence (ii) d'attention au contexte, (iii) et de primauté donnée aux parties

prenantes.

Il importe toutefois de distinguer décision et classification. L'environnement humain (subjectif) de la décision se traduit par un système de préférences ou de valeurs selon

des axes orientés. En classification, l'accent est mis sur la cognition plutôt que le choix. Il

ne s'agit plus de préférences mais de jugement ou de croyances. Au décideur se substitue une «autorité de classification» (AC) consistant souvent en une communauté d 'experts.

Nous parlerons «d'aide multicritère à la classification» (AM CC) plutôt que de l'Aide Multicritère à la Décision (AMCD). Dans ce contexte:

(i) La prudence se manifeste en particulier dans l'affectation aux classes; elle requiert

entre autres de ne pas perdre de vue la définition préalable (sémantique) de ces classes, de justifier l'affectation, de qualifier les conséquences d'une mauvaise af

fectation.

(ii) L'attention au contexte signifie que le classificateur à construire doit être conforme aux hypothèses, aux normes de classification, voire . au langage utilisé par l'AC; il

doit par exemple incorporer les règles de classification souhaitées a priori; il doit aussi respecter la nature des données (imprécision, échelles de mesure, etc.).

(iii) Primauté de l'AC: l'AC est la responsable ultime de l'activité de classification. Il lui revient donc de normer cette activité, . au travers de différentes spécifications,

par exemple :

- la structuration du problème de classification: critères pertinents, échelles de

mesure, structures des classes; les règles a priori qui doivent être incorporées dans le classificateur;

- les prototypes de référence; - un modèle de classification (i.e. une famille de classificateurs) ;

- les modalités d'évaluation d'un classificateur.

La responsabilité ultime de l'AC interdit que le processus de classification soit entiè-


rement automatique. Toutefois, ceci n 'exclut pas l'automatisation de certaines tâches ,

dans une perspective de facilitation du travail de l'AC.

2.4.1.2 Capacité de généralisation

En matière de classification, une exigence impérieuse à nos yeux est celle de la va

lidation empirique. Si l'AMCC traditionnelle prête attention à la validité contextuelle,

elle ne prévoit en général pas de mécanisme endogène à la construction du classificateur

pour tenir compte de données tirées au hasard. En effet , d 'une part , il ne semble pas

exister , à notre connaissance, de théorie ancrant solidement la construction de proto

types dans la réalité empirique. D 'autre part, l 'utilisation de tels prototypes au cours de l'estimation d'un classificateur ne semble pas limitee par des notions de «significativité»

au sens statistique.

On peut illustrer ce point par analogie avec l'inférence statistique classique. Celle-ci

nous enseigne que la procédure «construire d'abord (sans échantillon), tester ensuite »

est inefficace. Elle nous enseigne aussi une distinction fondamentale entre l'ajustement

d'un mo~èle et sa capacité prédictive.

L'apprentissage statistique offre un cadre plus général (non paramé~rique) pour

aborder cette même probl~matique. En raison de cett~ généralité, de grands échantillons

sont requis.

Certains contextes de clas~ification sont très peu bruités. Hormis ces rares cas, nous

tenons qu'une tentative de validation empirique est toujours souhaitable. Même l'an

nonce qu'un classificateur ne peut pas être statistiquement confirmé est une information

utile pour l'AC.

2.4.2 Questions de recherche

Nous pouvons maintenant énoncer de façon plus opératoire les questions de recherche

qui seront abordées dans les deux prochains chapitres.


2.4.2.1 Prise en compte du «multi-classes nominal» en apprentissage statistique

La majorité des méthodes de classification en apprentissage statistique traitent de

la classification binaire. Sans perte de généralité, la fonction de perte est alors binaire (fonction de décompte d 'erreurs). Dans le cas de plus de deux classes, il n 'est pas évident qu'une simple fonction de décompte soit appropriée. Au contraire, l 'injonction

de prudence de l'AMCC nous invite à considérer en plus de détails les conséquences

d 'erreurs de classification, voire du refus de classer. Une première question de recherche

est:

Sous quelles conditions la classification multi-classes se réduit-elle ou non à la

classification binaire? Quel est le lien entre cette réduction et la pénalisation des

erreurs?

Comme en inférence classique, l'apprentissage statistique s'intéresse à la dérivation

d 'intervalles supérieurs de confiance (bornes) sur le risque (inconnu) d 'erreurs. En clas

sification binaire, il existe de bonnes approximations analytiques et des formules exactes

de calcul simple. Nous ne connaissons rien de comparable dans le cas multi-classes. Nous

tenterons de proposer des bornes multi-classes serrées et calculables, sachant que ces deux qualités sont antagonistes. La question suivante découle de cette réflexion :

Est-il possible de déterminer des bornes de «test» multi-classes simultanées? De

telles bornes peuvent-elles être à la fois calculables et serrées?

2.4.2.2 Conciliation AMCC - apprentissage statistique

L'AMCC et l'apprentissage statistique en classification se sont développés en vases

clos. Chacun de ces domaines a ses forces. Notre conjecture est qu'en combinant ces forces on peut améliorer la qualité et élargir le champ d'application de la classification

supervisée. Il s'agira donc de répondre à la question de recherche suivante:

Est-il possible de développer un modèle de classification (une famille générique de

classificateurs) :

(i) satisfaisant d'une part différentes exigences de l 'AMCC :

les critères sont incommensurables;


- les critères peuvent être m esurés sur un m élange d 'échelles cardinales, ordinales,

nominales ;

- la règle d'affectation aux classes est facilem ent interprétable dans l'espace des

critères ;

- la règle d 'affectation peut incorporer facilem ent des éléments de règles a priori;

- elle permet d 'incorporer des prototypes.

(ii) et offrant d 'autre part une gamme «suffisante» d 'arbitrages entre précision et

complexité ?

La partie (i) de cett e question fera l'objet du chapit re 4. Soulignons que l'objet de ce chapitre n 'est pas de proposer un (<< meilleur») classificat eur, mais d 'examiner la possibilité de const ruire un classificateur selon les spécifications (i) de la question de

recherche ci-dessus. La richesse du modèle de classification proposé dans le chapit re 4

permettra d 'espérer répondre à la partie (ii).

2.5 Conclusion

Ce chapitre expose notre problématique de recherche. Il a été aussi l'occasion d 'ex

plorer le champ de la classification et de caractériser les différentes mét hodes. Not re

revue de l'état de l'art a fait ressortir d 'une part la richesse de ce domaine mult idis

ciplinaire qu'est la classification. D'autre part , la faiblesse et les limites des méthodes

existantes à traiter les problèmes de classification multi-classes et multicritère. Ceci a ap

puyé notre argumentation quant à la pertinence d 'une recherche qui tente de conjuguer les avantages de l'aide multicritère à la décision et ceux de l'apprentissage statistique

afin d 'étendre le champ d 'application de certaines méthodes de classification.

Deux soucis majeurs ont guidé cette recherche: i) la capacité de généralisation et ii) la prise en compte de la dimension multicritère et du jugement de l'autorité de

classification. Un premier défi de cette thèse est de mesurer la capacité de généralisation des classificateurs multL .. classes en termes de bornes sur le vrai risque. En effet , les bornes

dans la littérature concernent uniquement les classificateurs binaires. Nous pensons

qu 'il existe un lien entre l'asymétrie de la structure de pénalisation des erreurs et la

nature multi-classes du problème de classification. L'établissement et la formulation de

ce lien prouvera la possibilité d 'un bornage simultané du risque de généralisat ion des

classificateurs multi-classes.

Une question porteuse serait d'examiner dans quelle mesure il est possible de conci-


lier les forces de ces deux approches: faire appel aux fondements de l 'apprentissage

statistique tout en incorporant des exigences de divers ordres propres au contexte multi

critère de classification: (jugements de l'autorité de classification, non-commensurabilité

des critères, diversité des échelles, etc). C 'est au niveau du modèle de classification que

cette conciliation doit être assurée. Notre deuxième défi sera de proposer un tel modèle.

Le prochain chapitre propose le développement des bornes sur le risque de généra

lisation en classification multi-classes. Dans un premier temps, nous énonçons et nous démontrons le principe de réduction, nous montrerons ainsi le lien entre le caractère

multi-classes d'un problème de classification et l'asymétrie de la structure de perte.

Dans un deuxième temps, nous développons deux types de bornes pour évaluer voir

construire des classificateurs multi-classes.

Chapitre 3

Bornes sur le risque de généralisation en classification

multi-classes

3.1 Introduction

33

En inférence statistique classique, on est souvent confronté à un arbit rage ent re ajustement du modèle d 'estimation aux données et capacité prédictive du modèle. Le

modèle est fondé sur des hypothèses sur les distributions de la population souvent fortes, qui permettent de développer des tests de signifiance sur tout l'estimateur ou une partie de l'estimateur. Cependant , dans la pratique, la vérification empirique des hypot hèses

distributionnelles est souvent sujette à débat.

En apprentissage statistique, la même problématique générale (ajustement aille don

nées vs. valeur prédictive) se pose, mais en termes différents. En effet , l 'apprentissage statistique, visant des estimateurs plus robustes , évite des hypothèses de dist ributions particulières de population, au prix d 'autres hypothèses, peut-être plus prudentes,

sur les estimateurs. Par suite, de nouveaux concepts et outils sont nécessaires pour

construire un estimateur. Ainsi , dans une problématique de classification, on cherchera

un estimateur, appelé ici classificateur, minimisant l 'erreur de généralisation, soit la probabilité de mal classer des observations futures. Une mesure particulière, communé

ment acceptée, de ce risque est exprimée par un intervalle de confiance, c'est-à-dire une

borne, qu'on tente de minimiser.

Chapitre 3. Bornes sur le risque de généralisation en classification multi-classes 34

Ce chapitre est consacré au développement de telles bornes dans un contexte multi

classes. Dans un premier temps (sections 2 et 3), nous montrons que le caractère multi

classes d'un problème de classification est intimement lié à l'asymétrie de la structure

de perte retenue pour synthétiser les erreurs. Nous proposons ensuite (sections 4 et

5) deux méthodes de bornage pour évaluer la précision potentielle d'un classificateur

donné. Enfin (section 6), nous montrons comment ces méthodes peuvent être adaptées pour construire un classificateur en tenant compte du risque de généralisation.

3.2 Classification multi-classes et fonctions de perte

valuées

Les méthodes de classification issues de la théorie statistique d'apprentissage traitent

généralement de la classification binaire (à deux classes). Le problème de classification

multi-classes est décomposé en une série de problèmes binaires par une série de dichotomisations. Exemples: Allwein et al. (2000), Platt et al. (2000), avec l'exception d'Aiolli

et Sperduti (2005) et Dietterich et Bakiri (1995). Cependant, ce type de traitement pose certaines difficultés, telles que (i) l'allocation adéquate de l'espace entre les clas

sificateurs partiels (Abe et Inoue, 2002) (ii) l'expression des bornes sur le risque du classificateur global à partir des classificateurs partiels, (iii) l'évaluation uniforme des

erreurs. Dans ce chapitre, nous allons chercher plutôt des bornes simultanées (permettant des classificateurs simultanés) dans un contexte multi-classes, et permettant une

évaluation différenciée des erreurs de classification.

Nous considérons un problème de classification multi-classes, où chaque observation

(ci-après nommée exemple) z = (x, y) est constituée d'un vecteur x E X de m critères et d'un entier y E Y = {l, 2, ... , IYI} indiquant sa classe observée. Notons Z = X x y l'espace échantillonnaI d'un tel exemple, et zn l'espace des échantillons de n exemples générés aléatoirement par tirages indépendants. Nous adoptons l'hypothèse (Vapnik,

1998) que notre ensemble d'apprentissage est constitué d'exemples indépendants et

identiquement distribués (iid.) selon une distribution inconnue Pz. Cette hypothèse est

très générale et n'implique pas que pour différents y les aléas conditionnels (x 1 y), ou

pour différents x les aléas (y 1 x), soient iid ..

Soit C :2 y un ensemble fini des classes dites attribuables estimées par le modèle de

classification. Plusieurs raisons peuvent justifier l'ajout aux classes observées (y) des catégories supplémentaires telles «non-classé», «hésitation entre les classes YI et Y2»,

etc. En pratique, le fait d'admettre qu'un exemple est non-classé peut êtte plus prudent


que de le mal classer.

On appelle classificateur une règle d 'affectation (fonction) h : X ~ C . Tout 'classificateur repose sur un modèle de classification, c'est-à-dire une famille de formes possibles (hyperplans, boules et trous, intersections et unions de formes plus élémentaires, etc. ) dans l'espace des critères. Ainsi, le classificateur h est une instanciation d 'une famille générique de classificateurs 1i caractérisée par certains paramètres. L'assignation de valeurs à ces paramètres peut résulter du processus d 'estimation du classificateur. .

Dans ce contexte, on fait face à ICI x IYI cas d 'erreurs possibles (incluant les «non

erreurs») , à savoir toutes les paires (classe attribuée, classe observée). L'ensemble de ces cas d 'erreurs sera synthétisé par une fonction de perte Q : C x y ~ [0, 1]. Nous supposerons que la perte due à uhe non-erreur est t oujours nulle (Q(y , y) = 0 \/y E Y ) et que Maxc,yQ(c, y) = 1. Une fonction de perte sera dite binaire si Q(c, y) E {0, 1} V(c, y) E C x y , c'est-à-dire si elle n 'effectue qu'un décompte d 'erreurs. Elle sera dite

valuée si elle prend des valeurs intermédiaires quelconques entre 0 et 1. La fonction de perte valuée est plus générale, elle est cardinale et normalisée. Dans un contexte multiclasses, il est naturel de considérer une fonction de perte valuée, dans la mesure où les conséquences de différents cas d'erreurs de classification peuvent largement varier en gravité. Dans un diagnostic médical, par exemple, classer un patient cancéreux comme enrhumé est plus grave que de le classer comme ayant besoin d'autres examens. Cette nature valuée permettra une classification plus proche du langage de l'incertain. Le tableau 3.1 présente deux exemples de fonctions de perte valuée et binaire.

TAB. 3.1: Matrice de la fonction de perte dans des cas valué. et binaire.

Classes observées y Classes observées y

1 2 3 1 2 3 Classes 1 0 1 0,25 0 1 1

attribuées 2 0, 5 0 0 1 0 1 '

c 3 1 0, 1 0 1 1 0 NC* 1 0, 15 1 0 1 1

* : Non Classé Cas 1 : Q valuée Cas 2 : Q binaire

La construction d'un classific'ateur se fait sur un échantillon d'apprentissage S de zn. On appelle vrai risque R( h) associé au classificateur h la valeur espérée de la fonction de perte selon Pz : R(h) = EzQ (h(x) , fj), une quantité théorique inconnue. La valeur

empirique associée est le risque empirique défini par: r (h) = ~ ~7=1 Q (h( x j) , Yj) .

Nous montrons maintenant un résultat fondamental, à savoir que, sous les hypo

thèses précédentes, les qualificatifs multi-classes et valué sont indissociables.


3.3 Principe de réduction des cas d'erreurs de clas

sification

Le risque d 'un classificateur dépend d 'une part du décompte des erreurs de classification, d 'autre part de la forme de la structure de perte. Nous montrons ici que la complexité de représentation du premier point est intimement liée à celle du second point. L'évaluation de la performance d 'un classificateur h implique la prise en compte de tous les cas d 'erreurs (c y) E C x y. Soit Ney le nombre d 'observations dans § dans chaqùe cas d'erreurs (c , y) tel que L:(e,Y) ECx y N ey = n. Selon l'hypothèse iid, la

variable aléatoire N = ( Ney 1 (c y) E C x Y) suit une distribution multinomiale avec

des probabilités inconnues 7re ,y ~ Pr(x,y) {h( i ) = c 1 f) = y} (c , y) E C x y.

Considérons maintenant l'ensemble ordonné des différentes valeurs que peut prendre

"la fonction de perte noté ° = ql < ... < qs = 1. Il existe une fonction cl' agrégation a qui va projeter l'ensemble C x y des cas d'erreurs sur l'ensemble des catégories de perte

{l, ... , s} (tel que Q e,y = qi V(c, y) E a-1 (i) , 1 ~ i ~ s). Considérons le vecteur aléatoire

K = (Kl ' "' , Ks) , ou Ki ~ 2:(c,y)Ea-'

(i) Ney est le nombre d'observations de S dans la catégorie de perte i , 1 ~ i ~ s comme illustré dans le tableau 3.2 dérivé du tableau 3.1.

TAB. 3.2: Réduction des cas d'erreurs en catégories de perte

Catégorie de perte i · 1 2 3 4 5 6

Perte unitaire qi ° 0,1 0,15 0,25 0,5 1

Cellules (c , y) (1,1), (2,2) (2,1) ( 4,2) (1,3) (3,2)

(1 ,2) , (3 ,1) correspondantes (2,3), (3,3) (4,1), (4,3)

Nombre d'exemples ki 4 1 1 1 1 4

Soit J( = {k E Z~ 1 eTk = n} l'espace des réalisations possibles de K. Donc le risque empirique peut s'écrire sous forme f ~ lqTK. La proposition suivante permettra de

n

caractériser précisément les problèmes de classification multi-classes.

,Proposition 1 K = (K1 , ... , Ks) suit une distribution multinomiale avec les probabili

tés P i ~ L:(e,y)Ea-1(i ) 7re,y, 1 ~ i ~ s .

En conséquence, le vrai risque peut s'exprimer d 'une manière équivalente par R = T ~s

q P = L...ti=1 qiPi


Une conséquence importante du principe de réduction est la suivante:

Corollaire Un problème de classification avec IYI > 2 se réduit à un cas binaire si

et seulement si la fonction de perte est binaire.

Dans ce qui suit , multi-classes signifie que l~ fonction de perte prend des valeurs fractionnaires qui reflètent l 'intensité ou la gravité relative des erreurs t el que s > 2.

3.4 Borne sur l'ensemble de test

Rappelons que le vrai risque est une quantit é théorique inconnue. En ut ilisant un

ensemble de test , nous allons dét erminer un niveau de confiance supérieur sur ce vrai

risque. Ce niveau est appelé borne. Nous cherchons la borne la plus serrée possible. Le

contexte «ensemble de test » consiste à évaluer un classificateur donné h. Par cont re,

la question de design consiste à choisir un classificateur particulier parmi une famille de classificateurs. Notre objectif principal dans cette partie est le test.

Le fait que le classificateur h soit donné n 'implique pas que les entrées x soient connues. En effet , la performance du classificateur est évaluée uniquement en t erme des

paires de sortie observées (h(xj) , Yj), indépendamment du modèle de-classification.

La notation suivante sera utilisée :

- ei est le i èm e vecteur unitaire, - e(l , 1, .. . , I)T le vecteur somme de dimension appropriée au contexte,

- U = {x E lR~ 1 eT x = 1} le simplexe unitaire de dimension s - 1, - F(p; r) ~ Pr {f ::; r 1 p} la distribution du risque empirique comme fonction de p.

Si la distribution multinomiale représente exactement le processus d 'occurrence des

erreurs, nous allons démontrer par la suite qu'une approximation de cette distribution

peut s'avérer intéressante dans certains cas. Dans les définitions qui sui~ent , nous en

visageons donc un modèle d 'erreurs stochastique abstrait, qui est entièrement défini

par le vecteur de probabilité p. La définition suivante est une généralisation de celle de

Langford (2005).

Définition 2 Une borne de queue est une fonction B : [0 , 1]2 ~ [0 , 1] telle que \Ir E

[0 , 1] , 6 E (0, 1] et\lp E U tel que qTp > B(r, 6) : Pr{f::; r 1 p} < 6.


r est un seuil paramétrique, ce seuil va être considéré par la suite comme le risque

empirique observé. Avant d'examiner les observations, pour un niveau de confiance

donné 8, la borne est une fonction de ce seuil. La borne définit la propriété que quelque soit le seuil, sous un vrai risque plus grand que la borne, la. probabilité d 'observer

un risque empirique plus petit que le seuil ne dépasse pas 8. Une borne m inimale

(la plus serrée possible) est , bien entendu, unique. L'ensemble des paires (r , 8) où la borne est réalisable va dépendre du modèle probabiliste particulier considéré.

Les bornes minimales ne peuvent pas être exprimées analytiquement. Nous allons

plutôt chercher des bornes numériques qui nécessiteront de l'optimisation. La définition

2 peut être traduite par plusieurs programmes mathématiques, avec différents avantages

en termes de temps de calcul. Ceci est illustré par deux familles de formulation. Nous allons supposer dans ce qui suit que F est continue en p.

Le programme mathématique suivant est une représentation directe de la définition

de la borne:

(3.1)

Cette définition implique que pour n'importe quel p tel que qT p > Bl (r , 8) , F (p; r) < 8. Ceci nous appelle à remplacer la définition (3.1) par la variante suivante:

B~ (r,8) = Supp {qTp 1 p E U, F(p;r) = b}

La fonction F sera dite risque-complète si :

Vr E [0, 1) , lim F (p; r) = 0 p---tes

Proposition 3

i) Bl est une borne sur le risque dans le sens de la définition 2.

ii) Si F est risque complète, Bl = B~.

(3.2)

(3.3)

Une autre implication plus indirecte de la définition 2 peut être représentée par les

deux conditions suivantes:

v (jJ; r) ~ Supp

S.l.c.

F(p; r) qTp 2 jJ

pEU

(3.4)


B 2 (r , 5) = Sup {f3 1 V (f3; r) 2: 5} (3.5)

Dans l'équation (3.4) , le paramètre 13 E [0 , 1] prendra ultimement la valeur de la

borne. Pour chaque valeur possible de 13, nous cherchons la plus grande probabilité

possible d 'observer un risque empirique égal à r , en supposant que le vrai risque est au moins égale à {3 . Par un simple argument de relaxation, on vérifie que, V (.; r) n 'est pas croissante. Ceci implique que la borne B 2 choisie à l'étape (3.5) garant it que pour

n 'importe quel {3 > B 2 (r , 5) nous avons V (13; r) < 5. Ceci reste valable pour la vraie

distribution inconnue du risque empirique, étant donnée la maximalit é de V (.; r) .

Proposition 4

3.4.1 'Borne minimale de queue de multinomiale

Nous considérons le modèle probabiliste exact de la distribution multinomiale et

nous étudions la calculabilité de la borne Bl (r , 5). Nous considérons pour ce qui suit

la notation suivante :

-' Ck = ru:~ k i l (k E lC) ,

- f (p; k) = Pr {k = k 1 p} = Ck f1:=lP7 i (k E K) ,

- lCr = {k E lC 1 qT k ::; nr} ,

l'ensemble des réalisations possibles de k dont le

risque empirique ne dépasse pas r.

- F(p; r) = Pr {f ::; r 1 p} = LkElCr

f(p; k) ,

- Vx E :lRs, Diag(x ) est la matrice diagonale tel que Diag(x )ii = Xi Vi.

Il est facile de prouver que F est risque-complète. Nous allons établir maintenant

une autre propriété importante.

Rappelons (Mangasarian, 1969), que si 0 un ouvert dans:IR, une fonction B : 0 ~ :IR

est pseudo-concave si elle est différentiable sur 0 et si pour tous x, y E 0 nous avons:

\lB (x) (y - x) x ::; 0 ==;. B (y) ::; B (x) (3.6)

La propriété suivante est essentielle pour la détermination d 'une borne exacte.

Proposition 5 F est pseudo-concave en p sur :IR~+


Cette propriété a· deux implications cruciales : (i) un optimum local du problème

(3.1) est aussi un optimum global, et (ii) les conditions Karush-Kuhn-Thcker (KKT)

sont nécessaires et suffisantes pour caractériser l'optimalité globale (Mangasarian, 1969).

Ainsi , la résolution du problème (3.1) revient à déterminer un point KKT.

Nous avons donc un critère opérationnel pour trouver une solution exacte pour le problème (3.1) quand le processus d 'occurrence des erreurs est modélisé exactement par une distribution multinomiale. Cependant , n 'importe quelle procédure de calcul

nécessitera des évaluations multiples de F (.; r) ; par conséquent plusieurs énumérations

de Kr. Or, IKI = (n~~~l) = O(sn) (Benabbou, 2006) , et pour des valeurs non-triviales

de r , IKrl croit d 'une manière similaire.

3.4.2 Une borne minimale sous une approximation normale

Même si nous avons établi la calculabilité théorique de la borne, son talon d 'Achille

est celui, pratique, de la complexité. La complexité du ·problème (3.1) sous la distribution multinomiale nous incite à chercher des approximations moins contraignantes.

Plusieurs pistes sont possibles pour atteindre cet objectif. Un premier candidat serait

d'examiner la distribution normale multi-variée comme approximation de la distribu

tion multinomiale. En effet, à partir du théorème central limite, avec une grande taille

de l'ensemble n, la distribution multinomiale normalisée converge vers une distribution normale multivariée avec les deux premiers moments identiques.

Proposition 6 Pour n 2: 2 :

(i) E[~Klp] =p rv rvT

(ii) n (p) ~ Cov(~K, ~K 1 p) = ~(Diag(p) - ppT)

Comme approximation de ~K 1 p, nous considérons l'aléa multi-normal X 1 p rv

N (p , n (p)) . Le risque empirique devient alors r = qT X rv N (qT p, a 2 (p)) avec a 2 (p) =

qT0, (p) q = ~ (/'i;T P - (qTp)2) , et /'i; ~ Diag (q) q.

La fonction F dans le problème (3.1) devient:

(3.7)


Avec <I> la fonction de répartition de la loi normale cent rée réduite.

Une fois de plus , il est facile de démontrer que F est risque complète.

Proposition 7 F(. ; r ) est pseudo-concave

Nous pouvons obtenir donc une solut ion exacte pour le problème (3.1) sous une

distribut ion multi-normale. En outre, le t emps requis pour les évaluations des fonctions

est maintenant quasi-indépendant de la t aille des paramètres (n , s, r ) .

3.4.3 Optimisation de la borne

Sous les deux distributions multinomiale et multi-normale, la meilleure borne est la

solut ion du programme mathématique:

B(r, b) = Maxp

S.l.c.

qTp

F(p;r) 2: b eTp = 1

p2:0

(a) (3.8)

avec F pseudo-concave en p. La seule contrainte compliquante dans ce problème · est

(a). La non-concavité de F exclut la construction d 'enveloppes internes ou externes sur

son hypographe. Cependant, l'ensemble de niveau:

r 8 ~ {p E U 1 F(p; r) 2: b} (3.9)

est convexe. Ce qui implique que si un point pO n'appartient pas à l'intérieur relatif de

r 8 , l'inégalité (3.10)

est valide pour r 8. Notre stratégie de résolution consiste à construire des polyèdres

relaxations de r 8 qui seront progressivement reserrés.

Soit P = {p E U 1 aip 2: bi , 1:::; i :::; s} un polyèdre contenant r 8 et:

{3 = Max { qT P 1 pEP} (3.11)


Il est clair que (3 est une borne supeneure sur la borne optimale B(r 6) (voir

figure 2a). Considérons maintenant un point réalisable fi E r <5. Soit f3 = qT fi et P{3 ~ {p EPI qT p ~ f3 } (un ensemble de localisation). Comme f3 est une borne in

férieure de B (r , 6) , nous avons

Proposition 8 P{3 contient toutes les solutions optimales de 3.8.

Notre mécanisme de génération de coupes est une variante de la méthode générale

des centres (Huard, 1967) , qui jouit d 'excellentes propriétés de stabilité. A partir d 'un point P de l'intérieur relatif de P , on peut mesurer la distance pondérée à chaque hyperplan frontière de P. Un centre P peut être défini comme un point P qui maximise la plus petite distance pondérée (voir figure 3.1 :b).

Comme la distance euclidienne d 'un point donné fi à l'hyperplan {p 1 aT p = b} est

1 aT P - b 1 / Il a Il , un centre p de P{3 peut être déterminé en résolvant le programme li-

néaire :

Maxp,z S.l.c.

avec é > 0 un poids choisi.

z aip - Ilaili z ~ bi

qT P - é Il q Il z ~ f3 pEU

(3.12)

L'algorithme génère une suite (PJ, ) d'ensembles de localisation, deux suites de

points (Xt ) C r<5 et (Yt) C PJt \ r<5 et les bornes associées f3t = qTXt , 13t = qTyt . A chaque itération t, un centre Pt E PJt est calculé. Si F (Pt) > 6, ce centre devient le prochain Xt+ l' Sinon, une coupe à travers Pt est générée, et un nouveau seuil supérieur sur la borne Yt+l est calculé. Dans les deux cas, nous avons une amélioration de la borne

o < 13t+l - f3t+l < 13t - f3 t et PJ7+\ C PJt'

Proposition 9 N 'importe quel point d'accumulation de la séquence (Xt) est une solu

tion optimale de 3.8.

En pratique, l'algorithme peut être accéléré avec recherches unidimensionnelles ap

prochées. Il s'arrête quand un seuil de précision prédéterminé est atteint. La valeur

actuelle de 13t va servir comme estimation conservatrice de la borne sur l'ensemble de

test. Faisons remarquer que 13t est une borne de queue au sens de la définition 2.


----------

p

a

FIG. 3.1 : a : Majorant sur la borne qT p = fi. b : Centre ]3 s'éloignant des contraintes tout

en améliorant l'objectif.

Chapitre 3. Bornes sur le risque de généralisation en classiEcation multi-classes 44

3.4.4 Expérimentation exploratoire des bornes

L'objectif de cette section est ; primo d 'étudier le comportement et la performance

des deux bornes sous différentes conditions. Secundo, de comparer les deux bornes et d 'analyser la qualité de l'approximation multi-normale.

Plan expérimental

Les deux bornes ont été étudiées sous différentes conditions. Nous avons fixé quat re facteurs de contrôle :

Facteurs de contrôle

Risque empirique r

Niveau de confiance requis 6

Taille de l'ensemble de test n

N ombre des catégories de perte s

Valeurs

0.05 , 0.1 , 0.3 , 0.6, 0.9

0.02 , 0.05 , 0.10, 0.15

20, 50, 100, 200

3, 4, 6

Ce plan couvre 480 combinaisons possibles des paramètres. Nous avons utilisé MAT

LAB 7 pour calculer les bornes. La borne multi-normale a été obtenue dans un temps

de calcul négligeable dans tous les cas. Par contre, la borne multinomiale a été obtenue

dans seulement 316 sur 480 cas possibles. Les cas où la borne multinomiale n 'a pas pu être calculée sont :

s n r

4 100, 200 0.05, 0.1 , 0.3, 0.6, 0.9

6 50 0.3, 0~6 , 0.9

6 100, 200 0.1,0.3 , 0.6, 0.9

Modèle multiplicatif

Afin d'étudier le comportement des bornes, nous avons déterminé pour chaque borne un modèle multiplicatif de moindres carrés généralisé sous la forme:

ln Borne = ŒO + Œlln r + Œ2ln 6 + Œ3ln n + Œ4ln s + E (3.13)

L'impact des quatre facteurs de contrôle est résumé dans le tableau 3.3.

Les quatre facteurs de contrôle sont statistiquement signifiants pour le calcul de

la variation de la borne multinomiale. Les trois premiers le sont aussi pour la borne


TAB. 3.3: Impact des quatre facteurs de contrôle sur les bornes multinomiale et mult inormale

Borne M ul tinomiale Multi-normale

R2 ajusté 0.968 0.975

Coefficient du Estimé Intervalle de Estimé Intervalle de

facteur de contrôle confiance à 95% confiance à 95%

CY l 0.701 [. 683, .718] 0.746 [.735 , .757]

CY2 -0.103 [-.128, -.079] -0.105 [-.121 , -.090] .

CY3 -0.216 [-.240, -.192] -0.159 [-.173, -.146]

CY4 -0.103 [-.230, - .183] -0.01 [-.043, .041]

multi-normale. En plus, les signes des facteurs significatifs sont en accord avec nos anticipations a priori. Ceci nous ouvre une autre voix de recherche, à savoir la possibilit é

de développer des approximations très proches de la borne multinomiale.

Comparaison des deux bornes

Afin de déterminer la qualité de l'approximation multi-normale, nous avons ét udié la différence entre les deux . bornes. Soient B M et BR respectivement les deux bornes multinomiale et multi-normale. La différence BR - BM avait une moyenne globale de -0.00883 pour les 316 cas, et un écart type global de 0.00936. La sous-estimation de la borne multinomiale par la borne multi-normale s'explique par le fait que le support de la multi-normale se prolonge au-delà de celui de la multinomiale.

Il serait aussi instructif d 'examiner comment le biais multi-normal est distribué sous les différents cas. Les tableaux 3.4 et 3.5 nous donne la moyenne (avg) et l'écart type

(std) selon les différentes paires (n , r) et (n , s) respectivement:

Comme prévu, la différence entre les deux bornes se réduit avec l'augmentation de la taille de l'échantillon. Cependant , pour justifier n 'importe quel effet systématique des facteurs de contrôle, un modèle multiplicatif comme le précédent a été testé pour

Ln(BR/BM ) comme suit:

Ln(BR/BM) = -0.093 + 0.171n(r) - 0.0251n(s) - 0.0221n(b) - 0.0151n(n) (3.14)

Le R2 ajusté est de 0.255, et seul le risque empirique a été significatif ([0.011 , 0.022] comme intervalle de confiance à 95%) . Nous pourrions formuler la conjecture que les valeurs extrêmes de r peuvent causer une large dispersion via une asymétrie plus

prononcée de la distribution multinomiale.

Chapitre 3. Bornes sur le risque de généralisati?n en classification multi-classes 46

TAB. 3.4: La moyenne et l'écart type de la différence entre les bornes multinomiale et

multi-normale selon les paires (n , r)

n r

0.05 0.1 0.3 0.6 0.9

20 avg -0.02080 -0.01965 -0.01819 -0.01990 -0.01479 std 0.00817 0.00554 0.00149 0.00330 0.00042

50 avg 0.00519 -0.00465 -0.00394 -0.00613 -0.00786 std 0.00480 0.00294 0.00142 0.00176 0.00134

100 avg -0.00179 -0.00119 -0.00110 -0.00264 -0.00415 std 0.00207 0.00170 0.00105 0.00101 0.00109

200 avg -0.00742 -0.00018 -0.00045 -0.00114 -0.00191 std 0.01227 0.00097 0.00059 0.00056 0.00069

TAB. 3.5: La moyenne et l'écart type de la différence entre les borne? mul tinomiale et

multi-normale selon les paires (n , s). n s

3 4 6 20 avg -0.01934 -0.01820 -0.01846

std 0.00521 0.00503 0.00508

50 avg -0.00410 · -0.00294 0.00067 std 0.00527 0.00534 0.00653

100 avg -0.00233 -0.00095 -0.00163 std 0.00175 0.00171 0.00213

200 avg -0.00081 -- --* -0.01445**

std 0.00101 ----* 0.01444**

*Les valeurs de la multinomiale ne sont pas disponibles

** : 8 cas seulement.

3.5 Borne PAC-Bayes

3.5.1 Principes

L'approche PAC-Bayes remonte à McAllester (1999, 2003). Elle consiste à établir une garantie PAC pour un classificateur de Bayes. On cherche une borne valide avec probabilité 1- <5 sur le risque d'un classificateur de Bayes (Marchand, 2003). Le classificateur de Bayes est pris ici dans un sens plus large que sa définition classique. L'approche de Bayes dans un contexte PAC consiste à définir une distribution ~(h) sur un espace 7-{ de

classificateurs qui représente notre degré de croyance a priori que le vrai classificateur

-------------- --------

Chapitre 3. Bornes sur le risque de généralisation en classification mu1ti-classes 47

soit h. À partir de l'information fournie par les données (l 'échantillon d'apprentissage

S), et le degré de croyance a priori sur ce que sont les bons classificateurs, nous choisissons une distribution a posteriori Ù(h) qui servira à classer un nouvel exemple x .

Chaque distribution Ù(h) définit un classificateur de Bayes Bn. Pour tout exemple x,

la classe assignée Bn (x) par ce classificateur de Bayes est :

BDCx) = argmaxyEy [L:hEH . h(x)=yÜ(h)] (3.15)

Ainsi, le classificateur de Bayes exprime un vote de majorité sur 1{ pondéré par

Ù( h). Quel que soit le modèle de classification 1{, le classificateur de Bayes fournit la meilleure prédiction de la classe lorsque cette décision s'appuie uniquement sur Ù.

Cette propriété suggère que l'approche PAC-Bayes peut aussi avoir un intérêt dans un contexte de classification multi-classes.

Dans un contexte multi-classes, la définition du classificateur de Bayes est la même,

seul l'ensemble des classes étant sujet à changer. Dans notre contexte particulier, l'en

semble C des classes prédites par le classificateur h, comprenant celui des classes observées y, nous définirons le classificateur de Bayes par :

(3.16)

Le théorème PAC-Bayes nous fournira une borne sur .le risque de Bn valable pour

tout Ù. Cependant, pour peu que la famille 1{ soit grande, il devient rapidement incalculable. Il est alors d'usage de lui substituer un classificateur plus simple, associé à

la même distribution Ù, que l'on nomme classificateur de Gibbs Gn . Nous tirons au

hasard un classificateur h dans l'espace des classificateurs 1{ selon la distribution a

posteriori Ù. Le classificateur de Gibbs affecte alors à chaque exemple la classe donnée par le classificateur h retenu. Par définition, le vrai risque de Gn est l'espérance du vr~i

risque sous chaque classificateur h E 1{ selon la distribution Ù :

(3.17)

et son risque empirique est l'espérance du risque empirique de h selon la distribution

Ù:

(3.18)

Le classificateur de Gibbs est stochastique car, pour chaque x à classer, il tire au hasard un h selon Ù puis classe x avec h. Le classificateur de Bayes Bn, par contre, est

déterministe par définition.


Avant de l'étendre au cas multi-classes, nous rappelons le théorème PAC-Bayes dans

le cas de la classification binaire. Le théorème PAC-Bayes a été proposé initialement

par McAllester (1999, 2003). Nous énonçons ici la version due à Langford (2005) et Seeger (2002). La borne PAC-Bayes dépend de deux quantités le vrai risque et le risque empirique du classificateur de Gibbs.

Définition 10 Soient Q( et ~ deux distributions de probabilité sur un même espace.

On appelle divergence de K ullback-Leibler entre Q( et ~ la quantité

~(T) K L(SJ3 112l) = Er~'llin 2l(7')

Intuitivement , cette divergence mesure un "écart" (distance asymétrique) entre une

distribution œ et une distribution de référence 2L Dans le cas où les distributions en question sont deux Bernoulli avec taux respectifs de succès p et q, cette divergence sera notée:

q . 1- q kl(qllp) = qln- + (1- q)ln--.

p 1- p (3.19)

Théorème Il (Cas binaire) Pour tout espace de classificateurs H , pour toute distri

bution à priori s,p SUT H , pour tout b E (0, 1] on a :

Ce théorème implique que le risque empirique du classificateur de Gibbs est proche de son vrai risque lorsque K L(ü 1Is,p) est petit. Il nous donne une borne sur le classificateur de Gibbs. Cette borne peut être transformée en une borne sur le classificateur de Bayes. Dans un contexte de classification binaire, pour un ensemble de classificateurs binaires H, le classificateur de. Gibbs peut être défini par:

Gû(x) = Prhrvû {h(x) = 1} (3.20)

Dans un contexte multi-classes, nous allons plutôt utiliser la relation entre les vrais risques des deux classificateurs. Il est établi dans (Marchand, 2003) que pour des clas

sificateurs multi-classes, le vrai risque du classificateur de Gibbs est au moins la moitié

du classificateur de Bayes:

R(Bû) :::; 2R(Gû ) (3.21 )


Remarquons que dans le cas où la distribut~ion D possède la propriété qu'il existe un h* E 1t tel que h*(x ) = Bü(x ), la borne sur le risque du classificateur de Bayes peut être transformée en une borne sur un seul classificateur h* dit Bayes équivalent.

Par un choix avisé de .Q et de SfJ, on obtient une borne serrée sur le risque des SVMs à partir du théorème PAC-Bayes. Remarquons aussi qu 'en minimisant la probabilité

de différence entre un classificateur stochastique et un classificateur déterministe, les résultats du théorème PAC-Bayes ne se limitent pas aux classificateurs stochastiques et

peuvent s'appliquer à d 'autres formes de classificateurs (Catoni, 2006).

Nous établissons maintenant un nouveau théorème PAC-Bayes pour le cas multi

classes.

3.5.2 Borne PAC-Bayes multi-classes

Rappelons que le vrai risque d'un classificateur h, dans un contexte de classification

multi-classes, est R = qT p, et le risque empirique R( h) = ~qT K (p (h)) , où Ki (p (h)) est le nombre d'exemples qui tombent dans la catégorie de perte i, Pi (h) est la. probabilité (dépendant du classificateur h retenu) qu'un tirage tombe dans la catégorie de perte i,

et qi est la perte unitaire de la catégorie i, i E L.

Dans le contexte du classificateur (stochastique) de Gibbs , définissons pour i EL :

1\(0)

~i(D)

(3.22)

(~(D) est une variable aléatoire dont la distribution découle de c~lle de Z, avec

Ez~(.Q) = 15(0)).

Nous définissons le vrai risque du classificateur de Gibbs par:

(3.23)

et le risque empirique du classificateur de Gibbs par:

(3.24)


Dans le cas mult i-classes, pour un classificateur donné, l 'aléa fondamental gouver

nant chaque tirage observé est de type Hyper-Bernoulli1 plutôt que Bernoulli. En appli

quant directement la définition 10, on voit que la divergence de Kullback-Leibler entre

deux aléas Hyper-Bernoulli de paramètres resp~ctifs (a , s) et (b , s) est:

kl (b lia) = 2::=1 bi ln bi

(3.25) ai

Nous établissons mai~ltenant un théorème PAC-Bayes dans le cas multi-classes. Posons:

(3.26)

la probabilité que le classificateur h ait exactement ki exemples qui tombent dans la catégorie de perte i .

Lemme 12 Pour toute distribution à priori s,p sur 1{ :

~r(Eh~~B(~, h) ~~(n;~~l)) ~1-8

Lemme 13 Pour toute distribution a posteriori 0 et tout k E K :

Eh~n [~ln (B(~, h))] ~ kl(t;;(û) IIp(û))

En appliquant ces deux lemmes, nous obtenons le théorème PAC-Bayes suivant dans le cas multi-classes :

Théorème 14 Pour tout espace de classificateurs multi-classes 1{, pour toute distri

bution a priori s,p sur 1{, pour tout {) E (0, 1] on a :

( K L(Ollm) + In(l (n+S-1)))

~r \iû: kl(t;;(û) Il p(û)) ~ "., n 8 5-1 ~ 1 - 8 (3.27)

Le théorème PAC-Bayes dans le cas multi-classes nous donne une borne sur la

divergence kl(~(O) Il ]5(0)). Nous tentons maintenant de déterminer une borne sur le vrai risque R(O) du classificateur de Gibbs. s,p et {) étant fixés, considérons la fonction:

r(K, û) = SUPXEry>,' { qT xl n· kl(Kll x) ~ KL(ûll~) + ln G (n; ~ ~ 1) ) } Il est clair que r(ü) == r(~(ü) , ü) est une variable aléatoire dérivée de z.

1 Par extension de l 'aléa de Bernoulli , nous appelons aléa Hyper-Bernoulli de paramètres (p, s) l'aléa prenant comme valeur le i ème vecteur unitaire de dimension s avec probabilité Pi, 1 ::; i ::; s.


Théorème 15 Pour toute distribution à priori Sf-l ,

R.r (\iû : R(û) :::; r(û)) 2: 1 - 6. z

3.5.3 Estimation de la borne PAC-Bayes

Le théorème 15 permet de calculer une borne déterministe (sous la forme d 'une

espérance de vraie borne) pour toute distribution a posteriori Û donnée. En nous re

streignant au cas où la famille H de classificateurs est finie , nous montrons d 'abord que

pour Û fixée , l'estimation de cette borne PAC-Bayes revient à résoudre un programme

mathématique convexe simple. Nous considérons ensuite la recherche d'une distribution a posteriori permettant de resserrer cette borne.

Soit une famille finie 7-{ de classificateurs multi-classes. Les probabilités Sf-l et Û

peuvent maintenant être représentées respectivement par des vecteurs 1f E ryt~ 1 et p E ryt~ l .

Calcul de la borne pour p donné

Soit ~(p) = n-1 L:hEH K(h) la réalisation observée de ~(p). Posons:

f(p) = ~ L:hEH Ph ln ~~ + ~ ln(~ (n~~~l)) - L::=1 ~i(P) ln L::=1 ~i (P) g(p, p) = - L::=1 ~i(P) lnpi

Une borne B(p) sur le risque du classificate~r de Gibbs est obtenue en cherchant

des probabilités maximisant ce risque:

(SP)

B(p) = MaxpqTp

S.l.c.: g(p, p) :::; f(p)

L::=lPi = 1

p2:0

(1)

(2)

(3)

(3.28)

On voit que la contrainte (1) de ce programme mathématique est équivalente à

(1 (n + 8 - 1)) n·kl(~llp):::;KL(pll1f)+ln J 8-1 . (3.29)


Par suite, B(p) = r(l'\;(p) , p). Ainsi, la solution optimale p*(p) de (SP) nous donne pour chaque p une estimation pessimiste (défavorable) de p(p) garantissant un niveau de confiance uniforme 1 - 6.

Les remarques suivantes nous montrent que la résolution du programme mathéma

tique est facile.

Remarque 16 La fonction g(., p) est strictement positive, différentiable avec un gra

dient strictement négatif, et strictement convexe.

Remarque 17 Comme les contraintes (2) et (3) sont linéaires, et que la contrainte

(1) est de la forme «fonction convexe:::; constante)) , le domaine réalisable est convexe.

Comme la fonction objectif à maximiser est concave, il s 'agit d 'un problème convexe.

Optimisation locale sur p

Nous souhaitons trouver une distribution a posteriori p sur les classificateurs, don

nant la plus petite borne B(p) possible. Conceptuellement, le problème à résoudre est:

Minp B(p)

S.l.c.: LhE'H Ph = 1

p?,O

(3.30)

La fonction B n'a pas de régularité intéressante; notamment, elle peut avoir plu

sieurs optima locaux non connexes. Plusieurs stratégies sont envisageables pour s'approcher d'un optimum local. La méthode préconisée ici se veut prudente dans le sens

où elle se limite à un voisinage du point de départ2 . Chaque itération comprend deux

étapes:

Étape 1: recherche d'une direction de déplacement. Nous utilisons l'ap

proximation : B(p + dp) - B(p) R:< u* [ 'V pg(p, p)lp=p*(p) - 'V f(p))] dp (où u* > 0 est la

variable duale optimale associée à la contrainte (1) de (SP)}. Une direction d'amélio

ration sans contrainte est donc : dP = f (p )) - \7 pg (p, p) 1 p=p* (p)" La direction choisie est

la projection de dP sur le domaine réalisable {D E Dl~ I II:hE7-i Dh = 0, D 2': -p } .

2Le point de départ pourrait être, par exemple, 1L


Étape 2: recherche d'un pas de déplacement. Pour limiter les appels au pro

gramme mathématique (SP) avec des pas trop petit.s, on se contentera d 'une recherche

unidimensionnelle approchée de type Armijo (1966).

3.6 Sélection ou construction de classificateurs

Les deux sections précédentes traitent de l'évaluation d 'un classificateur, ou d 'une famille de classificateurs, donné. Ces classificateurs restent abstraits, leurs caractéris

tiques n 'interviennent pas dans la détermination des bornes.

Par contre, la sélection3 d'un classificateur dans une famille préétablie H se fait

après observation d 'un échantillon. Plus le modèle de classification H offre de degrés

de liberté, plus il y a un risque de surajustement (overfitting) , c'est-à-dire une erreur

empirique basse au détriment de la capacité de généralisation du modèle. Il y a donc un compromis à faire entre précision apparente et complexité du classificateur.

Une approche rigoureuse pour traiter ce compromis est la compression de données , que nous revoyons d'abord. Nous évoquons ensuite d 'autres voies possibles plus heuris

tiques.

3.6.1 Compression des données

Dans plusieurs cas (exemple: le Perceptron classique et les SVM, qui dépendent uni

quement de l'ensemble des vecteurs de support (Graepel etaI., 2000, 2001; Herbrich,

2002) , on observe que seul un sous-ensemble de l'échantillon d 'apprentissage détermine

le classificateur : on obtiendrait le même classificateur en retirant les autres exemples

de l'échantillon. Ce sous-ensemble est appelé ensemble de compression. Plusieurs algo

rithmes d'apprentissage comme les SCMs (Marchand et et Shawe-Taylor, 2002) et les DLMs (Marchand et Sokolova, 2005) construisent un classificateur en choisissant un

ensemble de compression correspondant.

Un algorithme de compression est basé sur deux fonctions: une fonction de construc

tion [ et une fonction de reconstruction R. [ nous donne une information de compres

sion (Sd, ()) qui détermine entièrement les paramètres du classificateur, où Sd est

l'ensemble de compression (sous-échantillon) de taille d tiré de l'échantillon d 'appren-

3 éventuellement probabiliste.


tissage S, et a est un message complémentaire de taille finie. L'échantillon résiduel sn-d ;:=: S\Sd est utilisé pour mesurer l'erreur empirique du classificateur. La com

plexité du classificateur est mesurée en terme de variété requise de l'algorithme R pour

décoder n 'importe quelle information de compression. Le classificateur est défini par h (S) = R (E (S)) avec: E (S) = (Sd , a).

On cherche une borne sur le vrai risque du classificateur qui dépend de l'information de compression. Une telle borne sur· le risque a été obtenue par Littlestone et Manfred

(1986) , d 'autres versions plus 'raffinées ont été obtenues par Langford (2005) et Seeger

(2002). Contrairement aux autres bornes, Marchand et Sokolova (2005) nous donnent une borne sur le risque de compression permettant la variation de l'ensemble des mes-

., sages selon la nature du classificateur. Nous montrons que la borne de compression de Marchand et Sokolova (2005) se généralise naturellement au cas multi-classes. Les

dérivations sont données en Annexe B.

Soit :1 l'ensemble de tous les sous-ensembles stricts de {l, ... , n}. Pour J E :1, notons J son complément. L'ensemble, supposé dénombrable, de tous les messages permis par

un ensemble de compression S J est noté M (S J ).

Soit Rh = R (R (Sd, a) ), le vrai risque associé au classificateur h (S). Étant donné un seuil de confiance 6" . E (0, 1], nous cherchons une borne B (6" , (Sd , a) , sn-d) , qui

dépend de l'information de compression, telle que :

(3.31 )

De façon générale, cette borne dépendra du niveau de · confiance recherché, mais aussi des données, sous la forme de l'information de reconstitution du classificateur et de l'échantillon résiduel. Enfin elle dépendra aussi des paramètres caractéristiques de la famille 1t de classificateurs retenue.

L'inégalité suivante est due à Marchand et Sokolova (2005) (voir les détails en annexe

B) :

Lemme 18 P§ {Rh> B (6", (Sd, a) ,sn-d)} ::; ~~=o (~)E§d ~aEM(Sd) P§n-d {Rh> B (6", (Sd , a) ,sn-d)}

n~d ~7::': Q (h(xj), Yj) le risque empirique mesuré sur un sous-


échantillon de taille n - d . Supposons une fonction majorante F garantissant :

(3.32)

En utilisant , au lieu de la borne abstraite B , la fonction F évaluée à des valeurs appropriées i(Sd , a) de t , on obtie~t du lemme précédant:

(3.33)

Certaines informations de compression peuvent apparaître plus vraisemblables que d 'aut res, selon le contexte de classificat ion. Ainsi , nous définissons ç (Sd a) une distribution a prioTi sur l'information de compression. En choisissant: i(Sd , a) = w(Sd, a).6 , avec w (Sd , a) = ç (Sd , a) (~) - \ nous avons bien :

6 ",n (nd

) E§d '" () w(Sd, a) ~d=O ~CJEM Sd

6 (3.34)

D'où la proposition suivante:

Proposition 19 Étant donnée une fonction majorante F (satisfaisant 3.32), les bornes

conditionnelles

garantissent que pour tout échantillon S de taille n :

On peut facilement intégrer ce cadre dans la borne PAC-Bayes en substituant

- n-dàn; - w(Sd , a).6 à 6.

Le choix (ou la construction) d'un classificateur minimisant ces bornes modifiées

limitera le risque d'erreurs de généralisation.


3.6.2 Autres approches

Il est vraisemblable que, selon la tâche de classification à effectuer, on ait une idée

a priori de la complexité attendue du classificateur. L'approche PAC-Bayes pose une

distribution a priori SlJ sur la famille 1t de classificateurs. De même, l'approche de compression fait appel à une distribution a priori ç (Sd , (J) sur l'information de com

pression4 . Dans les deux cas, ilserait naturel de biaiser ces distributions a priori vers

les classificateurs les moins complexes. Une question générale qui reste ouverte est celle

de la calibration d 'une distribution a priori de façon à ce que l'arbitrage précision

complexité reflète "fidèlement" le risque de généralisation.

3.7 Conclusion

Ce chapitre généralise plusieurs résultats de la classification binaire à des problèmes

de classification multi-classes. Nous montrons d'abord que le caractère multi-classes d 'un problème de classification est intimement lié à la structure de pénalisation des erreurs retenue. Nous proposons par la suite des modèles de bornage multi-classes permettant

d'évaluer voire d'estimer des classificateurs donnés.

Dans un premier temps, nous étudions la problématique dela classification multi

classes et sa relation avec la structure de pénalisation des erreurs. Nous établissons un

principe de réduction des cas d'erreurs à des catégories de pertes en vertu duquel nous montrons le lien entre l'asymétrie de la fonction de perte et la nature multi-classes du

pro blème de classifica;tion.

Dans un deuxième temps, nous proposons des bornes multi-classes simultanées pour mesurer la performance des classificateurs multi-classes. Dans un contexte d 'une fonc

tion de perte valuée, nous développons deux types de bornes permettant d 'évaluer

l'erreur associée à un classificateur abstrait donné. La première borne est exacte et mi

nimale au prix d'un plus grand effort de calcul. La deuxième en est une approximation

beaucoup plus simple. La question d'évaluation d'un classificateur est un préalable à

celle du choix d'un classificateur dans une famille hétérogène. Plusieurs voies semblent

s'offrir pour adapter nos bornes de façon à garantir la valeur prédictive du classificateur

à choisir.

Nous consacrons le chapitre suivant au développement d'un modèle de classification

4Sans cette modulation, il est possible que la borne ne soit nulle part effective

Chapitre 3. Bornes sur le risque de généralisation en cl;;ssification multi-classes 57

à base de pavés pour l'estimation d 'un classificateur multi-classes et multicritère. Nous

montrerons qu'il est possible de concilier les concepts et les avantages de l'apprentissage statistique et de l'aide multicritère à la décision. Nous vérifierons la faisabilité du modèle sur un exemple de taille réduite. Ce chapitre illustrera aussi un arbitrage fondamental

entre précision et complexité des classificateurs.

Chapitre 4

Modèle de pavés pour une classification multi-classes et

multicritère

4.1 Introduction

58

La réflexion autour du développement d'un modèle de classification multi-classes et

multicritère, nous a conduit vers la proposition des bornes sur le risque de généralisat ion

en classification multi-classes. Dans ce chapitre, nous proposons un modèle de classifi

cation qui exploite les résultats du chapitre précédant. Rappelons qu'un classificateur

est une règle d 'affectation (une fonction) h : X ~ C. Pour construire un classificateur,

les préoccupations de faisabilité et de parcimonie dictent de se restreindre à un pet it

sous-ensemble de l'espace général H = {h : X ~ C} des classificateurs. Nous appelons.

mod~le de classification un tel sous-ensemble. Il repose souvent sur une famille para

métrée de formes élémentaires (hyperplans, boules et trous, intersections et unions de

formes plus élémentaires, etc) dans l'espace des critères. Le choix d'une telle famille est

habit uellement contextuel.

Ce chapitre traite de la construction d 'un classificateur dans un contexte multi

classes et multicritère. Le qualificatif «multi-classes» réfère à un processus d 'erreurs et

de perte analysé dans le chapitre précédent. Le terme «multicritère» réfère au fait que

la responsabilité ultime de classification relève de l'autorité de classification (AC). Dans ce contexte, un classificateur (automatique) a un rôle de soutien ; il doit incorporer les

connaissances et les jugements de l 'AC. En plus, pour être porteur de sens, le langage

Chapitre 4. Modèle de pavés pour une classification multi-classes et multicritère 59

et les opérateurs dans l'espace des critères qu 'il invoque doivent être congruents avec

ceux de l'AC.

Les méthodes de classification issues de l'apprentissage statistique se préoccupent

avant tout de la performance empirique anticipée d 'un classificateur relativement décon

textualisé. A l 'opposé, le tri multicritère traditionnel, privilégiant un dialogue constructiviste avec le décideur, se préoccupe p~u d 'introduire dans la conception de la méthode

de tri des dispositifs de validation a priori. Une question porteuse serait d 'examiner

dans quelle mesure il est possible de concilier les forces de ces deux. approches: faire appel aux notions d 'échantillonnage tout en incorporant des exigences de divers ordres

propres aux connaissances, jugements et représentations de l'AC. C 'est au niveau du

modèle de classification que cette conciliation doit être assurée. Notre premier défi sera de proposer un tel modèle à titre d 'exemple. Ce sera l 'objet des sections 4.2 et 4.3.

L'intégration de deux courants ajoutera nécessairement à la complexité du modèle

de classification proposé. Un second défi consistera à en explorer la faisabilité , au moins de façon préliminaire (<<proof of concept»). En lien avec le chapitre 3, la section 4.3.3

spécifiera, dans un contexte de compression de données, le codage et la capacité de traitement requis par le modèle proposé. La section 4.3.6 examinera dans quelle me

sure le modèle de classification retenu se prête à l'estimation de clas~ificateurs. Nous

nous limiterons à transcrire les hypothèses du modèle en un programme mathématique visant l'obtention d 'un classificateur «optimal» vis-à-vis d'un critère de performance

qui peut ou non s'inscrire dans un cadre de compression de données. La complexité

du problème exclut qu'un tel programme mathématique soit directement utilisable. Il

s'agit ici (i) d'apprécier les sources de complexité, et (ii) éventuellement d 'identifier des sous-problèmes de complexité moindre qui pourraient être importés dans des heuris

tiques. La section 4.4 testera sur un exemple de taille très réduite la fonctionnalité du modèle d'optimisation. Elle illustrera également un arbitrage fondamental entre erreur

empirique et complexité.

4.2 Contexte de classification

Nous souhaitons que la construction du classificateur puisse s'appuyer simultané

ment sur des observations empiriques et sur des prescriptions de l'AC. Pour que les

résultats du chapitre précédent soient exploitables, un tirage aléatoire et indépendant

de n objets dans une population (quasi-) infinie est nécessaire, et les spécifications du

modèle ne doivent pas remettre en cause l'hypothèse iid1. Ces spécifications reflètent

1 Une exigence assez faible.

Chapitre 4. Modèle de pavés pour une classification multi-classes et mL!lticritère 60

les aspects contextuels du problème de classification, en particulier les prescriptions de l'AC.

Rappelons que cette dernière a la maîtrise des principaux éléments de la définition

du problème de classification, à savoir:

- la structuration du problème de classification: critères pertinents, échelles de

mesure, structures des classes;

- les règles a priori qui doivent être incorporées dans le classificateur;

- les prototypes ·de référence;

- un modèle de classification (i.e. une famille de classificateurs) ;

- les modalités d'évaluation d 'un classificateur.

Mais surtout, c'est sa conception a priori de la relation critères----+classes qui est

déterminante dans la spécification du modèle de classification. Bien entendu, il y a

à ce titre autant de variations possibles que de situations distinctes de classification

et d'autorité de classification. Notre propos n'est pas de rendre compte de cette infinie

diversité, mais d'illustrer sur un jeu didactique d 'hypothèses la démarche que nous avons

en tête. Les hypothèses que nous retiendrons renvoient à plusieurs thèmes courants en

analyse multicritère.

Nous avons fait l'hypothèse que tous les critères sont mutuellement incomparables.

Dans ce cas, il n'y a pas de compensation possible entre les critères, ce qui exclut la

synthèse des critères par une fonction d'agrégation conventionnelle2 . Pour que l'outil de

classification ait du sens aux yeux de l'AC, il est nécessaire qu'il respecte cette exigence,

qui bien sûr ne facilitera pas le traitement de critères incomparables.

D'un autre côté, nous n'allons pas associer de «poids» aux critères3 . Nous nous

limiterons à déclarer un critère «effectif» (pertinent dans un sens empirique) ou non. En

effet , dans de nombreux contextes de classification (telle diagnostic médical), le nombre

m de critères, considérés comme potentiellement pertinents, peut être très grand. Si

l'estimation empirique permet, avec l'accord de l'AC, d'éliminer un sous-ensemble de

ces critères, le modèle de classification gagnera en concision et donc en pouvoir prédictif.

Par ailleurs, la qualité de la classification peut considérablement bénéficier de connais

sances a priori sur la relation critères----+classes.

En premier lieu, il est fréquent qu'une classe soit définie, au moins en partie, par

2 Essentiellement : continue. 3La notion de poids reste ambigüe tant qu'on ne précise pas leur mise en œuvre ([53]).


des exemples représentatifs. Ces objets peuvent servir à définir:

- des centres de classe caractérisant au mieux les classes, - des exemples de frontière servant à délimiter les classes.

Notre modélisation inclura de tels exemples représentatifs , que nous appellerons

prototypes. Sans référence à une notion de centralité ou de frontière un prototype sera

défini ici comme un objet que le classificateur doit classer correctement. Dans notre

modèle, un prototype joue donc un rôle de contrainte et non celui d 'une observation.

Notre modèle doit rendre possible la prise en compte de tels prototypes.

Par ailleurs, il n 'est pas rare que l'AC possède une connaissance même part ielle donc une base de règles, sur cette relation critères-----+classes. Notons que de telles règles

s'expriment souvent sous forme de clauses 'booléennes «si ... alors ... », élémentaires ou

composées. Pensons par exemple aux systèmes experts de diagnostic médical. Notre

modèle devra pouvoir incorporer de telles règles.

4.3 Modèle de classification par pavés

'Le modèle de classification proposé permettra de considérer et de combiner différents

types d'échelles pour les critères:

- échelles cardinales mais non absolues4 : nous supposerons que ces échelles sont

bornées; par suite, sans perte de généralité, elles seront normalisées entre 0 et

100.

- échelles ordinales: nous supposerons que celles-ci ont un nombre fini d 'échelons; - échelles nominales : erisembles finis non ordonnés de valeurs (éventuellement re-

présentés par des variables booléennes exprimant la présence ou l'absence d 'attri

buts, sous contraintes d'exclusion mutuelle et de complétude).

Les formes élémentaires du modèle de classification que nous proposons sont des

pavés5 • Un pavé est défini comme le produit cartésien de m' ensembles, chaque ensemble

correspond à un critère. Le terme «pavé» réfère au fait que pour toute échelle ordonnée (cardinale ou ordinale) l'ensemble est un intervalle. Par exemple; soient les critères:

- température (cardinale) : Xl E [0, 100] ;

4L 'extension à des échelles absolues est triviale, 5 Hyperrectangles en anglais.


- taille (ordinale) : X 2 E (nain, petit, moyen, grand, géant) ;

- couleur (nominale) : X 3 E {ocre, vert, bleu, autre}.

Un exemple de pavé pourrait être: [20 , 63.7] x (nain, ... , grand) x {vert, autre} .

L'appartenance à un pavé est une conjonction (booléenne) de clauses booléennes plus élémentaires :

(20 ::; Xl ::; 63.7) et (nain::; X 2 ::; grand) et (( X 3 = vert) ou ( X 3 = autre )) .

Remarquons aussi que l'appartenance à un pavé se constate sans compensation

inter-critères.

Dans la suite immédiate de ce chapitre, pour plus de clarté, nous nous restreindrons

au cas où tous les critères sont cardinaux, l'extension à des échelles ordinales ou nominales n 'étant pas difficile. Sous cette restriction et par convention, un pavé P est un produit d 'intervalles réels:

p = {x E [0, 100]m 1 a ::; X ::; b}

où a E [0, 100] m , b E [0, 100] m (a ::; b) sont respectivement le vecteur des bornes

inférieures et le vecteur des bornes supérieures du pavé dans l'espace des critères.

Sur un critère i , une borne inférieure ai = 0 ou supérieure bi = 100 sont dites triviales. Un critère dont les deux bornes sont triviales n'est simplement pas pertinent

pour définir le pavé.

4.3.1 Une illustration

Dans cette section nous illustrons un problème de classification multi-classes et multicritère. L'exemple didactique est construit à partir de la base de données Pima

lndian-diabet. C'est une base de données publique qui est utilisée dans la littérature

comme banc d 'essai pour la classification binaire en apprentissage supervisé. Cette base de données réelle est disponible dans: UCI Machine Learning Repository (Murphy et

Aha, 1992). Elle représente la classification des femmes de la communauté amérindienne Pima, en vue de déterminer si elles sont diabétiques ou non. Pour des fins de représen

tation, nous avons restreint le nombre d'exemples à 12 et le nombre de critères à deux. Le problème de classification qui nous intéresse étant multi-classes, nous avons rajouté


une troisième classe qui représente un deuxième type de maladie. Nous retenons comme

ensemble d 'apprentissage les douze exemples suivants:

Objet Coordonnées Classe

jl (31;54) 1

)2 (66; 86) 1

)3 (80;94) 3

) 4 (87; 30) 1

)5 (73;78) 2

)6 (52; 14) 3

)7 (24; 6) 2

) 8 (17; 22) 2

)9 (10; 38) 2

)10 (59; 46) 2

jl1 (38;62) 1

)12 (45; 70) 3

La matrice de perte est la suivante:

Classes observées y

1 2 3 Classes 1 0 0, 8 0, 5 attribuées 2 0, 5 0 1

c 3 0, 5 0 0 Ne 1 1 0, 8

Cas 1 : Q valuée

En appliquant le principe de réduction, cette matrice sera réduite au vecteur de

perte suivant de quatre catégories :

q = [0 ; 0.5 ; 0.8 ; 1]

Nous avons placé les objets de l'exemple Pima dans l'espace des critères. Par la

suite, nous avons imaginé les pavés suivants (voir figure 4.1) : 1


Si 24 :::; X l :::; 87 X E Pl

et X 2 :::; 30

Si Xl :::; 31 x E P 2

Si 10 :::; X l :::; 45 x E P 3

et 38 :::; X 2 :::; 70

Si Xl :::; 73 x E P 4

et X2 2 78 Si 10 :::; Xl :::; 80

x E P 5 et 38 :::; X2 :::; 94

4.3.2 Modélisation d'es classes

Etant donné un mode d 'affectation des exemples à des pavés, il s'agit maintenant d 'établir une correspondance entre· exemples et classes. Le classificateur ·h crée une

collection de pavés qui ne sont pas nécessairement disjoints et qui ne recouvrent pas nécessairement l'espace des critères.

Pour obtenir une affectation sans ambigüité des objets aux classes, le classificateur

fournira aussi :

- une affectation de chaque pavé à une classe unique 6, et

- un ordre total de priorité sur les pavés.

Sinon: Si X E P2 , h (x) = C2

Sinon:

Si X E Pk , h(x) = Ck

Sinon: Si X E PK , h(x) = CK

Sinon: h(x) = 0

(où h(x) = 0 représenterait un objet non classé).

Une telle règle lexicographique dans l'espace des critères est aussi' appelée liste de

décision (Marchand et Sokolova, 2005). Nous retrouvons un raisonnement semblable sous forme de règles de décision dans les travaux de Slowinski et al. (2007).

6 Cependant, plusieurs pavés peuvent être assignés à une· même classe.


90

70

50

:iD

40

1 1 1 1 1 1

j9- - - - - - --

10 2J 30 40

................... . ...... ........................ 1------

..............•.................................. :.:. :-:':':':' .. ':':-:':':':':':' :.:.:.:.: .. : .:.: ............ } .•........................ . .........

·:·:·:·:·:·:·' 10:':':':':':':':':':':':':':':' .. ..........................

50 ( 0 70 80 90 100

k : pavé d'indice k ; c : classe du pavé ; --- : frontières de la partie masquée du

du pavé; j : exemple; .: classe l ; • : classe 2 ; * : classe 3.

FIG. 4.1 : Représentation des pavés dans l'espace des critères


Une représentation équivalente serait de visualiser l'ensemble ordonné des pavés

comme une pile, avec les pavés de plus haute priorité au-dessus. Vus du dessus, certains

pavés. peuvent être en partie masqués par des pavés supérieurs (de plus haute priorité).

Spécifiquement, la partie visible (non masquée) d 'un pavé Pk sera:

Ainsi , une classe est représentée par une union de différences de pavés. Cette repré

sentation exclut toute compensation inter-critères.

Illustration (suite)

Nous avons établi la liste de décision suivante à partir · des classes des pavés et de

l'ordre fourni avec les pavés de Pima. Nous retrouvons la classe 0 en fin de liste:

Si x E Pl h(x) = 3 Sinon si

h(x) = 2 Sinon si

x E P3 h(x) = 1 Sinon si x E P4 h(x) = 1

Sinon si

xE P5 h(x) = 2 Sinon h(x) = 0

4.3.3 Estimation d'un classificateur dans le cadre de la com

pression de données

Comme nous l'avons vu au chapitre 3, l'idée de base derrière l'apprentissage par

compression, est de ne retenir que les éléments pertinents et suffisants pour construire le classificateur. Ces éléments constituent l'ensemble de compression Sd7. Dans notre

contexte, cet ensemble sera constitué d'actions qui bloqueront les bornes non triviales

des pavés.

7Dans l'éventualité où le modèle de classification comprend des prototypes créés spécifiquement pour délimiter les classes, il n 'est pas exclu que ces prototypes soient utilisés comme objets de compression,

permettant ainsi d 'augmenter la taille de l'échantillon résiduel.


Par ailleurs, dans le modèle de classification proposé, en plus de l'ensemble de com

pression, de l'information additionnelle est requise pour reconstituer le classificateur.

Nous introduisons des messages (J qui vont contenir cette information addit ionnelle.


Dans notre exemple lndian-Pima, les objets {j1 , j3 , j4 , j5 , j7 , j9 , j12} sont suffisants pour déterminer sans ambigüité les pavés {Pl , P2 , P3 , P4 , P5 } .

4.3.4 Représentation .des pavés et forme du message complé

mentaire.

Dans un souci de réduire la complexité du modèle, nous allons restreindre la définition des pavés aux critères actifs (globalement pertinents). Un critère sera dit act if relativement à un classificateur donné, s'il existe au moins un pavé ayant une borne non

triviale sur ce critère. Nous notons ici l l'ensemble des critères actifs ( III = m' ::; m) ,

et PI la famille des pavés P = {x E Xia::; x ::; b} tels que ai = 0 Vi ~ l et bi = 100

Vi ~ I.

Pour définir des pavés à partir de l'ensemble de compression, nous distinguerons

deux formes possibles de représentation d'un pavé dans PI :

1. Un pavé plein est défini directement par sa borne globale inférieure (bgi ) a et sa

borne globale supérieure (bgs) b. Ces deux bornes globales correspondront , dans le sous-espace des critères actifs, à au plus deux exemples de compression distincts.

En d 'autres termes, P E PI est un pavé plein si et seulement il existe deux objets

de compression distincts, indexés par j1 et j2, tels que:

- soit ai = 0 Vi E I , soit il existe un objet de compression j1 tel que ai = X{l Vi E I , et

- soit bi = 0 Vi E I , soit il existe un objet de compression j2 =1- j1 tel que bi = X{2 Vi E I.

2. Un pavé ouvert est défini critère par critère. Pour chaque critère i , on indique,

pour chaque borne non triviale ai et/ou bi , l'exemple de compression qui borde de

l'extérieurle demi-espace de la forme X i 2: a~ ou Xi ::; b~, selon le cas. En d 'autres termes, le pavé P E PI est ouvert si et seulement si pour chaque i E l :

- soit ai = 0, soit il existe un objet de compression j1 tel que ai = X{l, et

Chapitre 4. Modèle de pavés pour une classincation multi-classes et multicritère 68

- soit bi = 0, soit il existe un objet de compression )2 tel que bi = X{2 .

Ainsi, le nombre d 'objets de compression ut ilisés pour définir un pavé ouvert n 'ex

cède pas 2 II I.

Le message complémentaire indiquera en premier lieu l'ensemble I des critères ret enus comme actifs. Il list era ensuite les pavés par ordre de pile (ordre de masquage) .

L'informat ion fournie pour chaque pavé sera la suivante:

Pour un pavé ouvert :

Pavé: Nature : ouvert Classe: Exemples de compression critère i Type de bornes (1 ou S)

E xemple 1 2 S

E xemple 2 1 S

Pour un pavé plein :

Pavé Nature: plein ; classe:

Exemples de compression Type de borne (bgi ou bgs)

E xemple 1 bgi

E xemple 2 bgs


Dans l'exemple Indian-Pima, nous avons représenté l'information complémentaire

nécessaire pour la reconstitution du classificateur. Sur chaque critère nous avons au

moins une borne non triviale donc: I = {1 , 2}. Pour chaque pavé, nous indiquons sa

nature (ouvert ou plein) et sa classe d 'affectation. Pour chaque objet de compression

qui caractérise le pavé, nous indiquons s'il s'agit d 'une borne globale (dans ce cas bgi ou bgs). Sinon, nous définissons le critère de la borne non triviale et sa position inférieure

ou supérieure (l , S).

Pavé: Pl Nature : ouvert Classe: 3

Exemples de compression critère i l/S

) 4 bgs

)7 1 1


Pavé : P2 Nature: ouvert Classe: 2

Exemples de compression critère i Ils f--

JI 1 S

Pavé: P3 Nat ure : plein, classe: 1

Exem pIes de corn pression bgi lbgs

J 12 bgs

) 9 bgi

Pavé: P4 Nat ure : ouvert Classe: 1

Exemples de compression critère i I l s ) 5 1 S

J5 2 l

Pavé: P5 Nature: plein Classe: 2

Exemples de compression critère i Ils t--

bgs

J9 bgi

4.3.5 . Dimension de l'espace des messages

Commençons par un décompte sommaire de tous les messages rendus possibles par

la représentation précédente, pour une taille d donnée de l 'échantillon de compression.

Un pavé plein est spécifié par deux exemples· de compression. Il existe (~) façons

possibles de choisir une paire d 'objets de compression distincts. Le nombre de listes

ordonnées de KI pavés pleins distincts est donc:

(4.1)

Puisque la redondance n'est pas interdite dans un message, tous les messages à KI

pavés pleins sont (implicitement) contenus dans l'ensemble des messages à KI + 1 pavés

pleins. Par suite, si KI est une borne supérieure sur le nombre de pavés pleins, le nombre ·

d 'arrangements possibles des pavés pleins ne dépassera pas C1(d, KI).

8 Car ln (a - k) ~ ln a - ~ , 0 ~ k < a

~ -~--~~-~-~~~~~~~~~~~~~~------,


1!n pavé ouvert requiert la spécification des critères ' actifs , et celle des bornes infé

rieures et supérieures non triviales s 'appliquant à chacun de ces critères. Étant donné

un ensemble de m' critères actifs , il y a, dans le pire cas, (~) m' façons possibles de

spécifier un pavé ouvert. Par suite, pour m' fixé , il existe au plus

arrangements possibles de K 2 pavés ouverts (1 S K 2 < (~) m'). Comme il y a (;;:,) façons

de choisir une liste de m' critères actifs , le nombre total d'arrangements de K 2 pavés ouverts ne peut dépasser

et si K2 est une borne supérieure sur K2 ' le nombre des arrangements possibles de pavés

ouverts est majoré par C2(d~ K2).

-

Finalement, chaque pavé doit être assigné à une classe, ce qui entraine C1<1 +1<2

assignations possibles.

En conclusion, la taille de l'espace des mèssages généré par un ensemble de com

pression de d objets est majorée par

(4.2)

Cette borne augmente très rapidement avec les nombres KI et K2 de pavés permis.

Cependant le contexte de la classification nous permet de limiter ces nombres. En

effet , pour l'utilisateur, la complexité perçue (cognitive) du classificateur se mesure au

nombre de clauses de la liste. Ce nombre de clauses est proportionnel au nombre de pavés et ne dépend pas de l'ensemble de compression utilisé pour l'estimation. Nous

pourrions ainsi envisager des limites de la forme:

Enfin, nous pourrions pénaliser la complexité du classificateur par une mesure de

vraisemblance t;,( d, m' , KI , K 2 ) sur les paramètres effectivement utilisés dans l'estima-


tion. Ceci mènerait à une spécification particulière des coefficients W(Sd ,(J) invoqués

dans le chapitre 3, de la forme:

(4.3)

4.3.6 L'estimation d'un classificateur par l'intermédiaire d'un

programme mathématique

Nous proposons maintenant un modèle d 'optimisation ( minimisation) de la borne

sous les contraintes imposées par le modèle de classification à base de pavés et par l'approche de compression. Ce modèle, écrit dans le formalisme de la programmation

linéaire mixte, est générique mais non directement opératoire, en raison de sa très grande

complexité. Toutefois cette formulation est restreinte aux pavés pleins9 .

1. Paramètres

- n = nombre d'observations,

- :1 = ensemble d'indices de l'ensemble d'apprentissage (IJI = n), - P = ensemble d'indices des prototypes (P n:l = EB) ,

- m = nombre de critères, - x{ = évaluation de l'observation j sur le critère i (j E :1,1 ::; i ::; m) , - C = nombre de classes observées,

- y = {1 , ..... , C} =ensemble d'indices des classes observées,

- C = {a, 1, ..... , C} = ensemble d'indices des classes attribuables,

- Yj = classe observée de l'objet j (Yj E y, j E :1), Z = {(xj , yj ) E X x Y,j E:I} = ensemble d'apprentissage,

R( = KI dans la section précédente)= nombre maximal de pavés,

K = {1, ... , R}= ensemble d'indices des pavés disponibles,

é E ~~ :un vecteur de petites constantes positives.

e : le vecteur identité de dimension appropriée au contexte.

9Dans la spécification d'un pavé ouvert , chaque borne non triviale peut être associée à un objet de compression différent. Ceci introduit un grand facteur de complexité tant dans l'espace des messages (chapitre 3) que dans le programme mathématique. D'un intérêt secondaire, ces pavés ont été omis

pour alléger l'exposition.


2. Identification et forme des pavés

Les formes élémentaires du modèle de classification sont des pavés :

Au plus k pavés pourront être créés pour spécifier le classificateur. Il sera convenu que

la numérotation des pavés reflète un ordre total décroissant de priorité ( d 'empilement).

Ceci donné, il reviendra "au programme mathématique de déterminer :

- le nombre K E {l , ... , k} = nombre de pavés effectivement utilisés ( pavés que

nous qualifierons d'actifs) , - la géométrie de chaque pavé actif, "

- la classe qu'un tel pavé contribuera à construire.

Nous conviendrons sans perte de généralité que les K pavés actifs figurèrent en tête

de liste et qualifierons les suivants d'inactifs.

Ce premier bloc a trait aux pavés actifs : leur nombre et leur géométrie.

Variables - ak E X= vecteur des bornes inférieures du pavé k E K. - bk E X== vecteur des bornes supérieures du pavé k E K.

_ Wk = {l si le pavé k est utilisé k E K 0, 1 sinon

- K = nombre de pavés actifs.

Contraintes la.

lb.

lc.

Id.

le.

If·

ak 2: 0

bk :::; 100e b~ - a~ > E

1, 1,-

Wk+l - Wk :::; 0

L:kEKwk - K = 0 K:::;k

k E K k E K 1 :::; i :::; m, k E K 1 :::; k :::; k - 1,

La contrainte Id force les pavés inutilisés d'être en fin de liste. On pourra vérifier

dans ce qui suit que les formes des pavés inutilisés peuvent être chqisies sans interférer

avec les autres contraintes. En particulier, si l'objectif pénalise la taille de l'ensemble

de compression, chaque pavé inutilisé coïncidera avec l'espace des critères X.


Délimitation des pavés et choix de l'ensemble de compression

Délimitation des pavés : Un pavé plein est spécifié par deux vecteurs, une borne

inférieure a et une borne supérieure b. Chacune de ces bornes globales, si elle n 'est pas

triviale (a = 0 ou b = 100e) est associée à un objet de compression (contraintes 2c et

2d) . . Cette association est représentée par des variables binaires.

Variables

Contraintes

1

o 1

o

si la borne inférieure du pavé k est xj

sinon

si la borne supérieure d ~ pavé k est x j

SInon

2a.I:jEJ Àjk - Wk = 0 k E K 2b. I:jEJ )..jk - Wk = 0 k E K

j E:1, k E K

jE:1,kEK

2c. I:jEJ x{ Àjk - aik = OlS i S m , k E K 2d. I:jEJ x{ )..jk + 100 - bik = OlS i S m , k E K

Choix de l'ensemble de compression Nous définissons les éléments .de l'en

semble de compression qui est constitué de bornes supérieu~es et inférieures non triviales des pavés (contrainte 2e). Nous spécifions aussi la taille de l'ensemble de compression

(contrainte 2 f) .

Variables

~j = {~ d=

Contraintes

si l'observation j fait partie de l'ensemble de compression

sinon

nombre d'objets de compression

. 2e. I:kEK Àjk + I:kEK )..jk - 2K'l/Jj s 0 j E :1 2f· I:jEJ'l/Jj - d = 0

j E:1


Affectation de pavés aux classes

Une classe est une union de morceaux de pavés. Chaque pavé est affecté à au plus

une classe. Ainsi la contrainte 3a traduit le fait qu'un pavé sera :

- soit affecté à une classe; dans ce cas il va être qualifié d 'utilisé.

- soit non affecté (totalement) ; dans ce cas il est réputé inutilisé.

Dans le cas ou la pavé est utilisé, tous les objets qu'il contient exclusivement seront

affectés à cette classe;

Variables

{3kc =

Contraintes

{ 0

1 si le pavé k est assigné à la classe c

sinon k E K ,c E y

Localisation des objets de l'échantillon résiduel et des prototypes dans des

pavés

L'échantillon résiduel est ce qui reste de l'échantillon initial après en avoir retiré

l 'ensemble de compression. C'est sur ce sous-ensemble de l'échantillon que les erreurs

de classification sont évaluées. Pour évaluer ces erreurs, il faut connaître la classe à

laquelle chacune de ces observations a été affectée par le classificateur.

Dans un premier temps, il s'agira de déterminer à quels pavés une observation rési

duelle appartient. Ceci sera indiqué parles variables booléennes 'Jfjk' Le calcul des ces

variables est l'objet du bloc de contraintes qui suit.


Variables

1

1jk == 0

u~k == 0 ~ 0, 1

v1k 0 ~ 0, 1

Contraintes

si 'l/Jj ==O et l'observat ion j

est sit uée dans le pavé k

sinon

si x j > a~ ~ - ~

sinon

si x~ < b~ ~ - ~

sinon

j E J U P , k E JC

1 ~ i ~ m, j E J U P k E JC

1 ~ i ~ m, j E J U P , k E JC

j E J k E JC k E JC 1 ~ i ~ m , j E J U P , k E JC 1 ~ i ~ m , j E J U P , k E JC 1 ~ i ~ m , j E J U P , k E JC 1 ~ i ~ m , j E J U P , k' E JC j E J , k E J(

j E P , k E JC

La contrainte 4a force les variables indicatrices 1 jk à 0 pour tout objet de compres

sion. De même, l'appartenance à un pavé inactif n'est pas reconnue (contrainte 4b). Et

réciproquement , tout pavé actif doit contenir au moins un prototype ou un objet de

l 'échantillon (lequel sera résiduel par 4a). Les contraintes 4d - 4i définissent les variables

indicatrices 1 j k en les reliant aux frontières des pavés. Selon 4d - 4e , si 1jk = 1, alors

les frontières du pavé k doivent entourer l'objet j (condition «nécessaire») . Récipro

quement , 4f - 4i demandent que si 1 jk = 0, alors au moins une des front ières du pavé

k doit être transgressée par l'objet j (condition «suffisante»). Notons que pour signa

ler tout transgression, une sent inelle ( booléenne) indépendante u{k ou V{k est requise

pour chaque frontière ( sur chaque critère) , ce qui constitue une source majeure de

complexité.


Bonne classification des prototypes

Tout prototype doit être entouré d 'au moins un pavé (5a). Le premier pavé (dans

l'ordre d 'empilement ) auquel un prototype j appartient doit être assigné à la classe de

ce prototype (5b).

Contraintes 5a. L:kEK r jk 2: 1

5b. f3kYj 2: rjk - L:t<k rjt

Affectation des objets résiduels aux classes

j E P k EK, jEP

La classe attribuée à une observation résiduelle j sera la classe du premier pavé,

dans l'ordre d 'empilement, auquel elle appartient. Plus formellement , étant donnée une

famille de pavés actifs {Pk C X Il :::; k :::; K} , l 'observation résiduelle j sera classée dans la classe c si et seulement si il existe un k E {l , ... , K} satisfaisant les 3 condit ions :

- (i) Xj tt Pt Vt < k (i.e. r jt = 0 Vt < k) - (ii) Xj E Pk(i.e. r jk = 1) et - (iii) le pavé k est assigné à la classe c (i.e. f3 kc=l)

Variables

Pour alléger la notation, nous adopterons la convention : T jO == 0, j E J

1 si 'ljJ j=O et j est dans un pavé k' :::; k j E J , k E K Tjk =

0 sinon

Bjc = 1 si 'ljJ j = 0 et l'objet j est assigné à la classe c

j E J , c Ee 0, 1 sinon


Contraintes

6a T j,k-l - Tjk ~ 0 6b 1jk - Tjk ~ 0

6c T j k - T j,k- l - 1 j k ~ 0

6d f3kc - Bjc + Tj k - T j,k-l ~ 1

6e Bjc - f3 kc + T jk - T j ,k-l ~ 1

6f ~cEY Bjc - T jR ~ 0

6g ~CEC Bjc + 'l/;j = 1

6h W k - ~jEJ T jk + ~jEJ T jk- l ~ 0

j E :7, k E K j E :7, k E K j E :7, k E K j E :7, k E K .c E y j E :7, k E K ,.c E y j E :7 j E :7 k E K

La contrainte 6a indique que la suite ( 1jk ) est non-décroissant e en k. La cont rainte

6b implante la condition (i) précédente. Les contraintes 6b et 6h impliquent la condit ion

(ii).

Les contraintes 6d - 6e sont ensemble équivalentes à : IBj c - f3 k c l :::; 1- (Tjk - Tjk - l)

et impliquent donc (iii).

La contrainte 6f dit que si un objet n 'est associé à aucun pavé, il n 'est assigné à

aucune classe observée. La contrainte 6g dit que tout objet résiduel ( et seulement eux)

doit recevoir un numéro de classe, fût-celui de la catégorie «non-classée» .

Enfin la contrainte 6h impose que chaque pavé actif contribue à classer au moins un

objet résiduel.

Mesure du risque empirique

Le risque empirique est le rapport de la perte totale encourue sur l'échantillon ré

siduel divisé par la taille n - d de cet échantillon résiduel. Le dénominateur étant une

. quantité variable (entière) , il nous faudra énumérer les valeurs qu'il peut prendre. On

supposera aussi que l'objet incite à diminuer le risque empirique.


Variables

RE== risque empirique EJR EET== perte tot ale encourue EJR

çt == { 1 si d = t 0 sinon

O~ t ~n-1

Contraintes

7a. L jEJ L CEC Q(c, Yj)() jc - EET == 0 7b. EET + nçt - (n - t) RE ~ n 0 ~ t ~ n - 1

7c. L~:ll tçt - d == 0 7d. L~:Ol çt = 1

Fonction objectif

La fonction objectif dépendra de la nature de la borne B retenue (par exemple, borne

de compression). Dans tous les cas, cette borne dépendra d 'un vecteur de paramètres 8 E ~ calculé de façon endogène par le programme mathématiquel O

. En général, cette fonct ion ne sera pas linéaire, et l'étendue de son domaine ~ interdira de la calculer point à point. C 'est pourquoi la fonction objectif sera une approximation de la bornel1

. Nous esquissons une procédure possible d 'approximation, de type «interpolation locale» .

Il reste entendu que le contexte du problème de classification peut suggérer d 'aut res

types d 'approximations plus efficaces. Pour obtenir une interpolation locale, on peut const ruire une tessellation du domaine ~ en simplexes12 . Spécifiquement soit une famille

finie {St Il ~ t ~ T} de simplexes ( fermés et de pleine dimension)13 tels que:

- ~ ç Ul :::;t:::;r St, - Int St! n Int St2 = 0 Vt l -# t2 ,

- Vt l -# t 2 , si x est un point extrême de St! et si x E St2' x est un point extrême de

St2'

lOPar exemple : l'erreur empirique, la taille de l'ensemble de compression, le nombre de pavés ut ili

sés ... Il Idéalement , deux approximations : majorante et minorante. 12Le simplexe, seule polytope dont tout point est une combinaison convexe unique des ses points

ext rêmes, garant it une interpolation correcte. l3 p as nécessairement semblables .


On notera {Oh Il :S h :S H} l'ensemble de tous les points extrêmes de ces simplexes

et on supposera que la borne a été calculée de façon exacte à chacun de ces point s :

U ne interpolation de la borne est de la forme :

- 8.a (~) = L:=l (~~ )Àh , avec: - " 8.b Àh 2: a Vh et

- 8.c L:=l Àh = 1.

et fournit b comme approximation de B( 5).

Dans la mesure où la borne n 'est pas convexe, il faut assurer que l'interpolat ion

reste locale; nous imposerons qu'elle soit calculée sur un seul simplexe. À cette fin ,

introduisons la matrice d 'incidence sommets-simplexes A E {a, 1} H x T :

et les variables :

{ 1 si 5 k est un point extrême de St

Aht = a sinon

{ 1 si l'interpolation est faite dans le simplexe St

Wt= a sinon

L'objectif à minimiser est donc b, sous les contraintes:

- 8a - 8c.

- 8.d À:S Aw - 8.e eTw = 1

- 8.f WE{a , l}T.

Incorporation de règles de classification

De nombreux systèmes de classification reposent sur un corps non négligeable de

connaissances a priori. Ainsi intervient, dans le diagnostic médical, un grand nombre

de clauses élémentaires «si ... alors» et de clauses composées.


Il n 'est pas difficile d 'incorporer de telles clauses dans le programme mathématique.

Un exemple de clause élémentaire pourrait être:

«Dans la classe 2, la valeur du critère 5 .ne dépasse jamais 80»

Cette assertion peut être réécrite pavé par pavé:

«Si f3 k2 = 1, alors b~ ::; 80» , soit

b~ ::; 100 - 20f3 k2 . k E K

La représentation des clauses composées (conjonctions, négations, implications, disjonctions ... ) dans un programme linéaire fait appel à des opérations bien établies.

4.4 Tests préliminaires du programme mathématique

Le but de cette section est double :

(i) vérifier sur un exemple simple que le programme mathématique donne des ré

sultats conformes à nos attentes; (ii) illustrer, par -la même occasion, une antinomie fondamentale en théorie statis

tique, entre l'ajustement d'un modèle aux données et sa concision.

Nous conservons l'exemple Pima de petite taille et simulons une approximation

grossière de la borne de la forme :

Objectif = RE + ad (4.4)

où a est un paramètre d'importance que nous ferons varier de 0.005 à 0.5.

Le tableau 4.1 résume les résultats obtenus pour la résolution de ce programme

mathématique avec Cplexe Il.01.

Ces résultats illustrent bien le compromis complexité versus précision. En effet , avec

des pondérations faibles de d (moins que 0.05) le classificateur assure une précision maximale, avec un risque empirique nul. Ceci au détriment de la complexité, qui est plus


TAB. 4.1: Résultats des tests préliminaires du programme mathématique.

Cas Œ RE Obj d K 1 0.005 0 0.035 7 4

2 0.01 0 0.07 7 4

3 0.015 0 0, 105 7 4

4 0.02 0 0, 14 7 5

5 0.025 0 0, 175 7 4

6 0.03 0 0, 21 7 4

7 0.035 0 0, 245 7 4

8 0.04 0 0, 28 7 4

9 0.045 0 0, 3151 7 4

10 0.05 0 0, 35 7 4

Il 0.1 0.47 0, 67 2 1

12 0.15 0.47 0, 77 2 1

13 0.2 0.47 0, 969 2 1

14 0.25 0.47 0,969 2 1

15 0.3 · 0.47 1, 07 2 1

16 0.35 0.47 1, 17 2 1

17 0.4 0.47 1, 27 2 1

18 0.45 0.47 1, 37 2 1

19 0.5 0.46999 1,47 2 1

élevée avec un nombre important de pavés et une taille plus importante de l'ensemble de

compression. Par contre, en augmentant la pondération de d dans la fonction objectif,

le classificateur est moins précis avec un risque empirique plus élevé. En conséquence,

la complexité est plus faible avec un nombre moindre de pavés et un ensemble de

compression plus petit.

Les résultats du modèle pour les cas 1 et 19 sont représentés dans les figures 4.2 et

4.3.

4.5 Conclusion

Le principal but de ce chapitre est d'explorer la faisabilité de construire un classi

ficateur comportant une base empirique solide tout en tenant compte de spécifications

requises par l'autorité de classification.


lOJ --------------------------------------------------~-----------.J_ . -- -P 4 : (k=4, c=2)

8::1 --

6) - :.:.:.:.:.:.:.:.;.:~ .tj.:.:.:.:.:.:.:.:.:.:-:.:.:.:.:.:.:.;.:.:.;.;.:.:.:.:.:.: , :·:::·:::·:::-:::·:W2:;; ::(~~~·q.~)_:::-:::·:::·: ::::::::::::::::::ï :::::::::::::::::::::::::::::::::::::1 :::::::::::::::::

" ::}::::::: ; lf:i:::H::ili:l:ij::::::~l :::i::I:::1 • j 10

:'::::::::::::::::i :::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::: ••

J

10 23 30 40 53

J~ 13 1-

70 8:>

FIG. 4.2 : Représentation des pavés du classificateur pour le cas 1

so ]00


ICa

Pl : (k=1, c=2) j3

sa • 80 j2 • *il2

j5 70

itt EO • 50 1 jl

• jl0 1

!Jo 1 •• 19 .-30

20 j. .,- j

la *i6

a j7

G 10 20 30 40 50 60 70 BD 90 100

FIG. 4.3 : Représentation des pavés du classificateur pour le cas ·19


Sur le premier aspect, nous avons mis en application plusieurs concepts présentés au

chapitre 3. Sur le second, nous avons introduit une approche de classification respectant:

- une condition stricte14 d'incomparabilité inter-critères;

- la possibilité d'introduire des cas exemplaires (prototypes) ;

- la possibilité d'introduire une base de règles.

Le modèle à base de pavés s'appuie sur la compression de données. Ceci permet de ne

retenir que les objets pertinents et suffisants pour construire le classificateur. Procédant

ainsi , nous contribuons à la réduction de la complexité du classificateur. Nous avons

choisi de représenter le calcul d 'un tel classificateur par un programme mathématique.

S'agissant d'une étude exploratoire et décontextualisée, l'enjeu n 'était pas de chercher une formulation de complexité minimale. En général, la complexité des problèmes de

classification exclut la recherche de solutions exactes dans la pratique.

Le développement de méthodes de calcul opératoires est une des principales ques

tions qui se posent maintenant. Dans le développement d'heuristiques, on rencontre souvent deux questions critiques: (i) la représentation de l'espace des solutions et (ii) la structuration du cheminement dans cet espace. Le programme mathématique peut

suggérer quelques pistes pour la première. Des solutions pourraient être générées en

fixant une partie des décisions et en effectuant une optimisation partielle sur le reste.

On remarque en particulier que la taille de l'échantillon et les conditions d 'appq,rte

nance d'objets à des pavés sont des sources importantes (et mutuellement renforcées)

de complexité. Du côté de l'échantillon, on pourrait par exemple:

- imposer à certains objets de faire partie de l'ensemble de compression ;

- imposer à certains objets d'être 'bien classés (à la façon des prototypes).

Du côté des pavés, en remarquant que la vérification de l'appartenance à un pavé

fixé peut être sortie du modèle d'optimisation, on pourrait envisager la construction

progressive d'une collection de pavés, utilisables dans la formulation, celle-ci permettant

la création d'un nombre très restreint de nouveaux pavés qui pourraient plus tard se

rajouter à la collection.

14Et coûteuse.

85

Chapitre 5

Conclusion générale

Notre objectif de recherche consiste à développer des modèles de classification mult i

classes et multicritère. Nous avons cadré notre champ d 'étude en spécifiant les hypo

thèses de t ravail suivantes :

1. Les objets à classer sont situés dans un espace multidimensionnel de critères. Ces

critères sont définis par une structuration préalable du problème de classifica

tion. Ils sont potentiellement conflictuels et non commensurables. Ils peuvent être

mesurés sur un ensemble d 'échelles cardinales, ordinales ou nominales.

2. Les classes, au nombre de trois ou plus, sont connues d 'avance. Elles forment une

échelle nominale.

3. Le classificateur doit incorporer les informations contextuelles (normes, règles

d 'affectation) pertinentes ou imposées par un agent humain ou organisat ionnel responsable.

4. La construction du classificateur se base sur l'apprentissage supervisé. Il est pos

sible de constituer un ensemble d'apprentissage conforme aux contraintes expri

mées et satisfaisant l'hypothèse de tirages indépendants de distributions iden

tiques.

Nous avons alors tenté d 'apporter des éléments de réponse aux questions de recherche

suivantes:

1. Sous quelles conditions la classification multi-classes se réduit-elle ou non à la

classification binaire? Quel est le lien entre cet te réduction et la pénalisation des

erreurs?

Chapitre 5. Conclusion générale 86

2. Est-il possible de déterminer des bornes multi-classes simultanées? De telles bornes

peuvent-elles être à la fois calculables et serrées?

3. Peut-on concevoir un modèle de classification satisfaisant d 'une part les différentes

exigences de l'aide multicritère à la décision et offrant d 'autre part une gamme

«suffisante» d'arbitrages entre précision et complexité?

Plusieurs disciplines se sont intéressées à la classification avec des préoccupations

particulières qui ont conduit à des méthodes et des démàrches spécifiques. Dans un

premier temps, dans le cadre des chapitres 1 et 2, nous avons tenté de repérer cer

taines dimensions susceptibles d 'aider à structurer ce champ multidisciplinaire qu'est

selon nous la classification. Ce tour d 'horizon a débouché sur notre problématique de

recherche.

Le chapitre 3 a été consacré aux bornes sur le risque de généralisation en classifica

tion multi-classes. Il aborde cette problématique sans la subordonner à celle du choix

d 'un modèle de classification. Dans un premier temps, il établit un lien entre l'asymé

trie de la structure de pénalisation des erreurs et la nature multi-classes du problème de classification. Ce principe de réduction permet de conclure sur l'opportunité d 'un

bornage simultané vs. séquentiel sur les classes.

Dans un deuxième temps, le chapitre 3 propose deux types de bornes pour évaluer

la précision potentielle d'un classificateur donné. L'une est exacte (minimale) , l'autre en est une approximation beaucoup moins complexe. Enfin, le chapitre montre aussi comment ces bornes peuvent être adaptées pour estimer (construire) des classificateurs

multi-classes.

Le chapitre 4 permet d'établir la possibilité de construire un classificateur dans

un contexte multi-classes et multicritère en conciliant les exigences de l'apprentissage

statistique et celles de l'aide multicritère à la décision. Ainsi, le modèle de classification

répond aux spécifications suivantes:

(i) il évite toute forme de compensation cardinale inter-critères, s'appuyant d 'une part sur des formes élémentaires de pavés, et d'autre part sur une affectation

lexicographique aux classes;

(ii) il est compatible avec un mélange d'échelles cardinales, ordinales et nominales;

(iii) il permet la prise en compte de prototypes et de règles a priori contraignant

l'affectation;

(iv) il permet la' compression de données;

Chapitre 5. Conclusion générale 87

( v) il effectue un décompte des erreurs de classification par catégorie d 'erreurs (et

serait donc compatible avec d 'autres fonctions de pénalité qu'une agrégation linéaire).

Nous estimons que cette thèse ouvre plusieurs pistes de recherche sur la classification

multi-classes et multicritère.

1. Il serait intéressant de voir si une idée similaire à notre principe de réduction peut

mener à la construction directe de bornes d 'apprentissage.

2. Notre approximation multi-normale de la distribution multinomiale a une préci

sion imparfaite. Il serait intéressant d 'envisager d 'autres approximations. Dans la même veine, peut-on borner l'imprécision d 'une telle approximation?

3. Il serait pertinent de calibrer les distributions a priori dans le cas des bornes

de compression et des bornes PAC-Bayes de façon à ce que l'arbitrage' précision

complexité reflète réellement le risque de généralisation.

4. Le modèle à base de pavés peut être adapté à d'autres contextes de classifica

tion. Dans la vie réelle, plusieurs raisons pourront justifier l'existence de l'incer

tain, particulièrement de type flou dans l'affectation des objets aux classes. Par

exemple, dans le cas du diagnostic médical, il est plus prudent d'associer des de

grés d'appartenance aux classes que de se prononcer d'une manière catégorique

sur la classification des patients. Dans ce cas, il s'agit de prévoir des fonctions d'appartenance qui vont quantifier l'appartenance des objets aux classes selon

leur position par rapport aux frontières des pavés. Les degrés d'appartenance ob

tenus peuvent être incorporés dans la fonction de perte afin de refléter l'incertain )

dans les erreurs de classification.

5. Du point de vue pratique, la complexité du modèle à base de pavés ne permet

pas son application directe sur un problème de classification multi-classes et mul

ticritère de grande taille. Des heuristiques doivent être prévues tout en tenant

compte de la représentation de l'espace des solutions et de la structuration du

cheminement dans cet espace. Afin de réduire la complexité du modèle, des tech

niques peuvent être envisagées pour réduire la taille de l'échantillon. Une fois les

heuristiques développées, plusieurs domaines d'application sont envisageables:

diagnostic médical, détection de missiles, classification de dossiers d 'assurance,

zonage, etc.

88

Bibliographie

[1] Abe, D. , Inoue, S. , Fuzzy Support Vector Machines for Multiclass Problems. Eu

ropean Symposium on Artificial Neural Networks, 24-26, 2002.

[2] Aiolli , F. , Sperduti, A. , Multiclass classification with multi-prototype support vec

tor machines. Journal of Machine Learning Research, 6 · :817-850, 2005.

[3] Allwein, E., Schapire, R. , Singer, Y. , Reducing multiclass to binary : A unifying approach for margin classifiers. Journal of Machine Learning Research, 1 :113-114,

·2000.

[4] Armijo, L., Minimization of functions having Lipschitz continuous first partial derivatives. Pacific Journal of Mathematics, 16 :1-3, 1966.

[5] Arondel, C. , Girardin, P. , Sorting cropping systems on the basis of their impact on groundwater quality. European Journal of Operational Research, 127 : 467-482,

2000.

[6] Baulieu, F.B., A classification of presence/absence based dissimilarity coefficients. Journal of classification, 6 :233-246, 1989.

[7] Belacel, N., "Méthodes de classification multicritère, méthodologie et applications

à l 'aide au diagnostic médicale". Thèse de doctorat en sciences, Université Libre

de Bruxelles, 1999.

[8] Belacel, N., Boulassel, M.R., Multicriteria fuzzy classification procedure PROCFTN : methodology and medical application. Fuzzy Sets and Systems,

141(2) : 203-217, 2004.

[9] Belacel, N., Boulassel, M.R., Multicriteria fuzzy assignment method : a useful tool to assist medical diagnosis. Arlificial Intelligence in Medicine, 21 : 201-207, 200l.

[10] Belacel, N., Wang, C., Richard, R. , Web integration of PROAFTN methodology for acute leukemia diagnosis. Telemedicine Journal and e-Health. 11(6), 2006.

[11] Benabbou, L. , "Modèles de classification multi-classes et multicritère". Projet de thèse, Faculté des Sciences de l'Administration, Université Laval, 2006.

[12] Benabbou, L. , Belacel, N. , Guitouni, A. , Algorithme d 'apprentissage pour inférer les paramètres de PROAFTN. Proceedings of ASAC, Québec, Canada, 2004.

Bi bliographie 89

[13] Benabbou, L. , Guitouni , A. , Belacel, N. , Une heuristique de recherche locale pour la détermination des seuils de préférence en classification multicritère. In the Pro

ceedings of MOSIM, Rabat, Maroc, 2006.

[14] Benabbou, L. , Guitouni , A. , Lang, P. , Méthodes de classificatio~ : revue de la littérature, essai de caractérisation et de comparaison. Document de travail 2004-023, Faculté des sciences de l'administration, Université Laval , Québec, Canada, . 2004.

[15] Blaszczynski, J. , Greco, S. , Slowinski, R. , Multi-criteria classification-A new scheme for application of dominance-based decision rules. European Journal of Operational

Research, 181 (3) : 1030-1044, 2007 . .

[16] Bognar, K., Aspects théoriques de la classification à base de treillis. Institut de mathématiques et informatique, Université Debrecen, 2003.

[17] Catoni, O. , Théorie statistique de l'apprentissage. Images des mathématiques, 2006.

[18] Chelbi, A., Ait-Kadi, D., Classifying equipment with respect to their import ance for maintenance: a multicriteria approach. Journal of decision systems, 11(1) :91-

108, 2002.

[19] Cormack, R.M. , A Review of Classification. Journal of the Royal Statistical Society,

A (134) :321-367, 1971.

[20] Dietterich, T.G., Bakiri, G. , Solving multiclass learning problems via error correc.ting output codes. Journal of Artificial Intelligence Research, 2 :263-286, 1995.

[21] Duda, R.O., Hart, P.E., Stork, D.G., "Pattern classification". John Wiley & Sons, 2001.

[22] Fisher, L. , Van Ness, J.W., Admissible clustering procedures. Biometrika, 58(1) :91 ,

1971.

[23] Gordon, A.D., "Classification: methods for the exploratory analysis of multivariate

data", New York: Chapman and Hall, 1981.

[24] Graepel, T., Herbrich, R. Shawe Taylor, J., Generalisation error bounds for sparse linear classifiers. Proceedings of the Thirteenth Annual conference on Computatio

nal learning Theory, 298-303, 2000.

[25] Graepel, T., Herbrich, R., Shawe Taylor, J., From margin to sparsity. Advances

in Neural Information Processing Systems, 210-216. Cambridge, MA : MIT Press,

2001.

[26] Hansen, P., Jaumard, B., Cluster analysis and mathematical programming. Ma

thematic Programming, 79 :191-215, 1997.

[27] Henriet , L., "Systèmes d 'évaluation et de classification multicritères pour l 'aide à

la décision, construction de modèles et procédures d 'affectation". Thèse de doctorat

en sciences, Université Paris Dauphine, 2000.

Bibliographie 90

[28] Herbrich, R. , "Learning kernel classifiers". MIT Press, 2002.

[29] Huard, P. , Resolution of mathematical programming problems wit h nonlinear

constraints by the method of centers. In J. Abadie, Ed. , Nonlinear Programming,

North-Holland, 206-219, 1967.

[30] Langford, J. , Thtorial on practical prediction t heory for classification. Journal of

Machine Learning R esearch, 6 :273-306, 2005.

[31] Léger, J. , Martel, J-M., A multicriteria assignment procedure for a nominal sort ing problemat ic. European Journal of Operational Research, 138(2) :349-364, 2002.

[32] Littlestone, N. , Manfred, K. , Relat ing data compression and learnability. Technical

report , University of California Santa Cruz, 1986.

[33] Mangasarian, O. , "Non-linear programming". McGraw-Hill , 1969.

[34] Marchand, M. , Notes du cours: Machine learning. Département informatique,

Faculté des sciences et génie, Université Laval, 2003.

[35] Marchand, M. , Shawe-Taylor, J. , The Set Covering Machine. Journal of Machine

Learning Research, 3 :723-746, 2002.

[36] Marchand, M. , Sokolova, M. , Learning with decision lists of data-dependent features. Journal of Machine Learning Research 6 :427-451 , 2005.

[37] Mari, J J, N apoli, A. , Aspects de la classification. Rapport technique 2909, INRIA, Juin 1996.

[38] McAllester, D. , Sorne PAC-Bayesian theorems. Machine Learning 37 :355-363,

1999.

[39] McAllester, D., PAC-Bayesian Stochastic model selection. Machine Learning 51 :5-

21 , 2003.

[40] Michalowski, W. , Rubin, S. , Slowinski, R., Wilk, S. , Mobile clinical support system

for pediatrie emergencies. Decision Support Systems 36(2) :161-176, 2003.

[41] Michie, D. , Spiegelhalter, D.J. , Taylor, C.C., "Machine learning, neural and sta

tistical classification" .New-York, Ellis Horwood, 1994.

[42] Mitchell, T. M. , "Machine Learning". WCBjMcGraw-Hill, 1997.

[43] Moscarola, J., Roy, B., Procédure automatique d 'examen de dossiers fondée sur une segmentation trichotomique en présence de critères multiples. R.A.I.R.O Recherche

opérationnelle, 11(2) :145-173, 1971.

[44] Mousseau, V. , Slowinski, R., Using assignment examples to infer weights for ELECTRE TRI method : Sorne experimental results. European Journal .Of Ope

rational Research, 130 :263-275, 200l.

[45] Murphy, P. M., Aha, D. W., UCI machine learning repository.

(www .ics. uci.eduj _ mlearnjMLRepository.html.) , 1992.

Bibliographie 91

[46] Murtagh, F., A survey of recent advances in hierarchical clustering algorithms. The

Computer Journal, 26 (4) : 354-359, 1983.

[47] Perny, P. , Multicriteria filtering methods based on concordance and non

discordance principles. Annals of operations research, 80 :137-165, 1998.

[48] Platt , J. , Cristianini, N. , Shawe Taylor, J. , Large margin DAGs for multiclass classi-. ,

fication. Advances in Neural Information Processing Systems, 547-553. Cambridge, MA : MIT Press , 2000.

[49] Roy, B. , La recherche de robustesse en recherche opérationnelle et aide à la décision. Proceedings of ASAC, Québec, Canada, 2004.

[50] Roy, B. , Bouyssou D. , "Aide multicritère à la décision". Economica, Paris, 1993.

[51] Seeger, M. , PAC-Bayesian generalization error bounds for gaussian process classificati.on. Journal of Machine Learning Research 3 :233-269, 2002.

[52] Slowinski, R., Greco, S. , Matarazzo, B., Rough Set Analysis of Preference-Ordered

Data. Rough Sets and Current Trends in Computing, 44-59, 2002.

[53] Vapnik, V.N., "Statisticallearning theory". Wiley, New York, NY, 1998.

[54] Vincent , P., "Modèles à noyaux à structure locale". Thèse de doctorat. Département d'informatique et de recherche opérationnelle. Université de Montréal, 2003.

[55] Weiss, SM., Kulikowski, CA., "Computer systems that learn, classification and pre

diction methods from statistics, neural nets, machine learning and expert systems" .

San Mateo, California Morgan Kaufman Publishers, 1991.

[56] Yu, Wei., "Aide multicritère à la décision dans le cadre de la problématique du tri:

concepts, méthodes et applications". Thèse de Doctorat, LAMSADE, Université de Paris Dauphine, 1992.

[57] Zopounidis, C., Doumpos, M., Multicriteria classification and sorting methods : A literature review. European Journal of Operational Research, 138(2) :229-246,

2002.

Annexe A

U ne revue des méthodes de classification

A.l Les méthodes d 'e classification automatique

92

Comme leur nom l'indique, ces méthodes classent automatiquement les objets , elles les regroupent en un nombre restreint de classes homogènes et séparées. «Homogènes» signifie que les éléments d 'une classe sont les plus proches possible les uns des autres. «Séparées» veut dire qu 'il y a un maximum d 'écart entre les classes. La proximité et l'écart ne sont pas nécessairement au sens de distance. L'homogénéité et la séparation

entrent dans le cadre des principes de cohésion et d'isolation de Cormack (1971).

Les méthodes de classification automatique déterminent leurs classes à l'aide d 'algorithmes formalisés. On parle aussi de méthodes exploratoires, qui ne sont pas expli

catives. Ces méthodes ont fait l'objet de plusieurs ouvrages: Benzecri, Caillez et Pages,

Roux, Celeux et al. cf; (Belacel, 1999). Les méthodes de classification automatique ont apporté une aide précieuse, notamment par leurs applications en biologie, en médecine,

en <;lStronomie et en chimie. Avant de présenter les différentes méthodes de classification,

nous rappelons la notion de dissimilarité :

Définition 20 Une fonction de dissimilarité est une fonction réelle d(k , l) positive et

symétrique, définie entre chaque paire d 'objet k et l de l 'échantillon d 'étude de taille N,

Annexe A. Une revue des méthodes de classification

telle que Vk, l: 1 ... N :

d(k , l) > 0

d(k , k)

d(k , l)

o d(l , k)

93

La distance est un cas particulier de la fonction de dissimilarité, qui respecte l'in

égalité triangulaire: d(k , l) :::; d(k , j) + d(j , l) pour k:::; j :::; l. Dans sa revue des méthodes de classification, Cormak (1971) présente les différentes propriétés algébriques

que doivent vérifier les fonctions de dissimilarité. Il propose aussi une revue de la littérature des différentes mesures de dissimilarité.

Les méthodes de classification automatique sont classées selon l'approche en ques

tion. Cormack (1971) distingue entre trois familles de méthodes : la classification hié

rarchique, le partitionnement et le groupement «Clumping». Quant à Gordon (1981) ,

il rajoute ~rois autres catégories à la taxonomie de Cormack: la classification auto ma

. tique sous contraintes, la classification automatique floue et les méthodes géométriques.

Hansen et Jaumard (1997) définissent deux autres types d 'algorithmes de classification:

les sous-ensembles, et le «Packing».

Pour présenter les méthodes de la classification automatique, nous avons retenu les deux principales catégories: les méthodes de classification hiérarchique et les méthodes

de partitionnement. La classification hiérarchique peut être ascendante ou descendante, le nombre de classes n'est pas fixé au préalable. Quant au partitionnement , c'est une classification non hiérarchique en un nombre fixe de classes. Elle se distingue par une multitude d'algorithmes exacts et d'heuristiques.

A.I.I Les méthodes hiérarchiques

La classification hiérarchique, consiste à effectuer une .suite de regroupements en classes de moins en moins fines en agrégeant à chaque étape les objets ou les groupes d'objets les plus proches. Le nombre d'objets n'est pas fixé a priori mais, sera fixé a

posteriori. Elle fournit ainsi un ensemble de partitions de l'ensemble d'objets (Celeux et

al. cf; (Belacel, 1999)). Il existe deux types de méthodes: i) les méthodes ascendantes

(algorithmes agglomératifs) , ii) les méthodes descendantes (algorithmes divisifs).

Annexe A. Une revue des méthodes de classification 94

La classification hiérarchique ascendante

Ces méthodes sont les plus anciennes et les plus utilisées dans la classification auto

matique. Supposons que nous avons N objets à classer. Les algorithmes agglomératifs

suivant cette approche , définissent d 'abord une partition initiale en N classes unit aires.

Par la suite, ils fusionnent successivement les classes jusqu'à ce que toutes les entités

soient dans la même classe. Dans chaque étape de fusion des classes, le recalcul des

dissimilarités entre les nouvelles classes est nécessaire. Le choix des classes se fait selon le critère qui caractérise la méthode.

Les méthodes suivant cette catégorie diffèrent selon le critère local choisi et selon la méthode de calcul des dissimilarités interclasses. Nous retrouvons notamment les méthodes issues de la théorie des graphes et les méthodes qui se basent sur la minimisation

des carrés des erreurs. Dans les méthodes issues de la théorie des graphes, nous retrou

vons la méthode du lien simple, du lien complet et du lien moyen. Quant 'à la deuxième

catégorie, elle regroupe les méthodes de médiane, centroïd, la méthode de Ward et la méthode de la variance. L'algorithme agglomérat if de la classification automat ique se déroule en quatre étapes (M urtagh, 1983) :

- Étape 1. Déterminer' toutes les dissimilarités inter-objets.

- Étape2. Construire une classe à partir des deux plus proches objets ou classes

(selon un critère local). - Étape3. Redéfinir les dissimilarités entre la nouvelle classe et les autres objets ou

classes (toutes les autres dissimilarités ne changent pas). - Étape 4. Retour à l'étape 2 jusqu'à ce que tous les objets soient dans la même

classe.

La formule combinatoire de Lance et William nous permet de redéfinir les différentes

dissimilarités inter-objets de l'étape 3 de l'algorithme agglomérat if. Soient i et j les deux

objets fusionnés à l'étape 2. La dissimilarité entre la nouvelle classe et n'importe quel

autre objet kest donnée par:

d (i + j, k) = a ( i) d ( i , k) + a (j) d (j , k) + bd ( i , j) + cid ( i , k) - d (j, k) 1 ( A.1 )

Les valeurs de a, b et c dépendent de la méthode de classification hiérarchique choisie.


Classification hiérarchique descendante

Dans le paragraphe précédent, nous avons vu que la classification hiérarchique as

cendante se base sur un seul critère à la fois. Ceci engendre uniquement une séparation

(méthode du lien simple) ou une homogénéité (méthode du lien complet) optimale des

classes. Ce qui risque de donner naissance à l'effet de chaînage (deux entités très dis

similaires appartenant aux points extrêmes d 'une longue chaîne, peuvent appart enir à

la même classe) ou l'effet de dissection (deux entités très similaires peuvent être dans

deux classes différentes). Pour faire face à ces deux problèmes, nous retrouvons les al

gorithmes divisifs de la classification hiérarchique descendante. Ces méthodes ont eu

moins de succès que les premières. Les algorithmes divisifs commencent par former une

seule classe qui englobe tous les objets. Par la suite, ils choisissent une classe de la partition en cours selon un premier critère local. Ils procèdent ensuite à une bipartition

successive selon un deuxième critère local des classes choisies. Cette bipart ition cont i

nue jusqu'à ce que toutes les entités soient affectées à différentes classes. Cet algorithme

divisif se déroule suivant les cinq étapes (Murtagh, 1983) :

- Étapel. Déterminer toutes les dissimilarités inter-objets. - 'Étape 2. Choisir selon un critère local une classe.

- Étape 3. Partitionner la classe choisie en deux classes suivant un deuxième critère

local. Étape 4. Redéfinir les dissimilarités entre la nouvelle partition et les autres

classes. Étape 5, Retour à l'étape 2 jusqu'à ce que chaque objet soit dans une seule classe.

Le premier critère de l'étape 2 permet de donner directement l'ordre suivant lequel

les classes doivent être partitionnées. La difficulté réside dans le critère de partition

nement. Le problème de la classification descendante revient donc à un problème de -bipartition. Ce dernier peut être modélisé, sous forme d'un graphe. Les objets à classer représentent les sommets et les poids des 'arrêts sont les dissimilarités inter-objets.

Trouver la bipartition optimale, revient donc à résoudre le problème de bicoloration du

graphe. Il a été démontré que l'unique bicoloration de l'arbre partiel maximum d 'un

graphe définit une bipartition avec un diamètre minimal (Hansen et J aumard, 1997).

Donc le problème de bipartition revient à déterminer l'arbre partiel maximum d'un

graphe. Nous retrouvons dans la littérature plusieurs algorithmes qui permettent de

traiter ce problème. Exemples: Kruskal, Dijkstra, etc.

Les méthodes suivant cette approche présentent l'inconvénient de ne produire que

des bipartitions, c'est-à-dire uniquement deux classes. Aussi, dès que le nombre d'objets

à classer est très important , le problème de l'arbre partiel maximum devient fastidieux


à résoudre.

Les méthodes hiérarchiques s'appliquent sur des petits échantillons (N < 100). Cette

restriction s'impose au niveau de l'interprétation des résultats. En effet , les méthodes

hiérarchiques produisent une hiérarchie de partitions. Cette hiérarchie est d 'autant plus

grande que l'échantillon est important. Ceci complique l'interprétation de la quantité

importante des partitions produites. D 'autre part, à chaque étape, les groupes sont fu

sionnés ou divisés et ceci de façon définitive. Ceci élimine toute possibilité de retour en

arrière ou d 'amélioration du résultat de la classification. L'interprétation de la significa

tion des classes est subjective. Les classes obtenues à l'aide du dendrogramme peuvent

être expliquées de plusieurs façons.

A.l.2 Le partitionnement

Les algorithmes divisifs et agglomérat ifs des méthodes hiérarchiques reflètent le pro

cessus naturel de l'évolution qui est le produit de séparation et de regroupement. La classification dans le domaine de la biologie, par exemple, correspond exactement au comportement de ce type d'algorithmes. Or, dans d'autres domaines, supposer qu'il y

a uniquement des séparations et des regroupements peut s'avérer restreint. Il est plus

intéressant d'être plus général pour traiter des problèmes de classification en gestion

des opérations par exemple. Les méthodes de partitionnement sont plus générales que les méthodes hiérarchiques. Le principe de cette famille de méthodes, est de trouver une

partition des objets qui optimise un critère additif donné. Cette partition est composée

d'un nombre de classes fixé au préalable.

Le problème de partitionnement se modélise généralement par un programme mathématique. La fonction objectif représente le critère à optimiser. Quant aux contraintes,

elles traduisent les règles de partitionnement à respecter. Les deux règles les plus im

portantes sont relatives au nombre de classes et à l'appartenance unique d 'un élément

à une classe donnée.

Soit l'échantillon 0 de N objets, il s'agit de trouver la partition optimale PM {Cl , .... , CM} de M classes, sous le critère additif f. Soit J l'ensemble des indices de toutes les classes possibles. La modélisation mathématique de partitionnement de l'en-

.----------~ -~ - ~ ~


semble Q en M classes se présente comme suit :

(P)

Qpt f(PM ) = I: f(Cj)Yj

St

I: Yj = M jEJ I: aijYj = 1 jEJ

jEJ

Yj E {O, 1} , j = 1. .. 1 JI

a .. = {1 si Q i E Cj ~J i : 1. .. N o si Q i rt. Cj

97

(A.2)

Plusieurs algorithmes exacts et heuristiques sont développés pour résoudre le pro

blème (P). La programmation mathématique est utilisée avec toutes ses branches en

partitionneme.nt : programmation dynamique, théorie des graphes, branch and bound,

méthodes de coupes et génération de colonnes. Cette dernière constitue l'application

la plus concrète. En effet , l'algorithme exact pour les critères de la somme des carrées

des erreurs avec la méthode de génération de colonnes de Hansen et Jaumard a fait ses

preuves dans plusieurs applications (Hansen et J aumard, 1997).

Quant aux heuristiques, les méthodes les plus répandues de partitionnement sont

celles qui visent à minimiser la somme des carrées des erreurs. Parmi ces méthodes , nous retenons : la méthode de leader, la méthode de k-means et la méthode des nuées

dynamiques (Belacel, 1999). D 'autres méta-heuristiques ont fait leurs preuves dans le

partitionnement : recuit simulé, recherche tabou, algorithD?-es génétiques et variable

neighborhood search (Hansen et Jaumard, 1997).

Les méthodes de partitionnement permettent de traiter rapidement de grands en

sembles d 'individus. Grâce à l'évolution de la puissance de calcul des ordinateurs et le

développement de nouveaux algorithmes en programmation mathématique, nous arri

vons à résoudre le problème mathématique de partitionnement avec de plus en plus de variables. Ces méthodes produisent directement une partition en un nombre de classes fixé au départ. Les classes qui forment la partition finale sont mutuellement exclu

sives. Toutefois, les techniques de partitionnement présentent un problème au niveau

du nombre de classes qui doit être fixé au départ. Si le nombre de classes n'est pas connu

ou si ce nombre ne correspond pas à la configuration véritable de l'ensemble d 'individus

(d'où le risque d'obtenir des partitions de valeurs douteuses), il faut presque toujours tester diverses valeurs, ce qui augmente le temps de calcul. C'est la raison pour la

quelle, lorsque le nombre des individus n 'est pas trop élevé, on fait appel aux méthodes

hiérarchiques.


A.2 Les méthodes de classification avec apprentis

sage supervisé

Comme leur nom l'indique, ces méthodes sont basées sur l'apprentissage supervisé.

L'apprentissage supervisé consiste à établir des règles de classification à partir des ex

périences réussies dans le passé. 'Un algorithme d 'apprentissage permet de construire

une fonction de prise de décision (un classificateur) à partir des actions déj à classées (ensemble d'apprentissage). Dans l'entrée du système de classification, nous trouvons

un ensemble d 'exemples et à la sortie un classificateur h. L'échantillon est divisé en deux ensembles : un ensemble d 'apprentissage S et un ensemble de test. Le système de

classification est basé sur un algorithme d 'apprentissage A tel que A(S) = h. L'ensemble de test permet d'évaluer l'algorithme d'apprentissage et de le valider.

Michie et al. (1994) distinguent deux raisonnements pour l'apprentissage. Le premier est le raisonnement inductif, il part du particulier vers le général. Il consiste à considérer '

un ensemble maximal de règles de classification, puis à réduire cet ensemble de règles à un sous-ensemble qui le résume au mieux. Le deuxième raisonnement est déductif, du

général au particulier, il consiste à construire les règles une à une jusqu'à obtenir une bonne description de l'ensemble d'apprentissage. Pour présenter ces techniques, nous

avons gardé les principales catégories pour traiter les problèmes de classification .selon

Weiss et Kulikowski (1991) :

- les techniques statistiques;

- l'apprentissage automatique.

Les techniques statistiques regroupent une panoplie de méthodes. Nous présentons

les techniques basées sur l'apprentissage bayésien, l'analyse discriminante et la méthode du k plus proche voisins. Dans la catégorie apprentissage automatique, nous présentons

les réseaux de neurones, les arbres de décision, et les SV~ (Support Vector Machine)

comme une technique d'apprentissage par les noyaux. Pour les autres techniques d'ap

prentissage automatique : algorithmes génétiques, apprentissage par renforcement, set

covering machine, apprentissage à base de règles, nous referons les lecteurs pour plus de

détail à : Weiss et Kulikowski (1991), Mitchell (1997), Michie et al. (1994) , Marchand

et Shawe-Taylor (2002), Herbrich (2002), Vincent (2003). Toutes ces méthodes sont basées sur l'apprentissage inductif. Pour illustrer l'apprentissage déductif, nous présenterons à la fin de ce paragraphe l'affectation par système expert. Quant aux méthodes

d'affectation multicritère, même si elles sont des méthodes de classification basées sur

l'apprentissage supervisé, vu leur manière de ' procéder nous avons jugé utile de les

mettre dans une autre partie.


A.2.1 Les techniques statistiques

Les méthodes s~atistiques sont les plus anciennes techniques d 'apprentissage pour

la résolution des problèmes de classification. Elles sont issues de l'analyse des données et supposent l'existence d 'un modèle probabiliste décrivant les données . . L'objectif de ces méthodes est de caractériser ce modèle. La littérature nous offre une multitude

de· méthodes et d 'applications statistiques (Belacel, 1999). L'objectif de ce type de

techniques est d'arriver à classer de nouveaux cas, en réduisant le taux d 'erreurs de

classification. Selon Weiss et Kulikowski (1991) , ces méthodes ont fait leurs preuves pour

des données assez simples. Dans ce contexte, nous présentons les méthodes statistiques

suivantes:

- l'apprentissage bayésien ;

- l'analyse discriminante;

- la méthode du plus proche voisin.

L'apprentissage Bayésien

Comme son nom l'indique, l'apprentissage bayésien est basé sur le théorème de

Bayes. Le problème de classification peut se traduire par la minimisation du taux d 'erreurs, ce qui peut être formulé mathématiquement en utilisant la règle de Bayes. Dans

le cadre de l'apprentissage bayésien, nous retrouvons plusieurs types de classificateurs:

classificateur optimal de Bayes, classificateur Bayes naif, classificateur de Gibbs, réseaux

bayésiens (Mitchell, 1997). Dans cette partie nous allons présenter le classificateur optimal de Bayes qui est la base des autres méthodes.

Classificateur optimal de Bayes. Deux situations se présentent pour classer un

évènementei: i) si chaque occurrence de ei est de la même classe C, alors la réponse est la classe C. ii) si les occurrences de l'évènement ei sont des classes différentes, alors

la meilleure prédiction de classe est celle qui minimise le taux d'erreurs. On choisit la

classe Ci pour l'évènement e qui apparaît le pl us pour les différentes occurrences :

P(Ci/e) ~ P(Cj/e) pour chaque i i- j (A.3)

En appliquant la formule de Bayes, la règle de la décision de classer l'événement e dans

la classe Ci peut être formulée comme suit:

(A.4)


Tout système qui classifie de nouvelles données suivant la règle de décision A.4 est

appelé classificateur optimal de Bayes. Ce classificateur maximise la probabilité qu'une

nouvelle instance soit correctement classée, pour un ensemble de données, en respect ant

la condition du théorème de Bayes et bien sûr des probabilités a priori des événements.

Théoriquement parlant , aucun classificateur ne peut battre celui ci, d 'où sa qualification

de classificateur ·optimal.

Dans cette analyse bayesienne, la difficulté se situe au niveau de la déterminat ion

. de la probabilité conditionnelle. L.'estimation de cette probabilité est le centre de la

résolution de tout problème de classification. En théorie, l'application de cette méthode

est très simple mais en pratique les valeurs des probabilités ne sont paS toujours faciles

à estimer. Chaque méthode de classification qui est basée sur la minimisation du taux d 'erreurs peut être considérée comme un cas particulier de la règle de Bayes. Toutefois ,

des compromis sont nécessaires afin d 'appliquer cette méthode (Weiss et Kulikowski ,

1991).

En guise de généralisation du classificateur optimal de Bayes, nous retrouvons le

classificateur Bayesien naïf qui simplifie l'hypothèse d'indépendance des données et

qui peut traiter avec des données manquantes. Les réseaux bayésiens se basent aussi

sur cette hypothèse simplifiée. Ils ont été largement utilisés en classification, toutefois,

ils demeurent plus des outils de représentation et de modélisation que de résolution.

L'aut re forme de l'apprentissage bayésien est le classificateur de Gibbs. Il consiste à

tirer un classificateur d'un ensemble de classificateurs prédéfinis selon une distribution

de probabilité et à classer une nouvelle instance selon le classificateur tiré (Mitchell,

1997).

L'analyse discriminante. L'analyse discriminante est le fruit des travaux de Fisher

depuis 1936. La littérature abonde d'ouvrages traitant cette approche : Tomassone,

Celeux et al., cf; (Belacel, 1999). Le but des méthodes suivant cette approche est de

produire des décisions concernant l'appartenance ou non d'un objet à une classe en

utilisant des fonctions discriminantes appelées également fonctions de décision.

La discrimination linéaire et logit. La discrimination linéaire est la forme la

plus simple des méthodes de cette catégorie. Elle présente l'avantage de pouvoir traiter

des données de très grande taille. Le mot linéaire fait référence à la combinaison linéaire

des évènements, hyperplans, qui va être utilisée afin de séparer entre les classes et de

déterminer la classe d'un nouveau cas.


La construction de 'ces hyperplans de séparation peut être effectuée en utilisant

plusieurs techniques, comme c'est le cas avec la méthode des moindres carrées et la

méthode du maximum de vraisemblance. Les hyperplans sont construits de manière à

minimiser la: dispersion des points d 'une même catégorie autour du centre de gravité de

celle-ci. L'utilisation d 'une distance est alors nécessaire pour mesurer cette dispersion. Intuitivement, nous pouvons qualifier la discrimination linéaire comme une fonction d'agrégation pondérée. Cette technique est considérée comme une méthode de classification très compacte. Le défi dans cette méthode consiste à déterminer les poids de la

somme pondérée.

Comme dans l 'analyse discriminante linéaire, les modèles logit ont recours à des

hyperplans de séparation. Ils se distinguent par le recours à des modèles probabilistes d 'erreurs plus robustes (fonctions logistiques par exemple).

La discrimination quadratique. La discrimination quadratique est la générali

sation de la discrimination linéaire. Au lieu qiIe les classes soient séparées d 'hyperplans , elles sont séparées généralement d 'ellipsoïdes. On utilise dans ce cas plusieurs métriques

(une par classe) pour mesurer la dispersion de chaque classe par rapport au centre de

gravité (Henriet, 2000).

Le choix de la métrique n 'est pas toujours évident. En effet, il s'agit de choisir la métrique qui permet d'obtenir des classes où les points d'une même classe soient les moins dispersés possible autour du centre de gravité de la classe; Ces méthodes sont

totalement compensatoires. Dans les deux cas, on constate l'utilisation de fonctions d 'agrégation complète. Comme pour les autres méthodes statistiques, cette agrégation

ne tient pas compte de l'hétérogénéité des données, ceci renforce le côté arbitraire de la

méthode.

K plus proches voisins. Weiss et Kulikowski (1991) font référence à la méthode de

k plus proches voisins comme une technique de claSsification supervisée dans le cadre des méthodes statistiques. Le principe de cette méthode est de chercher pour chaque

action à classer un ensemble de k actions de l'ensemble d 'apprentissage parmi les plus

proches possibles de l'action. L'action est alors affectée à la classe majoritaire parmi

ces k plus proches voisins.

La fixation du paramètre k est délicate, une valeur très faible va engendrer une forte sensibilité au bruit d'échantillonnage. La méthode va devenir faiblement robuste. Un k

trop grand va engendrer un phénomène d'uniformisation des décisions. La plupart des


actions vont être affectées à la classe la plus représentée. Pour remédier à ce problème,

il faut tester plusieurs valeurs de k et choisir le k optimal qui minimise le taux d 'erreurs

de classification (Henriet , 2000).

Le choix de la classe majoritaire entre les classes des voisins peut poser des problèmes

dans le cas où l'action à classer se trouve à la frontière de plusieurs classes. Pour

remédier à ce problème, on donne des poids aux voisins. Ce poids est généralement

proportionnel à l 'inverse du carré de la distance du voisin par rapport à l 'action à classer.

Une généralisation de la méthode a été proposée pour traiter le cas d 'appartenance floue

à des catégories. Cette extension floue de la méthode permet de prendre en compte la

distance comme une valeur qui n 'est plus uniquement ordinale (Henriet , 2000).

A.2.2 Les méthodes d'apprentissage automatique

Les réseaux de neurones

Les réseaux de neurones sont nés à partir de plusieurs sources : la fascination des

scientifiques par la compréhension et la simulation du cerveau humain et la reproduction

de la capacité humaine de compréhension et d 'apprentissage. Le fonctionnement d 'un

réseau de neurones est inspiré de celui du cerveau humain. Il reçoit des impulsions ,

qui sont traitées, et en sortie d'autres impulsions sont émises. Un réseau de neurones

s'exprime sous forme d 'un graphe composé de trois éléments: l'architecture, la fonction

de transfert et la règle d'apprentissage (Figure A.1).

L'architecture a trait, d'une part, à la structure du réseau en ce qui concerne le

nombre et la disposition des neurones et, d'autre part, aux caractéristiques (pondération

et direction) des arcs du réseau, aux couches d'entrées, de sorties et intermédiaires.

Le nombre de neurones des différentes couches dépend du contexte d'application. Par

ailleurs, la détermination du nombre de neurones à y associer demeure dans la plupart

du temps arbitraire. En général, les poids initiaux des arcs sont déterminés aléatoirement

et les valeurs sont modifiées par le processus d'apprentissage.

La fonction de transfert traduit le niveau d'activation d'un neurone en un état.

Le niveau d'activation d'un neurone est obtenu en cumulant l'état de l'ensemble des

entrées qui agissent sur lui. Par la suite, la fonction de transfert transforme le niveau

d'activation en une valeur binaire ou continue, identifiant ainsi l'état du neurone. Les

trois fonctions de transfert les plus utilisées sont: la fonction saut (avec ou sans seuil),

la fonction linéaire (avec ou sans seuil) et la fonction sigmoïde.


Couche d'entrée Couche cachée

Sortie

Couche de sortie (Linéaire)

FIG. A.l : Représentation d'un réseau de neurones avec une seule couche.

103


La règle d'apprentissage a trait au processus d 'ajustement des poids associés aux

arcs lorsque le réseau est en situation d'apprentissage. La réduction de l'erreur entre la valeur de sortie du réseau et la valeur initiale dans l'ensemble d 'apprentissage permet de

déterminer les paramètres (poids) du réseau. Il existe une variété de réseaux de neurones

à apprentissage non supervisé. Ces réseaux sont capables de mémoriser, ils raisonnent par analogie avec ce qu 'ils ont effectué. Pour ce type d 'apprentissage, on présente une

entrée sans aucune sortie et on laisse le réseau évoluer jusqu'à ce qu 'il se stabilise.

Il existe différents types de réseaux, selon le nombre de couches, la fonction de transfert ou l'architecture elle-même du réseau: Perceptron, Adali:ne et le réseau de

rétropropagation (Weiss et Kulikowski , 1991).

Les réseaux de neurones sont souples, ils sont capables de traiter une gamme très

étendue de problèmes. Leur résultat peut être une prédiction, une classificat ion ou

encore une analyse de clusters. Le degré de résolution est assez élevé. Ils donnent de

bons résultats , même dans des domaines complexes; ils sont beaucoup plus puissants

que les techniques statistiques ou les arbres de décision. Les techniques des réseaux de

neurones s'adaptent facilement à plusieurs types de variables et ils sont intégrés dans

plusieurs supports informatiques (4 Thought, Saxon, Neural connection, Clementine,

Intelligent Miner, SAS, etc.).

Les réseaux de neurones ont des problèmes au niveau du codage des entrées. Toutes

les entrées doivent se trouver dans un intervalle défini, en général, entre 0 et 1. Ce qui entraîne des transformations et risquent de fausser les résultats. La lisibilité au niveau

des résultats n'est pas satisfaisante dans la mesure où l'on ne peut avoir accès à des explications claires des résultats obtenus. Pour assurer de bons résultats , le nombre

d'exemples doit être très grand puisqu'il tient compte du nombre d'entrées, du nombre

de couches et du taux de connexion. Au niveau de la performance, le réseau peut

paraître optimal . d'une façon globale, mais il n 'est pas toujours la meilleure solution. Enfin le nombre de calculs à effectuer pour définir un réseau optimal peut être très consommateur de puissance, ce qui peut donner de mauvaises performances à cette

technique.

Les arbres de décision

Les arbres de décision ont pour objectif la classification et la prédiction. Leur fonc

tionnement est ba~é sur un enchaînement hiérarchique de règles exprimées en langage courant. Un arbre de décision est composé d 'un nœud racine par lequel entrent les don

nées, de nœuds feuilles qui correspondent à un classement de questions et de réponses


qui conditionnent la question suivante.

La mise en place d 'un arbre de décision consiste à préparer les données par la suite

à créer et valider l'arborescence. Il s'agit d 'abord de définir la nature, le format des variables et leur méthode de traitement. Ces variables peuvent être non ordonnées ou encore continues. Dans le cas de l'existence d 'une base de règles simple et limitée, la construction de l'arbre se fait en interaction avec le décideur, en validant les arborescences une à la fois jusqu'à la détermination de l'affectation. C'est un processus -inter

actif d 'induction de règles qui permet d 'aboutir à une affectation bien justifiée. Mais , en général la création et la validation de l'arborescence se passe selon l'algorithme de calcul choisi. Il existe différents algorithmes développés pour appliquer cette technique: CART, C4.5 et CHAID (Henriet , 2000). Un autre critère de segmentation est l' entropie star qui est une généralisation floue de l'entropie de Shànnon. L'utilisation de ce cri

tère permet la construction d 'arbre de décision flou par une méthode dérivée de C4.5. L'affectation à une catégorie est alors calculée à l'aide d 'une probabilité conditionnelle

floue définie au niveau de chaque branche de l'arbre (Henriet , 2000).

Les avantages procurés par les arbres de décision sont leur rapidité et , surtout , leur facilité quant à l'interprétation des règles de décision. La clarté des règles de décision facilite le dialogue homme-machine. Ce sont des méthodes non paramétriques qui ne font aucune hypothèse sur les données. Ils peuvent traiter des ensembles d 'apprentissage avec des données manquantes. Cependant, les arbres de décision ont une faiblesse au niveau de la performance et le coût d'apprentissage. Ils deviennent peu performants et très complexes lorsque le nombre d 'attributs et de classes augmente. En effet , ils risquent de devenir trop détaillés, ce qui leur fait perdre un peu de leur lisibilité ou encore d'aboutir à de mauvais classements et d'augmenter le coût d'apprentissage.

Apprentissage par les n~yaux

Ce type d'apprentissage est parfaitement adapté pour les problèmes de classification. L'objectif des techniques d'apprentissage avec les noyaux est de réduire la complexité des algorithmes d'apprentissage. Cette réduction se passe via la minimisation du temps de calcul. Elle consiste à introduire les noyaux qui permettent de réduire le nombre d'opérations, notamment au niveau du produit scalaire dans le calcul des distances, quand nous avons un vecteur d'entrée de dimension assez importante (Herbrich, 2002).

Afin de formuler le problème de classification, nous introduisons les fonctions paramétriques qui permettent de transformer chaque cas (vecteur d'entrée dans le système) x E X en un nombre réel positif. La fonction fi va exprimer notre croyance que x cor-


respond à la sortie réelle dans l'ensemble d 'apprentissage. Pour simplifier les calculs,

cette fonction doit être linéaire :

N

fi(X) = L WjXj j=l

(A.5)

Pour déterminer la valeur de chaque fi, il faut trouver la valeur du vecteur des

paramètres w.

Soit <P = (<Pl, <P2 , ........ , <pn) E "" un vecteur de caractéristiques qui permet de trans-former chaque vecteur d 'entrée x de dimension N en un nouveau vecteur <t>(x) avec une

dimension plus faible m < N. Donc, nous effectuons un changement de variable avec un changement de repère.

Le vecteur de paramètres W peut s'exprimer sous forme d 'une combinaison linéaire

des vecteurs caractéristiques de l'ensemble d'apprentissage de dimension m (Xl, X2, .... ,Xm ) :

m

W = L Œi<P(Xi) (A.6) i=l

La fonction f peut être exprimée sous forme d'une combinaison linéaire de produit

scalaire dans l'espace des caractéristiques <P.

m N m

f(x) = L Œi L <Pj (Xi)<Pj (x ) = L Œik(Xi, x ) (A.7) i=l j=l i=l

Au lieu de calculer le produit scalaire <t>(x).<p(x') , il suffit de calculer uniquement la

fonction k(x, x') appelée Noyau. La fonction linéaire f est appelée classificateur noyau, elle a comme paramètre Œ E }Rm.

De manière générale, la technique du noyau consiste à choisir d'abord un noyau

k(x, x'). Par la suite, il s 'agit d 'utiliser un algorithme d 'apprentissage (comme le plus

proche voisin, ou le perceptron dual), sur un échantillon d'apprentissage de m exemples

X, pour se construire un classificateur h dont la valeur de sortie h (x) est donnée par :

m

h(x) = LŒik(Xi'X ) (A.8) i=l


Ce classificateur est un classificateur linéaire dans un espace de caractéristiques '" si et seulement si il existe un <P tel · que :

m

k( x, x') = <P( x). <p(X') = L <Pi (x). <Pi (x') (A.9) i=l

La condition A.9 s'appelle la condition de Mercer, et le noyau qui respecte cette condition est appelé noyau de M ercer.

Ainsi, l'introduction du noyau comme une fonction symétrique facilement calculable entre deux éléments, permet d'éliminer tous les calculs relatifs aux produits scalaires

entre les éléments. Un produit scalaire qui se trouve dans toutes les méthodes qui utilisent les distances. D 'autre part , le passage du vecteur simple x aux vecteurs de ca

ractéristiques <P permet de passer d 'un classificateur non linéaire dans l'espace d'entrée

à un classificateur linéaire dans l'espace des caractéristiques, dans le cas où le noyau

choisi satisfait la condition de Mercer. L'objectif de réduire la complexité de l'algorithme

doit être atteint tout en assurant la performance de l'algorithme. Cette performance

se mesure en terme de minimisation des erreurs de la classification de l'ensemble d ' apprentissage. Ainsi, les techniques d 'apprentissage par noyau essayent de minimiser la complexité des algorithmes d 'apprentissage et d'augmenter la performance du classifi

cateur résultant. Dans cette partie, nous allons présenter la méthode Support Vector Machine (SVM), comme une application directe de l'apprentissage par noyaux.

Support Vector Machine. Les SVMs traitent la classification binaire (deux classes). Soit S l'échantillon d'apprentissage composé de vecteurs d'entrée Xi' La classification

de ces vecteurs est connue au préalable. Elle est représentée par le vecteur de sortie

Yi = {-l , 1}. Donc, il suffit de connaître le signe du classificateur pour déterminer la classe de l'exemple. Si S est de dimension m, alors la valeur de sortie du classificateur

binaire h est donnée par :

m

h(x) = signe(L ŒiYik(Xi, x )) (A.10) i=l

Ayant choisi un noyau de Mercer, l'algorithme d 'apprentissage pour les SVMs consiste

à trouver l'hyperplan de marge géométrique maximale qui sépare les données dans l'es

pace des caractéristiques (voir figure A.2 tirée de (Vapnik, 1998)). Vapnik a été le pre

mier à avoir introduit les notions d'hyperplan dans l~s algorithmes vecteurs de support

(Her brich, 2002).


Classe: 1

Hyperplan ---. ......

+ + +++ +

+ +

..

Marge .. " ~éométrique

Classe: -1

FIG. A.2 : Représentation de l'hyperplan séparant linéairement les données dans l'espace des caractéristiques

108

_____ - ___ _ __ ___�


Pour déterminer l'équation de l'hyperplan, on modélise le problème sous forme d 'un

programme mathématique qui maximise la marge géométrique entre les données , tout

en tenant compte de la nécessité de la bonne classification de l'ensemble d 'apprentissage.

L'efficacité de l'algorithme SVM est due au fait qu 'il combine deux idées pertinentes.

La première est le changement de repère et des variables d 'entrée vers un autre .es

pace de caractéristiques. Ce double changement permet de simplifier la const ruction de classificateur non linéaire en utilisant uniquement les hyperplans dans l'espace des

caractéristiques. L'idée seconde est de construire des hyperplans de séparation, dans

l'espace des caractéristiques avec la marge géométrique la plus large possible (Vapnik,

1998; Marchand et Shawe-Taylor, 2002; Herbrich, 2002). D 'un autre côté, l 'approche

des SVM se base sur des fondements statistiques, une théorie bien enracinée dans le

temps, qui arrive à justifier aisément ses propos.

Les SVMs sont en pleine expansion ces dernières années. Nous retrouvons plusieurs

supports informatiques conviviaux sur le marché qui permettent l'utilisation de cette

méthode. Pour intégrer le cas de traitement de données dans un contexte d 'incertitude,

il existe un essai de traitement flou de la marge géométrique. Cependant, au niveau de

la résolution du programme mathématique il y a encore des améliorations à apporter.

Il serait profitable de développer des heuristiques ou d'autres techniques d 'optimisation

mathématique pour résoudre le problème de maximisation de la marge. D 'un autre côté,

les SVMs présentés traitent la classification binaire. Dans le cas mult,i-classes (n > 2) ,

Vapnik (1998) a proposé de construire n classificateurs binaires en procédant par dicho

tomisation. Chaque classificateur discrimine à chaque fois une classe des autres. Par la

suite, on construit le classificateur, de n-classes en choisissant la classe qui correspond

à la valeur maximale des classificateurs.

A.2.3 Affectation déductive

Système expert

Contrairement aux méthodes précédentes basées sur le raisonnement inductif, l'af

fectation par système expert utilise un raisonnement analytique avec, des inférences

déd ucti ves. On essaie par cette méthode de transformer les connaissances sous la forme

désirée par l'utilisateur. Weiss et Kulikowski (1991) ont définit le système expert comme

étant un modèle informatique qui reproduit le raisonnement et les conclusions d'un ex

pert humain face au même problème. Les connaissances sont représentées par une base

de règles et une base de faits. Les règles peuvent être interprétées comme des conditions

pour déclencher une action donnée. ~es règles sont déterminées par une expertise et


non par des exemples comme c'est le cas dans les arbres de décision. La base de faits

contient des assertions, elle représente une connaissance relevant du cas particulier de l'individu à traiter. Il arrive que plusieurs règles soient simultanément applicables à un état donné de la base de faits, il faut donc choisir. Ce choix est réalisé par un module particulier du système expert. Ce module doit aussi savoir reconnaître quand il faut arrêter le processus. On définit pour cela une condition d'arrêt. Cette partie du système expert s'appelle la structure de contrôle (Lévine et Pomerol, cf; (Belacel, 1999)).

L'affectation des individus aux différentes classes se fait à l'aide de la base de règles, le système cherche l'ensemble des règles applicables en effectuant un choix, puis il applique la règle choisie et recommence le cycle. Le processus s'arrête lorsque le but est atteint ou lorsqu'il n'y a plus de règles applicables. Ce traitement est appelé moteur d 'inférence. Il n'est pas toujours évident pour l ' exp~rt d 'exprimer sa connaissance, ce

qui constitue l'un des inconvénients de ces systèmes. Notons aussi que le nombre de règles est énorme pour la plupart des applications pratiques, et les variables doivent

être qualitatives. Toutefois, Les systèmes experts présentent l'avantage d 'exprimer des connaissances certaines et . précises.

A.3 Les méthodes de tri multicritère

Dans cette partie, nous allons aborder la classification du point de vue aide multicritère à la décision. La classification en aide multicritère à la décision se situe dans le cadre de la problématique de tri. La problématique de tri consiste à affecter les actions à des catégories caractérisées par des actions de référence. Roy et Bouyssou (1993) définissent cette problématique comme suit :

"Elle consiste à poser le problème en terme de tri des actions par caté

gorie, celles-ci étant conçues relativement à la suite à donner aux actions

qu'elles sont destinées à recevoir, c'est-à-dire à orienter l'investigation vers une mise en ,évidence d'une affectation des actions de A à ces catégories en

fonction de normes portant sur la valeur intrinsèque de ces actions et ce,

compte tenu du caractère révisable et/ou transitoire de A; cette probléma

tique prépare une forme de prescription ou de simple participation" .

Bana e Costa distingue entre deux situations de la problématique de tri (Léger et Martel, 2002) :

- Problématique du tri ordinal. Les catégories sont ordonnées, elles sont caractéri-


sées par des actions de référence (profils) limites. Ces profils limites définissent les frontières de la catégorie. Une action est affectée à une catégorie si elle est jugée

entre les frontières de la catégorie.

- Problématique du tri nominal. Les catégories sont non ordonnées, elles sont ca

ractérisées par des actions de référence centrales. Une action est affectée à une

catégorie, si elle est jugée semblable à au moins une action du profil central.

En aide multicritère à la décision, Roy et Bouyssou (1993) distinguent entre trois approches opérationnelles: i) l'approche du critère unique de synthèse, ii) l 'approche de

surclassement de synthèse et iii) l'approche du jugement local interactif. L'approche du critère unique de synthèse, attribuée à l'école anglo-saxonne, consiste à déterminer une

fonction de valeur ou d 'utilité qui représente les préférences du décideur. Le ·concept de surclassement de synthèse, attribué à l 'école francophone , se base sur l'introduction de

la relation de surclassement qui permet de juger deux actions lors de la comparaison

par paire. L'approche du jugement local interactif consiste à progresser avec le décideur

sur la base d 'alternance entre étapes de calculs et étapes de dialogue. Dans le cadre de

ce document, nous nous intéressons aux méthodes d'affectation multicritère discrètes représentées par les deux premières approches: critère unique de synthèse et surclas

sement de synthèse. En complément de ces deux approches, nous présentons à la fin

de cette section une adaptation de la théorie des ensembles approximatifs pour le tri multicritère.

A.3.1 Approche du critère unique de synthèse

UTADIS : Utilités Additives Discriminantes

La méthode UTADIS a été développée initialement par Jacquet-Lagrèze en 1995, et

améliorée par Zopounidis et Doumpos en 1999 (Zopounidis et Doumpos, 2002). UTA

DIS est une méthode de tri ordinal qui fait appel à l'agrégation par fonction d'utilité

pour classer les actions. Elle établit un modèle global' d'utilité additive pour classer un

ensemble d'alternatives dans des classes prédéfinies avec un minimum d'erreurs. Les

préférences du décideur doivent être des fonctions monotones sous l'échelle d'évaluation

des critères.

Les seuils d'utilité ont été introduits pour décider de l'affectation des actions aux classes selon leur utilité globale. L'objectif d ' UTADIS est de déterminer les utilités partielles et les seuils d'utilité en minimisant les erreurs de classification entre les classes

déterminées par la méthode et celles données par le décideur. Ce problème a était


modélisé sous forme de programme mathématique linéaire.

UTADIS est accompagnée en général d 'une analyse post-optimale. On y analyse la sensibilité des utilités partielles. Ceci permet d'avoir une idée de la sensibilité des seuils d 'utilité. L'autre version de la méthode, UTADIS l, intègre la notion de distance par

rapport aux classes correctes dans sa fonction objectif. Ces méthodes ont eu plusieurs

applications, plus particulièrement en finance. UTADIS est disponible sur PREFDIS ,

un DSS (Decision Support System) développé par Zopounidis et Doumpos (2002).

La méthode UTADIS , repose sur la construction de la fonction d 'utilité, ce qui lui

assure une forte axiomatisation. En effet , la fonction d 'utilité, ou de valeur, suppose que les préférences vérifient les axiomes de Von-Neuman Morgen'sterm (existence d 'un ordre complet , transitivité, continuité, réduction des loteries composées, substitut ion).

Cette approche exclut toute incomparabilité et fournit un résultat très intéressant mais

qui ne reflète pas réellement les préférences du décideur.

Dans la méthode UTADIS , tous les critères sont mesurés par des échelles cardinales, une telle échelle ne reflète pas toujours la réalité des données. L'application d 'UTADIS

est basée sur le principe d 'agrégation complète. Une agrégation qui n 'est pas toujours justifiée dans le cas de plusieurs points de vue hétérogènes et conflictuels. UTADIS exige

la monotonie des fonctions des préférences du décideur. Une hypothèse mathématique très forte, qui permet de manipuler facilement les fonctions d'utilités partielles, au prix

de la considération des préférences réelles du décideur convenablement raisonnées.

A.3.2 Approche de surclassement de synthèse

Procédure Trichotomique de segmentation

Les travaux de Roy et de Moscarola (1971) ont été à l'origine de cette méthode. C 'est une procédure de choix dans laquelle on essaie d'affecter les actions à trois caté

gories selon les recommandations qu'on pourrait donner à un décideur. Ainsi , les actions

ayant des raisons suffisamment importantes pour être recommandées à un décideur sont

affectées à la catégorie Cl , celles qui ont des raisons importantes pour ne pas être re

commandées au décideur vont être affectées à la catégorie C3 , et les dernières qu'on ne

peut affecter ni à Cl ni à C3 vont être affectées à la catégorie C2 (Belacel, 1999).

Cette méthode fait appel à une relation de surclassement floue. Elle va prendre des valeurs dans l'intervalle [0, 1]. 1 correspond à un surclassement certain et 0 à une


absence totale de surclassement. Cette relation floue fait appel aux niveaux de coupe

qui sont fixés par le décideur.

Le principe de fonctionnement de cette procédure est d 'établir des profils limites

B = {b1 , ..... , bl } et C = {Cl , ........ , Ck} qui sont respectivement les bornes inférieures

de Cl et supérieures de C3 puis de déterminer les degrés de surclassement , S, de x avec les profils B et C. On note :

S(x, b)

S(b*,x )

S(c, x)

S(x, c*)

l rpax S(x, bi )

2=1

l rr!ix { S (bi , x) / bi 1: b}

l rpax S(Ci x)

2=1

l rpax { S ( x, Ci ) / Ci 1: b} 2=1

(A. 11)

Les actions sont affectées selon le résultat de la comparaison de chaque degré de

surclassement avec les seuils fixés au préalable pour chaque classe (Moscarola et Roy,

1971).

nTOMIC

La procédure nTOMIC permet de classer des actions suivant des catégories ordon

nées. Issue des travaux de Ostanello et Massaglia, cette méthode est basée sur l 'utilisa

tion de deux profils fictifs b et C qui n 'ont pas de 'signification réelle en terme d'actions,

mais ils correspondent respectivement à une action jugée comme bonne et une autre

comme mauvaise sur tous les critères. Pour faire face au manque d 'information et à la

mauvaise détermination des évaluations, cette procédure introduit des seuils de discri

mination s et d'indifférence q (Belacel, 1999).

A chaque évaluation des profils pour chaque critère, on trouve un seuil d 'indiffé

rence et un seuil de discrimination. A partir des seuils, on définit respectivement deux

sous-ensembles goodness et badness. Ces sous-ensembles de critères confirment respec

tivement que l'action est bonne ou mauvaise. L'appartenance d'un critère donné à ces

sous-ensembles est déterminée par l'indice de goodness dj ( x) et de badness D j ( x) ; leurs

valeurs sont calculées à partir de l'évaluation de l'action x sur le critère j suivant la

courbe de la figure A.3.

Pour obtenir des indices globaux sur tous les critères de badness et de goodness,

deux approches d 'agrégation ont été proposées: une compensatoire et une autre non


~(x)

FIG. A.3 : Fonctions de goodness et de badness de nTOMIC


compensatoire. La fonction d'affectation est basée uniquement sur les indices globaux et

sur les seuils. Les catégories sont définies par une partition du plan (d , D) , en plusieurs

régions allant de bon jusqu'à mauvais.

Electre Tri

Due à Yu (1992), Electre tri est une méthode de tri ordinal. Chaque catégorie est

représentée par un profil limite supérieur et inférieur. Pour chaque action de référence bi,

on connaît son seuil d 'indifférence Pj , de préférence qj et de veto Vj pour chaque critère. Elect re tri se déroule en deux étapes principales. La première consiste à construire ·la

relation de surclassement valuée et la deuxième est la procédure d 'affectation.

La construction de la relation de surclassement se base sur les notions de concordance

et de discordance. L'indice de concordance global de l'action a avec l'action de référence

bh : C(a , bh ) exprime dans qu~lle mesure les évaluations de a et de b sur tous les critères sont en concordance avec « a surclasse b». L'indice de discordance partiel sur un critère donné exprime dans quelle mesure le critère en question s'oppose à la proposition « a

surclasse b».

Les degrés de crédi bili té entre chaque action et l'action de référence (as ( a, bi) , a s (bi

, a) ) sont calculés à partir des indices de concordance globaux et de discordance. Ce degré de crédibilité représente une relation de surclassement floue. Elle est transformée par la suite en relation nette en utilisant une valeur de coupe À.

La deuxième étape est la procédure d'affectation. Cette affectation est le résultat

du jumelage de deux procédures. la première conduit à une affectation pessimiste, la

seconde conduit à une affectation optimiste. Ce sont deux procédures de filtrage res

pectivement conjonctif et disjonctif (Roy et Bouyssou, 1993). L'utilisation de ces deux procédures permet de gérer les situations d'incomparabilité. Ainsi, on aura deux at

titudes vis à vis de l'incomparabilité. Une attitude pessimiste qui consiste à affecter l'action à la plus mauvaise catégorie dont l.a borne supérieure est incomparable, et

une attitude optimiste qui affecte l'action à la meilleure des catégories dont la borne

inférieure est incomparable.


Filtrage Flou

Perny (1998) a introduit une approche générale avec indifférence floue et une rela

tion de préférence stricte construite en utilisant le principe de concordance et de non

discordance. L'idée de base derrière sa méthode est le filtrage flou. Il définit le filtrage

des actions comme étant la comparaison des actions à des points de référence afin de

décider à quelle catégorie (classe) elles vont appartenir.

Il considère deux types de filtrage :

- Filtrage flou par préférence stricte (FFP) : la règle d'affectation consiste à tester

quant est-ce qu'une action est préférée ou non à un point de référence qui reflète la limite inférieure de la catégorie.

Filtrage flou par indifférence (FFI) : dans ce cas, la règle d'affectation consiste à

tester quand est-ce qu'une action est indifférente ou non à un point de référence

qui représente un prototype de la catégorie.

Perny (1998) a largement étudié les méthodes de rangement basées sur des méca

nismes d'agrégation des relations de préférences floues. En 1998, il a proposé la méthode

FFP qui utilise une relation de préférence floue. Cette méthode traite la problématique

du tri ordinal et construit une relation de préférence floue binaire valuée dans [0 , 1].

Les catégories sont supposées ordonnées en ordre décroissant et chaque catégorie est

représentée par deux frontières supérieure et inférieure Yk et Yk - 1 , en supposant que la

frontière supérieure d'une classe est la frontière inférieure de la classe qui vient après.

L'action x est affectée à la catégorie Ct si et seulement si elle est préférée à au moins

un élément de Yk sans pour autant être préférée à aucun élément de Yk - 1 .

Quant à la méthode FFI, elle a été proposée initialement par Perny (1998) et amé

liorée par Henriet (2000). Elle traite la problématique du tri nominal. L'affectation des

actions aux différentes catégories se fait graduellement à partir d'une relation d'indif

férence des actions à chaque prototype qui caractérise la catégorie. La relation d'indif

férence floue est construite à partir d'un sous ensemble flou concordant et discordant

caractérisé par des seuils de concordance flous et des seuils de discordance flous. Une fois

les indices de concordance et de discordance de chaque action par rapport à un critère

donné sont calculés, on les agrège pour obtenir un indice global. Lorsqu'une action est

indifférente à un prototype d'une catégorie donnée, on affecte l'action à cette catégorie.


PROAFTN : PROcédure d'Affectation Floue dans le cadre de la problématique du Tri Nominal

PROAFTN détermine la classe d'affectation d'une action à partir des relations de

ressemblances floues déterminées par les indices de ressemblance (Belacel, 1999). La

procédure PROAFTN se caractérise par une affectation graduelle des actions aux différentes classes. Cette méthode peut combiner les deux types d 'apprentissage: déduct if

et inductif, ce qui n 'est pas le cas des autres méthodes. Comme son nom l'indique, cette

méthode traite la problématique du tri nominal, chaque classe est caractérisée par un

ensemble de prototypes. PROAFTN traite les problèmes avec des données de nature

qualitative ou quantitative.

Dans un premier temps, PROAFTN détermine l'indice de concordance Cj(a , br ). C'est le degré avec lequel le critère gj est en concordance avec l'indifférence de l'action

a par rapport à l'un des prototype i de la classe h : b? Pour tenir compte de l'indifférence

faible on introduit à ce niveau les seuils de discrimination q;(b7) et qt(b?). Dans un deuxième temps, on calcule l'indice de discordance Dj(a, b7) qui exprime le degré de discordance avec l'indifférence de l'action a par rapport au prototype b7 en utilisant les seuils de veto.

En appliquant le principe de concordance et de non-discordance, nous déterminons l'indice d 'indifférence de l'action a par rapport au prototype b? :

(A.12) j j

En calculant cet indice sur tous les prototypes de la classe h, nous pouvons déterminer l'indice d'appartenance global, de l'action a par rapport à la classe h tel que:

d(a, Ch) = max {I(a , b~), .... , I(a, blh)} (A.13)

La décision d'affectation s'annonce comme suit:

avec k = l. .. K (A.14)

Il existe d 'autres variétés de la méthode, PROCTN et PROCFTN, ce sont deux procédures de choix dans le cadre de la problématique du tri nominal. La famille des

méthodes a eu beaucoup de succès, notamment dans le diagnostic médical. Nous re

tenons l'application pour le diagnostic des leucémies aigues, des tumeurs de cerveau


et plus récemment , nous trouvons l'application de PROAFTN dans le diagnostic de

l'asthme (Belacel, 1999; Belacel et Boulassel, 2004, 2001 ; Belacel et aL , 2006).

L'analyse de la méthode PROAFTN nous permet de constater l'existence d 'une

procédure floue d'affectation multicritère avec un nombre illimité de catégories. Elle

combine les deux techniques d 'apprentissage inductif et déductif, tout en assurant une interaction avec le décideur afin de déterminer les paramètres. Cette interaction est très

importante dans un processus de décision. Seulement ,- le nombre de paramèt res que

doit déterminer le décideur augmente d 'une manière très rapide avec l'augmentation du nombre des classes et du nombre des critères. Ceci constitue le point faible de cette méthode, qui est généralisé pour les autres méthodes d 'affectation multicritère.

TRINOMFC : TRI NOMinal basé sur des Fonctions Critères

Développée par Léger et Martel (2002), TRIN 0 MFC est une méthode de tri nominal. Elle se base sur une extension de la notion de critère en lui introduisant une fonction , pour chaque critère, donnant la préférence du décideur pour une action par

rapport à une autre action. Elle fait appel aux indices de similarité au lieu des seuils de

concordance et de discordance. Contrairement à la dissimilarité, la similarité exprime

la proximité, pas nécessairement au sens de distance entre deux éléments. Ainsi, la

similarité entre l'objet et lui-même est égale à 1.

La première étape de TRINOMFC, consiste à choisir une des fonctions de critères

proposées par Léger et Martel (2002). Ces fonctions constituent une adaptation des fonctions de PROMÉTHÉE. À partir des fonctions de critères et des seuils de similarité

et de dissimilarité, nous calculons l'indice de similarité local SI;(a, b;) pour chaque prototype b;, pour chaque classe h et pour chaque critère j. La troisième étape consiste

à calculer l'indice de similarité global de chaque action a par rapport au prototype de . la classe h : SIh(a , b;).

La quatrième étape détermine l'indice d'appartenance de l'action a à la catégorie

Ch : h= 1, ... K. (A.15)

À partir de ce degré, nous pouvons formuler la décision d'affectation de la méthode


TRINOMFC:

(A.16)

TRINOMFC est une méthode très simple. Grâce aux indices de similarité, elle ne

fait appel à aucun seuil de discordance ni de veto. Contrairement aux autres méthodes d 'affectation multicritère, TRINOMFC se base sur la similarité entre l'objet à classer et les prototypes des classes, au lieu des préférences.

A.3.3 Ensembles approximatifs (Rough sets)

La théorie des Rough sets, traduite par la théorie des ensembles approximatifs, a été introduite par Zdzislaw Pawlak au début des années 80. Elle fournit les outils nécessaires

pour induire des règles à partir de données et pour mener à bien l'analyse des décisions

et des données imparfaites. C 'est un cadre mathématique, à la fois riche et simple, pour des recherches dans différents domaines tels que la médecine, l'aide à la décision,

le marketing. Les informations imparfaites peuvent causer la non distinction entre les

objets. Cette relation de non distinction implique un espace approximatif à partir des

classes d 'équivalence des objets non distingués. Les ensembles approximatifs sont une

approximation supérieure et inférieure d'un ensemble en terme des classes d'équivalence (Blaszczynski et al., 2007).

Une extension de la théorie classique en classification multicritère est l'approche

basée sur la dominance: Dominance Rough Sets Approach (DRSA) (Slowinski et al. ,

2002). Cette approche se base sur la construction d'une base de règles. On considère

un ensemble de données classées au préalable. À partir de cet ensemble, la DRSA

construit un modèle de préférences du décideur qui est tout simplement la base de

règles. Cette dernière permet d'expliquer les décisions de classification antérieures, et

de classer de nouvelles données qui se présentent. La syntaxe des règles de décision: «si condition alors décision» permet de traiter des données hétérogènes (quantitative et qualitative, ordonnées ou non-ordonnées, échelle de mesure de préférence ordinale ou

cardinale). Elle permet aussi de traduire les préférences du décideur et l'incomplétude

dans les données. Ainsi la DRSA est adaptée au contexte de classification multicritère et s'accorde avec les approches de critère unique de synthèse ou de surclassement de

synthèse. La classification est la recommandation issue de la base de règles (Blaszczynski

et al., 2007).-


U ne des applications concrètes des roughs set en classification est la conception et le développement d'un système mobile de triage aux urgences de l'hôpital pédiatrique de l'Est de l'Ontario. Installé sur un ordinateur de poche, ce système aide au diagnostic des douleurs abdominales chez les enfants quelque soit la nature de l'information disponible (Michalowski et al., 2003).

Annexe B

Complément de preuves ma.thématiques du chapitre 3

121

B.I Principe de réduction des cas d'erreurs de clas

sification

Preuve de la proposition 1. L'image de chaque variable indépendante multi-variée

de Bernoulli dans C x y par la fonction a est une variable indépendante multi-variée

de Bernoulli sur K. La probabilité associée en découle directement.

B.2 Borne sur l'ensemble de test

Preuve de la proposition 3 (ii). Soit p un vecteur de probabilité tel que F(p; r) > 6.

Considérons :

p(t) = (1 - t)p + tes, t E [0 , 1]

Comme F(p(O); r) > 6 > F(p(l); r) et comme F(.; r) est continue, il existe un a E (0 , 1) tel que F(p(a); r) = 6. Comme qTp(t) > .qTp est strictement croissante en t , qTp(a) > qT p. Donc p n'est pas optimale pour 3.1.

Annexe B. Complément de preuves mathématiques du chapitre 3

Preuve de la proposition 4.

SUP{3 { f3 1 SUPPEV({3 ) {F(p; r)} 2: 8} SUP{3 ,p {f3 1 pEU, qT P 2: f3, F(p; r) 2: 8} Supp {qTp 1 p E U, F(p;r) 2: 8} El (r , 8)

122

Preuve de la porposition 5. Soit p > O. Définissons D(p) = Diag(p )-1. Nous avons

donc \lk E K :

( i) f (p; k) > 0 (ii) \1 pf(p; k) = f(p; k)D(p)k (iii) \l~pf(p; k) = f(p; k)D(p) [-Diag(k) + f(p ; k)kkT] D(p)

Alors, \Ir E [0 , 1] :

( i v ) F (p; r) > 0

(v) gr(P) ~ \lpF(p; r) = D(P)f!r(P), avec f!r(P) = LkEKr f(p; k)k (vi) Hr (p) ~ \l~pF(p; r) = -Ar(p) + gr (p)gr (p)T , avec

Ar(P) = D(p)Diag(f!r(p))D(p) (une matrice diagonale)

La fonction F est pseudo-concave en p sur IR~+ si et seulement si pour chaque

p E IR~+ et pour n'importe quelle variation admissible dp (telle que p + dp E IR~+) nous avons:

Soit s' = max {i Il :S i :S s, qi :S nr} . Il est clair que:

et inversement :

ce qui implique avec (i) que (f!r(P))i > O.

Donc, pour n'iqlporte quelle variation admissible dp telle que dPi = 0, Vi :S s' , nous

avons: f(p + dp; k) = f(p; k)\lk E Kr, donc F(p + dp; r) = F(p; r)

Annexe B. Complément de preuves mathématiques du chapitre 3 123

Considérons maintenant le cas alternatif d 'une variation admissible dp telle que

dpi i= 0 pour certains i :s; s'.

Comme F(.; r) est doublement continue et différentiable,

F(p + dp; r) F(p; r) + gr(pf dp + ~dpT Hr(p)dp + o(lldpl12)

F(p; r) + gr (p)T dp + ~ (gr (p)T dp)2 - ~dpT Ar (p) dp + o(lldpI12)

À partir de l'hypothèse précédente, _~dpT Ar (p) dp < O. En plus, gr (p)T dp+~ (gr (p)T dp) 2 :s; o pour n 'importe quelle dp telle que 0 :s; -gr (p)T dp :s; 2. Cette dernière inégalité est vé-

rifiée en choisissant Ildpll finie mais suffisamment petite. Il en découle que F(p + dp' r) :s; F(p; r) dans un voisinage ouvert de p. Par t ransitivit é, cette inégalité est vérifi' e pour

n 'importe quelle variation admissible dp.

Preuve de la proposition 6. Considérons la fonction génératrice des moments

fj, [T Î< 1 (",,8 !!.J.. ) n M(B;p)==E e () n Ip = ~t=lPten ,

D'un côté nous avons

aM (B; p) !!i (",,8 !!1.) n-l --- =Pie n ~ pte n

aB i . t=l

D'ou

D 'un autre côté

a2M(B;p) _ n - 1 ( !!i.) ( . !!i.) (",,8 !!1. ) n-2 { Ipie~ (L:=lPte~ ) n- l ---- - -- Pie n Pje n ~ pte n + n aBi8B j n t=l 0

J = ~

j i= i

Donc

E -K, -K 1 p = \1()()M(B;p) I()=o= -Diag(p) + --pp [1- 1- T ] 2 1 n - 1 T

n n n n

et

lO(p) a un rang au maximum de s - 1 puisque O(p) e == O.

Annexe B. Complément de preuves, mathématiques du chapitre 3 124

Preuve de la proposition 7. La fonction w (p) ~ ~ [KT P - (qT P )2J est clairement

concave. Donc sa croissance monotone, transforme d 'une manière concave O' (p) ~ y'w(p). En plus , O'(p) > O. Il en découle que (voir: (Mangasarian, 1969)) G(p; r) ~ r~t{ est pseudo concave en p. La pseudo-concavité est préservée sous des transformat ions

croissantes différentiables, donc F(p; r) = <I>( G(p; r)) est pseudo-concave en p.

Preuve de la proposition 9. Aussi longtemps que (3t > (3t, l 'algorithme génère

une nouvelle borne supérieure (3t+ l ou une nouvelle borne inférieure (3t+l telle que

(3t > (3t+l > (3t cependant ~t > (3t+l > (3t · Donc \~t) et ((3t ) convergent à la limite en commun (3*, qui est la valeur optimale de la borne sur l'ensemble de test . Comme f 8

est compacte, n 'importe quel point d 'accumulation x* de (Xt ) est dans f 8 , nous donne une valeur object ive de qT X* = f3*, et donc optimale pour 3.8.

B.3 Borne PAC-Bayes

Prel,lve du lemme 12. Rappelons que K = {k E Ztl~ki = n} , nous avons :

E 1 i B(k, h)

Alors, pour chaque distribution s,p :

(n + 8 - 1)

8-1

Par l'utilisation de l'inégalité de Markov, nous avons le lemme 12.

Preuve du lemme 13. Nous avons:

Annexe B. Complément de preuves mathématiques du chapitre 3 125

n! rrs k · B(k , h) = -s - (Pi ) t

TI ki l i=l i =l

En utilisa~t l'approximation de Stirling nous avons:

In(B(k , h)) = -nkl(~(h) l lp(h)) + o(n)

Rappelons que kl(k(h)l lp(h)) est la divergence de Kulback Leibler dans le cas de la distribution multinomiale entre deux aléas Hyper-Bernoulli définie par :

nous avons donc :

~ ln (B(k\, h)) ~ kl(K(h)l lp(h))

en appliquant l'inégalité de Jensen nous avons:

Preuve du théorème 14. Pour chaque distribution 5,p, nous avons:

ln [Eh~'lJ B(~, h)] ln [Eh~j) ~ B(~, h)] 'ID,

> Eh~j) ln [~ B(~, h)] par l'inégalité de Jensen

- KL(DW}3) + Eh~j) ln [B(~, h)] par l'application du lemme 10 nous avons:

( [ 1 ] 1 (n + s - 1) ) ~r 'ID, Eh~j) ln B(k, h) S KL(DIISJ3) + In("5 s _ 1 ) ~ 1 - 15

par l'application du lemme 13 nous obtenons le théorème 14.

Preuve du théorème 15. Posons:

é (D) KL(DIISJ3) + ln G (n; ~ ~ 1) ) ,

A (,0) {~E Usi n· kl(~llp(,O) ~ é (,O)}

B (,0) {~E Usi R(,O) ~ r(~ , 'o)}.

Annexe B. Complément de preuves mathématiques du chapitre 3

Par construction de r(~, D) , on a :

La projection et l'intersection préservant l'inclusion, il s 'ensuit que:

\/D : A (ù) ç B (ù) , et 1 - 6 S Prz (K:(Ù) E A(Ù)) S Prz (K:(Ù) E B(Ù)) .

B.4 Compression des données

Preuve du lemme 18 Soit:

Nous avons:

Pl S P§ {3 (J E J, SJ E Z IJI, a E M (SJ)) : R (R (SJ , a-)) > B (6, (SJ , a) ,SJ)}

S LJEJ

P§{3a- E M(SJ): R(R(SJ ,a-)) > B(6, (SJ , a-) ,SJ)}

126

La première inégalité est le résultat d 'une implication (inclusion d'évènements) , la se

conde de l'application de la «borne sur l'union». Par l'identité PB {A} = E§JP§J {A n SJ} nous obtenons :

S'" E§ '" P§ _ {R(R(SJ , a))>B(6, (SJ , a-) , SJ)}~P2 L-tJEJ J L-tŒEM(SJ) J .

par une seconde application de la borne sur l'union.

Par hypothèse, les sous-échantillons aléatoires § J et § J sont mutuellement indépen

dants et ont les mêmes distributions que toute paire d 'échantillons indépendants §d et

§n-d de tailles respectives IJI = d et IJI = n - d. Ainsi:

contributions à la classification supervisée multi-classes ... · the exact (minimal) numerical...

Documents