thèse de doctorat présentée par nathalie girard 5/07/2013 sous la supervision de : karell bertet...
Post on 03-Apr-2015
109 Views
Preview:
TRANSCRIPT
Thèse de doctoratPrésentée par Nathalie Girard
5/07/2013 Sous la supervision de :
Karell Bertet Muriel Visani
ContexteLa recherche d’images :
Procédé populaire : Google, Flickr, …Recherche par mots clés, par similarités
La classification d’images :Classement d’images dans des groupes d’images
similaires
2
ContexteComment définir les groupes ?
Par apprentissage d’exemples : Sans classe prédéfinie classification non supervisée Avec classes prédéfinies classification
supervisée
3
Ours
Paysage
La Rochelle
La classification supervisée d’images
4
Image requêteImages
étiquetées
Classe pour l’image requête
Modèle de classificati
on
vR1 … vRz … vRZ ?Extraction de signatures Construction
vR1 … vRz … vRZ k
Notre objectif principal
5
Construire un modèle de classification hybrideentre arbre de classification et treillis de Galois
Arbre de classification Treillis de Galois
Avantages
• Faible espace mémoire• Construction rapide• Traitement de tous types
d’attributs
• Robustesse aux données bruitées Multiplicité des chemins
vers un même concept terminal
Lisibilité (modèles symboliques)
Inconvénients
• Faible robustesse aux données bruitées Unicité du chemin vers une
même feuilles
• Complexité pouvant être exponentielle
• Traitement des attributs quantitatifs
Pour cela …
6
1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois
2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomiques & lien de fusion
3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de
Galois2. Une simplification structurelle
4. Conclusions et Perspectives
Les arbres de classification - DéfinitionDéfinis à partir d’un ensemble de données :
Pouvant contenir tous types de descripteurs
Construction potentiellement en deux étapes [Kass80] [Breiman84]
[Qinlan93] :1.La division :
De la racine (contenant l’ensemble des objets) jusqu’aux feuilles Requiert deux critères :
Critère de division (supervisé ou non) : choix de l’attribut le plus discriminant
Critère d’arrêt (supervisé ou non) : arrêt de la division pré-élagage
Eventuellement, le post-élagage :1. Suppression de nœuds ou de branches2. Sélection du meilleur sous-arbre
7
Post-élagage
Les arbres de classification - Exemple
8
Division
Les arbres de classification - UtilisationUtilisation en classification supervisée :
Extraction d’un système de règles [Quinlan90] Parcours de la structure [Breiman84][Quinlan93]
9
oR = (C,B,A)Classe
= ?Classe =
k4
Les arbres de classificationChAID [Kass80] CART [Breiman84] C4.5 [Quinlan93]
Division ² Indice de Gini Gain ratio
Arité M-aires Binaire M-aires
ArrêtAbs division pertinente
• #objets/nœud• Abs division
pertinente#objets/nœud
Post-élagage
Pas de post-élagage
Mesure coût-complexitéBase de validation (MCC)
Mesure d’erreur par resubstitution (EBP)
AvantagesGestion de grande BD
Inconvénients
• Arbre profond• Nécessite une base
de validationArbre large
10
Pour cela …
11
1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois
2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomiques & lien de fusion
3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de
Galois2. Une simplification structurelle
4. Conclusions et Perspectives
Les treillis de Galois - Définition
[Barbut70] [Ganter99] 12
O I1 I2 I3 K
o1 S H Ek1
o2 S H E
o3 S B Pk2
o4 S B P
o5 C B Pk3
o6 C B P
o7 C B Ak4
o8 C H A
Les treillis de Galois - Définition
[Barbut70] [Ganter99] 13
Les treillis de Galois - éléments remarquables
14
T = Top = Max
= Bot = Min
Ensemble des majorants
Ensemble des minorants
Co-atomes = éléments couvrant le top
[Birkhoff67] 15
Irréductible = élément qui est ni borne inférieure ni borne supérieure
Les treillis de Galois - éléments remarquables
Les treillis de Galois - UtilisationSélection de concepts :
GRAND, RULEARNER, … [Oosthuizen88], [Sahami95], [Mephu-Nguifo05],…
Parcours de la structure :NAVIGALA : NAVIgation into GAlois LAttice [Guillas07]
Reconnaissance de symboles Apprentissage :
Extraction de signatures Transformation des attributs quantitatifs : discrétisation
globale Table de données binaires
Classification : Navigation dans le diagramme de Hasse Etiquetage des concepts terminaux Génération à la demande
16
Classe pour l’image requête
0,5
1 15k1
0,5
115 ?
Extraction de signatures Construction
du treillis
Les treillis de Galois - Utilisation
17[Guillas07]
OV.
1
V.
2
V.
3
K
o1 1 415 k
1o2 0 0
18
o3 112
16 k
2o4 3
16
17
o515
16
15 k
3o6 6
20
17
O I.1 I.2 I.3 K
o1[0-4,5]
[0,8][15-18] k
1o2
[0-4,5]
[0,8][15-18]
o3[0-4,5]
]8-20]
[15-18] k
2o4
[0-4,5]
]8-20]
[15-18]
o5]4,5-15]
]8-20]
[15-18] k
3o6
]4,5-15]
]8-20]
[15-18]
Discrétisation
Pour cela …
18
1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois
2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomique & lien de fusion
3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de
Galois2. Une simplification structurelle
4. Conclusions et Perspectives
Liens en classification
Classification par navigation dans les structures
19
Modèles Parcours Arc = test Classement
Arbre de classification
Racine
feuilleun attribut Classe de la feuille
Treillis de Galois
Min
concept terminal
un ou plusieurs attributs
Classe du concept terminal
Liens en classification
20
La navigation dans le treillis généralise la navigation dans les arbres
Pour cela …
21
1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois
2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomiques & lien de fusion
3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de
Galois2. Une simplification structurelle
4. Conclusions et Perspectives
Liens structurels
Deux liens structurels forts :
1.Lien d’inclusion => cas général
2.Lien de fusion => cas des treillis dichotomiques
[Guillas08a] [Guillas08b] 22
Lien d’inclusionTout arbre de classification est inclus dans le
treillis de Galois, lorsque ces structures sont construites à partir des mêmes attributs qualitatifs.
23[Guillas08a] [Guillas08b]
Pour cela …
24
1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois
2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomiques & lien de fusion
3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de
Galois2. Une simplification structurelle
4. Conclusions et Perspectives
Les treillis dichotomiques – Contribution
Lien de fusion => cas des treillis dichotomiques :
Un treillis est dichotomique lorsqu’il est défini pour un contexte où pour tout attribut, il existe un ou des attributs complémentaires pour l’ensemble des objets.
[Bertet09], [Girard11a], [Girard11b], [Girard13] 25
Attribut S C B H E P A
Complémentaire
{C} {S} {H} {B}{P},{A}
{S,H},{A}
{S,H},{P}
[Bertet09], [Girard11a], [Girard11b], [Girard13] 26
Les treillis dichotomiques – Contribution
Les treillis dichotomiques - Contribution
[Bertet09], [Girard11a], [Girard11b], [Girard13] 27
Lien de fusion
[Guillas08a] [Guillas08b] 28
Conclusions liensDeux méthodes de classification proches
En fonctionnement (par navigation)En structure (fusion/inclusion)
29
Description des images => signatures quantitatives
Comment les traiter au mieux ?
Arbre de classification Treillis de Galois
Avantages
• Faible espace mémoire• Construction rapide• Traitement de tous types
d’attributs
• Robustesse aux données bruitées Multiplicité des chemins
vers un même concept terminal
Lisibilité (modèles symboliques)
Inconvénients
• Faible robustesse aux données bruitées Unicité du chemin vers une
même feuilles
• Complexité pouvant être exponentielle
• Traitement des attributs quantitatifs
Pour cela …
30
1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois
2. Liens et différences entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomique & lien de fusion
3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de
Galois2. Une simplification structurelle
4. Conclusions et Perspectives
DifférencesLe traitement des données quantitatives :
Cadre supervisé : Transformation la plus efficace : la discrétisation
supervisée Arbre de classification : tous types d’attributs
Discrétisation locale/globale Treillis de Galois : une table binaire
Discrétisation globale des données quantitatives
[Dougherty95], [Quinlan96] 31
O V.1 V.2 V.3 K
o1 1 4 15k1
o2 0 0 18
o3 1 12 16k2
o4 3 16 17
o5 15 16 15k3
o6 6 20 17
o7 18 4 17k4
o8 20 12 18
O I.1 I.2 I.3 K
o1 [0-4,5] [0,8][15-18]
k1
o2 [0-4,5] [0,8][15-18]
o3 [0-4,5]]8-20]
[15-18]
k2
o4 [0-4,5]]8-20]
[15-18]
o5]4,5-16,5]
]8-20]
[15-18]
k3
o6]4,5-16,5]
]8-20]
[15-18]
o7]16,5-
20][0,8]
[15-18]
k4
o8]16,5-
20]]8-20]
[15-18]
Différences Discrétisation globale : en prétraitement
suppression des attributs non discrétisés prise en compte de tous les objets à chaque étape
Discrétisation locale : en cours de construction meilleure prise en compte des interactions entre attributs, meilleure précision du modèle, prise en compte de sous-ensembles d’objets à chaque étape :
Arbres de classification => discrétisation par nœud, indépendante d’une branche à l’autre
32
0
2
4
6
8
10
12
14
16
18
20
0 5 10 15 20
V2
V1
0
2
4
6
8
10
12
14
16
18
20
0 5 10 15 20
V2
V1
[Dougherty95], [Quinlan96]
Discrétisation locale pour les TG - Contribution
[Guillas08b], [Girard13] 33
Peut-on définir une discrétisation locale pour les treillis ?
En identifiant les concepts terminaux :
Propriété 3 :Tout treillis de Galois défini à partir d’une table de données discrétisées, est un treillis
dichotomique.
Utilisation des propriétés des treillis dichotomiquesCo-atomes = concepts terminaux (feuilles)Co-atomes calculables sans générer le TG entier
34
Sélection de I1, discrétisation au
point de coupe 4,5 :I11 = [0-4,5]
I12 = ]4,5-20]
Calcul des co-atomes
Sélection attribut discriminant et point de coupe
Binarisation
Mise à jour
de la table
o1 o2 o3 o4
I11 I2 I3o5 o6 o7
o8
I12 I2 I3
Sélection de I2, discrétisation au point de coupe
8 :I21 = [0-8]
I22 = ]8-20]
Choix parmi 2
o1 o2 I11 I21
I3o5 o6
o8
I12 I22 I3
o3 o4 I11 I22
I3
o7
I12 I21 I3
Sélection de I12, discrétisation au point de coupe
16,5I12 =]4,5-16,5]
I13 = ]16,5-20]
Tous les co-atomes sont purs
Fin de la discrétisation
o5 o6
I12 I22 I3 o8
I13 I22 I3
o7
I13 I21 I3
Discrétisation locale pour les TG - Contribution
[Girard09], [Girard11a], [Girard11b], [Girard13]
Comment choisir le meilleur attribut à chaque étape ?
Adaptation du calcul du meilleur attribut à la structure du TG1.Calcul du meilleur attribut pour chaque co-atome
Ensemble de meilleurs attributs
2.Sélection d’un des meilleurs dans cet ensemble :Calcul local :
Comparaison des gains par co-atomeCalcul linéaire local :
Comparaison selon un gain linéaire
[Girard11a], [Girard11b], [Girard13] 35
Discrétisation locale pour les TG - Contribution
36
Exemple : il faut séparer o1 de o2 et o3 de o4,o5 :
o3 o4o5
I11 I22 I3
o1 o2
I11 I21 I3
Concept 1 Concept 2
[Girard11a], [Girard11b], [Girard13]
Discrétisation locale pour les TG - Contribution
Calcul local : max des gains I21 est choisi pour séparer o1 de o2
=> il faut refaire une étape de discrétisation pour séparer o3 de o4,o5
Calcul linéaire local : somme pondérée des gains maximauxI11 est choisi, o1 est séparé de o2 et o3 est séparé o4,o5 => une unique étape est nécessaire
Discrétisation locale pour les TG - Validation
Validation de l’approche
Expérimentations• Les bases• Le meilleur critère de division• La complexité structurelle• La complexité algorithmique• Les performances en classification
[Girard11a], [Girard11b], [Girard13] 37
38
Expérimentations•Différentes bases de données quantitatives :
• Images : GREC struc., GREC Radon, Image 1• Bases usuelles en classification : Glass, Iris,
Breast Cancer#Objet
s#Attribu
ts#Class
es% BA
%BT
VC
Image 1 2310 19 7 10% 90%
GLASS 214 9 6 90% 10% 10
IRIS 150 4 3 90% 10% 10
Breast Cancer
699 10 2 90% 10% 10
GREC struc.
1900 15 19 10% 90%
GREC Radon
910 50 10 10% 90% 10[Girard11a], [Girard11b], [Girard13]
Discrétisation locale pour les TG - Validation
39
Choix du meilleur critère de division
[Girard11a], [Girard11b], [Girard13]
Discrétisation locale pour les TG - Validation
40
Complexité structurelle
[Girard11a], [Girard11b], [Girard13]
Discrétisation locale pour les TG - Validation
41
Complexité algorithmique
Discrétisation locale pour les TG - Validation
[Girard11a], [Girard11b], [Girard13]
42
Performances en classification
Discrétisation locale pour les TG - Validation
[Girard11a], [Girard11b], [Girard13]
Discrétisation locale pour les TG - Conclusions
Comme pour les arbres de classificationDiscrétisation locale => souvent meilleures
performances en classificationDe plus :
Discrétisation locale => Diminution de la complexité structurelle
Possibilité de génération à la demande du treillis
La structure est toujours plus complexe que l’arbre
43[Girard11a], [Girard11b], [Girard13]
Pour cela …
44
1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois
2. Liens et différences entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomique & lien de fusion
3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de
Galois2. Une simplification structurelle
4. Conclusions et Perspectives
Simplification de la structure - ContributionSimplifications existantes – comparatifs
45
Arbre de classification Treillis de Galois
Objectif
1. Le sur-apprentissage2. La complexité structurelle
(exponentielle pires cas)
Mise en œuvre
• Parcours des nœuds/branches
• Evaluation contribution en classification
• Sélection du meilleur sous-arbre
• Calcul d’indices par concepts• Suppression de concepts selon
un seuil
Proposition
Guider le choix d’un seuil optimal pour :1. Améliorer/conserver les performances en classification2. Diminuer la complexité structurelle
Simplification de la structure
46
Simplification de la structureExemple
Calcul à partir du diagramme de HasseEx : Simplification pour un seuil de 0,36 => structure hybride
[Roth06], [Kuznetsov07b], [Roth08] 47
Performances dépendantes du seuil choisi
PropositionComment choisir le seuil ?
Inspiration de l’élagage des arbresGuider le choix du seuil par les performances en
classification
Définition d’un seuil optimal :Parcours des seuils existants
Simplification incrémentaleTest de performance
Taux de reconnaissance en resubstitutionChoix de la structure offrant les meilleurs résultats
Meilleur taux de reconnaissance … Et taille de structure la plus petite
[Roth06], [Kuznetsov07b], [Roth08] 48
Simplification de la structure - Contribution
Simplification de la structure
Nombre de conceptsTaux de
reconnaissance BT (%)
Treillis non
simplifié
Modèle hybride
Différence
Treillis non
simplifié
Modèle hybride
Image 1 649 363 -44% 91,71 90,95Glass 2267 1127 -50% 71,09 71,83IRIS 41 36 -12% 95,33 95,33
Breast Cancer
2961 1939 -35% 94,43 95,01
GREC struc.
3851 1748 -55% 73,68 72,96
GREC Radon
90 68 -25% 90,69 90,7349
Expérimentations
Pour cela …
50
1. Etude des modèles1. L’arbre de classification2. Le treillis de Galois
2. Liens entre ces modèles1. Lien en classification2. Lien d’inclusion3. Treillis dichotomique & lien de fusion
3. De leurs différences vers le modèle hybride1. Une discrétisation locale pour les treillis de
Galois2. Une simplification structurelle
4. Conclusions et Perspectives
Conclusions
51
modèle hybride
Perspectives
52
Développement LogicielUn logiciel disponibleRegroupant
La discrétisation (#critères) Globale Locale Locale linéaire
La simplification Indice de stabilité
La classification Par navigation
53
Bibliographie
54
Arbres de classification
[Kass80], [Breiman84], [Quinlan90], [Quinlan93], [Dougherty95],
[Quinlan96], …
Treillis de Galois
[Birkhoff67], [Barbut70], [Oosthuizen88], [Kuznetsv90],
[Sahami95], [Brin97], [Ganter99], [Kuznetsv03], [Mephu-Nguifo05],
[Kuznetsv07a], [Kuznetsv07b], [Roth06], [Roth08], …
Notre modèle
[Guillas07], [Guillas08a], [Visani11], CLA 2008 : [Guillas08b], SFC09: [Girard09], CLA 2011 : [Girard11a],
ICTAI 2011 : [Girard11b], TS : [Bertet09], IJCSAI : [Girard13]
55
top related