Mémoire pour l'obtention du
MASTER EN INFORMATIQUE
Présenté par
Mohamed Belhassen
Soutenu le 14/01/2008 devant le jury composé de :
Président : Habib Youssef , Professeur à l'ISITcom
Membre : Mohamed Nazih Omri, Maitre Assistant à la FSM
Co-encadreur : Béchir El Ayeb, Professeur à la FSM
Co-encadreur : Karim Kalti, Maitre Assistant à la FSM
UNIVERSITE DE MONASTIR
FACULTE DES SCIENCES DE MONASTIR Département des sciences de l’informatique
Unité de recherche PRINCE
Une Approche d’Indexation et de Recherche
d’Images Pulmonaires TDM par le Contenu Visuel
Mon père,
Tu m’as offert, le long de ta vie, le modèle idéal que je désirais
atteindre.
Ma mère,
C’est grâce à ta sagesse que j’ai pu tracer mon chemin dans cette vie.
Mes sœurs et mon frère,
Merci pour vos encouragements et votre aide incontournable.
Ma fiancée,
Merci pour le soutient moral que tu m'as fourni.
Mes meilleurs amis,
Merci pour les harmonieuses conditions de travail que vous m’avez
prodigués.
C’est le moment où je devrais vous offrir le fruit de mon travail,
signe d’amour et de respect.
Mohamed
Remerciements
Je remercie sincèrement Monsieur Habib Youssef, Professeur à l'Institut Supérieur
d'Informatique et des Technologies de Communication de Sousse, d'avoir accepté d'être le
président de jury.
Je remercie également Monsieur Mohamed Nazih Omri, Maitre Assistant à la Faculté des
Sciences de Monastir, d'avoir accepté d'être un membre de jury.
Je tiens à remercier spécialement Monsieur Béchir El Ayeb, Professeur à la Faculté des
Sciences de Monastir, d'avoir accepté d'être mon co-encadreur de mémoire ainsi que pour
ses conseils et les discussions scientifiques qui ont amélioré la qualité de ce travail.
Je suis tout particulièrement reconnaissant à mon co-encadreur de mémoire Monsieur
Karim Kalti, Maître Assistant à la Faculté des Sciences de Monastir, pour toute l’aide
précieuse et les nombreux conseils qu’il m’a prodigués tout au long de ce travail. Je
voudrais également mentionner son encouragement lors des moments les plus difficiles…
Je remercie pareillement tous les enseignants qui ont participé à ma formation scientifique
durant mes études à la Faculté des Sciences de Monastir. Je cite particulièrement Monsieur
Mohamed Nazih Omri et Monsieur Lotfi Ben Romdhane avec lesquels j'ai eu l'occasion de
discuter quelques points de mon travail.
Résumé :
Pendant la dernière décennie, plusieurs systèmes d’indexation et de recherche
d’images par le contenu visuel ont émergé afin de combler les limites de
l’indexation textuelle des images. Dans ce travail, nous proposons une approche
d’indexation et de recherche d’images pulmonaires tomodensitométriques (TDM)
par le contenu visuel. Dans cette approche, nous modélisons le contenu visuel des
images pulmonaires par un graphe (arbre) attribué. Ce dernier nous permet de
bien représenter les différents aspects de similarité sur lesquels peut porter les
requêtes des utilisateurs. En outre, nous nous intéressons à l'adaptation des
descripteurs de texture aux images pulmonaires. En plus, nous utilisons une
technique de réduction de la dimension des vecteurs de descripteurs dans le but
d’accélérer la phase de la recherche.
Mots-clés :
Indexation d'images, segmentation d'images, graphe attribué, appariement de
graphes, descripteurs physiques, évaluation des descripteurs de texture, analyse
en composantes principales, courbes de « Précision et Rappel », images
pulmonaires tomodensitométriques.
Abstract :
During the last decade, several content-based image retrieval systems (CBIR) have
emerged to fill the limits of the textual image retrieval. In this work, we propose a
CBIR approach specific to lung computed tomography images. In this approach,
we model the visual content of pulmonary images by an attributed graph (tree).
This latter enable us to well represent the different kind of similarity view on
which the user query can be about. Besides, we are interested in the adaptation of
texture descriptors to pulmonary CT images. In addition, we use a dimension
reduction technique of features vectors in order to accelerate the speed of retrieval
phase.
Keywords :
Content based image retrieval, image segmentation, attributed graph, graph
matching, visual features, assessment of texture descriptors, principal component
analysis, Precision Recall graph, lung computed tomography images.
i
Table des matières
Introduction Générale .................................................................................... 1
CHAPITRE 1 : État de l’art .............................................................................. 4
1.1. Introduction ......................................................................................................... 4
1.2. Descripteurs physiques du contenu visuel d’images ........................................... 5
1.2.1. Descripteurs de texture .................................................................................................... 6
1.2.2. Descripteurs de forme .................................................................................................... 20
1.3. Classification des systèmes de recherche d’images ........................................... 23
1.3.1. Les différents paradigmes de représentation d’images .................................................... 23
1.3.2. Exemples de systèmes de recherche d’images ................................................................. 25
1.3.3. Les systèmes de recherche d’images en médecine ........................................................... 29
1.4. Conclusion .......................................................................................................... 33
CHAPITRE 2 : Proposition d’un modèle d’indexation et d'une approche de
recherche d’images pulmonaires TDM ................................. 34
2.1. Introduction ....................................................................................................... 34
2.2. Proposition d’une approche d’indexation spécifique aux images pulmonaires
TDM ................................................................................................................... 35
2.2.1. Proposition d’une approche de segmentation des images pulmonaires TDM ................... 35
2.2.2. Modélisation des images pulmonaires TDM par un graphe ............................................. 46
2.3. Modélisation de la recherche d’images pulmonaires TDM ................................ 48
2.3.1. Proposition d’une approche d’appariement de graphes d’images pulmonaires ............... 48
2.3.2. Illustration de l’approche proposée d’appariement de graphes d’images pulmonaires TDM
...................................................................................................................................... 51
2.3.3. Proposition d’une définition de similarité entre les images pulmonaires TDM ................. 54
2.4. Conclusion .......................................................................................................... 60
ii
CHAPITRE 3 : Adaptation des descripteurs aux images pulmonaires et
réduction de leur dimension ................................................. 62
3.1. Introduction ....................................................................................................... 62
3.2. Evaluation de performances des descripteurs de texture ................................. 63
3.2.1. « Pertinence Système » contre «Pertinence Utilisateur » ................................................. 63
3.2.2. Approche d’évaluation des descripteurs.......................................................................... 64
3.3. Présentation de la base d’images de Test de descripteurs ................................ 67
3.4. Mesure de performance des descripteurs ......................................................... 68
3.4.1. Résultats expérimentaux d’évaluation de performance des descripteurs ......................... 70
3.4.2. Synthèse des résultats de l’évaluation des performances des descripteurs ...................... 80
3.5. Réduction de la dimension des descripteurs ..................................................... 82
3.5.1. Nécessité de la réduction de dimensions ......................................................................... 82
3.5.2. Stratégie de réduction de dimensions ............................................................................. 82
3.5.3 L’analyse en composantes principales (ACP).................................................................... 83
3.6 Conclusion........................................................................................................... 96
CHAPITRE 4 : Implémentation de l’approche d’indexation et de recherche
d’images pulmonaires TDM par le contenu visuel et évaluation
des résultats........................................................................... 98
4.1 Introduction ........................................................................................................ 98
4.2. Architecture générale du système de recherche d’images pulmonaires par le
contenu ............................................................................................................. 99
4.2.1. Module d’extraction des régions d’intérêt ..................................................................... 102
4.2.2. Module de gestion des régions d’intérêt ........................................................................ 102
4.2.3. Module de recherche d’images similaires ...................................................................... 104
4.3. Environnement matériel et logiciel ................................................................. 106
4.4. Evaluation des performances du SRIPCV ......................................................... 107
4.5. Conclusion ........................................................................................................ 122
Conclusion et Perspectives ......................................................................... 123
iii
Liste des figures
Figure 1: Deux images différentes ayant le même histogramme .............................................. 8
Figure 2: Exemples des filtres de Gabor ...............................................................................16
Figure 3: Exemple de convolution des filtres de Gabor sur une image .....................................17
Figure 4: Rectangle minimal englobant ...............................................................................21
Figure 5: Image TDM pulmonaire .......................................................................................37
Figure 6: Modèle général d'images pulmonaires ..................................................................37
Figure 7: Diagramme de l'approche de segmentation d'images pulmonaires TDM ...................38
Figure 8 : Histogramme d'une image TDM de poumons, (a): image TDM, (b) : histogramme
correspondant ..................................................................................................................39
Figure 9: (a) histogramme original, (b) histogramme après l'élimination des pixels noirs ...........40
Figure 10: Le seuil optimal obtenue en utilisant la méthode du seuillage itératif ......................40
Figure 11: l'image binarisée résultante de l'opération du seuillage .........................................40
Figure 12: image binaire ....................................................................................................41
Figure 13: changement de valeur de l’étiquette à chaque transition "extérieur-intérieur" .........41
Figure 16: identification de chaque poumon avec une couleur différente................................42
Figure 14: Détermination des couleurs voisines : (1,4), (2,5), (3,6), (4,7), (6,8), (7,9) ................41
Figure 15: Affectation d'une étiquette unique à chaque composante connexe.........................41
Figure 17: Elimination des petites régions noires .................................................................43
Figure 18: Elimination des petites régions blanches ..............................................................43
Figure 19: Elimination des régions noires touchant le bord de l'image ....................................43
Figure 20: Approximation d'un polygone par une courbe B-Spline ..........................................45
Figure 21: les bords du poumon avant le lissage par B-spline .................................................44
Figure 22: Les bords du poumon après le lissage par B-Spline ................................................45
Figure 23: Modélisation d'images TDM pulmonaires par un graphe attribué : (a) image TDM
pulmonaire, (b) image segmentée, (c) modèle de poumons, (d) régions de l’image pulmonaire
correspondant aux nœuds du graphe ..................................................................................48
Figure 24: les régions d'intérêt des deux images pulmonaires à apparier ................................52
Figure 25: (a) appariement des RI du poumon droit de la BDD aux RI du poumon droit de la
requête, (b) appariement de la RI du poumon gauche de la requête aux RI du poumon droit de la
base ................................................................................................................................52
Figure 26: Arbres d'appariements possibles des RP de l'image requête avec les RP de l'image de
la BDD : (a) arbre d’appariement des deux poumons droits, (b) arbre d’appariements des deux
poumons gauches .............................................................................................................53
Figure 27: Intérêt de la distribution spatiale des RP dans la mesure de la similarité visuelle, (a) :
Poumon droit (PD) de l’image requête, (b) et (c) : PD de deux images de la BDD ......................55
Figure 28: Translation du repère vers les centres de gravité respectifs de chaque poumon .......56
Figure 29: Différence de la taille des régions pulmonaires, L1≠ L2 ..........................................56
Figure 30: Importance de la forme dans la mesure de la similarité visuelle .............................57
Figure 31: Illustration de la nécessité de prise en compte de la distribution spatiale et la texture
des régions d’intérêt non appariées ....................................................................................59
iv
Figure 32: Réduction importante des dimensions des descripteurs après l'utilisation de l'ACP ...94
Figure 33: Amélioration de la performance des descripteurs (selon la mesure de DTC) après la
réduction des dimensions des descripteurs en utilisant l'ACP .................................................95
Figure 34: Distribution des différentes classes de texture selon les deux premières composantes
principales retenues du vecteur de descripteurs total de texture ...........................................95
Figure 35 : Répartition des modules du SRIPCV entre les deux phases d'indexation et de
recherche ........................................................................................................................99
Figure 36: Architecture générale du système de recherche d'images pulmonaires TDM .......... 100
Figure 37: Schéma général du premier module du SRIPCV ................................................... 102
Figure 38: Schéma général du deuxième module du SRIPCV ................................................ 103
Figure 39: Interface de formulation de la requête du système SRIPC .................................... 105
Figure 40: La distribution des RI de la BDD selon les deux premières CP de vecteur de
descripteurs global ......................................................................................................... 107
Figure 41: Illustration des critères de Précision et de Rappel................................................ 108
Figure 42: Les courbes de « Précision » en fonction du « Rappel » des différentes méthodes
d'appariement : (A) global/local, (B) local et (C) global ........................................................ 109
Figure 43: Performance des différentes méthodes d'appariement ....................................... 112
Figure 44: Image requête................................................................................................. 113
Figure 45: Le résultat de la recherche lorsqu’on utilise la méthode d'appariement global et les
descripteurs de texture de longueur de plages ................................................................... 115
Figure 46: Le résultat de la recherche lorsque nous utilisons la méthode d'appariement local et
les descripteurs de cooccurrence ...................................................................................... 116
Figure 47: Le résultat de la recherche en utilisant la méthode d'appariement global/local et le
vecteur de descripteurs global ......................................................................................... 117
Figure 48: Le résultat de la recherche lorsqu’on utilise la méthode d'appariement global/local et
le vecteur de descripteurs global avec prise en compte de la forme des RI ............................ 118
Figure 49: Le résultat de la recherche lorsqu'on utilise la méthode d'appariement global/local et
le vecteur de descripteurs global avec prise en compte de la texture et la distribution spatiale des
RP non appariées ............................................................................................................ 119
Figure 50: Le résultat de la recherche lorsque nous utilisons la méthode d'appariement
global/local et le vecteur de descripteur global avec prise en compte de la distribution spatiale
des RP appariées ............................................................................................................ 120
Figure 51: Le résultat de la recherche lorsqu'on utilise la méthode d'appariement global/local et
le vecteur de descripteurs global avec autorisation de faire des appariements croisés ............ 121
v
Liste des tableaux
Tableau 1: Les classes de texture de la BDD de test ..............................................................69
Tableau 2: Evaluation de performance de l’histogramme dans le cas d’utilisation de la distance
euclidienne ......................................................................................................................74
Tableau 3: Evaluation de performance de l’histogramme dans le cas d’utilisation de la mesure de
similarité par intersection d’histogrammes ..........................................................................74
Tableau 4: Evaluation de performance des descripteurs de texture de premier ordre ..............74
Tableau 5: Evaluation de performance de « Color autocorrelogram » dans le cas d’utilisation de
la distance euclidienne ......................................................................................................75
Tableau 6: Evaluation de performance de « Color autocorrelogram » dans le cas d’utilisation de
la mesure de similarité par intersection d’histogrammes .......................................................76
Tableau 7: Evaluation de performance des descripteurs de cooccurrence ...............................77
Tableau 8: Evaluation de performance des descripteurs de longueurs de plages ......................78
Tableau 9: Evaluation de performance des descripteurs de Gabor .........................................78
Tableau 10: Evaluation de performance des descripteurs de différence de niveaux de gris .......79
Tableau 11: Evaluation des performances de tous les descripteurs de texture utilisés ensemble
.......................................................................................................................................79
Tableau 12: Les meilleures performances des différents descripteurs de texture .....................81
Tableau 13: Les meilleures performances du descripteur d’histogramme après la projection sur
les CP ..............................................................................................................................87
Tableau 14: Détails d’évaluation de performance du descripteur d’histogramme calculé pour 32
niveaux de gris .................................................................................................................87
Tableau 15: Détails d’évaluation de la performance des descripteurs de premier ordre ............87
Tableau 16: Les meilleures performances du descripteur du « color autocorrelogram » après la
projection sur les CP .........................................................................................................88
Tableau 17: Détails d’évaluation de performances des descripteurs du « color autocorrelogram »
calculé pour NNG=32 et DL1=5 ...........................................................................................89
Tableau 18: Les meilleures performances des descripteurs de cooccurrence après la projection
sur les CP .........................................................................................................................89
Tableau 19: Détails de l’évaluation de la performance des descripteurs de cooccurrence calculés
pour un déplacement=1 et un angle=0 ................................................................................90
Tableau 20: Les meilleures performances des descripteurs de longueurs de plages après la
projection sur les CP .........................................................................................................90
Tableau 21: Détails de l’évaluation de la performance des descripteurs de longueurs de plages
calculés pour NNG=128 avec considération des deux directions (horizontale et verticale) .........90
Tableau 22: Les meilleures performances des descripteurs de différence de niveaux de gris après
la projection sur les CP ......................................................................................................91
Tableau 23: Détails d’évaluation de la performance des descripteurs de différence de niveaux de
gris calculés pour dx=2 et dy=3 ..........................................................................................91
Tableau 24: Détails de l’évaluation des performances des descripteurs de Gabor ....................92
Tableau 25: Détails d’évaluation de la performance de tous les descripteurs ...........................93
vi
Tableau 26: Les meilleures performances des différents descripteurs de texture après la
réduction de dimensions en utilisant l’ACP ..........................................................................94
Tableau 27: Illustration des résultats de l’évaluation de la performance des descripteurs de
forme ..............................................................................................................................96
Tableau 28: Les temps moyens des différentes étapes de la recherche ................................ 113
vii
Liste des abréviations
ACP: analyse en composantes principales
BDD: base de données
CA: coût d'appariement
CAD: « computer-aided diagnosis »
CBIR: « content-Based Image Retrieval »
CC: condensation de classes
CDSRIA: coût de la distribution spatiale des régions d’intérêt appariées
CDSRPNA: coût de la distribution spatiale des régions d’intérêt non appariées
CFRIA: coût de la forme des régions d’intérêt appariées
CIA: coût initial d'appariement
CP: composante principale
CTRPNA: coût de texture des régions pathologiques non appariées
CT: « computed-tomography »
CTA: coût total d’appariement
DC: détachement de classes
DTC: détachement total des classes
EPPC: élément plus proche du centre
HNG: histogramme de niveaux de gris
HRCT: « high-resolution computed tomography »
IDF: « inverse document frequency »
IQG: indicateur de qualité global
NG: niveau de gris
QBE: « query by exemple »
RI : région d'intérêt
RP: région pathologique
PACS: « picture archiving and communication systems »
PNA: l’ensemble des paires des nœuds appariés
SFS: « selection forward search »
SRIm: système de recherche d'images
SRIPCV: système de recherche d'images pulmonaires TDM par le contenu visuel
TDM: tomodensitométrie ou tomographie axiale calculée
URL: « Uniform Resource Locator »
1
Introduction Générale
Pendant la dernière décennie, nous avons vécu un accroissement
exponentiel de documents multimédia. Ceci est dû, essentiellement, à la
convivialité de ces derniers par rapport aux documents textuels. Particulièrement,
l’image a envahi tous les supports d’informations grâce à son pouvoir expressif et
la facilité de son transfert via les réseaux informatiques. Il en résulte une
expansion continue des bases de données (BDD) d’images. De ce fait, l’accès aux
informations inhérentes à ces dernières devient de plus en plus difficile et
coûteux.
Les premières solutions adoptées pour la recherche d’images sont inspirées
des méthodes de recherche dans les documents textuels. En fait, un progrès
acceptable a été réalisé dans la recherche de ce type de documents et les
chercheurs ont essayé d’adapter ces mêmes méthodes aux documents visuels.
Dans ces systèmes de recherche d’image, l’image est indexée par un ensemble
d’annotations textuelles qui vont décrire son contenu visuel. De là, il suffit
d’utiliser un moteur de recherche textuel pour retrouver les documents
demandés. Cette solution se heurte à plusieurs problèmes comme la subjectivité
d’interprétation du contenu visuel, les coûts élevés d’annotation manuelle, etc.
Une autre solution au problème de recherche d’images consiste à effectuer une
Introduction générale
2
navigation libre (« free browsing ») dans la BDD jusqu’à ce qu’on trouve l’image
candidate. Cette solution ne peut être appliquée que pour une recherche
occasionnelle et pour des BDD de petite taille. En plus, elle n’est pas adéquate
pour des applications professionnelles.
Pour combler l’inefficacité et les limites des méthodes traditionnelles de la
recherche d’images, les chercheurs ont orienté leurs travaux vers l’exploration
des voies possibles de l’utilisation d’une description inhérente au contenu visuel
de l’image. Cette approche de description d’images en utilisant son contenu
visuel est connue sous le nom de la recherche d’images par le contenu « Content-
Based Image Retrieval ou CBIR ». Dans ce paradigme, l’image est décrite par un
ensemble de descripteurs numériques qui essayent de caractériser des aspects
différents du contenu visuel comme la texture, la forme et les propriétés
géométriques des objets constituant l’image. L’utilisation de ces descripteurs a
pour but de réduire la quantité énorme d’informations, portée par le contenu
visuel, à une signature numérique de petite taille. En effet, les systèmes de
recherche d’images actuels ne peuvent pas effectuer la recherche en exploitant
directement le contenu brut des images. Donc la recherche d’images similaires se
réduit à une simple recherche d’images présentant des descripteurs « similaires ».
La recherche d’images par le contenu concerne tous les domaines où l’image
constitue un support essentiel d’informations et plus particulièrement, la
radiologie. En fait, dans les hôpitaux sont produites, quotidiennement, des
milliers d’images qui sont sauvegardées dans leurs archives. L’exploitation de ces
données sera fonction des techniques, d’archivages et de recherche, mises en
place.
Dans ce travail nous nous intéressons à développer un Système de
Recherche d’Images Pulmonaires par le Contenu Visuel (SRIPCV) qui permet aux
utilisateurs débutants et spécialistes de rechercher rapidement des images
pulmonaires tomodensitométriques (TDM) similaires à une éventuelle image
requête. Donc, notre système va cibler le type d’interrogations par l’exemple
« Query By Example ».
Le présent mémoire est organisé comme suit :
Dans le premier chapitre, nous faisons un tour d’horizon du domaine de la
recherche d’images tout en détaillant les différentes notions rencontrées dans la
littérature. Ensuite, nous explorons quelques systèmes qui représentent des cas
types des différentes approches de recherche d’images. En dernier lieu, nous
montrons l’utilité de l’approche orientée contenu dans le domaine de l’imagerie
médicale, tout en expliquant le fonctionnement de ce type de systèmes en prenant
des exemples de la littérature.
Introduction générale
3
Le deuxième chapitre est consacré, en premier lieu, à la présentation de notre
approche de segmentation d’images pulmonaires ainsi que notre modélisation
d’images pulmonaires sous forme de graphe attribué. En second lieu, nous
passons à l’explication de l’approche d’appariement de graphes que nous
proposons. Enfin, nous montrons la stratégie de calcul de similarité que nous
avons conçu spécialement pour les images pulmonaires.
Notre système étant un système dédié aux images pulmonaires, nous
consacrons un grand effort pour adapter les différents descripteurs de texture
utilisés aux images indexées. Dans le quatrième chapitre, nous présentons la
méthode d’évaluation des descripteurs de texture avant et après la réduction des
dimensions de vecteurs de descripteurs en utilisant l’analyse en composantes
principales. Cette méthode d’évaluation est inspirée du travail de J.F Rodigues
[1].
Dans le dernier chapitre, nous détaillons la phase d’implémentation et
d’intégration des différents modules de notre SRIPC tout en évaluant ses
performances et sa capacité à satisfaire la demande d’utilisateurs.
Dans un ultime volet, nous récapitulons les résultats de ce travail et nous
proposons quelques perspectives potentielles.
4
Chapitre 1
État de l’art
Dans ce chapitre, nous présentons les différentes
notions rencontrées dans la littérature d'indexation et de
recherche d’images. Ensuite, nous illustrons chaque type
d'approche de recherche d’images par un système type. En
dernier lieu, nous montrons l’importance de la recherche
d’images par le contenu visuel dans les bases de données
d’images médicales.
1.1. Introduction :
L'indexation et la recherche d’images, dans une BDD, est un concept,
relativement, nouveau. Les premières stratégies adoptées tirent profit des
techniques efficaces développées pour la recherche des données textuelles.
Malheureusement, ces techniques ont montré leur incapacité de satisfaire le
besoin d’informations portant sur le contenu effectif des images. Pour cette
raison, d’autres techniques d'indexation ont été développées. Ces techniques
extraient, directement, l’information décrivant l’image à partir de son contenu
visuel. D’autres techniques, plus développées, essayent de joindre à ces données
brutes une certaine sémantique qui sera utile pour répondre aux requêtes de haut
niveau.
Chapitre 1 Etat de l’art
5
Dans cet état de l’art, nous nous occupons, en premier lieu, des descripteurs
physiques du contenu visuel d’images. En second lieu, nous présentons les
différents types de systèmes d'indexation et de recherche d’images que nous
classifions selon le paradigme de représentation d’images adopté. A la dernière
partie de ce chapitre, nous montrons l’importance de la recherche d’images par le
contenu visuel, dans le domaine médical, plus précisément, dans la recherche
d’images similaires à une image requête, dans une base d’images
tomodensitométriques pulmonaires.
1.2. Descripteurs physiques du contenu visuel d’images :
Le contenu de l’image désigne à la fois son contenu sémantique et son
contenu visuel [2]. Le contenu sémantique est souvent associé à l’image
manuellement ou automatiquement, grâce aux techniques de reconnaissance de
formes. De nos jours, l’utilisation du contenu sémantique dans la description
d’images rencontre plusieurs problèmes. D’une part, la méthode manuelle est
limitée par la subjectivité inhérente de l’interprétation de l’image. En fait, la
même image peut être interprétée différemment par deux individus différents. En
plus, l’annotation manuelle augmentera le coût du système et dans plusieurs
contextes, comme celui de l’Internet, cette méthode est inconcevable. D’autre
part, la précision des méthodes automatiques sera fonction de la précision des
méthodes de reconnaissance de formes et les techniques d’apprentissage
adoptées dont les performances ne sont pas garanties. De là, on peut affirmer que
l’utilisation du contenu visuel pour la description de l’image donne une
représentation plus objective. Cependant, on perdra le coté sémantique qui est
nécessaire pour répondre aux requêtes textuelles. Ce problème est connu par le
fossé sémantique « semantic gap ».
Le contenu visuel de l’image est très riche en informations qui permettent
de bien caractériser l’objet photographié. Etant donné le nombre important de ces
informations, les systèmes informatiques ne peuvent pas utiliser directement le
contenu brut de l’image pour décrire, comparer ou identifier les objets qu’elle
contient. Donc, il est nécessaire d’extraire une représentation compacte et
discriminante qui permet de décrire les principaux aspects représentés par
l’image. Il s’agit d’un ensemble de descripteurs de forme, de couleurs et de
texture qui seront sauvegardés dans une BDD. Les recherches ultérieures, seront
faites selon cette représentation compacte et non pas selon le contenu brut des
images [3].
Un bon descripteur doit être invariant aux diverses variations des
conditions d’acquisition d’images (variation de la luminance de la scène, ombre,
etc.) et même aux bruits introduits par le système d’acquisition. Cependant, un
descripteur visuel présentant un grand degré d’invariance peut perdre son
pouvoir discriminant.
Chapitre 1 Etat de l’art
6
Un descripteur visuel peut être soit local, soit global. Un descripteur global
utilise les caractéristiques visuelles de toute l’image, tandis qu’un descripteur
local utilise les caractéristiques des régions ou des objets pour décrire le contenu
de l’image. Comme il a été mentionné dans [4], la caractérisation globale des
images n’offre pas toujours des résultats satisfaisants, en particulier, dans le
domaine médical, où les caractéristiques locales sont importantes.
Pour obtenir les caractéristiques visuelles locales, on divise l’image en
plusieurs parties. La méthode la plus simple, est la subdivision de l’image en
plusieurs blocs identiques en forme et en taille. Par exemple, on utilise une
représentation hiérarchique par des arbres quaternaires [5]. Cette méthode ne
permet pas d’avoir des régions significatives, mais elle permet de représenter les
caractéristiques globales dans une résolution plus fine. Une autre méthode, plus
performante, consiste à diviser l’image en plusieurs régions, selon un certain
critère, par un algorithme de segmentation. Une approche encore plus
performante, consiste à diviser l’image en un ensemble d’objets sémantiquement
significatifs. Cette dernière approche se trouve limitée par les difficultés actuelles
rencontrées par la segmentation automatique d’images.
Dans le cas de bases d’images pulmonaires, les pathologies qui affectent les
poumons peuvent être identifiées par le changement de la texture des régions
infectées [6]. Pour cette raison, nous nous concentrons, essentiellement, sur les
différents descripteurs de textures rencontrés dans la littérature pour caractériser
au mieux les régions pathologiques. Nous étendons notre étude aux descripteurs
de forme pour permettre à notre système la prise en compte des paramètres de
forme, pendant la recherche.
1.2.1. Descripteurs de texture :
Malgré qu’il n’existe pas une définition formelle de la texture [7], nous
définissons, ici, la texture comme étant une surface qui contient des variations de
l’intensité de l’image qui forment des primitives répétitives. Ces primitives
peuvent être vues comme résultat des propriétés physiques de la surface, comme
la rugosité et/ou des différences de réflexion de la lumière. Cependant, en
imagerie médicale et plus précisément dans le cas d’images TDM sujettes de
notre étude, la texture résulte du changement des propriétés des rayons-X lors de
leur pénétration dans le corps humain et selon les caractéristiques du milieu
qu’ils traversent [8]. Cette différence d’absorption se manifeste par une texture
particulière pour chaque région ayant une distribution de densité déterminée.
D’après Alexandre Barré [9], les principales informations dans
l'interprétation du message visuel pour un observateur humain sont les contours
et/ou les textures. En effet, les contours permettent de déterminer la forme des
régions sans tenir compte de leur contenu colorimétrique qui peut apporter des
informations supplémentaires nécessaires à l’identification et la caractérisation de
Chapitre 1 Etat de l’art
7
la région étudiée. Par contre, la texture est utilisée pour caractériser un aspect
homogène de la surface d'un objet. L’aspect de la texture peut être décrit
qualitativement à l'aide des adjectifs comme: grossière, fine, lisse, tachetée,
granuleuse, marbrée, régulière ou irrégulière. Cette description informelle de
texture est inexploitable dans le domaine de la vision par ordinateur. Ceci nous
mène à décrire la texture en utilisant des descripteurs texturaux issus
essentiellement des méthodes suivantes de représentation de la texture:
Les méthodes structurelles : La texture est décrite en identifiant les primitives
structurelles appelées «texels » et leurs règles de placement. Ces méthodes
ont montré leur efficacité lorsqu’elles sont appliquées à des textures
régulières [2], généralement de synthèse.
Les méthodes statistiques : Ces méthodes caractérisent la texture par la
distribution statistique de l’intensité des pixels de l’image. Elles incluent
les statistiques de premier ordre qui peuvent être calculées à partir de
l’histogramme (moyenne, variance, écart-type, etc.) et les statistiques de
second ordre (matrice de cooccurrence, corrélogramme de couleurs,
méthode de différences de niveaux de gris, etc.). L’ordre détermine le
nombre de pixels mis en jeu lors de la caractérisation de la distribution
statistique des primitives de la texture [7]. En plus, des méthodes de
premier et second ordre, nous pouvons citer les attributs issus de la
méthode de longueurs de plages (« Run Lungth Encoding ») et les
descripteurs basés sur les filtres de Gabor [10]. Il est nécessaire de noter
que la méthode Gaborienne n’est pas en réalité une méthode statistique
puisqu’il s’agit d’une méthode de filtrage de l’image en utilisant un filtre
construit en utilisant une fonction sinusoïdale à support gaussien. Mais, le
fait que nous allons extraire des attributs statistiques à partir de l’image
filtrée nous permet de classer cette méthode fréquentielle dans la classe des
méthodes statistiques. Ces dernières ont montré leur efficacité de bien
représenter les textures aléatoires. C’est le cas des images médicales où
l'analyse des textures est utilisée pour la caractérisation tissulaire.
Dans notre étude bibliographique, nous nous limitons à présenter les
méthodes appréciées par les concepteurs de systèmes d'indexation et de
recherche d’images par le contenu afin de déterminer les descripteurs pertinents
pour notre application. Néanmoins, nous devons signaler qu’il existe une vaste
diversité de méthodes de description de texture (champs aléatoires de Markov,
dimension fractale, etc.) [7].
Dans ce qui suit, nous présentons les principales méthodes statistiques de
description des textures aléatoires.
Chapitre 1 Etat de l’art
8
1.2.1.1. Descripteurs de premier ordre :
Nous rappelons que ces descripteurs sont dits de premier ordre, car ils sont
extraits à partir des pixels de l’image qui sont considérés d’une manière
individuelle. Malgré la faiblesse de leur pouvoir discriminant, les descripteurs de
premier ordre sont largement utilisés dans les systèmes de recherche d’images
par le contenu comme un premier filtre permettant d’éliminer le plutôt que
possible les « faux candidats ». Dans ce qui suit, nous décrivons les principaux
descripteurs de premier ordre.
L’histogramme de niveaux de gris :
L’histogramme de niveaux de gris (HNG) montre les taux d’apparition des
différentes intensités dans une image dont la dynamique est représentée sur un
ensemble de niveaux de gris. L’HNG est robuste aux translations et aux rotations
autour de l’axe de vision. Mais, il varie un peu avec l’agrandissement et l’angle
de vue. La valeur de chaque composante (« Bin »), de cet histogramme, qui
correspond à un ensemble de niveaux de gris, indique le pourcentage que
représente cet ensemble de niveaux de gris par rapport à la totalité des niveaux
de gris de l’image. Autant qu’il a de composantes, autant qu’il a une force
discriminante. Toutefois, un histogramme avec un grand nombre de composantes
n’augmente pas seulement le coût de calcul mais il sera aussi inapproprié pour
construire un index efficace pour la BDD. En fait, pour construire un
histogramme exploitable, on essaye de réduire la taille de l’histogramme. On
utilise l’une des méthodes de regroupement (« clustering methods ») pour
déterminer les K meilleures couleurs dans l’espace de couleurs et l’ensemble
d’images données. Une telle réduction ne dégrade pas la performance de
comparaison des histogrammes, elle peut même l’accroître, puisqu’un grand
nombre de composantes comme nous avons précisé précédemment, sera sensible
aux bruits. Lorsque la BDD contient un grand nombre d’images, l’histogramme
perd son pouvoir discriminant. En plus, l’histogramme ne prend pas en
considération la disposition spatiale des pixels. En effet, deux images totalement
différentes peuvent avoir des histogrammes identiques comme le montre la Figure
1. Plusieurs améliorations ont été proposées pour incorporer les informations
spatiales. La plus simple consiste à diviser l’image en plusieurs régions. Par la
suite, on calcule l’histogramme pour toutes les régions.
Figure 1: Deux images différentes ayant le même histogramme
Histogramme Image 1 Image 2
Chapitre 1 Etat de l’art
9
Malgré l’utilisation de l’histogramme comme méthode de caractérisation de
la texture dans plusieurs systèmes de recherche d’images comme dans QBIC [11]
et dans [12]. Cette utilisation reste limitée par le coût élevé en temps de calcul de
similarité, comme celle d’intersection d’histogrammes. Pour faire face à ces
problèmes, d’autres approches essayent de décrire l’information portée par
l’histogramme par un nombre réduit de paramètres qui sont les moments de
niveaux de gris.
Les moments de niveaux de gris :
Les moments de niveaux de gris sont utilisés, dans plusieurs systèmes de
recherche d’images comme QBIC [11]. Dans ce qui suit, nous citons les plus
importants :
o La moyenne :
Il s’agit de calculer la valeur moyenne (Moy) des niveaux de gris de
tous les pixels de l’image. Ce paramètre représente l’emplacement de
l’histogramme sur l’échelle des niveaux de gris.
Rji
jiIN
Moy),(
),(1
avec :
I(i,j) représente le niveau de gris du pixel de coordonnées (i,j ).
R représente l’image ou la région d’intérêt (RI) étudiée.
N est un facteur de normalisation correspondant au nombre total des
pixels de R.
o La variance :
La variance (Var) permet de mesurer la répartition des niveaux de gris
autour de la valeur moyenne. Plus la variance est élevée, plus l’écart entre les
différents niveaux de gris et leur valeur moyenne est grand.
2
),(
)),((1
MoyjiIN
VarRji
o L’écart Type :
C’est une mesure similaire à la variance. Ainsi, l’écart-type (𝜎) est une
mesure de la dispersion d’un ensemble de données. D’un point de vue
qualitatif, l’écart-type caractérise la largeur d’une distribution de données en
mesurant la dispersion autour de la moyenne.
2
),(
)),((1
MoyjiIN
VarRji
(1.1)
(1.2)
(1.3)
Chapitre 1 Etat de l’art
10
o La Dissymétrie « Skewness » :
Le « skewness » (𝑆𝑘𝑒𝑤) correspond au moment d’ordre trois. Il mesure la
déviation de la distribution des niveaux de gris par rapport à une distribution
symétrique.
Iji
Moyjim
NSkew
),(
3),(1
Pour une déviation par les valeurs élevées, le « skewness » est positif,
alors que pour une déviation vers les valeurs basses, il est négatif.
L’utilisation du « skewness» améliore, généralement, la performance de
la recherche par rapport à l’utilisation des moments de premier et de
deuxième ordre (moyenne, variance, etc.), alors que l’utilisation du
« skewness » rend la représentation des caractéristiques plus sensible aux
changements de la scène. Ceci peut abaisser les performances du système de
recherche d’images.
o Le « Kurtosis » :
Il correspond au moment de quatrième ordre et caractérise la forme du
sommet de l’histogramme : plus le kurtosis (𝐾𝑢𝑟𝑡) est faible, plus le sommet de
l'histogramme est arrondi.
Iji
Moyjim
NKurt
),(
4),(1
Les moments de niveaux de gris forment une représentation compacte
du contenu de l’image. En fait, ils ont un pouvoir discriminant plus ou moins
faible. Habituellement, on les utilise pour effectuer un premier filtrage de
l’espace de recherche. Par la suite, on applique d’autres caractéristiques de
couleurs plus sophistiquées.
1.2.1.2. Descripteurs de second ordre :
Dans les méthodes de premier ordre d’analyse de la texture, qui se limitent à
une simple description de l’histogramme de niveaux de gris, on n’a pas
d’informations sur la disposition spatiale des pixels les uns par rapport aux
autres. Pour tenir compte de ces relations de localisation entre les pixels,
l’utilisation des descripteurs d’ordre supérieurs est nécessaire. On rappelle que
l’ordre d’un descripteur est donné par le nombre de pixels mis en jeu dans
l’extraction des primitives de texture. Dans ce qui suit figure une description des
descripteurs les plus importants.
Le « Color correlogram » :
Le « color correlogram » [2] a été proposé pour caractériser non seulement la
distribution des couleurs de pixels, mais aussi la corrélation spatiale entre les
(1.4)
(1.5)
Chapitre 1 Etat de l’art
11
paires de couleurs. La première et la deuxième dimension de cet histogramme
tridimensionnel représentent la couleur de toutes les paires de pixels. La
troisième dimension représente leur distance spatiale. Le « color correlogram » est
une table indexée par les paires de couleurs, dans laquelle, la kième entrée spécifie
la probabilité de trouver un pixel de couleur j à une distance K d’un pixel de
couleur i dans l’image.
Soit P l’ensemble de pixels de l’image entière, Pc(i) représente l’ensemble de
pixels ayant la couleur c(i). Le « color correlogram » (𝛾𝑖 ,𝑗(𝑘)
) est défini comme suit :
kppPp jcPpPp
k
jiic
21)(2,
)(
, Pr2)(1
avec :
𝑖𝜖 1, 2,… ,𝑁𝑐 et 𝑗𝜖 1, 2,… ,𝑁𝑐 tel que 𝑁𝐶 représente le nombre de couleurs
représentant la dynamique de l’image.
𝑘𝜖 1,2,… ,𝑑 tel que d représente la distance maximale à considérer.
21 pp représente la distance entre les pixels p1 et p2.
Si on considère toutes les combinaisons de paires de couleurs, la taille du
« color correlogram » sera très grande (O (N2d)). Pourtant, une version plus simple
a été proposée. C’est le « color autocorrelogram » dans lequel on calcule la
corrélation spatiale entre les couleurs identiques. Ce qui permettra de réduire la
dimension à (O(N d)).
Le « color autocorrelogram » permet d’avoir des résultats de recherche plus
pertinents que ceux de l’histogramme. Mais, il reste limité par son coût élevé de
calcul et de comparaison.
La matrice de cooccurrence (MC):
La matrice de cooccurrence de niveaux de gris est la méthode d’analyse de
texture la plus connue. Elle est introduite initialement par Haralick [13]. A nos
jours, elle reste la méthode la plus populaire d’extraction de paramètres
texturaux. Ainsi, elle est utilisée par la majorité de systèmes de recherche
d’images [14] [15] et [16]. Elle permet d’estimer les propriétés liées aux
statistiques de second ordre de l’image. Chaque entrée de la matrice correspond à
la fréquence d'apparition d'un "motif" formé par deux pixels (de couleurs
respectifs i et j) séparés par une certaine distance d dans une direction
particulière par rapport à l'axe horizontal.
Elle est définie par:
𝑀𝐶𝑑 𝑖, 𝑗 = 𝑐𝑎𝑟𝑑
𝑎, 𝑏 , 𝑐,𝑑 𝜖𝑁2 × 𝑁2 , tel que
𝑐,𝑑 = 𝑎 + 𝑑𝑥 , 𝑏 + 𝑑𝑦 ,
𝐼 𝑎, 𝑏 = 𝑖 𝑒𝑡 𝐼 𝑐,𝑑 = 𝑗
(1.6)
(1.7)
Chapitre 1 Etat de l’art
12
avec :
𝑑 = (𝑑𝑥,𝑑𝑦) le vecteur de déplacement séparant le couple de points de
coordonnées respectifs (a,b) et (c,d).
I(x,y) est l’intensité du point de coordonnées (x,y).
𝑁2 l’ensemble des points du plan.
La matrice de cooccurrence a montré sa capacité de bien caractériser les
textures aléatoires car elle se base sur des calculs statistiques et non pas sur
l’extraction des primitives qui sont, en général, caractéristiques d’une texture
artificielle. Les MC ne sont pas convenables pour les textures à primitives larges
[17]. En plus, elles sont utilisées dans la tâche de classification de texture et non
pas dans la segmentation [7].
Avant l’extraction des paramètres de la MC, on effectue une normalisation
des éléments de la matrice. C'est-à-dire, on divise chaque élément de la matrice
par le nombre total des couples de couleurs, séparés par la distance 𝑑 = 𝑑 dans
la direction , de l’image.
Dans tout ce qui suit, nous désignons par 𝑃𝑑 (𝑖, 𝑗) la nouvelle matrice
normalisée correspondant à la matrice 𝑀𝐶𝑑 (𝑖, 𝑗) et par 𝑁𝑁𝐺 le nombre de niveaux
de gris sur lequel on représente la dynamique de l’image.
A partir de la matrice 𝑃𝑑 (𝑖, 𝑗), on peut extraire plusieurs paramètres qui
contiennent des informations qualitatives sur la finesse, la directionnalité et la
granularité de la texture :
o Contraste :
L’indice de contraste exprime le passage fréquent d’un pixel clair à un
pixel foncé ou inversement. Si l’image contient peu de régions homogènes, le
contraste sera élevé. Ce paramètre permet aussi de caractériser la dispersion
des valeurs de la matrice par rapport à sa diagonale principale.
𝐶𝑜𝑛𝑡𝑟𝑎𝑠𝑡𝑒 = 𝑖 − 𝑗 2 𝑃𝑑 𝑖, 𝑗
𝑁𝑁𝐺
𝑗=1
𝑁𝑁𝐺
𝑖=1
o Energie :
Ce paramètre mesure l'homogénéité de l'image. L'énergie a une valeur
d'autant plus faible qu'il y a peu de zones homogènes : dans ce cas, il existe
beaucoup de transitions de niveaux de gris.
𝐸𝑛𝑒𝑟𝑔𝑖𝑒 = 𝑃𝑑 𝑖, 𝑗 2
𝑁𝑁𝐺
𝑗=1
𝑁𝑁𝐺
𝑖=1
(1.8)
(1.9)
Chapitre 1 Etat de l’art
13
o Corrélation :
𝐶𝑜𝑟𝑟é𝑙𝑎𝑡𝑖𝑜𝑛 = 𝑖 − 𝜇𝑥 𝑖 − 𝜇𝑦 𝑃𝑑 𝑖, 𝑗
𝑁𝑁𝐺
𝑗=1
𝑁𝑁𝐺
𝑖=1
où 𝜇𝑥 et 𝜇𝑦 représentent les moyennes respectivement aux lignes et aux
colonnes de la matrice.
o La corrélation normalisée :
Ce paramètre permet de déterminer si certaines colonnes de la matrice
sont égales. Plus les valeurs sont uniformément distribuées dans la matrice,
plus la corrélation est importante.
𝐶𝑜𝑟𝑟é𝑙𝑎𝑡𝑖𝑜𝑛𝑁𝑜𝑟𝑚𝑎𝑙𝑖𝑠é𝑒 = 𝑖 𝑗 𝑃𝑑 𝑖, 𝑗 − 𝜇𝑥 𝜇𝑦
𝜎𝑥 𝜎𝑦
𝑁𝑁𝐺
𝑗=1
𝑁𝑁𝐺
𝑖=1
avec 𝜎𝑥 et 𝜎𝑦 représentent les écarts types respectivement aux lignes et aux
colonnes de la matrice.
o Entropie :
L’indice d’entropie exprime le degré de désordre dans la texture. Il est
d’autant plus faible qu’on a souvent le même couple de niveaux de gris. Mais,
lorsque les valeurs de la matrice sont presque toutes égales, l'entropie est
élevée. Ceci permet de caractériser le degré de granulation de l'image. Plus
l'entropie est élevée, plus la granulation est grossière.
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 = − 𝑃𝑑 𝑖, 𝑗
𝑁𝑁𝐺
𝑗=1
𝑁𝑁𝐺
𝑖=1
ln 𝑃𝑑 𝑖, 𝑗 𝑃𝑑 𝑖 ,𝑗
avec 𝑃𝑑 𝑖 ,𝑗 =
1 si 𝑃𝑑 𝑖, 𝑗 ≠ 0
0 sinon
o Directivité :
La directivité exprime la présence éventuelle d’une certaine orientation.
Elle est d’autant plus grande qu’il y a des pixels de même niveau de gris
séparés par une translation t.
𝐷𝑖𝑟𝑒𝑐𝑡𝑖𝑣𝑖𝑡é = 𝑃𝑑 𝑖, 𝑖
𝑁𝑁𝐺
𝑖=1
(1.10)
(1.11)
(1.12)
(1.13)
Chapitre 1 Etat de l’art
14
o Moment différentiel inverse ou homogénéité locale :
L’indice d’homogénéité est d’autant plus élevé qu’on retrouve souvent le
même couple de pixels. Ce qui exprime soit l’uniformité de la texture, soit la
périodicité dans la direction du vecteur de translation t.
Ce paramètre a un comportement inverse au contraste. Plus la texture
possède de régions homogènes, plus le paramètre est élevé.
𝐻𝑜𝑚𝑜𝑔é𝑛é𝑖𝑡é = 𝑃𝑑 𝑖, 𝑗
1 + 𝑖 − 𝑗 2
𝑁𝑁𝐺
𝑗=1
𝑁𝑁𝐺
𝑖=1
Malgré leurs succès dans la tâche de classification des textures, l’utilisation
des matrices de cooccurrence est limitée par quelques difficultés. Ainsi, on n’a
pas une méthode consistante de sélection de la valeur du vecteur de
déplacement d et le calcul des matrices de cooccurrence pour les différentes
valeurs de d n’est pas pratique. Aussi, un nombre important d’attributs peut
être calculé à partir de cette matrice. Ce qui nécessite l’utilisation d’une
méthode de sélection d’attributs pour sélectionner les attributs les plus
pertinents.
La méthode de différence de niveaux de gris :
Pour éviter le taux de calcul élevé requis pour calculer les matrices de
cooccurrence, surtout si on utilise plusieurs valeurs de 𝑑 (vecteur de
déplacement), on utilise la méthode des différences de niveaux de gris. On
commence par calculer une image de différence entre l’image initiale et une
image translatée par le vecteur de déplacement 𝑑 (𝑑𝑥,𝑑𝑦). Par la suite, on calcule
le nombre d’apparition des différentes différences de niveaux de gris.
Soit 𝐼1 l'image digitalisée initiale et 𝑑 (𝑑𝑥,𝑑𝑦) le déplacement. Avec 𝑑𝑥 et 𝑑𝑦
des entiers. L'image de différence 𝐼𝑑 est définie suivant l’équation 1.16 :
𝐼𝑑 𝑥,𝑦 = 𝐼1 𝑥,𝑦 − 𝐼1 𝑥 + 𝑑𝑥, 𝑦 + 𝑑𝑦
avec 𝐼𝑑 𝑥,𝑦 représente un pixel, de l’image 𝐼𝑘 (𝑘𝜖 𝑑, 1 ) ayant la dimension
𝑚 × 𝑛, de coordonnés (𝑥,𝑦) tel que 𝑥 = 1,… ,𝑚 et 𝑦 = 1,… , 𝑛
Soit une fonction 𝑓 𝑖 𝑑 définissant la densité de probabilité associée aux
valeurs possibles de 𝐼𝑑 . On a alors :
𝑓 𝑖 𝑑 = 𝑃 𝐼𝑑 𝑥, 𝑦 = 𝑖
On peut calculer les paramètres suivants pour caractériser la texture :
o Moyenne :
𝑀𝑜𝑦𝑒𝑛𝑛𝑒 = 𝑖 𝑀𝑖=1 𝑓 𝑖 𝑑
avec, M le nombre de différences de niveaux de gris
(1.14)
(1.15)
(1.16)
(1.17)
Chapitre 1 Etat de l’art
15
o Contraste :
𝐶𝑜𝑛𝑡𝑟𝑎𝑠𝑡𝑒 = 𝑖2
𝑀
𝑖=1
𝑓 𝑖 𝑑
o Moment angulaire d’ordre deux ou uniformité :
𝑈𝑛𝑖𝑓𝑜𝑟𝑚𝑖𝑡é = 𝑓 𝑖 𝑑 2
𝑀
𝑖=1
o Entropie :
𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑒 = −
𝑀
𝑖=1
𝑓 𝑖 𝑑 ln 𝑓 𝑖 𝑑
o Moment de différence inverse "Inverse Difference Moment" :
𝐼𝐷𝑀 = 𝑓 𝑖 𝑑
𝑖2 + 1
𝑀
𝑖=1
1.2.1.3. Filtre de Gabor :
Un filtre de Gabor est une fonction sinusoïdale à laquelle on a rajouté une
enveloppe gaussienne et orientée avec un angle à partir de l’axe horizontal.
Dans le domaine spatial, le filtre de Gabor est défini comme suit:
avec :
𝑥𝜃 = 𝑥 cos 𝜃 + 𝑦 sin𝜃 𝑦𝜃 = −𝑥 sin𝜃 + 𝑦 cos𝜃 𝜎𝑥 (respectivement 𝜎𝑦 ) est l’écart type de la gaussienne selon l’axe
horizontal (respectivement vertical).
𝑓 est la fréquence de la sinusoïde le long de la direction de l’axe 𝑋𝜃 .
Turner [10] est le premier qui a utilisé un banc1 de filtres de Gabor pour
analyser des textures. Par la suite, les filtres de Gabor ont été utilisés dans
plusieurs applications comme la segmentation de la texture [18], la détection de
1 Un banc de filtres de Gabor est un ensemble de filtres qui ont des différentes fréquences et orientations
(1.18)
(1.19)
(1.20)
(1.21)
(1.22)
Chapitre 1 Etat de l’art
16
défauts [19], la reconnaissance de visages, le suivi de mouvement [20] et la
recherche d’images [21] [16].
Dans la littérature, les filtres de Gabor sont utilisés pour modéliser la
réponse du système visuel humain. En effet, ce dernier décompose les images
texturées en un nombre important d’images filtrées dont chacune contient les
variations d’intensité à travers une bande de fréquence et une orientation bien
déterminées [22]. De la même façon, l’idée de l’approche Gaborienne est de
concevoir un filtrage particulièrement sélectif en fréquence et en orientation dans
le but de caractériser, aux détails près, les textures [23]. Le banc de filtres de
Gabor est un ensemble de filtres construits à partir de la fonction ),,,( fyxh tout
en prenant un ensemble de valeur d’angle et de fréquence 𝑓.Concernant le
choix des angles de banc du filtre, Ilonen [24] démontre la nécessité de choisir un
ensemble d’angles i uniformément réparties :
𝜃𝑖 =2𝜋𝑖
𝑛 , 𝑖 = {0, 1, 2,… ,𝑛 − 1}
avec 𝜃𝑖est la i ème orientation et 𝑛 le nombre d’orientations.
Le calcul peut être réduit au moitié vu que les réponses aux angles ]2,[
sont des complexes conjugués aux réponses sur ],0[ dans le cas des valeurs
d’entrée réelles [23].
Pour les valeurs de la fréquence, elles vérifient l’expression suivante :
maxfKf i
i
, 1,...,2,1,0 mi
avec if est la i ème fréquence et m le nombre de fréquences.
Généralement, on choisit 2K ou 2K .
La Figure 2 montre des exemples du filtre de Gabor dans le domaine spatial.
La taille du filtre :101x101
20 ,20/1 ,45 yxf
La taille du filtre :101x101
20,20/1,45 yxf
La taille du filtre :101x101
20 ,30/1 ,0 yxf
La taille du filtre :101x101
20,30/1,0 yxf
Figure 2: Exemples des filtres de Gabor
(1.23)
(1.24)
Chapitre 1 Etat de l’art
17
Ainsi appliqué à une image, un filtre de Gabor peut être vu comme un
détecteur de segments d’orientation particulière comme le montre la Figure 3.
Après la convolution du filtre avec l’image, on calcule la moyenne et la
variance de l’image filtrée [25]. Ces deux paramètres vont caractériser la réponse
de l’image au filtre utilisé. Par la suite, la signature de texture de l’image est
formée par l’ensemble des attributs statistiques calculés à partir des images
filtrées.
1.2.1.1. Longueurs de plages:
Malgré le succès des matrices de cooccurrence pour la discrimination de la
texture, elles sont incapables de capturer l’aspect de forme des primitives
texturaux [26]. Pour mettre en valeur la forme de ces primitives et pour compléter
la description de la texture des maladies touchant le parenchyme des poumons
(« Obstructive Lung Deseases »), Chabat [26] utilise les paramètres statistiques
dérivés de la matrice de longueurs de plages (« acquisition length parameters »).
Une plage de niveaux de gris (ou un isosegment) est un ensemble de pixels
consécutifs, dans une direction donnée, ayant le même niveau de gris [27]. La
longueur d’une plage est le nombre de pixels dans cet ensemble. A chaque
direction, on peut associer une matrice de longueurs de plages .)),(( jipP
L’élément ),( jip de cette matrice représente le nombre de plages de longueur j,
dans la direction , constituées de pixels de niveau de gris i. La taille de la
matrice est 𝑛 × 𝐿𝜃 : n est la valeur maximale de l’intensité de niveaux de gris des
pixels de l’image et 𝐿𝜃 correspond à la longueur de la plus longue plage de
niveaux de gris de l’image ou de la région d’intérêt.
=
2/1
90
f
=
2/1
0
f
Figure 3: Exemple de convolution des filtres de Gabor sur une image
Chapitre 1 Etat de l’art
18
Les longueurs de plages sont utilisées, aussi, dans la compression des
données en utilisant le codage RLE « Run Length Encoding ». Les formats de
fichiers utilisant cette méthode de compression sont : PackBits, PCX, ILBM, etc.
[8]. Dans la méthode RLE, le support d’informations est changé en utilisant une
extension d’ordre 2 [28]. En fait, au lieu de décrire l’image pixel par pixel, on
forme, en lisant l’image ligne par ligne, des couples (longueur de plage, intensité),
où la longueur de plage est le nombre de pixels consécutifs ayant la même valeur
d’intensité. Cette méthode est efficace pour les images « simples », mais elle
devient inadéquate lorsque les images sont complexes (scènes naturelles par
exemple). Pour décrire efficacement la texture des images naturelles ou
médicales, plusieurs auteurs procèdent par réduire le nombre de couleurs de
l’image. Par exemple dans [26], on utilise 16 niveaux de gris afin d’avoir des
longueurs de plages significatives permettant une bonne approximation de la
grossièreté de la texture des images TDM des poumons. Pourtant, dans [29] les
auteurs proposent de quantifier les couleurs des images TDM de l’abdomen en 32
niveaux de gris. Ils étendent la méthode de longueurs de plages pour analyser
l’aspect tridimensionnel des textures des organes de l’abdomen.
Ce descripteur peut être calculé d’une manière locale « à partir d’une région
d’intérêt donnée » ou globale « à partir de l’image entière ».
Après le calcul de cette matrice pour la région d’intérêt, on peut extraire les
attributs suivants pour caractériser le motif de texture de la région étudiée :
o Nombre de Longueurs de Plages (NLP) :
1
0 1
),(n
i
L
j
jipNLP
avec :
n est la valeur maximale de l’intensité de niveaux de gris des pixels
de la RI.
𝐿𝜃 correspond à la longueur de la plus longue plage de niveaux de
gris de la RI dans la direction 𝜃.
Cet attribut correspond au nombre total des primitives de niveaux de gris
dans la RI de niveau de gris i et de longueur de plage j.
o Pourcentage de Plages (PP) :
N
NLPPP
avec N le nombre total des pixels de la région d’intérêt.
o Accentuation de Courtes Plages (ACP) :
1
0 12
),(1 n
i
L
j j
jip
NLPACP
(1.25)
(1.26)
(1.27)
Chapitre 1 Etat de l’art
19
Cet attribut met en valeur la prédominance des courtes primitives de
niveaux de gris dans une direction donnée du motif de texture étudié. Il atteint
sa valeur maximale pour les textures fines.
o Accentuation de Longues Plages (ALP) :
1
0 1
2 ),( 1 n
i
L
j
jipjNLP
ALP
Cet attribut met en valeur la prédominance des longues primitives de
niveaux de gris dans une direction donnée du motif de texture étudié. Il atteint
sa valeur maximale pour les textures grossières.
o Non-Uniformité des Niveaux de Gris (NUNG) :
21
0 1
),(1
n
i
L
j
jipNLP
NUNG
Cet attribut permet de mesurer la dispersion des plages entre les niveaux de
gris. Une grande valeur de cet attribut indique que le motif de texture est formé
par un nombre réduit de niveaux de gris.
o Non-Uniformité de Longueurs de Plages (NULP) :
2
1
1
0
),(1
L
j
n
i
jipNLP
NULP
Cet attribut permet de mesurer la dispersion des plages entre les différentes
longueurs. Une grande valeur de cet attribut indique que le motif de texture est
formé par des primitives de niveaux de gris ayant un nombre réduit de longueur
de plages.
o Accentuation des Plages à Niveaux de Gris bas (APNGB) :
1
0 12
),(1 n
i
L
j i
jip
NLPAPNGB
Cet attribut mesure la distribution des plages à niveau de gris bas. Il est
d’autant plus grand pour les images à plusieurs plages à niveau de gris bas.
o Accentuation des Plages à Niveaux de Gris haut (APNGH) :
1
0 1
2 ),(1 n
i
L
j
ijipNLP
APNGH
Cet attribut mesure la distribution des plages à haut niveau de gris. Il est
d’autant plus grand pour les images à plusieurs plages à haut niveau de gris.
(1.28)
(1.29)
(1.30)
(1.31)
(1.32)
Chapitre 1 Etat de l’art
20
o Accentuation des Courtes Plages à Niveaux de Gris Bas (ACPNGB) :
1
0 122
),(1 n
i
L
j ji
jip
NLPACPNGB
Cet attribut mesure la distribution conjointe des courtes plages ayant un
niveau de gris bas. Il atteint de grandes valeurs pour les images à plusieurs
courtes plages à niveaux de gris bas.
o Accentuation des Courtes Plages à Niveaux de Gris Hauts (ACPNGH) :
1
0 12
2 ),(1 n
i
L
j j
ijip
NLPACPNGH
Cet attribut mesure la distribution conjointe des courtes plages ayant un
niveau de gris haut. Il atteint de grandes valeurs pour les images à plusieurs
plages courtes à niveaux de gris hauts.
o Accentuation des Longues Plages à Niveaux de Gris Bas (ALPNGB) :
1
0 12
2 ),(1 n
i
L
j i
jjip
NLPALPNGB
Cet attribut mesure la distribution conjointe des longues plages ayant un
niveau de gris bas. Il atteint de grandes valeurs pour les images à plusieurs
longues plages à niveaux de gris bas.
o Accentuation des Longues Plages à Niveaux de Gris Hauts (ALPNGH) :
1
0 1
22 ),(1 n
i
L
j
jijipNLP
ALPNGH
Cet attribut mesure la distribution conjointe des longues plages ayant un
niveau de gris haut. Il atteint de grandes valeurs pour les images à plusieurs
longues plages à niveaux de gris hauts.
1.2.2. Descripteurs de forme :
Afin de compléter la description de l’image, on utilise un ensemble de
descripteurs de forme qui vont caractériser les propriétés géométriques des
différentes régions constituant l’image. Contrairement aux descripteurs de
texture et de couleur, qui peuvent être utilisés pour décrire globalement l’image,
les descripteurs de forme décrivent des propriétés locales aux régions composant
l’image. Donc, leur robustesse sera fonction de l’exactitude de la préalable
segmentation et elle est, généralement, mesurée par le degré d’invariance à la
translation, rotation et au facteur d’échelle. Parmi ces descripteurs de forme, nous
citons :
(1.33)
(1.34)
(1.35)
(1.36)
Chapitre 1 Etat de l’art
21
Le périmètre : c’est le nombre des points de contours de l’objet.
La surface : c’est le nombre de points constituant l’objet.
La circularité : Elle est donnée par l’équation 1.37 :
∝=4𝜋𝑆
𝑃2,∝ ϵ[0,1]
avec 𝑆 représente la surface de l’objet et 𝑃 son périmètre. Lorsque l’objet a
une forme aplatie, la valeur de tend vers 0. Cependant, si l’objet est
arrondi, se rapproche de 1.
« edginess » :
𝐸𝑑𝑔𝑖𝑛𝑒𝑠𝑠 =𝑃é𝑟𝑖𝑚 è𝑡𝑟𝑒
𝑆𝑢𝑟𝑓𝑎𝑐𝑒
La rectangularité : c’est le rapport de la surface de l’objet par la surface du
rectangle minimal englobant cet objet comme le montre la Figure 4.
𝑅𝑒𝑐𝑡𝑎𝑛𝑔𝑢𝑙𝑎𝑟𝑖𝑡é =surface de l’objet
surface du rectangle minimal englobant
Moments invariants :
Les moments invariants sont des descripteurs de forme qui se basent sur la
totalité des pixels de l’objet [30]. Donc, ils ont la possibilité de décrire même les
formes complexes d’objets présentant des trous ou des objets disjoints. En outre,
ils sont robustes aux petites déformations du contour.
Le moment centré d’ordre p+q d’un objet 𝑅 est définie par :
Ryx
q
c
p
cqp yyxx),(
, )()(
avec (xc,yc) les coordonnées du centre de l’objet.
Ce moment central peut être normalisé pour qu’il soit invariant à
l’agrandissement. Le moment central normalisé 𝑝𝑞
d’ordre p+q se calcule comme
suit :
0,0
,qp
pq avec 2
2
qp
En se basant sur ces moments, un ensemble de moments invariants à la
translation, à la rotation et aux changements d’échelle peuvent être définis :
Figure 4 : Rectangle minimal englobant
(1.37)
(1.38)
(1.39)
(1.40)
(1.41)
Chapitre 1 Etat de l’art
22
2,00,21
2
1,1
2
2,00,22 4)(
2
1,23,0
2
2,10,33 )3()3(
2
1,23,0
2
2,10,34 )()(
2
2,10,3
2
1,23,01,23,01,23,0
2
1,23,0
2
2,10,32,10,32,10,35
)(3)())(3(
)(3)())(3(
))((4)()()( 1,23,02,10,31,1
2
1,23,0
2
2,10,32,00,26
2
1,23,0
2
2,10,32,10,33,01,27 )(3)())(3(
Descripteur de Fourier :
Le descripteur de Fourier est un descripteur de forme qui se calcule à partir
des points du contour de l’objet qui sont représentés dans le plan complexe. A
chaque point 𝑀𝑗 (𝑥𝑗 ,𝑦𝑗 ) du contour, on associe un nombre complexe 𝑧𝑗 = 𝑥𝑗 + 𝑖𝑦𝑗 .
On appelle alors descripteur de Fourier, les coefficients de la transformée de
Fourier (TF) Z de z [31] :
N
j
N
ijk
jk zZ1
)2
(
exp
avec N le nombre de pixels du contour, k l'ordre du descripteur
Les coefficients Zk pour 2/,12/ NNk jouissent de plusieurs propriétés
intéressantes :
- Pour k=0, Z0 est le centre de gravité de la forme. Si on l'omet, la description
est invariante par translation.
- Si tous les Zk sont nuls sauf pour K=1 la forme est un cercle de rayon Z1 ou
un polygone régulier à N côtés. Donc Z1 joue le rôle de facteur d'échelle. En
effet, la normalisation par Z1 rend la forme invariante par homothétie.
- la rotation n'affecte pas le module des descripteurs de Fourier mais elle
affecte leur phase. C'est-à-dire, si on omet la phase, le descripteur sera
invariant par rotation.
Donc, pour avoir un descripteur de Fourier invariant à la translation, à la
rotation et au facteur d’échelle, il suffit de considérer l’ensemble des descripteurs
ayant la forme : 𝑍𝑖 𝑍1, 𝑖 𝜖 {2,3,… ,𝑁/2} . Les premiers coefficients caractérisent la
forme générale de l’objet, alors que les derniers coefficients représentent les
détails de la forme.
(1.42)
(1.43)
(1.44)
(1.45)
(1.46)
(1.47)
(1.48)
(1.49)
Chapitre 1 Etat de l’art
23
1.3. Classification des systèmes de recherche d’images :
Les systèmes de recherche d’images (SRIm) sont communément classés
selon le paradigme de représentation d’images utilisé. Ce modèle influe
directement sur les différents composants du SRIm (module d’indexation,
d’interrogation et fonction de correspondance). Le choix du paradigme de
représentation d’images est une tâche très délicate, dans laquelle, on doit mettre
en question :
Le contexte d’exécution du système (milieu professionnel, Internet, usage
personnel) :
Ceci permet de prévoir la quantité des informations à traiter. En fait, le
système doit adopter des choix compatibles avec le contexte du système. Par
exemple, si on est dans le cadre d’un SRIm sur Internet, on ne peut pas choisir
des méthodes d’indexation supervisées. Pourtant, dans des applications
industrielles ou médicales, dans lesquelles la précision est primordiale, on peut
adopter des modules nécessitant l’intervention humaine.
Le besoin et le type d’utilisateurs concernés :
Le module de requête doit s’adapter, d’une part, aux besoins des utilisateurs
en adoptant les composants nécessaires à la formulation de leurs requêtes.
D’autre part, il doit prendre en compte les compétences de ses utilisateurs à
exprimer leur besoin. En fait, les systèmes visant un public d’utilisateurs non
spécialistes (comme AMORE [33], Altavista Photofinder [34] présentent une
interface intuitive et simple. Pourtant, d’autres systèmes à usage professionnel
(comme KMED [35] pour la médecine) nécessitent une préalable formation.
1.3.1. Les différents paradigmes de représentation d’images :
Nous distinguons, principalement, les trois types de SRIm classés selon le
paradigme de représentation d’images utilisé :
Le paradigme orienté-contexte :
La première génération des SRIm s’est basée essentiellement sur le
paradigme orienté-contexte (le contexte est extrait à partir des données textuelles
jointes à l’image). L’image est identifiée essentiellement par son contexte qui se
limite à un ensemble de mots supposés pertinents avec le contenu des images. Le
problème d’indexation d’images se transforme en un problème d’indexation de
son contexte. Ceci a été déjà exploré et développé pour les BDD textuelles. Ce
paradigme présente la limite de la faiblesse d’expression du langage de requêtes
utilisé qui ne permet pas de répondre aux besoins, de plus en plus complexes, des
utilisateurs. En plus, il est inapproprié dans le cas d’absence de contexte.
Chapitre 1 Etat de l’art
24
Dans ce type de systèmes, le contenu effectif de l’image n’est pas pris en
considération. On essaye, généralement, soit de joindre les informations factuelles
de l’image (auteur, date/lieu de prise, etc.), soit d’analyser automatiquement le
contexte de l’image pour en associer des mots clés. Il existe plusieurs méthodes
d’indexation de contexte. Parmi lesquelles nous citons :
- L’indexation plein texte : Le texte décrivant l’image est assigné à
l’image sans lui appliquer aucun traitement.
- La signature : Elle vise à construire des filtres permettant d’éliminer
rapidement les données non pertinentes avec la requête de
l’utilisateur. La codification superposée « Superimposed Coding »
[36] est l’une des méthodes de création de signature les plus
utilisées.
Le paradigme orienté-contenu :
La génération suivante de SRIm, adopte le paradigme orienté-contenu
(contenu visuel de l’image). Dans cette approche, on cesse de considérer l’image
comme une boite noire. C'est-à-dire, la description de l’image est devenue plus
objective. La tâche la plus difficile c’est la traduction des besoins des utilisateurs
qui sont souvent de haut niveau à des attributs visuels de bas niveau qui sont
dépourvus de toute sémantique. Malgré le développement des techniques de
reconnaissance de formes, leur utilisation reste limitée par leur coût de calcul
élevé.
L’image est décrite par ses caractéristiques physiques. Ce paradigme est
utilisé dans les domaines où la quantité et l’hétérogénéité des images sont
importantes. La similarité entre les images est calculée en se basant sur une
fonction de similarité entre les descripteurs choisis.
Le paradigme orienté-sémantique :
Le paradigme orienté-sémantique adopté par plusieurs SRIm actuels, essaye
de tirer profit des avantages des deux paradigmes précédents tout en réduisant le
fossé entre le modèle d’image compréhensible par l’utilisateur et celui du
système. L’inconvénient principal de cette approche concerne la subjectivité
incontournable de la description de l’image. Une solution proposée consiste à
utiliser un thésaurus qui correspond à la mise en place d’un dictionnaire qui
regroupe d’une part les concepts de base (mots clés) et d’autre part un ensemble
de relations sémantiques (équivalence, association, hiérarchie, etc.). Ceci permet
d’atténuer le problème issu de la diversité de choix de termes. Pourtant, la
subjectivité d’interprétation du contenu sémantique demeure un obstacle, car
cette interprétation est fortement liée au besoin d’information exprimé par
l’utilisateur, sa compétence à formuler sa demande et le point de vue à partir
duquel il interprète l’image. En plus, l’abstraction de l’image par un ensemble fini
de descripteurs provoque une forte perte d’informations non prises en compte
Chapitre 1 Etat de l’art
25
pendant l’indexation. L’interprétation de la sémantique de l’image est manuelle
dans la plupart des systèmes. Ce qui augmente le coût financier de ces systèmes.
On essaye d’interpréter le contenu de l’image tel qu’il est perçu par l’être
humain afin de faciliter sa recherche. Les informations qui décrivent l’image sont
définies soit manuellement par l’utilisateur en associant quelques annotations
reflétant sa propre interprétation à propos de l’image, soit en adoptant une
stratégie d’apprentissage.
Conclusion :
Avant de choisir le paradigme de représentation d’image d’un SRIm, on
doit se concentrer sur le besoin des utilisateurs, leurs compétences d’interaction
avec le système et la faisabilité du modèle choisi.
1.3.2. Exemples de systèmes de recherche d’images :
Dans ce qui suit, nous décrivons le fonctionnement de quelques systèmes
qui présentent une illustration des paradigmes de représentation d’images
précédemment décrits:
AMORE « Advanced Multimedia Oriented Retrieval Engine » :
C’est l’un des moteurs de recherche d’images sur le web. Il adopte le
paradigme orienté contexte et le paradigme orienté contenu. Il permet de
rechercher les images par mots-clés, par thème et par comparaison d’images [33].
Dans ce qui suit, nous décrivons, essentiellement, la méthodologie utilisée dans
AMORE pour attribuer des mots clés aux images.
L’apport essentiel du système AMORE, c’est l’approche utilisée pour
associer la sémantique aux images à partir de son contexte. Pour faire face à la
difficulté du choix des mots clés pertinents avec la sémantique de l’image,
AMORE associe un ensemble de mots clés à l’image. Les mots clés sont collectés,
principalement, à partir du texte entourant l’image.
Afin de s’adapter à la taille de l’Internet, l’association des mots clés doit être
faite automatiquement. AMORE utilise les informations textuelles suivantes
comme source de collection des mots clés :
o Le URL de l’image : Les mots clés de l’URL « Uniform Resource Locator »
sont souvent pertinents avec le contexte de l’image.
o Le lien hypertexte « Anchor » de l’image : Lorsque l’image est utilisée
comme lien à un autre document, le nom de ce dernier porte une
information sur le contexte de l’image.
o Le texte alternatif « ALT » : C’est l’annotation textuelle associée à l’image.
Elle apparaît dans le cas d’échec de chargement de l’image ou lorsqu’on
survole le curseur de la souris sur l’image.
Chapitre 1 Etat de l’art
26
o Les paragraphes « Headings » de la page Web : Ils sont souvent utilisés
pour donner une idée générale sur le contenu du paragraphe.
o Le texte contenu dans la page : Dans plusieurs cas, le texte entourant
l’image décrit les détails de l’image.
En considérant les sources de mots clés ci-dessus, on rencontre souvent des
ambiguïtés dues à la proximité du texte de deux images différentes. Dans des cas
pareils, AMORE procède comme suit :
o Distance visuelle : Lorsqu’un texte apparaît entre deux images, on calcule
la distance visuelle qui le sépare de chacune d’elles. On assigne le texte à
l’image la plus proche.
o Distance syntaxique : Dans certains cas, le texte est de la même distance à
deux images. Dans ce cas, on calcule la distance syntaxique entre le texte et
le nom de chaque image. C’est le rapport entre le nombre de caractères
communs apparaissant dans le même ordre et le nombre de caractères du
nom de l’image. Le texte sera assigné à l’image la plus proche
syntaxiquement.
o Régularité du modèle d’annotation : En général, l’annotation des images
au sein de la page web suit le même modèle. Ceci permet, dans certains
cas, de résoudre quelques ambiguïtés d’annotation.
La première version du système AMORE utilise une approche simple de
calcul de similarité qui introduit une pondération permettant de réduire l’effet
des mots fréquents dans la collection grâce à l’IDF « Inverse Document
Frequency». Ensuite, les concepteurs d’AMORE ont constaté que la popularité
d’un terme dans une page donnée diminue considérablement la précision du
système. Ce qui a nécessité d’introduire la notion de « inverse in-site frequency »
qui est similaire à l’IDF sauf qu’elle concerne le site web en cours. En plus, ils ont
remarqué que les mots clés les plus pertinents sont : le « ALT Text », « Anchor
Text», le nom de l’image, le titre de la page et les courts textes entourant l’image.
Ils proposent, alors, d’attribuer plus de poids à ces termes.
L’apport essentiel du système AMORE réside dans l’heuristique
d’annotation automatique qui essaye de tirer profit du contexte de l’image pour
identifier sa sémantique.
QBIC « Query By Image Content »:
C’est l’un des premiers SRIm adoptant le paradigme orienté-contenu. Il a été
développé par « IBM Research division » dans le but d’effectuer la recherche
d’images et de vidéos par leurs contenus visuels [11]. Ceci n’exclue pas la
possibilité d’utilisation des mots clés dans la recherche. L’approche proposée
dans ce système essaye de surmonter les limites de l’approche orientée contexte.
Ces limites se manifestent dans la forte dépendance aux vocabulaires utilisés
Chapitre 1 Etat de l’art
27
dans l’indexation et l’impossibilité de lancer des requêtes sur le contenu visuel
des images. Par la suite, les concepts négligés lors de l’indexation ne seront pas
accessibles. D’où, nous tirons que QBIC représente un complément aux
approches orientées contexte.
QBIC permet de répondre principalement à trois types de requêtes.
- Des requêtes par l’image exemple : L’utilisateur fournit une image requête.
- Des requêtes par dessin de croquis : L’utilisateur dessine un croquis
présentant l’allure générale de l’objet souhaité.
- Des requêtes par couleur dominante/texture : L’utilisateur précise le
pourcentage des couleurs ainsi que la texture des images souhaitées.
La sémantique est liée soit manuellement aux objets, pendant la population
de la base de données par l’utilisateur, soit automatiquement grâce à des
techniques de reconnaissance de formes.
Malgré sa capacité de répondre aux requêtes par mots clés, QBIC est classé
comme étant un système orienté contenu. Ceci peut être expliqué par l’optionalité
de l’ajout des termes sémantiques.
Le modèle de données de QBIC est constitué par :
- Les scènes (images entières) et les objets qui sont des sous-ensembles de
l’image. En interne, chaque objet sera représenté par un masque binaire.
- Les Séquences vidéos sont composées par des images contigües et
contenant des objets en mouvement.
L’indexation des données tabulaires « tabular data », pour l’appariement
exact ou la recherche par intervalles dans les bases de données traditionnelles, est
un problème bien connu. Plusieurs solutions sont proposées (B tree, R tree, …)
permettent l’indexation efficace de ces données et garantissent un temps de
recherche sous linéaire tout en maintenant la complétude des résultats. Par
contre, dans le contexte de recherche par le contenu visuel, les méthodes
d’indexation traditionnelles ne sont pas adéquates. Ainsi, la similarité est définie
comme une distance dans un espace d’attributs multidimensionnels. Ce qui
nécessite des méthodes de groupement « clustering » et des représentations
indexées des clusters.
Pour une petite base de données, il suffit d’appliquer un parcours
séquentiel, dans lequel, la requête est comparée avec toutes les images. Mais,
dans une grande base de données, ceci n’est pas envisageable. Pour faire face à ce
problème, QBIC utilise les deux techniques suivantes :
o Filtrage : Un filtre de faible coût de calcul est appliqué à la totalité de la
base de données (distance entre les moyennes de couleurs), dans le but
d’éliminer les faux candidats. Par la suite, les candidats retenus entament
Chapitre 1 Etat de l’art
28
le second niveau de calcul de similarité avec la requête (distance
quadratique entre les histogrammes).
o Indexation : Pour les attributs de faibles dimensions comme la moyenne
des couleurs et les attributs de texture, les méthodes d’indexation
multidimensionnelle (arbre R*) peuvent être utilisées.
A coté des attributs de couleur (moyenne, histogramme), QBIC utilise une
version modifiée des caractéristiques de texture (coarsness, contrast,
directionnalité) proposées par Tamura [2]. Pour caractériser la forme des objets,
QBIC utilise un vecteur à vingt dimensions (surface, circularité, excentricité,
orientation de l’axe principal, un ensemble de moments invariants). La taille de ce
vecteur est réduite en utilisant l’ACP (Analyse en Composantes Principales).
Afin de supporter la recherche par croquis QBIC associe, à chaque image,
une image réduite représentant les contours de l’image extraits par le détecteur
de contour de Canny [37]. La similarité est proportionnelle au score
d’appariement calculé entre cette image et l’image requête.
KMED « Knowledge-Based Multimedia Medical Distributed Database
System » :
Le système KMED [35] est l’un des PACS « Picture Archiving and
Communication Systems » les plus connus. Le modèle de données présenté dans
ce système permet de modéliser l’évolution spatiale et temporelle des objets de
l’image. En fait, ce modèle représente une évolution du système orienté objet
classique en intégrant d’autres composants nécessaires pour répondre aux
requêtes portant sur les relations spatiales orthogonales (nord, ouest, etc.) et
topologiques (séparer, intersecter, contenir, etc.), les relations temporelles qui
modélisent l’existence des objets et les relations évolutives qui représentent la
mutation des objets (fission, fusion, évolution).
Le modèle sémantique de ce système comprend quatre couches :
o Couche des données brutes « row data layer » :
Cette couche permet de servir les données brutes (images) aux autres
couches qui n’ont pas besoin de savoir les techniques de compression et de
codage utilisées.
o Couche de caractéristiques visuelles et spatiales « feature and content
layer » :
Cette couche permet d’extraire les caractéristiques des images (contour,
texture, etc.) et les relations spatiales entre les objets identifiés soit par un
expert, soit automatiquement par des techniques de reconnaissance de formes.
o Couche de schéma « schema layer » :
Dans cette couche, on construit un schéma de la BDD qui représente les
Chapitre 1 Etat de l’art
29
relations spatiales entre les objets. On trouve les entités « stream entities » qui
représentent l’évolution des objets dans le temps.
o Couche de la connaissance « Knowledge Layer » :
Elle permet de classifier les objets ainsi que leurs relations spatiales dans des
structures hiérarchiques TAH « Type Abstraction Hierarchy » en utilisant
l’algorithme de groupement MDISC. Afin de permettre la recherche via les
prédicats conceptuels (loin, proche, …), on annote manuellement, les nœuds de
cette structure hiérarchique. Chaque annotation est associée à un intervalle de
valeurs pour permettre la conversion de la requête sémantique en une requête
ordinaire.
Dans KMED, pour chaque classe d’utilisateurs, on spécifie les préférences
d’appariement et la politique de relaxation. Ainsi, on définit pour chaque type de
requêtes et pour chaque objet si l’appariement est obligatoire ou optionnel et on
définit l’ordre de relaxation associé. C'est-à-dire le degré d’imprécision qu’on
peut tolérer pour répondre à la requête. Ceci est nécessaire dans le cas d’absence
de solution exacte. Chaque utilisateur peut personnaliser son profil.
Pour lancer une requête, l’utilisateur utilise une interface visuelle dédiée.
Ensuite, le système traduit la requête visuelle en une forme algébrique
compréhensible par le processeur de requêtes. Il sélectionne les attributs et les
relations spatiales mis en jeu dans la requête tout en tenant compte de la classe de
l’utilisateur en cours. En se basant sur ces données, le système sélectionne les
TAH appropriés et répond aux requêtes sémantiques en se basant sur les
annotations textuelles portées par les nœuds de la TAH. Le langage de requêtes
KSTL « Knowledge-based spatial temporal query language » substitue les termes
sémantiques par les intervalles de valeurs correspondants pour transformer la
requête en une forme habituelle dépourvue des termes sémantiques et qui peut
être traitée par un processeur de requêtes ordinaire.
1.3.3. Les systèmes de recherche d’images en médecine :
1.3.3.1. La recherche textuelle d’images médicales :
Avant l’émergence de la recherche d’images par le contenu, les systèmes de
recherche d’images décrivent les images médicales grâce à un ensemble de
métadonnées, ajoutées manuellement, décrivant le contenu de l’image (la
pathologie, des informations sur le patient, la région anatomique, etc.) et d’autres
informations ajoutées par le matériel d’acquisition (modalité, paramètres
d’acquisition, etc.). Avec l’accroissement continu des BDD d’images médicales,
cette solution perd son efficacité car elle ne permet de répondre qu’à un nombre
limité de requêtes booléennes standards (exemple : Donner les images TDM de la
base, Montrer tous les images du cœur,…). En plus de la limitation du langage de
requête, cette approche est inconcevable pour les institutions produisant un
Chapitre 1 Etat de l’art
30
nombre énorme d’images. Mueller [38} signale que le nombre d’images médicales
produites par l’hôpital universitaire de Genève dépasse 12 000 images par jour.
Donc, l’annotation textuelle des images médicales ne sera pas limitée seulement
par le temps énorme nécessaire, mais, aussi, elle engendre des coûts financiers
énormes. Même pour des BDD de petite taille, dans lesquelles on peut négliger
les coûts d’annotation textuelle, on aura d’autres problèmes qui découlent
essentiellement de la subjectivité de l’interprétation du contenu visuel des images
médicales riches d’informations incertaines. Ainsi, la même région pathologique
peut être interprétée différemment par deux radiologues présentant chacun une
expérience différente dans le domaine de radiologie. Un autre problème évoqué,
pour l’approche textuelle d’indexation et de recherche d’images, consiste à la
difficulté de décrire certains concepts (comme la forme d’une tumeur ou l’aspect
visuel d’une texture) par des termes exacts et standards.
Dans cette représentation textuelle d’images médicales, le contenu effectif
des images n’est que partiellement pris en compte [39]. Par la suite, tout aspect
non traité pendant l’indexation textuelle ne sera pas accessible. Tous ces
problèmes, ont favorisé l’orientation vers l’approche de recherche d’images par le
contenu visuel.
1.3.3.2. La recherche d’images médicales par le contenu visuel :
Il est important de signaler que l’approche de recherche d’images par le
contenu visuel vise à complémenter les méthodes textuelles et non pas à les
remplacer. En général, le but de ces systèmes est d’automatiser l’indexation et la
recherche d’images médicales en se basant sur l’information visuelle extraite du
contenu brut de ces images, avec le minimum d’intervention humaine.
Similairement à l’approche d’indexation textuelle d’images médicales,
l’approche d’indexation par le contenu n’est pas en abri de certaines limites [40] :
La faible résolution et le bruit inhérent des matériels d’acquisition sont
deux caractéristiques de la plupart des images médicales [41]. Ces deux
problèmes augmentent la difficulté de la segmentation et abaissent les
performances du processus d’extraction des caractéristiques visuelles.
L’hétérogénéité des matériels d’acquisition qui adoptent des différentes
méthodes de normalisation et de correction d’images peut engendrer des
caractéristiques visuelles différentes pour le même organe scanné par deux
machines différentes [42].
La plupart des systèmes de recherche d’images par le contenu visuel
utilise la couleur comme support essentiel de recherche. Cependant, dans
le contexte des images médicales, cette information est généralement non
disponible [43].
Chapitre 1 Etat de l’art
31
L’approche de recherche d’images par le contenu visuel peut être utilisée
dans toutes les applications médicales qui ont besoin de lancer des requêtes
portant sur la similarité visuelle des images médicales. Les PACS sont des
systèmes d’archivage et de partage d’images médicales entre les différents
spécialistes d’imagerie médicales au sein des hôpitaux. Ils présentent les
principaux systèmes concernés par cette approche. A coté des PACS, la recherche
d’image par le contenu peut aider les chercheurs et les étudiants en médecine à
trouver des images, ayant des attributs particuliers, à partir des Atlas médicaux.
Une autre gamme d’applications, qui peut tirer profit de l’approche de la
recherche d’image par le contenu, correspond aux systèmes d’aide au diagnostic
ou CAD « Computer-Aided Diagnosis ». Ces applications sont conçues pour
faciliter le travail de radiologue [44]. Ce dernier se base toujours sur des cas
précédents pour analyser le contenu de l’image courante. Chaque radiologue a sa
manière de sauvegarde des cas types ou rares afin de les consulter, dans le future,
pour le diagnostic d’autres images. Suite à l’accumulation d’un nombre
important de cas, l’accès aux données collectées par le radiologue devient de plus
en plus difficile.
1.3.3.3. Les systèmes d’aide au diagnostic dans le domaine d’images
pulmonaires :
Le domaine d’analyse et de recherche d’images TDM du poumon (scan
thoracique) présente l’un des domaines dans lesquels les systèmes d’aide au
diagnostic améliorent la qualité du diagnostic [12]. Ces systèmes peuvent aider le
radiologue à détecter les nodules pulmonaires [45] [46] [16] ou à trouver des
images de poumons présentant des zones pathologiques ayant un aspect visuel
similaire à celles de l’image requête [6] [47] [48] [49] [50].
La majorité des systèmes d’aide au diagnostic des images de poumons se
base sur les images issues de la Tomodensitométrie ou T.D.M (en Anglais elle est
appelée Computed-Tomography ou CT). Cette modalité d’imagerie médicale est
recommandée lorsqu’on a besoin de détecter et d’évaluer l'étendu des tumeurs
dans les poumons et le médiastin. La TDM de thorax peut aussi détecter d'autres
maladies respiratoires, comme la tuberculose, l'emphysème, la dilatation des
bronches ou pour observer les hémorragies et le rassemblement des fluides à
l’intérieur des poumons [15].
Pour illustrer le fonctionnement de ce type de systèmes, nous allons
présenter deux systèmes de recherche d’images CT de poumons : le système
ASSERT [6] et le système développé par Sung-Nien Yu [15].
Le système ASSERT :
Le système ASSERT [6] est un système conçu pour la recherche d’images
HRCT « High-Resolution Computed Tomography » des poumons. Dans ce
Chapitre 1 Etat de l’art
32
système, on utilise une approche semi-automatique d’indexation et de recherche
qui requiert l’intervention d’un médecin « physician-in-the-loop approach ». Le
médecin délimite les régions pathologiques ou PBR (« pathology bearing
regions ») et trace quelques repères anatomiques. Ces repères correspondent aux
fissures qui séparent les lobes de chaque poumon. Ces repères vont être utilisés
dans la classification des LFS (« Lobular Feature Set ») en plusieurs classes selon
la région lobulaire et la pathologie affectant les PBR qu’elle contient. La
délimitation manuelle des PBR est nécessaire vu la difficulté de segmenter
automatiquement ces régions en utilisant les techniques de traitement d’images
actuelles. Chaque PBR est décrite par un vecteur d’attributs regroupant deux
types de descripteurs. Le premier type correspond aux descripteurs usuels de
texture et de forme. Cependant, le deuxième type correspond aux descripteurs
spécifiques pour chaque pathologie. La dimension du vecteur d’attributs est
réduite en utilisant l’algorithme SFS « Selection Forward Search » afin de réduire
le temps de calcul et pour éviter les problèmes d’indexation multidimensionnelle
issus de la grande dimension des vecteurs d’attributs, tout en maintenant le
pouvoir discriminant acceptable des attributs initiaux. Afin d’accélérer la
recherche, le système ASSERT utilise plusieurs techniques de filtrage. La
première technique consiste en une table de hachage qui permet de diviser
l’espace de recherche en plusieurs cases (« bins »). Chaque case correspond au
moins à une classe LFS. Après la consultation de la table de hachage, le système
retourne les images appartenant aux classes LFS contenues dans les cases
pointées par les LFS de l’image requête. Par la suite, on élimine les images qui
n’appartiennent pas à la classe d’équivalence des LFS de l’image requête. Enfin,
on choisit les quatre images les plus similaires à l’image requête en calculant la
distance euclidienne entre les vecteurs d’attributs des différents LFS de l’image
requête et ceux des images passant des deux filtres précédents. Il est à noter que
le système ASSERT a été testé et évalué en routine clinique [38].
Le modèle à trois objets des images CT de poumons :
S.N.Yu [15] propose un système de recherche d’images CT de la poitrine
dans lequel l’image est décrite par un graphe relationnel attribué. Le graphe est
formé par trois nœuds correspondant aux poumons et au médiastin. Ce graphe
forme une structure idéale dans les applications où les relations spatiales sont
importantes [3]. Dans ce système, les arcs du graphe portent des informations
concernant les relations spatiales entre les différentes régions représentées par les
nœuds du graphe. Cependant, les nœuds portent des informations qui
caractérisent la forme, pour le médiastin, et la texture, pour les deux poumons. Le
choix des attributs de chaque région tient compte de la nature des pathologies qui
peuvent l’affecter. En fait, le médiastin est souvent affecté par des pathologies qui
affectent sa forme comme la tumeur. Par contre, les pathologies qui affectent les
poumons sont identifiables par des variations de l’aspect visuel de la texture de la
région infectée. Ce modèle à trois objets permet de satisfaire trois types de
Chapitre 1 Etat de l’art
33
requêtes qui peuvent porter soit sur la forme du médiastin, soit sur la texture des
poumons, soit sur les différents attributs du graphe ainsi construit (« Searching
by Attributed Relational Graph »). Un autre apport de ce système réside dans
l’approche de segmentation automatique qui tire profit des caractéristiques des
images CT de la poitrine pour identifier les trois régions déjà citées.
1.4. Conclusion :
Durant cette recherche bibliographique sur l'indexation et la recherche
d’images par le contenu visuel, nous avons exploré, dans un premier lieu, les
différents descripteurs physiques utilisés dans la littérature. Le but principal de
ces descripteurs est de décrire efficacement et d’une manière concise le contenu
visuel riche en informations, dans le but de rendre possible la recherche en temps
réel des images similaires à l’image requête. En second lieu, nous avons présenté
les différents types de systèmes de recherche d’images partant des systèmes basés
sur la recherche textuelle et arrivant aux systèmes traitant les requêtes
sémantiques. En troisième lieu, nous avons mentionné les problèmes rencontrés
par la recherche textuelle des images médicales. Particulièrement, pour les
images de poumons, l’approche de recherche d’images, en se basant sur son
contenu visuel, est l’approche la plus efficace car l’information la plus utile réside
dans l’aspect de la texture qui ne peut pas être décrit efficacement avec des mots
standards. Durant ce travail, nous proposons une approche de recherche
d’images pulmonaires qui a pour but de répondre aux requêtes par l’exemple
(QBE : « Query By Exemple »). Le système, que nous proposons, se base sur une
signature numérique décrivant les différentes RI. Notre système doit retourner
des images ayant des RI présentant des aspects visuels similaires. Ce qui
permettra aux radiologues de tirer profit de la quantité énorme d’informations
contenues dans les archives des hôpitaux.
34
Chapitre 2
Proposition d’un modèle
d’indexation et d'une approche de
recherche d’images pulmonaires
TDM
Dans ce chapitre, nous proposons un modèle
d’indexation spécifique aux images pulmonaires. Ensuite,
nous détaillons notre approche de recherche d’images
pulmonaires TDM.
2.1. Introduction :
Dans ce travail, nous proposons une approche d'indexation et de recherche
d'images pulmonaires TDM par le contenu visuel. Donc, l’image est décrite,
seulement, par un ensemble de descripteurs physiques qui décrivent son contenu
visuel. Dans la littérature, on mentionne que l’utilisation des descripteurs de
texture, calculés globalement, à partir de l’image entière, n’est pas suffisante pour
identifier les pathologies, étant donné le nombre limité de pixels présentant la
pathologie par rapport à la taille totale de l’image [14]. Donc, nous devons
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
35
calculer les descripteurs localement aux différentes régions d’intérêt constituant
l’image. Les deux régions pulmonaires (droite et gauche) sont identifiées grâce à
un algorithme de segmentation, alors que les zones pathologiques sont identifiées
manuellement par un radiologue. Après la segmentation d’images pulmonaires
et l’identification des régions pathologiques, l’image sera représentée par un
graphe attribué qui étendra notre perception de la composition des images
traitées, en permettant d’identifier les relations spatiales liant chaque région
d’intérêt au poumon auquel elle appartient.
2.2. Proposition d’une approche d’indexation spécifique aux images pulmonaires TDM :
2.2.1. Proposition d’une approche de segmentation des images
pulmonaires TDM :
La segmentation d’images signifie la division de l’image en différentes
régions dont chacune présente une similarité selon une ou plusieurs
caractéristiques visuelles données, comme la couleur, la texture, etc. [51]. Un
algorithme efficace de segmentation doit éviter la sur-segmentation qui résulte,
en général, de la sévérité des critères d’homogénéité utilisés tout en essayant de
diviser l’image en régions significatives. A chaque région segmentée on associe
une étiquette unique pour qu’on puisse la distinguer des autres régions de
l’image. Une fois les régions de l’image sont identifiées, l’image sera perçue
comme étant un ensemble de régions et non pas comme étant un ensemble de
pixels isolés les uns des autres. De là, la vision d’image sera plus précise car on
passe d’une vision globale à une vision locale. Avant de détailler notre approche
de segmentation, nous décrivons quelques approches de segmentation que nous
avons rencontrées dans la littérature.
2.2.1.1. Littérature de segmentation d’images pulmonaires TDM :
La segmentation d’images pulmonaires se heurte à plusieurs difficultés qui
découlent essentiellement de la nature des pathologies pulmonaires. Ces
pathologies se manifestent par une variation remarquable de l’aspect de tissu
pulmonaire. Par exemple, les nodules de la tumeur pulmonaire se manifestent
par des régions à forte atténuation du rayon-X (couleur grise claire) alors que
l’emphysème2 pulmonaire génère des régions à faible atténuation (couleur grise
foncée). Il en résulte une grande difficulté de concevoir un algorithme qui
fonctionne pour les différentes pathologies.
2 C'est une maladie des alvéoles pulmonaires, définie par l'augmentation de volume (dilatation) des alvéoles
pulmonaires avec destruction de leur paroi élastique, ce qui entraîne l'impossibilité de se vider
complètement, à l'expiration, de l'air qu'elles contiennent (76).
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
36
Dans la littérature de la recherche d’images pulmonaires par le contenu
visuel, plusieurs approches de segmentation d’images pulmonaire de scanner
(« CT image ») ont été proposées [52] [14] [53] [15] [54] [55]. La plupart de ces
méthodes partage deux étapes essentielles. La première étape consiste à procéder
par une binarisation de l’image en utilisant un seuil (« threshold ») dont la valeur
est déterminée, soit en avance, d’une manière empirique [14], soit en utilisant une
méthode de seuillage itératif [15] [54] [55]. Tous les pixels ayant une valeur
d’intensité de niveaux de gris supérieure au seuil choisi sont marqués par la
couleur blanche et les autres pixels par la couleur noire. L’image obtenue contient
plusieurs régions parasites de petites tailles qu’on doit éliminer, dans la
deuxième étape. En effet, les régions pulmonaires noires contiennent plusieurs
régions de petite taille et de couleur blanche. Ces régions correspondent à des
régions de forte atténuation comme les vaisseaux, les nodules et d’autres
pathologies qui augmentent la densité du tissu pulmonaire. De la même façon, les
régions blanches, correspondant aux autres organes non pulmonaires,
contiennent des petites régions noires parasites qui sont mal identifiées comme
étant une région pulmonaire. Dans la littérature, plusieurs approches sont
proposées pour enlever ces régions parasites. Par exemple, dans le système
ASSERT [14], on utilise la méthode de « Ratio Test » pour se débarrasser de ces
régions parasites. D’autres systèmes utilisent les techniques issues de la
morphologie mathématique comme l’ouverture morphologique (dilatation suivie
par une érosion) et la fermeture morphologique (érosion suivie par une
dilatation) pour éliminer ces régions [55]. Une autre étape facultative concerne la
correction de l’irrégularité des bords du parenchyme des poumons. Les bords de
la région pulmonaire représentent souvent des régions trouées qui résultent de
l’existence des régions à forte atténuation du rayon-X comme les nodules ou les
fissures séparant les lobes pulmonaires. Cette correction peut être réalisée en
analysant la courbure locale de chaque point du contour en appliquant
l’opérateur de « Rolling-Ball » [55] [54] ou l’opération d’ouverture
morphologique.
Dans la section suivante nous présentons notre approche de segmentation
d'images pulmonaires. Le but de l’algorithme de segmentation que nous
proposons est d’isoler les régions de poumon droit et de poumon gauche des
autres organes du corps. L’identification des deux régions pulmonaires nous
permet de lier les régions d’intérêt pathologiques à la région pulmonaire
correspondante. La segmentation représente l’étape préliminaire de la
construction du graphe modélisant les images pulmonaires.
2.2.1. 2. Approche proposée de segmentation des images pulmonaires
TDM :
Avant de présenter notre algorithme de segmentation des images TDM de
poumons (Figure 5), nous décrivons brièvement la structure des images
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
37
pulmonaires TDM. Cette modalité d’images médicales est constituée
principalement par deux parties essentielles :
La première région est de forme circulaire et correspond aux pixels
recevant des informations à partir des capteurs du scanner. Cette région
est appelée « CT-circle » [14]. Elle correspond aux régions qui se trouvent à
l’intérieur du cercle blanc de la Figure 6.
La deuxième région correspond à la région non couverte par le scanner.
Donc, elle n’a aucune importance. C’est la région noire de la Figure 6.
La première région est constituée, à son tour, de trois types de régions
comme le montre la Figure 6 :
- Les régions externes au corps humain (E) ;
- Les régions correspondant aux poumons (P) ;
- Les régions correspondant aux autres organes du corps (O).
Les régions de type E et P sont de couleur sombre et correspondent aux
régions à faible atténuation de rayon-X du scanner. En fait, pour les régions de
type P, le tissu pulmonaire présente plusieurs cavités (tissu spongieux). Par
contre, le rayon-X est fortement atténué en passant par les autres organes du
corps.
Figure 5 : Image TDM pulmonaire
- C : CT-circle
- E : Régions Externes au
corps humain
- P : Régions pulmonaires
- O : Les autres organes
du corps humain
C E
E
P P
O
Légende :
Figure 6: Modèle général d'images pulmonaires
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
38
Notre approche de segmentation d’images TDM de poumons comporte
trois étapes essentielles : binarisation de l’image, élimination des régions parasites
et lissage des bords de l’image segmentée. L’apport de notre approche réside
dans la technique d’élimination des régions parasites et dans la méthode de
lissage des bords des régions pulmonaires. Cette étape de lissage est réalisée
grâce à l’interpolation basée sur les courbes B-Spline. La Figure 7 montre le
diagramme de notre approche de segmentation que nous détaillons, dans la suite
de ce rapport.
Seuillage itératif :
D’après la Figure 6, nous constatons que les deux poumons sont entourés par
une région d’intensité, de niveau de gris, plus forte (grise claire). Cette région
correspond aux autres organes entourant les poumons. Donc, si nous pourrions
déterminer une valeur intermédiaire entre les niveaux de gris de la région
pulmonaire (P) et ceux des régions non pulmonaires du corps (O), nous pourrons
séparer les régions pulmonaires du reste du corps.
L’histogramme d’une image TDM pulmonaire est généralement constitué
par trois groupements (« clusters »), illustrés par la Figure 8, que nous citons, dans
l’ordre, de gauche à droite :
Figure 7 : Diagramme de l'approche de segmentation d'images pulmonaires TDM
Etiquetage des régions noires
Elimination des petites régions noires
Elimination des régions noires touchant le bord de l’image
Etiquetage des régions blanches
Elimination des petites régions blanches
Amélioration de la segmentation en utilisant les courbes B-Spline
Image TDM pulmonaire
Image pulmonaire segmentée
Seuillage itératif
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
39
– Premier groupement : Il correspond à la région externe au « CT-circle ».
Elle est formée par des pixels noirs.
– Deuxième groupement : Il correspond aux régions à faible atténuation
comme les poumons et la partie extérieure au corps humain
(essentiellement les régions E et P de la Figure 6).
– Troisième groupement : Il correspond aux régions à forte atténuation du
rayon-X comme les os et les tissus non spongieux.
La méthode du seuillage itératif permet de diviser l’histogramme en deux
groupements différents. Puisque nous nous intéressons au deuxième et au
troisième groupement, nous devons nous débarrasser du premier groupement
avant l’exécution de l’approche du seuillage itératif [54]. Le premier groupement
correspond aux régions externes au « CT-circle ». Ces régions ne reçoivent pas
d’informations du scanner, donc la valeur de leurs pixels est nulle (couleur noire).
Après l’élimination des pixels noirs (voir Figure 9), on exécute l’algorithme du
seuillage itératif [54] qui fonctionne comme suit :
Soit 𝑇𝑖 la valeur du seuil à l’étape 𝑖, 𝜇𝑝 𝑒𝑡 𝜇𝑛 les moyennes respectives des
pixels de la région pulmonaire (respectivement non-pulmonaire) ayant une
valeur inférieure (respectivement supérieure) à la valeur du seuil 𝑇𝑖 . Le seuil à
l’étape 𝑇𝑖+1est déterminé suivant l’équation (2.1) :
𝑇𝑖+1 =1
2 𝜇𝑝 + 𝜇𝑛
La valeur du seuil initial est initialisée avec la moyenne des niveaux de gris
de l’image pulmonaire. Nous répétons cette procédure jusqu’à ce qu’on converge
vers une valeur limite 𝑇𝑠 satisfaisant l’équation 𝑇𝑠 = 𝑇𝑠−1. Après la détermination
de la valeur du seuil optimal (voir Figure 10), nous procédons à l’opération du
seuillage : à chaque pixel de niveau de gris inférieur à la valeur du seuil 𝑇𝑠, on
Figure 8 : Histogramme d'une image TDM de poumons, (a): image TDM, (b) : histogramme correspondant
(2.1)
(a) (b) 255 0
Pourcentage De pixels
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
40
affecte la valeur 0 (correspond à la couleur noire) et à chaque pixel ayant une
valeur supérieure au seuil 𝑇𝑠, on lui affecte la valeur 255 (correspond à la couleur
blanche). Puisqu’il s’agit de deux classes de couleur, l’opération de seuillage se
réduit à une opération de binarisation comme le montre la Figure 11.
Figure 11 : l'image binarisée résultante de l'opération du seuillage
Figure 9 : (a) histogramme original, (b) histogramme après l'élimination des pixels noirs
Seuil optimal
Figure 10: Le seuil optimal obtenue en utilisant la méthode du seuillage itératif
(a) (b)
Pourcentage De pixels
0 255
Pourcentage De pixels
255 0
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
41
Étiquetage des régions noires et blanches :
L’étiquetage est une technique qui permet d’identifier les différentes
composantes connexes de couleur C donnée d’une image binaire par une
étiquette ou valeur unique. Cette opération est nécessaire pour pouvoir effectuer
des mesures sur les différentes régions de couleur donnée de l’image binaire.
L’étiquetage des régions de couleur C d’une image binaire (voir Figure 12) se fait
selon l’algorithme suivant :
- Parcourir l’image ligne par ligne ;
- A chaque transition « extérieur-intérieur » changer la valeur d’étiquette et la
propager sur tous les points se trouvant sur la même ligne (voir Figure 13 ) ;
- Parcourir l’image une 2ème fois pour établir des classes d’équivalence des
couleurs avec la relation « couleur voisine » (une couleur est « voisine » à
une autre s’il existe deux pixels voisins ayant ces deux couleurs) (voir Figure
14) ;
- Parcourir l’image une troisième fois pour affecter à chaque classe
d’équivalence la même couleur (voir Figure 15 ).
Figure 12: image binaire
000000000000000000000000000000
011100000022000000333333333300
000444400555000066666666666600
000007777777000008880000000000
000000000999000000000000000000
000000000000000000000000000000
Figure 13 : changement de valeur de l’étiquette à chaque transition "extérieur-intérieur"
000000000000000000000000000000
011100000020000000333333333300
004444005555000066666666666600
000007777777000008880000000000
000000000999000000000000000000
000000000000000000000000000000 Figure 14 : Détermination des couleurs voisines :
(1,4), (2,5), (3,6), (4,7), (6,8), (7,9)
000000000000000000000000000000
011100000010000000222222222000
001111111111000222222222222200
000001111111000022200000000000
000000000110000000000000000000
000000000000000000000000000000 Figure 15 : Affectation d'une étiquette unique
à chaque composante connexe
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
42
Une fois les différentes régions de couleur noire (respectivement blanche)
sont identifiées par des étiquettes différentes, nous pouvons effectuer plusieurs
mesures sur ces régions d’une manière individuelle (calcul de surfaces,
détermination du nombre de composantes connexes, localisation des différentes
régions de couleur C donnée, etc.).
Après l’étape d’élimination des petites régions blanches, la région
pulmonaire correspond aux deux régions noires. Donc, pour pouvoir distinguer
le poumon droit du poumon gauche, nous appliquons une autre fois l’algorithme
d’étiquetage sur les régions noires. Ensuite, nous associons à chaque région une
couleur différente comme le montre la Figure 16.
Figure 16: identification de chaque poumon avec une couleur différente
Elimination des petites régions noires :
L’image binarisée résultante de l’étape de seuillage illustrée par la Figure 11
contient plusieurs régions noires non pulmonaires. Ces régions noires sont soit
des régions parasites de petite taille, soit des régions transparentes au rayon-X
comme la trachée et l’air entourant le corps humain. Dans le système ASSERT
[14], on utilise le « Ratio Test » pour éliminer ce type de régions. D’autres
systèmes utilisent les opérateurs morphologiques (érosion, dilatation) pour
éliminer les régions de petite taille. Dans notre approche de segmentation
d’images pulmonaires, nous adoptons une autre technique non sensible au choix
de la taille de l’élément structurant des opérateurs morphologiques. Après l’étape
d’étiquetage, nous pouvons mesurer facilement la taille de chaque région noire.
Notre approche d’élimination de petites régions noires (respectivement blanches)
consiste à éliminer toutes les régions de taille inférieure à une valeur 𝑇 donnée en
remplaçant sa couleur par la couleur blanche (respectivement noires). Les
meilleures performances sont obtenues pour une valeur de 𝑇 = 1000 𝑝𝑖𝑥𝑒𝑙𝑠
comme le montre la Figure 17 (respectivement la Figure 18 ). Dans notre système,
nous utilisons des images TDM récupérées, après leur anonymisation, depuis un
centre radiologique privé. Toutes ces images ont la même taille 512 ×
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
43
512 pixels. Nous avons fixé la taille minimale 𝑇 des régions à conserver d’une
manière empirique.
Seuillage :
Elimination des régions noires se trouvant aux bords de l’image :
Après l’élimination des petites régions noires, nous procédons par éliminer
toutes les régions noires touchant les bords de l’image comme le montre la Figure
19. Il s’agit des régions externes au corps humain et des régions externes au « CT-
circle ». Donc, pour chaque région noire de l’image, nous testons si elle contient
ou non, au moins, un pixel touchant le bord de l’image. S’il est le cas, nous
éliminons cette région en la fusionnant avec les régions de couleur blanche.
Figure 17 : Elimination des petites régions noires
Figure 19 : Elimination des régions noires touchant le bord de l'image
Figure 18 : Elimination des petites régions blanches
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
44
Lissage des bords des poumons en utilisant l’interpolation par
« B-spline » :
L’image obtenue suite aux différentes étapes de notre approche de
segmentation présente des bords non lisses et des trous dus à l’existence des
corps denses comme les vaisseaux ou des régions pathologiques près des bords
des poumons (voir Figure 20 ). La technique de lissage des bords des poumons, la
plus utilisée dans la littérature, consiste à effectuer une ouverture morphologique
des bords des poumons. Cette approche ne donne pas des résultats satisfaisants
car elle dépend de la taille et de la forme de l’élément structurant.
Dans notre approche, nous avons choisi d’implémenter la méthode
d’interpolation en utilisant les courbes « B-Spline » cubiques uniformes. Les
courbes « B-Splines » permettent de lisser un polygone au moyen d’une courbe
paramétrique cubique (voir Figure 21). L’avantage des courbes « B-Spline » par
rapport aux autres courbes paramétriques comme celles de Bézier réside dans la
facilité et la localisation de modification. En effet, la modification d’un seul
sommet (point de contrôle) ne modifie pas l’intégralité de la courbe, seule la
partie concernée doit être recalculée. Les courbes « B-Splines » cubiques
uniformes se calculent comme suit [56] :
Soit 𝐶 = {𝐶1,𝐶2,… ,𝐶𝑛} un ensemble de points de contrôles appartenant au
polygone à lisser et {𝑡𝑖 , 𝑖 ∈ 1…𝑚} un ensemble de paramètres uniformément
repartis entre [0,1], avec 𝑚 le nombre de points de la tranche de la courbe « B-
Spline » pour lesquels on va calculer les coordonnées à partir de 4 points de
contrôles successifs du polygone à lisser. La position d’un point 𝑃 de la courbe est
définie par l’équation (2.2) :
𝑃 𝑡 =1
6 1 − 𝑡 3 𝐶𝑖−3 + 3𝑡3 − 6𝑡2 + 4 𝐶𝑖−2 + −3𝑡3 + 3𝑡2 + 3𝑡 + 1 𝐶𝑖−1 + 𝑡3𝐶𝑖 , 0 ≤ 𝑡 ≤ 1
Soit sous la forme matricielle :
𝑃 𝑡 =1
6 𝑡3, 𝑡2, 𝑡, 1
−1 3 −3 13 −6 3 0−3 0 3 01 4 1 0
𝐶𝑖−3
𝐶𝑖−2
𝐶𝑖−1
𝐶𝑖
, 0 ≤ 𝑡 ≤ 1
Figure 20 : les bords du poumon avant le lissage par B-spline
(2.2)
(2.3)
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
45
Pour construire une courbe « B-Spline » cubique uniforme, nous devons
disposer au moins de 4 points de contrôle. En plus, pour assurer la continuité de
la courbe construite, nous devons considérer la liste des points de contrôle
comme étant une liste circulaire. En effet, la construction des trois dernières
tranches de la courbe (parmi les 𝑚 tranches à construire) nécessite l’intervention
des premiers points de contrôle de la liste.
Figure 21: Approximation d'un polygone par une courbe B-Spline
Nous avons utilisé les courbes « B-Spline », d’une part, pour lisser les bords
du poumon, d’autre part pour corriger les défauts de l’image segmentée comme
le trou observé au bord du poumon droit de la Figure 20 . Pour ce faire,
l’utilisateur clique sur le poumon à lisser. Ensuite, nous appliquons un
algorithme de poursuite de contour [31] pour détecter les points de contour de la
région correspondante. A partir des points de contour nous choisissons un
ensemble de points de contrôle de la courbe « B-Spline », uniformément répartis
sur le contour de la région concernée. Notre système dessine automatiquement
cette courbe, en se basant sur les points de contrôle choisis. En plus, nous avons
conçu un outil permettant, à l’utilisateur, de gérer les points de contrôle de la
courbe (ajout, suppression et jointure des points de contrôle). Cette solution
permet, en plus, de procéder à une segmentation manuelle, lorsque l’approche
automatique échoue à isoler les deux poumons (droit et gauche). La Figure 22
montre le résultat de lissage par courbes « B-Spline » de l’image segmentée de
poumons.
Polygone
Courbe B-Spline
Points de contrôle de la courbe
Figure 22 : Les bords du poumon après le lissage par B-Spline
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
46
2.2.2. Modélisation des images pulmonaires TDM par un graphe :
2.2.2.1. Les graphes :
Les graphes sont des structures de données qui permettent de représenter
les objets et leurs relations. Dans le domaine d'indexation et de recherche
d’images par le contenu visuel, les objets représentés par le graphe sont, en
général, les régions d’intérêt constituant l’image, alors que les relations entre les
objets varient selon le but envisagé par l’application. Les graphes sont considérés
comme étant la structure la plus générale permettant de modéliser le contenu
visuel de l’image [3] qui permet de représenter les informations relationnelles
[57].
Un graphe 𝐺 = (𝑋,𝐸) est constitué d’un ensemble de nœuds 𝑋 et un
ensemble d’arcs 𝐸 ⊆ 𝑋 × 𝑋, où un arc (𝑥1, 𝑥2)𝜖𝐸 est un couple de nœuds. Les
nœuds 𝑥1 et 𝑥2 sont les extrémités de l’arc (𝑥1, 𝑥2). D’habitude, les objets sont
représentés par des nœuds et les relations entre les objets sont représentées par
des arcs. Lorsque les nœuds ou les arcs portent des informations concernant la
région ou la relation représentée, le graphe est dit attribué. Ce dernier est défini
par un 4-uplets 𝐺𝐴 = (𝑋,𝐸,𝛼,𝛽), avec 𝛼 et 𝛽 les deux fonctions qui assignent les
attributs respectivement aux sommets et aux arcs. ∝ et 𝛽 sont définies comme
suit : soit 𝐴𝑋 et 𝐴𝐸 respectivement l’ensemble des attributs associés aux sommets
et aux arcs. Donc, 𝛼:𝑋 → 𝐴𝑋𝑖 et :𝐸 → 𝐴𝐸
𝑗 , avec 𝑖 varie de 1 à 𝛿 et 𝑗 varie de 1 à 𝜔 où
𝛿 et 𝜔 représentent respectivement le nombre d’attributs associés aux sommets et
aux arcs. Dans ce cas, l’image ne sera pas perçue comme étant un ensemble de
pixels, mais, elle sera traitée comme étant un ensemble d’entités significatives
reliées par des relations spécifiques. De là, le système de recherche d’images sera
capable de traiter l’image avec plus de flexibilité et étendra les possibilités de
demande d’informations (requêtes) que l’utilisateur peut exprimer. Malgré la
puissance des graphes, les travaux qui exploitent ce modèle, dans les tâches
complexes, comme la recherche d’images par le contenu, sont rares dans la
littérature [57]. En effet, l’utilisation des graphes dans les systèmes de recherche
d’images est limitée par le manque d’algorithmes efficaces d’appariement et de
groupement («clustering») des graphes. L’appariement de graphes est, en
général, un problème à grande complexité combinatoire surtout si on permet
d’avoir des appariements multiples de nœuds ou l’appariement entre les sous-
graphes de deux graphes donnés. Etant donné cette complexité combinatoire
exponentielle d’appariement et la grande dimension des BDD actuelles d’images,
les systèmes de recherche d’images, utilisant la représentation d’images sous
forme de graphes, deviennent incapable de répondre, en temps réel, aux requêtes
des utilisateurs qui sont de plus en plus complexes. Pour faire face à ce problème,
de nouveaux algorithmes de groupement de graphes ont été développés [58].
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
47
2.2.2.2. Modèle proposé des images pulmonaires sous forme d’un graphe :
Après la segmentation automatique de la région pulmonaire (𝑃𝑑 : poumon
droit et 𝑃𝑔 : poumon gauche), le médecin sélectionne les régions pathologiques
(RP) manuellement. L’intervention du médecin est nécessaire car la segmentation
automatique des RP ne peut pas donner des résultats précis pour les différents
cas pathologiques. Avant de concevoir la structure du graphe représentant
l’image pulmonaire, nous devons nous concentrer sur la nature des relations que
nous devons mettre en relief dans notre système de recherche d’images. Ainsi, le
type de graphe sera fonction de la nature des objets représentés, des relations qui
les relient et le type de requêtes à satisfaire. La première relation que nous
pouvons identifier consiste en une relation d’appartenance des régions
pathologiques à l’un des deux poumons (𝑃𝑑 𝑜𝑢 𝑃𝑔) :
Soit 𝑅𝑃𝑖 la ième 𝑅𝑃 de l’image pulmonaire P.
Donc : 𝑅𝑃𝑖𝜖 𝑃𝑑 si 𝑅𝑃𝑖 est une RP du poumon droit 𝑃𝑔 si 𝑅𝑃𝑖 est une RP du poumon gauche
Le graphe peut représenter cette relation implicitement, grâce à un arc
reliant chaque nœud 𝑥𝑅𝑃 représentant une RP (𝑥𝑅𝑃 𝜖 𝑁𝑉3 , avec 𝑁𝑉𝑖 représente
l’ensemble des nœuds du niveau 𝑖 du graphe pulmonaire) à l’un des deux nœuds
𝑥𝑃 représentant, chacun d’eux, l’un des deux poumons (𝑥𝑃 𝜖 𝑁𝑉2) comme le
montre l’image (c) de la Figure 23 . Nous notons qu’il n’existe pas une relation
directe entre les nœuds représentant les RP. Néanmoins, la distribution spatiale
des RP par rapport à la région pulmonaire peut donner des informations
importantes pour le diagnostic. Par exemple, on peut distinguer une tumeur
maligne d’une autre bénigne en se basant sur la taille et la localisation de la
tumeur [6]. L’information de la disposition spatiale de la RP dans le poumon va
être représentée par un attribut porté par l’arc reliant les deux nœuds.
Donc, la structure de graphe la plus adéquate pour représenter l’image
pulmonaire, tout en tenant compte des relations identifiées ci-dessus, est un arbre
attribué à trois niveaux (voir Figure 23 ). Le premier niveau de l’arbre (𝑁𝑉1)
représente l’image pulmonaire TDM toute entière. Il s’agit d’un nœud fictif qui ne
porte pas d’informations. Cependant, ce nœud peut être utilisé pour ajouter des
informations globales sur l’image qui peuvent être utilisées pour filtrer autant
que possible d’images candidates à la phase d’appariement. Cette stratégie de
filtrage est essentielle pour les grandes BDD contenant des milliers d’images. Le
deuxième niveau de l’arbre (𝑁𝑉2), représente une vision plus détaillée de l’image
pulmonaire. Il permet de distinguer le poumon droit du poumon gauche, tout en
identifiant les RP appartenant à chacun de ces deux poumons. Les nœuds du
troisième niveau de l’arbre ( 𝑥𝑖𝜖𝑁𝑉3 ) représentent les RP sélectionnées par
l’utilisateur.
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
48
Chaque nœud 𝑥𝑖𝜖{𝑁𝑉2,𝑁𝑉3} contient un ensemble de vecteurs de
descripteurs de texture et un vecteur de descripteurs de forme qui caractérisent
chaque RI de l’image pulmonaire. Pour chaque arc (𝑥1,𝑥2) , tel que
𝑥1𝜖𝑁𝑉2 et 𝑥2𝜖𝑁𝑉3, nous lui associons un attribut précisant la position de 𝑥1 par
rapport à 𝑥2. C'est-à-dire, cet attribut précise la position de chaque RP par rapport
au poumon correspondant.
Image
pulmonaire
TDM
Poumon
gauche
Poumon
droit
RI 1 RI 2 RI 3 RI 4
(a) (b)
(c)(d)
RI 1 RI 4
RI 2
RI 3
NV1
NV2
NV3
2.3. Modélisation de la recherche d’images pulmonaires
TDM :
2.3.1. Proposition d’une approche d’appariement de graphes
d’images pulmonaires :
Le but final de notre système d'indexation et de recherche d’images est de
rechercher des images similaires à l’image requête. Donc, il est important de
préciser la notion de similarité entre deux images médicales pulmonaires, avant
de proposer la stratégie d’appariement de graphes et la fonction mesure de
similarité que nous adoptons dans notre système.
Figure 23 : Modélisation d'images TDM pulmonaires par un graphe attribué : (a) image TDM pulmonaire, (b) image segmentée, (c) modèle de poumons, (d) régions de l’image pulmonaire correspondant aux nœuds du graphe
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
49
Les pathologies pulmonaires se manifestent par un changement de l’aspect
visuel de la texture de la région infectée. Donc, deux images sont dites similaires
si elles présentent le même aspect de texture. Les nœuds 𝑥𝑖𝜖{𝑁𝑉2} du graphe
conçu, permettent de caractériser l’aspect global de la texture au niveau
de 𝑃𝑑 et de 𝑃𝑔 . Cependant, dans la plupart des cas, la pathologie affecte une petite
région du poumon [6]. Donc, la caractérisation globale de la texture n’est pas
suffisante car le nombre de pixels présentant la pathologie est très petit par
rapport au nombre total des pixels de la région pulmonaire. De là, nous devons
étendre la comparaison des deux graphes aux nœuds 𝑥𝑖𝜖{𝑁𝑉3} qui contiennent
une caractérisation de la texture localement à chaque RP.
L’appariement des graphes est un processus permettant de trouver une
correspondance entre les nœuds et les arcs des deux graphes qui satisfait
quelques contraintes assurant que les sous-structures (sous-graphes) d’un graphe
sont appariées aux sous-structures similaires de l’autre graphe [59]. Souvent,
nous pouvons trouver plusieurs possibilités d’appariement. Donc, nous devons
choisir l’appariement permettant d’avoir la meilleure correspondance entre les
nœuds des deux graphes : soit 𝐴𝑃 = {𝐴𝑃𝑖 tel que 𝑖𝜖{1, . . ,𝑘}} l’ensemble
d’appariements possibles. Pour chaque possibilité d’appariement 𝐴𝑃𝑖 nous
associons un coût initial d’appariement 𝐶𝐼𝐴(𝐴𝑃𝑖) selon la méthode que nous
expliquons plus tard. Donc, l’appariement optimal (𝐴𝑃𝑜𝑝𝑡𝑖𝑚𝑎𝑙 ) choisi est celui qui
vérifie la condition donnée par l’équation 2.4 :
𝐶𝐼𝐴(𝐴𝑃𝑜𝑝𝑡𝑖𝑚𝑎𝑙 ) = min𝐴𝑃𝑖𝜖𝐴𝑃 𝐶𝐼𝐴 𝐴𝑃𝑖
Chaque appariement doit, d’une part, respecter cette structure hiérarchique
de manière à n’apparier les nœuds qu’avec des nœuds du même niveau de
l’autre graphe. Donc, chaque couple de nœuds appariés (𝑥𝑖𝐺1 , 𝑥𝑗
𝐺2 ) doit satisfaire
la condition 𝑥𝑖𝐺1 , 𝑥𝑗
𝐺2 ⊂ 𝑁𝑉𝑛 / 𝑛 ∈ {1, 2, 3} avec 𝑥𝑖𝐺1 (respectivement 𝑥𝑗
𝐺2 ) est le ième
(respectivement le jème) nœud du graphe 𝐺1 (respectivement 𝐺2 ). D’autre part,
nous devons respecter les contraintes topologiques. C'est-à-dire, les RI d’un
poumon ne peuvent s’apparier qu’avec les RI de l’un des deux poumons de
l’autre image :
Soit 𝑋𝑃𝑥𝐺1 l’ensemble des nœuds du poumon 𝑃𝑥 ( 𝑃𝑥 représente 𝑃𝑑 ou 𝑃𝑔 ) du
graphe 𝐺1.
Soit 𝑋𝑃𝑦𝐺2 l’ensemble des nœuds du poumon 𝑃𝑦 ( 𝑃𝑦 représente 𝑃𝑑 ou 𝑃𝑔 ) du
graphe 𝐺2.
Dans ce cas, pour des valeurs fixées de 𝑃𝑥 et de 𝑃𝑦 on a :
∀𝑥𝑖𝜖 𝑋𝑃𝑥𝐺1 ,∃𝑥𝑗 ∈ 𝑋𝑃𝑦
𝐺2 𝑓 𝑥𝑖 = 𝑥𝑗 , avec 𝑓 une fonction qui fait correspondre à
chaque nœud 𝑥𝑖 du graphe 𝐺1 au plus un nœud 𝑥𝑗 du graphe 𝐺2.
(2.4)
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
50
La contrainte d’association des RI d’un poumon donné du graphe 𝐺1 aux RI
d’un seul poumon du graphe 𝐺2 assure, d’une part, la satisfaction de la similarité
visuelle. D’autre part, elle nous permet de réduire, considérablement, le nombre
d’appariements possibles car chaque poumon est traité séparément.
Afin de trouver l’appariement optimal entre deux graphes d’images
pulmonaires donnés, nous devons préciser la mesure permettant de calculer le
coût initial d’appariement (CIA). Puisque nous utilisons un graphe attribué, le
CIA doit se baser, essentiellement, sur les valeurs portées par chaque nœud.
Chaque nœud porte deux types de vecteurs descripteurs : des vecteurs de
descripteurs de texture et un vecteur de descripteurs de forme. Comme nous
l’avons précisé précédemment, le critère le plus important, c’est la texture des RI.
L’approximation de la texture par un ensemble de descripteurs permet de
transformer la comparaison des deux textures en une comparaison des vecteurs
de descripteurs correspondants. D’où, deux textures visuellement proches auront
deux vecteurs de descripteurs proches selon une métrique donnée. Dans notre
système, nous choisissons la distance euclidienne comme métrique. Chaque
possibilité d’appariement 𝐴𝑃𝑖 entre les deux graphes engendre un ensemble de
paires de nœuds appariés (𝑃𝑁𝐴(𝐴𝑃𝑖)) les uns aux autres que nous définissons
selon l’équation 2.5 :
𝑃𝑁𝐴(𝐴𝑃𝑖) = 𝑥𝑗𝐺1 , 𝑥
𝑗 ′𝐺2 𝑓(𝑥𝑗
𝐺1 ) = 𝑥𝑗 ′𝐺2
avec 𝑥𝑗𝐺1 et 𝑥
𝑗 ′𝐺2 sont respectivement des nœuds du graphe 𝐺1 et 𝐺2 qui
appartiennent au niveau 𝑁𝑉𝑘 tel que 𝑘𝜖{2,3}.
A partir de l’ensemble 𝑃𝑁𝐴(𝐴𝑃𝑖) nous calculons le CIA suivant l’équation
2.6 :
𝐶𝐼𝐴(𝐴𝑃𝑖) =
𝑑 𝑉𝐷𝑇𝑝
𝑥𝑗𝐺1
,𝑉𝐷𝑇𝑝
𝑥𝑗 ′𝐺2
𝑥𝑗𝐺1 ,𝑥
𝑗 ′𝐺2 𝜖 𝑃𝑁𝐴 (𝐴𝑃 𝑖)
𝑐𝑎𝑟𝑑 𝑃𝑁𝐴(𝐴𝑃𝑖)
avec 𝑉𝐷𝑇𝑃𝐾 𝐾𝜖 𝑥𝑗
𝐺1 , 𝑥𝑗 ′𝐺2 le Pème vecteur de descripteur de texture utilisé du nœud
𝐾 et 𝑑 représente la distance euclidienne.
Le coût 𝐶𝐼𝐴(𝐴𝑃𝑖) correspond à la moyenne des distances entre les
descripteurs de texture de chaque paire de nœuds appariés. Après le calcul des
coûts initiaux de chaque possibilité d’appariement, nous gardons l’appariement
qui aboutit au coût initial minimal d’appariement comme le montre l’équation
2.4.
Chaque graphe d’images pulmonaires contient, en général, trois niveaux.
Néanmoins, si aucune région d’intérêt n’est sélectionnée, le graphe se réduit aux
deux premiers niveaux. Dans ce cas, il suffit d’apparier les nœuds du deuxième
(2.5)
(2.6)
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
51
niveau qui correspondent aux deux régions pulmonaires. Les nœuds du
troisième niveau de l’autre image sont ignorés pendant cette phase
d’appariement. Nous devons noter que chaque nœud ne peut être apparié qu’à
un seul nœud de l’autre graphe. En plus, ce dernier nœud doit être du même
niveau que le premier nœud à apparier. Donc, il s’agit d’établir un isomorphisme
entre les plus grands sous-graphes communs aux deux graphes à apparier.
L’appariement de deux graphes pulmonaires est décomposé en deux
appariements des sous-graphes représentant le 𝑃𝑑 et 𝑃𝑔de l’image requête avec les
sous-graphes représentant le 𝑃𝑑 et le 𝑃𝑔 de l’image de la BDD. Il nous reste de
trouver l'appariement des sous-graphes produisant le coût minimal. Pour ce faire,
nous construisons l’arbre représentant l’espace d’état des appariements possibles
entre les RI de l’un des deux poumons de l’image requête avec les RI de l’un des
deux poumons d’une image de la BDD. Dans cet arbre, chaque branche
représente une possibilité d’appariement entre les deux graphes à apparier.
Chaque nœud de l’arbre d’appariements possibles contient la paire des nœuds
appariés 𝑥𝑗𝐺1 , 𝑥
𝑗 ′𝐺2 et le coût d’appariement 𝐶𝐴 correspondant que nous calculons
comme suit :
𝐶𝐴 𝑥𝑗𝐺1 , 𝑥
𝑗 ′𝐺2 = 𝑑 𝑉𝐷𝑇𝑝
𝑥𝑗𝐺1
,𝑉𝐷𝑇𝑝𝑥𝑗 ′𝐺2
avec 𝑑 représente la distance euclidienne et 𝑉𝐷𝑇𝑃𝐾 𝐾𝜖 𝑥𝑗
𝐺1 , 𝑥𝑗 ′𝐺2 le Pème vecteur de
descripteur de texture utilisé du nœud 𝐾.
Au cours de la construction de l’arbre d’appariements possibles, nous
calculons le coût des différents appariements. De là, l’utilisation de l’approche de
construction d’arbre en profondeur d’abord, nous permet d’utiliser les coûts
d’appariements antérieurs comme un moyen pour éviter l’exploration des
branches non prometteuses.
Dans la section suivante, nous présentons un exemple illustrant notre
approche d’appariement de graphes d’images pulmonaires afin de détailler les
différentes étapes nécessaires pour déterminer l’appariement optimal.
2.3.2. Illustration de l’approche proposée d’appariement de
graphes d’images pulmonaires TDM :
Soit une image requête R et une image B de la BDD sur lesquelles nous
expliquons la stratégie d’appariement que nous avons présentée dans la section
précédente (voir Figure 24 ).
– R est formée par :
– 3 RP dans le poumon droit Rd : (Rd1, Rd2, Rd3) ;
– 1 RP dans le poumon gauche Rg : (Rg1).
(2.7)
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
52
– B est formée par :
– 2 RP dans le poumon droit Bd : (Bd1, Bd2) ;
– 2 RP dans le poumon gauche Bg : (Bg1, Bg2).
Image requête : R Image cible de la BDD: B
RgRd BgBd
Bd1
Bd2
Rg1Bg1
Bg2
Rd1
Rd2
Rd3
Chaque image requête peut être appariée à l’image de la BDD de deux
façons différentes : soit on fait apparier le poumon droit (respectivement gauche)
de la requête avec le poumon droit (respectivement gauche) de la BDD, soit on
fait apparier le poumon droit (respectivement gauche) de la requête avec le
poumon gauche (respectivement droit) de la BDD.
Dans cet exemple, nous traitons le cas où Rd est appariée à Bd et Rg est
appariée à Bg. L’autre cas (appariement croisé des deux poumons) peut être traité
de la même façon.
L’ensemble des appariements possibles est représenté par la Figure 25.
L’appariement des régions du poumon gauche de la requête (Rg1) aux RP du
poumon gauche de la base est relativement simple car on a, seulement, deux
possibilités d’appariement (voir l’image (b) de la Figure 25). Cependant,
concernant le poumon droit (voir l’image (a) de la Figure 25), nous devons tester
tous les cas possibles en explorant l’arbre des appariements possibles (voir Figure
26). L’appariement retenu est celui qui donne le coût minimal.
Figure 24 : les régions d'intérêt des deux images pulmonaires à apparier
Figure 25: (a) appariement des RI du poumon droit de la BDD aux RI du poumon droit de la requête, (b) appariement de la RI du poumon gauche de la requête aux RI du poumon droit de la base
Rd1
Rd2
Rd3
Bd1
Bd2
Rg1
Bg1
Bg2
(a) (b)
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
53
Supposons que les descripteurs de textures TRI de chaque RI est un vecteur
unidimensionnel ayant les valeurs suivantes : TRd=2, TRg=1, TRd1=2, TRd2=5, TRd3=1,
TRg1=3, TBd=4, TBg=3, TBd1=1, TBd2=3, TBg1=2, TBg2=1.
Bd1,Rd1
[1]
Bd1,Rd2
[4]
Bd1,Rd3
[0]
Bd2,Rd3
[2]
Bd2,Rd2
[2]
Bd2,Rd3
[2]
Bd2,Rd1
[1]
Bd2,Rd2
[2]
Bd2,Rd1
[1]
Coût Total: 3 3 1 2Chemins non
prometteurs
Rg1,Bg1
[1]
Rg1,Bg2
[2]
Coût Total: 1 2
(a)
(b)
Légende:
Appariement optimal
Sens du parcourt de l’arbre
Lors de l’exploration de l’arbre des appariements possibles entre les RP des
deux poumons droits (de la requête et de l’image de la BDD), nous rencontrons
un chemin non prometteur amenant au sous-graphe de racine (Bd1,Rd2) car le coût
calculé pour ce nœud (Bd1,Rd2), ayant la valeur 4, est supérieur au coût minimal
déjà calculé pour le chemin {(Bd1,Rd1), (Bd2,Rd2)} qui est égal à 3. Donc, il est inutile
d’explorer le sous-graphe de racine (Bd1,Rd2) car nous sommes sûrs d’avoir des
coûts supérieurs au coût minimal.
Dans notre système de recherche, nous adoptons trois approches
d’appariement de graphes d’images pulmonaires : appariement global,
appariement local et appariement global/local. L’approche d’appariement global
signifie que nous apparions seulement les nœuds de deuxième niveau qui portent
des descripteurs calculés, globalement, à partir des deux régions pulmonaires (𝑃𝑑
et 𝑃𝑔 ). Les nœuds du troisième niveau seront ignorés. Cependant, l’approche
d’appariement local signifie que nous apparions seulement les RI des deux
poumons qui sont représentées par les nœuds du troisième niveau du graphe.
Figure 26 : Arbres d'appariements possibles des RP de l'image requête avec les RP de l'image de la BDD : (a) arbre d’appariement des deux poumons droits, (b) arbre d’appariements des deux poumons gauches
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
54
Néanmoins, l’approche d’appariement global/local fait appel à tous les nœuds de
deuxième et troisième niveau du graphe.
Les coûts d’appariement des deux graphes selon les trois approches
d’appariement sont calculés comme suit :
- Approche d’appariement global :
Coût d’appariement = d(TBd,TRd)+d(TBg,TRg)
avec d représente la distance euclidienne
- Approche d’appariement local :
Coût d’appariement = d(TBd1,TRd3)+ d(TBd2,TRd1)+ d(TBg1,TRg1)
- Approche d’appariement global/ local :
Coût d’appariement = (TBd,TRd)+d(TBg,TRg)+d(TBd1,TRd3) +d(TBd2,TRd1)+ d(TBg1,TRg1)
2.3.3. Proposition d’une définition de similarité entre les images
pulmonaires TDM :
La stratégie d’appariement de graphes, que nous avons développée dans la
section précédente, nous permet de mesurer le degré de ressemblance des
textures des régions communes aux deux graphes. Ainsi, cette stratégie permet
de retrouver les images ayant des RI à texture proche de l’image requête. Afin
d’augmenter le pouvoir expressif du langage de requêtes de notre système, nous
avons pensé à d’autres facteurs qui permettent d’améliorer notre approximation
de la similarité visuelle entre deux images médicales pulmonaires comme la prise
en compte de la forme et de la distribution spatiale des RI appariées. En plus,
nous avons essayé de faire intervenir les RI non appariées dans la mesure de la
similarité entre les images pulmonaires. Cette stratégie de calcul de similarité sera
détaillée dans les paragraphes suivants.
2.3.3.1. Coût de la distribution spatiale des régions d’intérêt appariées :
La similarité de la distribution spatiale des RP appariées peut être
considérée comme un autre facteur de similarité qui va donner plus de poids aux
images ayant des RP dont la distribution spatiale est similaire à celle des RP de la
requête. Par exemple, dans la Figure 27 , les deux images (b) et (c) ont des RP de
texture similaire à celle des RP de l’image requête (a). Pourtant, les RP de l’image
(c) ont une distribution spatiale proche de celle des RP de l’image requête. Donc,
dans notre système, l’image (c) doit être prioritaire par rapport à l’image (b), dans
le résultat de la recherche dans la BDD.
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
55
Pour pouvoir donner plus de poids aux images ayant des RP à distribution
spatiale proche de celle des RP de l’image requête, nous avons introduit la notion
de coût de la distribution spatiale des RI appariées (𝐶𝐷𝑆𝑅𝐼𝐴). Ce coût sera
proportionnel à la distance moyenne séparant les centres de gravité des couples
des RP appariées les unes aux autres. Nous rappelons que chaque arc (𝑥1,𝑥2) du
graphe attribué d’images pulmonaires tel que 𝑥1𝜖𝑁𝑉2 et 𝑥2 𝜖𝑁𝑉3 porte une
information précisant la localisation du centre de gravité de cette RP dans
l’image. Lors de l’approximation du 𝐶𝐷𝑆𝑅𝐼𝐴, nous devons tenir compte de deux
facteurs pouvant influencer la précision de son calcul. Le premier facteur consiste
à l’utilisation d’un repère dont les coordonnées de l’origine correspondent au
coin gauche supérieur de l’image (voir l’image (a) de la Figure 28 ). C’est le repère
utilisé par défaut dans notre application. En utilisant ce repère, les coordonnées
des centres de gravité des RI seront sensibles au changement des positions des
individus scannés par rapport au matériel d’acquisition. Donc, nous devons
changer le repère de manière à être invariant au changement des positions des
individus d’un scan à un autre. Le deuxième facteur pouvant influencer la
précision de calcul du 𝐶𝐷𝑆𝑅𝐼𝐴 concerne la variation de la taille des deux régions
pulmonaires selon l’individu (voir Figure 29 ) et selon la coupe du scan. Donc,
nous devons normaliser la taille des régions pulmonaires à une taille fixe avant
de calculer la position des centres de gravité.
L’obtention d’un repère invariant au changement de la position des
individus par rapport au matériel d’acquisition peut être réalisée en translatant
les axes du repère, du coin gauche supérieur aux centres de gravités respectifs de
chaque poumon (voir l’image (b) de la Figure 28 ). Donc, pour chaque poumon,
les positions des centres de gravité des RP qu’il contient seront exprimées en
fonction de son centre de gravité.
(a) (b) (c)
Figure 27 : Intérêt de la distribution spatiale des RP dans la mesure de la similarité visuelle, (a) : Poumon droit (PD) de l’image requête, (b) et (c) : PD de deux images de la BDD
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
56
La normalisation de la taille des régions pulmonaires est faite comme suit :
- Fixer une hauteur fixe 𝐻 commune pour tous les poumons. Dans notre
système, nous avons choisi 𝐻 = 300 𝑝𝑖𝑥𝑒𝑙𝑠. Soit L la hauteur du poumon
courant.
- Normaliser les coordonnées (𝑋𝑖 ,𝑌𝑖) du centre de gravité de l’ième RP de ce
poumon comme suit :
𝑋𝑖𝑛 =
𝐻
𝐿 𝑋𝑖
𝑌𝑖𝑛 =
𝐻
𝐿 𝑌𝑖
Figure 28 : Translation du repère vers les centres de gravité respectifs de chaque poumon
Figure 29 : Différence de la taille des régions pulmonaires, L1≠ L2
𝑥
(0,0)
𝑦
(30,−70) (80,−70)
(75,−85)
(35,−55)
(a) (b)
(0,0)
(−5,−15)
(5,15) 𝑥
𝑦
(0,0)
𝑥
𝑦
Légende : Repère original
Repère du poumon droit
Repère du poumon gauche
L1 L2
(a) (b)
(2.8)
(2.9)
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
57
𝑋𝑖𝑛 et 𝑌𝑖
𝑛 ce sont les coordonnées normalisées de l’ième RP de ce poumon.
Après le changement de repère de coordonnées et la normalisation des
centres de gravité des différentes RP des deux poumons à apparier, nous
calculons le 𝐶𝐷𝑆𝑅𝐼𝐴 de l’appariement optimal 𝐴𝑃𝑜𝑝𝑡𝑖𝑚𝑎𝑙 , réalisé dans l’étape
précédente, suivant l’équation 2.10 :
Soient 𝐶𝑁𝐴𝑂 l’ensemble des couples de nœuds 𝑥𝑖 , 𝑥𝑗 de l’appariement optimal
(𝑃𝑁𝐴 𝐴𝑃𝑜𝑝𝑡𝑖𝑚𝑎𝑙 ), CGx le centre de gravité du nœud 𝑥 et 𝑑 représente la distance
euclidienne.
𝐶𝐷𝑆𝑅𝐼𝐴(𝐴𝑃𝑜𝑝𝑡𝑖𝑚𝑎𝑙 ) = d(CG 𝑥𝑖
,CG 𝑥𝑗)
𝑥𝑖 ,𝑥𝑗 ϵ 𝐶𝑁𝐴𝑂
card (𝐶𝑁𝐴𝑂)
2.3. 3.2. Coût de la forme des régions d’intérêt appariées :
A coté de la distribution spatiale des RP appariées, la forme peut jouer un
rôle important dans la recherche d’images visuellement similaires à l’image
requête. Dans ce cas, la similarité n’est pas limitée à la similarité de la texture des
régions d’intérêt appariées, mais, elle s’étend à la similarité de leur forme. Par
exemple, dans la Figure 30 , l’image (c) est plus similaire que l’image (b) à l’image
(a) car elle présente des RP de formes proches de celles de l’image (a).
Nous calculons le coût de la forme des RI appariées ( 𝐶𝐹𝑅𝐼𝐴 ) de
l’appariement optimal 𝐴𝑃𝑜𝑝𝑡𝑖𝑚𝑎𝑙 suivant l’équation 2.11:
Soient 𝐶𝑁𝐴𝑂 l’ensemble des couples de nœuds 𝑥𝑖 , 𝑥𝑗 de l’appariement optimal
(𝑃𝑁𝐴 𝐴𝑃𝑜𝑝𝑡𝑖𝑚𝑎𝑙 ), VDFx le vecteur de descripteurs de la forme du nœud 𝑥 et 𝑑
représente la distance euclidienne.
𝐶𝐹𝑅𝐼𝐴(𝐴𝑃𝑜𝑝𝑡𝑖𝑚𝑎𝑙 ) = d(VDF 𝑥𝑖
,VDF 𝑥𝑗) 𝑥𝑖 ,𝑥𝑗 ϵ 𝐶𝑁𝐴𝑂
card (𝐶𝑁𝐴𝑂)
Figure 30 : Importance de la forme dans la mesure de la similarité visuelle
(a) (b) (c)
(2.10)
(2.11)
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
58
2.3.3.3. Coût de la texture et de la distribution spatiale des régions
d’intérêt non appariées :
Les trois premières mesures de similarité : le coût initial d’appariement basé
sur les descripteurs de texture, le coût de distribution spatiale et le coût de la
forme, se calculent à partir des paires des régions appariées. Pourtant, notre
vision de la similarité entre deux images pulmonaires sera plus complète si nous
utilisons des mesures qui font intervenir les régions non appariées. Par exemple,
dans la Figure 31 , les images (b), (c) et (d) ont toutes une RP non appariée.
Intuitivement, nous pouvons juger les images (b) et (d) plus proches, que l’image
(c), de l’image requête (a) car leurs régions non appariées ont une texture proche
de celle de la RP de l’image (a). Par contre, l’image (c) a une RP non appariée à
texture différente de celle de la RP de l’image requête. En comparant l’image (b)
et (d) à l’image (a), nous pouvons juger l’image (d) plus similaire que l’image (b)
à l’image (a) car la RP non appariée de (d) est plus proche, spatialement, que la
RP non appariée de (b) à la RP de l’image (a). De là, nous pouvons classer les
images (b), (c) et (d) selon la similarité décroissante comme suit : (d), puis (b),
puis (c). Donc, la mesure de similarité de RI non appariées nécessite
l’introduction de deux nouvelles mesures de similarité : le coût de texture des RP
non appariées et le coût de dispersion spatiale de ces dernières.
Nous calculons le coût de texture des RP non appariées CTRPNA comme
suit :
Soient,
𝑃𝑅 un poumon de l’image requête que nous allons apparier avec un
poumon 𝑃𝐵 d’une image de la BDD. Nous désignons par 𝑃𝑋
(respectivement 𝑃𝑌 ) l’un des deux poumons ( 𝑃𝑅 ou 𝑃𝐵 ) ayant le plus
grand (respectivement le plus petit) nombre de RP,
𝑋𝑃𝑋 𝑁𝑉𝑖 l’ensemble des nœuds de 𝑃𝑋 du niveau 𝑁𝑉𝑖 ,
𝑋𝑃𝑌 𝑁𝑉𝑖 l’ensemble des nœuds de 𝑃𝑌 du niveau 𝑁𝑉𝑖 ,
𝑋𝑁𝐴𝑃𝑋 𝑁𝑉𝑖 = 𝑥𝑖 𝜖 𝑋𝑃𝑋
𝑁𝑉𝑖𝑡𝑒𝑙 𝑞𝑢𝑒 ∄ 𝑥𝑗 ∈ 𝑋𝑃𝑌 𝑁𝑉𝑖 𝑓 𝑥𝑖 = 𝑥𝑗 l’ensemble des nœuds
non appariés de 𝑃𝑋 du niveau 𝑁𝑉𝑖 ,
𝑉𝐷𝑇𝑝𝑥𝑖 le 𝑝ème vecteur des descripteurs de texture, choisi pendant la
recherche, du nœud 𝑥𝑖 .
𝑥𝑝𝜖𝑋𝑃𝑌 𝑁𝑉2 le nœud représentant la région pulmonaire de 𝑃𝑌.
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
59
Donc :
𝐶𝑇𝑅𝑃𝑁𝐴 =
min𝑥𝑗 𝜖𝑋𝑃𝑌
𝑁𝑉 3 𝑑 𝑉𝐷𝑇𝑝𝑥𝑖 ,𝑉𝐷𝑇𝑝
𝑥𝑗
𝑥𝑖𝜖 𝑋𝑁𝐴𝑃 𝑋 𝑁𝑉 3
𝑐𝑎𝑟𝑑 𝑋𝑁𝐴𝑃 𝑋 𝑁𝑉 3
, 𝑠𝑖 𝑐𝑎𝑟𝑑(𝑋𝑃𝑌 𝑁𝑉3 ) > 0
𝑑 𝑉𝐷𝑇𝑝𝑥𝑖 ,𝑉𝐷𝑇𝑝
𝑥𝑃 𝑥𝑖𝜖 𝑋
𝑁𝐴𝑃 𝑋 𝑁𝑉 3
𝑐𝑎𝑟𝑑 𝑋𝑁𝐴𝑃 𝑋 𝑁𝑉 3
, 𝑠𝑖 𝑐𝑎𝑟𝑑(𝑋𝑃𝑌 𝑁𝑉3 ) = 0
Le 𝐶𝑇𝑅𝑃𝑁𝐴 représente la moyenne des distances euclidiennes du vecteur de
descripteurs de texture de chaque RP non appariée avec celui de la RP de l’autre
poumon ayant la texture la plus similaire. Si ce dernier ne contient pas de RP
(voir image (e) et (f) de la Figure 31 ), le coût de texture des RP non appariées
représentera la moyenne des distances du vecteur de descripteurs de texture de la
RP non appariée (RP de l’image (a)) avec le vecteur de descripteurs de texture du
poumon de l’autre image (voir image (e) de la Figure 31 ). Par la suite, l’image (f)
peut être considérée plus proche, que l’image (e), de l’image (a) car la RP de (a) a
une texture proche de celle du poumon droit de l’image (f).
La seconde mesure qui peut enrichir la description de la similarité des RP
non appariées consiste à calculer le coût de la dispersion spatiale des RP non
appariées (CDSRPNA) qui se calcule suivant l’équation 2.13 :
Soit 𝑥𝑖 𝜖 𝑋𝑃𝑋 𝑁𝑉3 un nœud de 𝑃𝑋 du niveau 𝑁𝑉3.
(2.12)
Légende : RI appariée
RI non appariée
(a) (b) (c) (d)
(e) (f)
Figure 31 : Illustration de la nécessité de prise en compte de la distribution spatiale et la texture des régions d’intérêt non appariées
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
60
Soit 𝑁𝑇𝑃𝑆 𝑥𝑖 𝜖 𝑋𝑃𝑌
𝑁𝑉3 / 𝑑 𝑉𝐷𝑇𝑝𝑁𝑇𝑃𝑆 𝑥𝑖
,𝑉𝐷𝑇𝑝
𝑥𝑖 = min𝑥𝑗 𝜖𝑋𝑃𝑌
𝑁𝑉 3 𝑑 𝑉𝐷𝑇𝑝𝑥𝑗 ,𝑉𝐷𝑇𝑝
𝑥𝑖 le
nœud ayant une texture la plus similaire au nœud 𝑥𝑖 .
CDSRPNA =
d(CG 𝑥𝑖,CG𝑁𝑇𝑃𝑆 𝑥𝑖
)𝑥𝑖𝜖 𝑋
𝑁𝐴𝑃 𝑋 𝑁𝑉 3
𝑐𝑎𝑟𝑑 𝑋𝑁𝐴𝑃 𝑋 𝑁𝑉 3
, 𝑠𝑖 𝑐𝑎𝑟𝑑(𝑋𝑃𝑌 𝑁𝑉3 ) > 0
0 , 𝑠𝑖𝑛𝑜𝑛
Le CDSRPNA correspond à la mesure de la moyenne des distances séparant
le centre de gravité de chaque RP non appariée avec celui de la RP la plus
similaire, selon les descripteurs de texture du poumon de l’autre image.
2.3.3.4. Calcul du coût total d’appariement :
Après le calcul des différents coûts d’appariement (CIA, CDSRIA, CFRIA,
CTRPNA et CDSRPNA) pour toutes les images de la BDD, nous procédons à la
normalisation des ces coûts suivant l’équation 2.14 :
Soit :
C={ 𝐶𝐼𝐴(𝐴𝑃𝑜𝑝𝑡𝑖𝑚𝑎𝑙 ), CDSRIA, CFRIA, CTRPNA , CDSRPNA } l’ensemble
des coûts d’appariement que nous avons introduit dans ce chapitre,
𝑋 𝐼𝑀𝑗 le coût 𝑋 de l’image 𝐼𝑀𝑗 de la BDD,
𝑋𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑠 é 𝐼𝑀𝑗 le coût 𝑋 normalisé de l’image 𝐼𝑀𝑗 de la BDD,
∀𝑋𝜖𝐶, 𝑋𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑠 é 𝐼𝑀𝑗 =𝑋 𝐼𝑀𝑗
max𝐼𝑀𝑖𝜖𝐵𝐷𝐷
𝑋(𝐼𝑀𝑖)
Nous calculons le coût total d’appariement (CTA) pour chaque image de la
BDD suivant l'équation 2.15 :
Soit :
𝐶2 = {CDSRIAnormalisé , CFRIAnormalisé , CTRPNA normalisé , CDSRPNAnormalisé },
𝑃𝑖 représente le poids du coût normalisé 𝑐𝑖 tel que 𝑐𝑖𝜖𝐶2 et 0 ≤ 𝑃𝑖 ≤ 1,
𝛿𝑖 = 1 si le coût normalisé 𝑐𝑖 est choisi 0 sinon
𝑗 représente l'indice de l'image
𝐶𝑇𝐴𝑗 = 𝐶𝐼𝐴𝑗 (𝐴𝑃𝑜𝑝𝑡𝑖𝑚𝑎𝑙)𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑠 é+ 𝑃𝑖
𝑐𝑖𝜖𝐶2
𝛿𝑖 𝑐𝑖𝑗
2.4. Conclusion :
Dans ce chapitre, nous avons présenté, en premier lieu, notre approche de
segmentation d’images pulmonaires TDM. L’apport de notre approche par
rapport aux méthodes classiques, rencontrées dans la littérature, réside dans la
(2.13)
(2.14)
(2.15)
Chapitre 2 Proposition d'un modèle d'indexation et d'une approche de recherche d’images pulmonaires
61
technique d’élimination des régions parasites et celle de lissage de bords des
régions pulmonaires en utilisant les courbes B-Spline. Notre approche de
segmentation réussit, dans la plupart des cas, à bien isoler les deux poumons.
Néanmoins, dans le cas où les pathologies affectant le poumon produisent des
régions blanches, à forte atténuation du rayon-X, proches des bords de poumon,
notre approche de segmentation, comme la plupart des approches classiques, ne
donne pas de bons résultats. Pour combler cette limite, nous avons développé un
outil simple, basé aussi sur les courbes B-Spline, permettant de segmenter
manuellement les régions pulmonaires.
En second lieu, nous avons proposé un modèle d’images pulmonaires sous
forme d’un arbre attribué. Cette représentation hiérarchique nous a permis
d’améliorer notre perception des différentes régions constituant l’image. D’une
part, la représentation d’images pulmonaires, sous forme de graphe, nous a
permis de modéliser l’appartenance des différentes régions d’intérêt à l’une des
deux régions pulmonaires, d’autre part, elle nous a permis de déterminer la
localisation spatiale de ces régions d’intérêt par rapport au poumon contenant ces
dernières.
En dernier lieu, nous avons proposé notre approche d’appariement de
graphes qui permet d’exploiter au mieux, ce modèle hiérarchique, afin de
rechercher, selon plusieurs critères, les images pulmonaires ayant un aspect
visuel proche de l’image requête.
62
Chapitre 3
Adaptation des descripteurs aux
images pulmonaires et réduction de
leur dimension
Dans ce chapitre, nous commençons par montrer
l'approche d’adaptation des descripteurs de texture aux
images pulmonaires TDM indexées dans la base de
données. Cette adaptation est primordiale, afin
d’exploiter, au mieux, les descripteurs de texture utilisés.
Enfin, nous montrons l’importance de l’application d’une
technique de réduction de la dimension des vecteurs de
descripteurs dans l’amélioration de la performance
globale du système.
3.1. Introduction :
Dans un système d'indexation et de recherche d’images par le contenu
visuel, la tâche la plus importante consiste à identifier les descripteurs physiques
permettant d’extraire de l’image les informations nécessaires pour caractériser un
aspect visuel donné. Etant donné que la performance du système est fortement
liée à celle des descripteurs sous-jacents, nous nous focalisons, dans ce chapitre,
sur l’évaluation des performances des descripteurs.
En général, les performances des descripteurs se déduisent à partir des
performances du système tel qu’elles sont perçues par l’utilisateur. Ceci engendre
une longue interaction avec le système pour pouvoir juger les performances des
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
63
descripteurs utilisés. Dans ce chapitre, nous présentons une approche
automatique d’évaluation de descripteurs de texture qui se base sur une BDD de
test préalablement classifiée en différentes classes de texture.
Afin d’accélérer la recherche, nous appliquons une technique basée ur
l'analyse en composantes principales pour réduire la dimension des vecteurs de
descripteurs de texture et de forme.
3.2. Evaluation de performances des descripteurs de
texture :
3.2.1. « Pertinence Système » contre «Pertinence Utilisateur » :
La qualité d’un système de recherche d’images réside dans sa capacité de
retrouver les images pertinentes par rapport à la requête de l’utilisateur. On
distingue deux types de pertinence [39] : La « pertinence système » et la
« pertinence utilisateur ». La « pertinence système » signifie que la représentation
logique des images de la base, sous forme de vecteur d’attributs, est proche de
celle de l’image requête suivant une métrique donnée (distance : Euclidienne,
Manhattan,…). Cependant, la « pertinence utilisateur » correspond à la similarité,
jugée par l’utilisateur, des images retournées par le système en réponse à l’image
requête. Le système recherche les images selon la proximité de leurs vecteurs
descripteurs à ceux de l’image requête. Donc, le système de recherche d’images
satisfait bien la « pertinence système » et non pas nécessarement la « pertinence
utilisateur ». Ce dernier type de pertinence est, communément, mesuré par une
approche statistique en calculant les mesures de « Précision » et de « Rappel »
[60] :
La précision : correspond au taux d’images pertinentes retrouvées par la
requête et jugées pertinentes par l’utilisateur par rapport à l’ensemble de
toutes les images retournées par le système.
Le rappel : correspond au taux des images pertinentes retrouvées par la
requête par rapport à l’ensemble des images pertinentes présentes dans la
BDD.
Les performances du système est fonction de sa capacité de rapprocher la
notion de la « pertinence système » à celle de la « pertinence utilisateur ». C'est-à-
dire, si l’utilisateur juge deux images comme similaires, selon un critère donné, le
système doit avoir des représentations logiques des deux images, mesurant ce
critère, qui sont proches selon une fonction de similarité donnée.
Dans le domaine d’imagerie médicale, plus spécifiquement, dans le cas des
images TDM des poumons, le critère visuel le plus important qu’on cherche à
décrire est la texture des régions pathologiques car les différentes pathologies se
manifestent par un changement de l’aspect visuel de la texture de la région
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
64
infectée. Pour cette raison, nous avons implémenté les descripteurs de texture les
plus utilisés dans la littérature d’indexation et de recherche d’images par le
contenu. La plupart de ces descripteurs sont paramétrables. C'est-à-dire, chaque
descripteur peut être calculé suivant plusieurs paramètres d’entrée. Par exemple,
pour une même région d’intérêt, on peut calculer plusieurs matrices de
cooccurrence, tout en considérant à chaque fois une orientation et une amplitude
différentes du vecteur séparant les deux pixels formant la primitive de la texture.
Donc, on doit fixer pour chaque descripteur les paramètres d’entrée satisfaisant
au mieux la « pertinence utilisateur ».
3.2.2. Approche d’évaluation des descripteurs :
L’évaluation de la performance d’un descripteur donné est une tâche
importante [1]. Habituellement, cette évaluation est faite en utilisant des
approches statistiques, dans lesquelles, on fait recours à un spécialiste du
domaine d’application. Dans notre cas, il s’agit du radiologue. Le rôle du
spécialiste consiste à partitionner la base d’images en plusieurs classes selon la
pathologie contenue dans l’image. Ensuite, il intervient pour juger la pertinence
des requêtes. Enfin, on construit les courbes de « Précision et Rappel» 1 . En
pratique, cette méthode n’est pas faisable car elle nécessite une longue interaction
avec les spécialistes. En plus, on ne peut l’appliquer que pour des petites bases
d’images.
Nous avons choisi d’appliquer une approche automatique pour évaluer les
performances des descripteurs. C’est une méthode inspirée des travaux de J.F
Rodigues [1]. Ce descripteur utilise deux mesures qui qualifient la distribution
spatiale des descripteurs. La première mesure est appelée « Class Classifier ». Elle
mesure la séparabilité de chaque classe de texture des autres classes de texture de
la BDD. La deuxième mesure est appelée « Class Variance Measurement ». Elle
permet de mesurer la dispersion des éléments de chaque classe autour de la
moyenne des distances séparant les éléments de chaque classe à son centre.
Rodigues vérifie empiriquement que les résultats obtenus en utilisant ces deux
mesures sont en accord avec ceux obtenus en utilisant les courbes de
« Précision et Rappel ». Dans l’approche adoptée dans [1], la dimension des
vecteurs des descripteurs est réduite en utilisant l’algorithme « Fast Map » qui
permet de passer d’un espace multidimensionnel à un espace tridimensionnel.
Ensuite, on calcule pour chaque classe le centre et le rayon de la sphère
englobante minimale qui permettra de mesurer les deux mesures présentées ci-
dessus. Cependant, les descripteurs utilisés dans notre système ont une
dimension, en général supérieure à trois dimensions. De là, l’élément englobant
les éléments de chaque classe devient une hyper-sphère et non pas une sphère.
1 Ce courbe illustre la variation de la mesure de la « Précision » en fonction du « Rappel » d’un SRIm donné.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
65
Pour pouvoir évaluer les performances des descripteurs d’une manière
automatique, les différentes RP de chaque image de la BDD doivent être classées
suivant l’aspect de leurs textures. Ce partitionnement des RP de la BDD, en
classes, permet au système d’avoir une idée sur la « pertinence utilisateur » qu’on
doit satisfaire. Donc, un descripteur idéal doit permettre d’avoir des hyper-
sphères englobant les éléments d’une classe donnée, disjointes et dont la majorité
de ses éléments sont proches de son centre.
La mesure des deux aspects de séparabilité des hyper-sphères minimales
englobantes et de concentration des éléments près du centre est réalisée grâce aux
deux mesures suivantes :
Mesure du détachement de la classe (DC) :
Chaque classe est formée par des régions d’intérêt ayant un aspect de
texture différent de celui des autres classes. Donc, un bon descripteur doit être
capable d’assurer le détachement des différentes classes des régions d’intérêt.
Pour pouvoir mesurer ce détachement, nous devons identifier les régions
occupées par les éléments de la classe. Chaque élément de la classe est un vecteur
de descripteurs d’une région d’intérêt appartenant à cette classe. Le vecteur de
descripteurs représente un point dans un espace multidimensionnel. De ce fait,
les éléments d’une classe forment un nuage de points qu’on peut l’englober dans
une hyper-sphère. Le centre de cette dernière est l’élément le plus proche du
centre (EPPC) de la classe. Pour déterminer l’EPPC, on calcule la somme
𝑆 suivante pour tout élément is de la classe C :
cj Ss
ji ssdS ),(
avec :
d est la fonction mesurant la similarité entre deux vecteurs donnés.
cS correspond à l’ensemble des éléments d’une classe C.
L’EPPC est l’élément is , minimisant la somme 𝑆 de la formule (3.1).
Concernant la fonction d de mesure de similarité entre les vecteurs de
descripteurs, nous choisissons la distance euclidienne1 pour les descripteurs (de
cooccurrence, Gabor, longueurs de plages, méthode de différences de niveaux de
gris, attributs de texture de premier ordre) et pour les composantes principales
que nous allons retenir après la réduction des dimensions des descripteurs (pour
plus de détails sur la réduction de dimension voir 3.5). Cependant, pour les
1 La distance Euclidienne entre deux vecteurs M et N de dimension n se calcule comme suit : 2
1
, N
i
M
i
n
i
xxNMd
,
avec j
ix est le èmei élément du vecteur j .
(3.1)
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
66
descripteurs, du « color auto-correlogram » et d’histogramme, nous utilisons, en
plus de la distance euclidienne, la méthode d’intersection d’histogrammes1 pour
calculer la similarité entre les vecteurs de descripteurs.
Après la détermination du centre, nous calculons le rayon de l’hyper-sphère
cRH englobant les éléments de la classe C selon l’équation (3.2) :
jcSS
c sEPPCdRHcj
, max
avec cEPPC est l’élément le plus proche du centre de la classe C.
Après la détermination du centre et le rayon de l’hyper-sphère de la classe,
nous mesurons le degré de détachement de cette classe de texture des autres
classes selon l’équation (3.3) :
ci
ciccic
SSscard
RHsEPPCdSSscardDC
\
,/\
avec S est l’ensemble des différentes classes de texture.
La valeur de la mesure de détachement des classes cDC est égale à 1 si les
éléments des autres classes sont à l’extérieur de l’hyper-sphère englobant la classe
C, sinon sa valeur est inférieure à 1. Elle prend la valeur 0 si tous les éléments des
autres classes se trouvent à l’intérieur de l’hyper-sphère de la classe C. Dans les
autres cas intermédiaires, cette mesure prend des valeurs intermédiaires entre les
deux cas extrêmes cités ci-dessus.
Mesure de condensation des éléments de la classe (CC) :
Cette mesure permet de caractériser la capacité du descripteur de regrouper
les éléments d’une classe donnée près de son élément central. Il s’agit de calculer
la moyenne des distances qui séparent des éléments d’une classe à son EPPC.
Plus la condensation des éléments de la classe est importante, plus le descripteur
aura un pouvoir discriminant plus fort car les éléments de la classe seront plus
proches les un des autres. Nous avons considéré cette mesure au lieu de la
mesure « Class Variance Measurement » utilisée dans [1], car nous pensons que la
mesure de degré de la proximité des éléments de la classe à l’EPPC est plus
importante que la mesure de la dispersion des éléments de la classe autour de la
moyenne des distances qui les séparent de l’EPPC. En effet, si la majorité des
1 La similarité en utilisant la méthode d’intersection d’histogrammes se calcule comme suit :
k
N
k
M
k
k
N
k
M
k
HH
HHNMd
,max),(
, avec NMiH i
k ,, est le Kème élément de l’histogramme (respectivement
l’autocorrélogramme) de l’image i. Cette distance s’approche de 0 si les deux images ont des histogrammes
(respectivement l’autocorrélogramme) similaires sinon elle s’approche de 1.
(3.2)
(3.3)
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
67
éléments d’une classe donnée sont proches de son centre, ils auront plus de
chance de ne pas envahir les autres classes. Nous calculons la condensation d’une
Classe C selon l’équation (3.4) :
cj
Ss
jc
c EPPCsAn
sEPPCd
CCcj
,1
,
avec :
n le nombre des éléments de la classe C.
La valeur de A est égale à 1 dans le cas où la fonction d représente la
mesure de similarité en utilisant l’intersection d’histogrammes. C’est le
cas des descripteurs de texture (l’auto-corrélogramme et
l’histogramme). Dans le cas des autres descripteurs (Gabor,
cooccurrence, etc.) dont les vecteurs de descripteurs ont une dimension
1Dim , on a .DimA
La division de la somme des distances séparant les éléments de la classe à
l’EPPC par Dim permet de normaliser la valeur de la mesure de condensation
de la classe. Dans notre approche, cette normalisation est nécessaire car chaque
descripteur de texture possède une dimension différente des autres descripteurs.
Nous avons choisi de normaliser les distances par Dim qui est la distance
euclidienne maximale entre deux vecteurs de dimension Dim dans le cas où les
attributs des vecteurs appartiennent à l’intervalle 0,1 . Pourtant, cette
normalisation n’est pas nécessaire si on utilise la méthode d’intersection
d’histogrammes pour mesurer la similarité entre les descripteurs de texture car la
valeur de similarité retournée par cette méthode est toujours entre 0 et 1.
3.3. Présentation de la base d’images de Test de
descripteurs :
Pour pouvoir utiliser la méthode automatique d’évaluation de descripteurs,
nous devons disposer d’une BDD de test contrôlée, dans laquelle, nous associons
les RP ayant des aspects de texture similaires à une classe donnée. La base
d’images que nous utilisons pour l’évaluation des performances des descripteurs
de texture comporte 122 images appartenant à 8 cas différents. La BDD d’images
contient 273 RP. Parmi ces dernières nous avons identifié 198 RP que nous avons
classées en 6 catégories perceptuelles (𝐶𝑖) comme le montre le Tableau 1.
A partir du Tableau 1, nous constatons que les classes 𝐶1 et𝐶3 sont bien
représentées respectivement par 44 et 86 RP appartenant à 4 cas différents.
Cependant, les autres classes sont moins représentées. En effet, elles sont
représentées chacune par, moins de 22 RP qui proviennent d’un seul cas pour les
classes (𝐶2,𝐶4 et 𝐶5) et de deux cas pour la classe 𝐶6.
(3.4)
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
68
(3.7)
3.4. Mesure de performance des descripteurs :
Dans cette section, nous présentons le résultat de l’application des deux
mesures de détachement de classes (DC) et de condensation des éléments de
classes (CC) aux différents descripteurs de texture que nous avons implémentés.
Dans le cas où le descripteur est paramétrable, ces mesures seront calculées pour
plusieurs configurations possibles. Pour chaque configuration de paramètres
d’entrée, nous calculons ces mesures pour chaque classe. Ensuite, la performance
totale de chaque famille de descripteurs (vecteur rassemblant les descripteurs
calculés en utilisant une méthode donnée : cooccurrence, Gabor, Longueurs de
plages, etc.), pour chaque configuration, sera mesurée par trois mesures
différentes. La première mesure correspond au détachement total des classes
(𝐷𝑇𝐶) que nous calculons selon l’équation 3.5 :
𝐷𝑇𝐶 = 𝐷𝐶𝐶𝑖
𝑡
𝑖=1
avec 𝑡 le nombre des classes de texture de la BDD.
Il s’agit d’une simple somme des différentes valeurs de 𝐷𝐶 calculées pour
les 6 classes. Cette mesure (𝐷𝑇𝐶) permet de déterminer la capacité du descripteur
à séparer le maximum des classes les unes des autres sans tenir compte de leur
degré de représentation dans la BDD. Dans le cas de notre BDD de Test de
descripteurs, les classes présentent une différence de représentation remarquable.
En effet, les classes 𝐶1et 𝐶3 sont les plus dominantes et représentent presque les
3/2 des RP de la BDD. Pour cette raison, nous proposons d’utiliser la mesure de
la moyenne pondérée de détachement des classes 𝑀𝑃𝐷𝐶 que nous calculons selon
l’équation 3.6 :
Soit 𝑃𝐶𝑖 le pourcentage des éléments de chaque classe de texture par rapport
aux éléments de toutes les classes de texture.
𝑀𝑃𝐷𝐶 = 𝐷𝐶𝐶𝑖
𝑡
𝑖=1
𝑃𝐶𝑖
avec 𝑡 le nombre des classes de texture de la BDD.
Il s’agit de calculer la somme de détachement des classes, pondérée par le
pourcentage des éléments de chaque classe de texture par rapport aux éléments
de toutes les classes de texture. La troisième mesure que nous considérons pour
chaque configuration du descripteur correspond à la moyenne pondérée de
condensation de classes 𝑀𝑃𝐶𝐶 que nous calculons selon l’équation 3.7 :
𝑀𝑃𝐶𝐶 = 𝐶𝐶𝐶𝑖
𝑡
𝑖=1
𝑃𝐶𝑖
(3.5)
(3.6)
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
69
Autant que cette mesure est faible, autant que le descripteur a la capacité de
regrouper le maximum des éléments des différentes classes proches de leur
EPPC.
Classe de
texture
Identifiant
du patient
Nombre
d’images par
cas
Nombre de
RI
Echantillon
de texture
1
1 8 17
3 5 6
4 1 1
6 12 20
Total 26 44
2 1 10 10
3
2 25 32
3 12 27
4 17 18
6 8 9
Total 64 86
4 4 11 22
5 5 17 17
6
7 9 11
8 8 8
Total 17 19
Tableau 1: Les classes de texture de la BDD de test
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
70
3.4.1. Résultats expérimentaux d’évaluation de performance des
descripteurs :
L’évaluation des performances des différentes familles de descripteurs de
texture a essentiellement deux buts. D’une part, elle nous permet de fixer, pour
chacune de ces familles, les paramètres d’entrée donnant les meilleurs résultats
selon les deux mesures de détachement de classes et de condensation de classes.
D’autre part, elle nous permet d’avoir une idée sur les performances attendues
des différentes familles de descripteurs et de la métrique de similarité utilisée.
Nous notons que la satisfaction de la mesure de détachement des classes est
prioritaire par rapport à la condensation des classes. Cette dernière peut être
utile, dans le cas où nous obtenons deux mesures de détachement de classes
similaires et des mesures de condensation de classes différentes. Dans ce cas,
nous devons choisir les paramètres de descripteurs donnant la valeur de
condensation de classes la plus faible.
3.4.1.1. Evaluation des performances du descripteur de l’histogramme de
niveaux de gris et de la distance euclidienne :
Le Tableau 2 montre, les différentes mesures de performance du descripteur
d’histogramme de niveaux de gris, lorsque nous calculons les deux mesures DC
et CC en utilisant la distance euclidienne. La meilleure performance de ce
descripteur est obtenue lorsque nous représentons la dynamique de l’image sur 8
« bins ». Dans ce cas, nous obtenons les deux valeurs : DTC=4,77 et MPDC=0.74.
En plus, nous notons que le descripteur d’histogramme permet de bien distinguer
les classes 2 et 4 puisqu’elles ont des mesures de DC>0.97 pour les différents
paramètres d’entrées de ce descripteur. Cependant, il est peu performant pour
détacher les éléments des classes 1, 3, 5 et 6 des autres classes.
3.4.1.2. Evaluation des performances du descripteur de l’histogramme de
niveaux de gris et la mesure d’intersection d’histogrammes :
Le Tableau 3 montre, les différentes mesures de performances du descripteur
d’histogramme de niveaux de gris, lorsque nous calculons les deux mesures DC
et CC en utilisant la mesure d’intersection d’histogrammes. La meilleure
performance de ce descripteur est obtenue lorsque nous représentons la
dynamique de l’image sur 256 niveaux de gris. Dans ce cas, nous obtenons les
deux valeurs : DTC=4,99 et MPDC=0.77. De la même façon que les mesures de
performance, du descripteur d’histogramme, calculées en utilisant la distance
euclidienne, le calcul de ces mesures en utilisant la mesure d’intersection
d’histogrammes nous permet de bien distinguer la classe 2 et la classe 4.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
71
3.4.1.3. Evaluation des performances des descripteurs de texture de
premier ordre :
Les descripteurs de premier ordre (moments de couleurs : moyenne,
variance, skewness, kurtosis) représentent une description compacte de l’allure
de l’histogramme de niveaux de gris. Pour cette raison, leurs performances sont,
en général, inférieures à celle de descripteur de l’histogramme. Ce résultat est
vérifié dans notre base de test comme le montre le Tableau 4. Les moments de
niveaux de geis permettent d’obtenir une valeur de DTC égale à 4,57 qui est
inférieur à la valeur DTC=4,99 obtenue pour un histogramme à 256 niveau de gris
(voir Tableau 3).
3.4.1.4. Evaluation des performances du descripteur «color
autocorrelogram» et de la distance euclidienne :
Le Tableau 5 montre, les différentes mesures de performances du descripteur
du « color autocorrelogram », lorsque nous calculons les deux mesures DC et CC
en utilisant la distance euclidienne. Nous remarquons que les performances de ce
descripteur se détériorent lorsque nous utilisons un grand nombre de niveaux de
gris (𝑁𝑁𝐺 ≥ 128) pour représenter la dynamique de l’image. En fait, la mesure
de DC pour la troisième classe de texture devient presque nulle. La meilleure
performance de ce descripteur est obtenue pour NNG=32 et DL1=4.
2.4.1.5. Evaluation des performances du descripteur «color
autocorrelogram» et la mesure d’intersection d’histogrammes :
Le Tableau 6 montre, les différentes mesures de performance du descripteur
du « color autocorrelogram », lorsque nous calculons les deux mesures DC et CC
en utilisant la mesure de similarité basée sur l’intersection d’histogrammes. Les
mesures de performance du descripteur du« color autocorrelogram », en utilisant
la mesure de similarité d’intersection d’histogrammes, sont plus robustes que les
performances obtenues lorsque nous utilisons la distance euclidienne car, pour
tous les paramètres d’entrée, ce descripteur maintient une performance, selon la
mesure DTC, supérieure à 4,49. La meilleure performance de ce descripteur, en
considérant la mesure de DTC, est obtenue pour 𝑁𝑁𝐺 = 256 et 𝐷𝐿1 = 1. Par
contre, si nous considérons la mesure de MPDC, la meilleure performance est
obtenue pour 𝑁𝑁𝐺 = 8 et 𝐷𝐿1 = 1. Ce résultat peut être expliqué par le fait que
pour les paramètres 𝑁𝑁𝐺 = 8 et 𝐷𝐿1 = 1, le descripteur permet de mieux détacher
la troisième classe qui contient le plus grand nombre de RI.
3.4.1.6. Evaluation des performances des descripteurs dérivés des
matrices de cooccurrence :
Le Tableau 7 montre les performances des descripteurs dérivés de la matrice
de cooccurrence (Homogénéité, Energie, contraste, Corrélation, Entropie,
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
72
Directivité, Corrélation normalisée) calculée pour un angle et un vecteur de
déplacement donnés. Les descripteurs de cooccurrence nous permettent de bien
détacher les classes de texture : 2, 4, 5 et 6 pour les différents paramètres d’entrée.
Cependant, ils ne sont pas capables de détacher la troisième classe de texture des
autres classes. La meilleure performance est obtenue pour 𝑑 = 1 et 𝐴 = 0.
3.4.1.7. Evaluation des performances des descripteurs de longueurs de
plages :
Le Tableau 8 montre les performances des descripteurs dérivés de la matrice
de longueurs de plages (NLP, ACP, ALP, NUNG, NULP, APNGB, APNGH,
ACPNGB, ACPNGH, ALPNGB, ALPNGH). Comme la plupart des descripteurs
que nous avons déjà testés, ces descripteurs permettent de bien détacher la
deuxième et la quatrième classe de texture. Malgré que les performances de ces
descripteurs soient moins stables que ceux dérivés de la matrice de cooccurrence,
ils permettent d’avoir une mesure de 𝐷𝑇𝐶 = 5,24 qui est supérieure à la
performance de la matrice de cooccurrence. Cette mesure de 𝐷𝑇𝐶 = 5,24 est
obtenue pour les valeurs 𝑁𝑁𝐺 = 32 et 𝐷 = 0.
3.4.1.8. Evaluation des performances des descripteurs de texture dérivés
des filtres de Gabor :
On a utilisé un banc de filtres de Gabor correspondant à 4 orientations
𝜃 = 0°, 45°, 90°, 135° et 5 fréquences: 𝑓 =1
2,
1
3,
1
4,
1
5,
1
8 pour la fonction génératrice
h du filtre de dimension 11 × 11.
Après la convolution du filtre sur la région d’intérêt, nous calculons la
moyenne et l’écart-type de l’image filtrée. Concernant l’effet de bord, nous avons
choisi de faire une érosion de la région d’intérêt avec l’élément structurant de
dimension égale à celle du filtre. Ce choix nous permet d’éviter le débordement
du filtre à l’extérieur de la région d’intérêt. Donc, le vecteur d’attributs du
descripteur de Gabor aura une taille totale de 40 attributs dérivés des réponses
aux 20 filtres choisis.
Le Tableau 9 montre les performances dérivés de la réponse des RI au banc
de filtres de Gabor choisi. Si nous considérons la mesure de DTC, les
descripteurs dérivés de la réponse de l’image au banc de filtres de Gabor ont une
performance inférieure à celle des descripteurs de cooccurrence. Toutefois, le fait
que les descripteurs dérivés des filtres de Gabor peuvent détacher les classes 1 et
3, contenant le plus grand nombre de RI, des autres classes mieux que les
descripteurs de cooccurrence, nous obtenons une valeur de la mesure de
𝑀𝑃𝐷𝐶 = 0,73 supérieure à celle calculée pour les matrices de cooccurrence (𝑀𝑃𝐷𝐶 = 0.69).
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
73
3.4.1.9. Evaluation des performances des descripteurs dérivés de la
méthode de différences de niveaux de gris :
Le Tableau 10 montre les résultats d’évaluation de performance des
descripteurs dérivés de la méthode de différence de niveaux de gris (Moyenne,
Contraste, Uniformité, Entropie, Moment de différence inverse). Nous
remarquons que ces descripteurs permettent de bien détacher les classes de
texture 2 et 5 des autres classes, alors que les résultats sont moyens pour les
classes 4 et 6. Et ils sont médiocres pour les classes de texture 1 et 3. Nous
rappelons que cette méthode de différence de niveaux de gris a été proposée,
dans la littérature, pour éviter la complexité de calcul des matrices de
cooccurrence. Mais, cette méthode ne permet pas, vraiment, de remplacer les
descripteurs de cooccurrence qui ont des performances largement supérieures. La
meilleure performance des descripteurs dérivés de la méthode de différence de
niveaux de gris est obtenue pour une valeur de 𝑑𝑥 = 1 et 𝑑𝑦 = 3.
3.4.1.10 Evaluation des performances de tous les descripteurs de texture :
Le Tableau 11 montre les performances obtenues lorsque nous utilisons tous
les descripteurs de texture ensemble (descripteurs de premier ordre, Gabor,
différences de niveaux de gris, longueurs de plages, cooccurrence, « color
autocorrelogram » et l’histogramme), dont les paramètres d’entrée sont fixés à
ceux donnant le meilleur résultat, lors de l’utilisation individuelle de ces
descripteurs. L’utilisation conjointe des différents descripteurs permet de donner
une description plus générale des différents aspects de la texture. Nous
remarquons que la performance totale des différents descripteurs donne le
meilleur résultat pour la mesure de 𝑀𝑃𝐷𝐶 = 0,803 par rapport à l’utilisation
individuelle des différents descripteurs. Ceci est due au fait que l’utilisation
conjointe des différents descripteurs permet de mieux détacher la troisième classe
des autres classes 𝐷𝐶 = 0,845 . Cependant, si nous considérons la mesure de
DTC, nous remarquons que la performance de tous les descripteurs utilisés
ensemble 𝐷𝑇𝐶 = 5,198 est inférieure à celle de descripteurs de longueurs de
plages 𝐷𝑇𝐶 = 5,248 .
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
NNG1 DC CC DC CC DC CC DC CC DC CC DC CC DTC MPDC MPCC
8 0,441 0,050 1 0,042 0,794 0,020 0,977 0,026 0,773 0,022 0,787 0,066 4,774 0,744 0,033
16 0,506 0,051 1 0,025 0,660 0,039 0,801 0,029 0,773 0,016 0,798 0,047 4,540 0,682 0,038
32 0,454 0,033 1 0,014 0,687 0,028 0,977 0,022 0,845 0,021 0,804 0,075 4,769 0,708 0,032
64 0,448 0,019 1 0,007 0,616 0,020 0,994 0,012 0,790 0,020 0,547 0,049 4,395 0,648 0,021
128 0,422 0,010 1 0,004 0,526 0,011 0,994 0,006 0,779 0,012 0,519 0,026 4,241 0,600 0,011
256 0,675 0,005 1 0,002 0,410 0,005 0,994 0,003 0,784 0,006 0,502 0,013 4,367 0,605 0,006
Tableau 2: Evaluation de performance de l’histogramme dans le cas d’utilisation de la distance euclidienne
1 NNG : C’est le nombre de niveaux de gris de l’histogramme.
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
NNG DC CC DC CC DC CC DC CC DC CC DC CC DTC MPDC MPCC
8 0,441 0,202 1 0,201 0,830 0,084 0,960 0,102 0,773 0,069 0,787 0,206 4,793 0,757 0,128
16 0,519 0,310 1 0,220 0,705 0,217 0,801 0,165 0,773 0,076 0,798 0,233 4,598 0,704 0,222
32 0,441 0,339 1 0,238 0,705 0,265 0,971 0,207 0,845 0,162 0,782 0,470 4,745 0,710 0,285
64 0,441 0,369 1 0,256 0,714 0,302 0,931 0,227 0,856 0,240 0,782 0,506 4,726 0,710 0,321
128 0,441 0,397 1 0,285 0,723 0,320 0,965 0,234 0,812 0,269 0,782 0,537 4,724 0,714 0,342
256 0,681 0,425 1 0,324 0,723 0,330 0,994 0,247 0,817 0,278 0,782 0,543 4,999 0,771 0,357
Tableau 3: Evaluation de performance de l’histogramme dans le cas d’utilisation de la mesure de similarité par intersection d’histogrammes
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
DC CC DC CC DC CC DC CC DC CC DC CC DTC MPDC MPCC
0,688 0,033 1 0,025 0,517 0,100 0,818 0,027 0,773 0,068 0,038 0,038 4,579 0,660 0,065
Tableau 4: Evaluation de performance des descripteurs de texture de premier ordre
74
Tableau 5: Evaluation de performance de « Color autocorrelogram » dans le cas d’utilisation de la distance euclidienne
1 NNG : C’est le nombre de niveaux de gris du « Color autocorrelogram ». On représente la dynamique de l’image sur un nombre de niveaux de gris NNG..
2 DL1 : C’est la distance qui sépare un pixel de l’image de chaque pixel de son voisinage. Nous avons utilisé la distance de Manhattan : 21211 yyxxL , avec ),( 11 yx , ),( 22 yx les
coordonnées des deux points.
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
NNG1 DL12 DC CC DC CC DC CC DC CC DC CC DC CC DTC MPDC MPCC
8 1 0,5 0,140 0,994 0,159 0,633 0,121 0,812 0,091 0,784 0,084 0,782 0,125 4,507 0,669 0,121
8 2 0,461 0,094 1 0,111 0,625 0,081 0,823 0,064 0,773 0,066 0,793 0,093 4,476 0,658 0,083
8 3 0,441 0,074 1 0,085 0,642 0,054 0,801 0,061 0,773 0,052 0,793 0,078 4,452 0,659 0,063
8 4 0,441 0,063 1 0,081 0,660 0,043 0,801 0,052 0,773 0,049 0,793 0,075 4,470 0,667 0,054
8 5 0,441 0,060 1 0,076 0,669 0,036 0,801 0,047 0,773 0,046 0,793 0,073 4,479 0,671 0,049
16 1 0,441 0,119 1 0,130 0,616 0,093 0,801 0,084 0,801 0,101 0,787 0,112 4,447 0,649 0,102
16 2 0,441 0,081 1 0,085 0,616 0,071 0,801 0,064 0,779 0,076 0,787 0,080 4,425 0,647 0,074
16 3 0,441 0,071 1 0,068 0,625 0,053 0,795 0,059 0,779 0,060 0,804 0,067 4,445 0,652 0,060
16 4 0,441 0,065 1 0,058 0,687 0,048 0,801 0,049 0,779 0,049 0,804 0,061 4,513 0,680 0,054
16 5 0,441 0,063 1 0,049 0,687 0,045 0,801 0,045 0,779 0,043 0,798 0,061 4,508 0,679 0,050
32 1 0,441 0,087 1 0,108 0,616 0,075 0,795 0,063 0,823 0,075 0,776 0,109 4,452 0,649 0,081
32 2 0,461 0,059 1 0,068 0,616 0,060 0,812 0,046 0,795 0,063 0,798 0,090 4,484 0,655 0,062
32 3 0,467 0,050 1 0,048 0,616 0,048 0,818 0,041 0,845 0,051 0,793 0,082 4,540 0,661 0,051
32 4 0,487 0,047 1 0,038 0,625 0,043 0,931 0,035 0,845 0,045 0,798 0,079 4,688 0,682 0,046
32 5 0,461 0,045 1 0,034 0,625 0,041 0,954 0,032 0,784 0,038 0,798 0,080 4,623 0,674 0,044
64 1 0,448 0,062 1 0,079 0,616 0,054 0,829 0,045 0,845 0,065 0,737 0,081 4,476 0,653 0,060
64 2 0,474 0,043 0,994 0,046 0,607 0,042 0,960 0,028 0,756 0,050 0,787 0,062 4,580 0,666 0,043
64 3 0,493 0,035 1 0,031 0,517 0,034 0,880 0,024 0,823 0,042 0,793 0,055 4,508 0,629 0,036
64 4 0,551 0,031 1 0,024 0,517 0,031 0,994 0,021 0,795 0,036 0,787 0,054 4,647 0,652 0,032
64 5 0,558 0,028 1 0,020 0,517 0,030 0,994 0,019 0,784 0,033 0,782 0,054 4,637 0,652 0,030
128 1 0,441 0,049 0,914 0,061 0,616 0,040 0,806 0,033 0,795 0,047 0,530 0,049 4,105 0,620 0,044
128 2 0,474 0,029 0,973 0,034 0,142 0,028 0,914 0,016 0,745 0,032 0,798 0,035 4,049 0,458 0,028
128 3 0,428 0,023 1 0,022 0,053 0,023 0,886 0,014 0,668 0,027 0,804 0,030 3,841 0,402 0,023
128 4 0,506 0,019 1 0,017 0,062 0,021 0,977 0,012 0,624 0,024 0,798 0,030 3,969 0,429 0,020
128 5 0,487 0,018 1 0,013 0,044 0,019 0,994 0,011 0,497 0,023 0,793 0,030 3,816 0,407 0,019
256 1 0,194 0,035 0,186 0,046 0,401 0,027 0,767 0,022 0,784 0,032 0,234 0,029 2,568 0,402 0,030
256 2 0,181 0,020 0,515 0,026 0,008 0,019 0,931 0,010 0,762 0,020 0,368 0,020 2,769 0,274 0,019
256 3 0,259 0,015 0,994 0,017 0 0,015 0,886 0,008 0,497 0,016 0,815 0,016 3,453 0,327 0,014
256 4 0,370 0,012 1 0,013 0 0,013 0,971 0,007 0,585 0,014 0,737 0,017 3,664 0,361 0,013
256 5 0,415 0,011 1 0,010 0 0,012 0,931 0,006 0,635 0,012 0,810 0,015 3,792 0,378 0,011
75
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
NNG1 DL12 DC CC DC CC DC CC DC CC DC CC DC CC DTC MPDC MPCC
8 1 0,636 0,238 0,994 0,190 0,714 0,263 0,835 0,198 0,779 0,173 0,782 0,286 4,741 0,736 0,241
8 2 0,512 0,219 1 0,213 0,651 0,219 0,829 0,181 0,773 0,157 0,787 0,253 4,555 0,681 0,212
8 3 0,512 0,221 1 0,223 0,678 0,173 0,795 0,191 0,779 0,129 0,793 0,236 4,559 0,690 0,190
8 4 0,441 0,217 1 0,234 0,696 0,142 0,812 0,167 0,773 0,121 0,787 0,223 4,511 0,683 0,172
8 5 0,441 0,208 1 0,244 0,723 0,127 0,812 0,152 0,773 0,117 0,787 0,217 4,538 0,695 0,162
16 1 0,474 0,312 1 0,230 0,714 0,313 0,812 0,235 0,801 0,263 0,782 0,353 4,584 0,700 0,299
16 2 0,441 0,296 1 0,245 0,660 0,300 0,795 0,260 0,795 0,233 0,798 0,322 4,492 0,668 0,288
16 3 0,441 0,304 1 0,273 0,687 0,270 0,795 0,271 0,801 0,210 0,793 0,304 4,518 0,680 0,276
16 4 0,441 0,309 1 0,296 0,696 0,248 0,795 0,234 0,784 0,185 0,798 0,281 4,516 0,683 0,260
16 5 0,441 0,320 1 0,288 0,705 0,233 0,795 0,215 0,784 0,171 0,798 0,274 4,525 0,687 0,252
32 1 0,454 0,372 1 0,308 0,660 0,364 0,869 0,250 0,878 0,296 0,787 0,425 4,650 0,686 0,350
32 2 0,461 0,371 1 0,349 0,651 0,385 0,857 0,297 0,928 0,322 0,804 0,454 4,703 0,688 0,371
32 3 0,448 0,366 1 0,345 0,678 0,355 0,829 0,307 0,928 0,307 0,810 0,473 4,694 0,694 0,359
32 4 0,448 0,379 1 0,352 0,678 0,327 0,897 0,273 0,878 0,271 0,793 0,455 4,696 0,696 0,341
32 5 0,448 0,377 1 0,339 0,696 0,315 0,920 0,253 0,850 0,240 0,793 0,446 4,709 0,704 0,329
64 1 0,467 0,419 1 0,406 0,642 0,385 0,982 0,283 0,933 0,338 0,815 0,469 4,842 0,701 0,386
64 2 0,441 0,433 1 0,424 0,651 0,418 0,948 0,314 0,911 0,372 0,782 0,518 4,735 0,690 0,416
64 3 0,448 0,436 1 0,420 0,660 0,402 0,863 0,317 0,955 0,355 0,787 0,538 4,715 0,690 0,410
64 4 0,448 0,436 1 0,402 0,687 0,373 0,931 0,294 0,933 0,328 0,782 0,522 4,783 0,707 0,390
64 5 0,441 0,429 1 0,389 0,705 0,360 0,948 0,273 0,872 0,315 0,782 0,522 4,750 0,710 0,379
128 1 0,454 0,528 1 0,591 0,642 0,412 0,982 0,352 0,939 0,373 0,782 0,498 4,801 0,695 0,445
128 2 0,467 0,510 1 0,568 0,660 0,457 0,977 0,330 0,856 0,406 0,782 0,538 4,743 0,698 0,464
128 3 0,461 0,516 1 0,545 0,669 0,445 0,857 0,335 0,994 0,387 0,782 0,545 4,765 0,699 0,458
128 4 0,441 0,503 1 0,544 0,660 0,412 0,937 0,323 0,867 0,382 0,782 0,539 4,689 0,689 0,438
128 5 0,441 0,493 1 0,505 0,669 0,400 0,971 0,298 0,867 0,375 0,782 0,540 4,732 0,696 0,426
256 1 0,441 0,623 1 0,761 0,642 0,453 1 0,424 0,983 0,418 0,782 0,534 4,849 0,698 0,508
256 2 0,448 0,611 1 0,751 0,678 0,480 0,960 0,376 0,878 0,433 0,782 0,562 4,747 0,701 0,515
256 3 0,448 0,604 1 0,708 0,696 0,454 0,863 0,355 1 0,429 0,782 0,576 4,790 0,709 0,499
256 4 0,441 0,584 1 0,716 0,696 0,437 0,971 0,347 0,872 0,408 0,793 0,560 4,775 0,710 0,483
256 5 0,441 0,594 1 0,685 0,687 0,428 0,903 0,320 0,861 0,378 0,782 0,541 4,676 0,696 0,472
Tableau 6: Evaluation de performance de « Color autocorrelogram » dans le cas d’utilisation de la mesure de similarité par intersection d’histogrammes
1 NNG : C’est le nombre de niveaux de gris du « Color autocorrelogram ». On représente la dynamique de l’image sur un nombre NG de niveaux de gris.
2 DL1 : C’est la distance qui sépare un pixel de l’image de chaque pixel de son voisinage. Nous avons utilisé la distance de Manhattan : 21211 yyxxL , avec ),( 11 yx , ),( 22 yx les
coordonnées des deux points.
76
77
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
D1 A2 DC CC DC CC DC CC DC CC DC CC DC CC DTC MPDC MPCC 1 0 0,668 0,085 1 0,039 0,473 0,090 1 0,029 1 0,039 1 0,061 5,142 0,697 0,072
1 45 0,564 0,073 1 0,037 0 0,091 1 0,028 0,988 0,053 0,988 0,043 4,542 0,466 0,069
1 90 0,441 0,075 1 0,032 0,017 0,089 1 0,032 0,955 0,071 0,960 0,044 4,376 0,441 0,071
1 135 0,564 0,082 1 0,034 0,053 0,091 1 0,031 0,950 0,071 0,960 0,058 4,529 0,484 0,075
2 0 0,461 0,085 1 0,041 0,080 0,080 1 0,024 1 0,041 1 0,046 4,541 0,480 0,066
2 45 0,564 0,073 1 0,037 0 0,091 1 0,028 0,988 0,053 0,988 0,043 4,542 0,466 0,069
2 90 0,525 0,073 1 0,034 0,017 0,086 1 0,028 0,983 0,067 0,983 0,041 4,510 0,465 0,068
2 135 0,564 0,082 1 0,034 0,053 0,091 1 0,031 0,950 0,071 0,960 0,058 4,529 0,484 0,075
3 0 0,402 0,087 1 0,044 0,053 0,077 1 0,023 1 0,045 1 0,040 4,456 0,456 0,065
3 45 0,551 0,076 1 0,037 0,008 0,081 1 0,029 0,983 0,057 0,977 0,039 4,521 0,466 0,066
3 90 0,571 0,073 1 0,033 0,071 0,082 1 0,025 1 0,054 0,994 0,038 4,637 0,500 0,065
3 135 0,577 0,081 1 0,037 0,053 0,084 1 0,029 0,977 0,061 0,966 0,039 4,575 0,490 0,069
4 0 0,409 0,087 1 0,044 0,026 0,077 1 0,026 1 0,049 1 0,039 4,435 0,445 0,066
4 45 0,415 0,082 1 0,037 0,026 0,077 1 0,025 0,988 0,052 0,983 0,036 4,414 0,444 0,064
4 90 0,662 0,073 1 0,035 0,053 0,084 1 0,025 0,994 0,053 0,983 0,038 4,693 0,511 0,066
4 135 0,603 0,080 1 0,036 0,017 0,081 1 0,027 0,983 0,060 0,966 0,041 4,571 0,480 0,067
5 0 0,402 0,085 1 0,041 0,026 0,076 1 0,024 1 0,049 0,994 0,037 4,423 0,443 0,064
5 45 0,402 0,079 1 0,038 0,026 0,078 1 0,024 0,994 0,049 0,988 0,040 4,412 0,442 0,064
5 90 0,675 0,075 1 0,034 0,035 0,082 1 0,026 0,988 0,056 0,994 0,039 4,694 0,507 0,065
5 135 0,675 0,078 1 0,035 0,008 0,079 1 0,026 0,983 0,050 0,983 0,041 4,650 0,494 0,064
Tableau 7: Evaluation de performance des descripteurs de cooccurrence
1 D : C’est l’amplitude du vecteur de déplacement. 2 A : C’est l’angle du vecteur de déplacement selon l’axe horizontal.
78
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
NNG D1 DC CC DC CC DC CC DC CC DC CC DC CC DTC MPDC MPCC
128 0 0,805 0,041 1 0,021 0,008 0,168 0,954 0,045 0,944 0,061 0,988 0,069 4,702 0,515 0,100
128 1 0,831 0,039 1 0,020 0,053 0,180 1 0,044 0,856 0,087 0,949 0,053 4,690 0,534 0,106
128 2 0,818 0,042 1 0,019 0,491 0,200 1 0,042 0,900 0,068 0,988 0,061 5,198 0,728 0,114
64 0 0,766 0,053 1 0,022 0,473 0,197 0,954 0,061 0,928 0,080 0,944 0,079 5,066 0,702 0,120
64 1 0,720 0,057 1 0,020 0,026 0,218 1 0,053 0,773 0,095 0,955 0,052 4,476 0,491 0,127
64 2 0,668 0,082 1 0,020 0,017 0,215 1 0,053 0,878 0,084 0,977 0,062 4,542 0,487 0,132
32 0 0,772 0,087 1 0,028 0,705 0,195 0,914 0,071 0,950 0,108 0,905 0,073 5,248 0,798 0,130
32 1 0,792 0,082 1 0,024 0,383 0,204 0,988 0,078 0,756 0,120 0,960 0,047 4,882 0,660 0,131
32 2 0,785 0,086 1 0,029 0,562 0,190 0,948 0,070 0,861 0,123 0,983 0,061 5,142 0,743 0,127
16 0 0,668 0,101 1 0,040 0,625 0,161 0,948 0,056 0,806 0,118 0,743 0,152 4,792 0,716 0,125
16 1 0,733 0,081 1 0,030 0,517 0,152 0,954 0,058 0,834 0,078 0,346 0,116 4,386 0,649 0,110
16 2 0,714 0,077 1 0,033 0,607 0,141 0,954 0,051 0,790 0,084 0,553 0,134 4,619 0,699 0,106
8 0 0,675 0,097 1 0,052 0,348 0,168 0,914 0,077 0,425 0,102 0,251 0,219 3,615 0,514 0,135
8 1 0,512 0,103 1 0,040 0,089 0,137 0,943 0,069 0,607 0,089 0,653 0,192 3,806 0,422 0,118
8 2 0,623 0,083 1 0,041 0,357 0,138 0,943 0,063 0,690 0,090 0,703 0,212 4,318 0,575 0,116
Tableau 8: Evaluation de performance des descripteurs de longueurs de plages
Tableau 9: Evaluation de performance des descripteurs de Gabor
1 Les plages de niveaux de gris peuvent être calculés pour des différentes directions 0, 1, 2 qui signifient respectivement une direction: horizontale, verticale et les deux directions
verticale/horizontale.
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
DC CC DC CC DC CC DC CC DC CC DC CC DTC MPDC MPCC
0,379 0,098 1 0,059 0,745 0,042 0,884 0,058 0,994 0,014 0,903 0,041 4,906 0,732 0,054
79
1 dx: c’est la composante horizontale du vecteur de déplacement.
2 dy: c’est la composante verticale du vecteur de déplacement.
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
dx1 dy2 DC CC DC CC DC CC DC CC DC CC DC CC DTC MPDC MPCC
0 1 0,110 0,091 0,994 0,032 0,330 0,084 0,738 0,044 0,867 0,080 0,804 0,042 3,845 0,451 0,074
0 2 0,162 0,085 0,973 0,031 0,312 0,080 0,812 0,034 0,961 0,071 0,798 0,031 4,020 0,470 0,068
0 3 0,266 0,085 0,978 0,030 0,357 0,080 0,914 0,027 0,988 0,060 0,843 0,028 4,349 0,531 0,066
1 0 0,324 0,104 0,978 0,052 0,142 0,079 0,840 0,032 1 0,027 0,675 0,070 3,963 0,427 0,073
1 1 0,142 0,085 0,984 0,047 0,258 0,090 0,835 0,036 0,966 0,055 0,821 0,037 4,009 0,448 0,073
1 2 0,175 0,082 0,989 0,039 0,241 0,083 0,812 0,034 0,961 0,069 0,804 0,034 3,984 0,443 0,069
1 3 0,318 0,082 0,994 0,035 0,357 0,081 0,914 0,027 0,988 0,060 0,798 0,027 4,372 0,539 0,066
2 0 0,246 0,103 0,978 0,052 0,312 0,078 0,931 0,018 1 0,031 0,810 0,043 4,279 0,507 0,068
2 1 0,240 0,090 0,973 0,049 0,357 0,085 0,886 0,031 1 0,043 0,793 0,032 4,250 0,518 0,070
2 2 0,240 0,087 0,989 0,044 0,276 0,087 0,897 0,033 0,961 0,065 0,782 0,033 4,147 0,480 0,072
2 3 0,220 0,088 0,994 0,039 0,348 0,084 0,903 0,030 0,977 0,059 0,782 0,030 4,227 0,509 0,069
3 0 0,194 0,106 0,978 0,053 0,303 0,080 0,914 0,018 1 0,040 0,826 0,032 4,218 0,491 0,070
3 1 0,246 0,095 0,978 0,048 0,375 0,084 0,886 0,033 1 0,039 0,798 0,030 4,285 0,528 0,070
3 2 0,370 0,092 0,989 0,046 0,312 0,088 0,897 0,032 0,972 0,059 0,787 0,033 4,329 0,526 0,073
3 3 0,214 0,091 0,994 0,042 0,357 0,087 0,886 0,030 0,977 0,057 0,754 0,031 4,184 0,507 0,071
Tableau 10: Evaluation de performance des descripteurs de différence de niveaux de gris
Classe 1 Classe 2 Classe 3 Classe 4 Classe 5 Classe 6 Total
DC CC DC CC DC CC DC CC DC CC DC CC DTC MPDC MPCC
0,437 0,088 1 0,049 0,845 0,097 0,994 0,057 0,994 0,056 0,926 0,068 5,198 0,803 0,081
Tableau 11: Evaluation des performances de tous les descripteurs de texture utilisés ensemble
Chapitre 3 Evaluation et réduction de la dimension des descripteurs
80
3.4.2. Synthèse des résultats de l’évaluation des performances des
descripteurs :
D’après les tableaux précédents de l’évaluation de performances des
descripteurs, nous remarquons que la deuxième classe de texture est la plus
discernable par tous les descripteurs. Ce résultat est évident puisque cette classe
est très différente visuellement des autres classes. Concernant, le descripteur
d’histogramme et de « color autocorrelogram », leurs performances varient selon
la fonction de mesure de similarité utilisée. Ainsi, l’utilisation de la mesure de
similarité d’intersection d’histogramme est plus adaptée à ces deux descripteurs.
Néanmoins, pour ces deux descripteurs, les performances optimales sont
obtenues pour 256 niveaux de gris. Dans le cas où nous utilisons la distance
euclidienne pour le calcul des mesures de DC et de CC, la performance maximale
du descripteur d’histogramme est obtenue lorsqu’on représente la dynamique de
l’image sur 8 niveaux de gris seulement. Ce résultat est très important, puisqu’on
gagnera énormément en temps de calcul de similarité. Les descripteurs de texture
de premier ordre présentent une description compacte de la forme de
l’histogramme. Ceci explique la dégradation des performances de ce descripteur
par rapport à celui de l’histogramme. Dans la littérature, le « color
autocorrelogram » est considéré, généralement, plus performant que
l’histogramme. Pourtant, ces résultats ne sont pas vérifiés pour les RP de notre
base d’images de test. Le « color autocorrelogram » peut être utile dans une base
d’images plus diversifiée. Dans ce cas, l’histogramme perd son pouvoir
discriminant car les distributions des histogrammes se rapprochent. Les résultats
obtenus pour les descripteurs dérivés de la matrice de cooccurrence sont plus
stables que les autres descripteurs testés. L’inconvénient des descripteurs de
cooccurrence réside dans l’incapacité de décrire la forme des primitives de
texture. Cet inconvénient est comblé en utilisant les descripteurs de longueurs de
plages qui donnent les meilleurs résultats, dans notre BDD de test.
Le Tableau 12 montre les paramètres d’entrée des différents descripteurs
permettant d’obtenir la meilleure performance. En plus, nous ordonnant les
descripteurs selon les paramètres de détachement total de classes DTC et selon le
paramètre de la moyenne pondérée de détachement de classes MPDC.
A partir du Tableau 12, le descripteur de longueurs de plages donne la
meilleure performance selon la mesure DTC. Pourtant, le descripteur de
cooccurrence, qui a des performances légèrement inférieures, selon la mesure de
DTC, présente une mesure de condensation de classes meilleure que celle du
descripteur de longueurs de plages. Donc, les éléments des classes sont plus
proches de son EPPC, lorsque nous utilisons les descripteurs de cooccurrence. Par
conséquent, le descripteur de cooccurrence peut être considéré aussi performant
que celui de longueurs de plages.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
81
Bien que la description de la texture en utilisant tous les descripteurs (107
attributs) soit plus riche, la performance totale des descripteurs est inférieure à
celle de longueurs de plages. Toutefois, lorsque nous utilisons tous les
descripteurs ensemble, nous pouvons détacher mieux les éléments de la troisième
classe, des autres classes. Ce qui permet d’avoir une valeur de la mesure MPDC
supérieure à celle des descripteurs de longueurs de plages.
Nous remarquons que la taille des vecteurs de descripteurs, permettant
d’obtenir les meilleures performances, est très grande. Il en résulte que le temps
de calcul de similarité sera très considérable. Donc, nous devons appliquer une
stratégie de réduction de dimensions des vecteurs de descripteurs qui nous
permettra de réduire le temps de calcul de similarité.
Descripteurs Paramètres
d’entrées
DTC MPDC MPCC
Ordre Valeur Ordre Valeur
Histogramme DE16 8 NG 7 4,774 4 0,744 0.033
Histogramme IH17 256 NG 4 4,999 3 0,771 0,357
Descripteurs de 1er
ordre Néant 9 4,579 9 0,660 0.065
Gabor Tous18 5 4,906 5 0,732 0.054
Color
autocorrelogram DE19
32 NG,
DL1=4 8 4,688 8 0,682 0.046
Color
autocorrelogram IH20
256 NG,
DL1=1 6 4,849 6 0,698 0,508
Longueurs de plages 32 NG, D :
horizontale 1 5,248 2 0,798 0,130
Différences de
niveaux de gris dx=1, dy=3 10 4,372 10 0,539 0.066
Cooccurrences D=1, A=0 3 5,142 7 0.697 0.072
Tous les descripteurs 2 5,198 1 0,803 0,081
Tableau 12 : Les meilleures performances des différents descripteurs de texture
16 Les performances du descripteur d’histogramme lorsqu’on utilise la distance euclidienne. 17 Les performances du descripteur d’histogramme lorsqu’on utilise l’intersection d’histogrammes. 18 Pour le descripteur de Gabor, le vecteur d’attributs contient la moyenne et l’écart-type des réponses à tous les filtres (20
filtres). 19 Les performances du descripteur du « color autocorrelogram » lorsqu’on utilise la distance euclidienne. 20 Les performances du descripteur du « color autocorrelogram » lorsqu’on utilise l’intersection d’histogrammes.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
82
3.5. Réduction de la dimension des descripteurs :
3.5.1. Nécessité de la réduction de dimensions :
Dans le but d’enrichir la description de l’image, on fait recourt, souvent, à
des dizaines, voire des centaines de descripteurs. Chacun d’eux permet d’extraire
une information particulière décrivant le contenu visuel (texture, forme). Par
exemple, dans notre système d'indexation et de recherche d’images, nous
utilisons en total 107 attributs de texture que nous avons retenus après l’étape
d’évaluation de descripteurs de la section précédente et un ensemble de 22
attributs de forme. Donc, pour calculer la similarité entre deux RI, il faut
comparer deux vecteurs ayant 129 attributs. Il est important de noter que le rôle
d’un système de recherche d’images ne se limite pas à fournir une description
fidèle du contenu visuel. Mais, il doit pouvoir répondre aux requêtes des
utilisateurs dans un temps réel [61]. Ce problème, issu de la grande dimension
des vecteurs de descripteurs, se pose surtout pour les grandes BDD contenant des
centaines, des milliers, voire des millions d’images. Dans les grandes BDD, on fait
recourt à des techniques d’indexation multidimensionnelles [62]. Ces méthodes
d’indexation sont limitées par la grande dimension des vecteurs de descripteurs.
Ce problème est connu sous le nom de malédiction de la dimension
« dimensionality curse» [63], dans lequel, l’utilisation des méthodes d’accès
spatial (« spatial access methods »), comme les arbres-R, devient plus couteuse
que le parcourt séquentiel. De là, pour exploiter au mieux les méthodes
d’indexation multidimensionnelles, on doit utiliser des vecteurs de descripteurs à
dimension raisonnable. En effet, le problème de malédiction de la dimension
commence à apparaître dès qu’on dépasse un nombre de 20 attributs [63].
3.5.2. Stratégie de réduction de dimensions :
Dans la littérature, nous rencontrons plusieurs stratégies de réduction de la
dimension des vecteurs de descripteurs. Dans le cas des systèmes d'indexation et
de recherche d’images ayant un domaine d’application spécifique, on peut se
référer aux experts du domaine pour déterminer les descripteurs les plus utiles
[3]. Ainsi, les attributs retenus pour un ensemble de données doivent
correspondre aux propriétés les plus pertinentes de l’image [64]. Une autre
stratégie de réduction de dimensions consiste à choisir un ensemble de
descripteurs qui minimise la variance intra-classe et maximise la variance inter-
classes [51]. Dans le système ASSERT [6] spécialisé dans la recherche d’images
TDM de poumons, on utilise l’algorithme SFS « Selection Forward Search » pour
réduire le vecteur de 255 attributs à usage général à un vecteur de 12 attributs
auxquels on ajoute les attributs spécifiques aux catégories perceptuelles définies
par les concepteurs du système à l’aide d’une intervention des spécialistes du
domaine. Corboy [65] mentionne que la réduction de la dimension peut être
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
83
obtenue en utilisant l’une des techniques de groupement (K-D tree, R-tree [66]) et
pour combler les limites de l’utilisation de la distance euclidienne, on peut utiliser
les réseaux de neurones, dans la réduction des dimensions [65].
Une autre technique de réduction de dimensions très populaire, en
indexation d’images, consiste à utiliser l’analyse en composantes principales
(ACP) [67]. Cette technique a été utilisée dans plusieurs systèmes de recherche
d’images par le contenu [11] [51] [61] et [22]. Nous avons choisi d’intégrer cette
technique de réduction de dimensions pour réduire le temps de réponse du
système.
3.5.3 L’analyse en composantes principales (ACP) :
L’ACP est une technique linéaire non supervisée de sélection de
caractéristiques (« features selection ») qui transforme un ensemble de variables
en un sous-ensemble de variables non corrélées qui représentent la plupart
d’informations de l’ensemble original des variables [51]. Son principe consiste à
trouver un système de coordonnées dans lequel les axes correspondent aux
directions où la variance des données est maximale. Ces directions sont celles des
vecteurs propres de la matrice de covariance ou de corrélation. La matrice de
covariance est recommandée lorsque les données sont normalisées [68]. C'est-à-
dire, les données possèdent les mêmes intervalles de valeurs. Dans le cas où
chaque caractéristique possède un intervalle différent, on utilise la matrice de
corrélation [51] pour donner autant d’importance à chaque variable. Etant donné
que ces deux matrices sont symétriques, définies et positives, leurs valeurs
propres sont réelles et positives. Donc, il est toujours possible de trouver cette
transformation de la base du système de coordonnées [61].
Dans notre cas, les descripteurs de texture sont normalisés entre 0 et 1. Pour
cette raison, nous avons utilisé la matrice de covariance (𝑀𝑐𝑜𝑣 ) donnée par
l’équation 3.8 et pour les descripteurs de forme (non normalisés) nous avons
utilisé la matrice de corrélation (𝑀𝑐𝑜𝑟 ) qui se calcule selon l’équation 3.9.
Soit 𝑋𝑗 tel que 𝑗 = 1,… , N l’ensemble des données disponibles. Les 𝑋𝑗 sont
des vecteurs à 𝑞 dimensions (𝑋𝑗 = 𝑥1,… , 𝑥𝑞 ).
𝑀𝑐𝑜𝑣 =1
𝑁 − 1 𝑋𝑖 − 𝑋 ′ 𝑋𝑖 − 𝑋
𝑁
𝑖=1
avec : 𝑋 la moyenne du vecteur 𝑋 qui se calcule comme suit : 𝑋 =1
𝑁 𝑋𝑖𝑁𝑖=1
(3.8)
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
84
𝑀𝑐𝑜𝑟 = 𝑊 𝑀𝑐𝑜𝑣 𝑊
avec :
W une matrice diagonale qui porte sur sa diagonale l’inverse de l’écart
type 1
𝑠𝑖 des variables 𝑥𝑖 tel que 𝑖 = 1,… , 𝑞 (voir l’équation 3.10).
𝑠𝑖 = 𝑀𝑐𝑜𝑣 (𝑖, 𝑖) est l’écart type de la variable 𝑥𝑖 .
𝑊 =
1
𝑠10 … 0
01
𝑠2⋱ ⋮
⋮ ⋱ ⋱ 0
0 ⋯ 01
𝑠𝑞
Après le calcul de la matrice de covariance ou de corrélation (nous avons
utilisé la matrice de corrélation pour les descripteurs de forme qui ne sont pas
normalisés), nous calculons les valeurs propres ainsi que les vecteurs propres
correspondants en utilisant la méthode de Jacobi [69] qu’on peut l’appliquer dans
le cas où la matrice est symétrique et réelle [70]. Ensuite, nous ordonnons les
vecteurs propres selon l’ordre décroissant des valeurs propres associées. Ainsi, la
nouvelle base orthogonale concentre les hautes variations des données dans les
premières dimensions. L’énergie portée par chaque dimension est
proportionnelle à la valeur propre associée. Après le changement de base, nous
gardons seulement les k premières dimensions (𝑘 < 𝑞 ) correspondant aux 𝑘
grandes valeurs propres. Le reste des dimensions est ignoré. Il nous reste à traiter
le problème de détermination du nombre de dimensions que nous pouvons
ignorer sans provoquer une perturbation des données.
Dans la littérature, on distingue plusieurs approches de sélection de k [71] :
- Kaiser [72] conseille de se débarrasser des composantes principales,
calculées en utilisant la matrice de corrélation, qui ont des valeurs propres
inférieures à 1.
- Jolliffe [73] montre que la méthode de Kaiser retient très peu de variables.
Il en résulte une grande perte d’informations. Pour cette raison, il
recommande de garder les dimensions correspondant à une valeur propre
supérieure à 0.7 au lieu de 1.
- Une autre méthode plus raisonnable consiste à garder un certain nombre
de dimensions qui contiennent un pourcentage suffisant d’informations.
En fait, les valeurs propres sont proportionnelles à l’énergie du signal
portée par la composante conjointe. Donc, il suffit de garder les k
premières composantes qui portent une énergie supérieure à un certain
seuil. Glatard [41] appelle la quantité d’énergie, portée par les
(3.9)
(3.10)
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
85
composantes retenues, l’indicateur de qualité global (IQG) qui est défini
par l’équation 3.11 [41] :
Ferecatu [61] propose de choisir une valeur de l’IQG supérieure à 0.95.
Dans ce cas, on perd seulement 5% de l’énergie du signal.
- Un autre critère utilisé pour choisir le nombre de dimensions à garder se
base sur les courbes de « Précision et Rappel ». Cette méthode n’est pas
pratique vu la difficulté de construction et l'interprétation de ces courbes.
Dans ce travail, nous utilisons une autre approche automatique, pour
déterminer la valeur optimale du nombre k de dimensions à retenir, qui se base
sur la mesure de détachement de classe définie dans [1]. Cette approche
automatique est plus pratique que celle basée sur les courbes de « Précision
et Rappel ». D’autre part, elle est plus objective que celle basée sur la
détermination de l’énergie perdue en utilisant l’IQG ou celle qui conseille de
retenir les composantes principales correspondant à des valeurs propres
supérieures à une valeur seuil minimale. Cette méthode tire profit des deux
mesures de détachement de classe DC et de condensation de classes CC que nous
avons présentées dans la section précédente. L’idée de notre approche est
d’évaluer les performances des k premières composantes que nous avons
retenues selon les deux mesures de DC et de CC. Ensuite, nous choisissons les k
premières composantes qui maximisent le DC en premier lieu et minimise le CC
en second lieu. Après avoir fixé le nombre k de composantes à retenir, nous
projetons les données centrées (respectivement centrées puis réduites) sur la
nouvelle base choisie qui est calculée à partir de la matrice de covariance
(respectivement de corrélation). Pour ce faire, il suffit de multiplier les matrices
des données portant sur chaque ligne un vecteur de descripteurs par la matrice
présentant les k premiers vecteurs propres choisis.
3.5.4. Evaluation de la performance des familles de descripteurs
après leur projection sur les composantes principales :
Après la présentation de la technique de réduction de dimensions basée sur
l'analyse en composantes principales, nous l'appliquons sur les images indexées
contenues dans notre BDD. Ainsi, pour chaque vecteur de descripteurs, nous
construisons deux tableaux. Le premier tableau concerne les descripteurs
pouvant être calculés pour plusieurs paramètres d’entrée. Il présente le nombre
de composantes principales permettant d’obtenir les meilleures mesures de
détachement et de condensation de classe. Le deuxième tableau détaille les
q
i
i
k
i
i
kIQG
1
1)(
(3.11)
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
86
performances du descripteur pour les paramètres d’entrée permettant d’obtenir
la meilleure performance. Ainsi, nous présentons pour chaque composante
principale, sa valeur propre (VP) associée. Le pourcentage d’énergie portée par
cette composante par rapport à toutes les composantes est égal au pourcentage de
la valeur propre correspondante par rapport à la somme de toutes les valeurs
propres. En plus, nous calculons la somme cumulée des valeurs propres (%CVP)
qui correspond à la quantité d’énergie, du signal, portée par les composantes
inférieures ou égales à la composante en cours. Les mesures de DTC, MPDC et
MPCC (voir section 3.4) sont calculées en considérant à chaque fois des vecteurs
de descripteurs comportant les composantes principales inférieures ou égales à la
composante courante.
3.5.4.1. Evaluation de la performance du descripteur de l’histogramme de
niveaux de gris 21 après la projection sur les composantes
principales :
Avant la réduction de sa dimension, l’histogramme donne la meilleure
performance lorsque nous avons utilisé la mesure d’intersection d’histogrammes
comme fonction de calcul de similarité et un nombre de niveau de gris (NG) égal
à 256. Dans ce cas, nous avons obtenu une valeur de DTC égale à 4,999. Alors que
la performance de ce descripteur était légèrement inférieure lorsque nous avons
utilisé la distance euclidienne et une dynamique d’image représentée sur 8 NG.
Après la réduction de dimension en utilisant l’ACP, la meilleure performance est
obtenue lorsque nous avons conservé 2 composantes principales calculées à partir
d’un histogramme à 32 NG comme le montre le Tableau 13. Nous remarquons
qu’après la projection des données sur les CP, la performance de ce descripteur
est améliorée et nous obtenons une mesure de 𝐷𝑇𝐶 = 5,042 au lieu de 4,99
obtenue avant la réduction. Aussi, les mesures de MPDC et MPCC sont
améliorées considérablement. De ce fait, nous avons gagné une grande réduction
de temps de calcul en passant d’un vecteur de 256 dimensions à un vecteur à 2
dimensions, qui portent environ 81% de l’énergie du signal comme le montre le
Tableau 14, et une amélioration des performances du descripteur d’histogramme
qui, malgré son incapacité de caractériser la distribution spatiale des niveaux de
gris, donne des performances acceptables dans notre BDD de test en permettant
de distinguer en moyenne cinq classes de texture parmi six.
21 Les deux mesures de détachement et de condensation de classes sont calculées en utilisant la distance euclidienne.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
87
NNG22 NB CP DTC MPDC MPCC
8 2 4,816 0,760 0,048
16 1 4,858 0,767 0,059
32 2 5,042 0,759 0,076
64 1 4,803 0,737 0,037
128 1 4,802 0,736 0,028
256 2 4,980 0,758 0,031
Tableau 13: Les meilleures performances du descripteur d’histogramme après la projection sur les CP
CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 … CP32
VP 0,160 0,031 0,022 0,008 0,004 0,003 0,002 7,8 E-4 3,1 E-4 0
% VP 68,41 13,29 9,65 3,65 1,71 1,65 0,98 0,33 0,13 0
% CVP 68,41 81,71 91,36 95,02 96,73 98,39 99,37 99,71 99,84 100
DTCi 4,757 5,042 4,960 4,917 4,851 4,851 4,773 4,769 4,769 4,769
MPDCi 0,731 0,759 0,743 0,730 0,725 0,725 0,708 0,708 0,708 0,708
MPCCi 0,055 0,076 0,079 0,074 0,069 0,069 0,066 0,059 0,056 0,032
Tableau 14: Détails d’évaluation de performance du descripteur d’histogramme calculé pour 32 niveaux de gris
3.5.4.2. Evaluation de la performance des descripteurs de premier ordre
après la projection sur les composantes principales :
Comme nous l’avons déjà signalé dans la section précédente d’évaluation
des performances des descripteurs, les descripteurs du premier ordre (moyenne,
variance, skewness, kurtosis) représentent une description compacte de l’allure
de l’histogramme. Donc, il est évident d’avoir une performance inférieure à celle
de l’histogramme lorsque nous utilisons ces descripteurs. Mais, nous notons que
la performance après la projection sur les CP est meilleure que celles obtenues par
les descripteurs originaux. Il suffit de garder la première composante, contenant
plus de 83% d’énergie du signal come le montre le Tableau 15, pour passer de la
valeur de 𝐷𝑇𝐶 = 4,57 (avant la réduction de dimension de ce vecteur) à la valeur
𝐷𝑇𝐶 = 4,74. Cette dernière valeur est presque égale à celle de l’histogramme de
couleurs avant la réduction de sa dimension.
CP1 CP2 CP3 CP4
VP 0,194 0,032 0,004 0,001
% VP 83,21 13,93 2,005 0,843
% CVP 83,21 97,15 99,15 100
DTCi 4,740 4,718 4,696 4,579
MPDCi 0,710 0,688 0,686 0,660
MPCCi 0,046 0,074 0,071 0,065
Tableau 15: Détails d’évaluation de la performance des descripteurs de premier ordre
22 NNG : C’est le nombre de niveaux de gris de l’histogramme.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
88
3.5.4.3. Evaluation de la performance du descripteur «color
autocorrelogram» 23 après la projection sur les composantes
principales :
De la même manière que les descripteurs précédents, l’utilisation de la
technique d’analyse en composantes principales nous permet d’améliorer la
performance du descripteur du « color autocorrelogram ». La meilleure
performance est obtenue pour les paramètres d’entrée (𝑁𝑁𝐺 = 64 et 𝐷𝐿1 = 5)
lorsque nous gardons les deux premières composantes principales comme le
montre le Tableau 16. En effet, nous passons d’une valeur de 𝐷𝑇𝐶 = 4,849 ,
obtenue avant la réduction de la dimension des vecteurs de descripteurs, à
𝐷𝑇𝐶 = 5,009 après la projection sur les CP. Dans ce cas, les deux premières
composantes principales portent 71% de l’énergie du signal comme le montre le
Tableau 17.
NNG24 DL125 NB CP DTC MPDC MPCC
8 1 3 4,635 0,686 0,140
8 2 3 4,679 0,714 0,094
8 3 1 4,661 0,691 0,036
8 4 1 4,779 0,739 0,034
8 5 1 4,721 0,727 0,035
16 1 2 4,728 0,713 0,113
16 2 2 4,811 0,730 0,076
16 3 1 4,798 0,717 0,053
16 4 1 4,874 0,742 0,054
16 5 1 4,882 0,746 0,056
32 1 3 4,671 0,691 0,123
32 2 2 4,944 0,737 0,078
32 3 1 4,954 0,736 0,052
32 4 1 4,941 0,749 0,076
32 5 1 4,989 0,752 0,057
64 1 2 4,778 0,697 0,090
64 2 1 4,767 0,687 0,057
64 3 1 4,848 0,691 0,052
64 4 2 4,889 0,703 0,071
64 5 2 5,009 0,726 0,069
128 1 3 4,871 0,689 0,102
128 2 1 4,836 0,689 0,050
128 3 1 4,887 0,695 0,044
128 4 1 4,894 0,702 0,045
128 5 1 4,904 0,707 0,044
256 1 1 4,896 0,699 0,062
256 2 1 4,036 0,380 0,063
256 3 1 4,847 0,666 0,040
256 4 1 4,826 0,665 0,039
256 5 1 4,237 0,424 0,047
Tableau 16: Les meilleures performances du descripteur du « color autocorrelogram » après la projection sur les CP
23 Les deux mesures de détachement et de condensation de classes sont calculées en utilisant la distance euclidienne. 24 NNG : C’est le nombre de niveaux de gris du « Color autocorrelogram ». On représente la dynamique de l’image sur un
nombre de niveaux de gris NNG.
25 DL1 : C’est la distance qui sépare un pixel de l’image de chaque pixel de son voisinage. Nous avons utilisé la distance de
Manhattan : 21211 yyxxL , avec ),( 11 yx , ),( 22 yx les coordonnées de deux points.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
89
CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 … CP64
VP 0,133 0,022 0,018 0,012 0,008 0,006 0,003 0,002 0,001 1,9 E-5
% VP 61,01 10,29 8,40 5,73 3,96 2,89 1,70 1,02 0,86 0
% CVP 61,01 71,30 79,71 85,44 89,40 92,29 93,99 95,02 95,88 100
DTCi 4,905 5,009 4,471 4,471 4,458 4,458 4,426 4,682 4,643 4,637
MPDCi 0,713 0,726 0,638 0,638 0,635 0,635 0,628 0,651 0,643 0,652
MPCCi 0,054 0,069 0,082 0,082 0,080 0,080 0,077 0,074 0,072 0,030
Tableau 17: Détails d’évaluation de performances des descripteurs du « color autocorrelogram » calculé pour NNG=32 et DL1=5
3.5.4.4. Evaluation de la performance des descripteurs de cooccurrence
après la projection sur les composantes principales :
Après la projection des données sur les composantes principales, la
performance des descripteurs de cooccurrence s’améliore comme le montre le
Tableau 18. Ainsi, nous obtenons une mesure de 𝐷𝑇𝐶 = 5,396 au lieu d’une valeur
de 𝐷𝑇𝐶 = 5,142 avant la projection sur les CP. Au contraire des descripteurs
précédents, pour lesquels nous avons gardé seulement 2 CP, les meilleures
performances, des descripteurs de cooccurrence, sont obtenues pour un nombre
de CP=4. Ces derniers portent plus de 97% de l’énergie du signal comme le
montre le Tableau 19.
D26 A27 NB CP DTC MPDC MPCC 1 0 4 5,396 0,790 0,086
1 45 2 4,716 0,534 0,090
1 90 1 4,682 0,682 0,055
1 135 2 5,108 0,709 0,095
2 0 2 5,272 0,747 0,082
2 45 2 4,716 0,534 0,090
2 90 1 4,742 0,696 0,047
2 135 2 5,108 0,709 0,095
3 0 2 5,217 0,727 0,082
3 45 2 4,875 0,622 0,088
3 90 2 5,055 0,676 0,083
3 135 2 5,092 0,668 0,087
4 0 1 4,843 0,681 0,060
4 45 1 4,506 0,633 0,053
4 90 2 5,162 0,698 0,084
4 135 2 4,938 0,600 0,090
5 0 1 4,788 0,682 0,059
5 45 2 5,021 0,657 0,088
5 90 1 4,966 0,718 0,055
5 135 2 4,882 0,574 0,086
Tableau 18: Les meilleures performances des descripteurs de cooccurrence après la projection sur les CP
26 D : C’est l’amplitude du vecteur de déplacement. 27 A : C’est l’angle du vecteur de déplacement selon l’axe horizontal.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
90
CP1 CP2 CP3 CP4 CP5 CP6 CP7
VP 0,194 0,119 0,013 0,010 0,005 0,003 2,14E-04
% VP 56,20 34,48 3,805 2,930 1,535 0,976 0,061
% CVP 56,20 90,69 94,49 97,42 98,96 99,93 100
DTCi 5,118 5,388 5,388 5,396 5,150 5,142 5,142
MPDCi 0,729 0,782 0,782 0,790 0,701 0,697 0,697
MPCCi 0,054 0,085 0,085 0,086 0,078 0,072 0,072
Tableau 19: Détails de l’évaluation de la performance des descripteurs de cooccurrence calculés pour un déplacement=1 et un angle=0
3.5.4.5. Evaluation de la performance des descripteurs de longueurs de
plages après la projection sur les composantes principales :
Concernant le descripteur de longueurs de plages, la meilleure performance
est obtenue lorsque nous gardons 3 composantes parmi 128 CP calculées pour les
deux directions horizontale et verticale comme le montre le Tableau 20. Ces trois
composantes portent plus de 96% de l’énergie du signal (voir Tableau 21) et
permettent d’améliorer la performance de ce descripteur qui passe d’une valeur
de 𝐷𝑇𝐶 = 5,248 , avant la projection, à une valeur de 𝐷𝑇𝐶 = 5,404 , après la
projection, sur les CP.
NNG D28 NB CP DTC MPDC MPCC 128 0 1 5,052 0,714 0,079
128 1 1 4,753 0,683 0,097
128 2 3 5,404 0,798 0,202
64 0 4 5,202 0,757 0,173
64 1 3 5,103 0,719 0,222
64 2 3 5,314 0,814 0,227
32 0 4 5,297 0,802 0,194
32 1 3 5,295 0,795 0,218
32 2 3 5,215 0,770 0,188
16 0 2 5,046 0,743 0,195
16 1 2 5,016 0,739 0,170
16 2 2 4,958 0,730 0,161
8 0 1 4,709 0,693 0,125
8 1 1 4,565 0,636 0,111
8 2 2 4,710 0,670 0,179
Tableau 20: Les meilleures performances des descripteurs de longueurs de plages après la projection sur les CP
CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 CP10 CP11
VP 0,414 0,217 0,077 0,009 0,007 0,004 3,8E-04
2,2E-04
9,6E-05
5,9E-05
2,2E-05
% VP 56,59 29,72 10,61 1,264 1,033 0,662 0,052 0,031 0,013 0,008 0,003
% CVP 56,59 86,32 96,93 98,19 99,23 99,89 99,94 99,97 99,98 99,99 100
DTCi 5,009 4,901 5,404 5,256 5,203 5,198 5,198 5,198 5,198 5,198 5,198
MPDCi 0,706 0,659 0,798 0,741 0,733 0,728 0,728 0,728 0,728 0,728 0,728
MPCCi 0,135 0,205 0,202 0,181 0,166 0,153 0,142 0,126 0,119 0,114 0,114
Tableau 21: Détails de l’évaluation de la performance des descripteurs de longueurs de plages calculés pour NNG=128 avec considération des deux directions (horizontale et verticale)
28 Les plages de niveaux de gris peuvent être calculées pour des différentes directions (0, 1, 2) qui signifient respectivement la
direction horizontale, la direction verticale et les deux directions verticale/horizontale.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
91
3.5.4.6. Evaluation de la performance des descripteurs de différence de
niveaux de Gris après la projection sur les composantes
principales :
Les descripteurs de différence de niveaux de gris ont été proposés dans la
littérature pour éviter la complexité de calcul des matrices de cooccurrence. Mais,
nous avons remarqué que leur performances sont beaucoup plus inférieures. En
fait, la meilleure performance de ce descripteur est de 4,503 pour la mesure de
DTC (voir Tableau 22) qui est supérieure à la valeur de DTC=4,372 obtenue avant
la réduction des dimensions. Cette performance est obtenue lorsque nous
gardons la première composante principale qui porte 92% de l’énergie du signal
comme le montre le Tableau 23.
dx29 dy30 NB CP DTC MPDC MPCC 0 1 1 3,864 0,460 0,114
0 2 1 4,140 0,504 0,129
0 3 1 4,391 0,563 0,125
1 0 3 3,964 0,429 0,093
1 1 1 4,055 0,490 0,138
1 2 1 4,204 0,517 0,132
1 3 1 4,454 0,581 0,126
2 0 1 4,303 0,525 0,123
2 1 1 4,300 0,532 0,107
2 2 1 4,204 0,502 0,109
2 3 1 4,503 0,594 0,133
3 0 1 4,317 0,530 0,127
3 1 1 4,402 0,564 0,132
3 2 1 4,335 0,527 0,093
3 3 1 4,394 0,560 0,136
Tableau 22: Les meilleures performances des descripteurs de différence de niveaux de gris après la projection sur les CP
CP1 CP2 CP3 CP4 CP5
VP 0,161 0,010 0,001 6,74 E-04 1,0 E-05
% VP 92,43 6,204 0,916 0,385 0,057
% CVP 92,43 98,64 99,55 99,94 100
DTCi 4,503 4,319 4,343 4,227 4,227
MPDCi 0,594 0,541 0,535 0,509 0,509
MPCCi 0,133 0,106 0,088 0,069 0,069
Tableau 23: Détails d’évaluation de la performance des descripteurs de différence de niveaux de gris calculés pour dx=2 et dy=3
29 dx : c’est la composante horizontale du vecteur de déplacement. 30 dy : c’est la composante verticale du vecteur de déplacement.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
92
3.5.4.7. Evaluation de la performance des descripteurs de Gabor après la
projection sur les composantes principales :
Les deux premières composantes principales calculées pour les descripteurs
de Gabor permettent d’obtenir la meilleure performance de ce descripteur comme
le montre le Tableau 24. Ils portent environ 94% de l’énergie du signal. Malgré que
leur performance selon la mesure de DTC, qui est égale à 5,165, est inférieure à
celle des descripteurs de cooccurrence, la mesure de MPDC du descripteur de
Gabor est, légèrement, supérieure à celle de cooccurrence. En fait, les descripteurs
de Gabor permettent de mieux séparer les classes 1 et 3 qui contiennent le plus
grand nombre de régions d’intérêt.
CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 … CP40 VP 1,884 0,219 0,054 0,020 0,013 0,011 0,008 0,005 0,004 7,8E
-10
% VP 84,21 9,806 2,436 0,934 0,596 0,504 0,367 0,237 0,211 3,5E-8
% CVP 84,21 94,02 96,45 97,39 97,98 98,49 98,85 99,09 99,30 100
DTCi 4,581 5,165 5,159 5,088 4,974 4,955 4,905 4,905 4,895 4,906
MPDCi 0,715 0,800 0,800 0,795 0,753 0,750 0,735 0,735 0,731 0,732
MPCCi 0,054 0,108 0,126 0,131 0,128 0,121 0,116 0,111 0,107 0,054
Tableau 24: Détails de l’évaluation des performances des descripteurs de Gabor
3.5.4.8. Evaluation de la performance de tous les descripteurs de texture
utilisés ensemble après leur projection sur les composantes
principales:
Pour tester les performances de l’utilisation conjointe de tous les
descripteurs (moments de couleurs, Gabor, longueurs de plages, cooccurrence,
histogramme, auto-corrélogramme de couleurs et différences de niveaux de gris),
nous concaténons les différents vecteurs de descripteurs dont les paramètres
d’entrée sont fixés aux paramètres qui ont donné les meilleurs résultats pendant
l’évaluation des performances avant et après la projection sur les composantes
principales. Donc, il s’agit de deux configurations différentes. La première
engendre un vecteur de descripteurs formé par 107 attributs qui correspondent
aux descripteurs de texture qui ont donné la meilleure performance avant la
réduction des dimensions. Alors que la deuxième configuration correspond à la
concaténation des différents vecteurs de descripteurs qui ont abouti aux meilleurs
résultats après l’utilisation de l’analyse en composantes principales. Cette
dernière configuration engendre un vecteur de descripteurs à 163 attributs. Après
la réduction des dimensions des descripteurs, la première configuration donne
des résultats meilleurs que la deuxième configuration. La performance optimale
de cette dernière est obtenue en conservant deux composantes principales
(DTC=5,815, MPDC=0,938 et MPCC=0,159). Le Tableau 25 détaille plus les
performances des CP de la première configuration.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
93
CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 … CP107
VP 3,131 0,577 0,160 0,101 0,059 0,039 0,035 0,030 0,024 0
% VP 71,84 13,24 3,68 2,32 1,35 0,90 0,81 0,69 0,56 0
% CVP 71,84 85,08 88,77 91,09 92,45 93,36 94,17 94,87 95,43 100
DTCi 5,844 5,844 5,430 5,287 5,108 5,070 5,009 5,026 5,217 5,198
MPDCi 0,952 0,952 0,825 0,785 0,733 0,732 0,727 0,728 0,812 0,803
MPCCi 0,154 0,154 0,229 0,218 0,225 0,224 0,221 0,216 0,211 0,081
Tableau 25: Détails de l'évaluation de la performance de tous les descripteurs
Interprétation des résultats :
Avant la projection des composantes principales, l’évaluation de la
performance de l’utilisation conjointe des descripteurs donne des résultats
inférieurs à celle du descripteur de largeur de plages qui est le descripteur le plus
performant parmi les descripteurs testés. Cependant, en utilisant la technique
d’analyse en composantes principales, la performance de l’utilisation conjointe
des différents descripteurs donne des résultats considérablement supérieurs aux
résultats des descripteurs considérés individuellement. Il suffit de garder la
première composante pour obtenir une performance de 𝐷𝑇𝐶 = 5,844. Donc, la
première composante, toute seule, permet de distinguer, en moyenne, 5,844
classes de texture parmi les 6 classes de notre base de test. Pourtant, cette
composante ne porte que 71,84 % de l’énergie du signal.
3.5.4.9. Synthèse de l’évaluation de la performance des descripteurs de
texture après la projection sur les composantes principales :
Le Tableau 26 récapitule les meilleures performances des différents
descripteurs de texture après leur projection sur les composantes principales. Il
permettant d’exploiter au mieux les descripteurs que nous avons implémentés.
En plus, nous ordonnons les différents descripteurs de texture selon les deux
mesures DTC et MPDC.
L’utilisation de l’ACP nous a permis de réduire énormément la dimension
des vecteurs de descripteurs de texture comme le montre la Figure 32. Cette
réduction de dimensions des vecteurs de descripteurs est nécessaire pour
améliorer le temps de réponse de notre système. En fait, la comparaison, d’un
vecteur de descripteurs de texture ayant 107 attributs et d’un vecteur de
descripteurs de forme ayant 22 attributs, est très coûteuse en temps de calcul. A
part l’avantage de réduction de temps de calcul de similarité, la réduction des
dimensions des vecteurs des descripteurs, en utilisant l’analyse en composantes
principales, nous a amélioré les performances des descripteurs de texture comme
nous l’avons montré le long de cette section.
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
94
En fait, la mesure de détachement de classes (DTC), que nous avons présenté
dans la section (3.2.2), est améliorée considérablement grâce à cette réduction de
la dimension des vecteurs de descripteurs, en utilisant l’ACP, comme le montre
La Figure 33. La meilleure mesure de DTC est obtenue lorsque nous utilisons soit
la première, soit les deux premières composantes principales calculées à partir du
vecteur de descripteurs global. Les deux premières composantes principales,
correspondant à ce dernier vecteur, portent plus que 85% de l’énergie du signal
contenu dans les 107 dimensions du vecteur de descripteur global. La distribution
spatiale des RI appartenant aux 6 classes de texture, en utilisant les deux
premières composantes principales du vecteur global des descripteurs, est
illustrée par la Figure 34. Cette dernière figure montre l’efficacité des descripteurs
utilisés à séparer la majorité des éléments des 6 classes de texture que nous avons
utilisées comme vérité terrain dans l’évaluation des descripteurs de texture. Nous
utilisons, dans le dernier chapitre, ces classes de texture, à coté des autres RP non
classées, dans l’évaluation de la performance globale du système.
Figure 32: Réduction importante des dimensions des descripteurs après l'utilisation de l'ACP
31 Le vecteur des descripteurs dérivés du banc du filtres de Gabor contient la moyenne et l’écart-type des réponses à tous
les filtres (20 filtres).
020406080
100120
Nombre des dimensions des descripteurs avant la réduction des dimensions en utilisant l'ACP
Nombre des dimensions des descripteurs après la réduction des dimensions en utilisant l'ACP
Descripteurs Paramètres
d’entrée
NB
CP
DTC MPDC MPCC
Ordre Valeur Ordre Valeur
Histogramme 32 NG 2 5 5,042 5 0,759 0,076
Moments de niveaux de gris Néant 1 7 4,740 7 0,710 0,046
Gabor Tous31
3 4 5,159 2 0,800 0,126
Color auto-correlogram 64 NG, DL1=5 2 6 5,009 6 0,726 0,069
Longueurs de plages 128 NG, D : 2
directions 3 2 5,404 3 0,798 0,202
Différence de niveaux de gris dx=2, dy=3 1 8 4,503 8 0,594 0,133
Cooccurrence D=1, A=0 4 3 5,396 4 0,790 0,086
Tous les descripteurs 1 1 5,844 1 0,952 0,154
Tableau 26: Les meilleures performances des différents descripteurs de texture après la réduction de dimensions en utilisant l’ACP
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
95
Figure 33: Amélioration de la performance des descripteurs (selon la mesure de DTC) après la réduction des dimensions des descripteurs en utilisant l'ACP
Figure 34: Distribution des différentes classes de texture selon les deux premières composantes principales retenues du vecteur de descripteurs total de texture
3.5.4.10. Projection des descripteurs de forme sur les composantes
principales :
Nous avons utilisé plusieurs descripteurs (périmètre, surface, circularité,
rectangularité, « edginess », les 7 moments invariants et la norme de 10
descripteurs de Fourier normalisés par le coefficient d’ordre 1) dans la
0123456
Performances des descripteurs avant la réduction des dimensions en utilisant l'ACP
Performances des descripteurs après la réduction des dimensions en utilisant l'ACP
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
-3 -2 -1 0 1 2 3
RI de la classe 1
RI de la classe 2
RI de la classe 3
RI de la classe 4
RI de la classe 5
RI de la classe 6
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
96
description de la forme des RI. Au contraire des descripteurs de texture, nous
n’avons pas un critère de qualité qui nous permet de déterminer
automatiquement le nombre de composantes nécessaires pour obtenir les
meilleures performances des descripteurs de forme. Pour cette raison, nous avons
adopté la méthode utilisant l’indicateur de qualité global (IQG) [41]. En adoptant
cette méthode, nous retenons les k premières composantes portant plus de 95%
de l’énergie du signal. D’après le Tableau 27, il suffit de retenir les 12 premières
composantes pour conserver le pouvoir discriminant des descripteurs de forme.
CP1 CP2 CP3 CP4 CP5 CP6 CP7 CP8 CP9 CP10 CP11
VP 7,90 3,78 2,72 1,45 0,91 0,84 0,76 0,67 0,64 0,52 0,46
% VP 35,94 17,21 12,39 6,61 4,17 3,85 3,49 3,07 2,94 2,40 2,10
% CVP 35,94 53,16 65,56 72,17 76,35 80,21 83,70 86,77 89,71 92,12 94,23
CP12 CP13 CP14 CP15 CP16 CP17 CP18 CP19 CP19 CP20 CP21
VP 0,44 0,27 0,21 0,16 0,07 0,05 0,02 0,01 0,007 0,004 0,001
% VP 2,01 1,24 0,96 0,73 0,33 0,24 0,10 0,05 0,03 0,02 0,007
% CVP 96,25 97,49 98,46 99,20 99,53 99,78 99,88 99,93 99,97 99,99 100
Tableau 27: Illustration des résultats de l’évaluation de performance des descripteurs de forme
3.6 Conclusion:
Dans ce chapitre, nous avons traité, en premier lieu, la tâche d’évaluation
des performances des descripteurs du contenu visuel des images. Dans les
images pulmonaires TDM, l’information la plus importante qui décrit les
pathologies se manifeste par un changement de l’aspect de la texture de la région
infectée. Pour cette raison, nous avons décrit la texture en utilisant plusieurs
descripteurs paramétrables. En se basant sur les résultats d’évaluation des
performances des descripteurs, nous avons pu fixer les paramètres d'entrée, de
chaque famille de descripteurs, qui permettent de maximiser sa performance.
En second lieu, nous avons utilisé une technique de réduction de la
dimension des vecteurs de descripteurs basée sur l’analyse en composantes
principales. D’une part, cette technique nous a permis de réduire énormément la
taille des descripteurs. D’autre part, elle nous a permis d’améliorer
considérablement la performance des différentes familles de descripteurs. En
effet, nous avons pu réduire la taille du descripteur de texture global d’une
dimension de 107 attributs à une seule dimension qui porte plus de 71% d’énergie
du signal, tout en améliorant le résultat de la mesure de détachement de classes,
que nous avons présenté dans ce chapitre, de 5,198 à 5,844. Ce dernier résultat
signifie que les descripteurs utilisés peuvent distinguer en moyenne 5,844 classes
de texture parmi les 6 classes que nous avons identifiées dans notre BDD de test.
Après l’évaluation de la performance des familles de descripteurs de
texture et la réduction de leur dimension, nous présentons et nous évaluons, dans
Chapitre 3 Adaptation des descripteurs et réduction de leur dimension
97
le chapitre suivant, notre approche d'indexation et de recherche d’images
pulmonaires par le contenu visuel.
98
Chapitre 4
Implémentation de l’approche
d’indexation et de recherche
d’images pulmonaires TDM par le
contenu visuel et évaluation des
résultats
Dans ce chapitre, nous présentons l’architecture
générale de notre SRIPCV, ainsi que l’environnement,
matériel et logiciel, de développement. En dernier lieu, nous
évaluons la performance globale de notre système
d'indexation et de recherche d’images.
4.1 Introduction :
Dans les chapitres précédents, nous avons détaillé les principales fonctions
effectuées par notre SRIPCV. Il nous reste de présenter l’architecture générale de
notre système tout en détaillant le déroulement des différentes étapes
d’indexation et de recherche d’images pulmonaires. En second lieu, nous
présentons l’environnement de développement de notre application. Cet
environnement aura un grand impact sur la robustesse et la rapidité d’exécution
Chapitre 4 Implémentation de l'approche et évaluation des résultats
99
de notre SRIPCV. En dernier lieu, nous évaluons la capacité de notre système à
satisfaire les requêtes lancées par l’utilisateur, ainsi que la rapidité d’exécution
des différents modules essentiellement pendant la phase de recherche. En plus,
nous présentons le résultat d’exécution de quelques requêtes qui font appel aux
différentes méthodes et options d’appariement.
4.2. Architecture générale du système de recherche
d’images pulmonaires par le contenu visuel :
Notre système de recherche d’images pulmonaires TDM par le contenu
visuel comporte deux phases comme le montre la Figure 36 : la première est une
phase hors ligne. Alors que, la deuxième est une phase en ligne.
La première phase correspond à la phase de la population de la BDD avec
les images pulmonaires TDM (phase d'indexation). Dans cette phase, notre
système associe à l’image une représentation logique sous forme de graphe
attribué. Comme nous avons montré, dans le deuxième chapitre, cette structure
hiérarchique nous permet d’étendre les possibilités d’expression de requête, dans
notre système. Après la population de la BDD avec les images pulmonaires TDM,
nous pouvons passer à la deuxième phase qui correspond à la recherche d’images
pulmonaires par le contenu visuel. La phase de population de la base
(indexation) fait appel aux deux premiers modules, alors que le traitement de la
requête de l’utilisateur (recherche) nécessite le passage par les trois modules du
système comme le montre la Figure 35 :
3. Module de recherche d’images similaires.
Phase d’indexation
1. Module d’extraction des régions d’intérêt,
2. Module de gestion des régions d’intérêt,
Phase de recherche
Figure 35 : Répartition des modules du SRIPCV entre les deux phases d'indexation et de recherche
Dans les deux chapitres précédents, nous avons détaillé les fonctionnalités
de base, assurées par ces modules, comme la segmentation d’images
pulmonaires, l’extraction des descripteurs, la réduction de la dimension des
vecteurs des descripteurs en utilisant l’ACP et l’appariement de graphes, etc.
Donc, dans cette section, nous ne visons pas à détailler les fonctionnalités que
nous avons déjà expliquées. Mais, nous expliquons le déroulement des étapes de
notre approche, dans les deux phases de population de la BDD et de recherche,
tout en montrant l’efficacité de l'approche proposée.
Extraction des régions d’intérêt
SRIPCV
I.S.B
S.I
E.R.N
E.P.R.N
E.R.N.T.B.I
E.R.B
E.P.R.B
A.S.U.C.B
BDD
I.R
Gestion des régions d’intérêt
E.D.T.F
N.D.T
R.D.D
I.N.G
N.P.R.R.P
S.R.P
A.R.P
S.R.P
Recherche d’images similaires
C.S.A
C.O.R
C.D.T
R.D.N.A
C.S.A.P
I.P.R.A
I.R.N.A
C.C.I.M.A
C.C.D.S.R.I.A
C.C.F.R.I.A
C.C.T.R.I.N.A
C.C.D.S.R.I.N.A
N.C.T.R.I.A
N.C.D.S.R.I.A
N.C.F.R.I.A
N.C.T.R.I.N.A
N.C.D.S.R.I.N.A
C.C.T.A
T.I.O.D.C.T.A
E.I.N.P
A.R.R
Segmentation Gestion
des régions
pathologiques
Gestion des
descripteurs
physiques
Construction
du graphe
Formulation de la
requête et
récupération des
données
de la BDD
Appariement de
graphes selon
les descripteurs
de texture
Calcul des coûts
d’appariement
Normalisation
des coûts
d’appariement
Préparation
de résultat
de la recherche
Figure 36: Architecture générale du système de recherche d'images pulmonaires TDM
100
Légende de la Figure 36 :
I.S.B : images à stocker dans la base
I.R : image requête : Phase hors ligne
: Phase en ligne
: Sous-modules demandant l’intervention de l’utilisateur
Premier module : Extraction des régions d’intérêt Segmentation :
- S.I : Seuillage itératif - E.R.N : Etiquetage des régions noires - E.P.R.N : Elimination des petites régions noires - E.R.N.T.B.I : Elimination des régions noires touchant le bord
de l’image - E.R.B : Etiquetage des régions blanches - E.P.R.B : Elimination des petites régions blanches - A.S.U.C.B : Amélioration de la segmentation en utilisant les
courbes « B-Spline »
Gestion des régions pathologiques
- S.R.P : Sélection des régions pathologiques - A.R.P : Annotation des régions pathologiques
Deuxième module : Gestion des régions d’intérêt
Gestion des descripteurs physiques
- E.D.T.F : Extraction des descripteurs de texture et de forme - N.D.T : Normalisation des descripteurs de texture - R.D.D : Réduction de la dimension des descripteurs
Construction du graphe
- I.N.G : Identification des nœuds du graphe - N.P.R.R.P : Normalisation de la position relative des régions
pathologiques
Troisième module : Recherche d’images similaires
Formulation de la requête et récupération des données de la BDD
- C.S.A : Choix de la stratégie d’appariement - C.O.R : Choix des options de la recherche - C.D.T : Choix des descripteurs de texture à utiliser - R.D.N.A : récupération des données nécessaires à
l’appariement
Appariement de graphes selon les descripteurs de texture
- C.S.A.P : Choix du sens d’appariement des deux poumons - I.P.R.A : Identification des paires de régions appariées - I.R.N.A : Identification des régions non appariées - C.C.I.M.A : Calcul du coût initial minimal d’appariement
Calcul des coûts d’appariement
- C.C.D.S.R.I.A : Calcul du coût de la distribution spatiale des RI appariées
- C.C.F.R.I.A : Calcul du coût de la forme des RI appariées - C.C.T.R.I.N.A : Calcul du coût de la texture des RI non
appariées - C.C.D.S.R.I.N.A : Calcul du coût de la distribution spatiale des
RI non appariées
Normalisation des coûts d’appariement
- N.C.T.R.I.A : Normalisation du coût total des RI appariées - N.C.D.S.R.I.A : Normalisation du coût de la distribution
spatiale des RI appariées - N.C.F.R.I.A : Normalisation du coût de la forme des RI
appariées - N.C.T.R.I.N.A : Normalisation du coût de la texture des RI non
appariées - N.C.D.S.R.I.N.A : Normalisation du coût de la distribution
spatiale RI non appariées
Préparation du résultat de la recherche
- C.C.T.A : Calcul du coût total d’appariement - T.I.O.D.C.T.A : Tri des images de la BDD selon l’ordre
décroissant des coûts totaux d’appariement - A.R.R : Affichage du résultat de la requête - E.I.N.P : Elimination des images non pertinentes
101
Chapitre 4 Implémentation de l'approche et évaluation des résultats
102
4.2.1. Module d’extraction des régions d’intérêt :
Le rôle essentiel du premier module, dont le schéma général est représenté
par la Figure 37, est de subdiviser l’image en un ensemble de RI représentant les
deux régions pulmonaires et les régions pathologiques qu’elles contiennent. Le
premier sous-module de segmentation a pour but d’identifier automatiquement
les deux régions pulmonaires en exécutant l’approche de segmentation que nous
avons détaillée dans la section (2.2). Nous avons enrichi le module de
segmentation par un outil basé sur les courbes « B-Spline » permettant, d’une
part, d’améliorer en quelques instants, la qualité de la segmentation, en lissant
les bords des régions non pulmonaires. D’autre part, il nous permet de
sélectionner, avec précision, les régions pathologiques. En plus, il nous permet de
procéder à une segmentation manuelle, dans le cas d’échec de l’algorithme de
segmentation à isoler efficacement les deux régions pulmonaires. Cet échec de
segmentation est dû à la grande hétérogénéité de la texture des régions
pulmonaires causée par certaines pathologies affectant les poumons. Après la
segmentation automatique des deux régions pulmonaires, le radiologue
sélectionne les régions pathologiques avant sa sauvegarde dans la BDD. Afin de
pouvoir évaluer automatiquement les performances des descripteurs, ainsi que
les performances du SRIPCV, nous devons avoir une BDD partitionnée selon les
classes de textures des RI qu’elle contient. Donc, pendant la phase de population
de la base, nous associons, à chaque RP, une annotation textuelle indiquant sa
classe de texture. Dans la dernière étape de ce module, l’image segmentée et les
annotations textuelles sont sauvegardées dans la BDD.
4.2.2. Module de gestion des régions d’intérêt :
Le deuxième module (voir Figure 38), contient deux sous-modules
permettant respectivement de gérer les descripteurs physiques et de construire la
structure de graphe attribué permettant de modéliser le contenu visuel des
images pulmonaires TDM. Dans le premier sous-module, nous commençons par
l’extraction des descripteurs de texture et de forme que nous avons présentés
dans la section (1.2). Ensuite, nous procédons à la normalisation des descripteurs
de texture de manière à obtenir pour chaque descripteur des valeurs comprises
entre 0 et 1. Cette étape est primordiale, étant donné la différence considérable
Figure 37 : Schéma général du premier module du SRIPCV
Segmentation
de l’image
pulmonaire
TDM
Sélection des RP
Sélection et
annotation des RP
Sauvegarde
des données
dans la BDD
Phase
d’indexation
Phase de
recherche
Chapitre 4 Implémentation de l'approche et évaluation des résultats
103
entre les plages de valeurs des différents descripteurs de texture. Si nous
n’effectuons pas cette normalisation, la participation des différents descripteurs,
dans la fonction de mesure de similarité, devient non équitable. La dernière étape
du sous-module de gestion des descripteurs nous permet d’effectuer une
réduction de la dimension des vecteurs des descripteurs afin d’accélérer la phase
de recherche.
Après l’achèvement de la gestion des descripteurs, nous passons au sous-
module de construction de graphe attribué correspondant aux images
pulmonaires TDM. Dans ce sous-module, nous visons à transformer l’ensemble
des RI et des descripteurs physiques extraits de ces RI en un graphe attribué.
Pour ce faire, le SRIPCV commence par l’identification des nœuds du graphe
comme suit :
1. Chercher la RI ayant la surface la plus grande et l’identifier comme
étant une région pulmonaire (P1).
2. Chercher les RI appartenant à P1 et les associer à ce poumon.
3. Pour le reste des RI, non encore identifiées, nous cherchons la RI
ayant la surface la plus grande et l’identifier comme étant une région
pulmonaire (P2).
4. Le reste des RI, non encore identifiées, sont considérées comme étant
des RP de P2.
5. Comparer les positions des centres de gravité de P1 et P2 pour
pouvoir distinguer le poumon droit du poumon gauche.
La seconde étape de la construction de graphe consiste à associer à chaque
arc, liant l’un des deux nœuds correspondant à l’un des deux poumons aux
nœuds des régions pathologiques qu’il contient, un attribut précisant la position
relative de cette région pathologique au poumon qui le contient. Cette position
relative doit être normalisée comme nous avons précisé dans la section (2.3.5.1)
afin d’avoir une mesure efficace de coût de la distribution spatiale.
Extraction des descripteurs physiques
Normalisation des descripteurs de texture
Réduction de la dimension des descripteurs
physiques
Sous-module de gestion des descripteurs physiques
Identification des nœuds du graphe
Calcul des positions relatives des RP
Sous-module de construction du graphe
Figure 38 : Schéma général du deuxième module du SRIPCV
Chapitre 4 Implémentation de l'approche et évaluation des résultats
104
Après la phase de population de la BDD avec les images pulmonaires, nous
pouvons passer à la phase de recherche d’images pulmonaires par le contenu.
Avant de lancer une requête, l’utilisateur inspecte si la segmentation s’est bien
déroulée ou non. Dans ce dernier cas, l’utilisateur peut utiliser l’outil que nous
avons développé pour améliorer la segmentation des images pulmonaires.
Ensuite, il sélectionne les régions pathologiques suspectes avant de lancer la
demande de formulation de la requête. Pendant la recherche, l’utilisateur n’a pas
besoin d’annoter les régions pathologiques (RP) car la recherche s’effectue selon
le contenu visuel des RI. Puis, le système exécute automatiquement le module de
gestion de RI afin de préparer la structure de graphe de l’image requête, avant de
passer au module de recherche d’images similaires.
4.2.3. Module de recherche d’images similaires :
La première étape de la recherche correspond à la formulation de la requête.
L’interface de formulation de la requête contient trois parties comme le montre la
Figure 39. La première partie permet de choisir l’une des méthodes d’appariement
que nous avons expliquées dans la section (2.3.3). C'est-à-dire, l’utilisateur précise
les niveaux du graphe qui vont intervenir dans l’appariement :
Le deuxième niveau du graphe : ainsi construit. Dans ce cas, il s’agit d’un
appariement global,
Le troisième niveau du graphe : Dans ce cas, il s’agit d’un appariement
local,
Le deuxième et le troisième niveau du graphe : Dans ce cas il s’agit d’un
appariement global/local.
La deuxième partie de l’interface de formulation de la requête permet de
choisir les options de recherche, permettant d’étendre les possibilités
d’interrogation de notre système. La première option de recherche, c’est la
permission de faire les appariements croisés des régions pulmonaires. Lorsque
l’utilisateur choisit cette option, notre système effectue les deux appariements
possibles avec chaque graphe de la BDD (appariement de poumon gauche
(respectivement poumon droit) de la requête avec le poumon gauche
(respectivement poumon droit) des images de la BDD ou appariement de
poumon gauche (respectivement poumon droit) de la requête avec le poumon
droit (respectivement poumon gauche) de la base). Ensuite, nous choisissons
l’appariement permettant d’avoir le coût d’appariement total le plus faible. Les
trois autres options de recherche permettent d’indiquer au système s’il doit tenir
compte ou non de la forme, de la distribution spatiale des RI. En fait, l’option
« tenir compte de la forme des RI appariées indique au système qu’il doit tenir
compte de la forme des RI appariées avec un certain poids choisi par l’utilisateur.
Ce poids indique le degré de participation de ce descripteur par rapport au
descripteur principal (descripteur de texture). Par exemple si nous choisissons la
Chapitre 4 Implémentation de l'approche et évaluation des résultats
105
valeur 0.1 comme valeur de poids de descripteur de forme, nous allons
considérer le 1/10 de la valeur des descripteurs de forme dans la fonction de coût
total. La même chose pour l’option « tenir compte de la distribution spatiale des
RI appariées» qui permet de tenir compte de la similarité des images selon la
ressemblance de la distribution spatiale des paires des RI appariées. La dernière
option de recherche est « tenir compte des nœuds non appariés ». Lorsque nous
choisissons cette option, le système étend la notion de similarité pour tenir
compte des RI non appariées comme nous l’avons discuté dans la section (2.3.5.3).
Le poids de cette option par rapport aux descripteurs de texture est paramétrable
par l’utilisateur. Avant d’entamer la phase d’appariement de graphes, le système
récupère les données mises en jeu à partir de la BDD.
Avant de chercher l’appariement optimal entre les deux graphes à apparier,
le système détermine le sens d’appariement des deux sous-graphes de poumons.
En fait, pour pouvoir construire l’arbre d’appariements possibles, nous devons
apparier le poumon ayant le nombre de RI le plus petit à l’autre poumon.
Ensuite, nous cherchons l’appariement permettant d’avoir le coût initial minimal
d’appariement. Nous identifions les régions appariées des deux graphes et les
régions non appariées du graphe contenant plus de RI, pour pouvoir calculer les
différents coûts correspondants aux options d’appariement choisies par
l’utilisateur. Après l’appariement du graphe de l’image requête avec celui d’une
image donnée de la BDD, nous calculons ces derniers coûts d’appariement.
Ensuite, après le calcul des différents coûts d’appariements des différentes
images de la BDD, le système procède à la normalisation de ces différents coûts
d’appariements et au calcul du coût total d’appariement comme nous l’avons
Figure 39: Interface de formulation de la requête du système SRIPC
Chapitre 4 Implémentation de l'approche et évaluation des résultats
106
décri dans la section 2.3.5.4 de ce rapport. Cette normalisation permet de garantir
une participation égale des différents descripteurs dans la fonction de coût total
d’appariement, tout en pondérant chaque option de recherche par le poids choisi
par l’utilisateur. Si l’utilisateur choisit l’une des deux méthodes d’appariement
faisant appel aux nœuds du troisième niveau. C'est-à-dire, dans le cas où on tient
compte des RP des deux poumons, nous devons éliminer les images non
pertinentes avec la requête. Ces images sont celles qui n’ont aucune région
pathologique appariée avec l’une des RP de la requête. En effet, ces images
engendrent des coûts faibles, dans le cas où nous choisissons la méthode
d’appariement global/local, et des coûts nuls, dans le cas où nous choisissons la
méthode d’appariement local. Enfin, le système trie les images selon l’ordre
décroissant de similarité et les affiche à l’utilisateur.
Dans la section suivante, nous présentons l'architecture matérielle et
logicielle selon lesquelles nous avons développé le SRIPCV.
4.3. Environnement matériel et logiciel :
Nous avons développé le SRIPCV sur un ordinateur de bureau équipé d’un
processeur P4 ayant une fréquence 1.8 GH, 512 KO de mémoire cache et 384 MO
de mémoire vive. Concernant l’environnement logiciel, notre application est
développée en utilisant le nouveau langage CSharp.Net (C#) qui a été lancé par
Microsoft à l’an 2002 [74]. Nous avons choisi ce langage, dans le but d’avoir une
application robuste, rapide et élégante. En fait, d’après Chung [74], le langage
CSharp .Net (C#) possède les trois caractéristiques suivantes : élégant comme
Java, puissant comme le C++ et productif comme le Visual Basic. En plus,
Microsoft [75] annonce que ce nouveau langage a participé, durant les dernières
années, dans le développement de plusieurs applications robustes partant des
applications bureautiques et arrivant aux services web. Aussi, Fahd Gilani
montre dans [75] l’efficacité du C# dans le développement des applications
scientifiques nécessitant une grande tâche de calcul et une rapidité d’exécution
permettant de satisfaire les contraintes d’exécution en temps réel. En fait, le
langage C# est doté d’un gestionnaire de mémoire appelé ramasse miettes
« Garbage Collector » qui permet de déléguer les problèmes de gestion de la
mémoire au CLR « Common Language Runtime ». Mais, le ramasse miettes peut
ralentir les applications nécessitant un temps de réponse réduit. Le langage C#
présente des solutions à ce problème, grâce à l’approche de programmation non
sécurisée (« unsafe approach »), en utilisant les « C-Style pointers » qui ne sont
pas à la portée du ramasse miettes. Le langage C# est un langage complètement
orienté objet. Puisque le monde réel est composé d’objets hautement inter-reliés
et ayant des propriétés dynamiques, l’approche de programmation orientée objet
représente la meilleure solution dans la résolution des problèmes scientifiques.
L’avantage du langage C# comme tous les langages utilisant la librairie « .NET
Chapitre 4 Implémentation de l'approche et évaluation des résultats
107
Framework » est sa capacité de communiquer avec n’importe quel langage grâce
au CLS « Common Language Specification » et le CTS « Common Type System ».
Cette propriété d’interopérabilité permet au langage C# d’utiliser des
bibliothèques des autres langages. En plus, on peut écrire les parties critiques du
code en utilisant le langage C non managé et l’utiliser à partir d’une application
C# managée. Un autre avantage du langage C# réside dans sa portabilité qui
commence à voir la lumière grâce au projet libre développé par MONO/XIMIAN
qui commence à traduire le CLR pour fonctionner sur les architectures : s390,
SPARC, PowerPC et les systèmes StrongARM. Microsoft développe, à sa part,
une version libre du CLR qui fonctionne sur les systèmes FreeBSD. Tous ces
avantages, nous a encouragé à développer notre application SRIPCV en utilisant
le langage C#.
A coté du langage C#, nous avons utilisé une BDD « ACCESS », pour
stocker les différents descripteurs extraits des images pulmonaires TDM et les
éléments de la structure de graphe correspondante.
4.4. Evaluation des performances du SRIPCV :
Les mesures de performances que nous présentons, dans cette section, sont
calculées en utilisant une BDD contenant 122 images pulmonaires TDM
appartenant à 8 cas pathologiques différents et qui contiennent 198 RP identifiées
et classées en 6 classes de texture comme le montre le Tableau 1 du troisième
chapitre. En plus des RP classées, la BDD contient 75 RP non identifiées. Ces
dernières RP appartiennent aux images contenant des RP appartenant aux deux
premières classes de texture. Pour cette raison, les descripteurs de ces RP ont une
distribution spatiale chevauchée avec celle des RP des deux premières classes de
texture comme le montre la Figure 40.
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
2.5
3
-3 -2 -1 0 1 2 3
RI de la classe 1
RI de la classe 2
RI de la classe 3
RI de la classe 4
RI de la classe 5
RI de la classe 6
RI non classées
CP1
CP2
Figure 40: La distribution des RI de la BDD selon les deux premières CP de vecteur de descripteurs global
Chapitre 4 Implémentation de l'approche et évaluation des résultats
108
La performance de notre SRIPCV sera évaluée en utilisant 30 images
requêtes contenant des RP appartenant aux 6 classes de texture identifiées et
illustrées par le Tableau 1. Pour chaque classe de texture, nous avons choisi 5
images requêtes différentes des images contenues dans la BDD. Chaque image
fera l’objet de 24 requêtes différentes. Pour chaque requête, nous fixons l’une des
méthodes d’appariement (local, global, global/local) et l’un des vecteurs de
descripteurs de texture (histogramme, « color autocorrelogram », Gabor,
cooccurrence, longueur de plages, différences de niveaux de gris, moments de
couleurs et le vecteur de descripteur global) selon lequel nous comparons les
textures des différentes RI. Notre système contient plusieurs options de recherche
comme nous les avons présentées dans la section précédente. Ces options visent à
favoriser les images satisfaisant au mieux les options de recherche choisies. Mais
nous n'utilisons pas ces options de recherche pendant l’évaluation de notre
système. Étant donné, d’une part, l’information la plus importante réside dans
l’aspect de la texture et non pas dans leur forme ou leur distribution spatiale.
D’autre part, il sera impossible d’évaluer les requêtes d’une manière
automatique, du fait que ces deux notions sont subjectives.
Les SRIm sont évalués [32], souvent, en utilisant les deux mesures de
« Précision » et « Rappel ». Nous rappelons, ainsi, la définition de ces deux
mesures illustrées par la Figure 41 :
La précision : correspond au taux d’images pertinentes retrouvées par la
requête et jugées pertinentes par l’utilisateur par rapport à l’ensemble de
toutes les images retournées par le système.
Le rappel : correspond au taux des images pertinentes retrouvées par la
requête par rapport à l’ensemble des images pertinentes présentes dans la
BDD.
Images sélectionnées
Images pertinentes
Images pertinentes Sélectionnées
Sélectionnés
BDD
IS
IPS
IP
𝑃𝑟é𝑐𝑖𝑠𝑖𝑜𝑛 =𝐼𝑃𝑆
𝐼𝑃𝑆+𝐼𝑆 , 𝑅𝑎𝑝𝑝𝑒𝑙 =
𝐼𝑃𝑆
𝐼𝑃𝑆+𝐼𝑃
Figure 41: Illustration des critères de Précision et de Rappel
Chapitre 4 Implémentation de l'approche et évaluation des résultats
109
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
color autocorrelogram
coccurrence
différence de niveaux de gris
Gabor
histogramme
longueurs des plages
moments de couleur
tous les descripteurs
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
color autocorrelogram
coccurrence
différence de niveaux de gris
Gabor
histogramme
longueurs des plages
moments de couleur
tous les descripteurs
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
color autocorrelogram
coccurrence
différence de niveaux de gris
Gabor
histogramme
longueurs des plages
moments de couleur
tous les descripteurs
Rappel
Rappel
Rappel
Pré
cisi
on
P
réci
sio
n
Pré
cisi
on
(A)
(B)
(C)
Figure 42: Les courbes de « Précision » en fonction du « Rappel » des différentes méthodes d'appariement : (A) global/local, (B) local et (C) global
Chapitre 4 Implémentation de l'approche et évaluation des résultats
110
La courbe de « Précision et Rappel » est obtenu, pour chaque requête, en
faisant varier le nombre d’images extraites de 1 jusqu’au nombre total d’images
de la BDD. Pour chaque valeur de nombre d’images extraites, nous calculons les
deux mesures « Précision » et « Rappel ». Ensuite, nous calculons les courbes
moyennes obtenues à partir des requêtes, de même type, exécutées sur les 30
images de test.
Un SRIm idéal permet d’obtenir des taux de « Précision » en fonction de
« Rappel » proche de 1. Mais, en général, la mesure de « Précision » s’abaisse
lorsque la mesure de « Rappel » se rapproche de 1. Par exemple, dans notre
système, la valeur moyenne de la mesure de la « Précision » des différentes
méthodes d’appariement est de l’ordre de 0.3 pour une valeur de « Rappel » égale
à 1. C'est-à-dire, si nous voulons que le système retourne la totalité des images
pertinentes de la BDD, nous obtenons, en moyenne, un résultat constitué de 30%
d’images pertinentes et 70% d’images non pertinentes comme le montre la Figure
42. En observant les courbes de « Précision et Rappel », nous pouvons avoir une
idée globale sur les performances attendues des différentes méthodes
d’interrogation offertes par notre système. Mais, il reste toujours difficile de juger
avec précision les différentes méthodes d’interrogation en utilisant seulement
leur courbes de « Précision et Rappel ». Par exemple, les deux graphiques de
« Précision et Rappel » des deux méthodes d’appariements (global/local et la
méthode d’appariement local) ont une allure similaire. Cependant, pour la
méthode d’appariement global, son graphique est largement différent des deux
premiers graphiques et il présente des performances inférieures aux deux
méthodes précédentes d'appariement. Donc, nous pouvons conclure que la
performance de la méthode d’appariement global est largement inférieure aux
deux premières méthodes. Néanmoins, si nous voulons mesurer, d’une manière
plus précise, les performances de notre système, nous devrions mesurer sa
précision lorsque nous considérons les k premières images (avec k peut
représenter soit le nombre d’images de la BDD pertinentes à la requête, soit les 10
ou les 5 premières images du résultat associé à la requête).
En premier lieu, nous mesurons la performance du système en considérant
les k premières images retrouvées par le SRIPCV, avec k représente le nombre
d’images de la BDD pertinentes à la requête. C'est-à-dire, k est le nombre
d’images de la BDD contenant au moins une RP de la même classe que celle des
RP de la requête. La prise en compte du degré de représentation de chaque classe
de texture, dans la BDD, à l’étape d’évaluation du système, nous permet d’avoir
des mesures de performance plus objectives. La meilleure performance est
obtenue lorsque nous utilisons les descripteurs de cooccurrence et la méthode
d’appariement local (voir le deuxième graphique de la Figure 43). En effet, nous
obtenons une « Précision » égale à 0.725 qui représente un très bon résultat pour
un système totalement orienté contenu et qui n’utilise pas une stratégie
Chapitre 4 Implémentation de l'approche et évaluation des résultats
111
d’apprentissage. La « Précision moyenne» des différents descripteurs en utilisant
la méthode d’appariement local (respectivement global/local et global) est égale à
0.678 (respectivement 0.677 et 0.583), comme le montre la colonne A des trois
graphiques de la Figure 43.
En général, l’utilisateur n’a pas besoin de consulter toutes les images
candidates de la BDD. Donc, il est plus intéressant de mesurer la performance du
système pour les premières images retrouvées. Dans le cas où nous considérons
les 10 premières images, la meilleure performance est obtenue lorsque nous
utilisons la méthode d’appariement global/local tout en considérant les
descripteurs de longueurs de plages (voir la colonne B du premier graphique de
la Figure 43). Dans ce dernier cas, la mesure de « Précision » est égale à 0.853.
Nous remarquons que la méthode d’appariement local a une performance
moyenne (« Précision »=0.8) légèrement inférieure à la méthode d’appariement
global/local. Cependant, pour la méthode d’appariement global, la
« Précision moyenne» du système est égale à 0.682. La meilleure performance de
cette dernière méthode d’appariement est obtenue pour les descripteurs dérivés
de la matrice de longueur de plages (« Précision »=0.77).
Dans le cas où nous mesurons les performances du système selon les 5
premières images du résultat de la requête, les performances des différentes
méthodes d’appariement s’améliorent considérablement. Ainsi, la méthode
d’appariement global/local permet d’avoir une mesure de « Précision »
supérieure à 0.9 pour les trois descripteurs (cooccurrence, histogramme et
longueurs de plages). Bien que les performances de la plupart des descripteurs de
la méthode d’appariement local sont inférieures à 0.9, leur « Précision moyenne»
égale à (0.855) est supérieure à la « Précision moyenne» de la méthode
d’appariement global/local qui est égale à (0.85). Concernant la méthode
d’appariement global, sa performance est améliorée considérablement dans le cas
où nous considérons seulement les 5 premières images de la requête. En fait, nous
obtenons une « Précision » égale à 0.873 pour les descripteurs de longueurs de
plages (voir colonne C du troisième graphique de la Figure 43).
La mesure de performance du système en considérant un nombre fixé
d’images de résultat de la requête donne une idée plus claire que les courbes de
« Précision et Rappel ». A partir des graphiques de la Figure 43, nous pouvons
conclure que les performances des deux méthodes d’appariement local et
global/local sont presque similaires. En fait, si nous mesurons la « Précision » du
système en considérant les k premières images, avec k le nombre total d’images,
de la BDD, pertinentes à la requête, la méthode d’appariement local donne des
résultats légèrement supérieurs à ceux de la méthode d’appariement
global/local. Alors que, si nous considérons les 5 ou les 10 premières images de
résultat de la requête, la méthode d’appariement global/local donne des résultats
légèrement supérieurs à la méthode d’appariement local.
Chapitre 4 Implémentation de l'approche et évaluation des résultats
112
010203040
50
60
70
80
90
100
AB
C
autocorrélogramme
cooccurrence
différence de niveaux de gris
Gabor
histogramme
longueurs des plages
moments de couleurs
tous les descripteurs
0
10
20
30
40
50
60
70
80
90
100
AB
C
autocorrélogramme
cooccurrence
différence de niveaux de gris
Gabor
histogramme
longueurs des plages
moments de niveaux de gris
tous les descripteurs
010
20
30
40
50
60
70
80
90
100
AB
C
autocorrélogramme
cooccurrence
différence de niveaux de gris
Gabor
histogramme
longueurs des plages
moments de niveaux de gris
tous les descripteurs
Légende :
A : Performance du système selon les k premières images, avec k le nombre d’images pertinentes avec la requête de l’utilisateur.
B : Performance du système selon les 10 premières images de résultat de la requête. C : Performance du système selon les 5 premières images de résultat de la requête.
Méthode d’appariement global/local
Méthode d’appariement local
Méthode d’appariement global
Figure 43: Performance des différentes méthodes d'appariement
Chapitre 4 Implémentation de l'approche et évaluation des résultats
113
La méthode d’appariement global donne, dans tous les cas, des mesures de
performances inférieures à celles des deux autres méthodes comme le montre le
troisième graphique de la Figure 43.
La performance d’un SRIm n’est pas limitée à sa capacité de satisfaire la
demande de l’utilisateur. Mais, elle sera fonction de la rapidité d’exécution des
différents modules du système. Pendant l’exécution des différentes requêtes de
test, nous avons mesuré le temps d’exécution des différentes étapes de la
recherche d’images comme le montre le Tableau 28. En fait, le temps de
segmentation moyen est égal à 625 ms. Après la segmentation et la délimitation
des différentes RI, le système procède au calcul des différents descripteurs et à la
réduction de leur dimension en utilisant l’ACP dans un temps moyen égal à 447
ms. Ensuite, le système identifie automatiquement les différentes RI de l’image
dans le but de construire la structure de graphe correspondante. Le temps moyen
de cette étape est de l’ordre de 10 ms. En dernier lieu, le système exécute le
module de recherche d’images pulmonaires. La durée moyenne d’exécution de ce
dernier module varie selon la méthode d’appariement utilisée. Dans le cas
d’utilisation de la méthode d’appariement global, l’exécution du module de
recherche prend en moyenne 22 ms. Alors que, si nous utilisons la méthode
d’appariement local (respectivement global/local), la durée moyenne de la
recherche est de l’ordre de 27 ms (respectivement 41 ms). Ces résultats montrent
la rapidité de notre approche de recherche d’images par le contenu visuel.
Etape Durée moyenne (ms)
Segmentation automatique de la région pulmonaire 625
Calcul des descripteurs et réduction de leur dimension en utilisant l’ACP 447
Construction du graphe de l’image pulmonaire 10
Recherche d’images en utilisant la méthode d’appariement global 22
Recherche d’images en utilisant la méthode d’appariement local 27
Recherche d’images en utilisant la méthode d’appariement global /local 41
Tableau 28 : Les temps moyens des différentes étapes de la recherche
Afin d’illustrer les résultats des différentes méthodes d’appariement et les
options intégrées au module de recherche de notre système, nous présentons,
dans ce qui suit, le résultat d’exécution de quelques interrogations. L’image
requête choisie est celle de la Figure 44 où chaque poumon contient une RP qui
représente la maladie d’emphysème pulmonaire.
Figure 44: Image requête
Chapitre 4 Implémentation de l'approche et évaluation des résultats
114
La Figure 45 représente les dix premières images retournées par le système
lorsque nous choisissons la méthode d’appariement global et les descripteurs de
longueurs de plages comme descripteurs de texture. Dans le résultat de cette
requête, nous obtenons 6 images pertinentes parmi les dix premières images. Les
performances du système s’élèvent à 100% lorsque nous utilisons la méthode
d’appariement local (respectivement global/local) comme le montre la Figure 46
(respectivement la Figure 47). Dans certains cas, l’utilisateur a besoin de chercher
des RI ayant la même forme que celles des RI de limage requête. Le choix de
l’option « Tenir en compte la forme des RI appariées » permet de favoriser les
images contenant des RI ayant la même forme que celle des RI de l’image
requête. La Figure 48 montre le résultat de la requête lorsque nous choisissons
l’option de prise en compte de la forme des RI appariées. Le poids des
descripteurs de forme par rapport aux descripteurs de texture est fixé à (0.1). Les
10 premières images, retournées par la requête, sont pertinentes et la majorité
d’elles contiennent des RI de même forme que celles de l’image requête. Dans
certains cas, il n’est pas facile d’expliquer, le résultat de la requête. Par exemple,
l’utilisation de l’option permettant de tenir compte de coût de texture et de coût
de la dispersion spatiale des RP non appariées permet d’obtenir un bon résultat
comme le montre la Figure 49 (90% d’images pertinentes). Mais il est difficile
d’interpréter clairement ce résultat car le coût de texture dépend de plusieurs
facteurs comme la texture des RP appariées, la distribution spatiale et la texture
des RP non appariées. Le poids de coût de ces derniers facteurs par rapport au
coût de la texture des RI appariées est fixé à (0.1). La Figure 50 montre le résultat
de recherche lorsque nous utilisons l’option de prise en compte de la distribution
spatiale des RP appariées. Cette option permet de favoriser les images contenant
des RP ayant une distribution spatiale similaire à celles des images de la requête.
Une dernière option de recherche, contenue dans notre système, correspond à la
permission d’effectuer des appariements croisés. Par exemple, pour les images 2,
6 et 8 de la Figure 51 le système choisit l’appariement croisé car il aboutit à un coût
plus faible que l’appariement ordinaire (appariement de poumon droit
(respectivement gauche) de la requête avec le poumon droit (respectivement
gauche) de la BDD).
Chapitre 4 Implémentation de l'approche et évaluation des résultats
115
1 2
3 4
5
8
9
7
6
10
Figure 45: Le résultat de la recherche lorsqu’on utilise la méthode d'appariement global et les descripteurs de texture de longueur de plages
Chapitre 4 Implémentation de l'approche et évaluation des résultats
116
1 2
3 4
5
8
9
7
6
10
Figure 46: Le résultat de la recherche lorsque nous utilisons la méthode d'appariement local et les descripteurs de cooccurrence
Chapitre 4 Implémentation de l'approche et évaluation des résultats
117
1 2
3 4
5
8
9
7
6
10
Figure 47: Le résultat de la recherche en utilisant la méthode d'appariement global/local et le vecteur de descripteurs global
Chapitre 4 Implémentation de l'approche et évaluation des résultats
118
1 2
3 4
5
8
9
7
6
10
Figure 48: Le résultat de la recherche lorsqu’on utilise la méthode d'appariement global/local et le vecteur de descripteurs global avec prise en compte de la forme des RI
Chapitre 4 Implémentation de l'approche et évaluation des résultats
119
1 2
3 4
5
8
9
7
6
10
Figure 49: Le résultat de la recherche lorsqu'on utilise la méthode d'appariement global/local et le vecteur de descripteurs global avec prise en compte de la texture et la distribution spatiale des RP non appariées
Chapitre 4 Implémentation de l'approche et évaluation des résultats
120
1 2
3 4
5
8
9
7
6
10
Figure 50: Le résultat de la recherche lorsque nous utilisons la méthode d'appariement global/local et le vecteur de descripteur global avec prise en compte de la distribution spatiale des RP appariées
Chapitre 4 Implémentation de l'approche et évaluation des résultats
121
1 2
3 4
5
8
9
7
6
10
Figure 51: Le résultat de la recherche lorsqu'on utilise la méthode d'appariement global/local et le vecteur de descripteurs global avec autorisation de faire des appariements croisés
Chapitre 4 Implémentation de l'approche et évaluation des résultats
122
4.5. Conclusion :
Dans ce chapitre, nous avons décri, en premier lieu, les différents modules
de notre système d'indexation et de recherche d’images pulmonaires TDM par le
contenu visuel. Notre SRIPCV contient essentiellement deux phases. La première
phase est une phase hors ligne et correspond à la phase de population de la BDD
avec les images pulmonaires. La seconde phase est une phase en ligne et
correspond à la phase de recherche d’images par l’exemple « Query By
Example ». Notre système est développé et testé en utilisant un ordinateur de
bureau et le langage de programmation révolutionnaire C#.Net. Afin de valider
notre approche par des mesures de qualité objectives, nous avons appliqué un
ensemble de 24 requêtes différentes sur chacune des 30 images de test. A partir
des résultats associés aux requêtes, nous avons construit les courbes de
« Précision et Rappel ». Etant donné que ces courbes sont difficiles à interpréter
avec précision, nous avons calculé les mesures de « Précision » pour des nombres
fixés des premières images retrouvées. Ces dernières mesures montrent
l’efficacité des deux méthodes d’appariement local et d’appariement global/local.
Après l’évaluation des performances de notre SRIPCV, nous avons illustré le
résultat d’exécution de quelques requêtes, dans le but de visualiser l’intérêt des
options de recherche intégrées au module de recherche.
123
Conclusion et Perspectives
L’objectif de ce travail est de développer une approche d’indexation et de
recherche par le contenu visuel, spécifique aux images pulmonaires TDM, qui
permet de tirer profit des connaissances à priori connues sur ces images. Il s’agit
de développer la première couche d’un véritable système d'indexation et de
recherche d’images dédié aux images pulmonaires TDM qui indexe à la fois le
contenu physique et sémantique de ces images. Dans ce travail, nous nous
intéressons à la proposition d’une approche d’indexation physique qui tient
compte uniquement du contenu visuel des images.
La première étape de cette approche consiste à la proposition d’un modèle
d’indexation spécifique aux images pulmonaires TDM. Ce modèle doit fournir
une représentation compacte du contenu visuel, riche en informations, de ces
images. D’une part, il doit exploiter les connaissances à priori connues sur la
composition des images pulmonaires. D’autre part, il doit représenter les
différents aspects sur lesquels peut porter les requêtes des utilisateurs. Après la
définition des caractéristiques du modèle d’indexation, nous avons choisi de
représenter le contenu visuel des images pulmonaires TDM par un arbre attribué
à trois niveaux. Dans cette structure hiérarchique, les nœuds des deux derniers
niveaux portent des attributs décrivant la texture, la forme et la taille des régions
d’intérêts correspondant, alors que les arcs liant les nœuds de ces derniers
niveaux portent un attribut précisant la localisation des RP par rapport au
poumon correspondant. Ce modèle nous a permis de simplifier la représentation
du contenu visuel, tout en préservant les informations essentielles pouvant le
caractériser.
Conclusion et perspectives
124
La deuxième étape, correspond à la définition d’un modèle, de recherche
spécifique aux images pulmonaires, qui permet de tirer profit des connaissances à
priori sur les critères caractérisant les pathologies pulmonaires. En fait, l’aspect
de la texture des RP est le critère le plus important pouvant caractériser ces
pathologies. En plus, la taille, la forme et la dispersion spatiale des régions
pathologiques peuvent participer dans le diagnostic. Toutes ces connaissances à
priori fournies par des radiologues, nous ont permis de définir une approche de
calcul de similarité spécifique aux images pulmonaires. Le premier point de cette
étape est la détermination de la meilleure correspondance entre les RP de l’image
requête et les RP de chaque image de la BDD maximisant le critère de similarité
de la texture des RP appariées. Vu que la forme, la taille et la distribution spatiale
des RP peuvent influencer le diagnostic, nous avons intégré, à la procédure de
recherche, des options permettant de favoriser les images ayant des RP qui
satisfont au mieux ces critères. Afin d’enrichir la notion de similarité entre les
images pulmonaires, nous l’avons étendu pour pouvoir tenir compte de la
similarité de la texture et de la distribution spatiale des RP non appariées.
La troisième étape consiste au choix, à l’adaptation et à la réduction des
dimensions des vecteurs de descripteurs. Ceci nous a permis d’augmenter les
performances du système. En premier lieu, suite à une étude bibliographique sur
les descripteurs physiques, nous avons pu choisir un ensemble de descripteurs
pouvant caractériser l’aspect de texture, de taille et de forme des RI constituant
l’image. En second lieu, étant donné l’importance de l’aspect de texture dans la
caractérisation des pathologies pulmonaires, nous avons essayé d’adapter les
descripteurs de textures aux pathologies indexées. Cette adaptation revient à
choisir pour chaque famille de descripteurs les paramètres d’entrée pouvant
maximiser leur pouvoir à distinguer les différentes pathologies. Cette adaptation
est effectuée moyennant une approche d’évaluation de descripteurs inspirée de
celle introduite dans [1].
A l’étape d’évaluation de descripteurs, nous avons remarqué que
l’utilisation du vecteur de descripteurs global de texture (un vecteur à 107
dimensions) fournit les meilleurs résultats. Dans les systèmes contenant un grand
nombre d’images, l’utilisation des vecteurs de descripteurs à grande dimension
ralentit la procédure de recherche. Pour pallier à ce problème, nous avons
introduit la technique de réduction de dimensions basée sur l’analyse en
composantes principales. Ce qui nous a permis de réduire de manière très
satisfaisante les dimensions de vecteurs de descripteurs et d’accélérer ainsi la
phase de recherche. A titre d’exemple, la dimension de vecteur de descripteurs
global ayant 107 dimensions est réduite à un vecteur à une seule dimension. Par
ailleurs, cette technique nous a permis d’améliorer les mesures d’évaluation de
performance des vecteurs de descripteurs.
Conclusion et perspectives
125
Une dernière étape consiste à évaluer la performance globale du système
afin de valider l’approche proposée d’indexation et de recherche d’images. A
cette fin, nous avons fait appel aux deux critères de « Précision et Rappel ». Les
courbes correspondant à ces deux critères montrent l’efficacité des deux
méthodes d’appariement global/local et d’appariement local. Enfin, grâce à une
illustration de quelques requêtes, nous avons mis en exergue l’influence des
différentes options de recherche sur l’amélioration des résultats obtenus.
Les résultats prometteurs obtenus dans le cadre de ce travail ouvrent les
horizons à plusieurs perspectives qui peuvent le transformer en un véritable
système d’aide au diagnostic d’images pulmonaires TDM :
Dans le travail décrit ci-dessus, la procédure de recherche se base
uniquement sur les caractéristiques visuelles de bas niveau. Nous
envisageons d’y intégrer une procédure de recherche sémantique basée sur
les paramètres cliniques de haut niveau connus sur le patient.
L’utilisation exclusive de l’approche de recherche d’images par le contenu
visuel ne permet pas de lancer des requêtes complexes comme celles
tenant compte de l’évolution des pathologies dans le temps (Donnez-moi
les images de poumons qui contiennent une tumeur dont la taille diminue
après 2 mois du traitement). De ce fait, un langage d’interrogation pourra
être intégré pour traiter les requêtes sémantiques complexes.
126
Bibliographie
[1] José Fernando Rodigues Jr, Agma J.M.Traina et Caetano Traina Jr. Enhanced visual evaluation of feature extractors for image mining. The 3rd ACS/IEEE International Conference on Computer Systems and Applications, p. 45, 2005.
[2] Fuhui Long, Hongjiang Zhang et David Dagan Feng. Fundamentals of content-based image retrieval. in Multimedia Information Retrieval & Management-Technological Fundamentals and Applications, Springer-Verlag, New York, pp 1-26, 2003.
[3] Euripides G.M Petrakis.Fast retrieval by spatial structure in image databases. Journal of Visual Languages and Computing, Vol. 13, No. 5, pp.545-569, 2002.
[4] Marta Rukoz, Maude Manouvrier et Geneviève Jomier. Distances de similarité d'images basées sur les arbres quaternaires. 18èmes Journées Bases de Données Avancées (BDA'02), Evry (France), pp. 307-326, 2002.
[5] Maude Manouvrier, Marta Rukoz et Jenevière Jomier. A generalized metric distance between hierarchically partitioned images. In Proceedings 6th Intl. Workshop on Multimedia Data Mining - "Mining Integrated Media and Complex Data", pages. 33-41, 2005.
[6] Chi-Ren Shyu, Carla Brodley, Avi Kak et Akio Kosaka. ASSERT A physician-in-the-loop content-based retrieval system for HRCT image databases. Computer Vision and Image Understanding Volume, p. 75, 1999.
[7] Mihran Tuceryan et Anil K. Jain. Texture Analysis, The Handbook of Pattern Recognition and Computer Vision (2nd Edition),World Scientific Publishing Co, River Edge NJ USA, pp. 207-248, 1998.
[8] http://en.wikipedia.org/wiki/Run-length_encoding. [Citation : 17 4 2007.]
[9] http://www.tsi.enst.fr/tsi/enseignement/ressources/mti/textures_Fourier/ texture.html. [Citation : 11 4 2007.]
[10] M Turner. Texture descrimination by Gabor functions. Biological Cybernetics, Springer Berlin / Heidelberg , Vol.55, pp. 71-82, 1986.
[11] Myron Flickner, Harpreet Sawhney, Wayne Niblack, Jonathan Ashley, Qian Huang, Byron Dom, Monika Gorkani, Jim Hafner, Denis Lee, Dragutin Petkovic, David Steele, Peter Yanker, Query by Image and Video Content: The QBIC System, Computer, vol. 28, no. 9, pp. 23-32, 1995
[12] Henning Mueller, Samuel Marquis, Gilles Cohen et Antoine Geissbuhler. Lung CT analysis and retrieval as a diagnostic aid. Studies in Health Technology and Informatics, Vol. 116, pp.453 – 458, 2005.
[13] R.M. Haralick, K.Shanmugam, and I. Dinstein.Textural features for image classification. IEEE Trans. on Systems, Man and Cybernetics, vol. SMC-3,no. 6, pp. 610-621, 1973.
Bibliographie
127
[14] C. R. Shyu, C. E. Brodley, A. C. Kak, A. Kosaka, A. Aisen etL. Broderick. Local versus global features for content-based image retrieval. In IEEE workshop on content-based access of image and video libraries, pp.30-34, 1998.
[15] Sung-Nien Yu, Chih-Tsung Chiang et Chin-Chiang Hsieh. A three-object model for the similarity searches of chest CT images. Computerized Medical Imaging and Graphics 29, pp.617-630. 2005.
[16] Michael Lam, Tim Disney, Mailan Pham, Daniela Raicu, Jacob Furst et Ruchaneewan Susomboon. Content-based image retrieval for pulmonary computed tomography nodule images. SPIE Medical Imaging Conference, San Diego, CA, 2007.
[17] A. Del Bimbo .Visual Information Retrieval. Morgan Kaufmann Publishers, San Francisco-USA, 1999.
[18] A.K. Jain et F.Farrokhnia. Unsupervised texture segmentation using Gabor filters. Pattern Recognition, vol. 24, no.12, pp. 1167-1186,1991.
[19] A. Kumar et K.H. Pang. Defect detection in textured materials using Gabor filters. IEEE Transactions on Industry Applications, vol. 38, no. 2, pp. 425-440, 2002.
[20] B. S. Manjunath, C. Shekhar et R. Chellappa. A new approach to image feature detection with applications, Pattern Recognition, vol 29, pp. 627-640, 1996.
[21] B.S. Manjunath et W.Y. Ma. Texture features for browsing and retrieval of image data. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 18, NO. 8. 1996.
[22] Mari Partio. Content-based image retrieval using shape and texture Attributes. Master of Science Thesis, Tampere University of Technology, Department of Electrical Engineering, Institute of Signal Processing , 2002.
[23] G. Ferré. Segmentation d'images de documents anciens par approche texture. Master's thesis, Laboratoire L3i, Université de la Rochelle, France, 2006.
[24] J. Ilonen, J.-K. Kämäräinen and H. Kälviäinen. Efficient computation of Gabor features, Research Report 100, Lappeenranta University of Technology, Department of Information Technology, 2005.
[25] Peter Howarth et Stefan Rueger. Evaluation of texture features for content-based image retrieval, Springer Berlin / Heidelberg, vol 3115, pp. 326-324. 2004.
[26] François Chabat, Guang-Zhong Yang et David M. Hansell. Obstructive lung diseases: texture classification for differentiation at CT, Radiology-OAK BROOK IL, vol.
228, part. 3, pp.871-877, 2003.
[27] M. M. Galloway. Texture analysis using gray level run lengths, Computer Graphics and Image Processing, vol. 4, pp. 172-179,1975.
[28] http://perso.univ-lr.fr/pcourtel/espadon/site_web/Ch2/page2-3.htm. [Citation : 28 2 2007.]
[29] Dong-Hui Xu, Arati S. Kurani, Jacob D. Furst et Daniela S. Raicu. Run-length encoding for volumetric texture. The 4th IASTED International Conference on Visualization, Imaging, and Image Processing - VIIP 2004, Marbella, Spain, 2004
[30] M. Bober. MPEG-7 visual shape descriptors. IEEE Trans. on Circuits and Systems
Bibliographie
128
for Video Technology, vol. 11, no. 6, pp. 716-719, 2001.
[31] Henri Maître. Le Traitement Des Images, Hermes science ISBN 2-7462-0584-X , 2003.
[32] Folco Banfi. Content-based image retrieval using hand-drawn sketches and local features : a study on visual dissimilarity. Thèse présentée à la faculté des sciences de l'université de Friburg (Suisse), 2000.
[33] Sougata Mukherjea et Junghoo Cho. Automatically determining semantics for world wide web multimedia information retrieval. Journal of Visual Languages and Computing, vol. 10, pp. 585-606. 1999.
[34] http://photodude.com/av.htm. [Citation : 19 5 2007.]
[35] Wesley W.Chu, Chih-cheng Hsu, Alfonso F. Cardénas et Ricky K. Taira. knowledge-based image retrieval with spatial and temporal constructs. IEEE Transactions on Knowledge and Data Engineering, vol.10, pp. 872-888, 1998.
[36] Mooers C. Application of random codes to the gathering of statistical information, Thesis (M.S.) Massachusetts Institute of Technology. Dept. of Mathematics, 1948.
[37] J. Canny. A computational approach to edge detection , IEEE Transactions on pattern Analysis and Machine Intelligence PAMI - 8(6), pp. 679-698, 1986.
[38] Henning Mueller, Nicolas Michoux, David Bandon et Antoine Geissbuhler. A review of content-based image retrieval systems in medical applications : clinical benefits and future directions, International Journal of Medical Informatics, pp.1-23. 2004.
[39] Richard Chbeir. Modélisation de la description d'images : application au domaine médical. thèse préparée au Laboratoire d’ingénierie des systèmes d'information de l'INSA de Lyon et présentée à l'institut national des sciences appliquées de Lyon, 2001.
[40] Chia-Hung Wei, Chang-Tsun Li et Roland Wilson. A content-based approach to medical image database retrieval, Z.M. Ma (Ed), Database Modeling for Industrial Data Management: Emerging Technologies and Applications, pp. 258-291, Idea Group Publishing: Hershey, PA, USA, 2006.
[41] Tristan Glatard, Johan Montagnat,Isabelle E.Magnin. Texture based medical image indexing and retrieval: application to cardiac imaging. In Proceedings of ACM Multimedia 2004, workshop on Multimedia Information Retrieval, pp. 135-142, New York, USA, 2004.
[42] Buhler P, Just U., Will E., Kotzerke J et van den Hoff J. An accurate method for correction of head movement in PET. IEEE Transactions on Medical Imaging, vol.23(9), pp. 1176-1185, 2004.
[43] Benedikt Fischer, Christian Thies, Mark O. Güld et Thomas M. Lehmann. Content-based image retrieval by matching hierarchical attributed region adjacency graphs. Proceedings of SPIE, Medical Imaging : Image Processing, Vol. 5370, pp. 598-606, 2004.
Bibliographie
129
[44] Chia-Hung Wei, Chang-Tsun Li et Roland Wilson. A general framework for content-based medical image retrieval with its application to mammograms. Proceedings of SPIE, Medical Imaging : PACS and Imaging Informatics, Vol. 5748, pp. 134-143, 2005.
[45] Onur Osman, Serhat Ozekes et Osman N.Ucan. Lung nodule diagnosis using 3D template matching, Computers in Biology and Medicine, vol. 37, issue 8, pp. 1167-1172, 2006.
[46] P.Delogu, M.E.Fantacci, I Gori, A.Preite Martinez et A.Retico. Computer-aided detection of pulmonary nodule in low-dose CT. CompIMAGE - International Symposium on Computational Modelling of Objects Represented in Images: Fundamentals, Methods and Applications, 2006.
[47] Chii Tung Liu, Pol Lin Tai, Arlene Y.J Chen, Chen-Hsing Peng et Jia Shung Wang. A content-based scheme for CT lung image retrieval, IEEE International Conference on Multimedia and Expo, vol.2, 30 July-2 Aug,pp. 1203-1206, 2000.
[48] Chii Tung Liu, Pol Lin Tai, Arlene Y.J Chen, Chen-Hsing Peng,Tain Lee et Jia Shung Wang. A content-based CT lung image retrieval system for assisting differential diagnosis images collection. IEEE International Conference on Multimedia and Expo, ICME. 2001, 22-25 Aug, pp. 174-177, 2001.
[49] Aymen El-Baz, Aly A.Farag, Robert Falk et Renato La Rocca. Automatic identification of lung abnormalities in chest spiral CT scans, International Conference on Acoustics Speech and Signal Processing, ICASSP-03, April 6-10,vol.2, pp. 261-264, 2003.
[50] Henning Mueller, Paul Clough, William Hersh, Thomas Deselaers ,Thomas Lehmann et Antoine Geissbuhler. Evaluation axes for medical image retrieval systems. The ImageCLEF Experience, Proceedings of the 13th annual ACM international conference on Multimedia, pp. 1014 -1022, 2005.
[51] M.Emre Celebi et Y.Alp Aslandogan. Content-based image retrieval incorporating models of human perception. Information Technology: Coding and Computing, vol. 2, pp. 241-245, 2004.
[52] Laurence W. Hedlund, Roger F.Anderson, Phylip L.Goulding, John W.Beck, Eric L.Effmann et Charles E.Putman. Two Methods for Isolating the Lung Area of a CT Scan for Density Information, Radiology, vol. 144, pp. 353-357, 1982.
[53] Samuel G. Armato III et William F. Sensakovic. Automated lung segmentation for thoracic CT: impact on computer-aided diagnosis, Academic Radiology, vol. 11, pp. 1011-1021, 2004.
[54] Joris Heuberger, Antoine Geissbuhler et Henning Mueller. Lung CT segmentation for image retrieval using the Insight Toolkit (ITK), Medical Imaging and Telemedicine (MIT 2005), WuYi Mountain, China, 2005.
[55] Nisar Ahmed Memon, Anwar Majid Mirza et S.A.M. Gilani. Deficiencies of lung segmentation techniques using CT scan images for CAD. Transactions on engineering, computing and technology, vol. 14, 2006.
[56] http://www-evasion.imag.fr/Membres/Marie-Paule.Cani/Enseignement/
Bibliographie
130
SynthImagesAnim/CoursModelSplines.pdf. [Citation : 1 1 2007.]
[57] ADEL HLAOUI et SHENGRUI WANG. A graph clustering algorithm with applications to content-based image retrieval, International Conference on Machine
Learning and Cybernetics, vol. 3, pp. 1855-1861, 2003.
[58] Adel Hlaoui et Shengrui Wang. A new algorithm for inexact graph matching, Proceedings of 16th International Conference on Pattern Recognition (ICPR'02), vol. 4, 2002.
[59] D. CONTE, P. FOGGIA, C. SANSONE et M. VENTO. Thirty years of graph matching in pattern recognition. International Journal of Pattern Recognition and Artificial, vol. 18(3), pp.265-298, 2004.
[60] Filip Florea, Alexandrina Rogozan, Abdelaziz Bensrhair, Jean-Nicolas Dacher et Stefan Darmoni. Recherche des images médicales par contenu et type de resource dans un catalogue de santé en ligne, Lille : Journées Francophones d’Informatique Médicale, 2005.
[61] Marin Ferecatu. Image retrieval with active relevance feedback using both visual and keyword-based descriptors, PhD. University of Versailles, Saint-Quentin-en-Yvelines, 2005.
[62] Yong Rui et Thomas S. Huang. Image retrieval: current techniques, promising directions, and open issues. Journal of Visual Communication and Image Representation, vol.10,pp. 39-62, 1999.
[63] Laurent Amsaleg et Patrick Gros. Content-based retrieval using local descriptors: problems and issues from a database perspective. Springer London, 1433-7541 (Print) 1433-755X (Online), vol. 4, pp. 108-124, 2004.
[64] Euripides G.M. Petrakis. Image representation, indexing and retrieval based on spatial relationships and properties of objects, Ph.D . Dept. of Computer Science, University of Crete, 1993.
[65] Andrew Corboy, Winnie Tsang, Daniela Raicu, Jacob Furst. Texture-based image retrieval for Computerized Tomography databases. CBMS, pp. 593-598, 2005.
[66] Oge Marques et Borko Furht. Content-based visual information retrieval. Distributed Multimedia Databases: Techniques and Applications, T.K. Shih, Idea Group Publishing, 2001.
[67] Lindsay I Smith. A tutorial on principal components analysis. 2002. [Citation : 11 3 2007.] http://csnet.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf.
[68] http://www.mathematex.net. [Citation : 10 3 2007.]
[69] http://math1.unice.fr/~ribot/spectre.pdf. [Citation : 12 5 2007.]
[70] http://www-ph332.script.univ-paris7.fr/version2004-5/cours/lecons/lecon 6b.html. [Citation : 12 5 2007.]
[71] Dunteman G. H. Principal component analysis. Sage Publications, 1989.
[72] Kaiser H. F. The application of electronic computers to factor analysis, Educational and Psychological Measurement, vol. 20, pp. 141-151. 1960.
Bibliographie
131
[73] Jolliffe I. T. Principal component analysis, Springer-Verlag New York Inc, 1986.
[74] Myung-Hoon Chung. Science Code .Net: Object-oriented Programming for Science. Hongik University, Jochiwon, Korea , 2006.
[75] http://msdn.microsoft.com/library/default.asp?url=/msdnmag/issues/04/03/ scientificc /toc.asp. [Citation : 10 6 2007.]
[76] http://www.doctissimo.fr/html/sante/encyclopedie/sa_1576_emphyseme.htm [Citation : 26 5 2007.]