sandra bringay : [email protected] fouille de données et santé octobre 2010
TRANSCRIPT
1
Sandra Bringay : [email protected]
Fouille de données et santé
Octobre 2010
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
QuickTime™ et undécompresseur sont requis pour visionner cette image.QuickTime™ et undécompresseur
sont requis pour visionner cette image.
2
Fouille de données et santé
Patient, Patient, Réseau de soins, Réseau de soins,
Autres établissementsAutres établissements de soins, etc.de soins, etc.
Professionnels Professionnels de santé de santé
ConnaissancesConnaissancesnominativesnominatives
Dossier Dossier PatientPatient
Mission Mission de soinsde soinsMission Mission de soinsde soins
Dossier Dossier PatientPatient
Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique
Codage Codage PMSIPMSI
(CCAM)(CCAM)
Autorités MédicalesAutorités Médicales ConnaissancesConnaissances
Non nominativesNon nominatives
Mission de Mission de rechercherecherche
Mission de Mission de rechercherecherche
Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives
collectivement validéescollectivement validées
Professionnels Professionnels de santé de santé
Données cliniquesDonnées cliniquesNon nominativesNon nominatives
Résultats Résultats d’études d’études
Épidémiologiques Épidémiologiques Données Données
non nominativesnon nominatives
(Charlet, 2002)
3
Fouille de données et santé
Patient, Patient, Réseau de soins, Réseau de soins,
Autres établissementsAutres établissements de soins, etc.de soins, etc.
Professionnels Professionnels de santé de santé
ConnaissancesConnaissancesnominativesnominatives
Dossier Dossier PatientPatient
Mission Mission de soinsde soinsMission Mission de soinsde soins
Dossier Dossier PatientPatient
Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique
Codage Codage PMSIPMSI
(CCAM)(CCAM)
Autorités MédicalesAutorités Médicales ConnaissancesConnaissances
Non nominativesNon nominatives
Mission de Mission de rechercherecherche
Mission de Mission de rechercherecherche
Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives
collectivement validéescollectivement validées
Professionnels Professionnels de santé de santé
Données cliniquesDonnées cliniquesNon nominativesNon nominatives
Résultats Résultats d’études d’études
Épidémiologiques Épidémiologiques Données Données
non nominativesnon nominatives
(Charlet, 2002)
4
Fouille de données et santé
Patient, Patient, Réseau de soins, Réseau de soins,
Autres établissementsAutres établissements de soins, etc.de soins, etc.
Professionnels Professionnels de santé de santé
ConnaissancesConnaissancesnominativesnominatives
Dossier Dossier PatientPatient
Mission Mission de soinsde soinsMission Mission de soinsde soins
Dossier Dossier PatientPatient
Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique
Codage Codage PMSIPMSI
(CCAM)(CCAM)
Autorités MédicalesAutorités Médicales ConnaissancesConnaissances
Non nominativesNon nominatives
Mission de Mission de rechercherecherche
Mission de Mission de rechercherecherche
Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives
collectivement validéescollectivement validées
Professionnels Professionnels de santé de santé
Données cliniquesDonnées cliniquesNon nominativesNon nominatives
Résultats Résultats d’études d’études
Épidémiologiques Épidémiologiques Données Données
non nominativesnon nominatives
(Charlet, 2002)
ProjetLAMAL
5
Fouille de données et santé
Patient, Patient, Réseau de soins, Réseau de soins,
Autres établissementsAutres établissements de soins, etc.de soins, etc.
Professionnels Professionnels de santé de santé
ConnaissancesConnaissancesnominativesnominatives
Dossier Dossier PatientPatient
Mission Mission de soinsde soinsMission Mission de soinsde soins
Dossier Dossier PatientPatient
Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique
Codage Codage PMSIPMSI
(CCAM)(CCAM)
Autorités MédicalesAutorités Médicales ConnaissancesConnaissances
Non nominativesNon nominatives
Mission de Mission de rechercherecherche
Mission de Mission de rechercherecherche
Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives
collectivement validéescollectivement validées
Professionnels Professionnels de santé de santé
Données cliniquesDonnées cliniquesNon nominativesNon nominatives
Résultats Résultats d’études d’études
Épidémiologiques Épidémiologiques Données Données
non nominativesnon nominatives
(Charlet, 2002)
6
Fouille de données et santé
Patient, Patient, Réseau de soins, Réseau de soins,
Autres établissementsAutres établissements de soins, etc.de soins, etc.
Professionnels Professionnels de santé de santé
ConnaissancesConnaissancesnominativesnominatives
Dossier Dossier PatientPatient
Mission Mission de soinsde soinsMission Mission de soinsde soins
Dossier Dossier PatientPatient
Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique
Codage Codage PMSIPMSI
(CCAM)(CCAM)
Autorités MédicalesAutorités Médicales ConnaissancesConnaissances
Non nominativesNon nominatives
Mission de Mission de rechercherecherche
Mission de Mission de rechercherecherche
Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives
collectivement validéescollectivement validées
Professionnels Professionnels de santé de santé
Données cliniquesDonnées cliniquesNon nominativesNon nominatives
Résultats Résultats d’études d’études
Épidémiologiques Épidémiologiques Données Données
non nominativesnon nominatives
(Charlet, 2002)
Cohortes PAQUID
7
Fouille de données et santé
Patient, Patient, Réseau de soins, Réseau de soins,
Autres établissementsAutres établissements de soins, etc.de soins, etc.
Professionnels Professionnels de santé de santé
ConnaissancesConnaissancesnominativesnominatives
Dossier Dossier PatientPatient
Mission Mission de soinsde soinsMission Mission de soinsde soins
Dossier Dossier PatientPatient
Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique
Codage Codage PMSIPMSI
(CCAM)(CCAM)
Autorités MédicalesAutorités Médicales ConnaissancesConnaissances
Non nominativesNon nominatives
Mission de Mission de rechercherecherche
Mission de Mission de rechercherecherche
Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives
collectivement validéescollectivement validées
Professionnels Professionnels de santé de santé
Données cliniquesDonnées cliniquesNon nominativesNon nominatives
Résultats Résultats d’études d’études
Épidémiologiques Épidémiologiques Données Données
non nominativesnon nominatives
(Charlet, 2002)
GeneMining
8
Données particulières: hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs
Fouille de données
Analyser descomportements
Prédire descomportements
Détecter desComportements
anormaux
Rechercher des critères d’aide à la
décision
Fouille de données de santé
Fouille de données issues de puces à ADN
10
Puces à ADN
Incontournables pour comprendre les maladies génétiques complexes : perturbation des processus naturels de croissance, de division et de mort des cellules
Utilisées par les biologistes pour acquérir de grandes quantités de données sur l’expression des gènes et identifier les lois suivies par ces expressions en fonction des maladies et des traitements : gènes impliqués dans la maladie ? gènes dont les expressions sont corrélées ? gènes qui inhibent ou activent une fonction ? ….
Difficultés pour extraire automatiquement des connaissances liés aux gros volumes de données
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
11
Puces à ADN
Le principe : propriété de l'ADN dénaturé de reformer spontanément sa double hélice lorsqu'il est porté face à un brin complémentaire (réaction d'hybridation).
A ≡ T T ≡ A G ≡ C C ≡ G
Concrètement… un ensemble de molécules d'ADN fixées en rangées ordonnées sur une petite surface
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
A T C C … G A
1 probe 1 gène
Expression (couleur) mesure de la quantité d’ADN dénaturé qui se reforme
12
12
Gènes
13
13
Gènes
Puces
14
14
Intensité (expression) d’un gène mesuré par une puce
Gènes
Puces
15
11/04/23 15
Gènes
Puces
Très grande densité : Affymetrix U-133 plus 2.0 Array 54,675 probesets
Intensité (expression) d’un gène mesuré par une puce
16
Les motifs séquentiels dans ce contexte…Thèse de P. Salle
Motifs séquentiels : séquences fréquentes d’itemsets ordonnés
< ( ) ( ) > Rechercher des motifs séquentiels pour
mettre en évidence des gènes dont les expressions sont fréquemment ordonnées de la même manière
< (G5 G4) (G6) > 2 collaborations :
MMDN sur la maladie d'Alzheimer IRCM sur le cancer du sein.
QuickTime™ et undécompresseur
sont requis pour visionner cette image.QuickTime™ et undécompresseur
sont requis pour visionner cette image.
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
17
Maladie d’Alzheimer (AD) : la forme la plus commune de démence 26.6 millions de personnes atteintes (2006) Augmentation du nombre de patients (*4 en 2050)
Intérêt de la communauté biomédicale pour la découverte des gènes impliqués dans le développement la maladie
MMDN : travaillent sur l’AD et sur le vieillissement à partir d’un modèle animal, Microcebus murinus
Objectifs : comparer les tissus du cortex cérébral de lémuriens jeunes (sains) avec ceux de lémuriens âgés (malades) pour étudier le vieillissement (la maladie d'Alzheimer)
17
Maladie d’Alzheimer : problème majeur de la société moderne
18
Cancer du sein : première cause de mortalité entre 45 et 64 ans (2004)
Perturbation de la communication cellulaire, associée à une absence de mort cellulaire, engendrant le développement d'amas de cellules cancéreuses (appelées tumeurs) qui échappent aux règles de fonctionnement du corps.
IRCM : utilisent les puces ADN pour comparer les tissus issus de tumeurs du sein, répertoriés selon différents grades.
Objectif : déterminer un ensemble de bio-marqueurs suffisants pour typer ces tumeurs.
Enjeu considérable : Les thérapies sont + ou - toxiques et fonctionnent sur un patient mais pas sur un autre. Typer une tumeur s'avére crucial pour le choix d'une thérapie.
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
19
Plan
1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN
2. Mesurer les écarts fréquents de gènes
3. Aider les médecins à typer les tumeurs du sein
20
Plan
1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN
2. Mesurer les écarts fréquents de gènes
3. Aider les médecins à typer les tumeurs du sein
2121
Technologies puces à ADN
Nouvelles
connaissances
Bases de connaissances et bases bibliographiques disponibles en ligne
Données biologiques massives
2222
Technologies puces à ADN
Nouvelles
connaissances
Bases de connaissances et bases bibliographiques disponibles en ligne
Données biologiques massives
Challenge : exploiter toutes ces données en terme de signification biologique
Challenge : exploiter toutes ces données en terme de signification biologique
2323
Fouille de donnéesFouille de données
Motifs séquentiels
Motifs séquentiels
Clustering et
visualisation
Clustering et
visualisation
Sélection de motifs
séquentiels
Sélection de motifs
séquentiels
Techniques d’
interprétation
Techniques d’
interprétation
Nouvelles connaissances biologiques
Processus général(Bringay, MIE’2009)
2424
Fouille de donnéesFouille de données
Motifs séquentiels
Motifs séquentiels
Clustering et
visualization
Clustering et
visualization
Motifs séquentiels sélectionnés
Motifs séquentiels sélectionnés
Techniques d’
interprétation
Techniques d’
interprétation
Processus général
25
Le gène G2 a une expression plus petite que les gènes G1 et G5 qui ont une expression similaire et plus petite que le gène G3
25
Puces Séquences de gènes
M1M2M3M4
<(G2)(G1 G5)(G3)(G4)><(G2)(G1 G5)(G4)(G3)><(G2)(G4)(G1 G5)(G3) ><(G2)(G3)(G1 G5)(G4)>
<(G2)(G1 G5)(G3)>
Recherche de motifs séquentiels
(Salle, AIME 2009)
2626
Recherche de motifs séquentiels (Salle, AIME 2009)
Support = 3/4
<(G2)(G1 G5)(G3)>
Puces Séquences de gènes
M1M2M3M4
<(G2)(G1 G5)(G3)(G4)><(G2)(G1 G5)(G4)(G3)><(G2)(G4)(G1 G5)(G3) ><(G2)(G3)(G1 G5)(G4)>
2727
Motifs séquentiels discriminants Fréquents dans une classe (malades) Non fréquents dans la classe complémentaire (sains)
Recherche de motifs séquentiels (Salle, AIME 2009)
Support = 3/4
<(G2)(G1 G5)(G3)>
Puces Séquences de gènes
M1M2M3M4
<(G2)(G1 G5)(G3)(G4)><(G2)(G1 G5)(G4)(G3)><(G2)(G4)(G1 G5)(G3) ><(G2)(G3)(G1 G5)(G4)>
2811/04/23 28
Trop nombreux (entre 100 et 185,240) Difficile à interpréter
Trop nombreux (entre 100 et 185,240) Difficile à interpréter
2929
Fouille de donnéesFouille de données
Motifs séquentiels
Motifs séquentiels
Clustering et
visualisation
Clustering et
visualisation
Motifs séquentiels sélectionnés
Motifs séquentiels sélectionnés
Technique d’
interprétation
Technique d’
interprétation
New knowledge
Processus général
30
Mesure de similarité Gènes communs et non communs
Ordre des gènes
Support
30
S75%=<(G1)(G2 G3)>S’75%=< (G2 G3) (G1)>S75%=<(G1)(G2 G3)>
S’75%=< (G2 G3) (G1)>
Comment comparer les motifs (Saneifar et al., AusDM’08)
3131
Collaboration avec PIKKO
Collaboration avec PIKKO
Clustering simple (k-means)
3232
Clustering simple (k-means)
Collaboration avec PIKKO
Collaboration avec PIKKO
33
Exemple: (a)(b)(c), (a)(b)(d), (e)(b)(d)
33
Un résumé
Clustering hiérarchique (Nin Guerero et al., CSBM’09)
3434
Collaboration avec PIKKO
Collaboration avec PIKKO
Clustering hiérarchique
3535
Un résumé
Clustering hiérarchique
3636
Malade Sain
Clustering hiérarchique
3711/04/23 37
Et les connaissances disponibles en ligne ?Et les connaissances disponibles en ligne ?
3838
Fouille de donnéesFouille de données
Motifs séquentiels
Motifs séquentiels
Clustering et
visualization
Clustering et
visualization
Motifs séquentiels sélectionnés
Motifs séquentiels sélectionnés
Techniques d’
interprétation
Techniques d’
interprétation
New knowledge
Processus général
39
Recherche de documents associés avec les gènes des motifs
Objectifs: validation + recherche de nouveautés
Séquences populaires et innovantes
S75%,25%=<(G1)(G2 G3)>
S75%,25%=<(G1)(G2 G3)> TextesTextes
Interprétation des motifs via les documents(Bringay et al., MedInfo’10)
4040
Collaboration avec PIKKO
Collaboration avec PIKKO
Visualisation de documents
4111/04/23 41
Séquences innovantes associées avec des documents = nouvelle connaissance ayant un
signification biologique
Séquences innovantes associées avec des documents = nouvelle connaissance ayant un
signification biologique
42
Protéines impliquées dans les mécanismes de signalisation et du métabolisme
Certaines interfèrent avec les événements cellulaires de la maladie d’Alzheimer
42
S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)>
S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)>
Un motif pertinent
43
Conclusion et perspectives
De nouvelles connaissances pour les biologistes qui leur permettent d’étudier l’impact de l’expression des gènes sur les maladies
Un outil pour rendre ces données manipulables Perspectives nombreuses :-))
D’autres types de motifs Amélioration des visualisations existantes D’autres types de visualisation ….
44
Plan
1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN
2. Mesurer les écarts fréquents de gènes
3. Aider les médecins à typer les tumeurs du sein
45
Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la
définition d’une partition stricte des valeurs d’expression des gènes
<(G1 G5)(G3)>
Des motifs séquentiels vers…
46
100 200 300 400
<(G1 G5)(G3)>
<(G1 G5) (G3)><(G1 G5) (G3)>
97 360
97 190
<(G1 G5) (G3)>97 105
Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la
définition d’une partition stricte des valeurs d’expression des gènes
Des motifs séquentiels vers…
47
Motifs à écarts flous : basés sur des écarts flous qui expriment l’importance de l’écart entre des gènes ou des groupes de gènes
<(G1 G5)(very over expressed 0,8) (G3)>
G3 is far much expressed compared to G1 and G5, which are
expressed in a similar way
<(G1 G5)(G3)>
Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la
définition d’une partition stricte des valeurs d’expression des gènes
…Motifs à écarts flous(bringay et al., Fuzzyeee’09)
48
Puce Séquence de gènes
M1
M2
<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7
<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12
< (G1 G5) (G3) >
Recherche des motifs à écarts flous
49
Puces Séquences de gènes
M1
M2
<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7
<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12
Différence d’Itemset δ(it2; it1): la valeur absolue de la différence entre l’intensité du premier gène de it2 et du dernier de it1
Exemple: M1: δ((G3); (G1 G5))
= Ι5-4Ι=1 M2: δ((G3); (G1 G5))
= Ι12-4.2Ι=7,8
Recherche des motifs à écarts flous
50
Trapezoidal partition
0,5
Recherche des motifs à écarts flous
51
δM1 =1
Trapezoidal partition
0,5
Recherche des motifs à écarts flous
52
δM2=7.8
Recherche des motifs à écarts flous
53
Puces Séquences de gènes
M1
M2
<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7
(moyennement sur-exprimé; 0,5)
<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12
(très sur exprimé ;1)
Degré d’une séquence à écart flou :
FSFG(M) = (d1, …,dn-1)
T-norm appliquée à tous les degrés des écarts de la séquence
F(G3)(G1 G5) (M1) = 0,5 F(G3)(G1 G5) (M2) = 1
Recherche des motifs à écarts flous
54
Microarray
Gene expression sequence
M1 (0,5)
M2 (1)
<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7
(avg over expressed; 1)
<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12
(very over expressed ;1)
Support d’une séquence à écart flou
Pourcentage de puces vérifiant le motif à écarts flousFreq(G3)very(G1 G5) = 1/2 = 0,5
Recherche des motifs à écarts flous
55
Conclusions et perspectives
Motifs plus compréhensibles et manipulables par les experts
Simple à calculer (post-traitement) Utiliser les propriétés des contraintes
liées au flou pour améliorer les performances de notre algorithme
Nouvelle information : motifs à écart flous discriminant prédiction des types de cancer
56
Plan
1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN
2. Mesurer les écarts fréquents de gènes
3. Aider les médecins à typer les tumeurs du sein
57
Typer les tumeurs à partir des motifsTER de M. Fabregues
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
58
Base d’apprentissage
90%
Construction du classifieur
Evaluation du classifieur
Jeu de test 10%
Séquences de données
Motifs séquentiels
Schéma général
59
Base d’apprentissage
90%
Construction du classifieur
Evaluation du classifieur
Jeu de test 10%
Séquences de données
Motifs séquentiels
Schéma général
Extraction des motifs
Tris des motifs
Motifs Classifieur
Classifieur Attribution d’uneclasse
Séquencesclassées Validation
60
Base d’apprentissage
90%
Construction du classifieur
Evaluation du classifieur
Jeu de test 10%
Séquences de données
Motifs séquentiels
Schéma général
Extraction des motifs
Tris des motifs
Motifs Classifieur
Classifieur Attribution d’uneclasse
Séquencesclassées Validation
Répétition pour validation croisée
61Mickaël Fabrègue – TER 2010
→ 108 patients→ 3 types de tumeur→ 76 gènes
Patient Séquence dedonnées
Type detumeur
P1 < (G13 G3) .... (G2) (G8) > 3
P2 < (G60) (G20 G3) … (G1) > 1
P3 < (G30) (G4) … (G10 G15) > 2
... ... ...
P108 < (G20 G11) (G6) … (G55) > 3
Données
62
Modèle
Extraction des motifs Pour chaque motif, calcul du support pour
chaque type de tumeurs
m1 → discriminant et représentatif du type de tumeur 2
Motifs associés à leur supportMatériel utilisé pour la classification
Beaucoup trop de motifs
Motif séquentiel
Support tumeur 1
Support tumeur 2
Support tumeur 3
m1 0.1 0.8 0.2
63
Les supports les plus fortsEcart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports
Tris basés sur les supports
64
Les supports les plus fortsEcart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports
Motif prioritaire : 1
Tris basés sur les supports
Support Gr 1 Support Gr 2 Support Gr 3 Ecart
Motif 1 0.2 0.7 0.1 0.5
Motif 2 0.5 0.8 0.4 0.3
65
Pour chaque séquence, on teste l’inclusion des motifs
Attribution d’un groupe à une séquence
66
Rappel = Séquences correctement attribuées
Séquences appartenant à la tumeur
Evaluation
Précision = Séquences correctement attribuées
Séquences attribuées
67
Ecart entre le plus fort et le plus faible des supports
Résultat
68
Conclusion et perspectives
Améliorer la classification
Diminuer le nombre de gènes puces Exhonit de diagnostique
Clustering pour identifier des groupes Avoir des types de tumeurs plus précis que ceux qui existent actuellement
69
Conclusions
Fouiller les données de santé, très prometteur Nombre d’applications Nombre de données disponibles Intérêt des utilisateurs
7004/11/23 70
QuickTime™ et undécompresseur
sont requis pour visionner cette image.
QuickTime™ et undécompresseur sont requis pour visionner cette image.QuickTime™ et undécompresseur
sont requis pour visionner cette image.