sandra bringay : [email protected] fouille de données et santé octobre 2010

1

Sandra Bringay : [email protected]

Fouille de données et santé

Octobre 2010

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

QuickTime™ et undécompresseur sont requis pour visionner cette image.QuickTime™ et undécompresseur


2


Patient, Patient, Réseau de soins, Réseau de soins,

Autres établissementsAutres établissements de soins, etc.de soins, etc.

Professionnels Professionnels de santé de santé

ConnaissancesConnaissancesnominativesnominatives

Dossier Dossier PatientPatient

Mission Mission de soinsde soinsMission Mission de soinsde soins


Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique

Codage Codage PMSIPMSI

(CCAM)(CCAM)

Autorités MédicalesAutorités Médicales ConnaissancesConnaissances

Non nominativesNon nominatives

Mission de Mission de rechercherecherche


Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives

collectivement validéescollectivement validées


Données cliniquesDonnées cliniquesNon nominativesNon nominatives

Résultats Résultats d’études d’études

Épidémiologiques Épidémiologiques Données Données

non nominativesnon nominatives

(Charlet, 2002)

3











(CCAM)(CCAM)












(Charlet, 2002)

4











(CCAM)(CCAM)












(Charlet, 2002)

ProjetLAMAL

5











(CCAM)(CCAM)












(Charlet, 2002)

6











(CCAM)(CCAM)












(Charlet, 2002)

Cohortes PAQUID

7











(CCAM)(CCAM)












(Charlet, 2002)

GeneMining

8

Données particulières: hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs

Fouille de données

Analyser descomportements

Prédire descomportements

Détecter desComportements

anormaux

Rechercher des critères d’aide à la

décision

Fouille de données de santé

Fouille de données issues de puces à ADN

10

Puces à ADN

Incontournables pour comprendre les maladies génétiques complexes : perturbation des processus naturels de croissance, de division et de mort des cellules

Utilisées par les biologistes pour acquérir de grandes quantités de données sur l’expression des gènes et identifier les lois suivies par ces expressions en fonction des maladies et des traitements : gènes impliqués dans la maladie ? gènes dont les expressions sont corrélées ? gènes qui inhibent ou activent une fonction ? ….

Difficultés pour extraire automatiquement des connaissances liés aux gros volumes de données



11

Puces à ADN

Le principe : propriété de l'ADN dénaturé de reformer spontanément sa double hélice lorsqu'il est porté face à un brin complémentaire (réaction d'hybridation).

A ≡ T T ≡ A G ≡ C C ≡ G

Concrètement… un ensemble de molécules d'ADN fixées en rangées ordonnées sur une petite surface



A T C C … G A

1 probe 1 gène

Expression (couleur) mesure de la quantité d’ADN dénaturé qui se reforme

12

12

Gènes

13

13

Gènes

Puces

14

14

Intensité (expression) d’un gène mesuré par une puce

Gènes

Puces

15

11/04/23 15

Gènes

Puces

Très grande densité : Affymetrix U-133 plus 2.0 Array 54,675 probesets

Intensité (expression) d’un gène mesuré par une puce

16

Les motifs séquentiels dans ce contexte…Thèse de P. Salle

Motifs séquentiels : séquences fréquentes d’itemsets ordonnés

< ( ) ( ) > Rechercher des motifs séquentiels pour

mettre en évidence des gènes dont les expressions sont fréquemment ordonnées de la même manière

< (G5 G4) (G6) > 2 collaborations :

MMDN sur la maladie d'Alzheimer IRCM sur le cancer du sein.


sont requis pour visionner cette image.QuickTime™ et undécompresseur




17

Maladie d’Alzheimer (AD) : la forme la plus commune de démence 26.6 millions de personnes atteintes (2006) Augmentation du nombre de patients (*4 en 2050)

Intérêt de la communauté biomédicale pour la découverte des gènes impliqués dans le développement la maladie

MMDN : travaillent sur l’AD et sur le vieillissement à partir d’un modèle animal, Microcebus murinus

Objectifs : comparer les tissus du cortex cérébral de lémuriens jeunes (sains) avec ceux de lémuriens âgés (malades) pour étudier le vieillissement (la maladie d'Alzheimer)

17

Maladie d’Alzheimer : problème majeur de la société moderne

18

Cancer du sein : première cause de mortalité entre 45 et 64 ans (2004)

Perturbation de la communication cellulaire, associée à une absence de mort cellulaire, engendrant le développement d'amas de cellules cancéreuses (appelées tumeurs) qui échappent aux règles de fonctionnement du corps.

IRCM : utilisent les puces ADN pour comparer les tissus issus de tumeurs du sein, répertoriés selon différents grades.

Objectif : déterminer un ensemble de bio-marqueurs suffisants pour typer ces tumeurs.

Enjeu considérable : Les thérapies sont + ou - toxiques et fonctionnent sur un patient mais pas sur un autre. Typer une tumeur s'avére crucial pour le choix d'une thérapie.





19

Plan

1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN

2. Mesurer les écarts fréquents de gènes

3. Aider les médecins à typer les tumeurs du sein

20

Plan




2121

Technologies puces à ADN

Nouvelles

connaissances

Bases de connaissances et bases bibliographiques disponibles en ligne

Données biologiques massives

2222

Technologies puces à ADN

Nouvelles

connaissances

Bases de connaissances et bases bibliographiques disponibles en ligne

Données biologiques massives

Challenge : exploiter toutes ces données en terme de signification biologique

Challenge : exploiter toutes ces données en terme de signification biologique

2323

Fouille de donnéesFouille de données

Motifs séquentiels

Motifs séquentiels

Clustering et

visualisation

Clustering et

visualisation

Sélection de motifs

séquentiels

Sélection de motifs

séquentiels

Techniques d’

interprétation

Techniques d’

interprétation

Nouvelles connaissances biologiques

Processus général(Bringay, MIE’2009)

2424


Motifs séquentiels

Motifs séquentiels

Clustering et

visualization

Clustering et

visualization

Motifs séquentiels sélectionnés


Techniques d’

interprétation

Techniques d’

interprétation

Processus général

25

Le gène G2 a une expression plus petite que les gènes G1 et G5 qui ont une expression similaire et plus petite que le gène G3

25

Puces Séquences de gènes

M1M2M3M4

<(G2)(G1 G5)(G3)(G4)><(G2)(G1 G5)(G4)(G3)><(G2)(G4)(G1 G5)(G3) ><(G2)(G3)(G1 G5)(G4)>

<(G2)(G1 G5)(G3)>

Recherche de motifs séquentiels

(Salle, AIME 2009)

2626

Recherche de motifs séquentiels (Salle, AIME 2009)

Support = 3/4

<(G2)(G1 G5)(G3)>


M1M2M3M4


2727

Motifs séquentiels discriminants Fréquents dans une classe (malades) Non fréquents dans la classe complémentaire (sains)

Recherche de motifs séquentiels (Salle, AIME 2009)

Support = 3/4

<(G2)(G1 G5)(G3)>


M1M2M3M4


2811/04/23 28

Trop nombreux (entre 100 et 185,240) Difficile à interpréter

Trop nombreux (entre 100 et 185,240) Difficile à interpréter

2929


Motifs séquentiels

Motifs séquentiels

Clustering et

visualisation

Clustering et

visualisation



Technique d’

interprétation

Technique d’

interprétation

New knowledge

Processus général

30

Mesure de similarité Gènes communs et non communs

Ordre des gènes

Support

30

S75%=<(G1)(G2 G3)>S’75%=< (G2 G3) (G1)>S75%=<(G1)(G2 G3)>

S’75%=< (G2 G3) (G1)>

Comment comparer les motifs (Saneifar et al., AusDM’08)

3131

Collaboration avec PIKKO


Clustering simple (k-means)

3232

Clustering simple (k-means)



33

Exemple: (a)(b)(c), (a)(b)(d), (e)(b)(d)

33

Un résumé

Clustering hiérarchique (Nin Guerero et al., CSBM’09)

3434



Clustering hiérarchique

3535

Un résumé


3636

Malade Sain


3711/04/23 37

Et les connaissances disponibles en ligne ?Et les connaissances disponibles en ligne ?

3838


Motifs séquentiels

Motifs séquentiels

Clustering et

visualization

Clustering et

visualization



Techniques d’

interprétation

Techniques d’

interprétation

New knowledge

Processus général

39

Recherche de documents associés avec les gènes des motifs

Objectifs: validation + recherche de nouveautés

Séquences populaires et innovantes

S75%,25%=<(G1)(G2 G3)>

S75%,25%=<(G1)(G2 G3)> TextesTextes

Interprétation des motifs via les documents(Bringay et al., MedInfo’10)

4040



Visualisation de documents

4111/04/23 41

Séquences innovantes associées avec des documents = nouvelle connaissance ayant un

signification biologique

Séquences innovantes associées avec des documents = nouvelle connaissance ayant un

signification biologique

42

Protéines impliquées dans les mécanismes de signalisation et du métabolisme

Certaines interfèrent avec les événements cellulaires de la maladie d’Alzheimer

42

S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)>

S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)>

Un motif pertinent

43

Conclusion et perspectives

De nouvelles connaissances pour les biologistes qui leur permettent d’étudier l’impact de l’expression des gènes sur les maladies

Un outil pour rendre ces données manipulables Perspectives nombreuses :-))

D’autres types de motifs Amélioration des visualisations existantes D’autres types de visualisation ….

44

Plan




45

Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la

définition d’une partition stricte des valeurs d’expression des gènes

<(G1 G5)(G3)>

Des motifs séquentiels vers…

46

100 200 300 400

<(G1 G5)(G3)>

<(G1 G5) (G3)><(G1 G5) (G3)>

97 360

97 190

<(G1 G5) (G3)>97 105



Des motifs séquentiels vers…

47

Motifs à écarts flous : basés sur des écarts flous qui expriment l’importance de l’écart entre des gènes ou des groupes de gènes

<(G1 G5)(very over expressed 0,8) (G3)>

G3 is far much expressed compared to G1 and G5, which are

expressed in a similar way

<(G1 G5)(G3)>



…Motifs à écarts flous(bringay et al., Fuzzyeee’09)

48

Puce Séquence de gènes

M1

M2

<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7

<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12

< (G1 G5) (G3) >

Recherche des motifs à écarts flous

49


M1

M2

<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7

<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12

Différence d’Itemset δ(it2; it1): la valeur absolue de la différence entre l’intensité du premier gène de it2 et du dernier de it1

Exemple: M1: δ((G3); (G1 G5))

= Ι5-4Ι=1 M2: δ((G3); (G1 G5))

= Ι12-4.2Ι=7,8


50

Trapezoidal partition

0,5


51

δM1 =1

Trapezoidal partition

0,5


52

δM2=7.8


53


M1

M2

<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7

(moyennement sur-exprimé; 0,5)

<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12

(très sur exprimé ;1)

Degré d’une séquence à écart flou :

FSFG(M) = (d1, …,dn-1)

T-norm appliquée à tous les degrés des écarts de la séquence

F(G3)(G1 G5) (M1) = 0,5 F(G3)(G1 G5) (M2) = 1


54

Microarray

Gene expression sequence

M1 (0,5)

M2 (1)

<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7

(avg over expressed; 1)

<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12

(very over expressed ;1)

Support d’une séquence à écart flou

Pourcentage de puces vérifiant le motif à écarts flousFreq(G3)very(G1 G5) = 1/2 = 0,5


55

Conclusions et perspectives

Motifs plus compréhensibles et manipulables par les experts

Simple à calculer (post-traitement) Utiliser les propriétés des contraintes

liées au flou pour améliorer les performances de notre algorithme

Nouvelle information : motifs à écart flous discriminant prédiction des types de cancer

56

Plan




57

Typer les tumeurs à partir des motifsTER de M. Fabregues



58

Base d’apprentissage

90%

Construction du classifieur

Evaluation du classifieur

Jeu de test 10%

Séquences de données

Motifs séquentiels

Schéma général

59


90%



Jeu de test 10%


Motifs séquentiels

Schéma général

Extraction des motifs

Tris des motifs

Motifs Classifieur

Classifieur Attribution d’uneclasse

Séquencesclassées Validation

60


90%



Jeu de test 10%


Motifs séquentiels

Schéma général

Extraction des motifs

Tris des motifs

Motifs Classifieur

Classifieur Attribution d’uneclasse

Séquencesclassées Validation

Répétition pour validation croisée

61Mickaël Fabrègue – TER 2010

→ 108 patients→ 3 types de tumeur→ 76 gènes

Patient Séquence dedonnées

Type detumeur

P1 < (G13 G3) .... (G2) (G8) > 3

P2 < (G60) (G20 G3) … (G1) > 1

P3 < (G30) (G4) … (G10 G15) > 2

... ... ...

P108 < (G20 G11) (G6) … (G55) > 3

Données

62

Modèle

Extraction des motifs Pour chaque motif, calcul du support pour

chaque type de tumeurs

m1 → discriminant et représentatif du type de tumeur 2

Motifs associés à leur supportMatériel utilisé pour la classification

Beaucoup trop de motifs

Motif séquentiel

Support tumeur 1

Support tumeur 2

Support tumeur 3

m1 0.1 0.8 0.2

63

Les supports les plus fortsEcart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports

Tris basés sur les supports

64

Les supports les plus fortsEcart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports

Motif prioritaire : 1

Tris basés sur les supports

Support Gr 1 Support Gr 2 Support Gr 3 Ecart

Motif 1 0.2 0.7 0.1 0.5

Motif 2 0.5 0.8 0.4 0.3

65

Pour chaque séquence, on teste l’inclusion des motifs

Attribution d’un groupe à une séquence

66

Rappel = Séquences correctement attribuées

Séquences appartenant à la tumeur

Evaluation

Précision = Séquences correctement attribuées

Séquences attribuées

67

Ecart entre le plus fort et le plus faible des supports

Résultat

68

Conclusion et perspectives

Améliorer la classification

Diminuer le nombre de gènes puces Exhonit de diagnostique

Clustering pour identifier des groupes Avoir des types de tumeurs plus précis que ceux qui existent actuellement

69

Conclusions

Fouiller les données de santé, très prometteur Nombre d’applications Nombre de données disponibles Intérêt des utilisateurs

7004/11/23 70



QuickTime™ et undécompresseur sont requis pour visionner cette image.QuickTime™ et undécompresseur


sandra bringay : [email protected] fouille de données et santé octobre 2010

Documents