sandra bringay : [email protected] fouille de données et santé octobre 2010

70
1 Sandra Bringay : [email protected] Fouille de données et santé Octobre 2010 QuickTime™ et un décompresseur sont requis pour visionner cette image. QuickTime décompre sont requis QuickTime™ et un décompresseur sont requis pour vision

Upload: godefrey-maurel

Post on 03-Apr-2015

103 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

1

Sandra Bringay : [email protected]

Fouille de données et santé

Octobre 2010

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

QuickTime™ et undécompresseur sont requis pour visionner cette image.QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Page 2: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

2

Fouille de données et santé

Patient, Patient, Réseau de soins, Réseau de soins,

Autres établissementsAutres établissements de soins, etc.de soins, etc.

Professionnels Professionnels de santé de santé

ConnaissancesConnaissancesnominativesnominatives

Dossier Dossier PatientPatient

Mission Mission de soinsde soinsMission Mission de soinsde soins

Dossier Dossier PatientPatient

Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique

Codage Codage PMSIPMSI

(CCAM)(CCAM)

Autorités MédicalesAutorités Médicales ConnaissancesConnaissances

Non nominativesNon nominatives

Mission de Mission de rechercherecherche

Mission de Mission de rechercherecherche

Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives

collectivement validéescollectivement validées

Professionnels Professionnels de santé de santé

Données cliniquesDonnées cliniquesNon nominativesNon nominatives

Résultats Résultats d’études d’études

Épidémiologiques Épidémiologiques Données Données

non nominativesnon nominatives

(Charlet, 2002)

Page 3: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

3

Fouille de données et santé

Patient, Patient, Réseau de soins, Réseau de soins,

Autres établissementsAutres établissements de soins, etc.de soins, etc.

Professionnels Professionnels de santé de santé

ConnaissancesConnaissancesnominativesnominatives

Dossier Dossier PatientPatient

Mission Mission de soinsde soinsMission Mission de soinsde soins

Dossier Dossier PatientPatient

Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique

Codage Codage PMSIPMSI

(CCAM)(CCAM)

Autorités MédicalesAutorités Médicales ConnaissancesConnaissances

Non nominativesNon nominatives

Mission de Mission de rechercherecherche

Mission de Mission de rechercherecherche

Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives

collectivement validéescollectivement validées

Professionnels Professionnels de santé de santé

Données cliniquesDonnées cliniquesNon nominativesNon nominatives

Résultats Résultats d’études d’études

Épidémiologiques Épidémiologiques Données Données

non nominativesnon nominatives

(Charlet, 2002)

Page 4: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

4

Fouille de données et santé

Patient, Patient, Réseau de soins, Réseau de soins,

Autres établissementsAutres établissements de soins, etc.de soins, etc.

Professionnels Professionnels de santé de santé

ConnaissancesConnaissancesnominativesnominatives

Dossier Dossier PatientPatient

Mission Mission de soinsde soinsMission Mission de soinsde soins

Dossier Dossier PatientPatient

Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique

Codage Codage PMSIPMSI

(CCAM)(CCAM)

Autorités MédicalesAutorités Médicales ConnaissancesConnaissances

Non nominativesNon nominatives

Mission de Mission de rechercherecherche

Mission de Mission de rechercherecherche

Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives

collectivement validéescollectivement validées

Professionnels Professionnels de santé de santé

Données cliniquesDonnées cliniquesNon nominativesNon nominatives

Résultats Résultats d’études d’études

Épidémiologiques Épidémiologiques Données Données

non nominativesnon nominatives

(Charlet, 2002)

ProjetLAMAL

Page 5: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

5

Fouille de données et santé

Patient, Patient, Réseau de soins, Réseau de soins,

Autres établissementsAutres établissements de soins, etc.de soins, etc.

Professionnels Professionnels de santé de santé

ConnaissancesConnaissancesnominativesnominatives

Dossier Dossier PatientPatient

Mission Mission de soinsde soinsMission Mission de soinsde soins

Dossier Dossier PatientPatient

Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique

Codage Codage PMSIPMSI

(CCAM)(CCAM)

Autorités MédicalesAutorités Médicales ConnaissancesConnaissances

Non nominativesNon nominatives

Mission de Mission de rechercherecherche

Mission de Mission de rechercherecherche

Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives

collectivement validéescollectivement validées

Professionnels Professionnels de santé de santé

Données cliniquesDonnées cliniquesNon nominativesNon nominatives

Résultats Résultats d’études d’études

Épidémiologiques Épidémiologiques Données Données

non nominativesnon nominatives

(Charlet, 2002)

Page 6: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

6

Fouille de données et santé

Patient, Patient, Réseau de soins, Réseau de soins,

Autres établissementsAutres établissements de soins, etc.de soins, etc.

Professionnels Professionnels de santé de santé

ConnaissancesConnaissancesnominativesnominatives

Dossier Dossier PatientPatient

Mission Mission de soinsde soinsMission Mission de soinsde soins

Dossier Dossier PatientPatient

Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique

Codage Codage PMSIPMSI

(CCAM)(CCAM)

Autorités MédicalesAutorités Médicales ConnaissancesConnaissances

Non nominativesNon nominatives

Mission de Mission de rechercherecherche

Mission de Mission de rechercherecherche

Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives

collectivement validéescollectivement validées

Professionnels Professionnels de santé de santé

Données cliniquesDonnées cliniquesNon nominativesNon nominatives

Résultats Résultats d’études d’études

Épidémiologiques Épidémiologiques Données Données

non nominativesnon nominatives

(Charlet, 2002)

Cohortes PAQUID

Page 7: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

7

Fouille de données et santé

Patient, Patient, Réseau de soins, Réseau de soins,

Autres établissementsAutres établissements de soins, etc.de soins, etc.

Professionnels Professionnels de santé de santé

ConnaissancesConnaissancesnominativesnominatives

Dossier Dossier PatientPatient

Mission Mission de soinsde soinsMission Mission de soinsde soins

Dossier Dossier PatientPatient

Mission de gestion Mission de gestion Médico-économiqueMédico-économiqueMission de gestion Mission de gestion Médico-économiqueMédico-économique

Codage Codage PMSIPMSI

(CCAM)(CCAM)

Autorités MédicalesAutorités Médicales ConnaissancesConnaissances

Non nominativesNon nominatives

Mission de Mission de rechercherecherche

Mission de Mission de rechercherecherche

Protocoles, GBPProtocoles, GBPConnaissances non nominatives Connaissances non nominatives

collectivement validéescollectivement validées

Professionnels Professionnels de santé de santé

Données cliniquesDonnées cliniquesNon nominativesNon nominatives

Résultats Résultats d’études d’études

Épidémiologiques Épidémiologiques Données Données

non nominativesnon nominatives

(Charlet, 2002)

GeneMining

Page 8: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

8

Données particulières: hétérogènes, souvent imprécises, subjectives, non déterministes, bruitées, avec des valeurs manquantes et des erreurs

Fouille de données

Analyser descomportements

Prédire descomportements

Détecter desComportements

anormaux

Rechercher des critères d’aide à la

décision

Fouille de données de santé

Page 9: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

Fouille de données issues de puces à ADN

Page 10: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

10

Puces à ADN

Incontournables pour comprendre les maladies génétiques complexes : perturbation des processus naturels de croissance, de division et de mort des cellules

Utilisées par les biologistes pour acquérir de grandes quantités de données sur l’expression des gènes et identifier les lois suivies par ces expressions en fonction des maladies et des traitements : gènes impliqués dans la maladie ? gènes dont les expressions sont corrélées ? gènes qui inhibent ou activent une fonction ? ….

Difficultés pour extraire automatiquement des connaissances liés aux gros volumes de données

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Page 11: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

11

Puces à ADN

Le principe : propriété de l'ADN dénaturé de reformer spontanément sa double hélice lorsqu'il est porté face à un brin complémentaire (réaction d'hybridation).

A ≡ T T ≡ A G ≡ C C ≡ G

Concrètement… un ensemble de molécules d'ADN fixées en rangées ordonnées sur une petite surface

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

A T C C … G A

1 probe 1 gène

Expression (couleur) mesure de la quantité d’ADN dénaturé qui se reforme

Page 12: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

12

12

Gènes

Page 13: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

13

13

Gènes

Puces

Page 14: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

14

14

Intensité (expression) d’un gène mesuré par une puce

Gènes

Puces

Page 15: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

15

11/04/23 15

Gènes

Puces

Très grande densité : Affymetrix U-133 plus 2.0 Array 54,675 probesets

Intensité (expression) d’un gène mesuré par une puce

Page 16: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

16

Les motifs séquentiels dans ce contexte…Thèse de P. Salle

Motifs séquentiels : séquences fréquentes d’itemsets ordonnés

< ( ) ( ) > Rechercher des motifs séquentiels pour

mettre en évidence des gènes dont les expressions sont fréquemment ordonnées de la même manière

< (G5 G4) (G6) > 2 collaborations :

MMDN sur la maladie d'Alzheimer IRCM sur le cancer du sein.

QuickTime™ et undécompresseur

sont requis pour visionner cette image.QuickTime™ et undécompresseur

sont requis pour visionner cette image.

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Page 17: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

17

Maladie d’Alzheimer (AD) : la forme la plus commune de démence 26.6 millions de personnes atteintes (2006) Augmentation du nombre de patients (*4 en 2050)

Intérêt de la communauté biomédicale pour la découverte des gènes impliqués dans le développement la maladie

MMDN : travaillent sur l’AD et sur le vieillissement à partir d’un modèle animal, Microcebus murinus

Objectifs : comparer les tissus du cortex cérébral de lémuriens jeunes (sains) avec ceux de lémuriens âgés (malades) pour étudier le vieillissement (la maladie d'Alzheimer)

17

Maladie d’Alzheimer : problème majeur de la société moderne

Page 18: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

18

Cancer du sein : première cause de mortalité entre 45 et 64 ans (2004)

Perturbation de la communication cellulaire, associée à une absence de mort cellulaire, engendrant le développement d'amas de cellules cancéreuses (appelées tumeurs) qui échappent aux règles de fonctionnement du corps.

IRCM : utilisent les puces ADN pour comparer les tissus issus de tumeurs du sein, répertoriés selon différents grades.

Objectif : déterminer un ensemble de bio-marqueurs suffisants pour typer ces tumeurs.

Enjeu considérable : Les thérapies sont + ou - toxiques et fonctionnent sur un patient mais pas sur un autre. Typer une tumeur s'avére crucial pour le choix d'une thérapie.

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Page 19: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

19

Plan

1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN

2. Mesurer les écarts fréquents de gènes

3. Aider les médecins à typer les tumeurs du sein

Page 20: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

20

Plan

1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN

2. Mesurer les écarts fréquents de gènes

3. Aider les médecins à typer les tumeurs du sein

Page 21: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

2121

Technologies puces à ADN

Nouvelles

connaissances

Bases de connaissances et bases bibliographiques disponibles en ligne

Données biologiques massives

Page 22: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

2222

Technologies puces à ADN

Nouvelles

connaissances

Bases de connaissances et bases bibliographiques disponibles en ligne

Données biologiques massives

Challenge : exploiter toutes ces données en terme de signification biologique

Challenge : exploiter toutes ces données en terme de signification biologique

Page 23: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

2323

Fouille de donnéesFouille de données

Motifs séquentiels

Motifs séquentiels

Clustering et

visualisation

Clustering et

visualisation

Sélection de motifs

séquentiels

Sélection de motifs

séquentiels

Techniques d’

interprétation

Techniques d’

interprétation

Nouvelles connaissances biologiques

Processus général(Bringay, MIE’2009)

Page 24: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

2424

Fouille de donnéesFouille de données

Motifs séquentiels

Motifs séquentiels

Clustering et

visualization

Clustering et

visualization

Motifs séquentiels sélectionnés

Motifs séquentiels sélectionnés

Techniques d’

interprétation

Techniques d’

interprétation

Processus général

Page 25: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

25

Le gène G2 a une expression plus petite que les gènes G1 et G5 qui ont une expression similaire et plus petite que le gène G3

25

Puces Séquences de gènes

M1M2M3M4

<(G2)(G1 G5)(G3)(G4)><(G2)(G1 G5)(G4)(G3)><(G2)(G4)(G1 G5)(G3) ><(G2)(G3)(G1 G5)(G4)>

<(G2)(G1 G5)(G3)>

Recherche de motifs séquentiels

(Salle, AIME 2009)

Page 26: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

2626

Recherche de motifs séquentiels (Salle, AIME 2009)

Support = 3/4

<(G2)(G1 G5)(G3)>

Puces Séquences de gènes

M1M2M3M4

<(G2)(G1 G5)(G3)(G4)><(G2)(G1 G5)(G4)(G3)><(G2)(G4)(G1 G5)(G3) ><(G2)(G3)(G1 G5)(G4)>

Page 27: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

2727

Motifs séquentiels discriminants Fréquents dans une classe (malades) Non fréquents dans la classe complémentaire (sains)

Recherche de motifs séquentiels (Salle, AIME 2009)

Support = 3/4

<(G2)(G1 G5)(G3)>

Puces Séquences de gènes

M1M2M3M4

<(G2)(G1 G5)(G3)(G4)><(G2)(G1 G5)(G4)(G3)><(G2)(G4)(G1 G5)(G3) ><(G2)(G3)(G1 G5)(G4)>

Page 28: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

2811/04/23 28

Trop nombreux (entre 100 et 185,240) Difficile à interpréter

Trop nombreux (entre 100 et 185,240) Difficile à interpréter

Page 29: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

2929

Fouille de donnéesFouille de données

Motifs séquentiels

Motifs séquentiels

Clustering et

visualisation

Clustering et

visualisation

Motifs séquentiels sélectionnés

Motifs séquentiels sélectionnés

Technique d’

interprétation

Technique d’

interprétation

New knowledge

Processus général

Page 30: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

30

Mesure de similarité Gènes communs et non communs

Ordre des gènes

Support

30

S75%=<(G1)(G2 G3)>S’75%=< (G2 G3) (G1)>S75%=<(G1)(G2 G3)>

S’75%=< (G2 G3) (G1)>

Comment comparer les motifs (Saneifar et al., AusDM’08)

Page 31: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

3131

Collaboration avec PIKKO

Collaboration avec PIKKO

Clustering simple (k-means)

Page 32: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

3232

Clustering simple (k-means)

Collaboration avec PIKKO

Collaboration avec PIKKO

Page 33: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

33

Exemple: (a)(b)(c), (a)(b)(d), (e)(b)(d)

33

Un résumé

Clustering hiérarchique (Nin Guerero et al., CSBM’09)

Page 34: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

3434

Collaboration avec PIKKO

Collaboration avec PIKKO

Clustering hiérarchique

Page 35: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

3535

Un résumé

Clustering hiérarchique

Page 36: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

3636

Malade Sain

Clustering hiérarchique

Page 37: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

3711/04/23 37

Et les connaissances disponibles en ligne ?Et les connaissances disponibles en ligne ?

Page 38: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

3838

Fouille de donnéesFouille de données

Motifs séquentiels

Motifs séquentiels

Clustering et

visualization

Clustering et

visualization

Motifs séquentiels sélectionnés

Motifs séquentiels sélectionnés

Techniques d’

interprétation

Techniques d’

interprétation

New knowledge

Processus général

Page 39: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

39

Recherche de documents associés avec les gènes des motifs

Objectifs: validation + recherche de nouveautés

Séquences populaires et innovantes

S75%,25%=<(G1)(G2 G3)>

S75%,25%=<(G1)(G2 G3)> TextesTextes

Interprétation des motifs via les documents(Bringay et al., MedInfo’10)

Page 40: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

4040

Collaboration avec PIKKO

Collaboration avec PIKKO

Visualisation de documents

Page 41: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

4111/04/23 41

Séquences innovantes associées avec des documents = nouvelle connaissance ayant un

signification biologique

Séquences innovantes associées avec des documents = nouvelle connaissance ayant un

signification biologique

Page 42: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

42

Protéines impliquées dans les mécanismes de signalisation et du métabolisme

Certaines interfèrent avec les événements cellulaires de la maladie d’Alzheimer

42

S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)>

S75=<(MRVI1)(PGAP1)(PLA2R1)(A2M)(GSK3B)>

Un motif pertinent

Page 43: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

43

Conclusion et perspectives

De nouvelles connaissances pour les biologistes qui leur permettent d’étudier l’impact de l’expression des gènes sur les maladies

Un outil pour rendre ces données manipulables Perspectives nombreuses :-))

D’autres types de motifs Amélioration des visualisations existantes D’autres types de visualisation ….

Page 44: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

44

Plan

1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN

2. Mesurer les écarts fréquents de gènes

3. Aider les médecins à typer les tumeurs du sein

Page 45: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

45

Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la

définition d’une partition stricte des valeurs d’expression des gènes

<(G1 G5)(G3)>

Des motifs séquentiels vers…

Page 46: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

46

100 200 300 400

<(G1 G5)(G3)>

<(G1 G5) (G3)><(G1 G5) (G3)>

97 360

97 190

<(G1 G5) (G3)>97 105

Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la

définition d’une partition stricte des valeurs d’expression des gènes

Des motifs séquentiels vers…

Page 47: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

47

Motifs à écarts flous : basés sur des écarts flous qui expriment l’importance de l’écart entre des gènes ou des groupes de gènes

<(G1 G5)(very over expressed 0,8) (G3)>

G3 is far much expressed compared to G1 and G5, which are

expressed in a similar way

<(G1 G5)(G3)>

Motifs séquentiels : Ne sont pas facilement Compréhensible et manipulables par les experts Interprétables d’une manière linguistique sans la

définition d’une partition stricte des valeurs d’expression des gènes

…Motifs à écarts flous(bringay et al., Fuzzyeee’09)

Page 48: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

48

Puce Séquence de gènes

M1

M2

<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7

<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12

< (G1 G5) (G3) >

Recherche des motifs à écarts flous

Page 49: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

49

Puces Séquences de gènes

M1

M2

<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7

<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12

Différence d’Itemset δ(it2; it1): la valeur absolue de la différence entre l’intensité du premier gène de it2 et du dernier de it1

Exemple: M1: δ((G3); (G1 G5))

= Ι5-4Ι=1 M2: δ((G3); (G1 G5))

= Ι12-4.2Ι=7,8

Recherche des motifs à écarts flous

Page 50: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

50

Trapezoidal partition

0,5

Recherche des motifs à écarts flous

Page 51: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

51

δM1 =1

Trapezoidal partition

0,5

Recherche des motifs à écarts flous

Page 52: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

52

δM2=7.8

Recherche des motifs à écarts flous

Page 53: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

53

Puces Séquences de gènes

M1

M2

<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7

(moyennement sur-exprimé; 0,5)

<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12

(très sur exprimé ;1)

Degré d’une séquence à écart flou :

FSFG(M) = (d1, …,dn-1)

T-norm appliquée à tous les degrés des écarts de la séquence

F(G3)(G1 G5) (M1) = 0,5 F(G3)(G1 G5) (M2) = 1

Recherche des motifs à écarts flous

Page 54: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

54

Microarray

Gene expression sequence

M1 (0,5)

M2 (1)

<(G2)(G1 G5)(G3)(G4)> 3.7 4 4.3 5 7

(avg over expressed; 1)

<(G2)(G1 G5)(G4)(G3)> 3.2 4.2 4.7 10 12

(very over expressed ;1)

Support d’une séquence à écart flou

Pourcentage de puces vérifiant le motif à écarts flousFreq(G3)very(G1 G5) = 1/2 = 0,5

Recherche des motifs à écarts flous

Page 55: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

55

Conclusions et perspectives

Motifs plus compréhensibles et manipulables par les experts

Simple à calculer (post-traitement) Utiliser les propriétés des contraintes

liées au flou pour améliorer les performances de notre algorithme

Nouvelle information : motifs à écart flous discriminant prédiction des types de cancer

Page 56: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

56

Plan

1. Aider les biologistes à découvrir des nouveautés dans les puces à ADN

2. Mesurer les écarts fréquents de gènes

3. Aider les médecins à typer les tumeurs du sein

Page 57: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

57

Typer les tumeurs à partir des motifsTER de M. Fabregues

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

Page 58: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

58

Base d’apprentissage

90%

Construction du classifieur

Evaluation du classifieur

Jeu de test 10%

Séquences de données

Motifs séquentiels

Schéma général

Page 59: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

59

Base d’apprentissage

90%

Construction du classifieur

Evaluation du classifieur

Jeu de test 10%

Séquences de données

Motifs séquentiels

Schéma général

Extraction des motifs

Tris des motifs

Motifs Classifieur

Classifieur Attribution d’uneclasse

Séquencesclassées Validation

Page 60: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

60

Base d’apprentissage

90%

Construction du classifieur

Evaluation du classifieur

Jeu de test 10%

Séquences de données

Motifs séquentiels

Schéma général

Extraction des motifs

Tris des motifs

Motifs Classifieur

Classifieur Attribution d’uneclasse

Séquencesclassées Validation

Répétition pour validation croisée

Page 61: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

61Mickaël Fabrègue – TER 2010

→ 108 patients→ 3 types de tumeur→ 76 gènes

Patient Séquence dedonnées

Type detumeur

P1 < (G13 G3) .... (G2) (G8) > 3

P2 < (G60) (G20 G3) … (G1) > 1

P3 < (G30) (G4) … (G10 G15) > 2

... ... ...

P108 < (G20 G11) (G6) … (G55) > 3

Données

Page 62: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

62

Modèle

Extraction des motifs Pour chaque motif, calcul du support pour

chaque type de tumeurs

m1 → discriminant et représentatif du type de tumeur 2

Motifs associés à leur supportMatériel utilisé pour la classification

Beaucoup trop de motifs

Motif séquentiel

Support tumeur 1

Support tumeur 2

Support tumeur 3

m1 0.1 0.8 0.2

Page 63: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

63

Les supports les plus fortsEcart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports

Tris basés sur les supports

Page 64: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

64

Les supports les plus fortsEcart entre les deux plus forts supports Ecart entre le plus fort et le plus faible des supports

Motif prioritaire : 1

Tris basés sur les supports

Support Gr 1 Support Gr 2 Support Gr 3 Ecart

Motif 1 0.2 0.7 0.1 0.5

Motif 2 0.5 0.8 0.4 0.3

Page 65: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

65

Pour chaque séquence, on teste l’inclusion des motifs

Attribution d’un groupe à une séquence

Page 66: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

66

Rappel = Séquences correctement attribuées

Séquences appartenant à la tumeur

Evaluation

Précision = Séquences correctement attribuées

Séquences attribuées

Page 67: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

67

Ecart entre le plus fort et le plus faible des supports

Résultat

Page 68: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

68

Conclusion et perspectives

Améliorer la classification

Diminuer le nombre de gènes puces Exhonit de diagnostique

Clustering pour identifier des groupes Avoir des types de tumeurs plus précis que ceux qui existent actuellement

Page 69: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

69

Conclusions

Fouiller les données de santé, très prometteur Nombre d’applications Nombre de données disponibles Intérêt des utilisateurs

Page 70: Sandra Bringay : bringay@lirmm.fr Fouille de données et santé Octobre 2010

7004/11/23 70

QuickTime™ et undécompresseur

sont requis pour visionner cette image.

QuickTime™ et undécompresseur sont requis pour visionner cette image.QuickTime™ et undécompresseur

sont requis pour visionner cette image.