jean-daniel zucker umr u872 eq. 7 inserm
TRANSCRIPT
Master 2007
1
Introduction à la fouille de données en BioInformatique
Ma
st
er
EID
20
08
Cours MASTER EID-P13 2008
Jean-Daniel Zucker
DR à l’IRD UR GEODES (Modèlisation Mathématiques Et Informatiques des Systèmes Complexes)
UMR U872 Eq. 7 INSERM
1lundi 24 mars 2008
Master 2007
2
Pl
an
I. A) Généralités et rappels
B) petite intro à la bioinformatique
II. Une source de données: les BioPuces
III. La fouille de données BioPuces
• Clustering
• Classification/Prediction
• Feature Selection
IV. Conclusionhttp://videolectures.net
2lundi 24 mars 2008
Master 2007
3
Agents autonomes
150 mile off-road robot race across the Mojave desert
Natural and manmade hazards
No driver, no remote control
No dynamic passing
Fastest vehicle wins the race (and 2 million dollar prize)
http://www.darpa.mil/grandchallenge/rules.asp
3lundi 24 mars 2008
Master 2007
4
Grand DARPA challenge (2005)
•Tâche: apprendre le programme de conduite en temps réel
4lundi 24 mars 2008
Master 2007
5
Grand DARPA challenge (2005)
Top three finishers to receive $2 million, $1 million and $500,000 prizes. (12/8/06)
5lundi 24 mars 2008
11/12/06
des données (2/2)6
Le risque de métastase est x15 pour les profils «!mauvais pronostic!» p=0.003
Etude d’une cohorte de 295 cancers du sein
avec/sans métastase ganglionnaire (Vijver et
al., NEJM, décembre 2002)
70
gèn
es:
«!p
rog
no
sis
cla
ssifi
er g
enes!»
An
née
s
6lundi 24 mars 2008
Master 2007
Types d’apprentissages
7
1. Apprentissage superviséprédiction/régression/classification
apprentissage de paramètres
2. Apprentissage non-supervisé
regroupement (clustering)
3. Apprentissage par renforcement
planification dans monde inconnu
supervision par l’environnement
7lundi 24 mars 2008
Master 2007
Formulation du problème d’apprentissage supervisé
8
Learning – Problem Formulation I
ROunion Geodes . JD Zucker: An Introduction to Boosting. Part I (Basic Issues), Page 4
· · ·natural plastic natural plastic
+1 -1 +1 -1?
Le ‘Monde’:Donnees: {(xn, yn)}N
n=1,xn ∈ Rd, yn ∈ {±1}Fonction cible inconnue: y = f (x) (or y ∼ P (y|x))Distribution inconnue: x ∼ p(x)
But: Etant donne n nouvel x, predire y
Probleme: P (x, y) est inconnu!
8lundi 24 mars 2008
Master 2007
9
Formulation du problème d’apprentissage supervisé
• Si f est une fonction continue
– Régression (ex: durée de vie d!un malade)
– Estimation de densité
• Si f est une fonction discrète
– Classification (ex: niveau de gravité)
• Si f est une fonction binaire (booléenne)– Apprentissage de concept (ex: rechute oui/non plastic: oui/non)
9lundi 24 mars 2008
Master 2007
Formulation du problème d’apprentissage supervisé
10
Learning – Problem Formulation II
ROunion Geodes . JD Zucker: An Introduction to Boosting. Part I (Basic Issues), Page 5
Le ‘Modèle’Espace des Hypotheses: H =
{h | h : Rd → {±1}
}
Fonction de perte: l(y, h(x)) (par ex. I[y "= h(x)])
But: Minimiser la vraie (attendue) perte – “erreuren generalisation”
h∗ = argminh∈H
L(h) with L(h) := EX×Y l(Y, h(X))
Probleme: on a qu’un echantillon de donneesdisponible, P (x, y) inconnue!
Solution: Trouver un minimiseur empirique
hN = argminh∈H
1
N
N∑
n=1
l(yn, h(xn))
Comment construire efficacement des hypothesescomplexes de faible erreur en generalisation ?
10lundi 24 mars 2008
Master 2007
11
Exemples de fonctions de perte
• Discrimination
• Régression
• Estimation de densité
l (h(xi), u
i) =
0 si ui = h(x
i)
1 si ui ! h(x
i)
" # $
l (h(xi), u
i) = h(x
i) ! u
i[ ]2
l (h(xi)) = ! ln h(x
i)
yi
yi
yi
yi yi
11lundi 24 mars 2008
Master 2007
12
Pl
an
I. A) Généralités B) petite intro à la bioinformatique
II. Une source de données: les BioPuces
III. La fouille de données BioPuces
• Clustering
• Classification/Prediction
• Feature Selection
IV. Conclusion
12lundi 24 mars 2008
Master 2007
13
Qu’est-ce que la Bio-Informatique?
Champs multi-disciplinaire qui utilise des méthodes informatiques (mathématiques, statistiques, combinatoires…) pour:
! Formaliser des problèmes de biologie moléculaire;
! Concevoir des solutions computationelles à la portée des machines,
! Développer et valider des outils;
! Analyser, structurer, comparer, traiter les information biologiques
! Stocker, accéder, filtrer ces informations
! Modéliser des processus biologiques
! Prédire des résultats biologiques; etc.
Discipline relativement nouvelle, qui évolue en fonction des nouveaux problèmes posés par la biologie moléculaire.
13lundi 24 mars 2008
Master 2007
14
Une définition
• La bioinformatique est une science interdisciplinaire – Analyser l'info. biologique disponible et produire de nouvelles K.
– Propose et développe des modèles, des méthodes et des outils
– Requiert des K. en mathématique, en informatique et en biologie.
(Introduction à la bioinformatique Cynthia Gibas & Per Jambeck , O’Reilly.)
Langage: BIOPERL
Algorithmique : ex. Algo Appariement BLAST
Réseaux : ex. Grille de calcul GBIO
BD: ex: NCBI (1988 Nat. Res. Mol. Biol)
Modèlisation: Réseaux de régulations Equa Diff.
IA: Prédiction de gènes14lundi 24 mars 2008
Master 2007
15
Cellule Noyau
Chromosome
Protéine
National Human Genome Research Institute
Gene (ADN)Gene (ARNm), Simple brin
Niveaux de l’information biologiquel'éty
molo
gie d
e chro
moso
me: ch
rom
o =
couleu
r et som
a =
corp
s: des co
rps co
lorab
les
15lundi 24 mars 2008
Master 2007
16
Quelles Types d’informations: «omes» ?
Génome (l!ensemble du matériel génétique d'un individu ou d'une espèce.)
Transcriptome (l’ensemble des ARN messagers transcrits à partir du génome)
Protéome (l'ensemble des protéines exprimés à partir du génome)
Métabolome (l’ensemble des composés organiques (sucres, lipides, amino-acides, …)
Bioinformatics in the Post-Genomic
Era: Genome, Transcriptome,
Proteome, and Information-Based
Medicine
16lundi 24 mars 2008
Master 2007
17
Structure d’un gène codant une protéine
5!’ 3!’TATA
- 25 - 30
Début de la
transcription
Partie transcriteRégion 5!’ régulatrice : promoteur
Introns: séquences transcrites puis éliminées (épissage)
Exons: séquences retouvées dans l’ARNm
Séquences exoniques retrouvées dans l’ARNm mais non traduites
17lundi 24 mars 2008
Master 2007
18
Traduction : le code génétique (de l’ARN)
- Les protéines sont formées de 20 acides aminés différents qui s!’enchaînent de façon bien précise.
- L‘ADN a une structure primaire formée de l!’enchaînement de 4 bases. Pour traduire l!’information ADN ==>
acides aminés, il faut donc au minimum un enchaînement de trois bases (codon) pour définir un acide aminé. Il
existe donc 64 possibilités.
18lundi 24 mars 2008
Master 2007
19
Le transcriptome: entre le gène et la protéine
AR
N
pri
ma
ire
TRANSCRIPTIONRecopie d!un brin où U à la place de T
MATURATIONEpissage alternatif, …
AAAAAAAAAAAAAAAAAA…..AAAAA
AAUAAAAAAAAAAAAAAAAAAAAAA…..AAAAA
Ribosomes
NOYAU
CYTOPLASME
AAG CGC TTG CGC TGT ATG CGT CCG
AAG CGC UUG CGC UGU AUG CGU CCG
A
DN
A
RN
mes
sag
erP
roté
ine
TRADUCTION
Exp
ressio
n d
’un
gen
e
19lundi 24 mars 2008
Master 2007
20
….ACGTGGTTAAATCGTATGCTTAGCTACCCACGTGGTTAAATCGTATGCTTAGCTA
GTTACGTGGTTAAATCGTATGCTTAGCTAGCCACGTGGTTAAATCGTATGCTTAGCT
ATTTACGTGGTTAAATCGTATGCTTAGCTACGCACGTGGTTAAATCGTATGCTTAGC
TA………
ADN
• Localisation: noyau de chaque cellule
• Composition: Nucleotides
• 4 Types de Nucleotide Bases: A, G, C, T
• Humain: 3 millions de kilobases ADN, 1 mètre
• 90% “Junk DNA”; 10% Genes
…..ACGTGGTTAAATCGTA……
….UGCACCAAUUUAGCAU……
• T->U• Modifications
ARN
• 3 Nucleotides "1 acide aminé• 20 acides aminé
• Modifications Post-traduction
Protéines
20lundi 24 mars 2008
21
Les types d’information biologique : les “omes” et outils associés
ARN
Transcriptome
ADN
Génome
enzymes
P
O
O
O P
O
O
O P
O
OO
ON
O
N
N
O
N
N
O
Métabolome
ProtéomeProtéines
régulation
ATP
200 400 600 800 1000 1200M/z0
100
%
F60-64 env13 ZT50
es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+
(596.29) F G L (329.16) yMax201.11
187.12
175.09
819.38
y2312.12
330.13
b 762.36
y1516.25401.24
932.44
y3
825.42
1033.48
1259.57
TCACTAC
GGGTCAG
GGGAAGG
AAAGGGG
AACTGAG
AGATTT..
UCACUAC
GGGUCAG
GGGAAGG
AAAGGGG
AACUGAG
AGAUUU..
Séquenceur
Puces
RTPCR Electrophorèse
Spectromètrede masse
Puces
21lundi 24 mars 2008
Génome (l’ensemble du matériel génétique d'un individu ou d'une espèce.)
– Identifier, prédire les gènes dans une séquence (HMM)
– Aligner et comparer de séquences ex: BLAST (Basic Local Alignment Search Tool)
Transcriptome (l’ensemble des ARN messagers transcrits à partir du génome)
– Analyser l’expression des gènes différentiel. exprimés / conditions
– Regrouper des gènes co-exprimés, Réseaux de régulation des gènes
– Identifier la fonction de gènes.
Protéome (l'ensemble des protéines exprimés à partir du génome)
– Prédire de la structure secondaire, la fonction des protéines, …
– Analyser, mesurer l’expression en fonction des organes
Métabolome (l’ensemble des composés organiques (sucres, lipides, amino-acides, …)
– Analyser, visualiser, prédire, mesure des concentrations
22
Problemes algorithmiques et “omes” : le rôle de l'apprentissage automatique
Normale Précancereuse Cancereuse
A B C
Exp
ress
ion
Lev
el
A B C
Exp
ress
ion
Lev
el
A B C
Exp
ress
ion
Lev
el
22lundi 24 mars 2008
Master 2007
23
APPRENTISSAGE ET GENOME
• Les observations sont ordonnées
• Un processus aléatoire peut être représenté par une machine à état stochastique.
• Evaluer la probabilité d!une séquence donnée étant donné le model (Forward)
• Trouver le chemin le plus probable dans un modèle étant donnée une observation (Viterbi)
23lundi 24 mars 2008
Master 2007
24
APPRENTISSAGE ET GENOME
• Problème: – Trouver les régions codantes (exons) et non-codantes (introns)
d!un brin d!AND. Les sites des “splice”: accepteur et donneurs
• Application:– Annotation de genes séquencés
– Compréhension des mécanismes de transcriptions, etc.
==> Apprentissage des paramètres à partir d!exemples (cf. Rätsch)24lundi 24 mars 2008
Master 2007
25
APPRENTISSAGE ET PROTEOME
Structure Primaire
– Chaîne d’acides aminés
– Chiralité (lévogyre(-),dextrogyre (+))
H20
H20 H20
H20
H20
H20
H20
H20
H20
Structure Secondaire
# Deux structures: Hélice Alpha, Feuillet Beta
http://io.uwinnipeg.ca/~simmons/cm1503/proteins.htm
25lundi 24 mars 2008
Master 2007
Prédiction de la structure secondaire, teriaire et quaternaire
26
# Structure tertiaire– Structure 3D: Arrangement
séquentiel des structures
# Structure quaternaire– Protéines avec plus d’une
chaîne
– Arrangement des chaînes
26lundi 24 mars 2008
Master 2007
Différentes classes à prédire
27
# dont:– Alpha/Alpha
# Mainly packing of alpha helices
– Beta/Beta# Mainly one or more beta sheets
– Alpha/Beta# Roughly alternate alpha helices and beta sheets
– Alpha+Beta# Mixed alpha helices and beta
– Coil# Mainly small proteins (fewer than 50 residues)
27lundi 24 mars 2008
Master 2007
Tâche d’apprentissage
28
Formatlisible
Algorithmed’apprentissage
StructurePredictor
– Déterminer la structure de la protéine est difficile -> prédiction
– Nombreux algorithmes
– CAPS : Comparative Assessment of Protein Structure Prediction
– Prédiction à l’aveugle les chimistes ne publient pas leurs résultats et les algorithmes sont comparés.
28lundi 24 mars 2008
Master 2007
Etat de l’art
29
# Prédiction de la structure secondaire– Alpha, Beta, Coil
# Majority class predictor: 40%
# Prediction est passée de 60%– avec des méthodes à bases de règles.
– à 80% avec des approches ML
– NN et SVM très bons
– ILP aussi très performants
29lundi 24 mars 2008
Master 2007
30
Des BD et encore des BD…
• Base de Données de Motifs – Prosite, Pfam, BLOCKS, TransFac,
PRINTS, URLs,…
• Base de Données sur les maladies– GeneCards, OMIM, OMIA,…
• Base de Données taxonomique• Base de données littérature scient.
– PubMed, Medline,…
• Base de données de brevets– Apipa, CA-STN, IPN, USPTO, EPO,
Beilstein,…
• Autres…– RNA databases, QTL…
• Base de Données ADN– GenBank, DDBJ, EMBL,…
• Base de Données Protéines– PIR, Swiss-Prot, PRF, GenPept,
TrEMBL, PDB,…
• Base de Données EST– dbEST, DOTS, UniGene, GIs,
STACK,…
• Base de Données Structure– MMDB, PDB, Swiss-3DIMAGE,…
• Base de Données voies métabol.– KEGG, BRITE, TRANSPATH,…
• Base de Données intégrées– SRS
30lundi 24 mars 2008
Master 2007
31
Données en bioinformatique
• Explosion de la quantité de données (ADN 73 Gb,
arrivée des données biopuces, voies
métaboliques, …)
• Croissance exponentielle des données (11-15% tous les 3 mois), plus traitable localement
• Données hétérogènes dans leur structure et leur
sémantique
• Systèmes d!information hétérogènes
• Beaucoup de connaissances cachées, privées ou inconnues.
• …
31lundi 24 mars 2008
Master 2007
32
http://www.ncbi.nlm.nih.gov/Genbank/genbankstats.html
Croissance des données dans GenBank
http://commons.wikimedia.org/wiki/Image:Growth_of_Genbank.svg
32lundi 24 mars 2008
Master 2007
33 Les Défis
! Décoder l!information contenue dans les séquences d!ADN et de protéines! Trouver les gènes
! Différencier entre introns et exons
! Analyser les répétitions dans l!ADN
! Identifier les sites des facteurs de transcription
! Étudier l!évolution des génomes
! Génomique Comparative! Construire les relations de parenté entre organismes
! Génomique fonctionnelle! Étudier l!expression des gènes
! Étudier la régulation des gènes
! Déterminer les réseaux d!interaction entre les protéines
! Génomique structurale: ! Modéliser les structures 3D des protéines et des ARN structurels
! Déterminer la relation entre structure et fonction
! Pharmacogénomique
33lundi 24 mars 2008
Master 2007
34
Pl
an
I. A) Généralités B) petite intro à la bioinformatique
II. Une source de données: les BioPuces
III. La fouille de données BioPuces
• Clustering
• Classification/Prediction
• Feature Selection
IV. Conclusion
34lundi 24 mars 2008
Master 2007
35
Transcriptome: perspective historique
• Mécanisme d'hybridation de l!ADN (1960s)
• «!un fragment d’ADN simple brin ou d’ARN messager
est capable de reconnaître son brin complémentaire
parmi des milliers d’autres: c’est le phénomène
d’hybridation!»
– Détection des hybrides
– Fixation sur les supports:
»Southern blots (1970s), Northern blots, Dot blots
Dans l’ère de la “post-génomique”: identifier la fonction des gènes
35lundi 24 mars 2008
Master 2007
36
Une (r)évolution ?
•La nouveauté (1990): passage à l!échelle
«!Il est devenu courant de déposer 20!000!préparations différentes
sur des membranes de Nylon de 20!centimètres de côté. La puce à ADN (DNA chip ou biochip en anglais) résulte de l’évolution de ce format vers une miniaturisation plus poussée, qui atteint une densité de 250!000!unités réactionnelles par centimètre carré.!»
–centaines, milliers de sondes au lieu de 10
•Sondes sont attachées à des supports physiques
•La robotique est largement utilisée
•L!informatique joue un rôle clef dans toutes les étapes
36lundi 24 mars 2008
Master 2007
37
Pl
an
A. Les données BioPuces: du signal aux données brutes
B. Stockage et standardisation des données
C. Le traitement statistique des données
D. Analyse et Fouille de données: Clustering
E. Analyse et Fouille de données: Annotations
F. Analyse et Fouille de données: Prédiction
37lundi 24 mars 2008
Master 2007
38
Principales technologies
• Sondes cDNA (> 200 nt) sur nylon ou verre
• Oligonucleotides (25-50 nt) sur du verre
• Oligonucleotides (25-60 nt) synthétisées in situ sur du silicon
• (et d!autres puces chromosomiques, …)
• Clontech, Incyte, Research Genetics : jusqu!à 8000 clones
• Incyte / Synteni - Biopuces à 10000 sondes, non distribuées (il faut envoyer l!ARN)
• Affymetrix - Biopuce basée sur des oligon. Ex: HG-U133A Affymetrix contient des sondes pour 22.000 gènes humain.
• …
Biopuces Commercialisées (liste non exhaustives)
Des puces possédant une unique opération: «!quantifier les transcrits!»
38lundi 24 mars 2008
Master 2007
39
Un facteur limitant: le prix d’achat
• Prix des puces Affymetrix GeneChip (Prix 3 Mars 2008)
• Chaque puce « GeneChip » représente entre 10,000 et 40,000 gènes différents ou EST.
• Les prix ci-dessous tiennent compte d’un rabais …
* Rhesus Macaque Genome Array -"" " $460
* Human Genome HG-U133 Plus 2.0 - " " $460 * Human Genome HG-U133A 2.0 - " " " $310
* Murine Genome MOE 430 2.0 - " " " $460 * Murine Genome MOE 430A 2.0 - " " " $310 * Murine Genome MOE 430A -" " " " $410 * Murine Genome MOE 430B - "" " " $410
* Rat Genome RAE 230 2.0 - " " " " $435 * Rat Genome RAE 230A - " " " " $385 * Rat Genome RAE 230B - " " " " $385
* C. elegans Genome Array " " " " $310 * Canine Genome Array - "" " " " $310 * Chicken Genome Array - " " " " $ 435 * Drosophila Genome 2.0 - " " " " $310
http://www.ohsu.edu/gmsr/amc/amc_price.html
39lundi 24 mars 2008
Master 2007
40
Exemple: Analyse de la réponse à un VLCD
• Hypothèse: – L!expression de certains gènes clés varie en réponse au changement de
l!environnement nutritionnel ou hormonal.
• Matériels: – Données phénotypiques (investig. cliniques) et d!expression (Puces
pangénomiques (44000 ADNc)) au cours d!un régime hypocalorique.
• Méthodes: – Analyse différentielle, exploratoire et prédictive des liens phénotype/
expression.
J0 J3 J30
Données biopuces
Données cliniques
A B
Données génétiques
40lundi 24 mars 2008
Master 2007
41
… autres types d’analyse
• Analyse de l!expression du génome pour caractériser– Effets de certains médicaments
– Mécanismes de développement de maladie– Réponses à des facteurs environnementaux
– Diagnostic moléculaire
– Réseaux de régulations de gènes
• Détection de variation de séquences– Typage génétique
– Détection de mutations somatique
– Séquençage direct
Seule l’imagination des chercheurs
peut limiter le nombre d’analyses…et leur budget
41lundi 24 mars 2008
Master 2007
42
Etape 1: De l’artisanat à la fabrication en série de puces
Clones d’ADN
Arraying
PCR
Figure de: David J. Duggan et al. (1999) Expression Profiling using cDNA microarrays. Nature Genetics 21: 10-14
42lundi 24 mars 2008
Master 2007
43
URL: http://cmgm.stanford.edu/pbrown
Le calibrage du robot imprimeur
secteur:
Un print-tip
Puce: 25x75 mm
Spot-à-spot: 150-350 µm
Tweezer Split PinMicro Spotting
Pin
43lundi 24 mars 2008
Master 2007
44
Etape 2: Hybridation
Test Référence
RTcolorant
Fluorescent Cy5 et Cy3
Hybridation
44lundi 24 mars 2008
Master 2007
45
Type II: Pool de référence d’ARN (tissus-teque)
• Tous les ARN de test sont comparés au même “pool” de référence.
• Permet de réduire le nombre d!expérimentations comparatives pour n de 0.5 x (n2-n) à n
• Le fait d!utiliser deux populations d!ARN en compétition et de mesurer le rapport d!hybridation permet d!éviter les complications liés aux problèmes de cinétique de l!hybridation.
• Permet de comparer des protocoles d!expérimentations
Le choix du plan d!expérience
Type I: Test/Référence Condi vs. condj ou avant/après
Série temporelles/Données appariées ou non
n=8nbpuces=28
n=8nbpuces=8
45lundi 24 mars 2008
Master 2007
46
Excitation
Laser 2Laser 1
Emission
Images
Etape 3: Le signal des puces
46lundi 24 mars 2008
Master 2007
47
Cy3 Cy5Cy5Cy3
Cy5Cy3
log2
8
4
2
fois
2
4
8
Sous-exprimé
relative to
reference pool
Sur-exprimé
Mesure du ratio
47lundi 24 mars 2008
Hybridisation,
Nettoyage
ARN de Contrôle
ARN à tester
Cy3
Cy5
48
Le principe des puces : photographie de l’expression génique
Mesure de
la fluorescence
rouge/verte
Scan
Expériences
40 0
00 G
èn
es
Analyse des
profils
D’expression
Key factor of variability/precision:• Protocols (Type I ou Type II, “dye-swap”, replication)
• Quality of RNA used
• Technology of the chips (cDNA, oligo, …)
• Chip batches
• Hybrudizatiion (conditions and technician)
• Scan (software and technician)
• Number of chips
48lundi 24 mars 2008
Master 2007
49
Taille des Bases de Données
Ex: VLCD 49 40000 cDNA Clement, et al.
49lundi 24 mars 2008
Master 2007
I. A) Généralités B) petite intro à la bioinformatique
II. Une source de données: les BioPuces
III. La fouille de données BioPuces
• Clustering
• Classification/Prediction
• Feature Selection
IV. Conclusion, Projets...
50
Pl
an
50lundi 24 mars 2008
Master 2007
51
Ge
ne
s
Experiments
Regrouper des gènes ayant le meme profil d’expression
51lundi 24 mars 2008
Master 2007
52
Temps ou conditions
Gen
es
Classification Ascendante Hiérarchique (Cluster [Eisen,98])
distance(D,E)
distance(X, Y)
X
Y
52lundi 24 mars 2008
Master 2007
53
Temps ou conditions
Cluster A
Cluster BCluster CCluster D
Cluster E
Gen
es
Regrouper des gènes ayant le meme profil d’expression (II)
53lundi 24 mars 2008
Master 2007
54
Algorithmes de Clustering
• Hiérarchique
– single linkage method
– complete linkage method
– average linkage method
• Non-hiérarchique
– k-means method
54lundi 24 mars 2008
Master 2007
55
Le “clustering” est un problème mal pose…
… mais on peut apprendre à un ordinateur le type de clustering que l’on désire.
Idée des articles présentés :
) comment apprendre à clusteriser
55lundi 24 mars 2008
Master 2007
56
Algorithmes de Clustering basés
• Similarité
– corrélation
• Distance– Euclidienne
– Manhattan Minkowski
56lundi 24 mars 2008
Master 2007
57
Algorithme Hierarchique (principe 1/)
57lundi 24 mars 2008
Master 2007
58
min(dij)=d35=2
Algorithme Hierarchique (principe 2/)
• Single linkage method
1
2
3
4
5
1 2 3 4 5
58lundi 24 mars 2008
Master 2007
59
Algorithme Hierarchique (principe 3/)
• Single linkage methodd(35)1=min(d31,d51)=min(3,11)=3
d(35)2=min(d32,d52)=min(7,10)=7
d(35)4=min(d34,d54)=min(9, 8)=8
(35)
1
2
4
(35) 1 2 4
d(135)2=min[d(35)2,d12]=min(7,9)=7
d(135)4=min[d(35)4,d14]=min(8,6)=6
(135)
2
4
(135) 2 4
59lundi 24 mars 2008
Master 2007
60
Algorithme Hierarchique (principe 4/)
• Single linkage methodd(135)(24)=min[d(135)2,d(135)4]=min(7,6)=6 (135)
(24)
(135) (24)
60lundi 24 mars 2008
Master 2007
61
B) Classification Non-hierarchique
• méthode des K-moyennes
– 2 clusters initiaux : (AB),(CD)
– d2(A,(AB))=10
– d2(A,(CD))=61
– d2(B,(AB))=10
– d2(B,(CD))=9
– A,(BCD)
61lundi 24 mars 2008
Master 2007
62
Carte Auto-Organisatrice: Self-organization maps (SOM)
(Kohonen, 1982)
mi(t+1)=mi(t)+hci(t)[x(t)-mi(t)]
where, t is the time index,
hci(t)=f(||rc-ri||,t),
ri and rc are the location
of node c and I.
(Tamayo et al. PNAS, 1999)
Cartes de Kohonen
62lundi 24 mars 2008
Master 2007
I. A) Généralités B) petite intro à la bioinformatique
II. Une source de données: les BioPuces
III. La fouille de données BioPuces
• Clustering
• Classification/Prediction
• Feature Selection
IV. Conclusion, Projets...
63
Pl
an
63lundi 24 mars 2008
Master 2007
64
Classer et Prédire: algorithmes
• But : utiliser les données d!expression pour construire des modèles prédictifs ou des classeurs (par ex: arbre de décisions,, réseaux de neurones)
• Difficultés: peu d!exemples (conditions), souvent < 100, beaucoup d!attributs (gènes), souvent > 1,000
• Problématique d’apprentissage et statistique [MLJ, 2003]:
! réduction de dimensions (sélection de genes) adapter les algorithmes
Réseaux de neurones
Machine à vecteurs de support (SVM)
Arbre de décision
Random Forest
Arbre de régression
K plus proche voisins
Environnement: R, Bioconductor, Clémentine©, SAS©, MeV, BRB, TIGR©
64lundi 24 mars 2008
Master 2007
65
Analyse pour la Classification et
Normale Précancereuse Cancereuse
A B C
Exp
ress
ion
Lev
el
A B C
Exp
ress
ion
Lev
el
A B C
Exp
ress
ion
Lev
el
• Problème: Construire des modèles pour la prédiction et classification à partir de données d’expression.
• Utilisation : Identification de gènes cibles (prédicteurs), Modèle prédictifs (d’un risque), Modèle de classification (traitement)
C
A
C > 0.9C< 0.9
65lundi 24 mars 2008
Master 2007
66
Construction automatique de classfieurs
Données d’apprentissage
(classées)
Algorithmede classification
Règles de classification
Apprentissaged’une règle de classification
Données non classées
Prediction
Une classe
66lundi 24 mars 2008
Master 2007
67
?
Nouvellepuce
Mauais prognosticrecurrence < 5ans
Bon Prognosticrecurrence > 5ans
ReferenceL van’t Veer et al (2002) Gene expression profiling predicts clinical outcome of breast cancer. Nature, Jan.
ObjetsBioPuces
Feature vectorsL’expression des gènes de la puce
Classesprédéfinies“Diagnostic
clinique”
Données d’apprentissage
Règles de classification
Bon prognostic
67lundi 24 mars 2008
Master 2007
68
B-ALL T-ALL AML
ReferenceGolub et al (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science 286(5439): 531-537.
Classesprédéfinies
“type de tumeurs”
?
Nouvellepuces
Données d’apprentissage
Règles de classification
T-ALL
68lundi 24 mars 2008
Master 2007
69
faible moyenne forteClassesprédéfinies
“Perte de poids après 30 jours”
?
Nouvellepucesà J3
Données d’apprentissage
Règles de classification
Perte moyenne
à J30
ObjetsBioPuces
Feature vectorsL’expression des gènes de la puce
à J3
DioGenes : Diet, obesity and genes
6th framework
Basé sur NUGENOB (5th framework)
69lundi 24 mars 2008
Master 2007
70
3) Les algorithmes: a) interpretables
Gene 1Mi1 < -0.67
Gene 2Mi2 > 0.18
0
2
1
yes
yes
no
no 0
1
2
Gene 1
Gene 2
-0.67
0.18
70lundi 24 mars 2008
Master 2007
71
3) Les algorithmes: b) “paresseux” k-PPV
71lundi 24 mars 2008
Master 2007
72
[DLDA] Diagonal linear discriminant analysis
[DQDA] Diagonal quadratic discriminant analysis
NB: Vote pondéré dans Golub et al. (1999) est une variante de DLDA dans le cas biclasses
3) Les algorithmes: d) approches statistiques
72lundi 24 mars 2008
Bases d’apprentissage de la littérature
73
!"#"$%# &'()(*"+,-%./
01'(23#$4
%*%$
56%78+%$
9":%*#$ ;+"$$%$
!"#$%"&'% ())* +,-. +/ 0
12"%34 (5* )/65 7/ 0
12"%34 (5* )/65 56 +
89:;6, (6.* -0)) 6. /
<=">?@%2@'>?&% (60* 5/6/ 76 0
12%'> (6+* --57 )0 -
9?A?> (6)* 0,,, 60 0
!B&CD?&% (6-* ),06 60 +
E2?34%4" (66* 6,++ .,0 0
F2G@4 (67* 0+,/ 6+ )
Nombre d’attributs = O( [NB exemples]2)
73lundi 24 mars 2008
Résultats d’apprentissage sur ces bases
[Díaz-Uriarte,2006]
74lundi 24 mars 2008
75
Problématique pour l’apprentissage
Peu d’exemple (50-100 biopuces)
Nombreux d’attributs (2,000-40,000 gènes)Une majorité d’attributs non pertinents
« Malédiction de la dimension »Performances des classeurs dégradées Modèles très complexesTemps de calcul importants
Interprétation biologique difficile
Réduction de dimension nécessaire ((ROC [Mamitzuka, 2006, Pattern Recognition], Incremental Wrapper [Ruiz et al. 2006], Revue [Guyon & Elisseeff, JMLR2003])3 types de méthodes dans le contexte des biopuces (Filter, Wrapper, Reformulation)
Probleme des estimateurs...
75lundi 24 mars 2008
Master 2007
76
Pl
an
I. A) Généralités B) petite intro à la bioinformatique
II. Une source de données: les BioPuces
III. La fouille de données BioPuces
• Clustering
• Classification/Prediction
• Feature Selection
IV. Conclusion...
76lundi 24 mars 2008
Master 2007
77
Génomique Fonctionnelle/transcriptomique
• Une hypothèse: l’approche «!pangénomique!» plutot que «!gène candidat!»
• Le défis biotechnologique: mesurer simultanément l’expression de
milliers de genes (ou tous les gènes) —> les puces à ADN
• Les défis biologiques et médicaux:
" • Découvrir les fonctions des gènes d’après l’expressions.
" • Elucider les voies métabolique à partir de l’expression des gènes.
" • … aider au diagnostique
• Les directions de recherche en bioinformatique du transcriptome:
" • Analyse de données différentielles. Tests multiples (FDR)
" • Représentation des données d’expression et normalisation.
" • Outils de visualisation.
• Fouille de données. Analyse de données exploratoires.
• Intégration de bases de données, de connaissances, d’ontologies, …
77lundi 24 mars 2008
Master 2007
78
78lundi 24 mars 2008
Master 2007
79
Conclusions: un long et lourd processus d’analyse
• Technologie dans une ère de maturité
• Variabilité expérimentale très forte mais force du parallélisme. Importance des réplications biologiques.
• Nécessité de stocker (standard) tous les résultats intermédiaires.
• Problématiques de recherche: statistique (multiplicité), réduction de dim. (sélection de gènes), prédiction (algorithmes adaptées), modélisation des réseaux de régulations, visualisation, BD, …
• Interprétation des listes de gènes requiert des connaissances.
• Prédiction requiert toujours plus de biopuces.
• Validations biologiques restent indispensables (ex: RT-PCR)
• Complémentaire de toutes les autres méthodes d!investigation
http://videolectures.net/mlsb07_evry/
79lundi 24 mars 2008