Bioinformatiquemodélisation et analyse des données
génomiques et post-génomiques
François Rechenmann
ARN
Transcriptome
ADN
Génome
enzymes
P
O
O
O P
O
O
O P
O
OO
ON
O
N
N
O
N
N
O
ATP
Métabolome
Protéome
Protéinesrégulation
Le codage del’information génomique
• macromolécule d’ADN ≈ enchaînement d’acides nucléiques– adénine : A– thymine : T– cytosine : C– guanine : G
• génome ≈ texte écrit dans l’alphabet de ces quatre lettres
Cellules procaryotes
ADN double brin
chaîne d’acides aminés
traduction
repliement
transcription
messager
Le code génétique
Premièreposition
Deuxième position
Troisièmeposition
UUU Phe (F) UCU Ser (S) UAU Tyr (Y) UGU Cys (C)UUC " UCC " UAC UGCUUA Leu (L) UCA " UAA Ter UGA TerUUG " UCG " UAG Ter UGG Trp
(W)
CUU Leu (L) CCU Pro (P) CAU His (H) CGU Arg (R)CUC " CCC " CAC " CGC "CUA " CCA " CAA Gln (Q) CGA "CUG " CCG " CAG " CGG "
AUU Ile (I) ACU Thr (T) AAU Asn (N) AGU Ser (S)AUC " ACC " AAC " AGC "AUA " ACA " AAA Lys (K) AGA Arg (R)AUG Met (M) ACG " AAG " AGG "
GUU Val (V) GCU Ala (A) GAU Asp (D) GGU Gly (G)GUC " GCC " GAC " GGC "GUA " GCA " GAA Glu (E) GGA "GUG " GCG " GAG " GGG "
U C A G
U
C
A
G
UCAG
UCAG
UCAG
UCAG
Cellules eucaryotes
ARN prémessager
ADN double brin
chaîne d’acides aminés
traduction
repliement
transcription
messager
exonexon exon
intronintron
maturation(excision - épissage)
200 400 600 800 1000 1200M/z0
100
%
F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+
(596.29) F G L (329.16) yMax201.11
187.12
175.09
819.38y2
312.12
330.13b 762.36
y1516.25401.24
932.44y3
825.42
1033.48
1259.57
GATCACCTCACTACGGGTCAGGGGAAGGAAAGGGGAACTGAGAGATTTGTCAGTGTGAGAAGCAGTCCCAGGAGTTAGAAGTAGTGGCTCCATGACTCACAAATTAACTTCCCTTTCAGGCAGGGCTTCTTATTTTCCTTAGCATCCCTGTCTTGATCCCAGCCTGCTCAGACCCCTGCCTCTCACTGCAAGATGTGCTT ARN
Transcriptome
ADN
Génome
enzymes
P
O
O
O P
O
O
O P
O
OO
ON
O
N
N
O
N
N
O
ATP
Métabolome
Protéome
Protéinesrégulation
De très nombreux domaines de recherche en informatique,
automatique et mathématiques appliquées sont concernés
algorithmique sur les séquences, sur les graphes…
statistique, analyse de donnéesapprentissage symbolique et
numériquevisualisation de donnéesmodélisation et simulation dynamiques calcul parallèlebases de données et de connaissances
Le projet HELIX« Informatique et génomique »
• Projet de l’unité de recherche INRIA Rhône-Alpes– à Grenoble (Montbonnot) et Lyon (campus de La
Doua, UMR CNRS UCB 5558)– 40 chercheurs, ingénieurs et doctorants
• Quatre exemples– GenoStar : plate-forme de génomique
exploratoire– Génomique comparative et synténie– Modélisation et simulation de réseaux
d’interactions– PepMap et la bioinformatique de la protéomique
Le consortium Genostar
Les objectifs du consortium
Concevoir et développerune plate–forme bioinformatique
de génomique exploratoire
La plate-forme Genostar
• Des modules interopérables
GenoExpertBacteria
• autour d’un noyau qui assure – la gestion et la persistance des données et des connaissances– l’enchaînement de l’exécution des méthodes d’analyse
La plate-forme Genostar
• Des données structurées dans un modèle à objets et relations
is-located-onchromosomesize
shape
genemnemo
type
is-located-onBasudnaA
is-located-onHepysecG
is-located-onBasusecD
is-located-onBobusecG
Proteinclass
Regulator“is-A”
inheritance
Regulates
association
regulatorregulated-prot roles
Km
associationslots
Compoundeffector
N-aryassociation
s
MWLengthSequence
classslots
La plate-forme Genostar
• Des données structurées dans un modèle à objets et relations
• Un ensemble de méthodes d’analyse et de visualisation
• Des tâches paramétrables enchaînant ces méthodes sur les données
CDS
ORF ORF
RBS
STOP START STOP STOP
Un exemple : la recherche de CDS bactériennes
Recherche de CDS
Recherche des ORF
Recherche des RBS
Enregistrement et visualisation des objets créés
Le consortium Genostar a bénéficié du soutien du Ministère de la Recherche
– Direction de la Recherche : programme
Génomique– Direction de la Technologie :
programme GenHomme
• Genostar est mis à disposition des laboratoires de recherche publics
• Le consortium est ouvert aux partenariats avec les sociétés privées
http://www.genostar.org
Comparative genomics
bioWbioD bioFbioBbioAS.aureus
Gene order conservation: NO
Gene cluster conservation: YES
B.subtilisbioBbioDbioFbioW bioA
Pimelate
Pimeloyl-CoA
8-Amino-7-Oxononanoate
7,8-Diaminonanoate
Dethiobiotin
Biotin
EC 6.2.1.14
EC 2.3.1.47
EC 2.6.1.62
EC 6.3.3.3
EC 2.8.1.6
BioWBioW
BioFBioF
BioABioA
BioBBioB
BioDBioD
A synton is a maximal set of pairs of homolog genes with conserved organization on two chromosomes (two species)
conserved organization = similar relative location on both chromosomes (permutation - insertion/deletion)
Unformal definition of a synton
A
B
A
B
A
B
B
A
B
A
B
A
A
B
a1 a2 a3 a4 a5 a6
b1 b2 b3 b4 b5 b6 b7 b8 b9
A
B
a1 a2 a3 a4 a5 a6
b9
b8
b7
b6
b5
b4
b3
b2
b1
A synthon is a maximal set of homolog gene pairs with conserved gene organizationon both chromosomes
A synton is defined by a double path in the plane
: gap parameter = 0
Aa1 a2 a3 a4 a5 a6
A
B
a1 a2 a3 a4 a5 a6
b1 b2 b3 b4 b5 b6 b7 b8 b9
B
b9
b8
b7
b6
b5
b4
b3
b2
b1
= maximal set of gene couples such that a path exits on A and B axes
A synton is defined by a double path in the plane
A synthon is a maximal set of homolog gene pairs with conserved gene organizationon both chromosomes
(a1,b2)
(a2,b1)
(a3,b8)
(a4,b9)
(a5,b3)
(a6,b4)
(a1,b2)
(a2,b1)
(a3,b8)
(a4,b9)
(a5,b3)
(a6,b4)
A
B
a1 a2 a3 a4 a5 a6
b1 b2 b3 b4 b5 b6 b7 b8 b9
(a1,b2)
(a2,b1)
(a3,b8)
(a4,b9)
(a5,b3)
(a6,b4)
Design of an O(n2)algorithm on graphs
n = number of pairs of homolog genes
A
B
a1 a2 a3 a4 a5 a6
b1 b2 b3 b4 b5 b6 b7 b8 b9
= 0
(a2,b1)
(a1,b2)
(a3,b8) (a4,b9)
(a5,b3)
(a6,b4)
= 2
(a2,b1)
(a1,b2)
(a3,b8) (a4,b9)
(a5,b3)
(a6,b4)
= 3
(a2,b1)
(a1,b2)
(a3,b8) (a4,b9)
(a5,b3)
(a6,b4)
Simulation of gene interaction networks
kinA
-
+
HKinA
+ phospho- relay
Spo0A˜P
+
Spo0A
H A
A H
spo0A
-
sinR sinI
SinI
SinR
SinR/SinI
-
spoIIA H
+
+
hpr (scoR)A
A AabrB
-
-
Hpr
AbrB
spo0E A
sigH(spo0H)
A
-
-
-
Spo0E
H
F
-
+
+
Signal
Regulatory network controling the initiation of sporulation in B.
subtilis
Cellular concentration of gene product i at time-point t represented
by variable xi(t)
Regulatory interactions modeled by differential equations
xi = fi(x) – i xi xi 0, 1 i n.
Piece-wise linear differential equations
xj
s+(xj , ij)
0
1
ij
where fi(x) is the synthesis term and – i xi the degradation
term
Synthesis term fi(x) : sum of products of step functions
s+/-(xj , ij) weighted by rate constants kij > 0
Within a volume, the model simplifies to linear differential equations
i is sum of products of rate constantsxi = i – i xi 1 i n.
max3
33
x3
x2
x1
max212
23
21 31 max10
Equations in shaded volume:
x1 = - 1 x1 x2 = - 2 x2
x3 = k33 - 3 x3
.
.
.
Phase space box and volumes
max3
33
x3
x1
max2
12
23
21 31 max10
x2
Equations in shaded volume vinit :
x1 = - 1 x1 x2 = - 2 x2
x3 = k33 - 3 x3
.
.
.
.
Example of simulation
max3
33
x3
x1
max2
12
23
21 31 max10
x2
.
Example of simulation
Equations in shaded volume :
x1 = - 1 x1
x2 = - 2 x2 x3 = k31 + k33 - 3 x3
.
.
.
max3
33
x3
x1
max2
12
23
21 31 max10
x2
Example of simulation
.
max3
33
x3
x1
max2
12
23
21 31 max10
x2
Example of simulation
.
max3
33
x3
x1
max2
12
23
21 31 max10
x2.
Example of simulation
max3
33
x3
x1
max2
12
23
21 31 max10
x2. x3 = k31 + k33 - 3 x3
Equations in shaded volume :x1 = - 1 x1
x2 = - 2 x2
.
.
.
Example of simulation
max3
33
x3
x1
max2
12
23
21 31 max10
x2.
Example of simulation
max3
33
x3
x1
max2
12
23
21 31 max10
x2
Equations in shaded volume :
x1 = - 1 x1
x2 = - 2 x2
x3 = k31 + k33 - 3 x3
.
.
..
Volume contains a steady state
Example of simulation
GNA : Gene Networks Analyser
Un dernier exemple en protéomique
• Collaboration– CEA– GENOME express– INRIA Rhône-Alpes
• Contexte de la plate-forme protéomique à haut-débit de Rhône-Alpes Genopole
« cocktail » de protéines
étiquettes peptidiques
fragments
200 400 600 800 1000 1200M/z0
100
%
F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+
(596.29) F G L (329.16) yMax201.11
187.12
175.09
819.38y2
312.12
330.13b 762.36
y1516.25401.24
932.44y3
825.42
1033.48
1259.57
spectrométrie de masse
analyse des spectres
digestion
trypsique G L I FmN m
C
masses des séquences adjacentes
courte séquence
peptidique
analyse des spectres
« cocktail » de protéines
étiquettes peptidiques
fragments
200 400 600 800 1000 1200M/z0
100
%
F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+
(596.29) F G L (329.16) yMax201.11
187.12
175.09
819.38y2
312.12
330.13b 762.36
y1516.25401.24
932.44y3
825.42
1033.48
1259.57
spectrométrie de masse
« mapping » sur les chromosomes
recherches en bioinformatique
digestion
trypsique
. . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .
. . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . .
L R T G Q G G L I F T E R F . . .
G L I FmN mC
. . . D H
GAT acide aspartique = Asp = D
code génétiaue
CAC histidine = His = H
G L I FmN mC
. . . D H
. . . GATCACCTCACTACGGGTCAGGGGGGCCTAAGGATAACTGAGAGATTTGTCAGTGTGAGAAGC . . .
. . . GAT CAC CTC ACT ACG GGT CAG GGG GGC CTA AGG ATA ACT GAG AGA TTT . . .
L R T G Q G G L I F T E R F . . .
200 400 600 800 1000 1200M/z0
100
%
F60-64 env13 ZT50es4075 MaxEnt 3 8 [Ev-36586,It50,En1] (0.050,200.00,0.200,1400.00,2,Cmp)1: TOF MSMS 631.30ES+
(596.29) F G L (329.16) yMax201.11
187.12
175.09
819.38y2
312.12
330.13b 762.36
y1516.25401.24
932.44y3
825.42
1033.48
1259.57
1) « mapping » des étiquettes
pb. algorithmique
2) « clustering »
pb. statistique
?
gène ?