l’informatique, un outil pour décrypter le vivant
DESCRIPTION
L’informatique, un outil pour décrypter le vivant. 8 novembre 2005 François Rechenmann INRIA Rhône-Alpes www.inrialpes.fr/helix. La course aux génomes. 1995 : obtention de la première séquence complète du génome d’un organisme vivant. novembre 2005 : 220 génomes bactériens complets - PowerPoint PPT PresentationTRANSCRIPT
L’informatique,un outil pour décrypter le vivant
8 novembre 2005
François Rechenmann
INRIA Rhône-Alpes
www.inrialpes.fr/helix
• novembre 2005 : –220 génomes bactériens complets–24 génomes eucaryotes, dont l’homme, la souris,
le chimpanzé…
La course aux génomes
• 1995 : obtention de la première séquence complète du génome d’un organisme vivant
Qu’est-ce qu’un génome ?
• Stricto sensu, l’ensemble des gènes d’un organisme
• Par extension, le support physique de ces gènes : la macromolécule d’ADN, enchaînement d’acides nucléiques de 4 types différents, notés par les initiales des motifs chimiques qui les distinguent : A, T, C et G
Séquenceurs automatiques au Centre National de Séquençage, à Evry, dirigé par Jean Weissenbach
1 gaggtgaggg acggcttaca gaacactgag acggtcttaa aataggatat tctgaataac 61 cttgagtcgt gtgaccttga ggatgatgac cttatgttgg atgtggattt gccggaggac 121 gcacctcttg aaaatgtgga gtgtgacaat atgaaccgct ttgaccgaac agacagaaat 181 gtacgacagt cgcaggacgg attttggaaa aggccacccc agaggtggag tggacaggac 241 cattaccacc tcagccaccc tggtcactat catcaccatg gacaaagtga cttgagcaga 301 ggctctcctt atagagaatc tcctttgggt cattttgaaa gctatggagg gacccccttt 361 ttccaggctc agaagatgtt tgtagatgtg cccgacaaca cagtgatcct ggatgagatg 421 accctccggc acatggtcca ggattgcaca gctgtgaaaa cgcagttact gaaactcaag 481 cgtctgttac accagcatga cggaagtgga tcattgcatg atgttcagct ctcattgcca 541 tccagtccag agccagaaga cggtgatcag atatataaga atgaagattt actaaatgaa 601 ataacacaac ttaaagagga aataaagaaa aaagatgaaa aaatccaact attagagcag 661 cagcttgcaa ctcgatgtaa ctgtcagcag aaatctaaag aggaaaagtg tacatatgct 721 gataaatata cccagacacc ctggagacgg attcctcctc aagtactaca gccttccagc 781 agccttccca gatctacaga ccacgcccag ggaaaactaa taaagccaca acgtaccgag 841 gcccacagtg actacacagt tcaaggcgtg tgtccgggtg gtgcgcatcc agatggaagc 901 tgtacacatg gcttgcaaca ggacaacagc cgtggtttgc aagagcgtcc ttcttcgtca 961 agcccgcagt tgacagtgga tgtggtgaag tacatacctt ctgaaacgga cctgagcatg 1021 actctggatg ctcaagagcc tcatcatttg gcagagaaaa aacctagtga cttgcagttt 1081 gtaactcctc ctcctcagac cccttcccag tcaagtacag tggaccagac taagaggggt 1141 ggaagaaacc aatgtcctca gcccaagtcc ttgcagcttt taaagccatc caacttgagt 1201 tctttgacac ctcctccaga ttctgactcc tcaccaagta gaacttccac atgtaagaag 1261 gcaccaggaa tcacaccatg ccattcaaaa catcagccaa catcgaatca aaacaatcct 1321 gcaaatcatt tgaatctgaa aacgtctaaa ctccgtcccc cttctggctc tttcaagcaa 1381 aaacaaataa gtaaccccca agtagagcct cagaacttcc aggccaagac aagcatccca 1441 aggccattag cacggccaaa agagctgcat gctccacaca gcggtttgca ttctggggat 1501 tgtgtggcct ctaatcgata ttctcgtctt cctaaaccaa agatacatta agtgcatagc 1561 catcacctgc caatttgttt tttgaaaaca gtctgctctc taatagcttt atgtgcagct 1621 tattactatg ttggaggttc catttcagca aatcttaaaa ttaaaatgca gaagcttcta 1681 ttagtttggt tcttccattt tgtatcctgg ctgaattaca taccatttgc acatacttgt 1741 ctcaggtaaa cacaagttta cttatccatc tcagaggccc aagtccctcc tcatgctatc
Où sont les gènes ?
• Région de la molécule d’ADN qui porte l’information nécessaire à la synthèse d’une ou plusieurs protéines
• Délimitée par – un triplet Start : ATG– et un triplet Stop : TAA, TAG ou TGA
méthionineleucine
glycine
tryptophane
cystéine sérine
glycine
valine
proline
arginine
A AAAAAA AAAC C CC CCC CC GGGGGGGGG GT TT TTTT TT T
sérine
L G W C M S G V S P R
A AAAAAA AAAC C CC CCC CC GGGGGGGGG GU UU UUUU UU U
transcription
traduction
Malheureusement…
• On trouve des triplets Stop en dehors des gènes
• On trouve des triplets Start au sein des gènes : ils codent alors pour un acide aminé, la méthionine
Une première stratégie de recherche de gènes
ORF (Open Reading Frame)
RBS (Ribosome Binding Site)
région codante préditetriplet Stop
triplet Start
triplet Stop
Le cas des organismes eucaryotes
• Grandes régions intergéniques
• Gènes morcelés en exons (codants) et introns (non codants)
Start Stop
exon intron
Combinerplusieurs méthodes
• Recherche de motifs– fixes– variables
• Modèles de Markov
• Recherche de séquences codantes similaires
Quelles sont les fonctions(des produits) de ces gènes ?
• Recherche de séquences similaires dans les bases de séquences– génomiques : GenBank, EMBL, DDBJ– protéiques : Swiss-Prot
propagation des erreurs problèmes des « nouveaux » gènes
Quand les gènessont-ils exprimés ?
• Les « puces à ADN » permettent de détecter la présence des ARN et donc de révéler l’expression du gène correspondant
Comment leur expressionest-elle régulée ?
kinA
-
+
HKinA
+ phospho- relay
Spo0A˜P
+
Spo0A
H A
A H
spo0A
-
sinR sinI
SinI
SinRSinR/SinI
-
spoIIA H
+
+
hpr (scoR)A
A AabrB
-
-
Hpr
AbrB
spo0E A
sigH(spo0H)
A
-
-
-
Spo0E
H
F
-
+
+Signal
Vers des cellules virtuelles ?
• Modélisation et simulation des réseaux– d’interactions
géniques– métaboliques
Vers des cellules virtuelles ?
http://www.inrialpes.fr/helix
http://interstices.info/
Pour en savoir plus…