Génération aléatoire de structures secondaires d’ARN
Alain Denise (LRI)Yann Ponty (LRI)Olivier Roques (LaBRI)Michel Termier (IGM)
Des différences observées entre séquences biologiques et séquences aléatoires, on peut déduire des faits biologiques.
Exemple : si un motif apparaît avec des fréquences très différentes dans une séquence réelle et dans une séquence aléatoire, alors il a probablement une fonctionnalité biologique.
Paradigme : comparaison biologie/aléatoire
>MET1 MET1 upstream sequence, from -702 to -1, size 702TTTTGACCCA……TCTCTTTCTAGAAATGCCATTATGCACGTGACATTACAAATTGTGGTGAAAAAAGG……TTCAAAAGA>MET2 MET2 upstream sequence, from -800 to -1, size 800GGGCACGATT……GACTACTAATAATCACGTGATAT……CCCCACATTGACGTATTTTCACGTGATGCGC……AGCGCCACA>MET3 MET3 upstream sequence, from -800 to -1, size 800AAGAGTACAA……AAAAAAGGTCACGTGACCAGAAAAGTCACGTGTAATTTTGTAACTCACCGCATTCT……ATAATTAAC>MET6 MET6 upstream sequence, from -222 to -1, size 222GGGAAGCTAGCTAGTTTTCCCAACTGCGAAAGAAAAAAAGGAAAGAAAAAAAAATTCTATATAAGTGA……TTCAATATT>MET14 MET14 upstream sequence, from -800 to -1, size 800TATTTTTTTA……AGACCGTGCCACTAATTTCACGTGATCAATATATTTACAAGCCACCTCAAAAAATG……AATTATTTC>ZWF1 MET19 upstream sequence, from -558 to -1, size 558GTAAGGTGTAGTTTTGCACCCGTGTACATAAGCGTGAAATCACCACAAACTGTGTGTATCAAGTACAT……TAAATAATA>MET17 MET25 upstream sequence, from -800 to -1, size 800TATACTAGAA……GCAAATGGCACGTGAAGCTGTCGATATTGGGGAACTGTGGTGGTTGGCAAATGACT……ATCCATACA>MET30 MET30 upstream sequence, from -800 to -1, size 800CCATTGCTGC……GTGTGTGGTACAATGTGTGTGTTTTAATGTAGAAATGAGGTTGTAGCACGTGATCG……GAGAAGGGC>MUP3 MUP3 upstream sequence, from -61 to -1, size 61TCTGTTTGTAGTCTAAGTTGCTGAGGGCAACGTAGACGTACAGTGCTCAAAATAAGTAAAA>SAM1 SAM1 upstream sequence, from -548 to -1, size 548AATATATATTTCTATTACTAAGTACTCGGATGGGTACCGAAAGTGGCAGATGGGCAGTGTTTACTCAA……CCTACTAGT
Extraction de promoteurs
Régions en amont de 10 gènes de S. cerevisiae. [J. van Helden]
La probabilité d’une telle représentation de CACGTG dans des séquences aléatoires serait environ égale à 10-9
HBA_HUMAN GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL G+ +VK+HGKKV A+++++AH+D++ +++++LS+LH KL 130HBB_HUMAN GNPKVKAHGKKVLGAFSDGLAHLDNLKGTFATLSELHCDKL
HBA_HUMAN GSAQVKGHGKKVADALTNAVAHV---D--DMPNALSALSDLHAHKL ++ ++++H+ KV + +A ++ +L+ L+++H+ K 10LGB2_LUPLU NNPELQAHAGKVFKLVYEAAIQLQVTGVVVTDATLKNLGSVHVSKG
HBA_HUMAN --GSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKL V+G + + D +++ + M + H -461tlk ILDMDVVEGSAARF-DCKVEGYPDPEVMWFKDDNPVKESRHFQ
BLOSUM50, pénalités de gap –14/-4
Seuils pour la comparaison de séquences
Score
Vers des modèles statistico-syntaxiques
Enrichir les modèles par plusieurs types de propriétés des séquences biologiques considérées, pour affiner les résultats de la comparaison biologique/aléatoire.
Ajouter aux paramètre statistiques classiquesdes paramètres structurels (syntaxiques).
Deux types d’approches : • Approches analytiques• Approche expérimentale
5’
3’
ARN 16SE. coli
Contraintes structurelles : ARN
Problème : comment engendrer des structures secondaires d’ARN ayant des propriétés statistiques données ? (nombre de tiges, longueur des tiges, nombre de boucles internes…)
Objectifs : déterminer des paramètres biologiques pour la mesure de distance (matrices de substitution), étalonner et comparer les algorithmes, définir des seuils d’homologie.
Modèles combinatoires d’ARN et génération aléatoire.
Conception de matrices d’homologie d’après l’étude statistique des mutations dans les ARN.
Comparaison d’ARN[LaBRI, LRI, IGM]
NNX XXY YYZ
AUG
H SP
Heptamère glissant Structure stimulatrice
5’
3’
Espaceur
E
Modèle de site de décalage [IGM, LRI]
- ( ( ( ( ( - - - ) ) ) ( - - ( ( - - - - ) ) - - ) - - ) )
c a a a a a c c c b b b a c c a a c c c c b b c c b c c b b
Un langage pour les structures secondaires
S a S b S | c S |
Une grammaire pour les structures secondaires d’ARN
S a S b S | c S |
S cS caSbS caaSbSbS caaaSbSbSbS
caaaaSbSbSbSbS caaaaSbSbSbSbS
caaaaaSbSbSbSbSbS caaaaacSbSbSbSbSbS
…
caaaaacccbbbaccaaccccbbccbccbb =
S cS caSbS cabS cabcS cabc
aabb accb acbc abab abcc cacb cabc ccab cccc
Génération aléatoire uniforme
S
aSbS cS
Longueur = 45/9 4/9
acSbS abS caSbS ccSaaSbSbS
accSbS acbS abaSbS abcS cacSbS cabS ccaSbS cccS
1/52/5
2/5 1/2 1/2
1/2 1/2 1/2 1/2 1/2 1/2 1/2 1/2
? ?
S a S b S | c S |
Génération aléatoire non uniforme contrôlée
aabb accb acbc abab abcc cacb cabc ccab cccc
S
aSbS cS
acSbS abS caSbS ccSaaSbSbS
accSbS acbS abaSbS abcS cacSbS cabS ccaSbS cccS
14/42 28/42
1/148/14
5/14 8/28 20/28
4/8 4/8 1/5 4/5 4/8 4/8 4/20 16/20
S a S b S | c S | + de nucléotides non appariés : Poids (a) = (b)=1 (c) = 2
1 4 4 1 4 4 4 4 16
Longueur = 4
[AD, O.Roques, M.Termier 2000]
La pondération étant donnée, quelle est la fréquence moyenne i de la lettre xi ?Soit
Alors où et
Les fréquences des lettres étant données, quelle doit être la pondération ?
• Cas rationnel fortement connexe : résoudre un système d’équations algébriques.• Cas algébrique : à traiter…
kxxxw
k
wwwk xxxtwxxxtf ...)(),...,,,( 21
2121
)(][)(][
)( ,
tttt
nx
n
ii
)1,...,1,1,()...,,,,()( 21, t
xxxxtft
i
kxi
)1,...,1,1,()...,,,,()( 21 tt
xxxtftt k
Calculs de fréquences et de pondérations
GenRGenS
www.lri.fr/~denise/GenRGenS/
Generation of Random Genomic Sequences
GenRGenSGeneration of Random Genomic Sequences
Modèles Séquences
www.lri.fr/~denise/GenRGenS/
www.lri.fr/~denise/GenRGenS/
Modèles
Séquences
GenRGenSGeneration of Random Genomic Sequences
- Markov homogène
- Markov hétérogène
- Context-Free Grammars
1.0
- Master generation1.1
1.2
- Expressions régulières(Motifs ProSite)
- Profils Généralisés
- Modélisation desPseudo-Nœuds ???
www.lri.fr/~denise/GenRGenS/
ARN 3’ Ladder 5’
3’ t3 3’ | 5’ t5 5’ |
3’ 5’
Ladder ARN
Une grammaire pour la structure secondaire d’ARN( Inspirée de Waterman 78 )
ARN 3’ Ladder 5’
Une grammaire pour la structure secondaire d’ARN
Ladder a After_Ladder b
After_Ladder a After_Ladder b
www.lri.fr/~denise/GenRGenS/
After_Ladder After_Ladder
Ladder
ARN 3’ Ladder 5’
Une grammaire pour la structure secondaire d’ARN
www.lri.fr/~denise/GenRGenS/
Ladder a After_Ladder b
After_Ladder a After_Ladder b
| c Bulge Ladder Bulge c Bulge |
Bulge Ladder
After_Ladder
ARN 3’ Ladder 5’
Une grammaire pour la structure secondaire d’ARN
www.lri.fr/~denise/GenRGenS/
Ladder a After_Ladder b
After_Ladder a After_Ladder b| c Bulge Ladder
| d Internal_Loop Ladder Internal_Loop d
Internal_Loop d Internal_Loop | Ladder
Internal_Loop
After_Ladder
| Ladder c Bulge
ARN 3’ Ladder 5’
Une grammaire pour la structure secondaire d’ARN
www.lri.fr/~denise/GenRGenS/
Ladder a After_Ladder b
After_Ladder a After_Ladder b| c Bulge Ladder| d Internal_Loop Ladder Internal_Loop d
| e Loop Loop e Loop |
After_Ladder
Loop
| Ladder c Bulge
ARN 3’ Ladder 5’
Une grammaire pour la structure secondaire d’ARN
Ladder a After_Ladder b
After_Ladder a After_Ladder b| c Bulge Ladder| d Internal_Loop Ladder Internal_Loop d| e Loop
| f Multi_Loop Ladder f Multi_Loop Ladder Next_MLoopMulti_Loop f Multi_Loop |
Next_MLoop Multi_Loop | f Multi_Loop Ladder Next_MLoop
Multi_Loop
Ladder
Ladder Next_Mloop
After_Ladder
| Ladder c Bulge
www.lri.fr/~denise/GenRGenS/
Génération équiprobable de structures secondaires
a a c c a a a a c c a d d d a a d a f a a f a a d a a e e b b d b b f f a d d a e b d b f f f a e b f b c b f f a d d a d a e e e e b d b d d b f f a a e e b b b d b b d d b b b b b b c c c c c c b c
a a c a f f f f f a e b f a a a a f a f a e e b f f f f a a f f a c c c a c c a d a a e e b b d b b b f a e b f f a d a e b d b f f f b b f b f a e b f b b b b f f f a e e e e b f f b b c b c c c c c
c a a f a e e b f a c a a f f f a c c c a a a a e b b b c c b b f a c a c a e e b b b b c c c b b f f f f f a f f a f a a e b b f f f a d d a e b d b b f a a a a a e b b b c c c c c b c b b f f b b c
c c a a f a a c a e b b c b f a c a f a e e b f f a a f a a e b c b f a d a c a f a d a f a e b f a a e b b b d b f a f a e b f a a a e b b b f b b b d b f f a a d a e b d d b c b b b f f f b b b c b
c a a f f a f a e b f a e b f a f a f a f a c c a a d a c a a e b b b d b b b f f a e b b f a a e e e b b b f f a f a f f a a e b b f f f f f f f a e e e b b f a e e e b f b b f f b f a a e b b f b b
a a a f a a d d d d d d d a a a f a d d a a a a c c a c a f a d d d d d d a d a a e b b d d b d d b f f a e b b b b b b c c c c b d b f f a e e e e e b f f f b b b d d d d d b b f a a e e b c b b b b
a d a f a a c a a e e e e e b c b b c c b f f a d a d a f a f f a f f f f f f f f a a c c a a a e b b c c b b b f f a c c c a e e e e e b b f f b f a e e e e b f f f b f a e e e b f b d b d d b b d b
c a f a e b f f f a a d d d a c c a f a a c c a c c a a e e b c c b b b c c c b f a e b f f f a a e e b b f a e b f f f a a c c a e b b b b b d b b f a a a d d d d d d a f a e e b f a e b b d b b b b
c c c c c c a a a c a a a a c a f a f f a e b f a c a d d d d a f f f a c a a e b c c b b f a e b b d d d d b b f a c c a a a a e b b c b b b f f b f f a a e b c b f a e e e b b b b c c c b b b b c b
a f a c a c c a e b b b f f a f f a a d a e b d d b c c c b f f a a f f a a e b b f f a e e e b b b f f b f a a a d d d d d a a a c c a f a e e b f a a c a e e b b b b b b c c c c c b d d b b b f b c
a f a e b f a a f a c a e e e b b f f f a e b f a e b f f b c c b f a a a f f f a e b f a c a f a a d d d a e b d d b c b f a a c c c a a a a c a e e b b b b b b c b f f f a e b b b f f b b c c b b c
a f f a f a a a e e b b b f a a f f f a f f a e e b f f a c a f f a a c a e e b b c c c c c b f a e e b b b f f b f a e b f a a e b b f b c c c c c c b b f f f a c c a d a c a e e b b d b b b c c c c
a f f f a a e b c b f f f a e e e b f f f a f a f a e b f f a e e b f a f a a c c a e b b b f a c c a a c c a e b b c b b b f f a c a a a e b c b b b b f a d a a a c a e e b b c c b b d d b b f f b c
+ RNAViz
GenRGenS
www.lri.fr/~denise/GenRGenS/
Génération équiprobable de structures secondaires
www.lri.fr/~denise/GenRGenS/
Génération équiprobable de structures secondaires- Structures trop complexes
- Trop de bases non appariées
- Trop de Bulges
- Bulges trop gros
- Boucles pas assez grosses
Pondération des terminaux
On contraint ainsi les fréquences des terminaux.
On ne peut pas contraindre les fréquences des Bulges, Loop, … !!!
ARN 3’ Ladder 5’
Introduction de marqueurs dans la grammaire
Ladder ma After_Ladder mb
After_Ladder a After_Ladder b| mc Bulge Ladder| md Internal_Loop Ladder Internal_Loop md
| me Loop| mf Multi_Loop Ladder mf Multi_Loop Ladder Next_MLoop
Next_MLoop Multi_Loop | mf Multi_Loop Ladder Next_MLoop
| Ladder mc Bulge
3’ t3 3’ |
5’ t5 5’ |
Bulge c Bulge |
Loop e Loop |
Internal_Loop d Internal_Loop |
Multi_Loop f Multi_Loop |
www.lri.fr/~denise/GenRGenS/
ma
mb
mc
me
md
mf
a
b
c
d
e
f
0.5
0.5
0.5
0.5
0.2
0.5
1.2
1.2
0.5
0.5
1.2
0.5
Pondérations
ma
mb
mc
me
md
mf
a
b
c
d
e
f
0.5
0.5
0.5
0.5
0.2
0.5
1.3
1.3
0.7
0.7
1.2
0.5
Pondérations
Perspectives
• A partir de structures secondaires réelles :
Calculer les fréquences d’apparition des Bulges, Loop …
• Calculer une pondération telles que ces fréquences soient atteintes asymptotiquement.
Recherche d’une pondération adéquate :
Intégration de contraintes thermodynamiques simples :• Grammaire Markovienne pénalisant l’instabilité.