page 1 tp alignements de séquences par paires. page 2 objectifs poursuivis les alignements...
TRANSCRIPT
![Page 1: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/1.jpg)
Page 1
TPAlignements de séquences par
paires
![Page 2: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/2.jpg)
Page 2
Objectifs poursuivis• Les alignements permettent de comparer des séquences
biologiques. Cette comparaison est nécessaire dans différents types d’études :– Identification de gènes homologues
– Recherche de contraintes fonctionnelles communes à un ensemble de gènes ou de protéines.
– Prédiction de fonction, Prédiction de structure (ARN, protéine) (
– ...
![Page 3: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/3.jpg)
Page 3
Applications des alignements
Approches qui utilisent des alignements
• Alignments multiples
• Profiles et HMM(pour rechercher les familles de protéineset les domaines)
• Prédiction structure/fonction
• Structures 3D
• Analyses Phylogénétiques
• Construction de matrices de substitutions
• Recherche par similarité (BLAST par exemple)
![Page 4: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/4.jpg)
Page 4
Quelques définitionsIdentité
Proportion de paires de résidus identiques entre 2 séquences.
Généralement exprimée sous forme de pourcentage.
Cette valeur dépend énormément de l'algorithme d'alignement.
Similarité Proportion de paires de résidus similaires entre 2 séquences.
Une matrice de substitution permet de décrire qui est similaire à qui.
Cette valeur dépend énormément de l'algorithme d'alignement et de la matrice de similarité utilisée.
Homologie Deux séquences sont homologues seulement si elles ont un ancêtre commun.
IL N'Y A PAS DE POURCENTAGE D'HOMOLOGIE : les séquences sont homologues ou elles ne le sont pas.
• Des séquences homologues ont souvent mais pas toujours la même fonction...
• ... Elles ne sont pas forcément non plus très similaires : la structure est conservées plus que la séquence.
![Page 5: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/5.jpg)
Page 55
L’alignement de séquences3 situations sont possibles pour une position donnée d’un alignement:
– les caractères sont les mêmes: Identité– les caractères ne sont pas les mêmes: Substitution– l’une des positions est un espace :Insertion / Délétion(gaps)
Seq A GARTVARH--TSTH
Seq B GARHLDTHTTP--HIdentité
SubstitutionInsertion
Délétion
![Page 6: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/6.jpg)
Page 6
Similarité globale, locale
Les alignements globaux sont plus souvent utilisés quand les séquences mises en jeu sont similaires et de taille égale..Les alignements locaux sont plus souvent utilisés quand deux séquences dissemblables sont soupçonnées de posséder des motifs semblables malgré l'environnement. Des méthodes hybrides, des méthodes semi-locales, s'avèrent parfois utiles
ARNm
gène
domaine
protéine A
protéine B
protéine A
protéine B
similarité globale
similarité locale
![Page 7: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/7.jpg)
Page 7
Quel est le bon alignement ?G T T A C G A G T T A C G A
G T T - G G A G T T G - G A
* * * * * * * * * *
OU
G T T A C - G A
G T T - - G G A
* * * * *
Pour le biologiste, généralement, le bon alignement est celui qui représente le scénario évolutif le plus probable
![Page 8: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/8.jpg)
Page 8
Fonction de score de similarité
G T T A A G G C G – G G A A A
G T T – – – G C G A G G A C A
* * * * * * * * * *
Score =
Exemple: identité = 1 mismatch = 0 gap = -1
Score = 10 - 4 = 6
fin
début
fin
début
gappénalitéonsubstitutinpondératio __
![Page 9: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/9.jpg)
Page 9
Alignements
Nombre d'alignements• Il existe de nombreuses façons d'aligner deux séquences• Exemple de deux alignements alternatifs
Ou bien :
CGATGCAGACGTCA ||||||||CGATGCAAGACGTCA
CGATGCAGACGTCA||||||||CGATGCAAGACGTCA
Le nombre possibles d'alignements de 2 sequences de longueur 1000 :
plus de 10600 alignements avec indels
(Avogadro 1024, nombre d'atomes dans l'univers : 1080)
![Page 10: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/10.jpg)
Page 10
Qu'est ce qu'un bon alignement ?• Il faut pouvoir évaluer la signification biologique d'un alignement
• Intuitivement nous savons que cet alignement:
Est meilleur que celui ci :
CGAGGCACAACGTCA||| ||| ||||||CGATGCAAGACGTCA
ATTGGACAGCAATCAGG| || | |ACGATGCAAGACGTCAG
• Nous pouvons formaliser cela en utilisant un système de score.
![Page 11: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/11.jpg)
Page 11
Le calcul du score brut
TPEA¦| |APGA
Score d'alignment.Les matrices de substitutions des acides aminés.
• Exemple : PAM250• Généralement utilisée : Blosum62
1
• Un alignement moyen sur une grande longueur peut donner un meilleur score qu'un alignement très bon sur une courte longueur, et INVERSEMENT !
• Pour comparer différents alignements il faut • avoir utiliser le même système de score et • utiliser une fonction de score normalisée (p-value, e-value).
+ 6 + 0 + 2 = 9
![Page 12: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/12.jpg)
Page 12
Gaps : indelsInsertions or délétions
• Les protéines (et encore plus des molécules comme les ARNr) contiennent souvent des régions dans lesquelles des résidus ont été ajoutés ou perdus.
• Ceci peut correspondre à :• Des domaines peu fonctionnels.• Des mutations à effet phénotypique.
Exemple
GCATGCATGCAACTGCAT|||||||||GCATGCATGGGCAACTGCAT
L'alignement est grandement amélioré par insertion d'un indel.
GCATGCATG--CAACTGCAT||||||||| |||||||||GCATGCATGGGCAACTGCAT
![Page 13: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/13.jpg)
Page 13
13
Fonction Constante pour pénaliser les gaps
Fonction affine pour pénaliser les gaps
• attribuer des coûts différents(Gap open et Gap extended) pour ouvrir un gap et pour étendre un gap existant
NextGextNoGopengapsP )(
GARFIELDTHE----CATGARFIELGHPELASTCAT
GAPOuverture de gap Extension gap
Modèles de Gap
NbrKgapsP )( K: coût de l’insertion d’un gaps
Nbr: le nombre de gaps
![Page 14: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/14.jpg)
Page 14
Exemples de calcul de score.Exemple
• Bonus pour un match : 1 • Malus pour un mismatch : 0• Malus d'ouverture d'indel : 10 • Malus d'extension d'indel : 1
CGATGCAGCAGCAGCATCG|||||| |||||||CGATGC------AGCATCG
CGATGCAGCAGCAGCATCG|| || |||| || || |CG-TG-AGCA-CA--AT-G
ouverture
13 x 1 - 10 - 6 x 1 = -3
extension
13 x 1 - 5 x 10 - 6 x 1 = -43
![Page 15: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/15.jpg)
Page 15
Obtenir un alignement
Algorithmes d'alignement• Un tel programme calcule l'alignement qui produit le meilleur score après avoir choisi un
système de score.• (Comme par exemple on cherche le meilleur chemin dans la matrice précdente).
Les modes d'alignement• Global : On aligne complètement une séquence 1 avec une séquence 2• Local : On cherche des alignements optimaux entre des sous séquences de 1 et des sous
séquences de 2
Implémentation (Algorithmes)• Programmation dynamique• Global Needleman-Wunsch• Local Smith-Waterman• + phylogenie : Clustall
![Page 16: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/16.jpg)
Page 16
Les algorithmes exactsSimple example (Needleman-Wunsch)
• Système de socre Match : 2 Mismatch : -1 Gap penalty: -2
Note• Il faut conserver la trace des scores pour chaque élément de la matrice.• L'alignement est trouvé quand la matrice complète a été calculée. • Le temps de calcul est proportionnel au produit des longeurs des séquencs.
G A T T A
0 -2 -4 -6 -8 -10
G -2
A -4
A -6
T -8
T -10
C -12
G A T T A
0 -2 -4 -6 -8 -10
G -2 2 0 -2 -4 -6
A -4 0 4
A -6
T -8
T -10
C -12
0 - 2
0 - 2
2 + 2
G A T T A
0 -2 -4 -6 -8 -10
G -2 2 0 -2 -4 -6
A -4 0 4 2 0 -2
A -6 -2 2 3 1 2
T -8 -4 0 4 5 3
T -10 -6 -2 2 6 4
C -12 -8 -4 0 4 5
F(i-1,j) F(i,j)
s(xi,yj)
F(i-1,j-1)
-d
F(i,j-1)
-d
F(i,j): score à la position i, js(xi,yj): match ou mismatch (matrice de substitution ) pour les residus xi et yj
d: malus pour gap (valeur positive)
GA-TTA|| ||GAATTC
![Page 17: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/17.jpg)
Page 17
17
Exemple:Alignement de protéines avec de longues insertion/délétion.>Proteine1
MSNILTKIIAWKVEEIAERLLHVSQAELVARCADLPTPRGFAGALQATIAHGDPAVIAEIKKASPSKGVLREDFRPAEIAISYELGGASCLSVLTDVHFFKGHDDYLSQARDACTLPVLRKDFTIDPYQVYEARVLGADCILLIVAALDDAQLVDLSGLALQLGMDVLVEVHDIDELERAIQISAPLIGINNRNLSTFNVSLETTLTMKGLVPRDRLLVSESGILTSADVQRLRAAGVNAFLVGEAFMRATEPGESLREFFIT>Proteine2MALAYGSECMNISPYRTRIKFCGMTRVGDVRLASELGVDAVGLIFASGSSRLLTVSAACAIRRTVAPMVNVVALFQNNSADEIHTVVRTVRPTLLQFHGEEEDAFCRTFNVPYLKAIPMAGAEAKRICTRTLYLKYPNAAGFIFDSHLKGGTGQTFDWSRLPIDLQHPFLLAGGITPENVFDAIAATVPWGVDVSSGIELQPGIKDGDKMRQFVEEVRRADGRRLFGVA>Proteine3MQTVLAKIVADKAIWVEARKQQQPLASFQNEVQPSTRHFYDALQGARTAFILECKKASPSKGVIRDDFDPARIAAIYKHYASAISVLTDEKYFRGSFNFLPIVSQIAPQPILCKDFIIDPYQIYLARYYQADACLLMLSVLDDDQYRQLAAVAHSLEMGVLTEVSNEEEQERAIALGAKVVGINNRDLRDLSIDLNRTRELAPKLGHNVTVISESGINTYAQVRELSHFANGFLIGSALMAHDDLHAAVRRVLLGENKVCGLTRGQDAKAAYDAGAIYGGLIFVATSPRCVNVEQAQEVMAAAPLQYVGVFRNHDIADSVDKAKVLSLVAVQLHGNEEQLYIDTLREALPAHVAIWKALSVGETLPAREFQHVDKYVLDNGQGGSGQRFDWSLLNGQTLGNVLLAGGLGADNCVEAAQTGCAGLDFNSAVESQPGIKDARLLASVFQTLRAY
![Page 18: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/18.jpg)
Page 18
18
Exemple:Alignement de protéines avec de longues insertion/délétion.
1. Proteine1 : une protéine de Xylella fastidiosa• Elle a une seule fonction enzymatique: indole-3-glycerol
phosphate synthase (IGPS). • Cette fonction a pour numéro EC : 4.1.1.48. 2. Proteine2 : Une protéine de Xylella fastidiosa • Elle a une seule fonction enzymatique: N-(5'-phosphoribosyl)
anthranilate isomérase, de la famille des trpF. • Cette fonction porte le numéro EC : 5.3.1.24. 3. Proteine3 : Une protéine de Escherichia coli• Elle a deux fonctions enzymatiques. Ces deux fonctions sont
celles portées individuellement par les deux protéines de Xylella fastidiosa.
• La partie N-terminal porte la fonction EC 4.1.1.48• La partie C-terminal porte la fonction EC 5.3.1.24.
![Page 19: Page 1 TP Alignements de séquences par paires. Page 2 Objectifs poursuivis Les alignements permettent de comparer des séquences biologiques. Cette comparaison](https://reader035.vdocuments.pub/reader035/viewer/2022062622/551d9de0497959293b8ea2ae/html5/thumbnails/19.jpg)
Page 19
19
Résultat trouvé par CLUSTAL