stage au lirmm (montpellier) sous la direction d’olivier gascuel et de denis bertrand juin/août...
Post on 04-Apr-2015
103 Views
Preview:
TRANSCRIPT
Stage au LIRMM
(Montpellier)Sous la direction d’Olivier Gascuel et de Denis
Bertrandjuin/août 2004
Propriétés topologiques des
arbres de duplication
http://philippe.gambette.free.fr/LIRMM
Plan
Le processus de duplication en tandem
Sa modélisation : l’arbre de duplication, un arbre phylogénétique particulier
Suppression d’une feuille dans un arbre de duplication
Réarrangements topologiques dans un arbre de duplication
Conclusion sur les résultats trouvés
La recombinaison inégale
cytoplasme
noyau
chromatine condensée
Avant la méiose :
ADN du pèreADN de la mère
La recombinaison inégale
cytoplasme
noyau
Prophase I :
chromosome venant du père
chromosome venant de la mère
La recombinaison inégale
cytoplasme
noyau
Prophase I :
chromosome venant du père
chromosome venant de la mère
La recombinaison inégale
cytoplasme
noyau
Prophase I :
chromosome venant du père
chromosome venant de la mère
La recombinaison inégale
cytoplasme
noyau
Prophase I :
chromosome venant du père
chromosome venant de la mère
La recombinaison inégale
cytoplasme
noyau
Prophase I, recombinaison inégale :
chromosome venant du père
chromosome venant de la mère
L’histoire de duplication (duplication simple)
…CATTGAGCTATGATTG…CATTGACCTATGATTC
segment dupliqué en tandem
segment dupliqué en tandem
...CATTGATTG…CATTGAGCTATGACCTATGATTC
1 2
L’histoire de duplication (duplication multiple)
...CATTGAGTATGACCTATGATTC
...CATTGAGCTATGACCTATTGATAC
3 4
1 2
1
...CATTGATTC
...CATTGAGTATGACCTATGAGCTATGACCTATTGATAC
3 42
On a la séquence finale, on veut retrouver l’histoire des duplications.
Retrouver l’histoire de duplication
On a la séquence finale, on veut retrouver l’histoire des duplications :
CATTGAGTATGACCTATGAGCTATGACCTATTGATAC
CATTGAGTATGACCTATGAGCTATGACCTATTGATAC
1
1 : GAG TAT2 : GACCTAT3 : GAGCTAT4 : GACCTATT
2a1
3
4
2
2b
1’ 2’
2 3 41
a
2c
2- Aligner tous les motifs pour en réaliser un arbre phylogénétique afin d’en déduire un arbre de duplication qui modélise l’histoire de duplication.
1- Détecter les motifs répétés.
alignement multiple de séquences
construction de phylogénie
déduction de l’arbre de
duplication
travail du biologiste
Qu’est-ce qu’un arbre phylogénétique ?
c
singe homme
aabeille mouche
b
rat
d
L’abeille est génétiquementplus proche de la moucheque du singe.
On peut les construire grâce à des algorithmes gloutons optimisant les paramètres suivants :- distance- maximum de vraisemblance- parcimonie (minimiser le nombre de transformations élémentaires)
Il présente les relations de parenté entre être vivants.
Reconstruire un arbre phylogénétique (distance)
On connaît la matrice des distances entre tout couple de feuille (fi,fj).
En partant d’un arbre en étoile, on regroupe progressivement en des consensus les feuilles les plus proches pour construire l’arbre.
f1 f2 f3 f4 f5
f1 0 5 3 1 12
f2 5 0 7 5 5
f3 3 7 0 5 8
f4 1 5 5 0 12
f5 12 5 8 12 0
f1-4 f2 f3 f5
f1-4 0 5 4 12
f2 5 0 7 5
f3 4 7 0 8
f5 12 5 8 0
f2 f3,1,4 f5
f2 0 6 5
f3,1,4 6 0 10
f5 5 10 0
f1
f2
f3f3
f5
f1
f2
f3
f5
f4
f1,4
f1
f3
f2f5
f4
f1,4
f1,3,4
L’arbre obtenu n’est pas enraciné
L’arbre phylogénétique obtenu peut être amélioré par des réarrangements locaux :
- NNI (Nearest Neighbor Exchange, permettent d’explorer l’espace des phylogénies)
Reconstruire un arbre phylogénétique
NNI
- SPR (Subtree Pruning and Regrafting)
SPR
Peut-on faire de même pour les arbres de duplication ?
Qu’est-ce qu’un arbre de duplication ?
C’est un arbre phylogénétique dont les feuilles sont des gènes dupliqués en tandem.
Les feuilles sont donc ordonnées.
Tout arbre phylogénétique n’est donc pas un arbre de duplication.
On peut les déduire d’alignements multiples grâce à des méthodes similaires à celles sur les phylogénies.
On obtient des arbres de duplication enracinés ou non.
Les arbres de duplication ne permettent pas de modéliser les délétions.
La recombinaison inégale : duplication simple
segment dupliqué en tandem
…CATTGAGCTATGATTG...CATTGACCTATGATTC
segment dupliqué en tandem
...CATTGATTG…CATTGAGCTATGACCTATGATTC
1 2
a
21
arbre de duplicationenraciné (1-RDT)
La recombinaison inégale : duplication multiple
...CATTGAGCTATGACCTATGATTC
...CATTGAGCTATGACCTATGATAC
3 4
1 2
...CATTGATTC
...CATTGAGCTATGACCTATGAGCTATGACCTATGATAC
3 41 2
1’ 2’
2 3 41
a
arbre de duplicationenraciné (RDT)
arbre de duplicationnon enraciné (DT)
1
3
4
2
cg
1 2 3 4 5 6 7 8
b
a
d e
T
O=(1,2,3,4,5,6,7,8)
Soit T, un arbre, et O un ordre sur ses feuilles.
Définition d’un arbre de duplication (RDT)
1 2
gc
3 64 7
d
5 8
e
Si f1 et f2 sont deux feuilles de T, et n un nœud de T, alors (f1,n,f2) est une cerise de T.
C(T) est l’ensemble des cerises de T.
Si f1 et f2 sont adjacentes, on note f1f2.
événement deduplication simple
événement deduplication multiple
Définition d’un arbre de duplication (RDT)
(T’,O’) est un arbre de duplication enraciné (RDT) de racine si :
- (T’,O’) contient uniquement ou- il existe dans C(T) une série de cerises (gi,ui,di), (gi+1,ui+1,di+1), ... , (gk,uk,dk) avec ki et gigi+1...gkdidi+1...dk dans O, telle que
(T',O') soit un arbre de duplication de racine ,où T' est obtenu à partir de T en enlevant gi, gi+1,...,gk,di,di+1,...,dk,et O' est obtenu en remplaçant (gi, gi+1,..., gk,di,di+1,...,dk) par (ui,ui+1,...,uk) dans O.
O’=(1,2,c,d,e)
T’
g
1 2 c d e
b
a
c
3 64 7
d
5 8
e
O=(1,2,3,4,5,6,7,8)
T
g
1 2
b
a
agglomération de (c,d,e)
1-RDT : On garde un arbre de duplication après suppression
Suppression d’une feuille dans un 1-RDT
h i j
1 2 3 4 5 6 7
8 9 10 11
f
c d e
b
a
r
i j
1 2 5 6 7 8 9 10 11
f
c d e
b
a
r
h
c d e
j
1 2 i 7 8 9 10 11
f
b
a
r
h
c d e
1 2 i j 9 10 11
f
b
a
r
h
c d e
1 i j 9 10 11
b
a
r
f
1
b
a
r
c d e
a
1
r
b e
r
b e
suppression de la feuille 1
La feuille est dite supprimable.
1-RDT : On garde un arbre de duplication après suppression
Suppression d’une feuille dans un 1-RDT
r
b e
b
r
c d ec d e
i j 9 10 11
b
r
f
c d e
2 i j 9 10 11
f
b
r
h
c d e
j
2 i 7 8 9 10 11
f
b
r
h
i j
2 5 6 7 8 9 10 11
f
c d e
b
r
h
suppression de la feuille 1
r
h i j
2 3 4 5 6 7
8 9 10 11
f
c d e
b
L’arbre obtenu est l’arbre de départ dans lequel on a supprimé la feuille 1
La feuille est dite supprimable.
Suppression d’une feuille f dans un RDT
Cas 1 : f n'est pas issue de duplication multiple f est supprimable.
suppression de f
u c p
p’
4 5 61 2 3
a
u c
p’
4 5 62 3
a
6 cas se présentent :
Cas 2 : f est feuille centrale issue de duplication multiple f est supprimable.
suppression de f
b p a
u
4 5 61 2 3
p’
a b
u
4 5 61 2
p’
Suppression d’une feuille f dans un RDT
Cas 3 : f est feuille interne issue de duplication multiple f n’est pas supprimable.
suppression de f
p b u
p’
4 5 61 2 3
a
b u
p’
4 5 61 3
a
Cas 4 : f est une feuille extrême issue de duplication multiple, et u n'est pas adjacent possible d'une feuille extrême issue de cette duplication f n’est pas supprimable.
suppression de f
p u b
p’
4 5 61 2 3
a
u b
p’
4 5 61 2 3
a
Suppression d’une feuille f dans un RDT
Cas 5 : f est une feuille extrême issue de duplication multiple, et u est adjacent possible d'une feuille extrême issue de cette duplication, et p est supprimable f est supprimable.
suppression de f
p b u
p’
4 5 61 2 3
a
b
u
p’
4 5 61 2
a
Cas 6 : f est une feuille extrême issue de duplication multiple, et u n'est pas adjacent possible d'une feuille extrême issue de cette duplication f n’est pas supprimable.
suppression de f
p d
c p’
4 5 61 2 3
b
0
a
d
c p’
4 5 61 2
b
0
a
0
5
10
15
20
30
4 10 20 30 40 50 60
26,6
Suppression d’une feuille f d’un RDT
Proportion d'arbres qui perdent le caractère de duplication, en fonction du nombre de feuilles , ou de la feuille supprimée
nombre de feuilles
pourcentage d’arbres qui perdent leur caractère de duplication
40
0 50 100 150 200 250 300
35
30
20
15
45
26,6
feuille supprimée
pourcentage d’arbres qui perdent leur caractère de duplication
Suppression d’une feuille f d’un RDT
Proportion des feuilles dans chaque cas
Cas 2
Cas 1
Cas 3
Cas 4
Cas 6
Cas 5
100 feuilles100 feuilles100 feuilles
24 feuilles18 feuilles12 feuilles10 feuilles
8 feuilles
Le modèle est donc relativement robuste, avec 3/4 des arbres qui restent de duplication.On a besoin de vérifier les conditions de délétions sur le père pour seulement 8% des feuilles.
Ti ui
r si
T’k sisuppression
de r en tant que feuille
suppression du sous-arbre
T’ si
agglomérations
agglomérations
T ui
r si
Soit (T,O), un arbre de duplication enraciné.Soit r, la racine du sous-arbre à supprimer dans cet arbre.L'arbre (T',O') résultant de la suppression du sous-arbre de racine r dans (T,O) est un arbre de duplication une des trois conditions de délétion est vérifiée.
Suppression d’un sous-arbre dans un RDT
Les réarrangements topologiques
SPR (Subtree Pruning and Regrafting)
SPR(r,(x,y),(T,O))
Le SPR est valide si l’arbre résultant du SPR est un arbre de duplication.
Les SPR valides permettent d’explorer l’espace des RDT.
r
xy
yx
r
(T,O)
Soit (T,O) un arbre de duplication. L'arbre d'agglomération minimale pour r et (T,O) est l'arbre obtenu après un minimum d'agglomérations dans lequel r est feuille.
SPR sur un sous-arbre
Soient r, x et y des sommets de T, et (Ti,Oi), l'arbre d'agglomération minimale pour r et (T,O).
SPR(r,(x,y),(T,O)) est valide si et seulement si SPR(r,(x,y),(Ti,Oi)) est valide.
Il suffit de donc d’étudier les SPR sur les feuilles !
Une déception
Un SPR peut être valide bien que la feuille concernée ne soit pas supprimable...
f e
1 2 3 4 5 6 7
c d
a
b
SPR(2,(f,4),(T,O)) f
e
1 2 3 4 5 6 7
p
d
a
b
Divers SPR
SPR 1 T T’SPR1
x
f
y
x
f
y
p
TSPR1
x
f v
y p’
T’ x
f v
y p’
p
SPR1T’’ x
f v
y
p’ p
SPR 2
SPR3 u2 un u1
d1 d2 dng1 g2 f
x
y
T u2 un u1
d1 d2 dng1 g2 f
p
y
xT’SPR 3
Divers SPR
SPR 4
gn av y
SPR4 u2 un x
d2 dn af
T T’
f v
gn av y
u2 un p
d2 dn af f
v
x
SPR 5
afg2 av
SPR5 u2 un
u1
d2 dng1
x
y
T T’
vf
u2 un u1
av d2 dn
g1 g2
p
y
v af
f
x
Bilan quantitatif sur les SPR
Proportion des SPR dans chaque cas
SPR 2
SPR 1
SPR 4
SPR 5
SPR validesnon reconnus
SPR 3
SPR non valides
Conclusion
Les résultats sur les feuilles sont intéressants sur la proportion d’arbres corrects, mais doivent être complétés par des analyses biologiques d’arbres de duplication vérifiés, puisque les arbres de duplications observés contiennent moins de duplications multiples qu’en théorie.
Les conditions de suppression des feuilles sont plus complexes qu’espérées, l’obligation de vérifier les conditions sur les ancêtres notamment.
Les SPR identifiés ne couvrent pas une grande portion de l’espace des SPR, et sont trop compliqués pour être utiles.
Annexe : MontpellierLe Peyrou et le Château d’Eau
Annexe : MontpellierL’Arc de Triomphe à la sortie du Peyrou
Annexe : MontpellierImmeuble habité par Guyslain Naves dans sa jeunesse
L’aqueduc
Annexe : MontpellierLa Faculté de Médecine
Annexe : MontpellierLa Préfecture, face à un magasin Gibert
top related