¿los árboles de genes y la coalescencia?a... · a) aparecen mutaciones no neutras. los distintos...
TRANSCRIPT
Las bases de la genética de poblaciones clásica
1. Wright-Fisher (WF) model
S. Wright R.A. FisherLa teoría que
vamos a estudiar se basa en el modelo de
Wright-Fisher
que considera >>>˃
Modelo de Wright-Fisher (WF)
• La evolución de un locus neutral en una población de tamaño constante, con apareamiento al azar, y generaciones discretas.
• En cada generación t cada individuo tiene un número aleatorio de descendientes (mayor o igual a 0) en la generación t+1. Cada descendiente es:
– idéntico al parental con probabilidad 1-μ;
– o portador de una mutación
1. Modelo de Wright-Fisher (WF)
generation 0
generation 1
generation 2
generation 3
generation 4
generation 5
generation 6
1. Wright-Fisher (WF) modelTim
e
2. Genealogies and the tree of life
Las siguientes diapositivas muestran como construir un árbol genealógico que relaciona a 22 individuos de unamuestra tomada en la generación actual de unapoblación, para un solo locus (e.g. del segmento no-recombinante del cromosoma Y).
Cada hijo tiene un solo padre, pero como cada padre puede tener más de un hijo, en la genealogía ocurren lo que se llama eventos de coalescencia. Estos cualesresultan en la reducción de ancestros. Eventualmente, queda un solo ancestro – el Ancestro común Más Reciente (ACMR o MRCA).
La Genealogía de una muestra
actual
Present
Time
Imaginemos una población grande. Millones de individuos y generaciones!!!
2. Genealogies and the tree of life
Past
...
...
...
:
.
:
.
:
.
Present
Time
De la población tomamos una muestra de 22 individuos y la seguimos.
2. Genealogies and the tree of life
Past
...
...
...
:
.
:
.
:
.
Present
Time
22 individuals
18 ancestors
16 ancestors
14 ancestors
12 ancestors
9 ancestors
2. Genealogies and the tree of life
Present
Time
22 individuals
18 ancestors
16 ancestors
14 ancestors
12 ancestors
9 ancestors
8 ancestors
8 ancestors
7 ancestors
7 ancestors
5 ancestors
5 ancestors
2. Genealogies and the tree of life
Present
Time
22 individuals
18 ancestors
16 ancestors
14 ancestors
12 ancestors
9 ancestors
8 ancestors
8 ancestors
7 ancestors
7 ancestors
5 ancestors
5 ancestors
3 ancestors
3 ancestors
3 ancestors
2 ancestors
2 ancestors
2. Genealogies and the tree of life
Present
Time
22 individuals
18 ancestors
16 ancestors
14 ancestors
12 ancestors
9 ancestors
8 ancestors
8 ancestors
7 ancestors
7 ancestors
5 ancestors
5 ancestors
3 ancestors
3 ancestors
3 ancestors
2 ancestors
2 ancestors
1 ancestor
2. Genealogies and the tree of life
Present
Time
2. Genealogies and the tree of life
Se pueden simplificar
mucho las cosas.
Considerando
solamente los
ancestros de la muestra
hasta el ACMR: el
ARBOL GENEALOGICO
de la muestra
Al comparar las secuencias de ADN de una muestra de individuos detectamos sitios polimórficos (segregantes) y no variables
2. Genealogies and the tree of life
Tener un Ancestro Común es un proceso aleatorio. Así como que
ocurra una Mutación
111111111111111111111111111111111
666666666666666666666666666666666
001111111111112222222222222223333
281224466788880112334667789991256
561695878237899353097450863451080
ANDERSON TTCTGGCCCTACCTTGACACACACCCACCTCCC
GUI 1 ..............C..T...........C...
GUI 2 ..............C..T...........C...
GUI 3 .C..AA.....T.C.A.T....C.TG.T.C..T
GUI 4 ....A.T.TC.TGC...TG..........CT..
GUI 5 C..C.......T.C...T...T.TT....C...
GUI 6 C......G................T...T....
GUI 7 ..TC.......T.C...T.T...TT.G..C...
GUI 8 ....A.....C..C..GT.........T....T
GUI 9 .........CC..C...T...............
GUI 10 ....A......T.CC..T......T..T.C.TT
GUI 11 ..............C..T..G........C...
Sequence polymorphism
Si las mutaciones se mapean en la genealogía, pueden servir para dividirla en subgrupos (representados por colores diferentes)
Present
Time
mutation
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
2. Genealogies and the tree of life
Present
Time
mutation
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
2. Genealogies and the tree of life
Present
Time
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
2. Genealogies and the tree of life
Present
Time
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
2. Genealogies and the tree of life
Present
Time
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCTAGGTGTTAAC
2. Genealogies and the tree of life
Present
Time
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCTAGGTGTTAAC
2. Genealogies and the tree of life
Present
Time
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCTAGGTGTTAAC
TCGAGGTATTAGC
2. Genealogies and the tree of life
Present
Time
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCTAGGTGTTAAC
TCGAGGTATTAGC
2. Genealogies and the tree of life
Present
Time
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCTAGGTGTTAAC
TCGAGGTATTAGC
TCTAGGTATCAAC
2. Genealogies and the tree of life
Present
Time
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCTAGGTGTTAAC
TCGAGGTATTAGC
TCTAGGTATCAAC
2. Genealogies and the tree of life
Present
Time
Most recent common ancestor
(MRCA)
TCGAGGTATTAAC
TCTAGGTATTAAC
TCGAGGCATTAAC
TCTAGGTGTTAAC
TCGAGGTATTAGC
TCTAGGTATCAAC
* ** * *
2. Genealogies and the tree of life
La estructura de la variación hereditaria actual de una población se puede pensar como la superposición de dos procesos aleatorios: el coalescente y la mutación
Resumiendo:
3. The coalescent
La probabilidad de que dos individuos tenganun ancestro común en la generación anterior es
La matemática es simple
(ignorando la mutación y la recombinación)
1
NLa probabilidad de que dos alelos provengan de un mismo ancestro en la generación anterior es
2
1
N
caso diploide
caso haploide
3. The coalescent
•El Tiempo de coalescencia se calcula recursivamente.
•La Probabilidad de que dos alelos vengan del mismo
progenitor depende solo de N (tamaño poblacional).
• P (coalescencia) = , p(no coalescencia)= 1-
• P(t) =
• E[TACMR] = 2N
• 63% de los casos tienen TMRCA < 2N
N2
1
N2
1
NN
t
2
1
2
11
1−
−
3. The coalescent
A mayor N, el árbol es más largo, más variabilidad.
Población grande Población chica
Tiempo al ACMR
• Para múltiples linajes, el tiempo al ACMR se estima usando la siguiente ecuación
la cual converge rápidamente a 4N a medida que n (tamaño muestral) aumenta. Es decir, el ACMR para una muestra se aproxima al de la población.
( )
−
= +=
1
1 1
14
n
i
ACMRii
NTE
3. The coalescent
Coalescencia y mutaciones neutras
Podemos calcular: 1) el número de bases en que
difieren dos alelos de la población, 2) inferir las
relaciones entre alelos, es decir reconstruir el
árbol de genes
Si en cada linaje ocurren mutaciones a una
tasa por generación, entonces para dos
alelos que compartieron un ancestro común
tCA generaciones en el pasado se habrán
acumulado x tCA mutaciones en cada
linaje
Parámetros del proceso
T = suma de la longitud de todas las ramas de la
genealogía
E (T) = 4N
S = número de mutaciones en la genealogía
E(S) = E(T), donde S = ai
Donde θ = 4N (recordar la heterocigosis del
equilibrio mutación/deriva)
Y se lo conoce como parámetro mutacional de la teoría
neutralista
Es decir que el número de mutaciones en la genealogía
(S) es un estimador de la heterocigosidad
ANDERSON TTCTGGCCCTACCTTGACACACACCCACCTCCC
GUI 1 ..............C..T...........C...
GUI 2 ..............C..T...........C...
GUI 3 .C..AA.....T.C.A.T....C.TG.T.C..T
GUI 4 ....A.T.TC.TGC...TG..........CT..
GUI 5 C..C.......T.C...T...T.TT....C...
GUI 6 C......G................T...T....
GUI 7 ..TC.......T.C...T.T...TT.G..C...
GUI 8 ....A.....C..C..GT.........T....T
GUI 9 .........CC..C...T...............
GUI 10 ....A......T.CC..T......T..T.C.TT
GUI 11 ..............C..T..G........C...
Otros estimadores de = 4N
: Es el número promedio de diferenciasentre secuencias que depende de las frecuencias en que se encuentran las variantes que segregan en cada sitio de la secuencia en la población.
Es la heterocigosidad esperada (2pq) por sitio
Los sitios que más aportan a este estimadorson los que están en frecuencias intermedias
Estimadores del parámetro
mutacional • Watterson: S (número
de sitios segregantes)
= S / ai
• Tajima: número promedio de diferencias
= = (n / n - 1) pi pj ij
A) Aparecen mutaciones no neutras. Los distintos de tipos de selección dejan huellas diferentes en la estructura de los árboles (en los patrones de variación neutra).
➢ la SN positiva que lleva a la fijación de una variante disminuye el Ne y por lo tanto acorta la longitud del árbol.
➢ En cambio la SN equilibradora que tiende a preservar alelos por mas tiempo que la DG, entonces habrá linajes del árbol que persistirán por mas tiempo que 4N
➢ La SN negativa producirá un exceso de alelos de divergencia reciente, porque las variantes deletéreas permanecen por poco tiempo hasta su remoción por SN.
B) N no constante
• Si el tamaño de la población se ha incrementado las ramas del árbol son más cortas en el pasado (porque Ne era más chico)
• Si la población se ha reducido (cuello de botella) las ramas son cortas en el presente y más largas en el pasado
¿Qué ocurre con la variación neutra
cuando las suposiciones del modelo
W-F no se cumplen?
La selección positiva
Barrido Selectivo• El rápido aumento de una
variante selectivamente
ventajosa puede reducir los
niveles de variación neutra en
regiones ligadas
La Selección Positiva produce “un Barrido
Selectivo”
A
-
-
T
-
-
-
T
-
T
-
A
-
-
-
-
-
-
C
-
-
-
-
-
-
G
-
A
T
-
-
-
-
-
-
-
A
-
-
-
-
-
-
-
-
C
-
-
G
-
G
-
G
-
G
-
-
A
-
-
-
-
-
G
-
-
-
C
C
C
-
-
T
-
-
-
-
-
-
-
-
A
-
T
-
-
-
-
-
-
T
-
-
-
-
-
-
-
-
T
-
-
-
-
-
-
-
-
G
-
-
-
-
-
-
-
-
A
-
-
-
-
-
-
-
-
A
-
-
-
-
-
-
-
-
G
-
-
-
-
-
-
-
-
G
-
-
-
-
-
-
-
-
G
-
-
-
-
-
-
-
-
T
-
-
-
-
-
-
-
-
A
-
-
-
-
-
-
-
-
No Recombination
A
-
-
T
-
-
-
T
-
T
-
A
-
-
-
-
-
-
G
-
-
-
-
-
-
-
-
A
T
-
-
-
-
-
-
-
A
-
-
-
-
-
-
-
-
C
-
-
G
-
G
-
G
-
G
-
-
A
-
-
-
-
-
G
-
-
-
C
C
C
-
-
T
-
-
-
-
-
-
-
-
A
-
T
-
-
-
-
-
-
Recombination
3. Selección a nivel molecular
3. Selección a nivel molecular
Selección Positiva:
• Cambio adaptativo. Novedades evolutivas.
• Eliminación de la variación ligada.
• Si la evolución se acelera entonces podemos tener que Ka/Ks > 1
Si el tamaño de la población se ha incrementado las ramas del árbol son mas cortas en el pasado (porque Ne era mas chico)
También los distintos de tipos de selección dejan huellas diferentes en la estructura de los árboles (en los patrones de variacion neutra).
1) la SN positiva que lleva a la fijación de una variante disminuye el Ne y por lo tanto acorta la longitud del árbol.
2) La SN equilibradora
3) La SN negativa producirá un exceso de alelos de divergencia reciente, porque las variantes deletéreas permanecen por poco tiempo hasta su remoción por SN.
La selección equilibradora
• Tiende a preservar alelos por un tiempo
mayor a 4N generaciones, que es lo que
persiste en promedio un alelo por deriva.
que los tiempos de coalescencia son
mayores y que las ramas son más largas
Si el tamaño de la población se ha incrementado las ramas del árbol son mas cortas en el pasado (porque Ne era mas chico)
También los distintos de tipos de selección dejan huellas diferentes en la estructura de los árboles (en los patrones de variacion neutra).
1) la SN positiva que lleva a la fijación de una variante disminuye el Ne y por lo tanto acorta la longitud del árbol.
2) En cambio la SN equilibradora que tiende a preservar alelos por mas tiempo que la DG, entonces habrá linajes del árbol que persistirán por mas tiempo que 4N
3) La SN negativa producirá un exceso de alelos de divergencia reciente, porque las variantes deletéreas permanecen por poco tiempo hasta su remoción por SN.
Selección purificadora. También elimina la
variabilidad ligada
A
-
-
T
-
-
-
T
-
T
-
A
-
-
-
-
-
-
C
-
-
-
-
-
-
G
G
A
T
-
-
-
-
-
-
-
A
-
-
-
-
-
-
-
-
C
-
-
G
-
G
-
G
-
G
-
-
A
-
-
-
-
-
G
-
-
-
C
C
C
-
-
T
-
-
-
-
-
-
-
-
A
-
T
-
-
-
-
-
-
A
-
-
T
-
-
-
-
-
T
-
-
-
-
-
-
-
-
C
-
-
-
-
-
-
-
-
A
T
-
-
-
-
-
-
-
A
-
-
-
-
-
-
-
-
C
-
-
G
-
-G
-
-
-
G
-
-
A
-
-
-
-
-
G
-
-
-
C
C
C
-
-
T
-
-
-
-
-
-
-
-
A
-
-
-
-
-
-
-
-
No Recombination
3. Selección a nivel molecular
A
-
-
T
-
-
-
T
-
T
-
-
-
-
-
-
-
-
C
-
-
-
-
-
-
-
-
A
T
-
-
-
-
-
-
-
A
-
-
-
-
-
-
G
-
C
-
-
G
-
G
-
-
-
G
-
-
A
-
-
-
-
-
G
-
-
-
C
C
C
-
-
T
-
-
-
-
-
-
-
-
A
-
T
-
-
-
-
-
-
Recombination
3. Selección a nivel molecular
Selección purificadora:
• Muestra lo que no puede cambiar (conservado)
• genes relacionados con enfermedades
• Detección de nuevas funciones
• Sin embargo, algunos eventos demográficos
(N no constante) dejan huellas en el genoma
que pueden confundirse con SN
La expansión poblacional y la selección positiva pueden generar árboles muy similares
Tendremos muchas variantes en baja frecuencia
4. El coalescente con selección
N
t
=ij
ijji xx
−
=
=1
1
1n
i
W
i
S
eW N4=
4. El coalescente con selección
Bajo selección positiva, el estimador basado en S es más
grande que ,porque tenemos un
exceso de mutaciones en baja
frecuencia
La prueba de Tajima (D) compara y S y determina si la
distribución de frecuencias de las variantes es compatible con la neutralidad
= Pairwise nucleotide diversity S=Number of segregating sites
4. El coalescente con selección
( ) ( )S
S
W
W
VarD
VarD
ˆˆ
ˆˆ
−
−=
−
−=
Bajo neutralidad, D = 0
La selección positiva o los cambios demográficos, afectan y S de diferente modo.
D < 0
eW N4===
Un ejemplo: mtDNA humano• Ingman et al. (2000) 52 secuencias de mtDNA completas
• 521 sitios segregantes
23.28.31
3.1152.44
8.31)(V̂
3.115/
52.4
2.44
52
52
−=−
=
=
=
=
=
D
d
aS
a
mtDNA Humano tiene un exceso de variantes raras
Expansión poblacional o selección positiva?
0
20
40
60
80
100
120
140
160
180
200
1 11 21
Rare allele frequency
No. sites
Observed
Expected
4. El coalescente con selección
4. The coalescent with selection
Selección equilibradora es equivalente a la subdivisión poblacional. En este caso el D de Tajima es positivo porque habrá un exceso de
variantes en frecuencia intermedia
( )W
W
VarD
−
−=
4. El coalescente con selección
¿Cómo sabemos si el estadistico D de Tajima es significativo?
¡¡¡Usamos el coalescente!!!
Corriendo simulaciones de coalescencia bajo neutralidad, usando n y S estimado a partir de los datos. En cada simulación se calcula D y así
obtenemos la distribución.
Si la separación de
las poblaciones es
reciente, el tiempo
de coalescencia (tc)
de los alelos es por
lo general mayor o
igual al tiempo de
división de las
poblaciones (tP) .
En pocos casos
tc < tP debido a
pérdida de alelos.
O tP <<< tcsi hay
alelos bajo
selección
equilibradora