construcción de árboles filogenéticos. para construir un árbol filogenético se necesitan tres...

Post on 23-Jan-2016

231 Views

Category:

Documents

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Construcción de árboles filogenéticos

Construcción de árboles filogenéticos

Para construir un árbol filogenético se necesitan tres ingredientes básicos:

Materiales de partida

1.- Un alineamiento múltiple de secuencias bien hecho

2.- Un modelo evolutivo que explique las diferencias observadas

3.- Uno de los muchos métodos que existen para construir el árbol

Construcción de árboles filogenéticos

Hay que saber seleccionar las secuencias del AMS

Construcción de árboles filogenéticos

1.- Es importante escoger bien las secuencias (ortólogas o parálogas)

2.- Es importante que las secuencias tengan el grado de diversidad adecuado: ni poca ni mucha.

3.- Una vez hecho el AMS, se considera que cada posición ha evolucionado de forma independiente y, normalmente, a la misma velocidad. Si se pueden evitar los huecos, mejor.

4.- Para construir el árbol filogenético, en vez de cuantificar el grado de similitud, se cuantifican las diferencias.

El alineamiento múltiple de secuencias

Construcción de árboles filogenéticos

Construcción de árboles filogenéticos

Modelos evolutivos (1)

1.- El más sencillo: Todas las secuencias evolucionan a la misma velocidad y la divergencia es moderada (cada posición ha mutado, como mucho, una vez). Es un modelo poco realista, que puede valer si se aplican correcciones.

2.- Corrección de Poisson: La velocidad de mutación es uniforme (la misma para cada sitio y por unidad de tiempo). En cada posición, la probabilidad de que se produzcan mutaciones se ajusta a una distribución de Poisson. 3.- Corrección Gamma (): Considera que la probabilidad de que se produzcan mutaciones no es la misma en todas las posiciones (esto es lo que se suele observar en las secuencias funcionales o en las que codifican proteínas)

Construcción de árboles filogenéticos

Modelos evolutivos (2)

La suma de cada fila es cero: el número de posiciones (la longitud de las secuencias) permanece constante

La suma de cada columna es cero: el número de bases de cada tipo permanece constante

4.- Jukes-Cantor (JC): Cada posición es independiente y evoluciona a la misma velocidad. Todas las bases son igual de abundantes y todas las sustituciones de nucleótidos son equiprobables y ocurren a la misma velocidad (aunque se puede aplicar la corrección Gamma).

Construcción de árboles filogenéticos

Modelos evolutivos (3)

5.- Kimura con 2 parámetros (K2P): Diferencia entre transiciones y transversiones. Las transiciones ocurren a una velocidad y las transversiones a una velocidad . R es el cociente entre la velocidad de transiciones y transversiones (R=/2). Si fuesen equiprobables, R valdría ½, pero es frecuente observar valores de 4 o mayores (la presión evolutiva parece favorecer las transiciones). Todas las bases son igual de abundantes.

Construcción de árboles filogenéticos

A

G C

T

Transversiones ()

Transiciones ()

Transiciones vs. transversiones

Purina ↔ Purina

Pirimidina ↔ Pirimidina

Purina ↔ Pirimidina

R = relación transiciones/transversiones

Aunque el número de transversiones es el doble que el de transiciones, las transiciones son dos

veces más frecuentes que las transversiones

2

R

Construcción de árboles filogenéticos

transversiones

Nº total de mutaciones

Sustituciones de nucleótidos

observadas en un conjunto de

secuencias alineadas del gen para la

subunidad II de la citocromo c oxidasa mitocondrial bovina.

Nº de transiciones >> nº de transversiones

Construcción de árboles filogenéticos

Modelos evolutivos (4)

6.- HKY85 (Hasegawa, Kishino, Yano): Es una modificación del modelo de Kimura en la que se tiene en cuenta la composición real de las bases, que no tienen por qué ser igual de abundantes.

La composición de las bases es A:C:G:T. Se cumple que A+C+G+T = 1

Construcción de árboles filogenéticos

Modelos evolutivos (5)

7.- Modelos complejos: Se tiene en cuenta la composición real de las bases y cada tipo de sustitución se da con una frecuencia distinta. Cada posición muta de forma independiente y con igual probabilidad.

Construcción de árboles filogenéticos

Métodos para construir árboles

filogenéticos

Métodos que utilizan la distancia evolutiva

Métodos que utilizan directamente el AMS

Sólo utilizan el modelo evolutivo para calcular las

distancias

UPGMA

Fitch - Margoliash

Neighbor - joining

Hacen uso del modelo evolutivo durante todo el

proceso de creación del árbol filogenético

Máxima parsimonia

Máxima probabilidad

Métodos para construir árboles filogenéticos

Construcción de árboles filogenéticos

Etapas en la construcción de árboles filogenéticos

Criterios óptimos: Distancias, longitud de las ramas, etc.

Algoritmos: UPGMA, neighbour-joining, F-M, etc.

Construcción de árboles filogenéticos

Para construir el árbol filogenético, en vez de cuantificar el grado de similitud, se cuantifican las diferencias, es decir, el número de posiciones que presentan un nucleótido o un aminoácido distinto. Es preferible ignorar los indels porque no existe un sistema de puntuación fiable para ellos.

Métodos basados en la distancia evolutiva

Construcción de árboles filogenéticos

Cálculo de las distancias evolutivas

Construcción de árboles filogenéticos

Cambios producidos entre dos secuencias

Construcción de árboles filogenéticos

Matriz de distancias evolutivas

Un nucleótido se convierte en otro en un único paso.

Para que un aminoácido se

convierta en otro, se necesitan uno, dos o tres pasos, según el número

de bases del codón que deban cambiar.

En la Tabla se indica el número

mínimo de cambios que se necesitan.

Construcción de árboles filogenéticos

Distancia-p (Distancia de Hamming)

Construcción de árboles filogenéticos

Distancia-p

La distancia evolutiva entre dos secuencias alineadas se puede calcular mediante la expresión:

L

Dp

D = número de posiciones que contienen residuos distintos

L = número total de posiciones alineadas (excluyendo indels)

Este método es impreciso:Cuando la tasa de mutación es baja o el periodo evolutivo es corto, se observan pocos cambios y hay una elevada variabilidad estadística entre las secuencias.

Cuando el periodo evolutivo es largo, muchos sitios habrán mutado más de una vez, con lo cual se está subestimando el número real de mutaciones que han tenido lugar, que es lo que queremos calcular.

Además, no todas las especies (ni todos los genes de una misma especie) evolucionan a la misma velocidad, pues se encuentran sometidos a diversas presiones evolutivas a lo largo del tiempo.

p también puede considerarse como la probabilidad de que se produzca una mutación en una determinada posición

Construcción de árboles filogenéticos

Corrección de Poisson (1)

La tasa de mutación es uniforme (r) para cada posición y por unidad de tiempo. Por tanto, al cabo de un tiempo t, el promedio de mutaciones en cada posición es rt.

En cada posición, la probabilidad de que se produzcan n mutaciones se ajusta a una distribución de Poisson.

Se considera que:

rtenp )0(

Consideremos dos secuencias que divergieron hace un tiempo t. Como han evolucionado de forma independiente, en cada secuencia se habrán producido rt mutaciones y, por tanto, la distancia evolutiva (d) entre ellas será de 2rt.

!

)()(

n

rtenp

nrt

En cada una de ellas, la probabilidad de que se hayan producido n cambios en una posición determinada es, según la distribución de Poisson,

Construcción de árboles filogenéticos

Corrección de Poisson (2)

La probabilidad de que no se hayan producido cambios en una misma posición de las dos secuencias es:

)1(2 pee drt

donde p es la distancia p (D/L).

A partir de la expresión anterior se obtiene que:

)1ln( pdP

Construcción de árboles filogenéticos

Corrección Gamma ()

La tasa de mutación varía en función de la posición en la secuencia (lo que parece ser cierto en el caso de secuencias funcionales o que codifican proteínas). El parámetro a determina la variación.

Se considera que:

En el caso de secuencias de proteínas se ha estimado que el valor del parámetro a puede variar entre 0,2 y 3,5.

Cuanto más elevado sea el valor de a, más se acerca al caso en que la tasa de mutación es constante.

Construcción de árboles filogenéticos

Jukes – Cantor (JC)

Todas las posiciones se comportan de forma independiente, con la misma tasa de mutación. Todas las sustituciones de nucleótidos se producen con la misma velocidad por unidad de tiempo. Todas las bases están presentes en igual proporción.

Se considera que:

)

3

41ln(

4

3pdJC

Construcción de árboles filogenéticos

Jukes – Cantor (JC) corregido por Gamma

Todas las posiciones se comportan de forma independiente, pero con distinta tasa de mutación. Todas las bases están presentes en igual proporción.

Se considera que:

13

41

4

3/1 a

JC pad

Construcción de árboles filogenéticos

Kimura (K2P)

)21ln(4

1)21ln(

2

12 QQPd PK

Las transiciones y las transversiones tienen lugar con distinta probabilidad. Todas las bases están presentes en igual proporción.

Se considera que:

P = fracción de sitios alineados que presenta una transición

Q = fracción de sitios alineados que presenta una transversión

P + Q = distancia p

Construcción de árboles filogenéticos

¿Qué método utilizo para calcular distancias?

Construcción de árboles filogenéticos

Distancias aditivas y distancias ultramétricas

En un árbol, si las distancias son aditivas, también son ultramétricas, pero lo contrario no siempre se cumple: en un árbol, las distancias pueden ser ultramétricas pero no aditivas (porque no todas las OTU

tienen por qué haber evolucionado a la misma velocidad).

Construcción de árboles filogenéticos

Unweighted pair group method using arithmetic averages

Construcción de árboles filogenéticos

UPGMA

Construcción de árboles filogenéticos

Algoritmo de UPGMA

Unweighted pair group method using arithmetic averages

Construcción de árboles filogenéticos

Cálculo de las distancias

Construcción de árboles filogenéticos

1.- Calcular las distancias entre los taxa

Matriz de distancias

Métodos para representar las distancias entre las secuencias

Método gráfico

menor distancia

Construcción de árboles filogenéticos

2.- Identificar los grupos menos separados

La menor distancia es dAB. A y B se agrupan. Las dos

ramas tienen igual longitud (dAB/2), de modo que su suma sea dAB (el

árbol es aditivo).

1 y 2 se agrupan. Se crea un nuevo nodo (6)

Construcción de árboles filogenéticos

3.- Recalcular las distancias

A y B están agrupadas (AB). Se calcula la

distancia entre (AB) y las secuencias C y D. Ahora la menor distancia es d(AB)C.

Ahora, la menor distancia es d45. Se agrupan para formar (4,5) y se crea el

nodo 7.

Construcción de árboles filogenéticos

4.- Agrupar los menos separados

(AB) se agrupa con C y forman (ABC). El nuevo nodo se coloca a una longitud d(AB)C/2 de los

nodos terminales.

Ahora, tenemos dos grupos distintos:

(1,2) y (4,5).

Construcción de árboles filogenéticos

5.- Recalcular las distancias

Ahora, la menor distancia es d(45)3. Se

agrupa (4,5) con 3 para formar (3,4,5).

Por último, se agrupa (ABC) con D. El nuevo nodo se coloca a una longitud

d(ABC)D/2 de los nodos terminales.

Construcción de árboles filogenéticos

6.- Agrupar los menos separados

Por último, se agrupa (3,4,5) con (1,2). Se

crea el nodo 9, que es la raíz del árbol de la

cual descienden todos los taxa

Construcción de árboles filogenéticos

Ventajas e inconvenientes

* Genera un único árbol con raíz, ultramétrico

* Es un método rápido y sencillo

* Es adecuado si se cumple la “molecular clock hypothesis”

* Se puede aplicar a un gran número de taxa

* Si no se cumple la premisa de una velocidad constante de mutación, se pueden generar topologías incorrectas. Esto se puede corregir mediante la introducción de un taxón externo (outgroup) que no está relacionado con los demás taxa y que permite corregir las distintas tasas de evolución. Se usa poco, principalmente con fines educativos.

Construcción de árboles filogenéticos

Science 155(760):279-284 (1967)

Construcción de árboles filogenéticos

El método de Fitch – Margoliash

Construcción de árboles filogenéticos

Fitch – Margoliash (1)

Construcción de árboles filogenéticos

Fitch – Margoliash (2)

a = 10

b = 12

c = 29

Construcción de árboles filogenéticos

Fitch – Margoliash (3)

A

B

C

b1

b2

b3

21 bbdAB

31 bbdAC 32 bbdBC

)(2

11 BCACAB dddb )(

2

12 ACBCAB dddb

)(2

13 ABBCAC dddb

Construcción de árboles filogenéticos

Fitch – Margoliash (3)

Construcción de árboles filogenéticos

Fitch – Margoliash (4)

d D

E

(ABC)

e m

Construcción de árboles filogenéticos

Fitch – Margoliash (5)

(DE)

C

(AB)

c = 9

g = 10 h = 21

Construcción de árboles filogenéticos

Ventajas e inconvenientes

* Genera un único árbol sin raíz, aditivo

* Es un método rápido y sencillo

* No asume la hipótesis del “molecular clock”.

* Se puede aplicar a un gran número de taxa

* Depende del método utilizado para calcular las distancias: van bien si las distancias son pequeñas y las secuencias largas. Si las secuencias son cortas, el cálculo de las distancias puede incluir errores estadísticos apreciables.

Construcción de árboles filogenéticos

Mol. Biol. Evol. 4 (4):406-425 (1987)

Construcción de árboles filogenéticos

The Neighbor – Joining method (1)

Construcción de árboles filogenéticosEl principio del método Neighbor-Joining (N-J) se basa en encontrar vecinos secuencialmente que minimicen la longitud total del árbol. El método comienza con un árbol tipo estrella:

The Neighbor – Joining method (2)

Construcción de árboles filogenéticos

The Neighbor – Joining method (3)

Se analizan todas las parejas de vecinos

posibles y se selecciona aquélla que minimiza la

longitud total de las ramas internas del árbol (X--Y) (siguiendo el principio de

mínima evolución)

Construcción de árboles filogenéticos

The Neighbor – Joining method (4)

N - J = 1 + 2 N - J = 5 + 6 N - J = (1,2) + 3

N - J = (1,2,3) + 4 N - J = (1,2,3,4) + (5,6) N - J = (1,2,3,4,5,6) + (7,8)

Construcción de árboles filogenéticos

Ventajas e inconvenientes

* Genera un único árbol sin raíz, aditivo

* Es un método rápido y sencillo

* Asume el principio de mínima evolución (minimiza la longitud de las ramas del árbol). No asume la hipótesis del “molecular clock”. Es especialmente adecuado cuando la velocidad de evolución de los distintos taxa varía.

* Se puede aplicar a un gran número de taxa

* Depende del método utilizado para calcular las distancias: van bien si las distancias son pequeñas y las secuencias largas. Si las secuencias son cortas, el cálculo de las distancias puede incluir errores estadísticos apreciables.

Construcción de árboles filogenéticos

Métodos que utilizan directamente el AMS

Construcción de árboles filogenéticos

Máxima parsimonia

Construcción de árboles filogenéticos

Máxima parsimonia

Construcción de árboles filogenéticos

Sitios invariantes, informativos y no informativos

Construcción de árboles filogenéticos

Sitios invariantes

Construcción de árboles filogenéticos

Sitios no informativos

Construcción de árboles filogenéticos

Sitios informativos

Construcción de árboles filogenéticos

Se selecciona el árbol que requiere menos cambios

Construcción de árboles filogenéticos

Se selecciona el árbol que requiere menos cambios

Construcción de árboles filogenéticos

Ventajas e inconvenientes

Genera uno o más árboles sin raíz

Funciona bien cuando hay poca divergencia. Con mucha divergencia puede dar lugar a topologías incorrectas

Es muy eficaz con pocos taxa y si hay muchos sitios informativos

Con más de 10 taxa hay que utilizar métodos heurísticos para encontrar el árbol (que puede no ser el mejor)

Como considera todos los árboles posibles, el proceso requiere muchos recursos computacionales y es lento.

Construcción de árboles filogenéticos

Construcción de árboles filogenéticos

J. Mol. Evol. 33:114-124 (1991)

Construcción de árboles filogenéticos

Máxima probabilidad

Construcción de árboles filogenéticos

Máxima probabilidad (árbol sin raíz)

Árbol sin raíz

Uno de los tres posibles árboles sin raíz

Construcción de árboles filogenéticosProbabilidad asociada a la posición 5

Transformación logarítmica

Probabilidad asociada al árbol

Máxima probabilidad (árbol sin raíz)

Construcción de árboles filogenéticos

Árbol con raíz Uno de los quince

posibles árboles con raíz

Dos de la 64 formas de colocar una base en cada nodo interno

Probabilidad asociada a la posición marcada

con asterisco

Máxima probabilidad (árbol con raíz)

Construcción de árboles filogenéticos

La máxima probabilidad depende del modelo evolutivo

Construcción de árboles filogenéticos

Ventajas e inconvenientes

Genera uno o más árboles con o sin raíz

Funciona bien cuando hay poca divergencia. Con mucha divergencia puede dar lugar a topologías incorrectas

Es muy eficaz con pocos taxa y utiliza toda la información contenida en el alineamiento.

Si hay muchos taxa hay que utilizar métodos heurísticos para encontrar el árbol (que puede no ser el mejor)

Como considera todos los árboles posibles, el proceso requiere muchos recursos computacionales y es lento.

El resultado depende mucho de las suposiciones que se hayan hecho sobre la velocidad de sustitución de nucleótidos.

Construcción de árboles filogenéticos

¿Qué método debo utilizar?

Construcción de árboles filogenéticos

Bootstrapping (1)

Construcción de árboles filogenéticos

Bootstrapping (2)

Construcción de árboles filogenéticos

Bootstrapping (3)

Construcción de árboles filogenéticos

Bootstrapping (3)

Construcción de árboles filogenéticos

http://evolution.genetics.washington.edu/phylip.html

PHYLIP

Construcción de árboles filogenéticos

PAUP

http://paup.csit.fsu.edu/

top related