filogenias moleculares - fcnym.unlp.edu.ar · feng & doolittle in 1987 esencialmente es un ....

FILOGENIAS MOLECULARES

ADN se puede usar para estudiar la filogenia de los organismos. A partir del patrón de variación del ADN se puede deducir el proceso evolutivo.

VENTAJAS DE LOS DATOS MOLECULARES PERMITEN ESTUDIAR EL GENOMA

GRAN CANTIDAD DE DATOS

MAYOR OBJETIVIDAD

DESVENTAJAS DE LOS DATOS MOLECULARES

PROPORCIÓN DE DATOS VARIABLES SUELE SER BAJA (en relación con los invariables)

CARACTERES INFORMATIVOS (proporción aun más baja) DETERMINACION DE HOMOLOGÍAS

Fragmento de una secuencia de aminoácidos predicha a partir de la secuencia de ADN de un gen conservado desde bacterias hasta humanos. Se resaltan los sitios conservados.

Especie Secuencia de Aminoácidos Humano DAPGHRDFIKNMITGTSQADCAVLIV Tomate DAPGHRDFIKNMITGTSQADCAVLII Levadura DAPGHRDFIKNMITGTSQADCAILII Archaea DAPGHRDFVKNMITGASQADAAILVV Bacteria DCPGHADYVKNMITGAAQMDGAILVV Letras inmortales (conservadas)

D-PGH-D--KNMITG--Q-D---L--

Los tres dominios de la vida: Archaea, Bacteria y Eukarya.

Datos: filogenia molecular

Secuencias de proteínas Análisis de sitios de restricción

Secuencias de ADN de distintos

genes

Los genes están formados por EXONES (traducen a proteínas) y los INTRONES (no codificantes)

Tanto las zonas codificantes como no codificantes pueden ser utilizadas en sistemática

No pueden utilizarse zonas hipervariables o de ADN altamente repetitivo

ADN “Fingerprinting”

ADN altamente repetitivo

Genes de copia única (nucleares) Genes de copia múltiple Ribosomales (conservados: plantas18S, 26S; animales 18S, 28 S) Taxones superiores Mitocondriales (tasa mutación rápida en animales: COI, COII) → Especies próximas Estudios de Filogeografia Especies partenogenéticas Cloroplasto (ADN muy conservado: rbcL, rbcS) → Taxones superiores

ADN mitocondrial (ADNm)

• Múltiples copias, se heredan generalmente por vía materna (gameta femenina porta mitocondrias), generalmente hay homoplasmia (todas las mitocondrias son iguales) pocas regiones no codificantes

ESTABLECIMIENTO DE HOMOLOGÍAS

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS

ESTIMACION FILOGENÉTICA

PRUEBAS DE CONFIABILIDAD DE LA TOPOLOGÍA INFERIDA

INTERPRETACIÓN EVOLUTIVA Y APLICACIÓN DE LAS FILOGENIAS

PROTOCOLO BÁSICO PARA UN ANÁLSIS FILOGENÉTICO DE SECUENCIAS MOLECULARES

• secuencias ortólogas

e.g. Clustal

e.g. NJ, PARASIMONIA, ML, Bayesiano

bootstrap, probabilidad posterior

HOMOLOGIA A NIVEL MOLECULAR

Secuencias de ADN

Test de SIMILTUD

Test de CONJUNCION

Test de CONGRUENCIA

EQUIV.MORF

ORTOLOGA + + + HOMOLOGIA

PARALOGA + - + HOMONOMIA

XENOLOGA (transferencia horizontal)

+ + - PARALELISMO


Ortólogas: homólogas y reflejan la filogenia de las especies.

Parálogas: genes que han divergido después de un evento de duplicación. Pueden en algunos casos tener diferente función (e.g. familia de globinas)

SECUENCIAR

DETERMINAR EL ORDEN EXACTO DE LOS PARES DE BASES EN UN SEGMENTO DE ADN

La alineación es una hipótesis de homología posicional entre bases/aminoácidos

Métodos de alineamiento múltiple de secuencias

3 métodos principales

Manual Automatizado (computarizado) Combinado

ALINEACIÓN DE SECUENCIAS DIFERENCIA EN LA LONGITUD DEBIDA A MUTACIONES INDEL (INSERCIONES Y DELECIONES): AGREGADO O PERDIDA DE BASES

INCORPORACIÓN DE GAPS

SE PUEDE ASIGNAR COSTOS DEFERENCIALES: • A LAS SUSTITUCIONES Y A LOS GAPS (e.g. 1 y 2 respectivamente) • O A LAS TRANSICIONES O TRANSVERSIONES • COSTO DIFERENCIAL A LOS GAPS MÁS LARGOS

Alternativas de alineación a) ACTTCCGAATTTGG - CT ACT - - CGA- - TTG - CCT En esta alineación no se registran sustituciones, pero hay 4 gaps.

b) ACTTCCGAATTTGGCT ACTC - - - GATT- GCCT En esta alineación se registran 3 sustituciones (4º, 8º y 14º posición)

y 2 gaps. c) ACTTCCGAATTTGGCT ACTC - - - - -GATTGCCT En esta alineación se registran 4 sustituciones (4º, 9º, 10º y 14º

posición) y 1 gap.

Alineamiento progresivo Feng & Doolittle in 1987

Esencialmente es un método heurístico y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Requiere n-1 pares de alineamientos como punto de partida.

Utiliza un árbol Neighbor-joining (guide tree) Una de las implementaciones más frecuentes es a

través de Clustal

Alineamiento múltiple

Métodos para construir Arboles

Métodos de Distancia: Neighborg Joining (NJ)

Parsimonia (MP)

Maxima verosimilitud (ML)

Bayesiano (BAY)


Métodos de Distancia: Neighborg Joining (NJ)

Convierte los datos en una matriz de distancia entre los taxa o secuencias

Ventaja: método rápido Desventaja: pérdida de información al transformar las secuencias en

distancias; difícil obtener estimaciones confiables de los pares de distancias para secuencias divergentes

Programas: PAUP, PHYLIP


Parsimonia (MP)

Busca el árbol o arboles con el mínimo numero de cambios

Ventajas: es rápido para el análisis de cientos de secuencias; es robusto si las ramas son cortas (secuencias estrechamente relacionadas o muestreo amplio)

Desventajas: tiene un bajo rendimiento si existe una alta variación en la longitud de las ramas

Programas: PAUP, NONA, TNT

CRITERIO DE OPTIMALIDAD (modelos de parsimonia) PESADO DE CARACTERES

A PRIORI

A POSTERIORI

- Pesado sucesivo - Pesos implicados

PESADO DE CARACTERES

A PRIORI

- De acuerdo con la posición relativa de la secuencia: mayor peso a la 1º o 1º y 2º posición eliminar la tercera posición

- En la misma posición: aplicar mayor peso a las transverciones que a las transiciones aplicar diferentes pesos a ciertos cambios de acuerdo con con frecuencias esperadas y observadas

Matrices de costos Matrices de costos especifican los costos de los

cambios en un carácter

A C G T A 0 5 1 5 C 5 0 5 1 G 1 5 0 5 T 5 1 5 0

G

C T

PURINAS (Pu)

PIRIMIDINAS (Py)

transiciones Py Py Pu Pu

trans

vers

ione

s

Py

Pu A

Matrices de costos Matrices de costos especifican los costos de los cambios en un caracter

A C G T A 0 5 1 5 C 5 0 5 1 G 1 5 0 5 T 5 1 5 0

a

desde

G

C T

PURINAS (Pu)

PIRIMIDINAS (Py)

transiciones Py Py Pu Pu

tran

sver

sion

es

Py

Pu A

Máxima verosimilitud (ML)

Máxima verosimilitud INFERENCIAS ESTADÍSTICAS

Cálculo del árbol “más verosímil” 1º- Comienzo (datos): secuencias alineadas 2º- Se designa un modelo de sustitución de nucleótidos basados en el árbol más “probable” (producido usando por ejemplo parsimonia o distancia e.g. neighbor-joining). Puede incluir Parámetros tales como frecuencias, probabilidades de diferentes tipo de trasnformaciones. 3º- Aplicación de búsquedas heurísticas para examinar topologías alternativas 4ª- Para cada topología se computa la probabilidad de la distribución observada de estados de caracteres entre los taxones para cada sitio como la suma de las probabilidades de Cada posible reconstrucción del estado ancestral (de acuerdo con el modelo seleccionado) 5º- Se computa la probabilidad del árbol como el producto de las probabilidades de Todos los sitios 6ª- La topología preferida es la que tiene más alta probabilidad .

Crea todas los árboles posibles, pero en lugar de retener los más cortos (menor número de pasos):

• Emplea modelos de evolución explícitos donde pueden considerarse distintas tasas de transiciones/transversiones

• Para cada árbol calcula la probabilidad de que refleje cada posición en la secuencia

• El cálculo se repite para cada sitio

• Finalmente, el árbol con la mejor probabilidad se selecciona el árbol con la más alta verosimilitud

MÁXIMA VEROSIMILITUD

Modelos de evolución de las secuencias

• Modelo de Jukes-Cantor (1969)

¿Cuáles son los modelos que se utilizan para estimar filogenias?:

• Kimura 2 parameter model (K2P) (1980)

• Hasegawa, Kishino & Yano (HKY) (1985)

• General time reversible model (GTR)


Modelo de Jukes-Cantor (1969)

Todas las sustituciones tiene una probabilidad

y frecuencia iguales

A

C T

G α

α α

α α

α

Felsenstein (1981)

Todas las sustituciones tiene igual probabilidad,

pero la frecuencia de las bases NO es igual

A

C T

G α

α α

α α

α


Kimura 2 parameter model (K2P) (1980)

Transiciones y transversiones tienen

diferente probabilidad

A Purinas

Pirimidinas C T

G α

α

β β β

β


Hasegawa, Kishino & Yano (HKY) (1985)

Transiciones y transversiones tienen diferente probabilidad, y frecuencia de bases desiguales

A Purinas

Pirimidinas C T

G α

α

β β β

β


General time reversible model (GTR)

Diferente probabilidad para cada sustitución,

y frecuencias de bases desiguales

A

C T

G α

β

χ

δ

ε φ


Máxima Verosimilitud (= Maximum Likelihood) (ML)

I

II

III

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

T A/TA/

T A/TA/

T A/TA/

• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias


I

II

III

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

T A/TA/

T A/TA/

T A/TA/

• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias • Todos los árboles posibles para la posición de cada nucleótido son considerados


I

II

III

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

T A/TA/

T A/TA/

T A/TA/

• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias • Todos los árboles posibles para la posición de cada nucleótido son considerados • Cuanto menor sea el número de mutaciones requeridas para ajustar un árbol a los datos, más probable es el árbol


I

II

III

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

T A/TA/

T A/TA/

T A/TA/

• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias • Todos los árboles posibles para la posición de cada nucleótido son considerados • Cuanto menor sea el número de mutaciones requeridas para ajustar un árbol a los datos, más probable es el árbol • ML evalua los árboles usando MODELOS EVOLUTIVOS EXPLÍCITOS • Así, el método puede ser usado para explorar las relaciones entre los diversos taxones

Si la secuencia es más larga:

• Si consideramos en gen de una longitud de 2 : Gen 1: ga • La probabilidad de observar este gen es el producto de

las probabilidades de observar cada carácter – p(g) = 0.4; p(a)=0.15 (por ejemplo) – Probabilidad (ga) = 0.4 x 0.15 = 0.06

Algunos inconvenientes

Atracción de ramas largas (long branch attraction)

LAS TASAS DE CAMBIO EN LAS TERMINALES DEL CLADOGRAMA ES MUCHO MAYOR QUE EN EL RESTO DEL ÁRBOL, DE FORMA TAL QUE LAS RAMAS LARGAS TENDERÍAN A ATRAERSE LLEVANDO A FILOGENIA ERRÓNEAS

Algunos inconvenientes Cambios múltiples (múltiple hits)

C A C G T A

1 2 3

1

Seq 1

Seq 2

Estimación para cada topología alternativas parámetros de sustitución y longitud de ramas

MÁXIMA VEROSIMILITUD

EXTREMADAMENTE LENTOS

INFERENCIA BAYESIANA

Utiliza ML como modelo de optimalidad evita los cálculos

extensos mediante la aplicación de la técnica

Markov chain Monte Carlo (MCMC)

¿Cual es la probabilidad de observar un dato?

• Si arrojamos una moneda al aire, y consideramos que la moneda no esta “cargada”, entonces la posibilidad de que salga cara es: 0.5. • Si pensamos que la moneda esta desequilibrada en cuanto a su

peso y esperamos obtener cara en un 80% de las veces, entonces la probabilidad de observar el dato es 0.8.

• Por lo tanto: la probabilidad de una observación depende del modelos que subyace a ese supuesto.

El dato no cambio, lo que cambio fue nuestro MODELO. Por lo tanto, bajo el nuevo modelos la probabilidad de observar un dato HA CAMBIADO

¿ Cuál es la probabilidad de observar un nucleótido “G”?

• Si tenemos una secuencia de AND de un solo nucleótido ¿cuál es la probablidad de observar una “G”?

• Al igual que en el ejemplo de la moneda, la probabilidad de observar una G dependerá del modelo de evolución de secuencia seleccionado.

• E.g.

– Modelo 1: frecuencia de G = 0.4 => probabilidad de (G) = 0.4 – Modelo 2: frecuencia de G = 0.1 => probabilidad de (G) =0.1 – Modelo 3: frecuencia de G = 0.25 => probabilidad de (G) = 0.25

Método Bayesiano Basado sobre el concepto de que uno puede estimar las propiedades estadísticas de un sistema después de medir su comportamiento en un gran número de pruebas, y comparar el comportamiento medido con alguna hipótesis nula. El soporte de la hipótesis se denomina probabilidad posterior

P (h/e) = P (h) . P (e/h) P ( e )

P (h) = probabilidad previa. Probabilidad asignada a la hipótesis antes de toda consideración de la prueba e P (h/e) = Probabilidad posterior P (e/h) = probabilidad de e dado h

Método Bayesiano El topología preferida es aquella que esta soportada por la distribución de los árboles muestreados con la más alta probabilidad a posteriori

P (h/e) = P (h) . P (e/h) P ( e )

P (h) = probabilidad previa. Probabilidad asignada a la hipótesis (árbol ) antes de toda consideración de la prueba e P (h/e) = Probabilidad posterior P (e/h) = probabilidad de e dado h

Paso 1: comienza con un árbol Ti Paso 2: selecciona un árbol vecino de ese árbol, Tj Paso 3: calculo de relación de probabilidad para Ti & Tj R = probabilidad (Tj) / probabilidad (Ti) Paso 4: si R > 1, se acepta el nuevo árbol Paso 5: si R < 1, se selecciona al azar un número entre 0 y 1: si el número al azar es < R, se acepta el nuevo árbol Paso 6: si no, se rechaza el nuevo árbol y se continua con Ti Paso 7: se retorna al paso 2

Método Bayesiano

Análisis Bayesiano-MrBayes

Noción de probabilidades posteriores: probabilidades que son estimadas, según un modelo elegido, luego de tener un conocimiento acerca de los datos.

Construcción de un árbol al azar o elección de un árbol determinado Evaluación del árbol según el modelo elegido “Generación”: cambio y evaluación de un nuevo árbol: si es mejor que el

anterior se acepta el nuevo árbol. Cada tantas Generaciones (especificadas por el usuario) se registra el

árbol y su verosimilitud en un archivo. Calculo del consenso de los arboles registrados Dibuja el árbol de consenso, con las longitudes de sus ramas Determinación de la fracción de arboles que contienen un clado

determinado. Esas probabilidades son equivalentes a los valores de bootstraps

Método Ventajas Desventajas Parsimonia Suficientemente rápida para el

análisis de cientos de secuencias; robusto si las ramas son cortas (secuencias próximamente relacionadas )

Puede tener un rendimiento pobre si hay variaciones sustanciales en la longitud de las ramas

Máxima Verosimilitud

La verosimilitud “captura” la información que los datos brindan sobre la filogenia bajo un modelo dado

Extremadamente lento

Bayesiano Íntimamente relacionado con la máxima verosimilitud; mucho más rápido

Se debe especificar una distribución a priori para los parámetros; es difícil determinar si la aproximación MCMC (Markov chain Monte Carlo) ha corrido lo suficiente

Algunos programas que implementan parsimonia

David Swofford Originalmente solo implementaba parsimonia o simplicidad Incluye métodos de parsimonia, matrices de distancias, máxima verosimilitud, varios métodos estadísticos e índices Versión para Macintosh con interface completa con mouse Versión para Windows con interface con línea de comandos Sinauer Associates web site.

PAUP

http://www.sinauer.com/

Pablo Goloboff, Fundación e Instituto Miguel Lillo 205, 4000 S. M. de Tucumán, Argentina, Farris, Nixon. (TNT = Tree analysis using New Technology) Implementa parsimonia para conjunto de datos de gran tamaño. "parsimony ratchet". Versión parta Windows, Linux y MacOS. La versión para Windows Libre

TNT

MrBayes Huelsenbeck & Ronquist (2001)

• BOOTSTRAP • JACKKNIFE • SOPORTE DE BREMER (DECAY INDEX)

Técnicas de re-muestreo

Soporte de los clados

• BOOTSTRAP Remuestreo con reposición

Obtención de matriz re-muestreada o pseudoréplica

Por cada matriz re-muestreada se obtiene un árbol

Grado de conflicto entre los árboles se mide mediante el consenso de mayoría

Porcentaje de las veces que aparecen los grupos en todos los

arboles comparados, se toma como una medida de soporte

• Jackknife

Las matrices son re-muestreadas pero sin reposición • El valor de jackknife indica el porcentaje de ocurrencia de una rama interna o clado, en los cladogramas resultantes de las matrices re-muestreadas • Se diferencia de las técnicas de Bootstrap en que las pseudoreplicas se crean eliminando columnas (=caracteres). Por lo tanto las matrices remuestreadas serán de menor tamaño que la original

• Soporte de Bremer (“Decay index” )

• Mide cuántos pasos extras se necesitan para que un clado en particular colapse • Para un clado el valor del IB = la diferencia de pasos entre a) el árbol más corto en que el clado en cuestión no aparece y b) el árbol más corto • El valor mínimo de apoyo es 1 (solo los clados que aparecen en todos los árboles más cortos tendrán un valor > 0) • A mayores valores mayor apoyo

filogenias moleculares - fcnym.unlp.edu.ar · feng & doolittle in 1987 esencialmente es un ....

Documents