filogenias moleculares - fcnym.unlp.edu.ar · feng & doolittle in 1987 esencialmente es un ....
TRANSCRIPT
FILOGENIAS MOLECULARES
ADN se puede usar para estudiar la filogenia de los organismos. A partir del patrón de variación del ADN se puede deducir el proceso evolutivo.
VENTAJAS DE LOS DATOS MOLECULARES PERMITEN ESTUDIAR EL GENOMA
GRAN CANTIDAD DE DATOS
MAYOR OBJETIVIDAD
DESVENTAJAS DE LOS DATOS MOLECULARES
PROPORCIÓN DE DATOS VARIABLES SUELE SER BAJA (en relación con los invariables)
CARACTERES INFORMATIVOS (proporción aun más baja) DETERMINACION DE HOMOLOGÍAS
Fragmento de una secuencia de aminoácidos predicha a partir de la secuencia de ADN de un gen conservado desde bacterias hasta humanos. Se resaltan los sitios conservados.
Especie Secuencia de Aminoácidos Humano DAPGHRDFIKNMITGTSQADCAVLIV Tomate DAPGHRDFIKNMITGTSQADCAVLII Levadura DAPGHRDFIKNMITGTSQADCAILII Archaea DAPGHRDFVKNMITGASQADAAILVV Bacteria DCPGHADYVKNMITGAAQMDGAILVV Letras inmortales (conservadas)
D-PGH-D--KNMITG--Q-D---L--
Los tres dominios de la vida: Archaea, Bacteria y Eukarya.
Datos: filogenia molecular
Secuencias de proteínas Análisis de sitios de restricción
Secuencias de ADN de distintos
genes
Los genes están formados por EXONES (traducen a proteínas) y los INTRONES (no codificantes)
Tanto las zonas codificantes como no codificantes pueden ser utilizadas en sistemática
No pueden utilizarse zonas hipervariables o de ADN altamente repetitivo
ADN “Fingerprinting”
ADN altamente repetitivo
Genes de copia única (nucleares) Genes de copia múltiple Ribosomales (conservados: plantas18S, 26S; animales 18S, 28 S) Taxones superiores Mitocondriales (tasa mutación rápida en animales: COI, COII) → Especies próximas Estudios de Filogeografia Especies partenogenéticas Cloroplasto (ADN muy conservado: rbcL, rbcS) → Taxones superiores
ADN mitocondrial (ADNm)
• Múltiples copias, se heredan generalmente por vía materna (gameta femenina porta mitocondrias), generalmente hay homoplasmia (todas las mitocondrias son iguales) pocas regiones no codificantes
ESTABLECIMIENTO DE HOMOLOGÍAS
ALINEAMIENTO MÚLTIPLE DE SECUENCIAS
ESTIMACION FILOGENÉTICA
PRUEBAS DE CONFIABILIDAD DE LA TOPOLOGÍA INFERIDA
INTERPRETACIÓN EVOLUTIVA Y APLICACIÓN DE LAS FILOGENIAS
PROTOCOLO BÁSICO PARA UN ANÁLSIS FILOGENÉTICO DE SECUENCIAS MOLECULARES
• secuencias ortólogas
e.g. Clustal
e.g. NJ, PARASIMONIA, ML, Bayesiano
bootstrap, probabilidad posterior
HOMOLOGIA A NIVEL MOLECULAR
Secuencias de ADN
Test de SIMILTUD
Test de CONJUNCION
Test de CONGRUENCIA
EQUIV.MORF
ORTOLOGA + + + HOMOLOGIA
PARALOGA + - + HOMONOMIA
XENOLOGA (transferencia horizontal)
+ + - PARALELISMO
HOMOLOGIA A NIVEL MOLECULAR
Ortólogas: homólogas y reflejan la filogenia de las especies.
Parálogas: genes que han divergido después de un evento de duplicación. Pueden en algunos casos tener diferente función (e.g. familia de globinas)
HOMOLOGIA A NIVEL MOLECULAR
SECUENCIAR
DETERMINAR EL ORDEN EXACTO DE LOS PARES DE BASES EN UN SEGMENTO DE ADN
La alineación es una hipótesis de homología posicional entre bases/aminoácidos
Métodos de alineamiento múltiple de secuencias
3 métodos principales
Manual Automatizado (computarizado) Combinado
ALINEACIÓN DE SECUENCIAS DIFERENCIA EN LA LONGITUD DEBIDA A MUTACIONES INDEL (INSERCIONES Y DELECIONES): AGREGADO O PERDIDA DE BASES
INCORPORACIÓN DE GAPS
SE PUEDE ASIGNAR COSTOS DEFERENCIALES: • A LAS SUSTITUCIONES Y A LOS GAPS (e.g. 1 y 2 respectivamente) • O A LAS TRANSICIONES O TRANSVERSIONES • COSTO DIFERENCIAL A LOS GAPS MÁS LARGOS
Alternativas de alineación a) ACTTCCGAATTTGG - CT ACT - - CGA- - TTG - CCT En esta alineación no se registran sustituciones, pero hay 4 gaps.
b) ACTTCCGAATTTGGCT ACTC - - - GATT- GCCT En esta alineación se registran 3 sustituciones (4º, 8º y 14º posición)
y 2 gaps. c) ACTTCCGAATTTGGCT ACTC - - - - -GATTGCCT En esta alineación se registran 4 sustituciones (4º, 9º, 10º y 14º
posición) y 1 gap.
Alineamiento progresivo Feng & Doolittle in 1987
Esencialmente es un método heurístico y, como tal, no garantiza encontrar el alineamiento ‘óptimo’
Requiere n-1 pares de alineamientos como punto de partida.
Utiliza un árbol Neighbor-joining (guide tree) Una de las implementaciones más frecuentes es a
través de Clustal
Alineamiento múltiple
Métodos para construir Arboles
Métodos de Distancia: Neighborg Joining (NJ)
Parsimonia (MP)
Maxima verosimilitud (ML)
Bayesiano (BAY)
Métodos para construir Arboles
Métodos de Distancia: Neighborg Joining (NJ)
Convierte los datos en una matriz de distancia entre los taxa o secuencias
Ventaja: método rápido Desventaja: pérdida de información al transformar las secuencias en
distancias; difícil obtener estimaciones confiables de los pares de distancias para secuencias divergentes
Programas: PAUP, PHYLIP
Métodos para construir Arboles
Parsimonia (MP)
Busca el árbol o arboles con el mínimo numero de cambios
Ventajas: es rápido para el análisis de cientos de secuencias; es robusto si las ramas son cortas (secuencias estrechamente relacionadas o muestreo amplio)
Desventajas: tiene un bajo rendimiento si existe una alta variación en la longitud de las ramas
Programas: PAUP, NONA, TNT
CRITERIO DE OPTIMALIDAD (modelos de parsimonia) PESADO DE CARACTERES
A PRIORI
A POSTERIORI
- Pesado sucesivo - Pesos implicados
PESADO DE CARACTERES
A PRIORI
- De acuerdo con la posición relativa de la secuencia: mayor peso a la 1º o 1º y 2º posición eliminar la tercera posición
- En la misma posición: aplicar mayor peso a las transverciones que a las transiciones aplicar diferentes pesos a ciertos cambios de acuerdo con con frecuencias esperadas y observadas
Matrices de costos Matrices de costos especifican los costos de los
cambios en un carácter
A C G T A 0 5 1 5 C 5 0 5 1 G 1 5 0 5 T 5 1 5 0
G
C T
PURINAS (Pu)
PIRIMIDINAS (Py)
transiciones Py Py Pu Pu
trans
vers
ione
s
Py
Pu A
Matrices de costos Matrices de costos especifican los costos de los cambios en un caracter
A C G T A 0 5 1 5 C 5 0 5 1 G 1 5 0 5 T 5 1 5 0
a
desde
G
C T
PURINAS (Pu)
PIRIMIDINAS (Py)
transiciones Py Py Pu Pu
tran
sver
sion
es
Py
Pu A
Máxima verosimilitud (ML)
Máxima verosimilitud INFERENCIAS ESTADÍSTICAS
Cálculo del árbol “más verosímil” 1º- Comienzo (datos): secuencias alineadas 2º- Se designa un modelo de sustitución de nucleótidos basados en el árbol más “probable” (producido usando por ejemplo parsimonia o distancia e.g. neighbor-joining). Puede incluir Parámetros tales como frecuencias, probabilidades de diferentes tipo de trasnformaciones. 3º- Aplicación de búsquedas heurísticas para examinar topologías alternativas 4ª- Para cada topología se computa la probabilidad de la distribución observada de estados de caracteres entre los taxones para cada sitio como la suma de las probabilidades de Cada posible reconstrucción del estado ancestral (de acuerdo con el modelo seleccionado) 5º- Se computa la probabilidad del árbol como el producto de las probabilidades de Todos los sitios 6ª- La topología preferida es la que tiene más alta probabilidad .
Crea todas los árboles posibles, pero en lugar de retener los más cortos (menor número de pasos):
• Emplea modelos de evolución explícitos donde pueden considerarse distintas tasas de transiciones/transversiones
• Para cada árbol calcula la probabilidad de que refleje cada posición en la secuencia
• El cálculo se repite para cada sitio
• Finalmente, el árbol con la mejor probabilidad se selecciona el árbol con la más alta verosimilitud
MÁXIMA VEROSIMILITUD
Modelos de evolución de las secuencias
• Modelo de Jukes-Cantor (1969)
¿Cuáles son los modelos que se utilizan para estimar filogenias?:
• Kimura 2 parameter model (K2P) (1980)
• Hasegawa, Kishino & Yano (HKY) (1985)
• General time reversible model (GTR)
Modelos de evolución de las secuencias
Modelo de Jukes-Cantor (1969)
Todas las sustituciones tiene una probabilidad
y frecuencia iguales
A
C T
G α
α α
α α
α
Felsenstein (1981)
Todas las sustituciones tiene igual probabilidad,
pero la frecuencia de las bases NO es igual
A
C T
G α
α α
α α
α
Modelos de evolución de las secuencias
Kimura 2 parameter model (K2P) (1980)
Transiciones y transversiones tienen
diferente probabilidad
A Purinas
Pirimidinas C T
G α
α
β β β
β
Modelos de evolución de las secuencias
Hasegawa, Kishino & Yano (HKY) (1985)
Transiciones y transversiones tienen diferente probabilidad, y frecuencia de bases desiguales
A Purinas
Pirimidinas C T
G α
α
β β β
β
Modelos de evolución de las secuencias
General time reversible model (GTR)
Diferente probabilidad para cada sustitución,
y frecuencias de bases desiguales
A
C T
G α
β
χ
δ
ε φ
Modelos de evolución de las secuencias
Máxima Verosimilitud (= Maximum Likelihood) (ML)
I
II
III
bA
cA
dT
outgroupT
bA
cA
dT
outgroupT
bA
cA
dT
outgroupT
T A/TA/
T A/TA/
T A/TA/
• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias
Máxima Verosimilitud (= Maximum Likelihood) (ML)
I
II
III
bA
cA
dT
outgroupT
bA
cA
dT
outgroupT
bA
cA
dT
outgroupT
T A/TA/
T A/TA/
T A/TA/
• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias • Todos los árboles posibles para la posición de cada nucleótido son considerados
Máxima Verosimilitud (= Maximum Likelihood) (ML)
I
II
III
bA
cA
dT
outgroupT
bA
cA
dT
outgroupT
bA
cA
dT
outgroupT
T A/TA/
T A/TA/
T A/TA/
• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias • Todos los árboles posibles para la posición de cada nucleótido son considerados • Cuanto menor sea el número de mutaciones requeridas para ajustar un árbol a los datos, más probable es el árbol
Máxima Verosimilitud (= Maximum Likelihood) (ML)
I
II
III
bA
cA
dT
outgroupT
bA
cA
dT
outgroupT
bA
cA
dT
outgroupT
T A/TA/
T A/TA/
T A/TA/
• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias • Todos los árboles posibles para la posición de cada nucleótido son considerados • Cuanto menor sea el número de mutaciones requeridas para ajustar un árbol a los datos, más probable es el árbol • ML evalua los árboles usando MODELOS EVOLUTIVOS EXPLÍCITOS • Así, el método puede ser usado para explorar las relaciones entre los diversos taxones
Si la secuencia es más larga:
• Si consideramos en gen de una longitud de 2 : Gen 1: ga • La probabilidad de observar este gen es el producto de
las probabilidades de observar cada carácter – p(g) = 0.4; p(a)=0.15 (por ejemplo) – Probabilidad (ga) = 0.4 x 0.15 = 0.06
Algunos inconvenientes
Atracción de ramas largas (long branch attraction)
LAS TASAS DE CAMBIO EN LAS TERMINALES DEL CLADOGRAMA ES MUCHO MAYOR QUE EN EL RESTO DEL ÁRBOL, DE FORMA TAL QUE LAS RAMAS LARGAS TENDERÍAN A ATRAERSE LLEVANDO A FILOGENIA ERRÓNEAS
Algunos inconvenientes Cambios múltiples (múltiple hits)
C A C G T A
1 2 3
1
Seq 1
Seq 2
Estimación para cada topología alternativas parámetros de sustitución y longitud de ramas
MÁXIMA VEROSIMILITUD
EXTREMADAMENTE LENTOS
INFERENCIA BAYESIANA
Utiliza ML como modelo de optimalidad evita los cálculos
extensos mediante la aplicación de la técnica
Markov chain Monte Carlo (MCMC)
¿Cual es la probabilidad de observar un dato?
• Si arrojamos una moneda al aire, y consideramos que la moneda no esta “cargada”, entonces la posibilidad de que salga cara es: 0.5. • Si pensamos que la moneda esta desequilibrada en cuanto a su
peso y esperamos obtener cara en un 80% de las veces, entonces la probabilidad de observar el dato es 0.8.
• Por lo tanto: la probabilidad de una observación depende del modelos que subyace a ese supuesto.
El dato no cambio, lo que cambio fue nuestro MODELO. Por lo tanto, bajo el nuevo modelos la probabilidad de observar un dato HA CAMBIADO
¿ Cuál es la probabilidad de observar un nucleótido “G”?
• Si tenemos una secuencia de AND de un solo nucleótido ¿cuál es la probablidad de observar una “G”?
• Al igual que en el ejemplo de la moneda, la probabilidad de observar una G dependerá del modelo de evolución de secuencia seleccionado.
• E.g.
– Modelo 1: frecuencia de G = 0.4 => probabilidad de (G) = 0.4 – Modelo 2: frecuencia de G = 0.1 => probabilidad de (G) =0.1 – Modelo 3: frecuencia de G = 0.25 => probabilidad de (G) = 0.25
Método Bayesiano Basado sobre el concepto de que uno puede estimar las propiedades estadísticas de un sistema después de medir su comportamiento en un gran número de pruebas, y comparar el comportamiento medido con alguna hipótesis nula. El soporte de la hipótesis se denomina probabilidad posterior
P (h/e) = P (h) . P (e/h) P ( e )
P (h) = probabilidad previa. Probabilidad asignada a la hipótesis antes de toda consideración de la prueba e P (h/e) = Probabilidad posterior P (e/h) = probabilidad de e dado h
Método Bayesiano El topología preferida es aquella que esta soportada por la distribución de los árboles muestreados con la más alta probabilidad a posteriori
P (h/e) = P (h) . P (e/h) P ( e )
P (h) = probabilidad previa. Probabilidad asignada a la hipótesis (árbol ) antes de toda consideración de la prueba e P (h/e) = Probabilidad posterior P (e/h) = probabilidad de e dado h
Paso 1: comienza con un árbol Ti Paso 2: selecciona un árbol vecino de ese árbol, Tj Paso 3: calculo de relación de probabilidad para Ti & Tj R = probabilidad (Tj) / probabilidad (Ti) Paso 4: si R > 1, se acepta el nuevo árbol Paso 5: si R < 1, se selecciona al azar un número entre 0 y 1: si el número al azar es < R, se acepta el nuevo árbol Paso 6: si no, se rechaza el nuevo árbol y se continua con Ti Paso 7: se retorna al paso 2
Método Bayesiano
Análisis Bayesiano-MrBayes
Noción de probabilidades posteriores: probabilidades que son estimadas, según un modelo elegido, luego de tener un conocimiento acerca de los datos.
Construcción de un árbol al azar o elección de un árbol determinado Evaluación del árbol según el modelo elegido “Generación”: cambio y evaluación de un nuevo árbol: si es mejor que el
anterior se acepta el nuevo árbol. Cada tantas Generaciones (especificadas por el usuario) se registra el
árbol y su verosimilitud en un archivo. Calculo del consenso de los arboles registrados Dibuja el árbol de consenso, con las longitudes de sus ramas Determinación de la fracción de arboles que contienen un clado
determinado. Esas probabilidades son equivalentes a los valores de bootstraps
Método Ventajas Desventajas Parsimonia Suficientemente rápida para el
análisis de cientos de secuencias; robusto si las ramas son cortas (secuencias próximamente relacionadas )
Puede tener un rendimiento pobre si hay variaciones sustanciales en la longitud de las ramas
Máxima Verosimilitud
La verosimilitud “captura” la información que los datos brindan sobre la filogenia bajo un modelo dado
Extremadamente lento
Bayesiano Íntimamente relacionado con la máxima verosimilitud; mucho más rápido
Se debe especificar una distribución a priori para los parámetros; es difícil determinar si la aproximación MCMC (Markov chain Monte Carlo) ha corrido lo suficiente
Algunos programas que implementan parsimonia
David Swofford Originalmente solo implementaba parsimonia o simplicidad Incluye métodos de parsimonia, matrices de distancias, máxima verosimilitud, varios métodos estadísticos e índices Versión para Macintosh con interface completa con mouse Versión para Windows con interface con línea de comandos Sinauer Associates web site.
PAUP
Pablo Goloboff, Fundación e Instituto Miguel Lillo 205, 4000 S. M. de Tucumán, Argentina, Farris, Nixon. (TNT = Tree analysis using New Technology) Implementa parsimonia para conjunto de datos de gran tamaño. "parsimony ratchet". Versión parta Windows, Linux y MacOS. La versión para Windows Libre
TNT
MrBayes Huelsenbeck & Ronquist (2001)
• BOOTSTRAP • JACKKNIFE • SOPORTE DE BREMER (DECAY INDEX)
Técnicas de re-muestreo
Soporte de los clados
• BOOTSTRAP Remuestreo con reposición
Obtención de matriz re-muestreada o pseudoréplica
Por cada matriz re-muestreada se obtiene un árbol
Grado de conflicto entre los árboles se mide mediante el consenso de mayoría
Porcentaje de las veces que aparecen los grupos en todos los
arboles comparados, se toma como una medida de soporte
• Jackknife
Las matrices son re-muestreadas pero sin reposición • El valor de jackknife indica el porcentaje de ocurrencia de una rama interna o clado, en los cladogramas resultantes de las matrices re-muestreadas • Se diferencia de las técnicas de Bootstrap en que las pseudoreplicas se crean eliminando columnas (=caracteres). Por lo tanto las matrices remuestreadas serán de menor tamaño que la original
• Soporte de Bremer (“Decay index” )
• Mide cuántos pasos extras se necesitan para que un clado en particular colapse • Para un clado el valor del IB = la diferencia de pasos entre a) el árbol más corto en que el clado en cuestión no aparece y b) el árbol más corto • El valor mínimo de apoyo es 1 (solo los clados que aparecen en todos los árboles más cortos tendrán un valor > 0) • A mayores valores mayor apoyo