filogenias moleculares - fcnym.unlp.edu.ar · feng & doolittle in 1987 esencialmente es un ....

59
FILOGENIAS MOLECULARES ADN se puede usar para estudiar la filogenia de los organismos. A partir del patrón de variación del ADN se puede deducir el proceso evolutivo.

Upload: hoangnhu

Post on 25-Mar-2019

220 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

FILOGENIAS MOLECULARES

ADN se puede usar para estudiar la filogenia de los organismos. A partir del patrón de variación del ADN se puede deducir el proceso evolutivo.

Page 2: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

VENTAJAS DE LOS DATOS MOLECULARES PERMITEN ESTUDIAR EL GENOMA

GRAN CANTIDAD DE DATOS

MAYOR OBJETIVIDAD

DESVENTAJAS DE LOS DATOS MOLECULARES

PROPORCIÓN DE DATOS VARIABLES SUELE SER BAJA (en relación con los invariables)

CARACTERES INFORMATIVOS (proporción aun más baja) DETERMINACION DE HOMOLOGÍAS

Page 3: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Fragmento de una secuencia de aminoácidos predicha a partir de la secuencia de ADN de un gen conservado desde bacterias hasta humanos. Se resaltan los sitios conservados.

Especie Secuencia de Aminoácidos Humano DAPGHRDFIKNMITGTSQADCAVLIV Tomate DAPGHRDFIKNMITGTSQADCAVLII Levadura DAPGHRDFIKNMITGTSQADCAILII Archaea DAPGHRDFVKNMITGASQADAAILVV Bacteria DCPGHADYVKNMITGAAQMDGAILVV Letras inmortales (conservadas)

D-PGH-D--KNMITG--Q-D---L--

Page 4: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Los tres dominios de la vida: Archaea, Bacteria y Eukarya.

Page 5: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Datos: filogenia molecular

Secuencias de proteínas Análisis de sitios de restricción

Secuencias de ADN de distintos

genes

Page 6: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Los genes están formados por EXONES (traducen a proteínas) y los INTRONES (no codificantes)

Tanto las zonas codificantes como no codificantes pueden ser utilizadas en sistemática

No pueden utilizarse zonas hipervariables o de ADN altamente repetitivo

Page 7: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

ADN “Fingerprinting”

ADN altamente repetitivo

Page 8: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Genes de copia única (nucleares) Genes de copia múltiple Ribosomales (conservados: plantas18S, 26S; animales 18S, 28 S) Taxones superiores Mitocondriales (tasa mutación rápida en animales: COI, COII) → Especies próximas Estudios de Filogeografia Especies partenogenéticas Cloroplasto (ADN muy conservado: rbcL, rbcS) → Taxones superiores

Page 9: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

ADN mitocondrial (ADNm)

• Múltiples copias, se heredan generalmente por vía materna (gameta femenina porta mitocondrias), generalmente hay homoplasmia (todas las mitocondrias son iguales) pocas regiones no codificantes

Page 10: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

ESTABLECIMIENTO DE HOMOLOGÍAS

ALINEAMIENTO MÚLTIPLE DE SECUENCIAS

ESTIMACION FILOGENÉTICA

PRUEBAS DE CONFIABILIDAD DE LA TOPOLOGÍA INFERIDA

INTERPRETACIÓN EVOLUTIVA Y APLICACIÓN DE LAS FILOGENIAS

PROTOCOLO BÁSICO PARA UN ANÁLSIS FILOGENÉTICO DE SECUENCIAS MOLECULARES

• secuencias ortólogas

e.g. Clustal

e.g. NJ, PARASIMONIA, ML, Bayesiano

bootstrap, probabilidad posterior

Page 11: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

HOMOLOGIA A NIVEL MOLECULAR

Secuencias de ADN

Test de SIMILTUD

Test de CONJUNCION

Test de CONGRUENCIA

EQUIV.MORF

ORTOLOGA + + + HOMOLOGIA

PARALOGA + - + HOMONOMIA

XENOLOGA (transferencia horizontal)

+ + - PARALELISMO

Page 12: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

HOMOLOGIA A NIVEL MOLECULAR

Ortólogas: homólogas y reflejan la filogenia de las especies.

Parálogas: genes que han divergido después de un evento de duplicación. Pueden en algunos casos tener diferente función (e.g. familia de globinas)

Page 13: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

HOMOLOGIA A NIVEL MOLECULAR

Page 14: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

SECUENCIAR

DETERMINAR EL ORDEN EXACTO DE LOS PARES DE BASES EN UN SEGMENTO DE ADN

La alineación es una hipótesis de homología posicional entre bases/aminoácidos

Page 15: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Métodos de alineamiento múltiple de secuencias

3 métodos principales

Manual Automatizado (computarizado) Combinado

Page 16: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

ALINEACIÓN DE SECUENCIAS DIFERENCIA EN LA LONGITUD DEBIDA A MUTACIONES INDEL (INSERCIONES Y DELECIONES): AGREGADO O PERDIDA DE BASES

INCORPORACIÓN DE GAPS

SE PUEDE ASIGNAR COSTOS DEFERENCIALES: • A LAS SUSTITUCIONES Y A LOS GAPS (e.g. 1 y 2 respectivamente) • O A LAS TRANSICIONES O TRANSVERSIONES • COSTO DIFERENCIAL A LOS GAPS MÁS LARGOS

Page 17: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Alternativas de alineación a) ACTTCCGAATTTGG - CT ACT - - CGA- - TTG - CCT En esta alineación no se registran sustituciones, pero hay 4 gaps.

b) ACTTCCGAATTTGGCT ACTC - - - GATT- GCCT En esta alineación se registran 3 sustituciones (4º, 8º y 14º posición)

y 2 gaps. c) ACTTCCGAATTTGGCT ACTC - - - - -GATTGCCT En esta alineación se registran 4 sustituciones (4º, 9º, 10º y 14º

posición) y 1 gap.

Page 18: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Alineamiento progresivo Feng & Doolittle in 1987

Esencialmente es un método heurístico y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Requiere n-1 pares de alineamientos como punto de partida.

Utiliza un árbol Neighbor-joining (guide tree) Una de las implementaciones más frecuentes es a

través de Clustal

Page 19: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Alineamiento múltiple

Page 20: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Métodos para construir Arboles

Métodos de Distancia: Neighborg Joining (NJ)

Parsimonia (MP)

Maxima verosimilitud (ML)

Bayesiano (BAY)

Page 21: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Métodos para construir Arboles

Métodos de Distancia: Neighborg Joining (NJ)

Convierte los datos en una matriz de distancia entre los taxa o secuencias

Ventaja: método rápido Desventaja: pérdida de información al transformar las secuencias en

distancias; difícil obtener estimaciones confiables de los pares de distancias para secuencias divergentes

Programas: PAUP, PHYLIP

Page 22: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Métodos para construir Arboles

Parsimonia (MP)

Busca el árbol o arboles con el mínimo numero de cambios

Ventajas: es rápido para el análisis de cientos de secuencias; es robusto si las ramas son cortas (secuencias estrechamente relacionadas o muestreo amplio)

Desventajas: tiene un bajo rendimiento si existe una alta variación en la longitud de las ramas

Programas: PAUP, NONA, TNT

Page 23: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

CRITERIO DE OPTIMALIDAD (modelos de parsimonia) PESADO DE CARACTERES

A PRIORI

A POSTERIORI

- Pesado sucesivo - Pesos implicados

Page 24: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

PESADO DE CARACTERES

A PRIORI

- De acuerdo con la posición relativa de la secuencia: mayor peso a la 1º o 1º y 2º posición eliminar la tercera posición

- En la misma posición: aplicar mayor peso a las transverciones que a las transiciones aplicar diferentes pesos a ciertos cambios de acuerdo con con frecuencias esperadas y observadas

Page 25: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Matrices de costos Matrices de costos especifican los costos de los

cambios en un carácter

A C G T A 0 5 1 5 C 5 0 5 1 G 1 5 0 5 T 5 1 5 0

G

C T

PURINAS (Pu)

PIRIMIDINAS (Py)

transiciones Py Py Pu Pu

trans

vers

ione

s

Py

Pu A

Page 26: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Matrices de costos Matrices de costos especifican los costos de los cambios en un caracter

A C G T A 0 5 1 5 C 5 0 5 1 G 1 5 0 5 T 5 1 5 0

a

desde

G

C T

PURINAS (Pu)

PIRIMIDINAS (Py)

transiciones Py Py Pu Pu

tran

sver

sion

es

Py

Pu A

Page 27: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Máxima verosimilitud (ML)

Page 28: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Máxima verosimilitud INFERENCIAS ESTADÍSTICAS

Cálculo del árbol “más verosímil” 1º- Comienzo (datos): secuencias alineadas 2º- Se designa un modelo de sustitución de nucleótidos basados en el árbol más “probable” (producido usando por ejemplo parsimonia o distancia e.g. neighbor-joining). Puede incluir Parámetros tales como frecuencias, probabilidades de diferentes tipo de trasnformaciones. 3º- Aplicación de búsquedas heurísticas para examinar topologías alternativas 4ª- Para cada topología se computa la probabilidad de la distribución observada de estados de caracteres entre los taxones para cada sitio como la suma de las probabilidades de Cada posible reconstrucción del estado ancestral (de acuerdo con el modelo seleccionado) 5º- Se computa la probabilidad del árbol como el producto de las probabilidades de Todos los sitios 6ª- La topología preferida es la que tiene más alta probabilidad .

Page 29: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Crea todas los árboles posibles, pero en lugar de retener los más cortos (menor número de pasos):

• Emplea modelos de evolución explícitos donde pueden considerarse distintas tasas de transiciones/transversiones

• Para cada árbol calcula la probabilidad de que refleje cada posición en la secuencia

• El cálculo se repite para cada sitio

• Finalmente, el árbol con la mejor probabilidad se selecciona el árbol con la más alta verosimilitud

MÁXIMA VEROSIMILITUD

Page 30: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Modelos de evolución de las secuencias

• Modelo de Jukes-Cantor (1969)

¿Cuáles son los modelos que se utilizan para estimar filogenias?:

• Kimura 2 parameter model (K2P) (1980)

• Hasegawa, Kishino & Yano (HKY) (1985)

• General time reversible model (GTR)

Page 31: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Modelos de evolución de las secuencias

Modelo de Jukes-Cantor (1969)

Todas las sustituciones tiene una probabilidad

y frecuencia iguales

A

C T

G α

α α

α α

α

Page 32: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Felsenstein (1981)

Todas las sustituciones tiene igual probabilidad,

pero la frecuencia de las bases NO es igual

A

C T

G α

α α

α α

α

Modelos de evolución de las secuencias

Page 33: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Kimura 2 parameter model (K2P) (1980)

Transiciones y transversiones tienen

diferente probabilidad

A Purinas

Pirimidinas C T

G α

α

β β β

β

Modelos de evolución de las secuencias

Page 34: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Hasegawa, Kishino & Yano (HKY) (1985)

Transiciones y transversiones tienen diferente probabilidad, y frecuencia de bases desiguales

A Purinas

Pirimidinas C T

G α

α

β β β

β

Modelos de evolución de las secuencias

Page 35: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

General time reversible model (GTR)

Diferente probabilidad para cada sustitución,

y frecuencias de bases desiguales

A

C T

G α

β

χ

δ

ε φ

Modelos de evolución de las secuencias

Page 36: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Máxima Verosimilitud (= Maximum Likelihood) (ML)

I

II

III

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

T A/TA/

T A/TA/

T A/TA/

• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias

Page 37: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Máxima Verosimilitud (= Maximum Likelihood) (ML)

I

II

III

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

T A/TA/

T A/TA/

T A/TA/

• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias • Todos los árboles posibles para la posición de cada nucleótido son considerados

Page 38: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Máxima Verosimilitud (= Maximum Likelihood) (ML)

I

II

III

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

T A/TA/

T A/TA/

T A/TA/

• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias • Todos los árboles posibles para la posición de cada nucleótido son considerados • Cuanto menor sea el número de mutaciones requeridas para ajustar un árbol a los datos, más probable es el árbol

Page 39: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Máxima Verosimilitud (= Maximum Likelihood) (ML)

I

II

III

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

bA

cA

dT

outgroupT

T A/TA/

T A/TA/

T A/TA/

• Maximum Likelihood usa cálculos probabilísticos basados sobre un modelo específico de evolución de secuencias para encontrar un árbol mejor explique las variaciones en un set de secuencias • Todos los árboles posibles para la posición de cada nucleótido son considerados • Cuanto menor sea el número de mutaciones requeridas para ajustar un árbol a los datos, más probable es el árbol • ML evalua los árboles usando MODELOS EVOLUTIVOS EXPLÍCITOS • Así, el método puede ser usado para explorar las relaciones entre los diversos taxones

Page 40: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Si la secuencia es más larga:

• Si consideramos en gen de una longitud de 2 : Gen 1: ga • La probabilidad de observar este gen es el producto de

las probabilidades de observar cada carácter – p(g) = 0.4; p(a)=0.15 (por ejemplo) – Probabilidad (ga) = 0.4 x 0.15 = 0.06

Page 41: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Algunos inconvenientes

Atracción de ramas largas (long branch attraction)

LAS TASAS DE CAMBIO EN LAS TERMINALES DEL CLADOGRAMA ES MUCHO MAYOR QUE EN EL RESTO DEL ÁRBOL, DE FORMA TAL QUE LAS RAMAS LARGAS TENDERÍAN A ATRAERSE LLEVANDO A FILOGENIA ERRÓNEAS

Page 42: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Algunos inconvenientes Cambios múltiples (múltiple hits)

C A C G T A

1 2 3

1

Seq 1

Seq 2

Page 43: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Estimación para cada topología alternativas parámetros de sustitución y longitud de ramas

MÁXIMA VEROSIMILITUD

EXTREMADAMENTE LENTOS

INFERENCIA BAYESIANA

Utiliza ML como modelo de optimalidad evita los cálculos

extensos mediante la aplicación de la técnica

Markov chain Monte Carlo (MCMC)

Page 44: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

¿Cual es la probabilidad de observar un dato?

• Si arrojamos una moneda al aire, y consideramos que la moneda no esta “cargada”, entonces la posibilidad de que salga cara es: 0.5. • Si pensamos que la moneda esta desequilibrada en cuanto a su

peso y esperamos obtener cara en un 80% de las veces, entonces la probabilidad de observar el dato es 0.8.

• Por lo tanto: la probabilidad de una observación depende del modelos que subyace a ese supuesto.

El dato no cambio, lo que cambio fue nuestro MODELO. Por lo tanto, bajo el nuevo modelos la probabilidad de observar un dato HA CAMBIADO

Page 45: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

¿ Cuál es la probabilidad de observar un nucleótido “G”?

• Si tenemos una secuencia de AND de un solo nucleótido ¿cuál es la probablidad de observar una “G”?

• Al igual que en el ejemplo de la moneda, la probabilidad de observar una G dependerá del modelo de evolución de secuencia seleccionado.

• E.g.

– Modelo 1: frecuencia de G = 0.4 => probabilidad de (G) = 0.4 – Modelo 2: frecuencia de G = 0.1 => probabilidad de (G) =0.1 – Modelo 3: frecuencia de G = 0.25 => probabilidad de (G) = 0.25

Page 46: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Método Bayesiano Basado sobre el concepto de que uno puede estimar las propiedades estadísticas de un sistema después de medir su comportamiento en un gran número de pruebas, y comparar el comportamiento medido con alguna hipótesis nula. El soporte de la hipótesis se denomina probabilidad posterior

P (h/e) = P (h) . P (e/h) P ( e )

P (h) = probabilidad previa. Probabilidad asignada a la hipótesis antes de toda consideración de la prueba e P (h/e) = Probabilidad posterior P (e/h) = probabilidad de e dado h

Page 47: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Método Bayesiano El topología preferida es aquella que esta soportada por la distribución de los árboles muestreados con la más alta probabilidad a posteriori

P (h/e) = P (h) . P (e/h) P ( e )

P (h) = probabilidad previa. Probabilidad asignada a la hipótesis (árbol ) antes de toda consideración de la prueba e P (h/e) = Probabilidad posterior P (e/h) = probabilidad de e dado h

Page 48: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Paso 1: comienza con un árbol Ti Paso 2: selecciona un árbol vecino de ese árbol, Tj Paso 3: calculo de relación de probabilidad para Ti & Tj R = probabilidad (Tj) / probabilidad (Ti) Paso 4: si R > 1, se acepta el nuevo árbol Paso 5: si R < 1, se selecciona al azar un número entre 0 y 1: si el número al azar es < R, se acepta el nuevo árbol Paso 6: si no, se rechaza el nuevo árbol y se continua con Ti Paso 7: se retorna al paso 2

Método Bayesiano

Page 49: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Análisis Bayesiano-MrBayes

Noción de probabilidades posteriores: probabilidades que son estimadas, según un modelo elegido, luego de tener un conocimiento acerca de los datos.

Construcción de un árbol al azar o elección de un árbol determinado Evaluación del árbol según el modelo elegido “Generación”: cambio y evaluación de un nuevo árbol: si es mejor que el

anterior se acepta el nuevo árbol. Cada tantas Generaciones (especificadas por el usuario) se registra el

árbol y su verosimilitud en un archivo. Calculo del consenso de los arboles registrados Dibuja el árbol de consenso, con las longitudes de sus ramas Determinación de la fracción de arboles que contienen un clado

determinado. Esas probabilidades son equivalentes a los valores de bootstraps

Page 50: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Método Ventajas Desventajas Parsimonia Suficientemente rápida para el

análisis de cientos de secuencias; robusto si las ramas son cortas (secuencias próximamente relacionadas )

Puede tener un rendimiento pobre si hay variaciones sustanciales en la longitud de las ramas

Máxima Verosimilitud

La verosimilitud “captura” la información que los datos brindan sobre la filogenia bajo un modelo dado

Extremadamente lento

Bayesiano Íntimamente relacionado con la máxima verosimilitud; mucho más rápido

Se debe especificar una distribución a priori para los parámetros; es difícil determinar si la aproximación MCMC (Markov chain Monte Carlo) ha corrido lo suficiente

Page 51: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’
Page 52: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Algunos programas que implementan parsimonia

Page 53: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

David Swofford Originalmente solo implementaba parsimonia o simplicidad Incluye métodos de parsimonia, matrices de distancias, máxima verosimilitud, varios métodos estadísticos e índices Versión para Macintosh con interface completa con mouse Versión para Windows con interface con línea de comandos Sinauer Associates web site.

PAUP

Page 54: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

Pablo Goloboff, Fundación e Instituto Miguel Lillo 205, 4000 S. M. de Tucumán, Argentina, Farris, Nixon. (TNT = Tree analysis using New Technology) Implementa parsimonia para conjunto de datos de gran tamaño. "parsimony ratchet". Versión parta Windows, Linux y MacOS. La versión para Windows Libre

TNT

Page 55: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

MrBayes Huelsenbeck & Ronquist (2001)

Page 56: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

• BOOTSTRAP • JACKKNIFE • SOPORTE DE BREMER (DECAY INDEX)

Técnicas de re-muestreo

Soporte de los clados

Page 57: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

• BOOTSTRAP Remuestreo con reposición

Obtención de matriz re-muestreada o pseudoréplica

Por cada matriz re-muestreada se obtiene un árbol

Grado de conflicto entre los árboles se mide mediante el consenso de mayoría

Porcentaje de las veces que aparecen los grupos en todos los

arboles comparados, se toma como una medida de soporte

Page 58: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

• Jackknife

Las matrices son re-muestreadas pero sin reposición • El valor de jackknife indica el porcentaje de ocurrencia de una rama interna o clado, en los cladogramas resultantes de las matrices re-muestreadas • Se diferencia de las técnicas de Bootstrap en que las pseudoreplicas se crean eliminando columnas (=caracteres). Por lo tanto las matrices remuestreadas serán de menor tamaño que la original

Page 59: FILOGENIAS MOLECULARES - fcnym.unlp.edu.ar · Feng & Doolittle in 1987 Esencialmente es un . método heurístico. y, como tal, no garantiza encontrar el alineamiento ‘óptimo’

• Soporte de Bremer (“Decay index” )

• Mide cuántos pasos extras se necesitan para que un clado en particular colapse • Para un clado el valor del IB = la diferencia de pasos entre a) el árbol más corto en que el clado en cuestión no aparece y b) el árbol más corto • El valor mínimo de apoyo es 1 (solo los clados que aparecen en todos los árboles más cortos tendrán un valor > 0) • A mayores valores mayor apoyo