curso teórico-práctico de posgrado herramientas informáticas para el análisis estructural
DESCRIPTION
Curso Teórico-Práctico de Posgrado Herramientas informáticas para el análisis estructural de ácidos nucleicos y proteínas. ALINEAMIENTO MÚLTIPLE DE SECUENCIAS CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS. 2006. Nancy I. López. ALINEAMIENTO DE SECUENCIAS. - PowerPoint PPT PresentationTRANSCRIPT
Curso Teórico-Práctico de Posgrado
Herramientas informáticas
para el análisis estructural de ácidos nucleicos y
proteínasALINEAMIENTO MÚLTIPLE DE SECUENCIASALINEAMIENTO MÚLTIPLE DE SECUENCIAS
CONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOSCONSTRUCCIÓN DE ÁRBOLES FILOGENÉTICOS
2006
Nancy I. López
ALINEAMIENTO DE SECUENCIASALINEAMIENTO DE SECUENCIAS Comparación alineamiento de a pares.
Alineamiento múltiple comparando varias secuencias relacionadas Utilidad . Destacar regiones de similitud, divergencia o mutaciones
. Motivos, estructura y función en proteínas. Resaltar errores en la predicción de la secuencia de proteínas o en la secuencia misma
. Seleccionar primers de una familia de genes.
. Realizar análisis evolutivos (filogenia) árboles filogenéticos
Cómo obtener los mejores alineamientos
Homología.
Fragmentos que compartan regiones comunes o secuencia completa. Estructura / Secuencia?
Editar manualmente.
Alineamientos múltiples
La premisa básica de un alineamiento múltiple es que para cada columna en el alineamiento cada residuo de cada secuencia es homólogo. Esto significa que ha evolucionado desde la misma posición en una secuencia ancestral común sin inserción ni deleción.
información sobre estructura y función de proteínas modo de evoluciónfilogenia. En el caso de la filogenia molecular el resultado del análisis dependerá del alineamiento previo. Inspeccionar cuidadosamente ese alineamiento para ver que se incluye y que no.
En caso de utilizar genes que codifican proteínas: usar secuencia de proteínas o de DNA.
Agrupación (clustering) es uno de los más utilizados. Alineamientos óptimos requieren programas de computación.
Programa CLUSTALPrograma CLUSTALalineamiento global para un conjunto de secuencias Las secuencias son alineadas de a pares y los pares con puntaje (score) más alto son luego agrupados con otras secuencias y los grupos (clusters) son armados de acuerdo a la similitud. Árbol guía no da información filogenética. Secuencias similares más cercanas en el árbol (archivo.dnd)Alineamiento múltiple constituye un paso fundamental. Hasta 1989 alineamientos a mano. ClustalW –ClustalX
BioEdit
Métodos utilizados para realizar Métodos utilizados para realizar alineamientosalineamientos
ALINEAMIENTO MÚLTIPLE DE SECUENCIAS ALINEAMIENTO MÚLTIPLE DE SECUENCIAS UTILIZANDO EL PROGRAMA CLUSTALWUTILIZANDO EL PROGRAMA CLUSTALW
1. Secuencias en un archivo común en un formato compatible.Nombre >abcFormato FASTA
Genebank
2. Pegar archivo 3. Seleccionar opciones
MatricesDNA identity matrixGonnet 250
SeqA Name Len(aa) SeqB Name Len(aa) Score ============================================================================= 1 Ps.putida 304 2 Ps.fluorescensPfO-1 304 82 1 Ps.putida 304 3 Acinetobacter 311 52 1 Ps.putida 304 4 Ralstonia 307 50 2 Ps.fluorescensPfO-1 304 3 Acinetobacter 311 54 2 Ps.fluorescensPfO-1 304 4 Ralstonia 307 50 3 Acinetobacter 311 4 Ralstonia 307 52 ============================================================================= Alineamiento múltiple (basado en secuencia de proteínas-Fragmento) Ps.putida MTVNISHTAEVQQFFEQAAGFCNAAGNPRLKRIVQRLLQDTARLIEDLDISEDEFWHAVD 60 Ps.fluorescensPfO-1 MTVKIAHTAELQKFFEEAAGFANDGGSSRLKTIVLRVLQDTARIIEDLEISEDEFWKAVD 60 Acinetobacter MEVKIFNTQDVQDFLRVASGLEQEGGNPRVKQIIHRVLSDLYKAIEDLNITSDEYWAGVA 60 Ralstonia MTHAEIEALAKQFIVDTAT---QGTANARVQQVVLRLTTDLFKAIEDLDLSQSEVWKGIE 57 * .: * :. *: : ...*:: :: *: * : ****:::..* * .: Ps.putida YLNRLGGRGEAGLLVAGLGIEHFLDLLQDAKDQEAGRVGGTPRTIEGPLYVAGAPIAQGE 120 Ps.fluorescensPfO-1 YLNRLGGCSEAGLLVAGLGLEHFLDLLQDAKDAQIGLTGGTPRTIEGPLYVAGAPLYEGE 120 Acinetobacter YLNQLGANQEAGLLSPGLGFDHYLDMRMDAEDAALGIENATPRTIEGPLYVAGAPESVGY 120 Ralstonia YMAEAGATQELGLLAAGLGLERFLDVRADEADAKAGISGGTPRTIEGPLYVAGAPESKGF 117 *: . *. * *** .***::::**: * * * ..*************** *
Resultados del alineamiento múltiple de 4 proteínas
Árbol guía
Archivo de datos
>s1GCTCGGTATGTTGGTCGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAACGGCGCCATTGTCGATCAAA...............>s2GAcACTGCCCTCCCGATGCAGGGAAAAATCGGCGCCATTGTCGATCAATGAGCAGTAACGAACAAAATGC................>s3GCAAAGCgCacTTcAaATCaGGGCTCGACATCATCaCATAGCCCAccACGTCGTAAATgCCCGGCTTGACCAG.....
Árbol filogenético 1° alineamiento múltiple. Árbol obtenido dependiente de este alineamiento. Árbol estructura matemática que se usa para modelar la historia evolutiva de un grupo de secuencias o de organismos.
Árboles . se pueden graficar de cualquier manera
. complejidad rotación (todas las ramas pueden rotar alrededor del plano de sus nodos árboles =)
.crecen de izquierda a derecha
. etiquetas son horizontales.
Construcción de árboles filogenéticosFilogenia es la ciencia de estimar el pasado evolutivo. Filogenia molecular basada en comparación de secuencias de proteínas o de DNA.
Construcción de árboles filogenéticos
1. Definir conjunto de secuencias a analizar (DNA, RNA o proteínas) provenientes de distintos microorganismos
2. Alinear correctamente esas secuencias
3. Aplicar métodos adecuados para la construcción de árboles filogenéticos
4. Evaluar estadísticamente el árbol filogenético obtenido
NodosRamas Nodos terminales:OTUs (Datos)Nodos internos:antecesores hipotéticos
Raiz: nodo del cual los otros descienden. Da dirección
Patrón de ramificación:topología
Nr=(2n-3)!/[2n-2*(n-2)!], n ≥2
Nu=(2n-5)!/[2n-3*(n-3)!], n ≥3
Number of Taxa
Number of unrooted trees
Number of rooted trees
3 1 34 3 155 15 1056 105 9457 945 103958 10395 1351359 135135 2027025
10 2027025 34459425
NNrr para n = N para n = Nuu para para n+1n+1
Cladograma: es el modelo básico y simplemente muestra la distancia al antecesor común en términos relativos. Las ramas son de igual longitud por lo cual no indican el tiempo evolutivo. Filograma: contiene información adicional dada por la longitud de las ramas. Los números asociados con cada rama corresponden a un atributo de las secuencias, tal como cantidad de cambio evolutivo. Es aditivo. Métricos. Dendrograma: tipo especial de árbol aditivo en el cual los extremos del árbol son equidistantes de la raíz y son proporcionales al tiempo de divergencia. Ultramétricos.
Métodos para la construcción de árboles filogenéticosMétodos de distanciaMétodos de distanciaUtilizan matrices de distancia
UPGMA: Unweighted Pair Group Method with Arithmetic Mean.
NJ-Neighbour Joining. Vecino más cercano
Minimum evolution. Utiliza el método de cuadrados mínimos.
Métodos discretosMétodos discretosOperan directamente con las secuenciasOperan directamente con las secuencias
Parsimonia: usa un carácter. Criterio: buscar el menor número de cambios evolutivos requeridos
Máxima verosimilitud (Maximum likelihood): utiliza el estado del carácter y la distancia
Sitios
1 2 3 4 5 6 7 1 T T A T T A A
2 A A T T T A A3 A A A A A T A 4 A A A A A A T
Distancias 1 0
2 3 03 5 4 0
4 5 4 2 0___________ 1 2 3 4
Matriz de distanciasSe
cuen
cias
Diferencia o divergencia entre las secuencias
.- Rápidos
.- información restringida al árbol
Métodos discretosAnalizan cada columna dentro del alineamiento y construyen el mejor árbol que se ajusta a esa condición
.- lentos
.- ricos en información. Hipótesis para cada columna dentro del alineamiento. Puede obtenerse información sobre evolución de sitios específicos en la molécula (Ej.: sitios catalíticos o regiones regulatorias).
Cómo comparar diferentes métodos de construcción de árboles?
Eficiencia : rapidez“potencia”: número de datos requeridos para obtener resultados razonables Consistencia Robustez: sensibilidad a desviaciones Información sobre si los supuestos son violados.
METODO IDEAL DEBERIA CUMPLIR LOS 5 METODO IDEAL DEBERIA CUMPLIR LOS 5 CRITERIOS PERO NO EXISTECRITERIOS PERO NO EXISTE
Probar árboles con más de un método
4. Evaluación estadística del árbol filogenético obtenido
El test más simple para probar si el conjunto de datos “soportan” el árbol obtenido es el del bootstrap.
Es un método estadístico que puede estimar las distribuciones por creación repetida y análisis de conjuntos de datos artificiales.
Una forma de medir el error de muestreo es tomar muchas muestras de la población estudiada y compararlas. Bootstrap simula esto pero en lugar de muestrear de una población “remuestrea” los datos originando pseudorréplicas.
ProgramasClustalW Alineamiento
Graficar con Treeview, PhylodrawNJ-PlotPHYLIPMEGA 3.1 Es el más fácil de manejarPAUP* (POP STAR). Es el más
sofisticado y versátil
TRABAJO PRÁCTICO1. Tutorial de ClustalW
Secuencias simples
Alineamiento múltiple. Analizar. Observar árbol guía.
ClustalW para construir el árbol. Modificar opciones en la ventana “Phylogenetic tree”. Método utilizado por el programa es el del NJ-Vecino más cercano (Neighbour Joining). Elegir entre los posibles formatos de árbol (Neighbour, Phylip, Distance)
Con el archivo obtenido del CLustalW (. ph)entrar en el programa Treeview y graficar el árbol. Observar distintos tipos de árboles. Definir el outgroup