alineamiento multiple: metodos alternativos grace velapatiño maría jesús olarte sofía espinoza...
Post on 02-Feb-2016
228 Views
Preview:
TRANSCRIPT
ALINEAMIENTO MULTIPLE:METODOS ALTERNATIVOS
Grace VelapatiñoMaría Jesús Olarte
Sofía EspinozaJimena Murguía
Alineamiento de dos secuencias - mismo principio - alineamiento múltiple
Alinear óptimamente las secuencias para obtener el mayor numero de caracteres similares dentro de la misma columna
del alineamiento
Métodos usados para alineamiento múltiple
1) Alineamiento global progresivo de las secuencias - comienzan con un alineamiento de las secuencias mas parecidas y luego construyen un alineamiento adicionando mas secuencias. ( CLUSTAL)
2) Métodos iterativos que se basan en hacer un alineamiento inicial de grupos de secuencias y luego revisan los alineamientos para lograr un resultado mas razonable.( DIALING)
3) Métodos estadísticos y modelos probabilísticos de las secuencias.( modelos de Markov)
1) Alineamientos basados en patrones conservados encontrados en el mismo orden en las secuencias.
Método progresivo
•ClustalW
Hay tres etapas importantes:
1.Hacer un alineamiento por pares
2.Crear un árbol filogenetico
3.Usar el árbol filogenético para llevar a cabo el alineamiento múltiple
Principales problemas
•Dependencia de los alineamientos de los pares iniciales utilizados.
•Escoger una matriz adecuada y penalidad de gaps.
METODOS ITERATIVOSMETODOS ITERATIVOS
Métodos Iterativos
Objetivo: Mejorar el score general del alineamiento (Suma de pares*)
Realinear repetidamente subgrupos de las secuencias y luego alinear éstos en un alineamiento global de todas las secuencias
Selección de los grupos: Orden de las secuencias en un árbol filogenético
Secuencia separadas
Selección aleatoria
Programas: PRRP, DIALIGN, SAGA, etc.
Repetitivo: Instrucciones ejecutadas múltiples veces, genera aproximaciones sucesivas a una solución
Algoritmo Genético
Simulación de los cambios evolutivos en
secuencias.
Mediante rearreglos
Score cada vez más alto para el
AM
Programa SAGA (Sequence Alignment by Genetic Algorithm)
Equivalencias
Población: grupo de secuencias alineadas
Fitness: score
Generación: grupo de alineamientos resultantes de cambios en el grupo inicial o anterior
Operadores genéticos: mutaciones (inserciones: gaps) y recombinación (rearreglos)
Pasos del algoritmo
Población inicial
Se pone a prueba el fitness de cada individuo
Individuos con el mejor fitness son
seleccionados
Son modificados
Mutación Recombinación
Nueva población
Terminación
Se alcanzó número máximo de
generaciones o fitness satisfactorio
Población de msa
Se determina un score para cada msa
Score1 Score2 Score3 Score4
Fitness
msas con los mejores scores
Directamente a siguiente generación
Los demás msas
Siguiente generación
Mutación
Inserción de gaps
Mover bloque
s de gaps
RecombinaciónCondiciones de
terminación
Nuevos msa
Nueva población
Pasos del algoritmo
MODELO OCULTO DE MODELO OCULTO DE MARKOV (HHM)MARKOV (HHM)
Modelo oculto de Markov (HMM) Modelo oculto de Markov (HMM)
Modelo estadístico que asume que el sistema a modelar sigue un PROCESO DE MARKOV de parámetros desconocidos dependencia del evento anterior
OBJETIVO determinar los parámetros desconocidos (ocultos) a partir de parámetros observables.
salidas observables
estados ocultos
probabilidades de transición
probabilidades de salida
•En el HMM el estado no es visible más sí las variables influidas por el estado.
•Cada estado tiene una distribución de probabilidad sobre los posibles símbolos de salida.
•En el modelo de Markov normal los estados son visibles. (a son los únicos parámetros)
HMM en el MSAHMM en el MSA
•Método que considera todas las posibles combinaciones de matches, mismatches, gaps y las transiciones para generar un alineamiento de un conjunto se secuencias.
•HMM aparte de ser utilizado para MSA también se utiliza para analizar la composición de secuencias, para localizar genes prediciendo ORF y para producir predicciones de estructuras secundarias de proteínas.
En los términos de un típico modelo oculto de Markov:
Estados observables columnas individuales del alineamiento
A C A - - - A T G T C A A C T A T C A C A C - - A G C A G A - - - A T C A C C G - - A T C
Estados ocultos la supuesta secuencia ancestral desde la cual las secuencias del conjunto problema se presume han descendido.
El éxito de un HMM depende de tener un buen modelo “a priori”.
- Cada columna es un estado
- Contar el número de bases en cada columna (probabilidades)
Algoritmos asociados a HMMAlgoritmos asociados a HMM
ALGORITMO DE AVANCE - RETROCESO
EL algoritmo avance-retroceso: reduce la complejidad de encontrar todos los posibles caminos para alinear las secuencias.
El HMM comienza con un alineamiento al azar construye un modelo mejora las probabilidades en base a un entrenamiento iterativo se detiene cuando los alineamientos no cambian.
Algoritmos asociados a HMMAlgoritmos asociados a HMM
ALGORITMO DE BAUM-WELCH
El algoritmo de Baum-Welch utiliza una técnica iterativa que utiliza las probabilidades de transición y emisión para generar un nuevo modelo de HMM. (el proceso se repite hasta que no obtenga mejora en el modelo)
ALGORITMO DE VITERBI
El algoritmo de ViIterbi se usa para alinear sucesivamente el MSA en crecimiento con la siguiente secuencia del conjunto problema para generar un nuevo MSA. ( DIFERENTE a MDAP).
Ventajas: Ventajas:
•Usualmente un HHM arroja un MSA bueno.
•Es un método fundamentado por la teoría de la probabilidad
•No se requiere de un orden en las secuencias
•Las penalidades de inserción y deleción no son necesarias.
•Se puede utilizar información experimental
Desventajas:Desventajas:
Se necesitan al menos 20 secuencias (si no más) para poder acomodar la historia evolutiva.
SOFTWARESOFTWARE
•HMMer : realiza alineamiento de secuencias y búsqueda en bases de datos.
•SAM (Sequence Alignment and Modeling System, sistema de alineamiento y modelado de secuencia).
•SAM se ha usado como una fuente de alineamientos para predicción de estructura de proteínas y para desarrollar una base de datos de proteínas predichas en la especie de levadura S. CerevisiaeS. Cerevisiae
ALINEAMIENTOS LOCALIZADOS DE
SECUENCIAS (motif finding)
Alineamientos Localizados de Secuencias (motif finding)
Localización de motivos en MSA globales.
Dependiendo de si las regiones altamente conservadas (‘‘motivos’’) contienen o no gaps:
Profile Analysis (regiones con gaps) Block Analysis (sin gaps)
Profile Analysis (regiones con gaps) Se genera matriz, similar a una de sustitución,
denominada perfil (profile)
Buscar otras secuencias con motivos similares (otros miembros de la misma familia???)
Para refinar los alineamientos múltiples de secuencias (MSAs), mejorándolos.
Blocks Analysis (sin gaps)
Los bloques se pueden generar desde un MSA o pueden ser extraídos de secuencias sin alinear usando un conjunto precalculado de motivos previamente generado a partir de familias conocidas de genes para lo cual se han desarrollado métodos estadísticos de descubrimiento de patrones (ej: algoritmo expectación-maximización, el muestreo de Gibbs, HMM, etc).
La puntuación de los bloques depende generalmente del espaciado de los caracteres con altas frecuencias, en lugar de recaer sobre el cálculo de una matriz de sustitución explícita.
Utilidad: Alineamientos basados en patrones localmente conservados
top related