marcos catanho
DESCRIPTION
Curso de Introdução à Bioinformática. Programa de Qualificação Docente da CAPES Convênio: UFPE - UFCG - Fiocruz. Comparação de Seqüências e Busca por Similaridade. Marcos Catanho. Laboratório de Genômica Funcional e Bioinformática DBBM-IOC / Fiocruz. Agenda. Motivação Métodos utilizados - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/1.jpg)
Marcos Catanho
Curso de Introdução àBioinformática
Laboratório de Genômica Funcional e BioinformáticaDBBM-IOC / Fiocruz
Programa de Qualificação Docente da CAPESConvênio: UFPE - UFCG - Fiocruz
Comparação de Seqüências e Busca por Similaridade
![Page 2: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/2.jpg)
Agenda
Motivação Métodos utilizados Problemas freqüentes Heurística para alinhamento local
(BLAST) Pacotes de programas para análise
de seqüências
![Page 3: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/3.jpg)
Os motivos...
Comparação entre seqüências biológicas (ácidos nucléicos e proteínas) uma das tarefas computacionais mais freqüentes entre pesquisadores da área biológica.
![Page 4: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/4.jpg)
Os motivos... Este tipo de análise permite que
relações evolutivas, estruturais e funcionais existentes entre as seqüências comparadas sejam reveladas, fornecendo evidências decisivas para a caracterização das propriedades biológicas de novas seqüências com base no conhecimento acumulado sobre outras já estudadas.
![Page 5: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/5.jpg)
Os motivos...
Se as seqüências comparadas são suficientemente similares entre si, infere-se que estas seqüências sejam homólogas.
E sendo assim, presume-se que elas tenham a mesma estrutura e função biológica.
![Page 6: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/6.jpg)
Os problemas...
Qual o grau de similaridade mínimo entre duas seqüências para que possam ser consideradas homólogas?
Similaridade ao nível da seqüência primária por si só é suficiente para determinar se duas seqüências são homólogas ou não?
![Page 7: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/7.jpg)
Os problemas... O que fazer quando a seqüência de
função desconhecida é bastante similar a várias seqüências de um outro organismo, mas que exercem funções diferentes no mesmo? Qual delas é o “verdadeiro homólogo”? O mais similar?
Já foi demonstrado que muitas vezes não é... “E agora José?”
Portanto, em princípio, similaridade não implica necessariamente em homologia.
![Page 8: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/8.jpg)
Nem tudo está perdido... Será? Atualmente, os algoritmos de
comparação de seqüências são acompanhados por estimativas estatísticas que fornecem uma medida do grau de significância das similaridades observadas, auxiliando a dedução de homologia.
Mesmo assim, significado estatístico não implica necessariamente em significado biológico...
![Page 9: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/9.jpg)
(Parênteses - algoritmo)
É um conjunto de instruções ordenadas para execução de uma ação qualquer.
![Page 10: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/10.jpg)
Os métodos...
Durante a evolução, as seqüências mudam através de inserções, deleções e mutações.
Estes eventos podem ser traçados com uso de algoritmos de alinhamento.
![Page 11: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/11.jpg)
Os métodos... Por exemplo, suponha que a
seqüência a tenha evoluído para a seqüência b, através de inserções, substituições e deleções. Podemos representar esta transformação da seguinte maneira:
a = A C - T T G Ab = A G A T T - A
![Page 12: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/12.jpg)
Os métodos...
O objetivo é achar o alinhamento “correto” que representa a verdadeira série de eventos evolutivos que ocorreram.
![Page 13: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/13.jpg)
Os métodos... Para cada alinhamento, calcula-se o
número de pontos obtidos (score), com base em um esquema de pontuação (ou matriz de substituição) e em valores arbitrados de penalidade para a abertura e extensão de espaços nas seqüências alinhadas (gap opening/extension penalties).
![Page 14: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/14.jpg)
Os métodos...
a = A C - T T G A
b = A G A T T - A
pontuação = 1 0 -1 1 1 -1 1
score = 1+0+(-1)+1+1+(-1)+1 = 2
Esquema de pontuação:
match = 1 mismatch = 0 gap = -1
![Page 15: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/15.jpg)
(Parênteses – matriz de substituição)
É uma matriz representando todas as possíveis trocas entre aminoácidos, onde um valor é atribuído a cada uma destas trocas.
Esses valores são proporcionais à probabilidade de ocorrência de cada troca, tomando-se como base um determinado modelo evolutivo.
![Page 16: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/16.jpg)
(Parênteses – matrizes de substituição)
![Page 17: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/17.jpg)
(Parênteses – matrizes de substituição) PAM (Percent Accepted Mutation)
family: Baseiam-se em alinhamentos globais
de proteínas muito próximas PAM1 é a matriz calculada a partir da
comparação de seqüências com não mais do que 1% de divergência
As demais matrizes PAM são extrapolações da PAM1
![Page 18: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/18.jpg)
(Parênteses – matrizes de substituição) BLOSUM (BLOcks SUbstitution Matrix)
family: Baseiam-se em alinhamentos locais de
proteínas BLOSUM 62 é a matriz calculada a partir da
comparação de seqüências com não menos do que 62% de divergência
Todas as matrizes BLOSUM baseiam-se em alinhamentos observados; não há extrapolações
![Page 19: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/19.jpg)
Dica importante! Seqüências que codifiquem proteínas ou
que potencialmente codifiquem proteínas devem ser alinhadas na forma de aminoácidos e não de nucleotídeos.
Motivos: Maior precisão (por causa da degeneração do
código genético) Maior sensibilidade (leva em conta
características físico-químicas dos aminoácidos)
![Page 20: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/20.jpg)
Os métodos...
Alinhamento global Alinhamento de pares de seqüências
nucleotídicas ou protéicas ao longo de toda a extensão das mesmas.
Apropriado nos casos em que se espera que as seqüências estudadas sejam similares ao longo de toda a seqüência ou na maior parte dela.
![Page 21: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/21.jpg)
Os métodos... Alinhamento local
Alinhamento de uma ou mais partes de duas seqüências nucleotídicas ou protéicas.
Apropriado nos casos em que se espera que apenas algumas regiões específicas das seqüências estudadas (e.g domínios) sejam similares entre si.
Neste caso, o alinhamento global das seqüências poderia não ser apropriado (as similaridades locais poderiam ser “mascaradas”)
![Page 22: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/22.jpg)
Os métodos... Rigorous Dynamic Programming
Needleman & Wunsch (1970) (global) Smith & Waterman (1981) (local) SSEARCH
Heuristics Lipman & Pearson (1985,1988) (local)
FASTA Altschul et al. (1990,1997) (local) BLAST Feng & Doolittle (1987) (global) Thompson et al. (1994) (global) ClustalW
![Page 23: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/23.jpg)
BLAST - Basic Local Alignment Search Tool
Provavelmente a ferramenta computacional mais utilizada em biologia molecular e bioinformática
Busca seqüências armazenadas nos bancos de dados pela similaridade entre a estrutura primária da seqüência query e as seqüências armazenadas no banco
![Page 24: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/24.jpg)
BLAST - Basic Local Alignment Search Tool
Propriedades biológicas descritas para seqüências armazenadas podem ser transferidas para a seqüência query desde que suas estruturas primárias sejam semelhantes
O maior problema é definir um cut-off, um limite abaixo do qual as similaridades encontradas entre a query e os hits não sejam mais significativos
![Page 25: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/25.jpg)
BLAST - Basic Local Alignment Search Tool
É um método heurístico para alinhamentos locais
Projetado especialmente para buscas em bancos de dados
Idéia básica: bons alinhamentos irão conter pequenos trechos de combinações iguais
![Page 26: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/26.jpg)
BLAST - versões
![Page 27: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/27.jpg)
BLAST - algoritmo 1. Filtrar as regiões de baixa complexidade
FTLPQITTPPITTPPLTIDPINLTGFTLPQITTPPITTPPLFN |||
FTLPQ(ITTPP)2LTIDPINLTGFTLPQ(ITTPP)2LFN
FTLPQXXXXXXXXXXLTIDPINLTGFTLPQXXXXXXXXXXLFN
![Page 28: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/28.jpg)
BLAST - algoritmo 2. Fragmentar a seqüência query e as
seqüências depositadas no banco de dados, criando “palavras“ (de comprimento 3 para proteínas e 11 para DNA) através do uso de uma janela deslizante
MEF EFP FPG PGL GLG
MEFPGLGSLGTSEPLPQFVDPALVSS
![Page 29: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/29.jpg)
BLAST - algoritmo
3. Utilizando uma matriz de substituição (pontuação) (PAM, BLOSUM), encontrar todas as “palavras” de tamanho W que obtenham, no mínimo, um no. de pontos (score) T quando comparadas com a seqüência query, criando uma lista de “palavras” de alta pontuação
![Page 30: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/30.jpg)
BLAST - algoritmo 4. Procurar em cada seqüência
depositada no banco de dados por uma ou mais ocorrências de cada “palavra” de alta pontuação. Cada uma destas ocorrências (hit) será uma “semente” para um alinhamento sem gaps
5. Estender os hits em ambas as direções, na tentativa de gerar alinhamentos com score acima de um limiar S
![Page 31: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/31.jpg)
BLAST - algoritmo 5.1. BLAST original (ungapped): extensão dos
hits à esquerda e à direita da “semente”, sem gaps. Esta extensão irá continuar enquanto o score aumentar ou pelo menos continuar o mesmo. O alinhamento obtido é chamado HSP (High Scoring Pair)
5.2. Atualmente (gapped): hits ao longo da mesma diagonal (Dot plot) com uma distância A entre os dois são reunidos e a extensão se dá com a seqüência maior obtida
![Page 32: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/32.jpg)
(Parênteses – Dot Plots - matrizes de homologia)
Auto-comparação do receptor de LDL humano. A: janela = 1, estringência = 1 B: janela = 23, estringência = 7
![Page 33: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/33.jpg)
BLAST - algoritmo
6. Reter somente os HSPs com score acima do limiar S
7. Determinar a significância estatística de cada alinhamento remanescente (p-value e E-value)
8. Mostrar os alinhamentos locais (de acordo com Smith-Waterman)
![Page 34: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/34.jpg)
Resultado (input) Seqüência em formato FASTA
Primeira linha: cabeçalho (header) Demais linhas: seqüência
Símbolo “>” Nome da seqüência Descrição da seqüência
![Page 35: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/35.jpg)
Resultado (campo de busca)
![Page 36: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/36.jpg)
Resultado (opções)
![Page 37: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/37.jpg)
Resultado (formato)
![Page 38: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/38.jpg)
Resultado (busca)
![Page 39: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/39.jpg)
Resultado (BLASTN) O output é dividido em cinco
partes: 1. Header contendo a versão do BLAST,
data da compilação, referência, RID, etc. 2. Representação gráfica dos alinhamentos 3. Sumário com uma descrição em uma
linha de cada hit 4. Os alinhamentos com seus respectivos
parâmetros calculados 5. Rodapé com a descrição detalhada dos
parâmetros de busca empregados, o banco de dados, etc.
![Page 40: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/40.jpg)
Resultado (header)
![Page 41: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/41.jpg)
Resultado (graphical overview)
![Page 42: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/42.jpg)
Resultado (one-line descriptions)
![Page 43: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/43.jpg)
Resultado (links)
G: Gene (banco de dados de genes)
U: UniGene (banco de dados de clusters de genes)
E: GEO Profile (dados de expressão gênica e hibridização genômica obtidos por tecnologia high-throughput)
![Page 44: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/44.jpg)
Resultado (alignments)
![Page 45: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/45.jpg)
>gi|50363246|gb|AY661748.1| Polyodon spathula Hoxa-11 (Hoxa-11) gene, partial cds Length = 1452 Score = 278 bits (140), Expect = 1e-71 Identities = 203/224 (90%) Strand = Plus / Plus Query: 19 tactacgtttcgggtcccgatttctccagcctcccttcttttttgccccagaccccgtct 78 |||||||| |||||||| |||||||||||||||||||| ||||| |||||||| |||||| Sbjct: 2 tactacgtctcgggtcctgatttctccagcctcccttcctttttaccccagacaccgtct 61 Query: 79 tctcgccccatgacatactcctattcgtctaatctaccccaagttcaacctgtgagagaa 138 |||||||||||||| ||||| ||| ||||||| || ||||| |||||||||||||||||| Sbjct: 62 tctcgccccatgacgtactcttatccgtctaacctgccccaggttcaacctgtgagagaa 121 Query: 139 gttaccttcagggactatgccattgatacatccaataaatggcatcccagaagcaattta 198 || |||||||||||||||||||||||| |||||| ||||||||||| |||||||||| || Sbjct: 122 gtaaccttcagggactatgccattgatgcatccagtaaatggcatcacagaagcaatcta 181 Query: 199 ccccattgctactcaacagaggagattctgcacagggactgcct 242 |||||||||| ||| ||||||||||| ||||||| |||||||| Sbjct: 182 tcccattgctattcagcagaggagattatgcacagagactgcct 225
Score = 48.1 bits (24), Expect = 0.024 Identities = 33/36 (91%) Strand = Plus / Plus Query: 529 agcccagagtcttcttccggcaacaatgaggagaaa 564 ||||| ||||| ||||||||||||||||| |||||| Sbjct: 509 agccctgagtcctcttccggcaacaatgaagagaaa 544
Score = 46.1 bits (23), Expect = 0.095 Identities = 32/35 (91%) Strand = Plus / Plus Query: 367 caagcctttgaccagtttttcgagacggcttatgg 401 ||||||||||| |||||||| |||||||| ||||| Sbjct: 347 caagcctttgatcagttttttgagacggcgtatgg 381
HSPs
![Page 46: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/46.jpg)
Resultado (footer)
![Page 47: Marcos Catanho](https://reader036.vdocuments.pub/reader036/viewer/2022062520/56815940550346895dc6805b/html5/thumbnails/47.jpg)
GCG (pago) http://www.accelrys.com/products/
gcg/ EMBOSS (livre)
http://emboss.sourceforge.net/ Staden (livre)
http://staden.sourceforge.net/
Pacotes de programas para análise de seqüências