uma abordagem computacional para a determinação de polimorfismos de base única

41
Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006

Upload: jeremy-brown

Post on 03-Jan-2016

16 views

Category:

Documents


0 download

DESCRIPTION

Uma abordagem computacional para a determinação de polimorfismos de base única. Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006. Roteiro. Conceitos B ásicos Motivação Objetivos Alinhamento de seqüências Detecção de SNPs e confiabilidade Correlação de SNPs Conclusão. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Uma abordagem computacional para a determinação de polimorfismos de base única

Uma abordagem computacional para a determinação de polimorfismos de

base única

Miguel GalvesOrientador: Zanoni Dias

IC - UNICAMP01/12/2006

Page 2: Uma abordagem computacional para a determinação de polimorfismos de base única

Roteiro Conceitos Básicos Motivação Objetivos Alinhamento de seqüências Detecção de SNPs e confiabilidade Correlação de SNPs Conclusão

Page 3: Uma abordagem computacional para a determinação de polimorfismos de base única

Processo básico de tradução genética A informação genética dos seres vivos é

armazenada em cadeias de nucleotídeos Bases A, C, G e T

Proteínas são geradas a partir da leitura da cadeia de nucleotídeos Processo de tradução

Proteína = cadeia de aminoácidos 1 aminoácido = 3 nucleotídeos = 1 códon

Page 4: Uma abordagem computacional para a determinação de polimorfismos de base única

Tradução

Page 5: Uma abordagem computacional para a determinação de polimorfismos de base única

Polimorfismos e SNP Polimorfismo: dois ou mais alelos diferentes

em indivíduos da mesma espécie Deve aparecer em pelo menos 1% da

população SNP: polimorfismo que ocorre em apenas

uma base da seqüência SNP sinônimo: não modifica o aminoácido SNP não sinônimo: modifica o aminoácido

Page 6: Uma abordagem computacional para a determinação de polimorfismos de base única

Porque estudar SNPs?

Correspondem a mais de 90% dos polimorfismos nos seres humanos

Causa de grande parte das doenças com base genética

Grande interesse das industrias farmacêuticas Criação de terapias específicas

Marcadores para mapeamento fino do genoma

Page 7: Uma abordagem computacional para a determinação de polimorfismos de base única

Objetivos do trabalho

Estudar 3 etapas distintas no processo de detecção e análise de SNPs: Alinhamento de ESTs com DNA genômico Detecção de SNPs por análise de

cromatograma Correlação de SNPs

Page 8: Uma abordagem computacional para a determinação de polimorfismos de base única

Alinhamento de DNA com ESTs

Page 9: Uma abordagem computacional para a determinação de polimorfismos de base única

Alinhamento de sequências

Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas

Exemplo: AGCTCGTTTG e ACCTTCGTTTTGAGC-TCGTTT-G

ACCTTCGTTTTG Pontuação permite avaliar o alinhamento Problema de otimização: obter o alinhamento

de melhor pontuação

Page 10: Uma abordagem computacional para a determinação de polimorfismos de base única

Algoritmos clássicos de alinhamento

Estratégias de alinhamento Global Semi-global Local

Sistemas de pontuação Simples: match, mismatch, gap Linear: match, mismatch e

gap(k) = g + hk

Page 11: Uma abordagem computacional para a determinação de polimorfismos de base única

Porque estudar alinhamento de mRNA com DNA?

Page 12: Uma abordagem computacional para a determinação de polimorfismos de base única

Objetivos desta etapa

Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA

Page 13: Uma abordagem computacional para a determinação de polimorfismos de base única

Metodologia

Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers

Criação de uma base de testes Definição de um conjunto de parâmetros de

alinhamento Execução de alinhamentos de mRNAs com

genes de origem Nosso alinhador, sim4, est_genome e Spidey

Definição de métricas para avaliação dos alinhamentos obtidos

Page 14: Uma abordagem computacional para a determinação de polimorfismos de base única

Conjunto de dados

1. 64 genes do cromossomo Y humano com menos de 100.000 bases

2. 40 genes completos do cromossomo Y humano com menos de 100.000 bases

3. 7376 genes completos do genoma humano com menos de 10.000 bases

4. 4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%

Page 15: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados obtidos - Conjunto 3

Extra Gap Delta Exon Similaridade Mismatch

(1,-2,-1,0) 0.00 0.00 99.89% 0.00%

(1,-2,-10,0) 0.00 0.01 99.89% 0.00%

Sim4 1.03 -0.03 99.18% 0.21%

Est_genome 15.56 -0.17 58.00% 1.31%

Spidey 0.12 -3.82 81.02% 0.17%

Page 16: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados obtidos - Conjunto 4

Page 17: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados obtidos - Conjunto 4

Page 18: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados obtidos

O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios

O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores

Sim4, est_genome e Spidey são mais regulares com ESTs com erros

Page 19: Uma abordagem computacional para a determinação de polimorfismos de base única

Detecção de SNPs

Page 20: Uma abordagem computacional para a determinação de polimorfismos de base única

Base-calling e sequenciamento

Page 21: Uma abordagem computacional para a determinação de polimorfismos de base única

Porque estudar base-calling? Pacote phred ignora sinais secundários no

cromatograma Apenas uma base por posição SNPs podem gerar sinais secundários

PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV

Page 22: Uma abordagem computacional para a determinação de polimorfismos de base única

Objetivos desta etapa

Detecção de SNPs em cromatogramas de seqüências de HIV

Estudo de métodos para determinação de confiabilidade dos resultados

Page 23: Uma abordagem computacional para a determinação de polimorfismos de base única

Metodologia

Definir algoritmos para análise e correção de cromatograma

Executar os algoritmos com diversos parâmetros, para análise preliminar

Determinação de dois algoritmos para tunning

Determinação do melhor algoritmo e do melhor conjunto de parâmetros

Page 24: Uma abordagem computacional para a determinação de polimorfismos de base única

Conjunto de dados

Sequências genéticas de HIV 1302 bp Região bem conservada

35 lotes de amostras de indivíduos soropositivos 6 leituras 1 seqüência validada, com SNPs anotados

manualmente

Sequência de referência de HIV

Page 25: Uma abordagem computacional para a determinação de polimorfismos de base única

Algoritmos de correção

Relação das Áreas Relação das Médias das Alturas Limite Variável Pico Único por Janela Eliminação de Picos Ruins Pico Mais Baixo

Page 26: Uma abordagem computacional para a determinação de polimorfismos de base única

Relação das Áreas

Page 27: Uma abordagem computacional para a determinação de polimorfismos de base única

Relação das Médias das Alturas

Page 28: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados obtidos

Verdadeiro Positivo

Falso Negativo

Falso Positivo

Área 75% 23% 394%

Média das alturas

53% 42% 317%

PolyPhred 0% 100% 0%

PolyBayes 0% 100% 0%

Page 29: Uma abordagem computacional para a determinação de polimorfismos de base única

Confiabilidade Estatística Comparação de dois métodos de

confiablidade estatística para SNPs: PolyBayes: estatística bayesiana MSASNP: qualidades das bases

Conjunto de teste: SNPs anotados do SUCEST

MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes

Page 30: Uma abordagem computacional para a determinação de polimorfismos de base única

Correlação de SNPs

Page 31: Uma abordagem computacional para a determinação de polimorfismos de base única

Linkage Disequilibrium

Associação não aleatória entre alelos Informações sobre um alelo fornece

informações sobre o outro Medidas para quantificar LDs

D’ = 1, chamado de LD completo r2 1/3, chamado de LD útil

LD múltiplo: conjunto de SNPs em LD dois a dois

Page 32: Uma abordagem computacional para a determinação de polimorfismos de base única

Porque estudar LDs?

Doenças genéticas podem ser influenciadas por vários SNPs correlacionados

LD permite efetuar mapeamento fino do genoma humano Técnica tradicional: definição de 1 a 2cM LD: definição de 0.1cM

Page 33: Uma abordagem computacional para a determinação de polimorfismos de base única

Objetivos desta etapa

Estudar LDs múltiplos Analisar o efeito do uso das medidas D’ e r2

Page 34: Uma abordagem computacional para a determinação de polimorfismos de base única

Metodologia

Pré-processamento do conjunto de dados Definição de uma heurística para busca de

cliques em grafos Problema NP-Difícil

Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2

Page 35: Uma abordagem computacional para a determinação de polimorfismos de base única

LDs múltiplos

Page 36: Uma abordagem computacional para a determinação de polimorfismos de base única

LDs múltiplos

(j, f, i, e, g, m, n)

(k, l, h)

Page 37: Uma abordagem computacional para a determinação de polimorfismos de base única

Conjunto de dados

ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados

Genes do genoma humano obtidos do NCBI: HLA-A, HLA-B e HLA-DOB Genes do complexo MHC Região com alta densidade de SNPs anotados

Page 38: Uma abordagem computacional para a determinação de polimorfismos de base única

Resultados

Bons resultados obtidos com tempo de busca de 5 segundos por clique

D’ apresenta resultados melhores Maior capacidade de agrupamento Menor tendência de isolamento de SNPs

r2 gera grafos com menos arestas

Page 39: Uma abordagem computacional para a determinação de polimorfismos de base única

Considerações finais

Foram estudadas 3 etapas distintas relacionadas a SNPs

Resultados bastante satisfatórios, tendo em vista o tipo de problema analisado

Seria interessante implementar um fluxo de trabalho único unindo estas etapas

Page 40: Uma abordagem computacional para a determinação de polimorfismos de base única

Trabalhos publicados Alinhamento

M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg.

Apresentado no BSB 2005, Porto Alegre - RS.

Detecção de SNPs M. Galves, J. A. A. Quitzau e Z. Dias,

"New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006.

Apresentado no X-Meeting 2005, Caxambu - MG.

Page 41: Uma abordagem computacional para a determinação de polimorfismos de base única

Relatórios técnicos LDs múltiplos

A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006.

Confiabilidade Estatística C. Baudet, M. Galves e Z. Dias,“Comparação de métodos

para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.