genômica e proteômica montagem de genomas. agosto / 2004labinfo – lncc / mct introdução...

64
Genômica e Proteômica Montagem de genomas

Upload: internet

Post on 17-Apr-2015

112 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Genômica e Proteômica

Montagem de genomas

Page 2: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Introdução

Queremos conhecer a seqüência de parte ou de todo o DNA de um organismo

A tecnologia disponível só recupera pequenas seqüências de DNA. No máximo 700-800 pb. Em média 450 pb

Se queremos pedaços maiores de DNA, temos que a partir destas pequenas seqüências, montar um “quebra-cabeças”

Page 3: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Introdução

Um tipo diferente de quebra-cabeças. Temos as peças, mas não sabemos o resultado final

Freqüentemente, nem temos todas as peças

É um problema computacional complexo!

Como ?

Page 4: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Introdução

Definir a estratégia de seqüenciamento Gerar as seqüências

Construção e validação de bibliotecas Seqüênciar

Montar Finalizar a seqüência genômica

Page 5: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Estratégia de seqüenciamento

Clone-by-clone (“Primeiro mapear, depois seqüênciar”)

Whole-genome shotgun sequencing

Hybrid shotgun sequencing

Expressed Sequence Tag - EST

Page 6: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Clone-by-clone e Whole-genome shotgun sequencing

Page 7: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Whole-genome shotgun sequencing

Page 8: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Whole-genome shotgun sequencing

Page 9: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Hybrid shotgun sequencing

Page 10: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Expressed Sequence Tag

A1 A2 A3B1 B2

C1 C2 C3

A1 A3A1 A2

EST

gene

genomaMensagem (ou

transcrito)

Splices alternativos do mesmo gene

Page 11: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Bibliotecas

Em qualquer estratégia temos que construir bibliotecas de seqüências de DNA

As bibliotecas devem ser validadas. Garantir: Que as seqüências tenham o tamanho esperado Que não exista contaminação e presença excessiva de

vetores Que a distribuição das seqüências seja a esperada

Para EST as bibliotecas podem ser de diferentes tecidos

Page 12: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Bibliotecas

Page 13: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Administração e gerência

No caso de redes de seqüenciamento, recepcionar os cromatogramas

Armazenar os cromatogramas Gerar relatórios sobre o seqüenciamento Divulgação de estatísticas sobre o

desenvolvimento do projeto

Page 14: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Administração e gerência

Page 15: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Administração e gerência

Page 16: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Administração e gerência

Page 17: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Estratégia híbrida

Leitura dos cromatogramas converter os dados provenientes de seqüenciadores (reads) em seqüências de nucleotídeos, associando a cada um o seu respectivo valor de qualidade

Montagem comparar as seqüências, utilizando também os valores de qualidade, para encontrar a sobreposição entre elas e gerar as seqüências de consenso, chamadas contigs Objetivo: Um contig !!!

Page 18: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Estratégia híbrida

Analisar a montagem Acompanhar a evolução do número de contigs

Determinar quando se deve parar o seqüenciamento de bibliotecas e/ou iniciar o processo de finalização do genoma

Identificar problemas de montagem. Ex.: Presença de repetições gerando montagens erradas

Page 19: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Estratégia híbrida

Finalizar o genoma Ordenar e orientar os contigs (scaffold)

Utilizar os clones de shotgun e de outras bibliotecas (cosmídoes, bacs etc) para construir os scaffolds

Definir estratégias específicas para fechar “gaps” – espaços entre contigs – no genoma

Garantir que todas as bases tenham um valor mínimo de qualidade, para que tenhamos no máximo uma base errada em um milhão.

Page 20: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Leitura dos cromatogramas

A leitura dos cromatogramas é a realizada pelo programa phred

O phred nomeia cada base e atribue um valor de qualidade para cada base lida

A qualidade está relacionada a probabilidade que tenha ocorrido um erro na nomeação da base

Page 21: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Leitura dos cromatogramas

Q = -10 log10( Pe ) Q Qualidade e Pe Probabilidade de erro Ex.: 1 erro em 100 bases

Q = -10 log10(1/100) Q = 20 Ex.: 1 erro em 10000 bases

Q = -10 log10(1/10000) Q = 40 Ex.: 1 erro em 1000000 bases

Q = -10 log10(1/1000000) Q = 60

Page 22: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Leitura dos cromatogramas

Page 23: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Leitura dos cromatogramas

Page 24: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Leitura dos cromatogramas

O phred gera um arquivo contendo as bases e as respectivas qualidades

Page 25: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Filtragem de vetores

Trechos de seqüências de DNA correspondentes a vetores devem ser filtradas

Utiliza-se um programa (cross_match) de alinhamento de seqüências para procurar na seqüência de cada fragmento a presença do vetor

O trecho correspondente tem cada uma de suas base substituídas por “x”

Page 26: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Filtragem de vetores

Page 27: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Montagem

Determinar a ordem e orientação de uma coleção de fragmentos de um mesmo DNAFragmento

ATAGACCCAT

GACCCAT

ATGCATGCCATA

CCAT

GACTGCCATA

CCATGCATG

Alinhamento

ATAGACCCAT

---GACCCAT

--------ATGCATGCCATA

------CCAT

----------GACTGCCATA

------CCATGCATG

ATAGACCCATGCATGCCConsenso

Page 28: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Montagem

Page 29: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Programas / pacotes de montagem

Assembler (www.tigr.org) Bambus – Programa para gerar scaffold

CAP3 (genome.cs.mtu.edu)

phred/phrap/consed (www.phrap.org)

Staden (www.mrc-lmb.cam.ac.uk) – GAP4 Pode utilizar o CAP3 ou o phrap

Page 30: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

CAP3

Identificação e remoção de regiões de baixa qualidade, no início e no fim dos reads

Alinhamento entre reads para identificação de sobreposição

Identificação e remoção de falsos alinhamentos

Page 31: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

CAP3

Formação dos contigs através da junção dos

reads em ordem decrescente da pontuação dos

alinhamentos Correção nos contigs através da validação

forward-reverse Alinhamento múltiplo dos reads para a

construção da seqüência de consenso Geração dos arquivos de saída (links, ace etc)

Page 32: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

phrap

Tratamento das seqüências Conversão de trechos de bases iguais, no início e

no fim dos reads em “N” Identificação e exclusão de reads iguais Exclusão de regiões, provavelmente não filtradas,

de vetores do alinhamento Determinação dos singlets (reads que não tem

alinhamento com nenhum outro read)

Page 33: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

phrap

Identificação de sobreposição Formação dos contigs Determinação do consenso Determinação dos links entre contigs e do

scaffold Geração dos arquivos de saída (log, ace,

contigs etc)

Page 34: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Pipeline da montagem

Entrada: cromatogramas

Base-calling(phred) – phd_file

Conversão (phd2fasta)phd_files multifasta e multifasta.qual

Filtragem (cross_match)de vetores e repetições multifasta.screen

Montagem (phrap / cap3)

Arquivo de * Clones (formcon) multifasta.screen.con

* Somente para o CAP3

Page 35: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Análise da montagem

Page 36: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Análise da montagem

Contig 1 Contig 4 Contig 5

b P1 gb P8 g

b P7 g

b P2 g

b C2 g

b C1 g

b P6 g

b P3 g

b P4 g

b P5 g

b P9 g

b P10 gb P11 g

b P12 g

b C3 gb C4 g

b C6 gb C5 g

b C7 g

Page 37: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Análise da montagem

Page 38: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Análise da montagem

Page 39: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Identificação de repetições

Repetição trechos de DNA ao longo do(s) cromossomo(s)

Se a repetição tiver um tamanho próximo ou maior que a média do tamanha dos reads, o programa de montagem pode colocá-lo em uma região errada

Page 40: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Identificação de repetições

Repetições ambíguas

A B C D

A C B D

Page 41: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Identificação de repetições

Repetições colapsadasA B C

A B C

Page 42: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Identificação de repetições

Como identificar: Regiões de contigs que “empilham” reads Regiõe(s) que têm match com outras regiõe(s) Regiões que apresentam links de pontas de

clones inconsistentes Regiões em que existem mais de um read com

bases discrepantes em relação ao consenso

Page 43: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Identificação de repeats

Regiões que “empilham” reads

Page 44: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Identificação de repeats

Regiõe(s) que têm match com outras regiõe(s)

Page 45: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Identificação de repeats

Regiõe(s) que têm match com outras regiõe(s)

Page 46: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Identificação de repeats

Regiões que apresentam links de pontas de clones inconsistentes

Page 47: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Identificação de repeats

Regiões em que existem mais de um read com bases discrepantes em relação ao consenso

Page 48: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Problemas nos contigs

Low Consensus Quality (LCQ) É uma região do consenso, cujas bases possuem qualidade menor ou igual a 25. Indica uma região que está coberta por reads de baixa qualidade.

High Quality Discrepancies (HQD) São bases de um read que estão discrepantes em relação ao consenso e são de qualidade superior a 40.

Positions not Confirmed on both Strands (NCBS) Posições no consenso que não estão confirmadas nas duas fitas.

Reads quiméricos

Page 49: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Problemas nos contigs - LCQ

Page 50: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Problemas nos contigs - HQD

Page 51: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Problemas nos contigs - HQD

Page 52: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Problemas nos contigs - NCBS

Page 53: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Problemas nos contigs - Quimera

Page 54: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Finalização do genoma

Estratégias para resolver os problemas de montagem dos contigs (LCQ, HQD, NCBS, quimeras)

Estratégias para resolver os problemas de repetição Fechar os gaps gerados pelos filtros

Estratégias para fechar os demais gaps. Gaps dentro de scaffolds (virtuais) e entre scaffolds (reais)

Page 55: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Finalização do genoma -- HQD

Retirar os reads que contenham HQD, remontar o contig isoladamente e comparar as seqüências

Retirar o(s) read(s)s que determina(m) o consenso, remontar o contig isoladamente e comparar as seqüências (muitos reads e muitas bases com HQD)

Ressequenciar reads da região

Page 56: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Finalização do genoma – LCQ e NCBS

Ressequenciar reads que estejam com baixa qualidade

Desenhar e sequenciar reads de primer

Gerar uma subblioteca de um clone e sequenciá-lo completamente.

Page 57: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Finalização do genoma – Quimeras

Retirar os reads quiméricos . Realizar a montagem isolada e comparar os consensos

Se houver diferença, ressequenciar reads da região, inclusive o quimérico

Page 58: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Finalização do genoma – fechamento de gaps

Ressequenciar reads que estejam com baixa qualidade nas extremidades dos contigs

Desenhar e sequenciar reads de primer

Gerar uma subblioteca de um clone e sequenciá-lo completamente.

Page 59: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Finalização do genoma – fechamento de gaps (filtro)

Montar separadamente os dois contigs de cada gap, ou apenas, as duas extremidades. Pode ser necessário montar com diferentes

programas (cap3 e phrap) para estabelecermos comparações

Garantir que, na medida do possível, os clones estejam com as duas pontas (forward e reverse). Resgatar, para isto, as pontas que se tornaram singlets

Page 60: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Finalização do genoma – fechamento de gaps (filtro)

Realizar experimentos que confirmem que os dois contigs do gap realmente estão juntos e na orientação indicada pelo scaffold (Ex. PCR combinatório)

Desenhar e sequenciar reads de primer Gerar uma subblioteca de um clone e

sequenciá-lo completamente. Sequenciar o produto de PCR

Page 61: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Genomas montados no LABINFO

Chromobacterium violaceum e Mycoplasma synoviae (www.brgene.lncc.br)

Mycoplasma hyopneumoniae J e Mycoplasma hyopneumoniae 7448 (www.genesul.lncc.br)

Page 62: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Genomas em andamento no LABINFO

Xylella fastidiosa Ann1 e Xylella fastidiosa Dixon (www.xylella.lncc.br)

Rhizobium tropici (www.nbf.lncc.br)

Leifsonia xyli cynodontis (www.leifsonia.lncc.br)

Page 63: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

EST

A montagem de EST, é na verdade, a construção de clusters (grupos) de seqüências de EST que são originadas da expressão de um mesmo gene

O pipeline é semelhante a montagem de genomas completos. Com exceção da filtragem de repeats.

Tanto o programa CAP3, quanto o phrap podem ser utilizados

Page 64: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um

Agosto / 2004LABINFO – LNCC / MCT

Referências

Green, ED – Strategies for the systematic sequencing of comples genomes (Nature Reviews – Genetics, vol 2, agosto 2001, 573-583) (http://www.nature.com/cgi-taf/DynaPage.taf?file=/nrg/journal/v2/n8/full/nrg0801_573a_fs.html)

Huang, X e Madan, A – CAP3: A DNA Sequence Assembly Program (Genome Research)

www.phrap.org Telles, GP et all - Bioinformatics of the sugarcane EST project

(Genetics and Molecular Biology, vol 24, n1-4, 2001) Telles, GP e Silva FR – Trimming and clustering sugarcane

ESTs (Genetics and Molecular Biology, vol 24, n1-4, 2001)