genômica e proteômica montagem de genomas. agosto / 2004labinfo – lncc / mct introdução...
TRANSCRIPT
![Page 1: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/1.jpg)
Genômica e Proteômica
Montagem de genomas
![Page 2: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/2.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Introdução
Queremos conhecer a seqüência de parte ou de todo o DNA de um organismo
A tecnologia disponível só recupera pequenas seqüências de DNA. No máximo 700-800 pb. Em média 450 pb
Se queremos pedaços maiores de DNA, temos que a partir destas pequenas seqüências, montar um “quebra-cabeças”
![Page 3: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/3.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Introdução
Um tipo diferente de quebra-cabeças. Temos as peças, mas não sabemos o resultado final
Freqüentemente, nem temos todas as peças
É um problema computacional complexo!
Como ?
![Page 4: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/4.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Introdução
Definir a estratégia de seqüenciamento Gerar as seqüências
Construção e validação de bibliotecas Seqüênciar
Montar Finalizar a seqüência genômica
![Page 5: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/5.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Estratégia de seqüenciamento
Clone-by-clone (“Primeiro mapear, depois seqüênciar”)
Whole-genome shotgun sequencing
Hybrid shotgun sequencing
Expressed Sequence Tag - EST
![Page 6: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/6.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Clone-by-clone e Whole-genome shotgun sequencing
![Page 7: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/7.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Whole-genome shotgun sequencing
![Page 8: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/8.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Whole-genome shotgun sequencing
![Page 9: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/9.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Hybrid shotgun sequencing
![Page 10: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/10.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Expressed Sequence Tag
A1 A2 A3B1 B2
C1 C2 C3
A1 A3A1 A2
EST
gene
genomaMensagem (ou
transcrito)
Splices alternativos do mesmo gene
![Page 11: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/11.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Bibliotecas
Em qualquer estratégia temos que construir bibliotecas de seqüências de DNA
As bibliotecas devem ser validadas. Garantir: Que as seqüências tenham o tamanho esperado Que não exista contaminação e presença excessiva de
vetores Que a distribuição das seqüências seja a esperada
Para EST as bibliotecas podem ser de diferentes tecidos
![Page 12: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/12.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Bibliotecas
![Page 13: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/13.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Administração e gerência
No caso de redes de seqüenciamento, recepcionar os cromatogramas
Armazenar os cromatogramas Gerar relatórios sobre o seqüenciamento Divulgação de estatísticas sobre o
desenvolvimento do projeto
![Page 14: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/14.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Administração e gerência
![Page 15: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/15.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Administração e gerência
![Page 16: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/16.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Administração e gerência
![Page 17: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/17.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Estratégia híbrida
Leitura dos cromatogramas converter os dados provenientes de seqüenciadores (reads) em seqüências de nucleotídeos, associando a cada um o seu respectivo valor de qualidade
Montagem comparar as seqüências, utilizando também os valores de qualidade, para encontrar a sobreposição entre elas e gerar as seqüências de consenso, chamadas contigs Objetivo: Um contig !!!
![Page 18: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/18.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Estratégia híbrida
Analisar a montagem Acompanhar a evolução do número de contigs
Determinar quando se deve parar o seqüenciamento de bibliotecas e/ou iniciar o processo de finalização do genoma
Identificar problemas de montagem. Ex.: Presença de repetições gerando montagens erradas
![Page 19: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/19.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Estratégia híbrida
Finalizar o genoma Ordenar e orientar os contigs (scaffold)
Utilizar os clones de shotgun e de outras bibliotecas (cosmídoes, bacs etc) para construir os scaffolds
Definir estratégias específicas para fechar “gaps” – espaços entre contigs – no genoma
Garantir que todas as bases tenham um valor mínimo de qualidade, para que tenhamos no máximo uma base errada em um milhão.
![Page 20: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/20.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Leitura dos cromatogramas
A leitura dos cromatogramas é a realizada pelo programa phred
O phred nomeia cada base e atribue um valor de qualidade para cada base lida
A qualidade está relacionada a probabilidade que tenha ocorrido um erro na nomeação da base
![Page 21: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/21.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Leitura dos cromatogramas
Q = -10 log10( Pe ) Q Qualidade e Pe Probabilidade de erro Ex.: 1 erro em 100 bases
Q = -10 log10(1/100) Q = 20 Ex.: 1 erro em 10000 bases
Q = -10 log10(1/10000) Q = 40 Ex.: 1 erro em 1000000 bases
Q = -10 log10(1/1000000) Q = 60
![Page 22: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/22.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Leitura dos cromatogramas
![Page 23: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/23.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Leitura dos cromatogramas
![Page 24: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/24.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Leitura dos cromatogramas
O phred gera um arquivo contendo as bases e as respectivas qualidades
![Page 25: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/25.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Filtragem de vetores
Trechos de seqüências de DNA correspondentes a vetores devem ser filtradas
Utiliza-se um programa (cross_match) de alinhamento de seqüências para procurar na seqüência de cada fragmento a presença do vetor
O trecho correspondente tem cada uma de suas base substituídas por “x”
![Page 26: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/26.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Filtragem de vetores
![Page 27: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/27.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Montagem
Determinar a ordem e orientação de uma coleção de fragmentos de um mesmo DNAFragmento
ATAGACCCAT
GACCCAT
ATGCATGCCATA
CCAT
GACTGCCATA
CCATGCATG
Alinhamento
ATAGACCCAT
---GACCCAT
--------ATGCATGCCATA
------CCAT
----------GACTGCCATA
------CCATGCATG
ATAGACCCATGCATGCCConsenso
![Page 28: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/28.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Montagem
![Page 29: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/29.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Programas / pacotes de montagem
Assembler (www.tigr.org) Bambus – Programa para gerar scaffold
CAP3 (genome.cs.mtu.edu)
phred/phrap/consed (www.phrap.org)
Staden (www.mrc-lmb.cam.ac.uk) – GAP4 Pode utilizar o CAP3 ou o phrap
![Page 30: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/30.jpg)
Agosto / 2004LABINFO – LNCC / MCT
CAP3
Identificação e remoção de regiões de baixa qualidade, no início e no fim dos reads
Alinhamento entre reads para identificação de sobreposição
Identificação e remoção de falsos alinhamentos
![Page 31: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/31.jpg)
Agosto / 2004LABINFO – LNCC / MCT
CAP3
Formação dos contigs através da junção dos
reads em ordem decrescente da pontuação dos
alinhamentos Correção nos contigs através da validação
forward-reverse Alinhamento múltiplo dos reads para a
construção da seqüência de consenso Geração dos arquivos de saída (links, ace etc)
![Page 32: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/32.jpg)
Agosto / 2004LABINFO – LNCC / MCT
phrap
Tratamento das seqüências Conversão de trechos de bases iguais, no início e
no fim dos reads em “N” Identificação e exclusão de reads iguais Exclusão de regiões, provavelmente não filtradas,
de vetores do alinhamento Determinação dos singlets (reads que não tem
alinhamento com nenhum outro read)
![Page 33: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/33.jpg)
Agosto / 2004LABINFO – LNCC / MCT
phrap
Identificação de sobreposição Formação dos contigs Determinação do consenso Determinação dos links entre contigs e do
scaffold Geração dos arquivos de saída (log, ace,
contigs etc)
![Page 34: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/34.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Pipeline da montagem
Entrada: cromatogramas
Base-calling(phred) – phd_file
Conversão (phd2fasta)phd_files multifasta e multifasta.qual
Filtragem (cross_match)de vetores e repetições multifasta.screen
Montagem (phrap / cap3)
Arquivo de * Clones (formcon) multifasta.screen.con
* Somente para o CAP3
![Page 35: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/35.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Análise da montagem
![Page 36: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/36.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Análise da montagem
Contig 1 Contig 4 Contig 5
b P1 gb P8 g
b P7 g
b P2 g
b C2 g
b C1 g
b P6 g
b P3 g
b P4 g
b P5 g
b P9 g
b P10 gb P11 g
b P12 g
b C3 gb C4 g
b C6 gb C5 g
b C7 g
![Page 37: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/37.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Análise da montagem
![Page 38: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/38.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Análise da montagem
![Page 39: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/39.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Identificação de repetições
Repetição trechos de DNA ao longo do(s) cromossomo(s)
Se a repetição tiver um tamanho próximo ou maior que a média do tamanha dos reads, o programa de montagem pode colocá-lo em uma região errada
![Page 40: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/40.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Identificação de repetições
Repetições ambíguas
A B C D
A C B D
![Page 41: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/41.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Identificação de repetições
Repetições colapsadasA B C
A B C
![Page 42: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/42.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Identificação de repetições
Como identificar: Regiões de contigs que “empilham” reads Regiõe(s) que têm match com outras regiõe(s) Regiões que apresentam links de pontas de
clones inconsistentes Regiões em que existem mais de um read com
bases discrepantes em relação ao consenso
![Page 43: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/43.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Identificação de repeats
Regiões que “empilham” reads
![Page 44: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/44.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Identificação de repeats
Regiõe(s) que têm match com outras regiõe(s)
![Page 45: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/45.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Identificação de repeats
Regiõe(s) que têm match com outras regiõe(s)
![Page 46: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/46.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Identificação de repeats
Regiões que apresentam links de pontas de clones inconsistentes
![Page 47: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/47.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Identificação de repeats
Regiões em que existem mais de um read com bases discrepantes em relação ao consenso
![Page 48: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/48.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Problemas nos contigs
Low Consensus Quality (LCQ) É uma região do consenso, cujas bases possuem qualidade menor ou igual a 25. Indica uma região que está coberta por reads de baixa qualidade.
High Quality Discrepancies (HQD) São bases de um read que estão discrepantes em relação ao consenso e são de qualidade superior a 40.
Positions not Confirmed on both Strands (NCBS) Posições no consenso que não estão confirmadas nas duas fitas.
Reads quiméricos
![Page 49: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/49.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Problemas nos contigs - LCQ
![Page 50: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/50.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Problemas nos contigs - HQD
![Page 51: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/51.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Problemas nos contigs - HQD
![Page 52: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/52.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Problemas nos contigs - NCBS
![Page 53: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/53.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Problemas nos contigs - Quimera
![Page 54: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/54.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Finalização do genoma
Estratégias para resolver os problemas de montagem dos contigs (LCQ, HQD, NCBS, quimeras)
Estratégias para resolver os problemas de repetição Fechar os gaps gerados pelos filtros
Estratégias para fechar os demais gaps. Gaps dentro de scaffolds (virtuais) e entre scaffolds (reais)
![Page 55: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/55.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Finalização do genoma -- HQD
Retirar os reads que contenham HQD, remontar o contig isoladamente e comparar as seqüências
Retirar o(s) read(s)s que determina(m) o consenso, remontar o contig isoladamente e comparar as seqüências (muitos reads e muitas bases com HQD)
Ressequenciar reads da região
![Page 56: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/56.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Finalização do genoma – LCQ e NCBS
Ressequenciar reads que estejam com baixa qualidade
Desenhar e sequenciar reads de primer
Gerar uma subblioteca de um clone e sequenciá-lo completamente.
![Page 57: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/57.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Finalização do genoma – Quimeras
Retirar os reads quiméricos . Realizar a montagem isolada e comparar os consensos
Se houver diferença, ressequenciar reads da região, inclusive o quimérico
![Page 58: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/58.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Finalização do genoma – fechamento de gaps
Ressequenciar reads que estejam com baixa qualidade nas extremidades dos contigs
Desenhar e sequenciar reads de primer
Gerar uma subblioteca de um clone e sequenciá-lo completamente.
![Page 59: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/59.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Finalização do genoma – fechamento de gaps (filtro)
Montar separadamente os dois contigs de cada gap, ou apenas, as duas extremidades. Pode ser necessário montar com diferentes
programas (cap3 e phrap) para estabelecermos comparações
Garantir que, na medida do possível, os clones estejam com as duas pontas (forward e reverse). Resgatar, para isto, as pontas que se tornaram singlets
![Page 60: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/60.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Finalização do genoma – fechamento de gaps (filtro)
Realizar experimentos que confirmem que os dois contigs do gap realmente estão juntos e na orientação indicada pelo scaffold (Ex. PCR combinatório)
Desenhar e sequenciar reads de primer Gerar uma subblioteca de um clone e
sequenciá-lo completamente. Sequenciar o produto de PCR
![Page 61: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/61.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Genomas montados no LABINFO
Chromobacterium violaceum e Mycoplasma synoviae (www.brgene.lncc.br)
Mycoplasma hyopneumoniae J e Mycoplasma hyopneumoniae 7448 (www.genesul.lncc.br)
![Page 62: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/62.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Genomas em andamento no LABINFO
Xylella fastidiosa Ann1 e Xylella fastidiosa Dixon (www.xylella.lncc.br)
Rhizobium tropici (www.nbf.lncc.br)
Leifsonia xyli cynodontis (www.leifsonia.lncc.br)
![Page 63: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/63.jpg)
Agosto / 2004LABINFO – LNCC / MCT
EST
A montagem de EST, é na verdade, a construção de clusters (grupos) de seqüências de EST que são originadas da expressão de um mesmo gene
O pipeline é semelhante a montagem de genomas completos. Com exceção da filtragem de repeats.
Tanto o programa CAP3, quanto o phrap podem ser utilizados
![Page 64: Genômica e Proteômica Montagem de genomas. Agosto / 2004LABINFO – LNCC / MCT Introdução Queremos conhecer a seqüência de parte ou de todo o DNA de um](https://reader036.vdocuments.pub/reader036/viewer/2022062312/552fc10c497959413d8c347b/html5/thumbnails/64.jpg)
Agosto / 2004LABINFO – LNCC / MCT
Referências
Green, ED – Strategies for the systematic sequencing of comples genomes (Nature Reviews – Genetics, vol 2, agosto 2001, 573-583) (http://www.nature.com/cgi-taf/DynaPage.taf?file=/nrg/journal/v2/n8/full/nrg0801_573a_fs.html)
Huang, X e Madan, A – CAP3: A DNA Sequence Assembly Program (Genome Research)
www.phrap.org Telles, GP et all - Bioinformatics of the sugarcane EST project
(Genetics and Molecular Biology, vol 24, n1-4, 2001) Telles, GP e Silva FR – Trimming and clustering sugarcane
ESTs (Genetics and Molecular Biology, vol 24, n1-4, 2001)