genómica licenciatura em ciências biomédicas departamento de ciências da saúde, ucp fevereiro...

32
Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Upload: internet

Post on 18-Apr-2015

105 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica

Licenciatura em Ciências BiomédicasDepartamento de Ciências da Saúde, UCP

Fevereiro 2013

Page 2: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 2

Sumário

3. Montagem de genomas• Montagem hierárquica• Montagem de genomas completos• Montagem de genomas com base em modelos• Problemas associados à montagem dos

genomas– Controlo de qualidade

18-03-2013

Page 3: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 3

Aumenta o número de peças para 2-3 triliões.

Sobreposições em média de duas centenas de pares de bases. Equivale a ter um puzzle de 30 milhões de peças

Montagem de genomas

• Após a sequenciação temos fragmentos (de tamanhos que vão de 1000 a 40 pbs) que é preciso reordenar na sequência original.

18-03-2013

Page 4: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 4

Algumas das peças…

• Faltam– Problemas na construção das bibliotecas– Problemas com a amplificação por PCR

• Têm erros– Zonas repetitivas– Erros no PCR

18-03-2013

Aumentamos o nº de vezes que cada peça é

sequenciada!Entre 8 e 100 vezes

Page 5: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 5

A sequência (read) ideal

• É longa• Não tem erros

18-03-2013

Page 6: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 6

Podemos considerar 2 tipos

• Única (single read)– Resulta da sequenciação do

fragmento em si.• Emparelhada (paired read)– Nestas leituras eu sei a

sequência das pontas e a que distância estão uma da outra.

18-03-2013

Page 7: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 7

MONTAGEM HIERÁRQUICA OU DE CLONES

18-03-2013

Page 8: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 8

Abordagem usada para alinhar grandes inserções clonadas

– Primeiro é feito o mapeamento dos clones por padrões de digestão, marcadores de linkage ou mutações induzidas.

18-03-2013

Page 9: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 9

Desse mapeamento….

18-03-2013

• Escolhem-se os fragmentos a vermelho pois implicam a menor sobreposição.

• É feita a sequenciação desses fragmentos:– Cada sequenciação (read) é avaliada quanto à sua

qualidade.– É reconstruida a sequencia inicial usando as

sobreposições.

Page 10: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 10

MONTAGEM DE GENOMAS COMPLETOS

18-03-2013

Page 11: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

11

Método mais aplicado atualmente

• Uma vez que a maioria da sequenciação já não implica clonagem.

• Dispensa o passo do mapeamento.• São sequenciadas as extremidades dos vários

fragmentos que são depois alinhadas.

Genómica 12-13 MJC18-03-2013

Page 12: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

12

Desse alinhamento surge o “contig”

18-03-2013 Genómica 12-13 MJC

• Inclui 3 fases:– Sobreposição– Alinhamento – Consenso

Page 13: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

13

Desse alinhamento surge o “contig”

18-03-2013 Genómica 12-13 MJC

A localização vai ser determinada pela

homologia

Page 14: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

14

Vários contigs dão um scaffold

18-03-2013 Genómica 12-13 MJC

Page 15: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 1518-03-2013

Page 16: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 16

ALGUNS ALGORITMOS DE MONTAGEM DE GENOMAS

18-03-2013

Page 17: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 17

Greedy

• Como a homologia é a única condição este tipo de algoritmos é muito influenciado pelas sequências repetitivas ou homologias.

18-03-2013

Page 18: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 18

Overlap-Layout-Consensus

• Todas as sobreposições são mapeadas (Overlap)• É eliminada a informação redundante (Layout)• Usando a teoria de grafos é desenhado o mapa mais

simples e que corresponderá à organização inicial.

18-03-2013

Page 19: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 19

Overlap-Layout-Consensus

• Pode ser substituído pelo: Align-Layout-Consensus pois já há vários genomas de referência sequenciados.

18-03-2013

Page 20: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 20

CONTROLO DE QUALIDADE

18-03-2013

Page 21: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 21

Em genomas de novo

• Não se sabe quase nada– Nº de scaffolds e contigs que representam o

genoma.– A proporção de reads que consegue ser – O comprimento dos contigs e scaffolds

relativamente ao comprimento do genoma.

18-03-2013

Page 22: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 22

N50

• Tamanho do contig mais curto acima do qual se inclui 50% do genoma.

18-03-2013

Page 23: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 23

Os vários algoritmos devem ser comparados• Foi feita uma comparação no artigo GAGE:

18-03-2013

Page 24: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 24

O algoritmo deve ter em conta• Dependendo do organismo– Tamanho diferente dos genomas– Heterozigotia diferente• Humanos (1 par de bases pair/1000) • Lesmas do mar 1/50–100

18-03-2013

Page 25: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 25

Independentemente do algoritmo…

• Entra lixo• Sai lixo– Muitos sequenciadores têm controlos de

qualidade para contaminações, quimeras e erros de leitura.

18-03-2013

Page 26: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 26

MONTAGEM COMPARATIVA

18-03-2013

Page 27: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 27

Genomas de referência

Genomas de mesma espécie ou espécies semelhantes que servem de modelo.Os algoritmos tentam alinhar as sequências obtidas ao que já está sequenciado

18-03-2013

Page 28: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 28

PROBLEMAS NA MONTAGEM DE GENOMAS

18-03-2013

Page 29: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 29

Dificuldades• Contaminação

– Sequências que não pertencem ao genoma que se quer sequenciar.• Erros de montagem

– As sequências repetidas podem induzir os algoritmos de montagem em erro. As secções podem ser montadas como mais curtas ou sobrepostas pelo que desaparecem do genoma final.

• Homologia em grande escala.– Nos genomas dos mamíferos há zonas com uma grande percentagem de

homologia (>90%) mas que são zonas diferentes do genoma. Como a homologia éusada para fazer os alinhamentos as montagens ficammal feitas.

• Polimorfismo genómico– Dado que muitos genomas são poliploides a montagem de genomas muitas

vezes não consegue distinguir estes polimorfismos como possibilidades alternativas do mesmo locus.

18-03-2013

Page 30: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 30

Efeito das zonas repetidas

18-03-2013

Page 31: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 3118-03-2013

Page 32: Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro 2013

Genómica 12-13 MJC 32

Bibliografia

• http://www.ncbi.nlm.nih.gov/projects/genome/assembly/assembly.shtml

• http://www.cbcb.umd.edu/research/assembly_primer.shtml

• Artigo: de novo genome assembly; GAGE ambos na pasta

18-03-2013