anÁlise em larga escala de expressÃo gÊnica diferencial entre diversas bibliotecas de soja...

37
ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

Upload: ana-luisa-lagos-ferrao

Post on 07-Apr-2016

218 views

Category:

Documents


6 download

TRANSCRIPT

Page 1: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

ANÁLISE EM LARGA ESCALA DE EXPRESSÃO

GÊNICA DIFERENCIAL ENTRE DIVERSAS

BIBLIOTECAS DE SOJA

Leandro Costa do Nascimento

Page 2: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

OBJETIVOS• Construção de um banco de dados local de

ESTs de soja, separados por tecido e cultivar• Montagem dos ESTs• Interface web para análise de expressão

gênica (Eletronic Northern)• Anotação automática de genes• Banco de dados local de microarrays de soja• Integração entre os bancos de dados

Page 3: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento
Page 4: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

RESUMO• Introdução• Projeto GENOSOJA• Banco local de ESTs de soja (baixados

do NCBI)• Montagem – contigs e singlets• Interface web para análise de

expressão gênica (Eletronic Northern)

Page 5: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

A SOJA• Origem na China• Genoma com cerca de 1,1 Gbp • Genoma razoavelmente complexo –

ciclos de duplicações e sequências repetitivas (40 a 60%) - (Shoemaker et al, 1996)

• Considerada planta modelo para estudo genético do grupo dos Phaseoloids

Page 6: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

A IMPORTÂNCIA DA SOJA

• Alto poder nutritivo – grande quantidade de proteínas

• Óleo de soja responde por 25% dos óleos consumidos no mundo

• Uso na prevenção de doenças

Page 7: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

A SOJA NO BRASIL• Líder das exportações agropecuárias

brasileiras – cerca de 24%• O país é o 2º maior produtor mundial• Área plantada aumentou 57 vezes

desde 1961• Produção concentrada no Centro-Oeste • Mais viável para biodiesel – explosão do

cultivo

Page 8: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

OS LÍDERES DA SOJA

* Números em milhões de toneladas

Fonte: Departamento de Agricultura dos EUA (USDA – http://www.usda.gov)

2003/04 2005/06 2006/07EUA 85 83,4 86,8Brasil 53 55 58Argentina 39 40,5 44China 17,4 16,4 16,2Mundo 215,7 215,7 229,4

Page 9: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

PORQUE BIODIESEL DE SOJA??

• Óleo de girassol tem o maior potencial para a produção, porém demanda grandes investimentos (à longo prazo)

• Parque produtivo da soja já está instalado e voltado para o agronegócio

• Desvantagens: provável aumento do preço do óleo de soja e do desmatamento da floresta amazônica

Page 10: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

O PROJETO GENOSOJA

• Consórcio nacional integrando diversos grupos de pesquisa

• Busca integrar informações da estrutura física do genoma com informações sobre a expressão dos genes e as proteínas codificadas por eles

• Ênfase em genes ligados com estresses que comprometem a cultura – secas, doenças e pragas

Page 11: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

O PROJETO GENOSOJA• Disponibilizar informações referente a

funcionalidade dos genes, a fim de gerar conhecimento que leve a novas alternativas de controle aos principais entraves que comprometem a cultura

• Criar um banco de dados relacional entre as diferentes estratégias do projeto e de outros grupos de pesquisa de espécies próximas

Page 12: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

BIOINFORMÁTICA - GENOSOJA

• Desenvolvimento de um serviço de submissão de sequências, análises computacionais e buscas comparativas nos bancos de dados gerados pelo consórcio e em bancos públicos

• Análises de expressão gênica através de tratamento de dados de microarray, SAGE e eletronic northern

Page 13: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

http://www.lge.ibi.unicamp.br/soja

Page 14: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

BANCO LOCAL DE ESTs• O banco de ESTs do NCBI contém quase

400.000 sequências de soja• Sequências não estão tratadas (sem

exclusão de vetor, cauda Poly-A etc)• Pertencem a diversos cultivares e

bibliotecas• Diversas são advindas de bibliotecas

subtrativas

Page 15: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

PIPELINE – MONTAGEM DO BANCO DE DADOS

• As sequências foram filtradas por publicação

• Exclusão de sequências de publicações que usaram bibliotecas subtrativas

• Exclusão de sequências de publicações com menos de 1.000 sequências submetidas

• Sequências resultantes: 317.216

Page 16: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

PIPELINE – MONTAGEM DO BANCO DE DADOS

• Junção de cultivares semelhantes – exemplo: Williams e Williams 82

• 17 cultivares, sendo que mais de 50% das sequências pertence a somente um deles

• 3696 sequências sem informação de cultivar

• 32212 sequências sem informação do tecido

Page 17: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

DISTRIBUIÇÃO DAS SEQUÊNCIAS - CULTIVARES

54%

9%6%

5%

5%4%

4%3% 8% 2%

Williams e Williams 82 Kefeng Harosoy e Harosoy 63

Clark Jack Raiden

Bragg e Bragg NTS382 Supernod Outros

Corolla

Page 18: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

DISTRIBUIÇÃO DAS SEQUÊNCIAS - TECIDOS

23%

15%

15%10%

9%

8%

7%5% 3% 5%

Seed Root Leaf Unknown

Flower Cotyledon Hypocotyl Shoot

Somatic Embryos Outros

Page 19: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

PREPARAÇÃO PARA A MONTAGEM

• Quase 75 % das sequências tinham informações relativas à qualidade

• Bases consideradas de qualidade receberam nota 20, as outras nota 5

• Para as sequências sem informação de qualidade todas as bases receberam nota 20

• Montagem em conjunto ou separadamente???

BLAST CONTRA O GENOMA!!!

Page 20: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

GENOMA DA SOJA• Montagem preliminar disponibilizada no

início do ano pelo JGI• Cultivares Williams e Williams 82• 13 milhões de reads de shotgun• 3317 contigs -> quase 1 bilhão de pares

de bases• Cobertura: 8x• Número de CDS: 62199• http://www.phytozome.net/soybean

Page 21: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

Cultivar Total de ESTs Similaridade c/ o genoma Porcentagem Identidade (%) Bragg e Bragg NTS382 11491 11389 99,11 89,60

Clark 14946 14896 99,67 89,62Corolla 6578 6008 91,33 89,65

Delsoy 5710 1366 1358 99,41 89,75Harosoy 63 e Harosoy 19690 19622 99,65 90,26

Jack 14746 14682 99,57 90,32Kefeng 1 29540 29390 99,49 91,95L82 2024 3549 3541 99,77 89,93

Minsoy Noi RI progeny 3182 3178 99,87 90,02Ogden 1526 1519 99,54 91,52Peking 3433 3167 92,25 91,44

PI567374 3433 3167 92,25 90,20Raiden 11825 11170 94,46 89,92Shishi 1977 1703 86,14 89,35

Supernod 9102 9077 99,73 90,16T157 3678 3634 98,80 90,09

Williams e Williams 82 172207 169162 98,23 90,34312269 306663 97,02 90,24

Page 22: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

TRIMAGEM DAS SEQUÊNCIAS

Remoção de sequências ribossomais

Remoção de sequênciasde vetorRemoção de Poly-A/T

Remoção de sequências Curtas

Remoção de regiõesde baixa qualidadeESTs

Montagem

Page 23: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

TRIMAGEM DAS SEQUÊNCIAS

• Programa bdtrimmer (Baudet et al, 2005)

• Remoção de sequências menores que 100 bases

• Sequências resultantes: 307007

Número de sequênciasVetor 7606

Poly-A 25253Poly-T 30703

Page 24: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

COMPARAÇÃO ENTRE AS MONTAGENS

• Programa CAP3 • Região de overlap = 100 bases

Identidade Contigs Singlets80% 24014 3841385% 24996 4197990% 27071 4828495% 30622 61580

Page 25: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

COMPARAÇÃO ENTRE AS MONTAGENS

0

10000

20000

30000

40000

50000

60000

70000

80 85 90 95

Contigs

Singlets

Page 26: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

COMPARAÇÃO ENTRE AS MONTAGENS

• Média de reads por contig11,185

10,6039,557

8,015

0,000

2,000

4,000

6,000

8,000

10,000

12,000

80 85 90 95

Porcentagem de overlap

Read

s/Co

ntig

Page 27: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

COMPARAÇÃO ENTRE AS MONTAGENS

• Média de bases por contig

784,294

761,412

727,704

692,898

640,000

660,000

680,000

700,000

720,000

740,000

760,000

780,000

800,000

80 85 90 95

Porcentagem de overlap

Base

s/Co

ntig

Page 28: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

COMPARAÇÃO ENTRE AS MONTAGENS

Como escolher a melhor montagem??

MONTAGENS X CDS DO GENOMA

> Identidade

> Contigs

< Bases / Contig

> Singlets

< Reads /Contig

Page 29: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

MONTAGEM X CDS• Blastn dos reads (após trimagem) contra

o CDS do genoma (evalue de corte 1e-10)

• Objetivos: Buscar contigs com reads que

alinhavam com diferentes CDS Buscar reads pertencentes ao mesmo

do CDS, mas que entravam em contigs diferentes

Page 30: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

ANÁLISE DA MONTAGEMTamanho Número de Contigs300 bp 1347600 bp 9927900 bp 92511200 bp 39031500 bp 17311800 bp 6112100 bp 2002400 bp 642700 bp 253000 bp 93300 bp 13600 bp 13900 bp 1

27071

Page 31: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

CONTIGS DE BIBLIOTECAS ÚNICAS

0

200

400

600

800

1000

1200

1400

1600

Número de contigs

Seed

Leaf

Root

Flower

Hypocotyl

Cotyledon

Shoot

Bibliotecas

Page 32: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

BLASTx DOS CONTIGS

Page 33: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

BLASTx DOS CONTIGS – FIRST HIT

6%8%

44%

35%

1% 6%Medicago Trunc atula

A rabidops is Thaliana

V itis V inefera

Outros

P has eolus V ulgaris

P opulus Trichoc arpa

Page 34: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

ELETRONIC NORTHERN• Inferência da expressão gênica à partir

de uma montagem de ESTs Contig

Tratado

Controle

Page 35: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

ELETRONIC NORTHERN• Somente para bibliotecas não

subtrativas• Frequência de ESTs de cada

biblioteca em cada contig• As estatísticas devem levar em conta

o tamanho de cada biblioteca (normalização)

Page 36: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento

PORQUE UMA NOVA INTERFACE??

• Facilidade de visualização• Mais opções ao usuário• Busca por biblioteca, contigs ou

palavra-chave• Análise estatística entre duas

bibliotecas• Agrupamento de genes

diferencialmente expressos por G.O.

Page 37: ANÁLISE EM LARGA ESCALA DE EXPRESSÃO GÊNICA DIFERENCIAL ENTRE DIVERSAS BIBLIOTECAS DE SOJA Leandro Costa do Nascimento