anÁlise em larga escala de expressÃo gÊnica diferencial entre diversas bibliotecas de soja...

Post on 07-Apr-2016

218 Views

Category:

Documents

6 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ANÁLISE EM LARGA ESCALA DE EXPRESSÃO

GÊNICA DIFERENCIAL ENTRE DIVERSAS

BIBLIOTECAS DE SOJA

Leandro Costa do Nascimento

OBJETIVOS• Construção de um banco de dados local de

ESTs de soja, separados por tecido e cultivar• Montagem dos ESTs• Interface web para análise de expressão

gênica (Eletronic Northern)• Anotação automática de genes• Banco de dados local de microarrays de soja• Integração entre os bancos de dados

RESUMO• Introdução• Projeto GENOSOJA• Banco local de ESTs de soja (baixados

do NCBI)• Montagem – contigs e singlets• Interface web para análise de

expressão gênica (Eletronic Northern)

A SOJA• Origem na China• Genoma com cerca de 1,1 Gbp • Genoma razoavelmente complexo –

ciclos de duplicações e sequências repetitivas (40 a 60%) - (Shoemaker et al, 1996)

• Considerada planta modelo para estudo genético do grupo dos Phaseoloids

A IMPORTÂNCIA DA SOJA

• Alto poder nutritivo – grande quantidade de proteínas

• Óleo de soja responde por 25% dos óleos consumidos no mundo

• Uso na prevenção de doenças

A SOJA NO BRASIL• Líder das exportações agropecuárias

brasileiras – cerca de 24%• O país é o 2º maior produtor mundial• Área plantada aumentou 57 vezes

desde 1961• Produção concentrada no Centro-Oeste • Mais viável para biodiesel – explosão do

cultivo

OS LÍDERES DA SOJA

* Números em milhões de toneladas

Fonte: Departamento de Agricultura dos EUA (USDA – http://www.usda.gov)

2003/04 2005/06 2006/07EUA 85 83,4 86,8Brasil 53 55 58Argentina 39 40,5 44China 17,4 16,4 16,2Mundo 215,7 215,7 229,4

PORQUE BIODIESEL DE SOJA??

• Óleo de girassol tem o maior potencial para a produção, porém demanda grandes investimentos (à longo prazo)

• Parque produtivo da soja já está instalado e voltado para o agronegócio

• Desvantagens: provável aumento do preço do óleo de soja e do desmatamento da floresta amazônica

O PROJETO GENOSOJA

• Consórcio nacional integrando diversos grupos de pesquisa

• Busca integrar informações da estrutura física do genoma com informações sobre a expressão dos genes e as proteínas codificadas por eles

• Ênfase em genes ligados com estresses que comprometem a cultura – secas, doenças e pragas

O PROJETO GENOSOJA• Disponibilizar informações referente a

funcionalidade dos genes, a fim de gerar conhecimento que leve a novas alternativas de controle aos principais entraves que comprometem a cultura

• Criar um banco de dados relacional entre as diferentes estratégias do projeto e de outros grupos de pesquisa de espécies próximas

BIOINFORMÁTICA - GENOSOJA

• Desenvolvimento de um serviço de submissão de sequências, análises computacionais e buscas comparativas nos bancos de dados gerados pelo consórcio e em bancos públicos

• Análises de expressão gênica através de tratamento de dados de microarray, SAGE e eletronic northern

http://www.lge.ibi.unicamp.br/soja

BANCO LOCAL DE ESTs• O banco de ESTs do NCBI contém quase

400.000 sequências de soja• Sequências não estão tratadas (sem

exclusão de vetor, cauda Poly-A etc)• Pertencem a diversos cultivares e

bibliotecas• Diversas são advindas de bibliotecas

subtrativas

PIPELINE – MONTAGEM DO BANCO DE DADOS

• As sequências foram filtradas por publicação

• Exclusão de sequências de publicações que usaram bibliotecas subtrativas

• Exclusão de sequências de publicações com menos de 1.000 sequências submetidas

• Sequências resultantes: 317.216

PIPELINE – MONTAGEM DO BANCO DE DADOS

• Junção de cultivares semelhantes – exemplo: Williams e Williams 82

• 17 cultivares, sendo que mais de 50% das sequências pertence a somente um deles

• 3696 sequências sem informação de cultivar

• 32212 sequências sem informação do tecido

DISTRIBUIÇÃO DAS SEQUÊNCIAS - CULTIVARES

54%

9%6%

5%

5%4%

4%3% 8% 2%

Williams e Williams 82 Kefeng Harosoy e Harosoy 63

Clark Jack Raiden

Bragg e Bragg NTS382 Supernod Outros

Corolla

DISTRIBUIÇÃO DAS SEQUÊNCIAS - TECIDOS

23%

15%

15%10%

9%

8%

7%5% 3% 5%

Seed Root Leaf Unknown

Flower Cotyledon Hypocotyl Shoot

Somatic Embryos Outros

PREPARAÇÃO PARA A MONTAGEM

• Quase 75 % das sequências tinham informações relativas à qualidade

• Bases consideradas de qualidade receberam nota 20, as outras nota 5

• Para as sequências sem informação de qualidade todas as bases receberam nota 20

• Montagem em conjunto ou separadamente???

BLAST CONTRA O GENOMA!!!

GENOMA DA SOJA• Montagem preliminar disponibilizada no

início do ano pelo JGI• Cultivares Williams e Williams 82• 13 milhões de reads de shotgun• 3317 contigs -> quase 1 bilhão de pares

de bases• Cobertura: 8x• Número de CDS: 62199• http://www.phytozome.net/soybean

Cultivar Total de ESTs Similaridade c/ o genoma Porcentagem Identidade (%) Bragg e Bragg NTS382 11491 11389 99,11 89,60

Clark 14946 14896 99,67 89,62Corolla 6578 6008 91,33 89,65

Delsoy 5710 1366 1358 99,41 89,75Harosoy 63 e Harosoy 19690 19622 99,65 90,26

Jack 14746 14682 99,57 90,32Kefeng 1 29540 29390 99,49 91,95L82 2024 3549 3541 99,77 89,93

Minsoy Noi RI progeny 3182 3178 99,87 90,02Ogden 1526 1519 99,54 91,52Peking 3433 3167 92,25 91,44

PI567374 3433 3167 92,25 90,20Raiden 11825 11170 94,46 89,92Shishi 1977 1703 86,14 89,35

Supernod 9102 9077 99,73 90,16T157 3678 3634 98,80 90,09

Williams e Williams 82 172207 169162 98,23 90,34312269 306663 97,02 90,24

TRIMAGEM DAS SEQUÊNCIAS

Remoção de sequências ribossomais

Remoção de sequênciasde vetorRemoção de Poly-A/T

Remoção de sequências Curtas

Remoção de regiõesde baixa qualidadeESTs

Montagem

TRIMAGEM DAS SEQUÊNCIAS

• Programa bdtrimmer (Baudet et al, 2005)

• Remoção de sequências menores que 100 bases

• Sequências resultantes: 307007

Número de sequênciasVetor 7606

Poly-A 25253Poly-T 30703

COMPARAÇÃO ENTRE AS MONTAGENS

• Programa CAP3 • Região de overlap = 100 bases

Identidade Contigs Singlets80% 24014 3841385% 24996 4197990% 27071 4828495% 30622 61580

COMPARAÇÃO ENTRE AS MONTAGENS

0

10000

20000

30000

40000

50000

60000

70000

80 85 90 95

Contigs

Singlets

COMPARAÇÃO ENTRE AS MONTAGENS

• Média de reads por contig11,185

10,6039,557

8,015

0,000

2,000

4,000

6,000

8,000

10,000

12,000

80 85 90 95

Porcentagem de overlap

Read

s/Co

ntig

COMPARAÇÃO ENTRE AS MONTAGENS

• Média de bases por contig

784,294

761,412

727,704

692,898

640,000

660,000

680,000

700,000

720,000

740,000

760,000

780,000

800,000

80 85 90 95

Porcentagem de overlap

Base

s/Co

ntig

COMPARAÇÃO ENTRE AS MONTAGENS

Como escolher a melhor montagem??

MONTAGENS X CDS DO GENOMA

> Identidade

> Contigs

< Bases / Contig

> Singlets

< Reads /Contig

MONTAGEM X CDS• Blastn dos reads (após trimagem) contra

o CDS do genoma (evalue de corte 1e-10)

• Objetivos: Buscar contigs com reads que

alinhavam com diferentes CDS Buscar reads pertencentes ao mesmo

do CDS, mas que entravam em contigs diferentes

ANÁLISE DA MONTAGEMTamanho Número de Contigs300 bp 1347600 bp 9927900 bp 92511200 bp 39031500 bp 17311800 bp 6112100 bp 2002400 bp 642700 bp 253000 bp 93300 bp 13600 bp 13900 bp 1

27071

CONTIGS DE BIBLIOTECAS ÚNICAS

0

200

400

600

800

1000

1200

1400

1600

Número de contigs

Seed

Leaf

Root

Flower

Hypocotyl

Cotyledon

Shoot

Bibliotecas

BLASTx DOS CONTIGS

BLASTx DOS CONTIGS – FIRST HIT

6%8%

44%

35%

1% 6%Medicago Trunc atula

A rabidops is Thaliana

V itis V inefera

Outros

P has eolus V ulgaris

P opulus Trichoc arpa

ELETRONIC NORTHERN• Inferência da expressão gênica à partir

de uma montagem de ESTs Contig

Tratado

Controle

ELETRONIC NORTHERN• Somente para bibliotecas não

subtrativas• Frequência de ESTs de cada

biblioteca em cada contig• As estatísticas devem levar em conta

o tamanho de cada biblioteca (normalização)

PORQUE UMA NOVA INTERFACE??

• Facilidade de visualização• Mais opções ao usuário• Busca por biblioteca, contigs ou

palavra-chave• Análise estatística entre duas

bibliotecas• Agrupamento de genes

diferencialmente expressos por G.O.

top related