gene projects mcarazzo@lge.ibi.unicamp.br marcelo falsarella carazzolle laboratório de genômica e...
Post on 07-Apr-2016
217 Views
Preview:
TRANSCRIPT
Gene Projects
mcarazzo@lge.ibi.unicamp.br
Marcelo Falsarella Carazzolle
Laboratório de Genômica e Proteômica
Unicamp
Motivação• Muitos dados são gerados num projeto genoma :
– Fungo Crinipellis Perniciosa :• 170.000 reads• 26000 contigs + singlets• 70% hits encontrados no NR
– Café• 200.000 reads• 35000 contigs + singlets• 80% hits encontrados NR
• Necessidade de explorar os dados no decorrer do sequenciamento
• Estratégias mais eficientes para buscar genes :– Busca por palavras chaves em resultados de
blasts (Keyword Search)– Busca por sequências similares (Blast Search)– Busca por padrões de repetição (Pattern Search)
• Estratégia para eliminar redundância :– Clusterização
Introdução• Gene Projects é uma programa que permite :
– Realizar buscas por :• Palavra chave• Similaridade de sequências• Padrões
– Fazer clusterizações dos reads de interesse e analisar a qualidade da montagem
– Visualizar a sequência fasta e o resultado de blast dos reads e dos contigs formados
– Ampliar o contig na busca de genes inteiros– Burcas ORFs (ORFFinder)– Armazenar todos em resultados em projetos– Trabalhar via WEB
Uma visão geral
WWW Gene Projects
Banco de
Dados
Ferramentas de Buscas
Análise
Palavra chaveSequênciaPadrões
Visualizar sequências e
blasts
Clusterização
Visualizar sequências, blasts, montagens, ORFs e ...
Reads Contigs
Temáticas
Fluxograma: projeto genoma
Submissão
- Phred
- Cross_Match
Blastx/n contra nr/nt Relatório
Sequência Fasta
Qualidade das bases
Informação sobre vetores
Armazena os arquivos de Blasts
Alimenta o banco de dados com :
- Qualidade do read (qte bases > 20)
- Tamanho do read
- Resultado da blastagem (e-value,
score, cabeçalho)
- Vetores (qte bases com vetor)
Serviço de submissãoServiço de submissão
>Unknown sequences #1
5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 ...
Gene ProjectsGene Projects- Busca de seqüências por: - Palavra chave; - Blast Sequences; - Seqüências específicas. - Pattern search
- Filtros de qualidade de nucleotídeos.
- Visualização das seqüências selecionadas:
- “Clusterização” utilizando o software Phrap/Cap3
- Análise de contigs e singlets por : - Blast contra nr; - Blast contra reads; - ORFFinder.
- Ferramenta para fechamento de contigs através de Blast saturação.
Iniciando um projeto
• Cadastro de usuário
• Inclusão de projetos
Não usar espaços ou caracteres especiais para o usuário e nome do projeto
Ferramentas de busca
Ferramentas de busca
• Reads search
Ferramentas de busca
• Keyword search
Ferramentas de busca
• Blast search
Ferramentas de busca
• Pattern search
N - Qualquer nucleotídeo
N(3) - Uma sequência de três nucleotídeos
N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos
[AC] - pode ser um A ou um C
{AG} - não pode ser nem A e nem G
Ex :
[CG](5)TG{A}N(1,5)C
• Interface de projetos
>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaag
CP01-S0-001-001-A01-UC.F
CP01-S0-001-001-A04-UC.F
>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaag
Blastn/reads
CP01-S0-001-001-A01-UC.F
CP01-S0-001-001-A04-UC.F
Blastando ...
Sequencias que produziram alinhamentos significantes :
CP01-S0-001-001-A01-UC.F 1419 0.0 -> Existente CP01-S0-001-001-A04-UC.F 1291 0.0 -> Existente CP02-PF-012-001-D08-UE.R 1263 0.0 -> Incluido CP02-S2-000-028-H06-UE.F 1261 0.0 -> Incluido
Se não existirem novas inclusões : FIM
Se existirem novas inclusões : Acrescenta os novos reads
Clusterizando novamente
>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaagatatatatatatatatatat …
Se o tamanho do novo contig exceder o limite : FIM
Blast SaturaçãoBlast Saturação
Anotação automática de genesAnotação automática de genes
GERAÇÃO DE SEMENTES:
- Localização de uma ORF em um contig;
- Comparação de ORFs novas com genes existentes;
- Anotação automática nos bancos nr e GO (Gene Ontology Consortium);
- Identificação de regiões promotora e codante;
- Atualização de genes existentes
INTERFACE DE ANOTAÇÃO:
- Resultado do GO;
- Resultados de Blast contra nr;
- Classificação baseada no GO : - Função molecular; - Processo biológico; - Componente celular.
- Ferramentas de busca em sites por: - Palavra chave; - Blast Sequences.
- Histórico de anotação;
- Consulta de genes anotados
• ORFFinderAnálise dos clusters
Análise dos clustersAnálise dos clusters• Blastn contra a montagem geral
Interface de AnotaçãoInterface de Anotação
GeneProjects
ConclusãoConclusão• Permite a mineração dos dados em qualquer
instante do projeto• Facilita a busca de genes específicos• Armazena todos os resultados em projetos• Possui ferramentas de ampliação e análise de
seqüências codantes• Faz a conexão do novo contig gerado com a
montagem geral• Disponibiliza todos os esses serviços via WEB
FIMFIM
top related