cursos em biologia, bioquÍmica, biotecnologia,...
TRANSCRIPT
C U R S O S E M B I O L O G I A , B I O Q U Í M I C A , B I O T E C N O L O G I A , C I Ê N C I A S B I O M É D I C A S E
E N G E N H A R I A B I O L Ó G I C A
Bioinformática
João Varela [email protected]
Aulas T13-T14
Taxonomia
� Uma das funções das anotações (meta)genómicas é a definição do táxon da fonte de material genético
Classificação Hierárquica de Sistemas Biológicos
� Domínio � Superreino, Reino, Subreino � Superfilo, Filo (≈ divisão), Subfilo � (Superclasse,) Classe, Subclasse � Superordem, Ordem, Subordem (, Infraordem) � (Superfamília, Epifamília,) Família, Subfamília (, Tribo,
Subtribo, Infratribo) � Género, Subgénero � Espécie, Subespécie � Estirpe (≈ variedade)
Monofilia, Parafilia e Polifilia
� Grupo monofilético – grupo taxonómico que provém de um ancestral comum cujos descendentes se encontram incluídos neste grupo (≈ grupo holofilético)
� Grupo parafilético – grupo taxonómico que provém de um ascendente comum cujos descendentes se encontram parcialmente incluídos neste grupo
� Grupo polifilético – grupo taxonómico que provém de mais que um ascendente
NCBI Taxonomy Database
� Cada táxon tem um nº de identificação - NCBI numerical identifier ou Taxonomy ID
Taxonomia: Annotathon
� http://www.ncbi.nlm.nih.gov/Taxonomy/
� Pesquisa por táxon ou identificador numérico
� Colocar o identificador numérico no campo Taxonomy para o táxon menos abrangente ao qual a sequência deverá pertencer com uma elevada probabilidade (analisar valores E do BLAST e o nó imediatamente superior do ramo à qual pertence a sequência em estudo das árvores filogenéticas obtidas)
� Raramente se consegue identificar até à espécie a fonte biológica de sequências metagenómicas
Ontologia Génica (GO)
� Componente celular (biologia celular)
� Função molecular / bioquímica (biologia molecular)
� Processo Biológico (biologia de sistemas)
Iniciativa bioinformática (geneontology.org) para definir termos GO em três domínios diferentes:
Componente Celular
� Localização do produto génico dentro e / ou fora da célula
� A localização é uma pista onde a proteína / RNA actua na célula, que por sua vez é uma pista para a sua função
Bioinformática da previsão do tráfico intracelular
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303
Tráfego Biossintético
Tráfego Retentivo
Tráfego Endocítico
A via biossintético-secretora inicia-se no RER
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2215
Existência de péptido sinal numa sequência é indicadora de que a proteína é secretada ou está no sistema endomembranar
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2227
Existência de péptido sinal numa sequência é indicadora de que a proteína é secretada ou está no sistema endomembranar
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303
Tráfego Biossintético-Secretor
Existência de um sinal de retenção ou domínios transmembranares numa sequência é indicadora de que a proteína é membranar
Tráfico intracelular para mitocôndrias e cloroplastos
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?highlight=Transport,Proteins,Mitochondria,Chloroplasts&rid=mboc4.section.2176
Proteínas com assinaturas de importação para mitocôndrias deverão ter localização mitocondrial
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2183
Proteínas com assinaturas de importação para cloroplastos deverão ter localização plastidial
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2192
Ferramentas bioinformáticas para prever a localização intracelular de proteínas
� PSORT http://psort.nibb.ac.jp/
� SignalP Web Server http://www.cbs.dtu.dk/services/SignalP/
� TargetDB http://targetdb.pdb.org/
Ontologia Génica
� Componente celular (biologia celular)
� Função molecular / bioquímica (biologia molecular)
� Processo Biológico (biologia de sistemas)
Iniciativa bioinformática (geneontology.org) para definir termos em três domínios diferentes:
Biologia molecular de um gene
� Função bioquímica / molecular de um gene e respectivo produto (RNA e / ou proteína) (por ex., catálise enzimática)
� Ligação a outras moléculas
Exs: lactase, acetil-CoA carboxilase, ligação a DNA
Ontologia Génica
� Componente celular (biologia celular)
� Função molecular / bioquímica (biologia molecular)
� Processo Biológico (biologia de sistemas)
Iniciativa bioinformática (geneontology.org) para definir termos em três domínios diferentes:
Processos biológicos
� Metabolismo das purinas � Metabolismo de glícidos � Locomoção � Fototactismo / Fototaxia � Fotossíntese � Respiração � Etc.
Conjunto de eventos moleculares com princípio e fim bem definidos:
Exemplo de termo GO
� Gene product: Actin, alpha cardiac muscle 1, UniProtKB:P68032
� GO term: heart contraction ; GO:0060047
Utilização de termos GO no Annotathon
� Escolher a função molecular e / ou o processo biológico em que a proteína / RNA participa
� Para realizar esta anotação verificar quais os termos obtidos no BLAST e InterPro
� Caso não existem termos GO nas anotações do GenBank, analisar os valores E de sequências homólogas ou domínios funcionais homólogos e atribuir termos GO à sequência e explicar a vossa decisão em RESULT ANALYSIS
Annotathon: Análise de Resultados Critérios de Avaliação
� ORFs � Massa Molecular � Domínios � BLAST e Lineage Report � MSA � Filogenia e Taxonomia � Ontologia � Conclusões
Critérios de Avaliação: ORFs e Análise de Resultados respectiva
� Codão START existe? Está correcto? � Codão STOP existe? Está correcto? � ORF contém codões STOP internos? � Discute qual o quadro de leitura e cadeia em que ela se
encontra? � Existem ORFs maiores? Se sim, discute porque não escolheu
essa para ser analisada? � Existem ORFs adicionais com significado biológico? � Determinou se a sequência é codificante ou não? � Disse que era não codificante quando o tamanho da sequência
não aponta para isso? � Discute quantas ORFs encontrou nas duas cadeias? � O protocolo está correcto e completo?
Annotathon: Análise de Resultados Critérios de Avaliação
� ORFs � Massa Molecular � Domínios � BLAST e Lineage Report � MSA � Filogenia e Taxonomia � Ontologia � Conclusões
Critérios de Avaliação: Massa Molecular
� Não calculou a massa molecular da proteína quando a proteína está claramente completa?
� Calculou a massa molecular da proteína quando a proteína está claramente incompleta?
Annotathon: Análise de Resultados Critérios de Avaliação
� ORFs � Massa Molecular � Domínios � BLAST e Lineage Report � MSA � Filogenia e Taxonomia � Ontologia � Conclusões
Domínios Proteicos e Análise de Resultados
� Discute a lista de domínios presente em RAW results e respectivas funções?
� Discute os valores E respectivos? � Discute quais os domínios correctos e os domínios
redundantes (sobrepostos)? � Discute a função da proteína à luz dos domínios
encontrados? � Os domínios estão correctamente apresentados no
esquema gráfico? � Colocou os resultados todos em RAW RESULTS?
Annotathon: Análise de Resultados Critérios de Avaliação
� ORFs � Massa Molecular � Domínios � BLAST e Lineage Report � MSA � Filogenia e Taxonomia � Ontologia � Conclusões
BLAST: Análise de Resultados
� A lista de resultados (hits) está completa? � A lista dos 12 melhores alinhamentos está completa? Tem
sequências a mais? � Analisa os valores E, o nº de hits e a localização das homologias nos
alinhamentos? � Analisa a função possível da proteína? � Analisa se a proteína tem proteínas homólogas conhecidas? � O protocolo está correcto? � Desistiu logo com resultados do BLASTp sem ter tentado análises
alternativas (por ex., BLASTx)? � Discute os resultados do Lineage Report? � Discute a escolha dos ingroups e outgroups? � Discute a escolha das sequências para fazer os alinhamentos
múltiplos? � Escolheu o nº máximo de hits correcto?
Annotathon: Análise de Resultados Critérios de Avaliação
� ORFs � Massa Molecular � Domínios � BLAST e Lineage Report � MSA � Filogenia e Taxonomia � Ontologia � Conclusões
MSA: Análise de Resultados
� Determinou o início da ORF olhando para os resultados do MSA?
� Discutiu se as sequências no MSA têm o mesmo tamanho?
� Os resultados do MSA batem certo com os resultados dos domínios? Isso é discutido?
� O alinhamento MSA está correcto e bem apresentado (contém nomes fáceis de identificar, por ex.)?
� O alinhamento MSA contém sequências repetidas? � Adicionou a ORF desconhecida ao MSA? (erro
frequente!)
Annotathon: Análise de Resultados Critérios de Avaliação
� ORFs � Massa Molecular � Domínios � BLAST e Lineage Report � MSA � Filogenia e Taxonomia � Ontologia � Conclusões
Filogenia e Taxonomia: Análise de Resultados
� O protocolo está correcto? � Apresentação da árvore está correcta? Colocaram os
nomes dos taxa (género, classe, por ex.) nas folhas da árvore?
� Discutiu a topologia das árvores? � Realizou a construção de árvores com os 2 métodos
(NJ e ML)? � Discutiu se as árvores são concordantes? � Seleccionou qual o grupo taxonómico mais provável?
Annotathon: Análise de Resultados Critérios de Avaliação
� ORFs � Massa Molecular � Domínios � BLAST e Lineage Report � MSA � Filogenia e Taxonomia � Ontologia � Conclusões
Annotathon: Análise de Resultados Critérios de Avaliação
� ORFs � Massa Molecular � Domínios � BLAST e Lineage Report � MSA � Filogenia e Taxonomia � Ontologia � Conclusões
Conclusões
� Discutir argumentos a favor / contra a hipótese da sequência ser codificante ou não (usar números)
� Discutir a sua função bioquímica e a sua participação num dado processo biológico
� Discutir a classificação taxonómica
O que se deve EVITAR nas Conclusões
� A descrição em que botões se clicou � A descrição do método utilizado � Escrever conclusões mal estruturadas (escrita telegráfica) � Pôr “palha” na esperança de obter melhor nota � Fazer plágio, copiando e colando descrições de funções
de páginas da Internet (implica anulação da anotação!) � Não relacionar conclusões dos vários campos da
anotação (por ex. Não relacionar os resultados do MSA com os resultados do InterPro)
� Pôr hipóteses sem as fundamentar (referências bibliográficas e / ou números)