cursos em biologia, bioquÍmica, biotecnologia,...

48
CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, CIÊNCIAS BIOMÉDICAS E ENGENHARIA BIOLÓGICA Bioinformática João Varela [email protected] Aulas T13-T14

Upload: hahanh

Post on 17-Dec-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

C U R S O S E M B I O L O G I A , B I O Q U Í M I C A , B I O T E C N O L O G I A , C I Ê N C I A S B I O M É D I C A S E

E N G E N H A R I A B I O L Ó G I C A

Bioinformática

João Varela [email protected]

Aulas T13-T14

Temas da Aula T7

�  Taxonomia (Annotathon) �  Ontologia Génica (GO) �  Conclusões (Annotathon)

Taxonomia

�  Uma das funções das anotações (meta)genómicas é a definição do táxon da fonte de material genético

Tipos de Classificações

�  Classificação hierárquica (de Lineu) �  Classificação cladística

Classificação Hierárquica de Sistemas Biológicos

�  Domínio �  Superreino, Reino, Subreino �  Superfilo, Filo (≈ divisão), Subfilo �  (Superclasse,) Classe, Subclasse �  Superordem, Ordem, Subordem (, Infraordem) �  (Superfamília, Epifamília,) Família, Subfamília (, Tribo,

Subtribo, Infratribo) �  Género, Subgénero �  Espécie, Subespécie �  Estirpe (≈ variedade)

Clades

Clades – ramos monofiléticos de uma árvore filogenética

Monofilia, Parafilia e Polifilia

�  Grupo monofilético – grupo taxonómico que provém de um ancestral comum cujos descendentes se encontram incluídos neste grupo (≈ grupo holofilético)

�  Grupo parafilético – grupo taxonómico que provém de um ascendente comum cujos descendentes se encontram parcialmente incluídos neste grupo

�  Grupo polifilético – grupo taxonómico que provém de mais que um ascendente

Monofilia, Parafilia e Polifilia

Clades

NCBI Taxonomy Database

�  Cada táxon tem um nº de identificação - NCBI numerical identifier ou Taxonomy ID

Taxonomia: Annotathon

�  http://www.ncbi.nlm.nih.gov/Taxonomy/

�  Pesquisa por táxon ou identificador numérico

�  Colocar o identificador numérico no campo Taxonomy para o táxon menos abrangente ao qual a sequência deverá pertencer com uma elevada probabilidade (analisar valores E do BLAST e o nó imediatamente superior do ramo à qual pertence a sequência em estudo das árvores filogenéticas obtidas)

�  Raramente se consegue identificar até à espécie a fonte biológica de sequências metagenómicas

Temas da Aula T7

�  Taxonomia (Annotathon) �  Ontologia Génica (GO) �  Conclusões (Annotathon)

Ontologia Génica (GO)

�  Componente celular (biologia celular)

�  Função molecular / bioquímica (biologia molecular)

�  Processo Biológico (biologia de sistemas)

Iniciativa bioinformática (geneontology.org) para definir termos GO em três domínios diferentes:

Componente Celular

�  Localização do produto génico dentro e / ou fora da célula

�  A localização é uma pista onde a proteína / RNA actua na célula, que por sua vez é uma pista para a sua função

Bioinformática da previsão do tráfico intracelular

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303

Tráfego Biossintético

Tráfego Retentivo

Tráfego Endocítico

Vias de tráfego biossintético, endocítico e retentivo

Retículo Endoplasmático Rugoso

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2205

A via biossintético-secretora inicia-se no RER

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2215

Existência de péptido sinal numa sequência é indicadora de que a proteína é secretada ou está no sistema endomembranar

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2227

Existência de péptido sinal numa sequência é indicadora de que a proteína é secretada ou está no sistema endomembranar

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2303

Tráfego Biossintético-Secretor

Existência de um sinal de retenção ou domínios transmembranares numa sequência é indicadora de que a proteína é membranar

Tráfico intracelular para mitocôndrias e cloroplastos

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?highlight=Transport,Proteins,Mitochondria,Chloroplasts&rid=mboc4.section.2176

Proteínas com assinaturas de importação para mitocôndrias deverão ter localização mitocondrial

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2183

Proteínas com assinaturas de importação para cloroplastos deverão ter localização plastidial

http://www.ncbi.nlm.nih.gov/books/bv.fcgi?rid=mboc4.figgrp.2192

Ferramentas bioinformáticas para prever a localização intracelular de proteínas

� PSORT http://psort.nibb.ac.jp/

� SignalP Web Server http://www.cbs.dtu.dk/services/SignalP/

� TargetDB http://targetdb.pdb.org/

Ontologia Génica

�  Componente celular (biologia celular)

�  Função molecular / bioquímica (biologia molecular)

�  Processo Biológico (biologia de sistemas)

Iniciativa bioinformática (geneontology.org) para definir termos em três domínios diferentes:

Biologia molecular de um gene

�  Função bioquímica / molecular de um gene e respectivo produto (RNA e / ou proteína) (por ex., catálise enzimática)

�  Ligação a outras moléculas

Exs: lactase, acetil-CoA carboxilase, ligação a DNA

Ontologia Génica

�  Componente celular (biologia celular)

�  Função molecular / bioquímica (biologia molecular)

�  Processo Biológico (biologia de sistemas)

Iniciativa bioinformática (geneontology.org) para definir termos em três domínios diferentes:

Processos biológicos

�  Metabolismo das purinas �  Metabolismo de glícidos �  Locomoção �  Fototactismo / Fototaxia �  Fotossíntese �  Respiração �  Etc.

Conjunto de eventos moleculares com princípio e fim bem definidos:

Exemplo de termo GO

�  Gene product: Actin, alpha cardiac muscle 1, UniProtKB:P68032

�  GO term: heart contraction ; GO:0060047

Utilização de termos GO no Annotathon

�  Escolher a função molecular e / ou o processo biológico em que a proteína / RNA participa

�  Para realizar esta anotação verificar quais os termos obtidos no BLAST e InterPro

�  Caso não existem termos GO nas anotações do GenBank, analisar os valores E de sequências homólogas ou domínios funcionais homólogos e atribuir termos GO à sequência e explicar a vossa decisão em RESULT ANALYSIS

Annotathon: Análise de Resultados Critérios de Avaliação

�  ORFs �  Massa Molecular �  Domínios �  BLAST e Lineage Report �  MSA �  Filogenia e Taxonomia �  Ontologia �  Conclusões

Critérios de Avaliação: ORFs e Análise de Resultados respectiva

�  Codão START existe? Está correcto? �  Codão STOP existe? Está correcto? �  ORF contém codões STOP internos? �  Discute qual o quadro de leitura e cadeia em que ela se

encontra? �  Existem ORFs maiores? Se sim, discute porque não escolheu

essa para ser analisada? �  Existem ORFs adicionais com significado biológico? �  Determinou se a sequência é codificante ou não? �  Disse que era não codificante quando o tamanho da sequência

não aponta para isso? �  Discute quantas ORFs encontrou nas duas cadeias? �  O protocolo está correcto e completo?

Annotathon: Análise de Resultados Critérios de Avaliação

�  ORFs �  Massa Molecular �  Domínios �  BLAST e Lineage Report �  MSA �  Filogenia e Taxonomia �  Ontologia �  Conclusões

Critérios de Avaliação: Massa Molecular

�  Não calculou a massa molecular da proteína quando a proteína está claramente completa?

�  Calculou a massa molecular da proteína quando a proteína está claramente incompleta?

Annotathon: Análise de Resultados Critérios de Avaliação

�  ORFs �  Massa Molecular �  Domínios �  BLAST e Lineage Report �  MSA �  Filogenia e Taxonomia �  Ontologia �  Conclusões

Domínios Proteicos e Análise de Resultados

�  Discute a lista de domínios presente em RAW results e respectivas funções?

�  Discute os valores E respectivos? �  Discute quais os domínios correctos e os domínios

redundantes (sobrepostos)? �  Discute a função da proteína à luz dos domínios

encontrados? �  Os domínios estão correctamente apresentados no

esquema gráfico? �  Colocou os resultados todos em RAW RESULTS?

Annotathon: Análise de Resultados Critérios de Avaliação

�  ORFs �  Massa Molecular �  Domínios �  BLAST e Lineage Report �  MSA �  Filogenia e Taxonomia �  Ontologia �  Conclusões

BLAST: Análise de Resultados

�  A lista de resultados (hits) está completa? �  A lista dos 12 melhores alinhamentos está completa? Tem

sequências a mais? �  Analisa os valores E, o nº de hits e a localização das homologias nos

alinhamentos? �  Analisa a função possível da proteína? �  Analisa se a proteína tem proteínas homólogas conhecidas? �  O protocolo está correcto? �  Desistiu logo com resultados do BLASTp sem ter tentado análises

alternativas (por ex., BLASTx)? �  Discute os resultados do Lineage Report? �  Discute a escolha dos ingroups e outgroups? �  Discute a escolha das sequências para fazer os alinhamentos

múltiplos? �  Escolheu o nº máximo de hits correcto?

Annotathon: Análise de Resultados Critérios de Avaliação

�  ORFs �  Massa Molecular �  Domínios �  BLAST e Lineage Report �  MSA �  Filogenia e Taxonomia �  Ontologia �  Conclusões

MSA: Análise de Resultados

�  Determinou o início da ORF olhando para os resultados do MSA?

�  Discutiu se as sequências no MSA têm o mesmo tamanho?

�  Os resultados do MSA batem certo com os resultados dos domínios? Isso é discutido?

�  O alinhamento MSA está correcto e bem apresentado (contém nomes fáceis de identificar, por ex.)?

�  O alinhamento MSA contém sequências repetidas? �  Adicionou a ORF desconhecida ao MSA? (erro

frequente!)

Annotathon: Análise de Resultados Critérios de Avaliação

�  ORFs �  Massa Molecular �  Domínios �  BLAST e Lineage Report �  MSA �  Filogenia e Taxonomia �  Ontologia �  Conclusões

Filogenia e Taxonomia: Análise de Resultados

�  O protocolo está correcto? �  Apresentação da árvore está correcta? Colocaram os

nomes dos taxa (género, classe, por ex.) nas folhas da árvore?

�  Discutiu a topologia das árvores? �  Realizou a construção de árvores com os 2 métodos

(NJ e ML)? �  Discutiu se as árvores são concordantes? �  Seleccionou qual o grupo taxonómico mais provável?

Annotathon: Análise de Resultados Critérios de Avaliação

�  ORFs �  Massa Molecular �  Domínios �  BLAST e Lineage Report �  MSA �  Filogenia e Taxonomia �  Ontologia �  Conclusões

Ontologia Génica

�  Escolheu o processo biológico correcto? �  Escolheu a função molecular correcta?

Annotathon: Análise de Resultados Critérios de Avaliação

�  ORFs �  Massa Molecular �  Domínios �  BLAST e Lineage Report �  MSA �  Filogenia e Taxonomia �  Ontologia �  Conclusões

Conclusões

�  Discutir argumentos a favor / contra a hipótese da sequência ser codificante ou não (usar números)

�  Discutir a sua função bioquímica e a sua participação num dado processo biológico

�  Discutir a classificação taxonómica

O que se deve EVITAR nas Conclusões

�  A descrição em que botões se clicou �  A descrição do método utilizado �  Escrever conclusões mal estruturadas (escrita telegráfica) �  Pôr “palha” na esperança de obter melhor nota �  Fazer plágio, copiando e colando descrições de funções

de páginas da Internet (implica anulação da anotação!) �  Não relacionar conclusões dos vários campos da

anotação (por ex. Não relacionar os resultados do MSA com os resultados do InterPro)

�  Pôr hipóteses sem as fundamentar (referências bibliográficas e / ou números)