genbank [1], the public repository for dna sequence · web viewuniversidade federal de pernambuco...
Post on 21-Jan-2019
212 Views
Preview:
TRANSCRIPT
Universidade Federal de Pernambuco
TRABALHO DE CONCLUSÃO DE DISCIPLINA
Turma de Bioinformática aplicada a genética
Recife
2007
NCBI
O falecido Senador Claude Pepper reconheceu a importância da informação
computadorizada processando métodos para a condição de pesquisas biomédicas e
responsabilizou-se pela legislação que estabeleceu o Centro Nacional para Informação
Biotecnológica (National Center for Biotechnology Information – NCBI) em 4 de
novembro de 1988, como uma divisão da Biblioteca Nacional de Medicina (National
Library of Medicine – NLM), localizado no campus da US National Institutes of Health
(NIH) em Bethesda, MD. NLM foi escolhido para esta experiência, criando e mantendo o
banco de dados biomédico, porque como parte do NIH, este poderia estabelecer um
programa de pesquisa computacional em biologia molecular [4].
O GenBank® é o banco de dados público de seqüências de nucleotídeos, bibliografia
suporte e anotações biológicas, ou seja é o repositório público para seqüências de DNA e
informações mantidas pelo NCBI. O GenBank cresceu de 5.700 entradas em 1985 para
mais de 3 milhões de seqüências com mais de 2 bilhões de pares de bases em 1998 [1, 2, 3].
Atualmente contem mais de 65 bilhões de bases de mais de 61 milhões de seqüências
individuais, com 15 milhões de novas seqüências adicionadas no último ano [1].
Este recurso inclui banco de dados de seqüências primárias de DNA e proteínas,
sites de genomas de organismos modelos e humano, banco de dados de mutações gênicas e
variações, banco de dados de estrutura de proteínas, ferramentas de visualização, sistema de
banco de dados de pesquisa de seqüências moleculares similares, serviço de predição da
estrutura do gene e proteína, e ferramentas de identificação padrão e modificadas [2]. O
banco de dados está ligado também a literatura científica via PubMed e Central PubMed
[1].
Contribuições dos projetos genoma shotgun (WGS) suplementam os dados nas
divisões tradicionais trazendo o total de mais de 145 bilhões de bases. Genomas completos
(www.ncbi.nlm.nih.gov/Genomes/index.html) continuam a representar uma porção do
crescimento do banco de dados, com mais de 120 dos 370 genomas microbianos completos
depositados no banco no ano passado [1].
O NCBI construiu o GenBank primário da submissão de seqüência de dados de
autores e do volume de submissão de seqüências expressadas (EST), levantamento de
seqüências do genoma (GSS) e outros dados de centros de sequenciamento. O US Office of
Patents and Trademarks também contribuiu na emissão de patentes das seqüências. O
GenBank, o European Molecular Biology Laboratory (EMBL) Data Library na Europa, e
o DNA Databank of Japan (DDBJ) compreendem o Banco de dados Internacional de
Seqüência de Nucleotídeos. As informações são revistas diariamente para assegurar uma
coleção de informações de seqüências uniforme e compreensível [2, 3].
Em adição ao GenBank, o NCBI da suporte e distribui uma variedade de bancos de
dados para as comunidades médicas e científicas. Estes incluem o Online Herança
Mendeliana no Homem (OMIM), o Banco de dados de Modelagem Molecular (MMDB) de
estruturas 3D de proteínas, a Coleção de Seqüências Únicas de Genes Humanos (UniGene),
um Mapa de Genes do Genoma Humano, a Procura Taxonômica, e o Projeto de Genoma e
Anatomia do Câncer (CGAP), em colaboração com o Instituto Nacional do Câncer [4].
O Entrez é o sistema de pesquisa e recuperação do NCBI que promove aos usuários
acesso integrado as seqüências, mapeamentos, taxonomia, e dados estruturais. O Entrez
também promove a visualização de gráficos das seqüências e mapas cromossômicos. A
literatura publicada é avaliada através do PubMed, uma interface de pesquisa na Web que
promove acesso a mais de 11 milhões de citações em jornais no MEDLINE e links
contendo artigos completos de publicações em sites da Web [4].
OMIM é o catalogo eletrônico que contem milhões de entradas para genes e
doenças genéticas e serve como um acompanhamento fenotípico ao Projeto Genoma
Humano. Os mapas citogenéticos do OMIM apresentam as localizações citogenéticas para
estes genes com localizações publicadas e promove uma lista alfabética de todas as doenças
descritas [4].
PubMed promove o acesso eletrônico a mais de 11 milhões de citações, resumos e
termos indexados em jornais de artigos na ciência biomédica. Este também inclue links de
textos completos de jornais, Atualmente, aproximadamente 20 milhões de pesquisas são
conduzidas por mês, e assim mais de 140 mil diferentes usuários buscam informações
diariamente via PubMed [4].
As principais ferramentas de analises de seqüências são:
1- BLAST (Basic Local Alignment Search) – compara genes e proteínas com outras
seqüências do banco público, traz diversos tipos incluindo o PSI-BLAST, PHI-BLAST e
BLAST 2 sequences.
2- CDD (Conserved Domain Database) – uma coleção de alinhamento de
seqüências e perfis representando os domínios conservados de proteínas em evolução
molecular.
3- e-PCR (Eletronic-PCR) – pode ser usado para comparar uma seqüência query
com locais mapeados para encontrar a possível localização no mapa da seqüência query.
4- Entres Gene – encontra informações sobre seqüências analisadas para um gene
e/ou organismo particular.
5- ORF Finder – ferramenta de analises gráficas que encontra todos os quadros
abertos de leitura de um tamanho mínimo da seqüência selecionado pelo usuário ou em
uma seqüência já no banco de dados.
6- VecScreen – identifica segmentos de seqüência de ácidos nucléicos que podem
ser de um vetor, conector ou adaptador de origem posteriormente usando ferramentas para
analises da seqüência ou submissão.
UW - Washington University
A Biblioteca Médica da Escola Universitária de Washington (Medical Library at the
Washington University School of Medicine) participou como um site teste do programa
GenInfo do NCBI, desenvolveu um sistema de trabalho online para promover o acesso a
seqüência molecular, dados de mapeamento e software para analises, e estabeleceu um
programa suporte para coordenar o acesso do banco de dados bibliográficos e não
bibliográficos [2, 6].
A Universidade de Washington (UW) Biblioteca de Ciências da Saúde (Health
Sciences Libraries – HSL) tem desenvolvido um programa de serviços de bioinformática
para aumentar o acesso dos pesquisadores ao seu banco de dados de seqüências e outras
pesquisas sobre informações biológicas. Estes serviços estão disponíveis desde Outubro de
1995 e tem como os mais notáveis o software da assembléia de mapas do MCD e o pacote
PHRED/PHRAP/CONSED. O UW HSL serve o Centro de Ciências da Saúde (Health
Sciences Center), o qual consiste de escolas de medicina, odontologia, enfermagem,
farmácia, trabalho social, saúde pública medicina da comunitária [6, 7].
O Centro de Genoma da Universidade de Washington (UWGC), embora menor que
outros Centros genômicos da rede, apresenta uma ajuda estatística e bem organizada Home
page. Este é um instituo de pesquisa para desenvolver melhores métodos para obtenção de
seqüências genômicas e construção de ferramentas matemáticas para analises eficientes dos
dados [5, 6].
Assim como os demais, o UWCG apresentam anotações onde pode se encontrar a
descrição da seqüência como a composição, gráficos representativos e alinhamentos. A
descrição promove um resumo da seqüência e fornece o número de acesso ao GenBank [5].
EMBL-EBI (European Bioinformatics Institute)
O instituto europeu de bioinformática (EBI) é uma organização acadêmica sem fins
lucrativos e que faz parte do laboratório europeu de biologia molecular (EMBL). O EBI é
um centro de pesquisa e serviços de bioinformática e controla banco de dados biológicos
incluindo acido nucléico, além de seqüências de proteínas e estruturas macromoleculares.
O instituto europeu de bioinformatica (EBI) substituiu a livraria de dados do
Laboratório Europeu de Biologia Molecular (EMBL) em 1994. Como seu predecessor, o
EBI é um repositório computadorizado de todas as seqüências reportadas e tem uma
variedade de ferramentas para suas análises.
A função primária do EBI é o desenvolvimento e distribuição de ambos, um banco
de dados de seqüências de nucleotídeos compreensível (O EMBL banco de dados de
seqüência de nucleotídeos) e com a colaboração com Dr. Amos Bairoch da universidade de
Geneva, e um banco de dados companheiro de seqüências de proteínas, SWISS-PROT. Em
adição a esses dois bancos de dados de seqüências, EBI mantém ao redor de 50 bancos de
dados especializados.
O EMBL-EBI se encontra em uma paisagem de 55 hectares em um parque rural de
Cambridge, onde forma o “Wellcome genome campus”. O campus também aloca o
Wellcome trust Sanger institute, fazendo umas das maiores concentrações de peritos em
genômica e bioinformática. O EMBL-EBI cresceu com a ajuda do trabalho pioneiro da
EMBL em prover publicamente banco de dados biológicos para a comunidade científica.
Tem um papel fundamental em alcançar a missao da EMBL de promover um meio de
pesquisa com o topo de qualidade e também de desenvolver novas tecnologias, e prover
serviços e treinamentos para a vida de cientistas da Europa.
As raízes do EMBL-EBI estão na livraria de dados de seqüências de nucleotídeos da
EMBL (conhecida como banco da EMBL) que foi criada em 1980 no laboratório da EMBL
em Heidelberg, Alemanha e foi o primeiro banco de dados de seqüência de nucleotídeos do
mundo. O objetivo original era estabelecer um computador central com banco de dados de
seqüências de DNA, melhor que ter os cientistas submetendo as seqüências para revistas. O
que começou com uma modesta tarefa de absorver informação da literatura, breve se tornou
o principal banco de dados em atividade com submissão eletrônica direta dos dados.
Os serviços que o EBI disponibiliza é uma extensiva rede de serviços gratuitos. Isso
inclui o acesso ao primário e especializado banco de dados mantido pelo EBI, coleção de
programas de computadores, documentação, e ferramentas de análise de seqüências que
podem ser utilizadas por servidores de e-mail, Gopher ou pela internet. A rede de
servidores do EBI, NetServ, permite o acesso via mensagem de e-mail para todos os bancos
de dados, programas e documentações mantidas pelo EBI. As seqüências de dados podem
ser analisadas por similaridade com outras seqüências usando o os servidores de e-mail do
EBI, BLITZ.
Construindo em mais de 20 anos de experiência em bioinformática, O EMBL-EBI
mantém o mais abrangente banco de dados do mundo. EBI é o nó para esforços
coordenados globalmente para coletar e disseminar dados biológicos. Muitos dos sues
bancos de dados são nomeados biologistas - Eles incluem EMBL – Bank (seqüências de
DNA e RNA), Esembl(genomas), ArrayExpress(dados de expressão de genes baseados em
microarray), Uniprot(seqüência de proteínas), Interpro (famílias de proteínas, domínios e
motifs) e MSD (estruturas macromoleculares). Outros como IntAct (Interação proteína -
proteína), Reactome e ChEBI (moléculas pequenas), são novos recursos que ajudam os
pesquisadores a entender não só as partes moleculares que vão construir um organismo,
mas qual dessas partes combinam para criar sistemas. Os detalhes de cada banco de dados
variam, mas todos têm os mesmos princípios, que é prover serviços para a pesquisa
cientifica, como: Acessibilidade, Compatibilidade, Serie de dados compreensíveis,
portabilidade, qualidade.
Atualmente a missão principal do EBI é prover gratuitamente dados disponíveis e
serviços de bioinformática para todas as facetas da comunidade cientifica para o progresso
da ciência, contribuir para o avanço da biologia através da pesquisa dirigida pelo
investigador em bioinformática, prover treinamento avançado em bioinformática para
cientistas em todos os níveis, de estudantes de PhD a investigadores independentes e ajudar
a disseminar tecnologias para a indústria.
DDBJ (DNA Data Bank of Japan)
O banco de dados de DNA do Japão (DDBJ) é um repositório computadorizado de
todas as seqüências de acido nucléico já reportadas, patrocinada e mantida pelo governo
japonês. DDBJ começou seu serviço em colaboração com a comunidade de biologia
molecular do Japão e apoiado pelo ministério da educação, ciência, esportes e cultura
japonês. O banco de dados é administrado pelo DDBJ, o qual colabora com outros
repositórios principais de banco de dados de seqüências.
DDBJ (DNA Data Bank of Japan) começou o banco de dados de DNA no começo
de 1986 no instituto nacional de genética (NIG). Desde o começo, DDBJ tem funcionado
como um dos Bancos de dados de DNA internacionais, incluindo EBI (European
Bioinformatics Institute; responsável pelo banco de dados da EMBL) na Europa e o NCBI
(National Center for Biotechnology Information; responsável pelo banco de dados do
Genbank) nos Estados Unidos.
O DDBJ tem colaborado com os dois outros bancos de dados através do intercambio
de dados e informações pela internet e encontros regulares, O encontro internacional de
Consulta a banco de dados de DNA e o Encontro internacional de colaboradores dos bancos
de dados de DNA.
Dados de seqüências podem ser analisados por similaridade com outras seqüências
usando os servidores de e-mail BLAST e Fasta do DDBJ. Os servidores do BLAST e o
FastA do DDBJ trabalha com o Servidor do BLAST do NCBI e o servidor do FastA com o
EBI. Em adição, DDBJ oferece um servidor de alinhamento de seqüência múltipla.
MAlign.
Dados de seqüências podem ser submetidos ao banco de dados do DDBJ de diversas
formas. Arquivos eletrônicos criados pelo autor podem ser submetidos por carta ou e-mail.
Mais recentemente, uma ferramenta baseada na web chamada Sakara foi colocada em
operação. Sakara é uma ferramenta baseada em entrada de seqüência e anotação que pode
ser acessada através do site do DDBJ.
O centro de informação biológica no NIG foi reconhecido como Centro de
informação da biologia e banco de dados do Japão (CIB-DDBJ) em 2001. O novo centro
tem um papel principal em carregar a pesquisa biologia da informação e operar o DDBJ no
mundo. É geralmente aceito que pesquisas em biologia hoje requer ambos os equipamento
computador e experimentos muito bons. DDBJ é o único banco de dados no Japão, que é
oficialmente certificado para coletar seqüências de DNA dos pesquisadores e gerar o
numero de acesso internacionalmente reconhecido dos pesquisadores que submetem
seqüências em qualquer outro país.
Desde que trocamos dados coletados com EMBL/EBI e GenBank/NCBI em uma
base diária, os três bancos de dados dividem virtualmente os mesmo dados em qualquer
hora.
BLAST
Um dos programas de busca por similaridade mais usados é o BLAST (Basic Local
Alingnment Search Tool)(http://www.ncbi.nlm.nih.gov/BLAST), ferramenta de análise
comparativa de seqüências disponível no site do NCBI (www.nci.nlm.nih.gov), que calcula
o nível de similaridade que pode existir entre uma região da seqüência do cluster e outra
que está disponível em um banco de dados, como o Genbank (principal banco público de
seqüências de DNA e aminoácidos), realizando um alinhamento local. O programa recebe
as seqüências de aminoácidos ou nucleotídios no formato FASTA (formato aceito pelo
programa FASTA, um dos primeiros programas de alinhamento local de seqüências). A
busca entre diferentes combinações de seqüência são realizadas por diferentes tipos de
BLAST, os disponiveis são: seqüência de nucleotídeos em um banco de seqüências de
nucleotídeo (BLASTn); seqüência de aminoácidos em um banco de dados de seqüências de
aminoácidos (BLASTp); seqüência de nucleotídeos traduzida nos seis possíveis quadros de
leitura em um banco de seqüências de aminoácidos (BLASTx); seqüência de aminoácido
em um banco de dados de nucleotídeos traduzido dinamicamente nos seis quadros de
leitura (tBLASTn) e seqüência de nucleotídeos em um banco de dados de nucleotídeos
traduzido por computador (tBLASTx). Outras ferramentas de busca que podem ser usadas
quando a seqüência em estudo é de proteínas são: PSI-BLAST (Position-Specific Iterative
BLAST) muito útil para achar proteínas distantemente relacionadas que consiste na
construção de um perfil, após uma busca inicial, o qual é usado para as buscas subseqüentes
e o PHI-BLAST (Pattern-Hit Initiated BLAST) que encontra proteínas que contém um
padrão especificado pelo usuário e são similares à seqüência de estudo.
Após escolhido o método de comparação, é necessário adicionar a sequência e se
achar necessário adicionar informações específicas sobre o invidíduo coletado (Entrez
query), ou restringindo o grupo taxonomico a ser procurado.
Para fazer uma busca mais prescisa pode-se selecionar parâmentros para os
algoritimos, que normalmente encontram-se na opção default. Dentre os padrões gerais
pode-se selecionar o número máximo de sequências para mostrar, pode-se selecionar a
opção de automaticamente ajustar o tamanho da palavra e outros parâmentros para
melhorar os resultados para as query curtas; estabelecer o threshold. que é o número de
chances de combinação em um modelo aleatório, e por último o word size que é o tamanho
inicial da semente que irá atuar no primeiro contado do sequenciamento.
Também podem ser estabelecidos parâmetros de pontuação, onde o programa utiliza
matrizes de pontuação, úteis principalmente em seqüenciamento de aminoácidos, que têm
como objetivo capturar o significado biológico da semelhança entre resíduos alinhados
considerando as mudanças conservativas e diferenças nas freqüências observadas nos
mesmos. As matrizes mais utilizadas são a PAM (Point Accepted Mutation) e a BLOSUM
(Block Substitution Matrices). Nas matrizes PAM, a análise é feita observando o
alinhamento global, que inclui tanto regiões altamente conservadas como variáveis. As
matrizes BLOSUM são baseadas apenas nas regiões altamente conservadas.
A matriz PAM foi originalmente desenvolvida pela contabilização da mutação
observada entre os aminoácidos que freqüentemente substituíam outros aminoácidos na
evolução, e baseada em uma série de dados relativamente pequena de 1.572 mudanças em
71 grupos de proteínas estreitamente relacionadas. Contudo, os valores da matriz são
baseados no modelo em que uma seqüência deriva de outra por uma série de mutações
independentes, cada mudança em um aminoácido na primeira seqüência para um outro
aminoácido na segunda. PAM250 era uma matriz muito popular, mas foi substituído agora
pela série de matrizes BLOSUM, particular em procurar proteínas mais distantemente
relacionadas. As matrizes PAM de um mais baixo número correspondem aproximadamente
a matrizes numeradas mais elevadas de BLOSUM. O BLOSUM, por sua vez, é conjunto
das matrizes de alinhamento cujas probabilidades foram calculadas a partir das freqüências
de substituição das proteínas obtidas dos alinhamentos múltiplos sem gaps em proteínas
reais.
O custo de cada gap pode ser também imposto, ou seja, se a seqüência a ser
“blastada” necessita de uma combinação mais severa, com menores alterações possíveis,
deve-se optar por um maior peso dos gaps, caso contrário pode-se diminuir esse peso para
uma gama maior de seqüências.
O objetivo desta anotação primária, realizada automaticamente por computadores,
é de identificar, dentro do banco de seqüências geradas, as seqüências de prováveis genes,
através da sua comparação com uma cópia similar descrita em um banco de dados públicos,
fornecendo, por exemplo, indícios de que esta seqüência (até então não anotada) pertence a
uma família conhecida de proteínas.
Para avaliar se um alinhamento é significativo ou se é uma mera coincidência de
alguns poucos pares de bases que apresentaram alguma identidade entre as seqüências, é
necessário saber qual a possibilidade daquela similaridade ter ocorrido ao acaso. Desta
forma devem ser observados alguns valores que são atribuídos pelo programa para o
pareamento entre as seqüências, aferindo a similaridade dentro do segmento comparado.
Um dos principais valores é o score, uma pontuação conferida ao alinhamento que
considera, ente outros fatores, que num pareamento correto as duas seqüências devem
possuir o mesmo comprimento, ter todas as suas bases similares e não apresentar gaps. O
cálculo deste valor baseia-se na penalização dos alinhamentos que descumprirem as
considerações abordadas acima. Na matriz de pontuação utilizada pelo programa, atribui-se
valor 2 à coincidência de uma base entre duas seqüências, valor -2 se elas são distintas e
valor -5 se há necessidade da introdução de um gap para permitir o alinhamento do restante
das seqüências. Logo, alinhamentos mais significativos terão o maior score.
Outro importante parâmetro de análise do alinhamento é o e-value ou equação
associada ao valor do score, que mede a possibilidade do evento de alinhamento ocorrer ao
acaso. O melhor alinhamento possível é alcançado com e-value igual a zero. Valores de e-
value menores que 10e podem ser considerados significativos para alinhamento de
seqüências de aminoácidos e valores menores que 20e para alinhamentos de seqüências de
nucleotídeos.
Alguns outros itens são observados na análise de um pareamento de seqüências
realizado pelo BLAST como o valor da identidade que é calculado a partir da divisão do
número de caracteres iguais entre as seqüências pelo comprimento do segmento alinhado; a
presença ou ausência de gaps e o quadro de leitura em que a seqüência em estudo pareou
com a seqüência do banco de dados público.
Há uma diferença significativa entre o WU BLAST e o NCBI BLAST, ambos de
origens diferentes, apresentando pacotes de software exibindo linhas de comando com
diferentes opções. Para comparações de desempenho entre os dois, deve ser levado em
conta os competentes dos fatores que afetam a velocidade, a sensibilidade e a seletividade.
Clustal
O alinhamento de muitas seqüências de nucleotídeos ou aminoácidos é agora uma
ferramenta essencial na biologia molecular. Alinhamentos múltiplos são usados para
encontrar diagnóstico padrão para caracterizar famílias de proteínas; para detectar ou
demonstrar homologia entre novas seqüências; ajudar a predizer estruturas secundárias e
terciárias de novas seqüências; sugerir primers de oligonucleotídeos para PCR e como uma
ferramenta essencial para análise molecular evolutiva. A relação de aparência de novas
seqüências é firmemente aumentada e o desenvolvimento da eficiência e do correto método
para múltiplos alinhamentos é, por esta razão, de maior importância. A maioria dos
alinhamentos múltiplos era executada usando a semelhança “progressiva” de Feng e
Doolittle.
Julie D. Thompson, Desmond G. Higgins e Toby J. Gibson, da EMBL/EB,
descreveram um número de aperfeiçoamento para o método de alinhamento múltiplo
progressivo que melhora a sensibilidade sem sacrificar a velocidade e eficiência com que o
método é praticado. O novo método, de acesso ao público, é realizado em um programa
chamado Clustal W. Hoje, esse programa é básico para alinhamento múltiplo global de
seqüências, que podem ser constituídas por nucleotídeos ou proteínas. Dizer que o
alinhamento é global significa que as seqüências envolvidas são alinhadas de um extremo
ao outro, dando origem a apenas um resultado, diferente do que ocorre com o alinhamento
local, onde se procura alinhar apenas as regiões mais conservadas, independente da
localização relativa de cada região em sua seqüência. Consequentemente, este alinhamento
tem como resultado uma ou mais análises conservadas entre as seqüências. Além dessa
característica, o alinhamento global é frequentemente utilizado para determinar regiões
mais conservadas de seqüências homólogas, enquanto que o local é geralmente utilizado
para procurar seqüências homólogas ou análogas (funcionalmente semelhantes).
O alinhamento múltiplo das seqüências é feito em três passos:
1- Alinhamento por pares: todas as seqüências são comparadas com cada uma das outras
(Alinhamento Pairwise);
2- Construção de um dendrograma (semelhante a uma árvore filogenética), que descreve o
agrupamento aproximado das seqüências por similaridade.
3- Alinhamento múltiplo final. Este é realizado usando como guia o dendrograma anterior,
1. Parâmetros do alinhamento por pares
A distância calculada entre um par e seqüências é utilizada para construir um
dendrograma, o qual é o guia principal para o alinhamento final. As distâncias são
calculadas para cada par de seqüências por separação mediante a um método de
programação dinâmica (lento, porém seguro) ou pelo método de Wilbur y Lipman
(extremamente rápido, porém aproximado).
1.1 Parâmetros de alinhamento do método de programação dinâmica (Lento/ preciso):
Estes parâmetros não afetam a velocidade dos alinhamentos, já que são utilizados para
produzir os alinhamentos iniciais ao qual são então recalculados para dar por meio de score
de identidade; estes últimos são mostrados em uma planilha. Os scores são convertidos em
distâncias para a construção das árvores.
As opções que podem ser variadas para este método de alinhamento são as seguintes:
- Penalização de abertura de um gap;
- Penalização para a extensão de um gap por um resíduo;
- Tabela com scores que escrevem a similaridade de cada aminoácido com os demais;
- Matriz com scores associados com nucleotídeos que coincidem (matches) e os que
não coincidem (mismatches).
1.2 Parâmetros de alinhamento do método de Wilbur e Lipman (rápido/ aproximado):
Os scores de similaridade são calculados a partir de alinhamentos globais, aproximados e
rápidos, mediante a duas técnicas: A primeira é considerando apenas fragmentos que
coincidem completamente (k-tuples); e a segunda seria só as melhores diagonais utilizadas
(aquelas com a maioria de coincidências ou matches k-tuples).
Os parâmetros que controlam o alinhamento através desse método são:
- K-tuple size: este é o tamanho do fragmento que coincide completamente e é
utilizado para os cálculos. Conforme se adiciona, a velocidade aumenta (max= 2 para
proteínas; 4 para DNA). Conforme se diminui, aumenta a sensibiladade (mínimo 1 para
proteínas e 2 para DNA). Para seqüências grandes (mais de 1000 resíduos) pode ser
necessário aumentar o valor que o programa usa como padrão.
- Gap penalty: esta é a penalidade para cada gap em alinhamentos rápidos.
Praticamente não afeta a sensibilidade ou velocidade, a menos que se trate de valores
extremos.
- Top diagonals: o número de matches k-tuple em cada diagonal (em um gráfico de
matriz de pontos imaginários) é calculado. Apenas os melhores são usados no alinhamento.
Este parâmetro especifica quantos; conforme se deseja aumentar a velocidade dos cálculos,
seu valor é adicionado, enquanto que, conforme ele diminui se obtém uma maior
sensibilidade.
- Window size: é o numero de diagonais ao redor de cada uma das diagonais que será
usada. Seu decréscimo aumenta a velocidade, enquanto que seu aumento diminui a
sensibilidade.
2. Parâmetros de alinhamento múltiplo
Controlam o alinhamento múltiplo final. Este é o “coração” do programa e seus
detalhes são complicados. Cada passo do alinhamento múltiplo final consiste em alinhar
duas seqüências. Isto é feito progressivamente seguindo a ordem de ramificação no guia da
árvore (Guide Tree). Os parâmetros básicos que o controlam são a penalização por gaps e
scores para vários atributos idênticos ou não.
2.1. Penalidades dos Gaps: Controla a introdução de cada gap novo e seu
comprimento. A adição na penalização de gaps diminuiria a freqüência os mesmos;
enquanto que o aumento da penalidade da extensão do gap, o fará mais curto.
2.2. Retardo das seqüências divergentes: Com esta opção se retarda o alinhamento
das seqüências menos relacionadas, até mesmo aquelas mais relacionadas têm sido
alinhadas. A opção ajusta a porcentagem do nível de identidade requerido para retardar a
adição de uma seqüência; é decidir que seqüências com um nível de identidade menor que
o escolhido, serão alinhadas depois que as outras seqüências com um valor maior.
2.3 Valor de transição: Com este parâmetro há um valor entre 0 e 1 para as
substituições purina-purina ou pirimidina-pirimidina. O valor nulo significa que as
transições são consideradas como não-coincidência de bases (mismatches), enquanto que
um valor de 1 dá um score de coincidência ou match a uma transição. Para seqüências de
DNA distanciadas, o valor deveria aproximar-se de zero, enquanto que para seqüências
muito relacionadas, podem ser valores mais altos.
2.4 Matriz de “pesos” de proteínas. Conduz a um novo menu onde é possível
ecolher uma matriz de “peso”; O default do programa seleciona uma das matrizes
BLOSUM. A matriz que realmente se utiliza dentro da série escolhida depende de quão
similares são as sequências a serem alinhadas neste passo. As distintas matrizes trabalham
de diferente maneira no cálculo de distâncias evolutivas. É necessário ter um conhecimento
prévio para decidir qual o tipo de matriz é melhor para seus resultados.
2.5 Matriz de “pesos” de DNA: Conduz a um novo menu onde apenas uma matriz
(não uma série), pode ser selecionada. O default é o mesmo que utiliza BESTIFIT o GCG
para a comparação das seqüências de nucleotídeos.
2.6. Parâmetros de Gap de proteínas: Mostra o menu que permite colocar algumas
opções de penalização de gap, que são usadas no alinhamento de proteínas. Os parâmetros
de gaps em proteínas são:
- Penalizações específicas de resíduos: são as penalizações após os gaps em
proteínas, que reduzem a abertura de gaps em cada posição no alinhamento ou na
seqüência.
- Penalização de gaps hidrofílicos: são usados para incrementar as possibilidades de
um gap em uma corrida (5 ou mais) de aminoácidos hidrofílicos; estes são provavelmente
regiões de loop ou coil onde os gaps são mais comuns.
- Distância de separação de gaps: diminui a possibilidade de que apareça gaps muito
próximos. Aqueles gaps que estão a uma distância menor que a especificada são mais
penalizados que o resto dos gaps. Esta opção não elimina os gaps próximos sem que sejam
freqüentes permitindo que o alinhamento seja um único bloco.
- Separação de Gap dos extremos: os gaps extremos são tratados como gaps internos
pelo parâmetro anterior para evitar gaps demasiadamente próximos. Conforme esta opção é
desativada os gaps extremos são ignorados. Isto é útil quando se deseja alinhar fragmentos
onde eles não são de importância biológica.
Antes de calcular uma árvore filogentica é necessario ter armazenado na memória
um alinhamento em qualquer formato (CLUSTAL, EMBL/Swiss Prot, FASTA, GCG-
MSF, NBRF/PIR). O método utilizado é o NJ (Neighbour Joining), de Staituo e Nei.
Primeiro deve se calcular as distâncias (porcentagem e divergência) entre todos os pares de
seqüências de um alinhamento múltiplo e posteriormente aplicar o método a matriz de
distâncias. É possível excluir posições em qualquer seqüência que tenha um gap. Com essa
opção as áreas duvidosas do alinhamento, que são aquelas ao redor o gap, são retiradas. A
desvantagem é que muitos dados podem ser perdidos se houver muitos gaps na seqüência.
Através do filogramas e cladogramas formados por esses programas, é possível visualizar
diferençar evolucionárias entre as seqüências alinhadas.
Atualmente há dois tipos de Clustal. O mais utilizado é conhecido como Clustal
W. O texto acima retrata como ocorre seu funcionamento. Há ainda o Clustal X que difere
do Clustal W pela sua interface gráfica. O programa é projetado também para: (1) executar
alinhamentos múltiplos, (2) ver os resultados do processo do alinhamento, e (3) se
necessário, melhorar o alinhamento. Melhorar o alinhamento é facilitado por algumas
opções que não estão disponíveis no Clustal W.
Mega
Devido ao sequenciamento em grande escala de diversos organismos, houve uma
necessidade de análise de todos esses dados, e a comparação destes dados são essenciais na
procura de um melhor entendimento da história da vida, suas origens e formações
elucidando assim os mecanismos de evolução de vários caracteres morfológicos e
fisiológicos
O Software MEGA ( Molecular Evolutionary Genetics Analysis) criado na década de
90, e hoje na sua quarta versão, tem criado ferramentas mais eficazes para se entender e
estudar as seqüências gênicas, através de alinhamentos, estimativas das seqüências
divergentes, reconstrução e visualização de árvores filogenéticas e testando hipótese para a
evolução molecular, pois o mesmo contém vários algoritmos computacionais e métodos
estatísticos úteis com uma fácil interface permitindo trabalhos experimentais. A primeira
versão foi distribuída em 1993 para 2.000 cientistas, a segunda versão foi publicada em
2001, com uma interface muito mais poderosa e uma viabilidade para o Microsoft
Windows.
O primeiro passo para uma análise comparativa é o processo de alinhamento, este
processo identifica as posições de nucleotídeos homólogos ou aminoácidos de uma dada
seqüência. Para construir esse alinhamento, muitos passos são envolvidos, incluindo a
aquisição da seqüência no banco de dados. Estas seqüências são adquiridas através da
ferramenta BLAST. Todas as seqüências encontradas podem ser visualizadas, pela
ferramenta Web-Browsing do MEGA, permitindo uma maior facilidade da procura de
seqüências. As seqüências são alinhadas através da implementação do Clustal-W podendo
diferenciar as regiões codificantes ou não através da escolha: Translated proteins
sequences. Outra facilidade do MEGA é poder ver e editar as seqüências (eletroferograma)
produzidas pelo seqüenciador, ele pode editar dados do ABI e Staden.
Para dar entrada nos dados para a análise molecular de DNA ou aminoácidos e nas
matrizes distance pairwise, as seqüências podem ser de diversos grupos, ter diversos
domínios (blocos contínuos de nucleotídeos ou aminoácidos) podendo os mesmos serem
codificantes ou não.
O software suporta a conversão de muitos formatos incluindo o Clustal, Nexus,
Philip, FASTA, entre outros, permitindo uma maior facilidade no uso das outras
ferramentas do programa, eles são feito pelo Text Editor, contendo várias outras utilidades
como remover ou inserir espaços e fazer um reversão complementar do texto.
Para o estudo das relações entre as espécies o MEGA possui as distâncias baseadas
em dois métodos para reconstrução filogenética: máxima parcimônia MP, este inclui os
algoritmos UPGMA e Neighbour Joining e Minimium Evolution. No algoritmo UPGMA
assume-se a constância da taxa de evolução para todas as linhagens. No Neighbour Joining
não se assume uma taxa constante e constrói a árvore hierarquicamente através da soma dos
comprimentos dos ramos mais próximos.
Além da construção de árvores com diversos métodos o software MEGA é composto
por várias outras ferramentas, tais como os testes estatísticos, como:os testes de seleção
que testam a hipótese da evolução adaptativa e neutra a um nível molecular, o mesmo é
baseada na distâncias sinônimas e não sinônimas; confere também uma estimativa da
distância evolucionária, através do número de substituições de nucleotídeos ou
aminoácidos. Essas distâncias são essências para a reconstrução das árvores filogenéticas
avaliando a diversidade das seqüências dentro e entre grupos e estimando o tempo da
divergência das espécies.
Na versão quatro duas novas funções foram criadas: Caption Expert software. Este
modula todos os resultados gerados pelo MEGA. Esta descrição informa ao usuário todas
as informações usadas nas análises, citando também o método, o algoritmo e o software
usado na análise, permitindo um melhor entendimento da mesma.
A segunda função é: Maxximum Composite LiKelihood (MCL) método que estima a
distância evolutiva entre as seqüências de DNA, na qual o MEGA emprega para inferir
árvores filogenéticas, tempo de divergência e uma média das seqüências divergentes entre e
no mesmo grupo.
Com isso, podemos observar as diversas funcionalidades que o MEGA possui, além
de um interesse em sempre atualizar suas funções, melhorar a interface, permitindo ao o
usuário uma maior obtenção de sucesso em seus resultados.
Referências
Acessado em 22/08/2007 às 18:35 pm – http://www.genome.washington.edu/UWGC/index.cfm.
Acessado em 22/08/2007 às 18:35 pm – http://www.ncbi.nlm.nih.gov.
Acessado em 24/08/07 às 10:20 am – http://www.ddbj.nig.ac.jp
Acessado em 24/08/07 às 10:26 am – http://www.ebi.ac.uk
Benson, DA, Boguski, M, Lipman, DJ, Ostell, J, 1994. GenBank. Nucleic Acids Research, Vol. 22, No. 17, 3441 – 3444.
Benson, DA, Karsch-Mizrachi, I, Lipman, DJ, Ostell, J, Wheeler, DL, 2007. GenBank. Nucleic Acids Research, Vol. 35, D21 – D25.
Emmert, D.B., Stoehr, P.J., Stoesser, G. and Cameron, G.N. (1994) The EuropeanBioinformatic Institute (EBI) databases. Nucleic Acids Res., 22, 3445-3449.
Pruitt, KD, 1998. WebWise: Guide to the Washington University Center for Genetics in Medicine Web Site. Genome Res. 8, 686 – 689.
Pruitt, KD, 1998. WebWise: Guide to the University of Washington Genome Center Web Site. Genome Res. 8, 572 – 575.
Rodriguez-Tome, et al., (1996), The European Bioinformatics Institute (EBI) databases. Nucleic Acids Res. 24, 6-12.
Sudhir Kumar , Koichiro Tamura , and Masatoshi Nei. MEGA3: Integrated software for Molecular Evolutionary Genetics Analysis and sequence alignment Brief Bioinform v.5. n.2. p. 150-163. 2004
Tamura K, Dudley J, Nei M & Kumar S MEGA4: Molecular Evolutionary Genetics Analysis (MEGA) software version 4.0. Molecular Biology and Evolution v. 24. n.8 p. 1596-1599.2007
Yarfitz, S, Ketchell, MLDS, 2000. A library-based bioinformatics services program. Bull Med Libr Assoc 88(1), 36 – 48.
top related