identificação dos genes de uma cadeia de dna com a ferramenta genscan lauro didier lins junho de...
TRANSCRIPT
![Page 1: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/1.jpg)
Identificação dos Genes de uma cadeia de DNA com a
ferramenta GENSCAN
Lauro Didier Lins
Junho de 2001
![Page 2: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/2.jpg)
Introdução
• Aumento do número de cadeias de DNA seqüenciadas.
• Necessidade de saber como todos estes DNAs se expressam (genes).
• Grande quantidade de dados. (ex. 3 bilhões de pares de base no genoma humano).
• Utilização de métodos computacionais se torna fundamental.
![Page 3: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/3.jpg)
Identificação de Genes (parte 1)
• DNA?• Gene?• Identificação de
Genes? DNA
Gene
Identificação
![Page 4: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/4.jpg)
Identificação de Genes (parte 2)
• Exons... • Introns...• Sentido 5’ 3’...• Em apenas uma das fitas do DNA...
Intron0 Intron1
DNA
Exon1 Exon2{ { { { {5’ 3’Exon0
Gene
![Page 5: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/5.jpg)
GENSCAN
• Programa de computador para identificação de genes.
• Basedo num modelo probabilistico para a estrutura do Gene descrito por Chris Burge e Samuel Karlin, ambos do departamento de matemática da universidade de Stanford.
GenscanDNA
Genes
![Page 6: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/6.jpg)
Características do GENSCAN (parte 1)
• Identificação da estrutura completa de intron/exon dos Genes
• Capacidade de identificar múltiplos genes, genes parciais ou genes completos.
• Capacidade de identificar genes em ambas as fitas do DNA.
• Capacidade de identificar tanto exons otimais quanto exons sub-otimais (em relação ao modelo).
![Page 7: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/7.jpg)
Características do GENSCAN (parte 2)
• Adequado para: vertebrados, milhos e Arabidopsis.
• Associa probabilidade significativa a suas predições.
• Não utiliza homologia com proteínas.• Não aborda corte alternativo
(alternative splicing).• Não modela genes nas duas fitas que
se sobrepõem (são raros).
![Page 8: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/8.jpg)
Aspectos Importantes
• Através da observação de exemplos bem documentados alguns aspectos importantes para a identificação de genes foram percebidos:– Conteúdo C+G
• Densidade de Genes• Tamanho dos Genes
– Regiões Características
Intron0 Intron1
DNA
Exon1 Exon2{ { { { {5’ 3’Exon0
Gene
RegiãoPromotora
Regiãode Corte 5’
Regiãode Corte 3’
Regiãode Corte 5’
Regiãode Corte 3’
RegiãoPolyA
![Page 9: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/9.jpg)
O que é mesmo ...
• ... DNA?• ... Gene?• ... Identificação de Gene?• ... Genscan?
DNA
Gene
Genscan
Identificação
![Page 10: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/10.jpg)
Como identificar o que é e o que não é Gene numa cadeia de DNA? (parte 1)
• Analogia de um DNA com um programa...– Os Genes seriam blocos responsáveis por uma única rotina
do programa.
...// esta rotina define a cor dos olhos da pessoa.begin // a cor dos olhos será azul cor_dos_olhos = AZULend
// esta rotina define se a pessoa escreve com // a mão esquerda ou direita.begin // esta pessoa aqui será canhota! escreve_com_a_mao = ESQUERDAend...
DNA
Gene
![Page 11: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/11.jpg)
Como identificar o que é e o que não é Gene numa cadeia de DNA? (parte 2)
• Num programa todo bloco...– ... começa com um begin ...– ... e termina com um end
...// esta rotina define a cor dos olhos da pessoa.begin // a cor dos olhos será azul cor_dos_olhos = AZUL;end
// esta rotina define se a pessoa escreve com // a mão esquerda ou direita.begin // esta pessoa aqui será canhota! escreve_com_a_mao = ESQUERDA;end...
Marcador de início e fim de bloco
Marcador de início E fim de bloco
![Page 12: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/12.jpg)
Como identificar o que é e o que não é Gene numa cadeia de DNA? (parte 3)• No programa todo bloco pode ser identificado
simplesmente procurando as palavras begin e end.• Será que todo gene também tem uma “palavra
begin” e uma “palavra end”?– Empiricamente podemos dizer que sim!
• Agora vem a pergunta mais importante: Será que é possível definir como é a “palavra begin” e a “palavra end” de um gene para possamos indentificá-los assim como no programa (nossa analogia)?– Definir exatamente ainda não é possível. Porém sabemos
mais ou menos a “cara” do begin e do end de um gene e utilizamos este conhecimento para identificar estatisticamente (não é 100%) onde estão os genes de uma cadeia de DNA.
![Page 13: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/13.jpg)
O que sabemos... (parte 1)
• O Gene está situado em uma das fitas do DNA e é base para a codificação de um tipo de proteína.
Intron0 Intron1
DNA
Exon1 Exon2{ { { { {5’ 3’Exon0
Gene
![Page 14: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/14.jpg)
O que sabemos...(parte 2)
• Identificar um Gene é equivalente a saber exatamente:– Em que fita do DNA se encontra o Gene.– Onde estão seus Exons
![Page 15: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/15.jpg)
O que sabemos...(parte 3)
• Alguns detalhes de como são “mais ou menos”os sinais begin e end de um Gene:– Antes do início de um Gene existe a região promotora rica em TATA (pares de Timina
Adenina).– Num dos exons iniciais existe um códon (tripla de nucleotídeos) normalmente ATG que será
o marcador do início da tradução, ou seja, o próximo códon já definirá um aminoácido na proteína que será sintetizada.
– Entre um exon e um intron existe a chamada região de corte doadora (donor splice site ou 5’ splice site).
– Entre um intron e um exon existe a chamada região de corte aceitadora (acceptor splice site ou 3’ splice site).
– No último exon do Gene existe um códon de parada, a partir do qual nenhum aminoácido entrará mais na proteína que está sendo sintetizada.
– A região após o último exon do gene é rica em A’s (Adenina) chamada cauda polyA
![Page 16: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/16.jpg)
GENSCAN
• Ferramenta para identificação de genes numa cadeia de DNA baseda num modelo probabilistico para a estrutura do Gene descrito por Chris Burge e Samuel Karlin, ambos do departamento de matemática da universidade de Stanford.
• Modelo adequado para eucariotos.• Modelo baseado num Generalized Hidden
Markov Model (GHMM).
![Page 17: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/17.jpg)
GENSCAN
• Ferramenta para identificação de genes numa cadeia de DNA baseda num modelo probabilistico para a estrutura do Gene descrito por Chris Burge e Samuel Karlin, ambos do departamento de matemática da universidade de Stanford.
• Modelo adequado para eucariotos.• Modelo baseado num Generalized Hidden
Markov Model (GHMM).
![Page 18: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/18.jpg)
Características do GENSCAN
• Identificação da estrutura completa de intron/exon de um Gene numa cadeia de DNA.
• Capacidade de identificar múltiplos genes, genes parciais e genes completos.
• Capacidade de identificar um conjunto de Genes ocorrendo em ambas as fitas do DNA.
• Capacidade de identificar tanto exons otimais quanto exons sub-otimais (em relação ao modelo)
![Page 19: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/19.jpg)
Como usar o GENSCAN
Pedaço contíguo de uma fita de DNA:ACGAAGGTTCATATC...
Matriz de Parâmetros (três opções):1. Vertebrados2. Arabidopsis3. Maize
Sub-Optimal cutoff:{1.00, 0.50, 0.25, 0.10, 0.05, 0.02, 0.01}(se for 1.00 só gera á melhor saída do
modelo).
GENSCAN
Estrutura de Genes estimada pelo GENSCAN para o DNA dado como entrada.
![Page 20: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/20.jpg)
Exemplo (parte 1)
• Identificar os genes da seqüência X66401, que contém 66109 bp. Esta seqüência está presente no cromossomo 6 do homem e se sabe que ela contém 5 genes (4 na fita que está registrada e 1 na fita oposta).
![Page 21: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/21.jpg)
Exemplo (parte 2)
• A saída detalhada do GENSCAN tem a seguinte forma (apenas o primeiro gene downstream)...
Número do gene, número do exon no gene
Tipo:Init – exon inicialIntr – exon internoTerm – terminal exonSngl – único exon de um geneProm – sinal promotor PlyA – sinal poli-A
Strand – fita do DNA + = fita entrada- = fita oposta
Posição inicial do exon/sinal (posição relativa a fita de DNA dada como entrada)
Posição final do exon/sinal (posição relativa a fita de DNA dada como entrada)
Comprimento do exon/sinal:Len = End – Begin + 1
(reading frame)Um códon na fita pra frente que termina na posição X tem frame x módulo 3
(net phase)Len módulo 3
Score do sinal de início ou do 3’ splice site (só definido para exons)
Score do splice site 5’ ou do sinal de término (só só definido para exons)
(Coding Region Score) Score da região codificante (só para exons)
Exon score, depende de {Len, I/Ac, Do/T e CodRg}
Os scores têm a seguinte interpretação:
> 100, é muito bom50–100, é bom0-50, é regular< 0, é ruim
Probabilidade do exon (só definida para exons)
![Page 22: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/22.jpg)
Referências
• Transparência on-line (autor: Terry Speed)– http://www.ludwig.edu.au/CRCCGF/bioinformatics/recog/index.htm
• Papers– Burge,C. and Karlin,S. (1997) Prediction of complete gene structures in
human genomic DNA. J. Mol. Biol., 268,78--94. – Burge,C. and Karlin,S. (1998) Finding the genes in genomic DNA. Current
Opinion in Structural Biology, 8:346-354.
• Site do GENSCAN no MIT– http://genes.mit.edu/GENSCAN.html
![Page 23: Identificação dos Genes de uma cadeia de DNA com a ferramenta GENSCAN Lauro Didier Lins Junho de 2001](https://reader035.vdocuments.pub/reader035/viewer/2022062218/570638401a28abb8238f14c0/html5/thumbnails/23.jpg)
GENSCAN
The state-of-the-art program for finding Genes