uso da bioinformática na análise genômica tagagcatcgatcgatgctgcagatgatgctagcatcggctaggcgacg...
TRANSCRIPT
Uso da bioinformática na análise genômica
TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG
ATCTCGTAGCTA
ATCTCGTAGCTAGCTACGACGTCTA
ATCTCGTAGCTAGCTA
ATCTCGTAGCTAGATCTCGTAGCTAGCATCTCGTAGCTAGCT
ATCTCGTAGCTAGCTACATCTCGTAGCTAGCTACGATCTCGTAGCTAGCTACGAATCTCGTAGCTAGCTACGACATCTCGTAGCTAGCTACGACGATCTCGTAGCTAGCTACGACGTATCTCGTAGCTAGCTACGACGTCATCTCGTAGCTAGCTACGACGTCT
ATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCT
A
G
C
T
A
C
G
A
C
G
T
C
T
A
Início
Fim
Receber Processar Anotar Depositar
Bioinformática
20
30
10
• A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)
• O programa Phred lê o cromatograma e nomeia as bases
cromatograma
acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc
• Cada base tem uma chance de erro de sua nomeação (10% = 0,1)• A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10-3 = Phred 30
Processamento de seqüências
0
10
20
30
40
50
I Brazilian Workshop on Bioinformatics October 18th, 2002, Gramado, RS, Brazil
Seqüências
0
2.000.000
4.000.000
6.000.000
8.000.000
10.000.000
12.000.000
14.000.000
16.000.000
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
Ano
606
45 milhõesCrescimento do GenBank
Europeu Japonês
24h
Clonagem hierárquica
Biblioteca de clones grandes- descobre-se a ordem certa- escolhem-se os pouco sobrepostos
Shotguncromossomo cromossomo
Bibliotecas de plasmídios - faz-se o seqüenciamento dos plasmídios- sobreposição cria os contigs
Clonagem hierárquica
Biblioteca de clones grandes- descobre-se a ordem certa- escolhem-se os pouco sobrepostos
Shotguncromossomo cromossomo
Bibliotecas de plasmídios - faz-se o seqüenciamento dos plasmídios- sobreposição cria os contigs
Clonagem hierárquica
Biblioteca de clones grandes- descobre-se a ordem certa- escolhem-se os pouco sobrepostos
Shotguncromossomo cromossomo
Bibliotecas de plasmídios - faz-se o seqüenciamento dos plasmídios- sobreposição cria os contigs
Clonagem hierárquica
Biblioteca de clones grandes- descobre-se a ordem certa- escolhem-se os pouco sobrepostos
Shotguncromossomo cromossomo
Bibliotecas de plasmídios - faz-se o seqüenciamento dos plasmídios- sobreposição cria os contigs
Seqüencias do DNA(genoma)
Repetição calculada•draft = 5x•finished = 10x
Genoma pequeno(seqüenciador grande)
Seqüências do mRNA(genes expressos)
Amostragemtecidos
momentos
Eucariotos
mRNA
cDNA
TR
Seqüenciamento parcial de transcritos
Seqüênciamento de genes expressos:
Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...]
• EST (Etiqueta de Seqüência Expressa) – seqüenciamento único de cada cDNA
– extremidades 5’ ou 3’
• ORESTES (ESTs ricas em ORFs)– seqüenciamento único do amplicon derivado de
cDNA por PCR inespecífico
– prevalece o centro do cDNA (cds)
(A)200
AUG
Um mRNA & suas ESTs
(A)200(T)18cDNA (fita -)
AUG(A)18
cDNA (fita +)
cDNA (fita +)
(T)18cDNA (fita -)
(A)18
ATGATCATGACTTACGGGCGCGCGAT
GGCGCGCGATATCCAAATTTATTATCC
3’EST
3’EST5’EST
5’EST
AAATTTATTATCCATCTACG
PCR inespecífico & seu ORESTES
(A)200
cDNA (fita -)
AUG amplicon (fita +)
Iniciador(60ºC 37ºC)
amplicon (fita -)
amplicon (fita +)
PCR(60ºC)
ORESTES
AGATCGATCATGACTTACGGGCGCGCGATATCG
GGGCGCGCGATATCGAAAAATTTATAAGGCTAGCCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC
+ORESTES (outros iniciadores)
100
150
200
25026,630,649
• O formato FASTA, o mais simples, é anotado
>Gene5 EST com homologia...
ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTGATGCTGACTGATCGTAGCTAGCTGACTGATCGTACGTAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc
Seqüências > 50 nt, sem ambiguidades e com anotação, ganham entrada no Entrez Protein/Nucleotide
•dbEST: ESTs 5’ e 3’
•Trace Arquive: dados originais
•Entrez Nucleotide: > 50 nt, em fase, com anotação
•Entrez Protein: proteínas deduzidas selecionadas
•mineração automática (KOG, BioCarta e KEGG)
•mineração manual (interesse de grupos)
•UniGene:
•dados de expressão diferencial (microarray e DGED)
•I MISS YOU
Transcriptoma de S. mansoniRede Genoma de Minas Gerais
Alinhador local
• Identifica, numa coleção de seqüências, as que apresentam alinhamento com a sua.
• Fragmenta sua seqüência e procura homologia no banco de dados.
• Descarta todas as pesquisas com pontuação pequena (score baixo) e vai alinhando a vizinhança das com pontuação boa, até chegar ao máximo valor.
• É fácil verificar que algumas regiões de certos genes alinham bem, mas outras pouco conservadas, não. O Alinhador Local não quer chegar ao alinhamento final, ele só quer identificar sequências com um nível de homologia significativo
Alinhamento local
• O fundamento teórico é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína
• Se não fosse assim, não teria sentido usar...
Programas BLAST & Bancos
• Há vários Programas BLAST úteis
• Alguns são usados quando a sua sequência é de nucleotídeos (BLASTn, BLASTx e tBLASTx)
• Outros são usados quando a sua seqüência é de aminoácidos (BLASTp)
• E vários bancos de dados para escolher (nr, pdb, dbEST, yeast, month, etc...)
• Ou usa-se limites [organism]
BLASTn e BLASTx
• A EST identifica o gene homólogo: BLASTn
• A EST identifica proteína ortóloga de outro organismo - a evolução conservou a proteína enquanto o DNA divergiu: BLASTx– BLASTx: a EST traduzida em seis proteínas
– 1 existe, 5 não...
– O mundo Blast é assim
tBLASTx• tBLASTx traduz sua seqüência de nucleotídeos para proteína nas 6
possibilidades, exatamente como BLASTx
• Depois pesquisa com essas 6 proteínas deduzidas, um banco de dados de nucleotídeos também traduzido dessa maneira
• Pra que serve? Pois imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois DNA não!
• Traduzindo a seqüência pesquisada e o banco de dados dbEST foi possível encontrar seqüências da telomerase humana
Gene hipotético
Contig....actctagt....
Gene predito
Dados de outros genes e genomaspermitem anotar uma função e produto para o Gene 2 com o auxílio do programa BLAST.
Gene 1 Gene 2
A presença do suposto Gene 1 foi assinalada por um algoritmo que busca por ORFssignificativas, enquanto não se conhece seu produto (proteína), é considerado hipotético.
....actctagt....
Produto gênico
Transposon
Regiões repetitivas como transposonspodem ser anotadas com o auxílio de programas como BLAST, RepeatMasker e outros.
Gene hipotético
Contig....actctagt....
Gene predito
Dados de outros genes e genomaspermitem anotar uma função e produto para o Gene 2 com o auxílio do programa BLAST.
Gene 1 Gene 2
A presença do suposto Gene 1 foi assinalada por um algoritmo que busca por ORFssignificativas, enquanto não se conhece seu produto (proteína), é considerado hipotético.
....actctagt....
Produto gênico
Transposon
Regiões repetitivas como transposonspodem ser anotadas com o auxílio de programas como BLAST, RepeatMasker e outros.
Receber Processar Anotar Depositar
bioinformática
• Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum)
• Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes!
• E quantos dos genes foram detectados– Usa-se também para validar bibliotecas
Aglomerados ou Clusters
Programas para aglomerar
• Icatools
• Phrap
• Cap3, Cap4
• Swat
• BLAST
• MegaBLAST
Um aglomerado = Um gene
Qualidade das bibliotecas(100 primeiras ESTs)
Freqüência em que uma EST foi amostrada
Boa biblioteca?
Nú
mer
o d
e se
qü
ênci
as
1
2
3
4
5
7
9
11
• Organização das sequências do GenBank em um conjunto de aglomerados
• Cada aglomerado do UniGene contém as sequências que representam um gene único
• E também informações relacionadas, como em que tecidos o gene é expresso, etc.
• E também onde está mapeado
UniGene
MegaBLAST gera o UniGene
Todas ESTs contra todas
Detecção de homologia
> 96% de identidade
> 70% do potencial
Aglomerar
12
34
0
100000
200000
300000
Etapa
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 >150
200
400
600
800
1000
1200
1400
1600
1800
Número de seqüências no aglomerado
Nú
mero d
e algomerad
os
Construção de UniGene para AW1(5.145 ESTs correspondem a 2.026 clusters)
identidade > 96 %
alinhamento > 70 %do potencial
• Interface gráfica• Alternativa para encontrar só o gene
• Online Mendelian Inheritance in Man
• Um catálogo de genes humanos e anomalias genéticas de autoria do Dr. Victor A. McKusick e seus colaboradores e desenvolvido para a Web pelo NCBI
• Funciona como uma revisão já feita
catcgatcgatcgtcgtagctacgtagctagctagctagctagctagctaactagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatggtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctatctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgattgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactgcatcgatcgatcgtcgtagctacgtagctagctagctagctagctagctagctagctgactg
• No NCBI é acessado um banco de dados: MMDB– Molecular Modelling DataBase (PDB sem teóricos)
• O banco de dados PDB tem um mirror no Brasil– www.pdb.ufmg.br
• Arquivos do tipo “1MEY.pdb” são descarregados• As coordenadas 3D de totos os átomos• As proteínas podem ser vistas com programas (RasMol) ou direto no
navegador (Plug-in Chime)
Modelagem Molecular por Homologia
• A proteína precisa ter uma ortóloga no PDB• Pode ser automaticamente modelada pelo Swiss Model (Modeller na UFMG)• Já modelaram todas proteínas
– confira 3DCrunch: