uso da bioinformática na análise genômica. tagagcatcgatcgatgctgcagatgatgctagcatcggctaggcgacg...
TRANSCRIPT
![Page 1: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/1.jpg)
Uso da bioinformática na análise genômica
![Page 2: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/2.jpg)
TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG
ATCTCGTAGCTA
ATCTCGTAGCTAGCTACGACGTCTA
ATCTCGTAGCTAGCTA
ATCTCGTAGCTAGATCTCGTAGCTAGCATCTCGTAGCTAGCT
ATCTCGTAGCTAGCTACATCTCGTAGCTAGCTACGATCTCGTAGCTAGCTACGAATCTCGTAGCTAGCTACGACATCTCGTAGCTAGCTACGACGATCTCGTAGCTAGCTACGACGTATCTCGTAGCTAGCTACGACGTCATCTCGTAGCTAGCTACGACGTCT
ATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCTATCTCGTAGCT
A
G
C
T
A
C
G
A
C
G
T
C
T
A
![Page 3: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/3.jpg)
Start
End
![Page 4: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/4.jpg)
20
30
10
• A nomeação é praticamente aleatória no início e no final, onde a chance de erro é alta (baixo valor de Phred)
• O programa Phred lê o cromatograma e nomeia as bases
cromatograma
acgatctcgctagctgctactgtagccgcgattattcgcgatctacgtatatcgcgatcgatc
• Cada base tem uma chance de erro de sua nomeação (10% = 0,1)• A escala de Phred é semelhante à de pH multiplicado por 10: - chance de erro de 0,001 = 10-3 = Phred 30
Processamento de seqüências
![Page 5: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/5.jpg)
In the Pursuit of Optimal Sequence Trimming Parameters
for EST Projects
Fabiano C. Peixoto & J. Miguel Ortega
LCC-CENAPAD
A
T
GCBIOINFORMÁTICA UFMG
![Page 6: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/6.jpg)
Noticed:
• BLAST results• Phred 15• Too much trimming
0
10
20
30
40
50
![Page 7: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/7.jpg)
Query: 469 TTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCG 528 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 1038 ttaggaggatcgtttttagaatcccctgcaacgttaccacggtggatttcactgactgcg 979
Query: 529 ACGTTCTTAACGTTGAATCCAACGTTGCTACCAgggagagcctcagtaagtgcttcatga 588 ||||||||||||||||| || |||||||||||||||||| ||||||||||||||||||||Sbjct: 978 acgttcttaacgttgaagcccacgttgctaccagggagaccctcagtaagtgcttcatga 919
Query: 589 tgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccata 648 |||||||||||||| |||||||||| |||| ||||||||||| |||||||||||||||||Sbjct: 918 tgcatttcgacagacttgacttcagccgaccaaccttgcggaccaaaagtgacgaccata 859
Query: 649 ccaggcttgatgataccagtttcaacgc 676 ||||||||||||||||||||||||||||Sbjct: 858 ccaggcttgatgataccagtttcaacgc 831
.TGAAGCTTTCAGCTTCTTTAGGAGGATCGTTTTTAGAATCCCCTGCAACGTTACCACGGTGGATTTCACTGACTGCGACGTTCTTAACGTTGAATCCAACGttGCTACCAgggagagcctcagtaagtgcttcatgatgcatttcgacagaattgacttcagtcgacaaaccttgcggagcaaaagtgacgaccataccaggcttgatgataccagtttcaacgcctcggggccaggctggcgtgaacagggcctagcgggtccgcgggggaagggtcccggctcaatccaccaatagagcggagctaaagtgacgggggcgcca
Phred 15
![Page 8: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/8.jpg)
Experimental approach
Sequences:
•pUC18 plasmidial vector (published sequence)•Sequence reaction:
•Single pool - 3 plates (96 samples)•MegaBACE sequencer
•3 reads for each plate, esd processing - 846 reads
Processing:
•BLAST (MegaBLAST, as in UniGene)•Phred
•trim: a chromatogram analyzer•trim_alt: trim_cutoff parameter 1% up to 25%
![Page 9: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/9.jpg)
-500
-400
-300
-200
-100
0
100
200
1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23% 24% 25%
Trim_cutoff parameter value(%)
Nu
mb
er
of
ba
se
s
Included (trim) Discarded (trim) Included (TrimAlt) Discarded(TrimAlt)
![Page 10: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/10.jpg)
0,00%
5,00%
10,00%
15,00%
20,00%
25,00%
30,00%
1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16% 17% 18% 19% 20% 21% 22% 23% 24% 25%
total miscall stepwise miscall
16% 17%
Trim_alt sequence
BLAST
gaps/missmatches(% of bases)
Additionalbases
3%
![Page 11: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/11.jpg)
Seqüências
0
2.000.000
4.000.000
6.000.000
8.000.000
10.000.000
12.000.000
14.000.000
16.000.000
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
Ano
606
15 milhões
Crescimento do GenBank
Europeu Japonês
24h
![Page 12: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/12.jpg)
Seqüencias do DNA(genoma)
Seqüências do mRNA(genes expressos)
Repetição calculada•draft = 5x•finished = 10x
Amostragemtecidos
momentos
Genoma pequeno(seqüenciador grande)
Eucariotos
mRNA
cDNA
TR
![Page 13: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/13.jpg)
Seqüenciamento parcial de transcritos
![Page 14: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/14.jpg)
Seqüênciamento de genes expressos:
Documentar a existência de transcritos gênicos num transcriptoma [otorrin... e ...damonh...]
• EST (Etiqueta de Seqüência Expressa) – seqüenciamento único de cada cDNA
– extremidades 5’ ou 3’
• ORESTES (ESTs ricas em ORFs)– seqüenciamento único do amplicon derivado de
cDNA por PCR inespecífico
– prevalece o centro do cDNA (cds)
![Page 15: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/15.jpg)
Um mRNA & suas ESTs
(A)200(T)18cDNA (fita -)
AUG(A)18
cDNA (fita +)
(A)200(T)18cDNA (fita -)
AUG(A)18
cDNA (fita +)
ATGATCATGACTTACGGGCGCGCGAT
GGCGCGCGATATCCAAATTTATTATCC
3’EST
3’EST5’EST
5’EST
AAATTTATTATCCATCTACG
![Page 16: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/16.jpg)
PCR inespecífico & seu ORESTES
(A)200
cDNA (fita -)
AUG amplicon (fita +)
Iniciador(60ºC 37ºC)
amplicon (fita -)
amplicon (fita +)
PCR(60ºC)
ORESTES
AGATCGATCATGACTTACGGGCGCGCGATATCG
GGGCGCGCGATATCGAAAAATTTATAAGGCTAGCCCCGGCGGCTCGGCCGGGGAGATCGATCATGAC
+ORESTES (outros iniciadores)
![Page 17: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/17.jpg)
100
150
200
250
![Page 18: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/18.jpg)
• O formato FASTA, o mais simples, é anotado
>Gene5 EST com homologia...
ACTATTACGGCGTAGCTGTAGCTACGTAGCTAGCTGATGCTGACTGATCGTAGCTAGCTGACTGATCGTACGTAGTGTTTTTTTACGTGCGTATTtCTagCTaGtc
Seqüências > 50 nt, sem ambiguidades e com anotação, ganham entrada no Entrez Protein/Nucleotide
![Page 19: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/19.jpg)
![Page 20: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/20.jpg)
Alinhador local
• Identifica, numa coleção de seqüências, as que apresentam alinhamento com a sua.
• Fragmenta sua seqüência e procura homologia no banco de dados.
• Descarta todas as pesquisas com pontuação pequena (score baixo) e vai alinhando a vizinhança das com pontuação boa, até chegar ao máximo valor.
• É fácil verificar que algumas regiões de certos genes alinham bem, mas outras pouco conservadas, não. O Alinhador Local não quer chegar ao alinhamento final, ele só quer identificar sequências com um nível de homologia significativo
![Page 21: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/21.jpg)
Alinhamento local
• O fundamento teórico é que a função gênica está quase sempre confinada em domínios contínuos de uma proteína
• Se não fosse assim, não teria sentido usar...
![Page 22: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/22.jpg)
Programas BLAST & Bancos
• Há vários Programas BLAST úteis
• Alguns são usados quando a sua sequência é de nucleotídeos (BLASTn, BLASTx e tBLASTx)
• Outros são usados quando a sua seqüência é de aminoácidos (BLASTp)
• E vários bancos de dados para escolher (nr, pdb, dbEST, yeast, month, etc...)
• Ou usa-se limites [organism]
![Page 23: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/23.jpg)
BLASTn e BLASTx
• A EST identifica o gene homólogo: BLASTn
• A EST identifica proteína ortóloga de outro organismo - a evolução conservou a proteína enquanto o DNA divergiu: BLASTx– BLASTx: a EST traduzida em seis proteínas
– 1 existe, 5 não...
– O mundo Blast é assim
![Page 24: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/24.jpg)
tBLASTx• tBLASTx traduz sua seqüência de nucleotídeos para proteína nas 6
possibilidades, exatamente como BLASTx
• Depois pesquisa com essas 6 proteínas deduzidas, um banco de dados de nucleotídeos também traduzido dessa maneira
• Pra que serve? Pois imagine que a telomerase de Euplotes seja parecida com a telomerase humana, mas os dois DNA não!
• Traduzindo a seqüência pesquisada e o banco de dados dbEST foi possível encontrar seqüências da telomerase humana
![Page 25: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/25.jpg)
• Uma das atividades em bioinformática é formar aglomerados de todas as sequências geradas no projeto (as figurinhas de um álbum)
• Podemos saber quantas vezes um gene foi seqüenciado, e detectar os freqüentes!
• E quantos dos genes foram detectados– Usa-se também para validar bibliotecas
Aglomerados ou Clusters
![Page 26: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/26.jpg)
Programas para aglomerar
• Icatools
• Phrap
• Cap3, Cap4
• Swat
• BLAST
• MegaBLAST
Um aglomerado = Um gene
![Page 27: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/27.jpg)
Qualidade das bibliotecas(100 primeiras ESTs)
Freqüência em que uma EST foi amostrada
Boa biblioteca?
Nú
mer
o d
e se
qü
ênci
as
1
2
3
4
5
7
9
11
![Page 28: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/28.jpg)
• Organização das sequências do GenBank em um conjunto de aglomerados
• Cada aglomerado do UniGene contém as sequências que representam um gene único
• E também informações relacionadas, como em que tecidos o gene é expresso, etc.
• E também onde está mapeado
UniGene
![Page 29: Uso da bioinformática na análise genômica. TAGAGCATCGATCGATGCTGCAGATGATGCTAGCATCGGCTAGGCGACG ATCTCGTAGCTA ATCTCGTAGCTAGCTACGACGTCTA ATCTCGTAGCTAGCTA ATCTCGTAGCTAG](https://reader035.vdocuments.pub/reader035/viewer/2022062623/552fc10b497959413d8c13f3/html5/thumbnails/29.jpg)
MegaBLAST gera o UniGene
Todas ESTs contra todas
Detecção de homologia
> 96% de identidade
> 70% do potencial
Aglomerar