bio inform a tika
DESCRIPTION
lybghujTRANSCRIPT
-
5/28/2018 Bio Inform a Tika
1/71
Bioinformatika untukAnalisis GenomeTigor Nauli([email protected] / [email protected])
Kuliah Umum di Jurusan Teknik Informatika STTTelkomBandung, 29 Desember 2003
-
5/28/2018 Bio Inform a Tika
2/71
topik
istilah bioinformatika komponen genetik dalam biologi
riset biologi molekuler
contoh aplikasi bioinformatika pada analisisgenome
-
5/28/2018 Bio Inform a Tika
3/71
istilah
bioinformatika = komputer + biologi bioinformatika adalah sebuah sains baru yang
berkembang pesat, yang merupakanintersection (penggabungan) antarateknologi informasi dan biologi molekuler
bioinformatika merupakan aplikasi teknologiinformasi (yaitu: perangkat komputasi dan
teknik) untuk mengkoleksi, mengelola,menyebarkan, menganalisis danmenggunakan sejumlah besar data yangdihasilkan oleh riset biologi molekuler
-
5/28/2018 Bio Inform a Tika
4/71
pemanfaatan bioinformatika
mengungkap bagaimana kode genetikditerjemahkan untuk membentuk komponenmakhluk hidup (manusia, hewan, tumbuhanatau bakteri) ?
memprediksi fungsi gen
melacak letak kerusakan gen yangmengakibatkan penyakit genetik
menelusuri evolusi biologi dari organisme
mencari kesamaan genetik diantara berbagaimacam organisme
-
5/28/2018 Bio Inform a Tika
5/71
pemanfaatan bioinformatika
membantu identifikasi DNA dalam forensik menyempurnakan diagnosa penyakit dan
terapi gen
membantu perancangan obat baru memperlancar proyek pemetaan fungsional
genome manusia (Human Genome Proyek)sehingga selesai 2 tahun lebih awal
memudahkan kegiatan rekayasa genetika
untuk membantu mengerti proses molekuleryang mendasari kehidupan
-
5/28/2018 Bio Inform a Tika
6/71
DNA (deoxyribose nucleic acid)
DNA merupakan double-helix(dua untai sirkular) antiparaleldari 4 basa nukleotida, yaitu:adenine (A), guanine (G),
cytosine (C) dan thymine (T)
untai DNA memiliki urutan yangberkomplemen, A pada untai
satu selalu berpasangan denganT diuntai lainnya, begitu jugadengan G dan C
-
5/28/2018 Bio Inform a Tika
7/71
pengurutan DNA
sel cairan DNA
isolasi
elektroforesa
konfirmasi
PCR
amplifikasi/perbanyakan DNA
konfirmasi
imaging densitometer
sequencing (pengurutan)
urutan DNA
( ... A-G-G-C-T-T-A-C-T-G-G-A-C-T... )
-
5/28/2018 Bio Inform a Tika
8/71
DNA (dioxyribose nucleic acid)
DNA merupakan pembawa informasi genetik keseluruhan rantai panjang (untai lengkap)
DNA dari suatu organisme disebut genome
genom pada organisme rendah (prokariot)seperti bakteri berada sebagai molekul DNAtunggal, kira-kira berukuran 2 mm (di dalamsel yang berdiameter 0.001 mm)
DNA pada organisme tinggi (eukariot),tersusun dalam sejumlah kromosom (padamanusia terdapat 23 pasang)
-
5/28/2018 Bio Inform a Tika
9/71
DNA (dioxyribose nucleic acid)
unit-unit fungsional dalam genome yangmewarisi sifat, disebut sebagai gene -mengkode instruksi pembuatan protein
gene gene gene gene
genome
gen dapat berada dikedua untai DNA dankemungkinan terdapat berulang pada lokasi
yang lain dalam genome gen prokariot merupakan satu daerah utuh
(continous), sedangkan gen eukariot beradadalam segmen-segmen terpisah
-
5/28/2018 Bio Inform a Tika
10/71
DNA (dioxyribose nucleic acid)
ukuran genome disetiap organisme tidaklahsama, mulai yang terkecil pada virus hinggayang terbesar pada manusia
Organisme Ukuran Genome(basa)
PerkiraanJumlah Gene
Manusia (Homo sapiens) 3 milyar 30000
Tikus (M. musculus) 2.6 milyar 30000
Rumput liar (A. thaliana) 100 juta 25000
Cacing (C. elegans) 97 juta 19000
Lalat buah (D. melanogaster) 137 juta 13000
Ragi roti (S. cerevisiae) 12.1 juta 6000Bakteri (E. coli) 4.6 juta 3200
Virus HIV 9700 9
-
5/28/2018 Bio Inform a Tika
11/71
aliran pesan genetik
disebut sebagai ekspresi gen prosesnya (central dogma):
DNAReplikasiTranskripsi
RNATranslasi
Protein
mRNAtRNArRNA
replikasi memperbanyak diritranskripsi membuat cetakan negatif/komplementranslasi penerjemahan kode
-
5/28/2018 Bio Inform a Tika
12/71
protein
protein merupakan komponen biologis utamadari suatu organisme dan memiliki berbagaimacam peran dalam proses kehidupan:
sebagai protein struktural (collagen,proteoglycan, viral coat protein)
sebagai enzim (dehydrogenase, kinase)
sebagai protein penyimpan (ferritin,
myoglobin) sebagai protein pelindung (antibody,
immunoglobulin, zat pembeku darah)
-
5/28/2018 Bio Inform a Tika
13/71
protein...
sebagai protein pengatur (hormone,receptor protein)
sebagai protein pembawa/transport(hemoglobin, plasma lipoprotein)
sebagai protein penggerak (actin, tubulin)
-
5/28/2018 Bio Inform a Tika
14/71
struktur protein
protein adalah suatu molekul besar dankompleks yang tersusun dari 20 subunit lebihkecil (yang disebut asam amino)
esensial, yaitu:
histidine (His/H) isoleucine (Ile/I)
leucine (Leu/L) lysine (Lys/K)
methionine (Met/M)
phenilalanine (Phe/F)
threonine (Thr/T)
tryptophan (Trp/W) valine (Val/V)
-
5/28/2018 Bio Inform a Tika
15/71
struktur protein
non-esensial, yaitu: alanine (Ala/A) arginine (Arg/R)
asparagine (Asn/N)
aspartic acid (Asp/D) cysteine (Cys/C)
glutamic acid (Glu/E)
glutamine (Gln/Q) glycine (Gly/G) proline (Pro/P)
serine (Ser/S) tyrosine (Tyr/Y)
-
5/28/2018 Bio Inform a Tika
16/71
struktur protein
adanya sifat-sifat kimia yang berbeda padake-20 macam asam amino menyebabkanrantai protein menekuk (fold) danmembentuk struktur 3-D yang menentukan
fungsi-fungsi spesifik dalam sel
konstelasi seluruh protein di dalam sebuah seldisebut proteome
-
5/28/2018 Bio Inform a Tika
17/71
kode genetik
kombinasi 4 karakter (A, C, G, T) pada genakan mengkode 20 macam asam amino
jika 1 basa mengkode 1 asam amino
maka ada 41
= 4 kemungkinan asam aminojika 2 basa mengkode 1 asam amino,
maka ada 42= 16 kemungkinan asam amino
jika 3 basa mengkode 1 asam amino,
maka ada 43= 64 kemungkinan asam amino
satuan kode genetik = 1 triplet basa
-
5/28/2018 Bio Inform a Tika
18/71
kode genetik
Posisi KeduaT C A G
TTT TCT TAT TGT T
TTC Phe
TCC TACTyr
TGCCys
C
TTA TCA TAA Stop TGA Stop AT
TTG Leu
TCG
Ser
TAG Stop TGG Trp G
CTT CCT CAT CGT T
CTC CCC CAC
His
CGC CCTA CCA CAA CGA AC
CTG
Leu
CCG
Pro
CAGGln
CGG
Arg
G
ATT ACT AAT CGT T
ATC ACC AACAsn
AGCSer
C
ATA
Ile
ACA AAA AGA AA
ATG Met (start) ACG
Thr
AAGLys
AGGArg
G
GTT GCT GAT GGT TGTC GCC GAC
AspGGC C
GTA GCA GAA GGA A
PosisiPertama
G
GTG
Val
GCG
Ala
GAGGlu
GGG
Gly
G
PosisiKetiga
terdapat 61 triplet basa
-
5/28/2018 Bio Inform a Tika
19/71
kode genetik
T A C CA G G G A T C G C C T A C T
A U G GU C C C U A G C G G A U G A
DNA
replikasi transkripsi
mRNA
U C G C C U
tRNA tRNA
GlySerProMet
translasi
ProteinCys
3'5'
anticodon
codon
suatu ekspresi gen
-
5/28/2018 Bio Inform a Tika
20/71
kelainan genetik
sifat genetik suatu organisme dapat berubahbila terjadi mutasi pada salah satu atau lebihbasa dalam genome
Variasi
A C G T G T C A G
Thr Cys Gln
A C G TAC C A G
Thr Tyr Gln
A C G T G C C A G
Thr Cys Gln
Mutasi
-
5/28/2018 Bio Inform a Tika
21/71
paradigma analisis genome
sekuens DNA menentukan sekuens protein sekuens protein menentukan struktur protein
struktur protein menentukan fungsi protein
-
5/28/2018 Bio Inform a Tika
22/71
analisis genome
analisis genome bertujuan untuk mengetahuikarakteristik suatu organisme dan fungsibiologis dari setiap bagian di dalam genome
dilakukan secara bertahap terhadap fragmen-fragmen DNA yang lebih pendek
pemotongan sekuens DNA menjadi fragmen,dilakukan di laboratorium dengan
menggunakan enzim endonuklease (enzimrestriksi) yang dapat melakukan pemutusanrantai DNA secara spesifik
-
5/28/2018 Bio Inform a Tika
23/71
analisis genome
fungsi dari setiap fragmen yang diuji, dapatdiketahui melalui teknik DNA rekombinan(DNA recombinant)
fragmen ditempel pada pembawa DNAdan ditumbuhkan dalam organisme inang
atau melalui pembandingan dan prediksimenggunakan bioinformatika
fragmen DNA ada yang mengkode dan adayang tidak mengkode
proses translasi hanya terjadi pada daerahyang mengkode (coding region)
-
5/28/2018 Bio Inform a Tika
24/71
Exon
Intron
3' UTR
C A GG A A C A A A T A A A CA C APoly-A Site
T C CA C C T G CA C T A G GG G C
Stop Codon
C C C TA
T C CC C A C C CG T G CC
Acceptor Site
G C CC C A G C CT C T CT
Start Codon
T CC A CA A GG T GA T AG CGC C GG C
Donor SiteCodon
5' UTRTranscription Start
Promotor
arsitektur genome
-
5/28/2018 Bio Inform a Tika
25/71
komponen bioinformatika
bioinformatika sebagai suatu disiplin ilmu,meliputi kegiatan implementasi danpengembangan dari
genomic & proteomic database (yangmeliputi: data storage, data mining)
algoritma (seperti: pattern recognition,tree, path, searching)
user interface (untuk misalnya: visualisasistruktur, penjajaran sekuens)
statistika (yang mengeksplorasi: modelmatematis dan probabilistik)
-
5/28/2018 Bio Inform a Tika
26/71
aspek database
database biologi berjumlah sangat besarsekali dan tersedia di Web secara gratis
hampir setiap hari komunitas peneliti biologiengakses data dari bank data danmenambahkan informasi baru kedalamnya
database biologi yang ada antara lain adalahsekuens asam nukleat, sekuens genome,
sekuens protein, dan struktur protein tersimpan sebagai file teks (flat file)
diperlukan program (atau parser) untukmengekstrak data yang tersimpan
-
5/28/2018 Bio Inform a Tika
27/71
LOCUS E02830 1861 bp DNA linear PAT 29-SEP-1997DEFINITION gDNA encoding lipase.
ACCESSION E02830VERSION E02830.1 GI:2171058KEYWORDS JP 1991087175-A/1.SOURCE Rhizopus oryzae ORGANISM Rhizopus oryzae Eukaryota; Fungi; Zygomycota; Zygomycetes; Mucorales; Mucoraceae; Rhizopus.
REFERENCE 1 (bases 1 to 1861) AUTHORS Tsuchiya,M. and Matsui,Y. TITLE LIPASE AND GENE OF THE SAME LIPASE JOURNAL Patent: JP 1991087175-A 1 11-APR-1991; AJINOMOTO CO INCCOMMENT OS Rhizopus delemar PN JP 1991087175-A/1 PD 11-APR-1991 PF 26-JAN-1990 JP 1990017611 PR 28-FEB-1989 JP 89P 49604, 28-APR-1989 JP 89P 111076 PI TSUCHIYA MAKOTO, MATSUI YUTAKA PC C12N9/20,C12N15/55,(C12N15/55,C12R1:845); CC strandedness: Double; CC topology: Linear; CC hypothetical: No; CC anti-sense: No; CC *source: strain=AJ 6045; FH Key Location/Qualifiers FH FT 5'UTR 1..371 FT CAAT_signal 203..208 FT TATA_signal 261..265 FT polyA_signal 1601..1606 FT sig_peptide 372..455 FT /product='signal peptide of lipase beta
FT subunit' FT mat_peptide 456..551 FT /product='lipase beta subunit' FT sig_peptide 505..564 FT /product='signal peptide of lipase alpha FT subunit' FT Region 565..657 FT /note='pro sequence of lipase alpha subunit' FT mat_peptide 658..1548 FT /product='lipase alpha subunit' FT misc_feature 1153..1194 FT /note='region which is homologous to other FT lipase'.
-
5/28/2018 Bio Inform a Tika
28/71
FEATURES Location/Qualifiers source 1..1861 /organism="Rhizopus oryzae" /mol_type="genomic DNA" /db_xref="taxon:64495"BASE COUNT 471 a 426 c 313 g 648 t 3 others
ORIGIN 1 ttttgaaagg taacttataa tattgagctt attgtcgcac ataaaatcag tttattttat 61 cccagccagt tatatagggg aaatcagaac tgtccctttt tttgtcttat tttatgtaaa 121 tcgctttgtg tgatgttttg tattacattc aaacagagga atcagtcgta catattgatt 181 acttggtact actattaatg tacctaattc atgagggtta cattnnntaa tgccatgttc 241 gtattttttg acaaaaaaca tataaataga gcaagtttat gttatgttca agtctctatc 301 ttcatcaagt caattgatac agactcttct tttcttttct tcttacccct tccagttctt 361 tactatcaat catggtttca ttcatttcca tttctcaagg tgttagtctt tgtcttcttg 421 tctcttccat gatgctcggt tcatctgctg ttcctgtttc tggtaaatct ggatcttcca 481 acaccgccgt ctctgcatct gacaatgctg ccctccctcc tctcatctcc agccgttgtg 541 cttcctcctt ctaacaaggg aagtaaaagc gatctccaag ctgaacctta caacatgcaa 601 aagaatacag aatggtatga gtcccatggt ggcaacctga catccatcgg aaagcgtgat
661 gacaacttgg ttggtggcat gactttggac ttacccagcg atgctcctcc tatcagcctc 721 tctagctcta ccaacagcgc ctctgatggt ggtaaggttg ttgctgctac tactgctcag 781 atccaagagt tcaccgagta tgctggtatc gctgccactg cctactgtcg ttctgttgtc 841 cctggtaaca agtgggattg tgtccaatgt caaaagtggg ttcctgatgg caagatcatc 901 actaccttta cctccttgct ttccgataca aatggttacg tcttgagaag tgataaacaa 961 aagaccattt atcttgtttt ccgtggtacc aactccttca gaagtgccat cactgatatc 1021 gtcttcaact tttctgacta caagcctgtc aagggcgcca aagttcatgc tggtttcctt 1081 tcctcttatg agcaagttgt caatgactat ttccctgtcg tccaagaaca attgaccgcc 1141 caccctactt ataaggtcat cgttaccggt cactcactcg gtggtgcaca agctttgctt 1201 gccggtatgg atctctacca acgtgaacca agattgtctc ccaagaattt gagcatcttc 1261 actgtcggtg gtcctcgtgt tggtaacccc acctttgctt actatgttga atccaccggt 1321 atccctttcc aacgtaccgt tcacaagaga gatatcgttc ctcacgttcc tcctcaatcc 1381 ttcggattcc ttcatcccgg tgttgaatct tggatcaagt ctggtacttc caacgttcaa 1441 atctgtactt ctgaaattga aaccaaggat tgcagtaact ctatcgttcc tttcacctct 1501 atccttgacc acttgagtta ctttgatatc aacgaaggaa gctgtttgta aaacacttga 1561 cgtgttactc taattttata ataaaattaa gtttttatac aataaatttt tgcatgtcta 1621 tacataattt agaacataac ctcaacttca aacttgtata tcaatagtct cttctcattc 1681 tatctcgccc atttttaaaa cagtgttcat agagccattt atattagacg tattctatga 1741 tatcctctga tctacagctt tcattcattc ttttatgatt caagtaatgt cttgaattta 1801 gaaagaatag tttgagagtt attttgtagt taaaaaatta atcttttacc tttttttagg 1861 a//
-
5/28/2018 Bio Inform a Tika
29/71
aspek database
perlu dikembangkan sistem pengelolaandatabase, seperti indexing, searching,ekstraksi dan pengelompokan, terhadapkoleksi data hasil download dari bank data
dan data luaran penelitian sendiri
perlu disiapkan program konversi untukpertukaran antara data milik sendiri dan milik
komunitas peneliti dunia dan yang terutama adalah membuat
bioinformatika untuk data mining terhadapknowledge database ini
-
5/28/2018 Bio Inform a Tika
30/71
situs-situs bank data
sekuens asam nukleat:GenBank
http://www.ncbi.nlm.nih.gov:80/entrez/
query.fcgi?db=Nucleotide
sekuens genome:
Entrez Genome
http://www.ncbi.nlm.nih.gov:80/entrez/
query.fcgi?db=GenomeTIGR database
http://www.tigr.org/tdb/
-
5/28/2018 Bio Inform a Tika
31/71
situs-situs bank data
sekuens protein:GenBank
http://www.ncbi.nlm.nih.gov:80/entrez/
query.fcgi?db=Protein
SWISS-PROT
http://www.expasy.ch/spro/
struktur protein:
Protein Data Bankhttp://www.rcsb.org/pdb/
-
5/28/2018 Bio Inform a Tika
32/71
aspek algoritma
algoritma merupakan komponen utama daribioinformatika yang terus dikembangkan dandisempurnakan
kebanyakan dari algoritma yang ada, didasaripada pendekatan probabilistik, sehinggaakurasinya masih belum sempurna
akan dicontohkan beberapa diantaranya
sebagai ilustrasi dan terbatas pada datagenomic
bukan dari yang terbaik, tetapi yangmudah untuk dicermati
-
5/28/2018 Bio Inform a Tika
33/71
aspek algoritma
contoh 1:melacak fragmenAGTCGACTpada deretan
AGACGGTAGCGATTCAGTCGACTTCCATGCATGG
ATCGACTTCGT
merupakan suatu proses string matchingbiasa, yang umum terdapat pada aplikasipengolah kata
bila menggunakan cara brute force, tahapanproses akan menjadi terlalu panjang
-
5/28/2018 Bio Inform a Tika
34/71
aspek algoritma
1 2 3 4 123456789012345678901234567890123456789012345 AGACGGTAGCGATTCAGTCGACTTCCATGCATGGATCGACTTCGT1 AGTCGACT2 AGTCGACT3 AGTCGACT4 AGTCGACT
5 AGTCGACT6 AGTCGACT7 AGTCGACT8 AGTCGACT9 AGTCGACT10 AGTCGACT11 AGTCGACT
12 AGTCGACT13 AGTCGACT14 AGTCGACT15 AGTCGACT16 AGTCGACT AGACGGTAGCGATTCAGTCGACTTCCATGCATGGATCGACTTCGT
string matching
dengan brute forceO(n)
-
5/28/2018 Bio Inform a Tika
35/71
aspek algoritma
1 2 3 4 123456789012345678901234567890123456789012345 AGACGGTAGCGATTCAGTCGACTTCCATGCATGGATCGACTTCGT
1 AGTCGACT2 AGTCGACT3 AGTCGACT4 AGTCGACT5 AGTCGACT6 AGTCGACT7 AGTCGACT AGACGGTAGCGATTCAGTCGACTTCCATGCATGGATCGACTTCGT
dapat menggunakan backtracking algorithm(dari Boyer-Moore) yang lebih efisien
orde algoritma O(log n)
-
5/28/2018 Bio Inform a Tika
36/71
aspek algoritma
contoh 2:bagaimana karakteristik protein hasil translasisebuah gen prokariot?
translasi dapat dilakukan secara langsung,karena gen tidak terputus oleh intron
harus dicari sinyal-sinyal translasi padasekuens DNA gen, yaitu;ATG sebagai start
dan TAA, atau TAG, atau TGAsebagai stop
A T G TC T G A G T C G C A G T G A C A A A G T C A T A G C
"daerah yang ditranslasi"
start stop5' UTR 3' UTR
-
5/28/2018 Bio Inform a Tika
37/71
aspek algoritma
karena penerjemahan dilakukan pada setiaptriplet basa, maka harus ditetapkan awal daripenelusuran sekuens DNA gen
terdapat 6 bingkai pembacaan (readingframe)
AC T C G G A G C T T C G G A G CC G A T G C C T C G A A G C C T C G
bingkai -2
bingkai -3
bingkai -1G
5'
3'
3'
5'
arah pembacaan
arah pembacaan
bingkai +3
bingkai +2
bingkai +1
-
5/28/2018 Bio Inform a Tika
38/71
aspek algoritma
dibuat parser yang dapat membaca codon-codon sinyal
dibuat fungsi lookup untuk memperolehasam amino padanan dari triplet basa yangdibaca
dan dibuat fungsi untuk mengabaikanpelacakan bila daerah translasi terlalu pendek
atau tidak memiliki codon stop
-
5/28/2018 Bio Inform a Tika
39/71
analisis genome
-
5/28/2018 Bio Inform a Tika
40/71
analisis genome
-
5/28/2018 Bio Inform a Tika
41/71
aspek algoritma
contoh 3:melacak intron dalam genome ragi (yeast)
berdasarkan deretan konsensus yang
terdapat pada intron eukariot, yang diawalidengan GT dan diakhiri dengan AG
dapat dicari antara lain dengan regularexpression, menggunakan misalnya, grep(Unix), Perl, Java (JDK 1.4)
Exon ExonIntron
GT AG
-
5/28/2018 Bio Inform a Tika
42/71
aspek algoritma
memerlukan kombinasi dengan metoda lainagar hasilnya lebih akurat
Intron pada ragi
5 splice site branch site 3 splice siteGTTCGT AACTAAC
GTTAAG AATTAAC
GTGAGT ATATAAC
GTCAGT CACTAAC TAG
GTATGT GAATAAC CAG
GTATGC GACTAAC AAGGTATGA TACTAAC
GTAGTA TACTAAC
GTACGT TATTAAC
GTAAGT TGCTAAC
regular expressionGT.{2}[AGT]. .[AGT][ACT]TAAC [ATC]AG
-
5/28/2018 Bio Inform a Tika
43/71
aspek algoritma
contoh 4:mencari kemiripan (similarity) diantara duasekuens DNA
untuk mencari fungsi (gen) yang sama digenome lain
mendeduksi fungsi fragmen DNA yang belumdiketahui, dari informasi database genome
dapat menggunakan dot plot, dynamicprogramming, genetic algorithm, decisiontree atau neural network
-
5/28/2018 Bio Inform a Tika
44/71
aspek algoritma1 2 3
123456789012345678901234567890#1: KALIMAT.PENDEK.YANG.PENTING (n = 27) |||||||||#2: KALIMAT.PADAT.DAN.SINGKAT (n = 25)
identik = 9/27 = 33 %
1 2 3 123456789012345678901234567890#1: KALIMAT.PENDEK.YANG.PENTING (n = 27) ||||||||| | |||#2: KALIMAT.PADAT.DAN.-----SINGKAT (n = 30)
identik = 12/30 = 40 %
1 2 3 123456789012345678901234567890#1: KALIMAT.PENDEK.YANG.PENTING (n = 27) ||||||||| | | || | |||#2: KALIMAT.PA-DAT.DAN-.---SINGKAT (n = 30)
identik = 17/30 = 56 %
-
5/28/2018 Bio Inform a Tika
45/71
aspek algoritma
penjajaran sekuens (sequence alignment) terjadi pasangan cocok (match)
terjadi pasangan tidak cocok (mismatch)
terjadi pasangan dengan celah (gap)
TTGTCAAAGACTTGACGTGATGCAT
GGCAGACATGAC-TGACAAGGTA
|||| |||| |||
daerah yang dijajarkan
tidak cocok (mismatch) celah (gap)
-
5/28/2018 Bio Inform a Tika
46/71
aspek algoritma
dibuat matriks nilai dengan isi setiap seladalah maksimum dari 3 sel lainnya:
F(i,j)F(i-1,j)
F(i,j-1)F(i-1,j-1)
s(xi,y
j) -d
-d
dengan sistem nilai, misalnya, cocok = +2,tidak cocok = -1, dengan celah = -1
-
5/28/2018 Bio Inform a Tika
47/71
aspek algoritma
dimisalkan melakukan penjajaran CATGTdenganACGCTG
-6
-5
-3
-4
-2
-1
0
-3
-2
0
-1
1
-1
-1
-3
-2
0
-1
0
1
-2
0
1
-1
-1
0
0
-3
3
0
2
1
-1
-1
-4
2
3
1
1
-2
-2
-5
0
C
1
A
2
T
3
G
4
T
5
0
A1
C2
G3
C4
T5
G6
j
i
nilai yang diisikanpada sel di baris 4dan kolom 1
adalah maks dari(3 +2, 0 -1, -4 -1)= -1
-
5/28/2018 Bio Inform a Tika
48/71
aspek algoritma
penelusuran balik dimulai dari sel dengan nilaiterbesar di sel kanan bawah
0 -1
1
0
2
1
2
3
0
C
1
A
2
T
3
G
4
T
5
0
A1
C2
G3
C4
T5
G6
i
j
hasilnya:C A T G - T -
| | |
- A C G C T G
-
5/28/2018 Bio Inform a Tika
49/71
aspek algoritma
akan dibandingkan gen PAX-6 dari manusiadengan gen eyeless dari lalat buah(Dorsophila melanogaster)
gen ini bertanggung jawab pada
pembentukan mata, bila terjadi mutasi genmaka akan timbul kelainan klinis yangdisebut aniridia (yaitu tidak terbentuknya
pupil dengan sempurna) hasil penjajaran menunjukkan adanyakemiripan pada dua daerah gen tersebut
-
5/28/2018 Bio Inform a Tika
50/71
PAX-6 = Homo sapiens paired box gene 6 (aniridia, keratitis) (PAX6), mRNAeyeless = twin of eyeless, a second Pax-6 gene of Drosophila, acts upstream of eyeless in the control of eye development
Identik = 323/467 (69%), Celah = 11/467 (2%)
PAX-6 : 430 cacagcggagtgaatcagctcggtggtgtctttgtcaacgggcggccactgccggactcc 489 || |||||| | |||||||| || || || | ||| || || ||||||||||| || ||eyeless: 97 catagcggaataaatcagctgggcggcgtatatgttaatggccggccactgcccgattca 156
PAX-6 : 490 acccggcagaagattgtagagctagctcacagcggggcccggccgtgcgacatttcccga 549 || || || || ||||| || | ||||| ||| || || || || || ||||| ||eyeless: 157 acgcgtcaaaaaattgtcgaattggctcattccggcgcacgtccttgtgatatttcaaga 216
PAX-6 : 550 attctgcaggtgtccaacggatgtgtgagtaaaattctgggcaggtattacgagactggc 609
|| || || ||||||||||| || || || |||||| ||||||| ||||| || |||||eyeless: 217 atactacaagtgtccaacggttgcgtaagcaaaattttgggcagatattatgaaactgga 276
PAX-6 : 610 tccatcagacccagggcaatcggtggtagtaaaccgagagtagcgactccagaagttgta 669 || || | ||| | || || |||||| || || ||||||| || | |||||eyeless: 277 tcgataaaacctcgagctataggtggttcaaagccacgagtagctacaaccccggttgtg 336
. . .
PAX-6 : 790 agagttctt-cgcaacctgg-ctagcgaaa--agcaac-agatgggc-gc-agacg---g 839 ||| |||| || ||||||| || | ||| |||| | || | || | | |||eyeless: 457 cgag-tcttacgtaacctggcctcacaaaaggagcagcaagctcagcaacaaaacgaatc 515
PAX-6 : 840 catgtatgataaactaaggatgttgaacgggcagaccggaagctggg 886 | | ||||| || || | ||||| || || || || || | ||||eyeless: 516 cgtttatgaaaagcttcgcatgtttaatggccaaacgggcggatggg 562
-
5/28/2018 Bio Inform a Tika
51/71
aspek algoritma
contoh 5:menemukan hirarki (evolusi biologi) daribeberapa organisme
berasal dari data hasil penjajaran berganda(multiple alignment)
melalui pembuatan pohon filogenetik(phylogenetic tree)
menggunakan metoda Parsimony, UPGMA,Cladistic, Neighbor Joining, Least SquaresMethod, Maximum Likelihood, atau Clustering
-
5/28/2018 Bio Inform a Tika
52/71
aspek algoritma
dari data kemiripan gen pada 6 organismeKemiripan segmen 40 basa dari gen -hemoglobin (panjang = 223 bp)
Manusia GCTGCACTGT GACAAGCTGC ACGTGGATCC TGAGAACTTC
Simpanse GCTGCACTGT GACAAGCTGC ACGTGGATCC TGAGAACTTC
Sapi GCTGCACTGT GATAAGCTGC ACGTGGATCC TGAGAACTTC
Kambing GCTGCACTGT GATAAGCTGC ACGTGGATCC TGAGAACTTC
Ayam ACTGCATTGT GACAAGCTGC ATGTGGACCC CGAGAACTTC
Katak GAAGCACGCT GAGGAACTCC ACGTGGACCC TGAAAACTTC
dicari cluster yang menyatakan keterkaitanJumlah Perbedaan pada Sekuens DNA
Katak Ayam Kambing Sapi Simpanse Manusia
Katak - 13 10 9 9 9
Ayam 13 - 6 6 5 5
Kambing 10 6 - 0 1 1
Sapi 9 6 0 - 1 1
Simpanse 9 5 1 1 - 0
Manusia 9 5 1 1 0 -
-
5/28/2018 Bio Inform a Tika
53/71
aspek algoritma
ditemukan persentase identik antar ke-6 genPersen identik terhadap manusia
Simpanse 223/223 = 100 %
Sapi 189/223 = 84 %
Kambing 189/223 = 84 %
Ayam 170/223 = 76 %
Katak 137/223 = 61 %
*dihitung dari panjang total gen
dalam format binary tree ditulis sebagai
(Katak Ayam ((Kambing Sapi)(Simpanse Manusia)))
yang dapat diimplementasikan dengan mudahmenjadi bentuk grafis
-
5/28/2018 Bio Inform a Tika
54/71
aspek algoritma
bentuk pohon filogenetik-nya adalah
-
5/28/2018 Bio Inform a Tika
55/71
aspek user interface
pengembangan user interface berfokus padavisualisasi grafis dari luaran dankompatibilitas terhadap berbagai macamsistem lainnya
untuk data genomic, misalnya: bentuktampilan dari hasil penjajaran, grafik entropiatau frekuensi basa
untuk data proteomic, misalnya: prediksi daristruktur 3-D protein berdasarkan datasekuens asam amino
-
5/28/2018 Bio Inform a Tika
56/71
aspek statistika
contoh 6:memprediksi gen dengan probabilitas
suatu pendekatan teoritis yang dapatdikonfirmasikan melalui eksperimen
menggunakan statistika Bayesian terhadapmodel Markov tersembunyi (hidden Markovmodel)
akurasinya ditentukan oleh pilihan model danlatihan (terhadap database gen yang sudahdiketahui secara benar)
-
5/28/2018 Bio Inform a Tika
57/71
aspek statistika
model Markov terdiri dari sekumpulan keadaan (state) yang hidden
sekumpulan simbol (mewakili keadaan)
sekumpulan probabilitas transisi sekumpulan probabilitas emisi
model ini menyatakan rantai keadaan yangmemiliki tingkatan (order), sesuai
pengalaman data sebelumnya
-
5/28/2018 Bio Inform a Tika
58/71
aspek statistika
A:0
C:0.7
G:0.3
T:0
S1
A:0.8
C:0.2
G:0
T:0
S2
A:0.2
C:0.1
G:0.2
T:0.5
S3
1.0 0.6 A:1.0C:0
G:0
T:0
0.6
S4
1.0
0.4
0.7probabilitas emisi:...
0.2 0.2 0.5 1.0...
S1
?
... S2
1.0
S3
0.6
S3
0.4
S4
0.6
...
C C G T A
probabilitas transisi:
P(CCGTA) = P(C)P(C|C)P(G|C)P(T|G)P(A|T)
-
5/28/2018 Bio Inform a Tika
59/71
aspek statistika
terdiri dari 4 sub-model
A|C|G|T A T G
T T G
A A A
A A C
A A G
T T T
... T A G
T G A
T A A
stop codon
start codon
model 61 triplet
model antargen
mengikuti Markov orde-2
P(CCGAT)=P(CC)*P(G|CC)*P(A|CG)*P(T|GA)
-
5/28/2018 Bio Inform a Tika
60/71
1. P(daerah mengkode) = nukleotida pengkode / seluruh nukleotida
2. P(daerah tak-mengkode) = nukleotida tak-mengkode / seluruh nukleotida
3. P(N1Nn| mengkode) =P(N1N2| mengkode) * P(N3| N1N2, mengkode) *P(N4| N2N3, mengkode) *P(N5| N3N4, mengkode) * * P(Nn| Nn-2Nn-1, mengkode)
4. P(N1Nn| tak-mengkode) =P(N1N2| tak-mengkode) * P(N3| N1N2, tak-mengkode) *
P(N4| N2N3, tak-mengkode) * P(N5| N3N4, tak-mengkode) *P(N6| N4N5, tak-mengkode) * *P(Nn| Nn-2Nn-1, tak-mengkode)
P(N1Nn| mengkode) = probabilitas priorP(N1N2| mengkode) = probabilitas kondisi
aspek statistika
parameter model yang dibutuhkan:
-
5/28/2018 Bio Inform a Tika
61/71
aspek statistika
ditentukan dari model latihan (training model)2311 (dari 4354) gen pada genome E. coli
(4 639 221 bp) dengan panjang > 1000 bp
452 fragmen tak-mengkode denganpanjang > 40 bp
menghasilkan tabel-tabel frekuensi yangmenyatakan besarnya probabilitas tampilnya
basa Z dalam urutan berikut, setelah basa XY
-
5/28/2018 Bio Inform a Tika
62/71
aspek statistikaProbabilitas prior
Daerah yang mengkode:Bingkai 1 Bingkai 2 Bingkai 3
AA A 0.001801 AA A 0.000689 AA A 0.000255
AA C 0.000949 AA C 0.001864 AA C 0.000535
AA G 0.000854 AA G 0.000322 AA G 0.0.00256
AA T 0.001240 AA T 0.000792 AA T 0.001339
. . . . . . . . .
TT G 0.001546 TT G 0.001370 TT G 0.000570
TT T 0.002331 TT T 0.001591 TT T 0.002652
Daerah tak-mengkode:
Bingkai 1 Bingkai 2 Bingkai 3
AA A 0.002321 AA A 0.000674 AA A 0.000190
AA C 0.002652 AA C 0.002405 AA C 0.000510AA G 0.000874 AA G 0.001218 AA G 0.000622
AA T 0.000539 AA T 0.001031 AA T 0.000814
. . . . . . . . .
TT G 0.000172 TT G 0.000921 TT G 0.001591
TT T 0.001666 TT T 0.000172 TT T 0.000367
-
5/28/2018 Bio Inform a Tika
63/71
aspek statistikaProbabilitas kondisi
Daerah yang mengkode:
Bingkai 1
A C G T
AA 0.186712 0.183134 0.431893 0.445291
AC 0.259937 0.277165 0.595482 0.187232
AG 0.272389 0.314251 0.109616 0.228153
AT 0.110139 0.176955 0.324473 0.400621
. . .TG 0.395386 0.410135 0.410082 0.172744
TT 0.222835 0.289972 0.436321 0.372181
Daerah tak-mengkode:
Bingkai 1
A C G TAA 0.345324 0.254387 0.288616 0.254233
AC 0.549191 0.130097 0.127723 0.581637
AG 0.163811 0.333365 0.198174 0.111278
AT 0.283213 0.362833 0.409421 0.308102
. . .
TG 0.114081 0.470082 0.532941 0.281721
TT 0.171321 0.125911 0.372309 0.299712
-
5/28/2018 Bio Inform a Tika
64/71
aspek statistika
lintasan terbaik (atau yang paling mungkin)ditentukan dengan dynamic programmingmengikuti algoritma Viterbi
A 01
G
0
CG
Tacgt
0
0
0
0
0
0
0
0 0 0
A T A
0 0.0924 0 0.0157
0 0 0 0
0.1512 0 0 0
0 00.0696
0
0 0.0502 0 0.0087
0 0 0 0
0.1433 0 0 0
0 0 0.0814 0
v GATAberada didaerahmengkode
-
5/28/2018 Bio Inform a Tika
65/71
aspek statistika
hasilnya adalah data posisi gen pada genomyang dianalisis
Genome: Mycoplasma genitalium
Gen Awal Akhir Panjang----- ------- ------- -------1 735 1829 10952 2845 4798 19543 4813 7323 25114 7295 8548 1254
583 564926 566203 1278584 570053 570988 936585 570992 576343 5352
-
5/28/2018 Bio Inform a Tika
66/71
aspek statistika
hasilnya adalah data posisi gen pada genomyang dianalisis
Genome: Mycoplasma pneumoniae
Gen Awal Akhir Panjang----- ------- ------- -------1 9947 11275 13292 11275 12060 7863 13558 14265 708
765 731678 732835 1158766 747742 749427 1686767 761504 762562 1059768 765524 766387 864
-
5/28/2018 Bio Inform a Tika
67/71
aspek statistika
hasil prediksi masih belum sempurna:
Genome Panjang(bp)
Jumlahgen
Prediksi Tepatsama
Tidakketemu
Mycoplasma
genitalium
580.074 490 585 276
(56.4)
69
(14.1)Mycoplasmapneumoniae
816.394 695 768 334(48.1)
83(11.9)
Helicobacter pylori 1.667.867 1.588 1.641 916(57.7)
163(10.3)
Methanobacterium
thermoautotrophicum
1.751.377 1.889 2.014 923
(48.9)
173
(9.2)Haemophilusinfluenzae
1.830.138 1.738 1.861 1124(64.7)
139(8.0)
-
5/28/2018 Bio Inform a Tika
68/71
aspek statistika
banyak prediksi yang meleset, seperti:
Genome Tag Lokasi Panjang (bp)
Mycoplasmagenitalium
rp17 460126 460494 369
Mycoplasmapneumoniae
ptsH 66822 67088 267
Helicobacter pylori HP0203 207932 208207 276
Methanobacteriumthermoautotrophicum
MTH74 45402 45677 136
Haemophilus
influenzae
HI0484 505168 - 505422 255
-
5/28/2018 Bio Inform a Tika
69/71
aspek statistika
perlu perbaikan model dengan mengubah orde rantai Markov menjadi lebih
tinggi (dari orde 2 menjadi orde 5)
mengganti algoritma lintasan terbaikdengan lainnya (seperti: forward algorithm)
T C G GAT C G GA
T C G GA
3 bingkai pembacaan
rantai Markov orde 5
rantai Markov orde 2
-
5/28/2018 Bio Inform a Tika
70/71
peranan lanjut bioinformatika
melakukan analisis hibridisasi paralel padaDNA microarray (DNA chips)
menentukan pola ekspresi gen dalam array2-D secara bersamaan
membantu mempelajari sistem biologi untukkepentingan konservasi sumber daya dankelestarian lingkungan
mengembangkan kemampuan komputasiuntuk memodelkan sistem biologi yang rumit
-
5/28/2018 Bio Inform a Tika
71/71
epilog
bioinformatika merupakan alat bantu (tools)dalam riset biologi
bioinformatika adalah aplikasi teknologiinformasi untuk mempelajari karakteristik
genome dan memperkirakan struktur protein
bioinformatika memerlukan pengembanganlanjut dibidang algoritma dan pemodelan
matematis untuk mendapatkan metodaprediksi yang lebih akurat