bio inform a tika
TRANSCRIPT
2
MATERI
• Latar Belakang• Konsep Dasar Biologi Molekuler• Teknik Bioinformatika• Area Bioinformatika• Aplikasi• Teknologi Terkait Komputer
4
2000• Peristiwa besar terjadi – merubah sejarah manusia
• Kerjasama Ingris dan Amerika
• Pertandingan – siapa yang pertama menyelesaikan
• GENOM MANUSIA – HUMAN GENOME PROJECT
5
MASA DEPAN......
• Sebuah virus menimbulkan epidemik
• Ahli genetik dan bioinformatika bekerja
• Materi genetik virus dibandingkan dengan data dasar
materi genetik virus lain yang telah ada
• Karakteristik virus lain telah diketahui
• Dari program materi genetik komputer akan muncul
protein yang dibutuhkan virus untuk bertahan hidup
• Ketika protein (sikuens dan struktur) diketahui, terapi /
obat – obatan dirancang
6
Definisi • Gabungan ilmu komputer dan biologi molekuler
– Algoritma dan teknik ilmu komputer digunakan untuk
menyelesaikan masalah bidang biologi molekuler
• Teknologi informasi digunakan pada manajemen
dan analisis data biologi
– Penyimpanan dan Analisis – dua fungsi terpenting –
ahli bioinformatika membuat alat
8
Definisi
• Masa sekarang : masa Teknologi Informasi• Penyimpanan data bukan hal baru• Informasi sebanyak kamus Dorlan tersimpan dalam
setiap sel• ‘Bioinformatika mencoba menentukan info mana
yang penting secara biologi’
10
DNA dan Gen
• DNA : tempat menyimpanan informasi genetik
• Penampilan manusia diturunkan oleh DNA
• Gen – Unit dasar penurunan sifat
– Terdapat gen untuk karakteristik (gen untuk rambut, dll)
• Gen berisi informasi berupa sikuens nukleotida
• Gen : konsep abstrak
• Gen terbuat dari nukleotida
12
Nucleotida (nt)• Setiap nt :
– Gula pentosa
– Fosfat
– Basa
• Basa nt : membedakan satu nt dengan yang lain
• Ada4 macam basa
• G(uanine),A(denine),T(hymine),C(ytosine)
• Informasi : urutan nukleotida
• Gen dapat tersusun atas beribu-ribu nt
• Set lengkap instruksi genetik : genom
13
Kromosom
• Pita DNA : kromosom• Analogi
– Huruf – nt– Kalimat – gen– Tiap volume kamus/ ensiklopedia - kromosom– Seluruh volume – Genom
14
Untai Ganda• DNA : untai ganda
• Setiap pita memiliki informasi komplementer
• Setiap basa tertentu pada satu pita berikatan dengan basa
tertentu lain pada pita yang lain
– G - C
– A - T
• Misal :
– AATGC satu pita
– TTACG satu pita
15
Protein• Protein sangat penting pda
kehidupan• Asam amino menyusun protein• 20 macam asam amino• Fungsi protein tergantung pada urutan
asam amino
16
Protein…• Informasi dibutuhkan untuk membuat asam
amino yang disimpan dalam DNA• Sikuens DNA menentukan sikuens asam amino• Sikuens asam amino menentukan struktur
protein• Struktur protein menentukan fungsi protein• RNA digunakan untuk membawa informasi
yang terdapat dalam DNA – protein• Penyimpanan – DNA • Transfer informasi – RNA• RNA : tukang pos!
M.Alroy Mascrenghe 17
Dogma Sentral
DNA transcription RNA Translation Protein RNA Polymerase Ribosomes
M.Alroy Mascrenghe 19
Protein…..• Karena ada 20 asam amino : satu nt
tidak dapat terdiri dari 1 atau 2 aa• 3 kode – kodon – informasi protein• Kodon yang tidak berhubungan dengan
protein : kodon stop – UAA, UAG, UGA (RNA :
U bukan T)
• Beberapa kodon : kodon awal – AUG : metionin
20
Struktur Protein • Menunjukkan beragam bentuk : kebalikan dengan
struktur DNA uniform• X-ray crystallography atau Nuclear Magnetic
Resonance (NMR) digunkan untuk mengetahui struktur
• Struktur terkait fungsi : struktur menentukan fungsi
• Walaupun protein dibuat sebagai struktur linier rantai aa, mereka melipat menjadi struktur 3 D
• Jika dibentangkan dan ditinggalkan – kembali pada struktur awal (naturalisasi struktur protein)
• Hanya dalam struktur natural : protein berfungsi baik
• Bahkan setelah translasi selesai, struktur protein mengalami perubahan
21
Ekspresi Gen• Proses transkripsi DNA dan translasi RNA untuk
membuat protein
• Dimana gen mulai pada kromosom?
• Bagaimana RNA mengidentifikasi awal gen untuk
membuat protein
• Nt tunggal tidak bisa : sering muncul
• Kombinasi tertentu nt bisa
• Sikuens promoter – urutan nt : tanda awal dari gen
23
Prediksi dan Pengenalan Bentuk / Pola
• Dua area utama :• Pengenalan Pola
– ‘Sikuens atau struktur tertentu telah diketahui sebelumnya’ dan merupakan karakteristik tertentu dapat berhubungan dengannya
• Prediksi– Dari sikuens (tahu) – prediksi
struktur dan fungsi (belum tahu)
24
Dot plots….
• Cara mudah evaluasi kesamaan antar dua sikuens
• Grafik : satu sikuens di satu sisi, sikuens lain di sisi lainnya
• COCOK : tandai
26
Alignments• Kecocokan antara karakter dua / lebih sikuens• Misal :
– TTACTATA– TAGATA
• Banyak cara untuk meratakan 2 sikuens tersebut– 1.
• TTACTATA• TAGATA
– 2.• TTACTATA• TAGATA
– 3.• TTACTATA• TAGATA
• Pilih yang mana dan berdasarkan apa?• Solusi : nilai cocok dan nilai tidak cocok
28
Gap
• Memakai gap dan nilai pinalti untuk gap• Tidak semua gap jelek
– TTGCAATCT– CAA– Bagaimana meratakan?– ---CAA---– Tidak signifikan
29
Matriks Nilai
• Untuk perataan sikuens DNA/protein : matriks• Jika A dan A : nilai 1• Jika A dan T : nilai -5• Jika A dan C : nilai -1
30
Dynamic Programming
• Panjang sikuens bertambah dan perbedaan panjang antara dua sikuens juga bertambah – lebih banyak gap yang harus dimasukkan dalam beragam posisi
• Tidak mungkin melakukan pencarian• Ledakan kombinasi muncul – terlalu banyak kombinasi yang
perlu dicari• Dynamic programming : cara menggunakan formulasi
spekulasi untuk mencari pola yang paling menentukan
M.Alroy Mascrenghe 31
Database• Informasi sikuens disimpan dalam
database• Dapat dimanipulasi dengan mudah• db terletak pada tempat yang
berbeda• Saling bertukar informasi setiap
hari : up-to-date dan sinkron• Db utama – data sikuens
DB Primer UtamaNucleic Acid ProteinEMBL (Europe) PIR -
Protein Information Resource
GenBank (USA) MIPSDDBJ (Japan) SWISS-PROT
University of Geneva, now with EBITrEMBLA supplement to SWISS-PROTNRL-3D
34
Composite DB
• Banyak db – mana yang dipakai? Kelebihan dan kekurangan
• Composite db – beberapa db sebagai database• Pencarian diindex dan lebih efisien – sikuens yang
sama tidak dicari dua kali pada db yang berbeda
36
DB Sekunder
• Menyimpan informasi struktur sekunder atau hasil pencarian db primer
Compo DB Primary Source
PROSITE SWISS-PROT
PRINTS OWL
37
Pencarian Database• Gen telah disikuens dan diidentifikasi.
Diketahui apa yang mereka lakukan• Sikuens disimpan pada database• Jika menemukan gen baru pada genom
manusia, dibandingkan dengan gen yang telah ditemukan (tersimpan pada database)
• Karena ada banyak databas, tidak dapat dilakukan perataan sikuens untuk setiap sikuens
• Formulasi spekulasi harus digunakan lagi
39
Genomik
• Struktur multiseluler – setiap tipe sel mengekspresikan gen
dengan jalan yang berbeda – walaupun setiap sel memiliki
genetik yang sama
• Misal : semua informasi untuk sel hepar untuk menjadi sel
hepar juga ada pada sel hidung – hanya ekspresi gen yang
berdeferensiasi
40
Genomik – Menemukan Gen• Gen pada data sikuens – jarum dalam tumpukan
jerami• Jarum berbeda dengan tumpukan jerami – tidak
berbeda dengan seluruh data sikuens• Apakah seluruh data nt yang harus ditemukan dan
menandai sebuah set nt sebagai gen ?• Satu tantangan bidang bioinformatika
Organism Genome Size (Mb) bp * 1,000,000
Gene Number
Web Site
Yeast 13.5 6,241 http://genome-www.stanford.edu/Saccharomyces
Fruit Flies 180 13,601 http://flybase.bio.indiana.edu
Homo Sapiens
3,000 45,000 http://www.ncbi.nlm.nih.gov/genome/guide
42
Proteomik
• Proteome : jumalh total protein organisme• Lebih sulit daripada genomik
– 4 20– Terbuat dari kemikal sederhana kompleks– Dapat duplikasi tidak dapat
• Memasuki ‘post era genom’• Artinya : banyak yang telah dilakukan pada Gen
43
Proteomik…..• Hubungan antara RNA dan protein yang dikodenya biasanya sangat
berbeda
• Setelah translasi, protein berubah
– Sikuens aa tidak memberikan informasi tentang perubahan post
translasi
• Protein tidak aktif sampai mereka dikombinasikan menjadi kompleks
yang lebih besar atau berpindah pada lokasi tertentu di dalam atau di
luar sel
• Aa hanya petunjuk untuk hal tersebut
• Protein harus dipelihara lebih hati – hati di lab ----- cenderung berubah
saat bersentuhan dengan material yang tidak sesuai
44
Prediksi Struktur Protein
• Tantangan terbesar bioinformatika, terutama biokimia
• Tidak ada algoritma yang secara konsisten memprediksi struktur protein
45
Metode Prediksi Struktur
• Comparative Modeling– Struktur protein target dibandingkan dengan
protein yang berhubungan– Protein dengan sikuens yang sma dicari
strukturnya
46
Phylogenetics• Sistem taksonomi mencerminkan hubungan evolusi• Pohon phylogenetics : sistem yang mencerminkan hubungan
evolusi melalui gambar / grafik• Pohon yang berakar – tempat satu – satunya nenek moyang• Pohon yang tidak berakar – menunjukkan hubungan• Rekonstruksi algoritma pohon phylogenetic – area penelitian
49
Implikasi Medis• Farmakogenomik
– Tidak semua obat bekerja pada pasien, beberapa menimbulkan kematian
– Analisis gen sebelum terapi – obat tersebut dapat dihindari– Obat yang paling sering menimbulkan kematian – penggunaan
minimal untuk orang dengan gen yang paling cocok (sukarela)• Terapi Gen
– Menggantikan atau menyediakan gen yang defek atau yang hilang– Misal : Insulin dan Faktor VII atau Hemofilia
• Senjata Biologis (?????)
50
Diagnosis Penyakit• Diagnosis penyakit
– Identifikasi gen yang menyebabkan penyakit dapat membantu mendeteksi dini penyakit - Huntington disease
• Gejala – gerakan seperti menari yang tidak terkontrol, gangguan mental, perubahan personaliti dan kegagalan intelektual
• Kematian pada 10-15 tahun• Gen diidentifikasikan• Berisi CAG berulang yang berlebihan• Terdeteksi : pasangan dapat dikonseling
51
Desain Obat
• Dapat mencapai 15 tahun dan $700 juta• Satu tujuan bioinformatika : mengurangi
waktu dan biaya• Proses
– Penemuan• Metode Komputer dapat memperbaiki hal tersebut
– Percobaan
52
Penemuan
Identifikasi Target– Identifikasi molekul yang dibutuhkan oleh kuman untuk
bertahn hidup– Ciptakan molekul lain (obat) yang akan berikatan dengan
target– Kuman tidak dapat berinteraksi dengan target– Biasanya protein
53
Penemuan...
• Misal : HIV memproduksi HIV protease – protein yang akan “memakan” protein lain
• HIV protease memiliki situs aktif yang berikatan dengan molekul lain
• Obat HIV akan berikatan pada situs aktif tersebut– Teori gampang, praktek ????
54
Penemuan…
• Lead compounds : molekul yang berikatan dengan situs aktif protein
• Biasanya – metode trial and error • Saat ini : dipindahkan dalam komputer
56
PERL
• Perl – kalkulasi bioinformatika – mampu memanipulasi simbol karakter
• Default : bahasa CGI• Awal : bahasa draft – berkembang menjadi bahasa
lengkap• IT adalah segalanya, bahkan ada web service support• http://bio.perl.org
58
Tempat XML & Web Services• Beragam bahasa penanda telah diciptakan – Gene Markup language, dsb –
untuk mempresentasikan sikuens / data gen• Web Services – program untuk interaksi program, membuat pusat aplikasi
web• Jadi memiliki landasan bahasa tersendiri yang independen• Protokol seperti SOAP – membantu • Bioinformatika : beragam database digunakan, landasan yang berbeda,
bahasa yang berbeda, dsb• Jadi, web services membantu mencapai kemandirian landasan dan
interaksi program• Sikuens database ada dalam beragam format, landasan SOAP juga
membantu menyamakan
59
GRID• GRID – metode baru• Menggunakan banyak komputer
untuk memenuhi tugas - tugas komputasi tunggal
• Bioinformatika – landasan ideal – berhubungan dengan sejumlah besar data pada perataan dan pencarian
• E-science dibuat di Inggris• ORACLE 10g – database GRID pertama
60
Data base dan Mining
• Banyak sikuens database dipublikasi• DB menyangkut beragam data, teknik mining
digunakan untuk mengambil data• Banyak literatur – artikel dsb – pada area ini, data
mining pada literatur – tidak pada data sikuens ----- Topik Disertasi
61
European Molecular Biology Network (EMBnet)
• Sistem sentral untuk berbagi, training, dan sentralisasi up to date bio info
• Beberapa situsEMBnet sites :• SQENET
– http://www.seqnet.dl.ac.uk• UCL
– http://www.biochem.ucl.ac.uk/bsm/dbbrowser/embnet/• EBI – European Bioinformatics Institute
– www.ebi.ac.uk