bio inform a tika

Upload: che-zai

Post on 18-Oct-2015

44 views

Category:

Documents


0 download

DESCRIPTION

lybghuj

TRANSCRIPT

  • 5/28/2018 Bio Inform a Tika

    1/71

    Bioinformatika untukAnalisis GenomeTigor Nauli([email protected] / [email protected])

    Kuliah Umum di Jurusan Teknik Informatika STTTelkomBandung, 29 Desember 2003

  • 5/28/2018 Bio Inform a Tika

    2/71

    topik

    istilah bioinformatika komponen genetik dalam biologi

    riset biologi molekuler

    contoh aplikasi bioinformatika pada analisisgenome

  • 5/28/2018 Bio Inform a Tika

    3/71

    istilah

    bioinformatika = komputer + biologi bioinformatika adalah sebuah sains baru yang

    berkembang pesat, yang merupakanintersection (penggabungan) antarateknologi informasi dan biologi molekuler

    bioinformatika merupakan aplikasi teknologiinformasi (yaitu: perangkat komputasi dan

    teknik) untuk mengkoleksi, mengelola,menyebarkan, menganalisis danmenggunakan sejumlah besar data yangdihasilkan oleh riset biologi molekuler

  • 5/28/2018 Bio Inform a Tika

    4/71

    pemanfaatan bioinformatika

    mengungkap bagaimana kode genetikditerjemahkan untuk membentuk komponenmakhluk hidup (manusia, hewan, tumbuhanatau bakteri) ?

    memprediksi fungsi gen

    melacak letak kerusakan gen yangmengakibatkan penyakit genetik

    menelusuri evolusi biologi dari organisme

    mencari kesamaan genetik diantara berbagaimacam organisme

  • 5/28/2018 Bio Inform a Tika

    5/71

    pemanfaatan bioinformatika

    membantu identifikasi DNA dalam forensik menyempurnakan diagnosa penyakit dan

    terapi gen

    membantu perancangan obat baru memperlancar proyek pemetaan fungsional

    genome manusia (Human Genome Proyek)sehingga selesai 2 tahun lebih awal

    memudahkan kegiatan rekayasa genetika

    untuk membantu mengerti proses molekuleryang mendasari kehidupan

  • 5/28/2018 Bio Inform a Tika

    6/71

    DNA (deoxyribose nucleic acid)

    DNA merupakan double-helix(dua untai sirkular) antiparaleldari 4 basa nukleotida, yaitu:adenine (A), guanine (G),

    cytosine (C) dan thymine (T)

    untai DNA memiliki urutan yangberkomplemen, A pada untai

    satu selalu berpasangan denganT diuntai lainnya, begitu jugadengan G dan C

  • 5/28/2018 Bio Inform a Tika

    7/71

    pengurutan DNA

    sel cairan DNA

    isolasi

    elektroforesa

    konfirmasi

    PCR

    amplifikasi/perbanyakan DNA

    konfirmasi

    imaging densitometer

    sequencing (pengurutan)

    urutan DNA

    ( ... A-G-G-C-T-T-A-C-T-G-G-A-C-T... )

  • 5/28/2018 Bio Inform a Tika

    8/71

    DNA (dioxyribose nucleic acid)

    DNA merupakan pembawa informasi genetik keseluruhan rantai panjang (untai lengkap)

    DNA dari suatu organisme disebut genome

    genom pada organisme rendah (prokariot)seperti bakteri berada sebagai molekul DNAtunggal, kira-kira berukuran 2 mm (di dalamsel yang berdiameter 0.001 mm)

    DNA pada organisme tinggi (eukariot),tersusun dalam sejumlah kromosom (padamanusia terdapat 23 pasang)

  • 5/28/2018 Bio Inform a Tika

    9/71

    DNA (dioxyribose nucleic acid)

    unit-unit fungsional dalam genome yangmewarisi sifat, disebut sebagai gene -mengkode instruksi pembuatan protein

    gene gene gene gene

    genome

    gen dapat berada dikedua untai DNA dankemungkinan terdapat berulang pada lokasi

    yang lain dalam genome gen prokariot merupakan satu daerah utuh

    (continous), sedangkan gen eukariot beradadalam segmen-segmen terpisah

  • 5/28/2018 Bio Inform a Tika

    10/71

    DNA (dioxyribose nucleic acid)

    ukuran genome disetiap organisme tidaklahsama, mulai yang terkecil pada virus hinggayang terbesar pada manusia

    Organisme Ukuran Genome(basa)

    PerkiraanJumlah Gene

    Manusia (Homo sapiens) 3 milyar 30000

    Tikus (M. musculus) 2.6 milyar 30000

    Rumput liar (A. thaliana) 100 juta 25000

    Cacing (C. elegans) 97 juta 19000

    Lalat buah (D. melanogaster) 137 juta 13000

    Ragi roti (S. cerevisiae) 12.1 juta 6000Bakteri (E. coli) 4.6 juta 3200

    Virus HIV 9700 9

  • 5/28/2018 Bio Inform a Tika

    11/71

    aliran pesan genetik

    disebut sebagai ekspresi gen prosesnya (central dogma):

    DNAReplikasiTranskripsi

    RNATranslasi

    Protein

    mRNAtRNArRNA

    replikasi memperbanyak diritranskripsi membuat cetakan negatif/komplementranslasi penerjemahan kode

  • 5/28/2018 Bio Inform a Tika

    12/71

    protein

    protein merupakan komponen biologis utamadari suatu organisme dan memiliki berbagaimacam peran dalam proses kehidupan:

    sebagai protein struktural (collagen,proteoglycan, viral coat protein)

    sebagai enzim (dehydrogenase, kinase)

    sebagai protein penyimpan (ferritin,

    myoglobin) sebagai protein pelindung (antibody,

    immunoglobulin, zat pembeku darah)

  • 5/28/2018 Bio Inform a Tika

    13/71

    protein...

    sebagai protein pengatur (hormone,receptor protein)

    sebagai protein pembawa/transport(hemoglobin, plasma lipoprotein)

    sebagai protein penggerak (actin, tubulin)

  • 5/28/2018 Bio Inform a Tika

    14/71

    struktur protein

    protein adalah suatu molekul besar dankompleks yang tersusun dari 20 subunit lebihkecil (yang disebut asam amino)

    esensial, yaitu:

    histidine (His/H) isoleucine (Ile/I)

    leucine (Leu/L) lysine (Lys/K)

    methionine (Met/M)

    phenilalanine (Phe/F)

    threonine (Thr/T)

    tryptophan (Trp/W) valine (Val/V)

  • 5/28/2018 Bio Inform a Tika

    15/71

    struktur protein

    non-esensial, yaitu: alanine (Ala/A) arginine (Arg/R)

    asparagine (Asn/N)

    aspartic acid (Asp/D) cysteine (Cys/C)

    glutamic acid (Glu/E)

    glutamine (Gln/Q) glycine (Gly/G) proline (Pro/P)

    serine (Ser/S) tyrosine (Tyr/Y)

  • 5/28/2018 Bio Inform a Tika

    16/71

    struktur protein

    adanya sifat-sifat kimia yang berbeda padake-20 macam asam amino menyebabkanrantai protein menekuk (fold) danmembentuk struktur 3-D yang menentukan

    fungsi-fungsi spesifik dalam sel

    konstelasi seluruh protein di dalam sebuah seldisebut proteome

  • 5/28/2018 Bio Inform a Tika

    17/71

    kode genetik

    kombinasi 4 karakter (A, C, G, T) pada genakan mengkode 20 macam asam amino

    jika 1 basa mengkode 1 asam amino

    maka ada 41

    = 4 kemungkinan asam aminojika 2 basa mengkode 1 asam amino,

    maka ada 42= 16 kemungkinan asam amino

    jika 3 basa mengkode 1 asam amino,

    maka ada 43= 64 kemungkinan asam amino

    satuan kode genetik = 1 triplet basa

  • 5/28/2018 Bio Inform a Tika

    18/71

    kode genetik

    Posisi KeduaT C A G

    TTT TCT TAT TGT T

    TTC Phe

    TCC TACTyr

    TGCCys

    C

    TTA TCA TAA Stop TGA Stop AT

    TTG Leu

    TCG

    Ser

    TAG Stop TGG Trp G

    CTT CCT CAT CGT T

    CTC CCC CAC

    His

    CGC CCTA CCA CAA CGA AC

    CTG

    Leu

    CCG

    Pro

    CAGGln

    CGG

    Arg

    G

    ATT ACT AAT CGT T

    ATC ACC AACAsn

    AGCSer

    C

    ATA

    Ile

    ACA AAA AGA AA

    ATG Met (start) ACG

    Thr

    AAGLys

    AGGArg

    G

    GTT GCT GAT GGT TGTC GCC GAC

    AspGGC C

    GTA GCA GAA GGA A

    PosisiPertama

    G

    GTG

    Val

    GCG

    Ala

    GAGGlu

    GGG

    Gly

    G

    PosisiKetiga

    terdapat 61 triplet basa

  • 5/28/2018 Bio Inform a Tika

    19/71

    kode genetik

    T A C CA G G G A T C G C C T A C T

    A U G GU C C C U A G C G G A U G A

    DNA

    replikasi transkripsi

    mRNA

    U C G C C U

    tRNA tRNA

    GlySerProMet

    translasi

    ProteinCys

    3'5'

    anticodon

    codon

    suatu ekspresi gen

  • 5/28/2018 Bio Inform a Tika

    20/71

    kelainan genetik

    sifat genetik suatu organisme dapat berubahbila terjadi mutasi pada salah satu atau lebihbasa dalam genome

    Variasi

    A C G T G T C A G

    Thr Cys Gln

    A C G TAC C A G

    Thr Tyr Gln

    A C G T G C C A G

    Thr Cys Gln

    Mutasi

  • 5/28/2018 Bio Inform a Tika

    21/71

    paradigma analisis genome

    sekuens DNA menentukan sekuens protein sekuens protein menentukan struktur protein

    struktur protein menentukan fungsi protein

  • 5/28/2018 Bio Inform a Tika

    22/71

    analisis genome

    analisis genome bertujuan untuk mengetahuikarakteristik suatu organisme dan fungsibiologis dari setiap bagian di dalam genome

    dilakukan secara bertahap terhadap fragmen-fragmen DNA yang lebih pendek

    pemotongan sekuens DNA menjadi fragmen,dilakukan di laboratorium dengan

    menggunakan enzim endonuklease (enzimrestriksi) yang dapat melakukan pemutusanrantai DNA secara spesifik

  • 5/28/2018 Bio Inform a Tika

    23/71

    analisis genome

    fungsi dari setiap fragmen yang diuji, dapatdiketahui melalui teknik DNA rekombinan(DNA recombinant)

    fragmen ditempel pada pembawa DNAdan ditumbuhkan dalam organisme inang

    atau melalui pembandingan dan prediksimenggunakan bioinformatika

    fragmen DNA ada yang mengkode dan adayang tidak mengkode

    proses translasi hanya terjadi pada daerahyang mengkode (coding region)

  • 5/28/2018 Bio Inform a Tika

    24/71

    Exon

    Intron

    3' UTR

    C A GG A A C A A A T A A A CA C APoly-A Site

    T C CA C C T G CA C T A G GG G C

    Stop Codon

    C C C TA

    T C CC C A C C CG T G CC

    Acceptor Site

    G C CC C A G C CT C T CT

    Start Codon

    T CC A CA A GG T GA T AG CGC C GG C

    Donor SiteCodon

    5' UTRTranscription Start

    Promotor

    arsitektur genome

  • 5/28/2018 Bio Inform a Tika

    25/71

    komponen bioinformatika

    bioinformatika sebagai suatu disiplin ilmu,meliputi kegiatan implementasi danpengembangan dari

    genomic & proteomic database (yangmeliputi: data storage, data mining)

    algoritma (seperti: pattern recognition,tree, path, searching)

    user interface (untuk misalnya: visualisasistruktur, penjajaran sekuens)

    statistika (yang mengeksplorasi: modelmatematis dan probabilistik)

  • 5/28/2018 Bio Inform a Tika

    26/71

    aspek database

    database biologi berjumlah sangat besarsekali dan tersedia di Web secara gratis

    hampir setiap hari komunitas peneliti biologiengakses data dari bank data danmenambahkan informasi baru kedalamnya

    database biologi yang ada antara lain adalahsekuens asam nukleat, sekuens genome,

    sekuens protein, dan struktur protein tersimpan sebagai file teks (flat file)

    diperlukan program (atau parser) untukmengekstrak data yang tersimpan

  • 5/28/2018 Bio Inform a Tika

    27/71

    LOCUS E02830 1861 bp DNA linear PAT 29-SEP-1997DEFINITION gDNA encoding lipase.

    ACCESSION E02830VERSION E02830.1 GI:2171058KEYWORDS JP 1991087175-A/1.SOURCE Rhizopus oryzae ORGANISM Rhizopus oryzae Eukaryota; Fungi; Zygomycota; Zygomycetes; Mucorales; Mucoraceae; Rhizopus.

    REFERENCE 1 (bases 1 to 1861) AUTHORS Tsuchiya,M. and Matsui,Y. TITLE LIPASE AND GENE OF THE SAME LIPASE JOURNAL Patent: JP 1991087175-A 1 11-APR-1991; AJINOMOTO CO INCCOMMENT OS Rhizopus delemar PN JP 1991087175-A/1 PD 11-APR-1991 PF 26-JAN-1990 JP 1990017611 PR 28-FEB-1989 JP 89P 49604, 28-APR-1989 JP 89P 111076 PI TSUCHIYA MAKOTO, MATSUI YUTAKA PC C12N9/20,C12N15/55,(C12N15/55,C12R1:845); CC strandedness: Double; CC topology: Linear; CC hypothetical: No; CC anti-sense: No; CC *source: strain=AJ 6045; FH Key Location/Qualifiers FH FT 5'UTR 1..371 FT CAAT_signal 203..208 FT TATA_signal 261..265 FT polyA_signal 1601..1606 FT sig_peptide 372..455 FT /product='signal peptide of lipase beta

    FT subunit' FT mat_peptide 456..551 FT /product='lipase beta subunit' FT sig_peptide 505..564 FT /product='signal peptide of lipase alpha FT subunit' FT Region 565..657 FT /note='pro sequence of lipase alpha subunit' FT mat_peptide 658..1548 FT /product='lipase alpha subunit' FT misc_feature 1153..1194 FT /note='region which is homologous to other FT lipase'.

  • 5/28/2018 Bio Inform a Tika

    28/71

    FEATURES Location/Qualifiers source 1..1861 /organism="Rhizopus oryzae" /mol_type="genomic DNA" /db_xref="taxon:64495"BASE COUNT 471 a 426 c 313 g 648 t 3 others

    ORIGIN 1 ttttgaaagg taacttataa tattgagctt attgtcgcac ataaaatcag tttattttat 61 cccagccagt tatatagggg aaatcagaac tgtccctttt tttgtcttat tttatgtaaa 121 tcgctttgtg tgatgttttg tattacattc aaacagagga atcagtcgta catattgatt 181 acttggtact actattaatg tacctaattc atgagggtta cattnnntaa tgccatgttc 241 gtattttttg acaaaaaaca tataaataga gcaagtttat gttatgttca agtctctatc 301 ttcatcaagt caattgatac agactcttct tttcttttct tcttacccct tccagttctt 361 tactatcaat catggtttca ttcatttcca tttctcaagg tgttagtctt tgtcttcttg 421 tctcttccat gatgctcggt tcatctgctg ttcctgtttc tggtaaatct ggatcttcca 481 acaccgccgt ctctgcatct gacaatgctg ccctccctcc tctcatctcc agccgttgtg 541 cttcctcctt ctaacaaggg aagtaaaagc gatctccaag ctgaacctta caacatgcaa 601 aagaatacag aatggtatga gtcccatggt ggcaacctga catccatcgg aaagcgtgat

    661 gacaacttgg ttggtggcat gactttggac ttacccagcg atgctcctcc tatcagcctc 721 tctagctcta ccaacagcgc ctctgatggt ggtaaggttg ttgctgctac tactgctcag 781 atccaagagt tcaccgagta tgctggtatc gctgccactg cctactgtcg ttctgttgtc 841 cctggtaaca agtgggattg tgtccaatgt caaaagtggg ttcctgatgg caagatcatc 901 actaccttta cctccttgct ttccgataca aatggttacg tcttgagaag tgataaacaa 961 aagaccattt atcttgtttt ccgtggtacc aactccttca gaagtgccat cactgatatc 1021 gtcttcaact tttctgacta caagcctgtc aagggcgcca aagttcatgc tggtttcctt 1081 tcctcttatg agcaagttgt caatgactat ttccctgtcg tccaagaaca attgaccgcc 1141 caccctactt ataaggtcat cgttaccggt cactcactcg gtggtgcaca agctttgctt 1201 gccggtatgg atctctacca acgtgaacca agattgtctc ccaagaattt gagcatcttc 1261 actgtcggtg gtcctcgtgt tggtaacccc acctttgctt actatgttga atccaccggt 1321 atccctttcc aacgtaccgt tcacaagaga gatatcgttc ctcacgttcc tcctcaatcc 1381 ttcggattcc ttcatcccgg tgttgaatct tggatcaagt ctggtacttc caacgttcaa 1441 atctgtactt ctgaaattga aaccaaggat tgcagtaact ctatcgttcc tttcacctct 1501 atccttgacc acttgagtta ctttgatatc aacgaaggaa gctgtttgta aaacacttga 1561 cgtgttactc taattttata ataaaattaa gtttttatac aataaatttt tgcatgtcta 1621 tacataattt agaacataac ctcaacttca aacttgtata tcaatagtct cttctcattc 1681 tatctcgccc atttttaaaa cagtgttcat agagccattt atattagacg tattctatga 1741 tatcctctga tctacagctt tcattcattc ttttatgatt caagtaatgt cttgaattta 1801 gaaagaatag tttgagagtt attttgtagt taaaaaatta atcttttacc tttttttagg 1861 a//

  • 5/28/2018 Bio Inform a Tika

    29/71

    aspek database

    perlu dikembangkan sistem pengelolaandatabase, seperti indexing, searching,ekstraksi dan pengelompokan, terhadapkoleksi data hasil download dari bank data

    dan data luaran penelitian sendiri

    perlu disiapkan program konversi untukpertukaran antara data milik sendiri dan milik

    komunitas peneliti dunia dan yang terutama adalah membuat

    bioinformatika untuk data mining terhadapknowledge database ini

  • 5/28/2018 Bio Inform a Tika

    30/71

    situs-situs bank data

    sekuens asam nukleat:GenBank

    http://www.ncbi.nlm.nih.gov:80/entrez/

    query.fcgi?db=Nucleotide

    sekuens genome:

    Entrez Genome

    http://www.ncbi.nlm.nih.gov:80/entrez/

    query.fcgi?db=GenomeTIGR database

    http://www.tigr.org/tdb/

  • 5/28/2018 Bio Inform a Tika

    31/71

    situs-situs bank data

    sekuens protein:GenBank

    http://www.ncbi.nlm.nih.gov:80/entrez/

    query.fcgi?db=Protein

    SWISS-PROT

    http://www.expasy.ch/spro/

    struktur protein:

    Protein Data Bankhttp://www.rcsb.org/pdb/

  • 5/28/2018 Bio Inform a Tika

    32/71

    aspek algoritma

    algoritma merupakan komponen utama daribioinformatika yang terus dikembangkan dandisempurnakan

    kebanyakan dari algoritma yang ada, didasaripada pendekatan probabilistik, sehinggaakurasinya masih belum sempurna

    akan dicontohkan beberapa diantaranya

    sebagai ilustrasi dan terbatas pada datagenomic

    bukan dari yang terbaik, tetapi yangmudah untuk dicermati

  • 5/28/2018 Bio Inform a Tika

    33/71

    aspek algoritma

    contoh 1:melacak fragmenAGTCGACTpada deretan

    AGACGGTAGCGATTCAGTCGACTTCCATGCATGG

    ATCGACTTCGT

    merupakan suatu proses string matchingbiasa, yang umum terdapat pada aplikasipengolah kata

    bila menggunakan cara brute force, tahapanproses akan menjadi terlalu panjang

  • 5/28/2018 Bio Inform a Tika

    34/71

    aspek algoritma

    1 2 3 4 123456789012345678901234567890123456789012345 AGACGGTAGCGATTCAGTCGACTTCCATGCATGGATCGACTTCGT1 AGTCGACT2 AGTCGACT3 AGTCGACT4 AGTCGACT

    5 AGTCGACT6 AGTCGACT7 AGTCGACT8 AGTCGACT9 AGTCGACT10 AGTCGACT11 AGTCGACT

    12 AGTCGACT13 AGTCGACT14 AGTCGACT15 AGTCGACT16 AGTCGACT AGACGGTAGCGATTCAGTCGACTTCCATGCATGGATCGACTTCGT

    string matching

    dengan brute forceO(n)

  • 5/28/2018 Bio Inform a Tika

    35/71

    aspek algoritma

    1 2 3 4 123456789012345678901234567890123456789012345 AGACGGTAGCGATTCAGTCGACTTCCATGCATGGATCGACTTCGT

    1 AGTCGACT2 AGTCGACT3 AGTCGACT4 AGTCGACT5 AGTCGACT6 AGTCGACT7 AGTCGACT AGACGGTAGCGATTCAGTCGACTTCCATGCATGGATCGACTTCGT

    dapat menggunakan backtracking algorithm(dari Boyer-Moore) yang lebih efisien

    orde algoritma O(log n)

  • 5/28/2018 Bio Inform a Tika

    36/71

    aspek algoritma

    contoh 2:bagaimana karakteristik protein hasil translasisebuah gen prokariot?

    translasi dapat dilakukan secara langsung,karena gen tidak terputus oleh intron

    harus dicari sinyal-sinyal translasi padasekuens DNA gen, yaitu;ATG sebagai start

    dan TAA, atau TAG, atau TGAsebagai stop

    A T G TC T G A G T C G C A G T G A C A A A G T C A T A G C

    "daerah yang ditranslasi"

    start stop5' UTR 3' UTR

  • 5/28/2018 Bio Inform a Tika

    37/71

    aspek algoritma

    karena penerjemahan dilakukan pada setiaptriplet basa, maka harus ditetapkan awal daripenelusuran sekuens DNA gen

    terdapat 6 bingkai pembacaan (readingframe)

    AC T C G G A G C T T C G G A G CC G A T G C C T C G A A G C C T C G

    bingkai -2

    bingkai -3

    bingkai -1G

    5'

    3'

    3'

    5'

    arah pembacaan

    arah pembacaan

    bingkai +3

    bingkai +2

    bingkai +1

  • 5/28/2018 Bio Inform a Tika

    38/71

    aspek algoritma

    dibuat parser yang dapat membaca codon-codon sinyal

    dibuat fungsi lookup untuk memperolehasam amino padanan dari triplet basa yangdibaca

    dan dibuat fungsi untuk mengabaikanpelacakan bila daerah translasi terlalu pendek

    atau tidak memiliki codon stop

  • 5/28/2018 Bio Inform a Tika

    39/71

    analisis genome

  • 5/28/2018 Bio Inform a Tika

    40/71

    analisis genome

  • 5/28/2018 Bio Inform a Tika

    41/71

    aspek algoritma

    contoh 3:melacak intron dalam genome ragi (yeast)

    berdasarkan deretan konsensus yang

    terdapat pada intron eukariot, yang diawalidengan GT dan diakhiri dengan AG

    dapat dicari antara lain dengan regularexpression, menggunakan misalnya, grep(Unix), Perl, Java (JDK 1.4)

    Exon ExonIntron

    GT AG

  • 5/28/2018 Bio Inform a Tika

    42/71

    aspek algoritma

    memerlukan kombinasi dengan metoda lainagar hasilnya lebih akurat

    Intron pada ragi

    5 splice site branch site 3 splice siteGTTCGT AACTAAC

    GTTAAG AATTAAC

    GTGAGT ATATAAC

    GTCAGT CACTAAC TAG

    GTATGT GAATAAC CAG

    GTATGC GACTAAC AAGGTATGA TACTAAC

    GTAGTA TACTAAC

    GTACGT TATTAAC

    GTAAGT TGCTAAC

    regular expressionGT.{2}[AGT]. .[AGT][ACT]TAAC [ATC]AG

  • 5/28/2018 Bio Inform a Tika

    43/71

    aspek algoritma

    contoh 4:mencari kemiripan (similarity) diantara duasekuens DNA

    untuk mencari fungsi (gen) yang sama digenome lain

    mendeduksi fungsi fragmen DNA yang belumdiketahui, dari informasi database genome

    dapat menggunakan dot plot, dynamicprogramming, genetic algorithm, decisiontree atau neural network

  • 5/28/2018 Bio Inform a Tika

    44/71

    aspek algoritma1 2 3

    123456789012345678901234567890#1: KALIMAT.PENDEK.YANG.PENTING (n = 27) |||||||||#2: KALIMAT.PADAT.DAN.SINGKAT (n = 25)

    identik = 9/27 = 33 %

    1 2 3 123456789012345678901234567890#1: KALIMAT.PENDEK.YANG.PENTING (n = 27) ||||||||| | |||#2: KALIMAT.PADAT.DAN.-----SINGKAT (n = 30)

    identik = 12/30 = 40 %

    1 2 3 123456789012345678901234567890#1: KALIMAT.PENDEK.YANG.PENTING (n = 27) ||||||||| | | || | |||#2: KALIMAT.PA-DAT.DAN-.---SINGKAT (n = 30)

    identik = 17/30 = 56 %

  • 5/28/2018 Bio Inform a Tika

    45/71

    aspek algoritma

    penjajaran sekuens (sequence alignment) terjadi pasangan cocok (match)

    terjadi pasangan tidak cocok (mismatch)

    terjadi pasangan dengan celah (gap)

    TTGTCAAAGACTTGACGTGATGCAT

    GGCAGACATGAC-TGACAAGGTA

    |||| |||| |||

    daerah yang dijajarkan

    tidak cocok (mismatch) celah (gap)

  • 5/28/2018 Bio Inform a Tika

    46/71

    aspek algoritma

    dibuat matriks nilai dengan isi setiap seladalah maksimum dari 3 sel lainnya:

    F(i,j)F(i-1,j)

    F(i,j-1)F(i-1,j-1)

    s(xi,y

    j) -d

    -d

    dengan sistem nilai, misalnya, cocok = +2,tidak cocok = -1, dengan celah = -1

  • 5/28/2018 Bio Inform a Tika

    47/71

    aspek algoritma

    dimisalkan melakukan penjajaran CATGTdenganACGCTG

    -6

    -5

    -3

    -4

    -2

    -1

    0

    -3

    -2

    0

    -1

    1

    -1

    -1

    -3

    -2

    0

    -1

    0

    1

    -2

    0

    1

    -1

    -1

    0

    0

    -3

    3

    0

    2

    1

    -1

    -1

    -4

    2

    3

    1

    1

    -2

    -2

    -5

    0

    C

    1

    A

    2

    T

    3

    G

    4

    T

    5

    0

    A1

    C2

    G3

    C4

    T5

    G6

    j

    i

    nilai yang diisikanpada sel di baris 4dan kolom 1

    adalah maks dari(3 +2, 0 -1, -4 -1)= -1

  • 5/28/2018 Bio Inform a Tika

    48/71

    aspek algoritma

    penelusuran balik dimulai dari sel dengan nilaiterbesar di sel kanan bawah

    0 -1

    1

    0

    2

    1

    2

    3

    0

    C

    1

    A

    2

    T

    3

    G

    4

    T

    5

    0

    A1

    C2

    G3

    C4

    T5

    G6

    i

    j

    hasilnya:C A T G - T -

    | | |

    - A C G C T G

  • 5/28/2018 Bio Inform a Tika

    49/71

    aspek algoritma

    akan dibandingkan gen PAX-6 dari manusiadengan gen eyeless dari lalat buah(Dorsophila melanogaster)

    gen ini bertanggung jawab pada

    pembentukan mata, bila terjadi mutasi genmaka akan timbul kelainan klinis yangdisebut aniridia (yaitu tidak terbentuknya

    pupil dengan sempurna) hasil penjajaran menunjukkan adanyakemiripan pada dua daerah gen tersebut

  • 5/28/2018 Bio Inform a Tika

    50/71

    PAX-6 = Homo sapiens paired box gene 6 (aniridia, keratitis) (PAX6), mRNAeyeless = twin of eyeless, a second Pax-6 gene of Drosophila, acts upstream of eyeless in the control of eye development

    Identik = 323/467 (69%), Celah = 11/467 (2%)

    PAX-6 : 430 cacagcggagtgaatcagctcggtggtgtctttgtcaacgggcggccactgccggactcc 489 || |||||| | |||||||| || || || | ||| || || ||||||||||| || ||eyeless: 97 catagcggaataaatcagctgggcggcgtatatgttaatggccggccactgcccgattca 156

    PAX-6 : 490 acccggcagaagattgtagagctagctcacagcggggcccggccgtgcgacatttcccga 549 || || || || ||||| || | ||||| ||| || || || || || ||||| ||eyeless: 157 acgcgtcaaaaaattgtcgaattggctcattccggcgcacgtccttgtgatatttcaaga 216

    PAX-6 : 550 attctgcaggtgtccaacggatgtgtgagtaaaattctgggcaggtattacgagactggc 609

    || || || ||||||||||| || || || |||||| ||||||| ||||| || |||||eyeless: 217 atactacaagtgtccaacggttgcgtaagcaaaattttgggcagatattatgaaactgga 276

    PAX-6 : 610 tccatcagacccagggcaatcggtggtagtaaaccgagagtagcgactccagaagttgta 669 || || | ||| | || || |||||| || || ||||||| || | |||||eyeless: 277 tcgataaaacctcgagctataggtggttcaaagccacgagtagctacaaccccggttgtg 336

    . . .

    PAX-6 : 790 agagttctt-cgcaacctgg-ctagcgaaa--agcaac-agatgggc-gc-agacg---g 839 ||| |||| || ||||||| || | ||| |||| | || | || | | |||eyeless: 457 cgag-tcttacgtaacctggcctcacaaaaggagcagcaagctcagcaacaaaacgaatc 515

    PAX-6 : 840 catgtatgataaactaaggatgttgaacgggcagaccggaagctggg 886 | | ||||| || || | ||||| || || || || || | ||||eyeless: 516 cgtttatgaaaagcttcgcatgtttaatggccaaacgggcggatggg 562

  • 5/28/2018 Bio Inform a Tika

    51/71

    aspek algoritma

    contoh 5:menemukan hirarki (evolusi biologi) daribeberapa organisme

    berasal dari data hasil penjajaran berganda(multiple alignment)

    melalui pembuatan pohon filogenetik(phylogenetic tree)

    menggunakan metoda Parsimony, UPGMA,Cladistic, Neighbor Joining, Least SquaresMethod, Maximum Likelihood, atau Clustering

  • 5/28/2018 Bio Inform a Tika

    52/71

    aspek algoritma

    dari data kemiripan gen pada 6 organismeKemiripan segmen 40 basa dari gen -hemoglobin (panjang = 223 bp)

    Manusia GCTGCACTGT GACAAGCTGC ACGTGGATCC TGAGAACTTC

    Simpanse GCTGCACTGT GACAAGCTGC ACGTGGATCC TGAGAACTTC

    Sapi GCTGCACTGT GATAAGCTGC ACGTGGATCC TGAGAACTTC

    Kambing GCTGCACTGT GATAAGCTGC ACGTGGATCC TGAGAACTTC

    Ayam ACTGCATTGT GACAAGCTGC ATGTGGACCC CGAGAACTTC

    Katak GAAGCACGCT GAGGAACTCC ACGTGGACCC TGAAAACTTC

    dicari cluster yang menyatakan keterkaitanJumlah Perbedaan pada Sekuens DNA

    Katak Ayam Kambing Sapi Simpanse Manusia

    Katak - 13 10 9 9 9

    Ayam 13 - 6 6 5 5

    Kambing 10 6 - 0 1 1

    Sapi 9 6 0 - 1 1

    Simpanse 9 5 1 1 - 0

    Manusia 9 5 1 1 0 -

  • 5/28/2018 Bio Inform a Tika

    53/71

    aspek algoritma

    ditemukan persentase identik antar ke-6 genPersen identik terhadap manusia

    Simpanse 223/223 = 100 %

    Sapi 189/223 = 84 %

    Kambing 189/223 = 84 %

    Ayam 170/223 = 76 %

    Katak 137/223 = 61 %

    *dihitung dari panjang total gen

    dalam format binary tree ditulis sebagai

    (Katak Ayam ((Kambing Sapi)(Simpanse Manusia)))

    yang dapat diimplementasikan dengan mudahmenjadi bentuk grafis

  • 5/28/2018 Bio Inform a Tika

    54/71

    aspek algoritma

    bentuk pohon filogenetik-nya adalah

  • 5/28/2018 Bio Inform a Tika

    55/71

    aspek user interface

    pengembangan user interface berfokus padavisualisasi grafis dari luaran dankompatibilitas terhadap berbagai macamsistem lainnya

    untuk data genomic, misalnya: bentuktampilan dari hasil penjajaran, grafik entropiatau frekuensi basa

    untuk data proteomic, misalnya: prediksi daristruktur 3-D protein berdasarkan datasekuens asam amino

  • 5/28/2018 Bio Inform a Tika

    56/71

    aspek statistika

    contoh 6:memprediksi gen dengan probabilitas

    suatu pendekatan teoritis yang dapatdikonfirmasikan melalui eksperimen

    menggunakan statistika Bayesian terhadapmodel Markov tersembunyi (hidden Markovmodel)

    akurasinya ditentukan oleh pilihan model danlatihan (terhadap database gen yang sudahdiketahui secara benar)

  • 5/28/2018 Bio Inform a Tika

    57/71

    aspek statistika

    model Markov terdiri dari sekumpulan keadaan (state) yang hidden

    sekumpulan simbol (mewakili keadaan)

    sekumpulan probabilitas transisi sekumpulan probabilitas emisi

    model ini menyatakan rantai keadaan yangmemiliki tingkatan (order), sesuai

    pengalaman data sebelumnya

  • 5/28/2018 Bio Inform a Tika

    58/71

    aspek statistika

    A:0

    C:0.7

    G:0.3

    T:0

    S1

    A:0.8

    C:0.2

    G:0

    T:0

    S2

    A:0.2

    C:0.1

    G:0.2

    T:0.5

    S3

    1.0 0.6 A:1.0C:0

    G:0

    T:0

    0.6

    S4

    1.0

    0.4

    0.7probabilitas emisi:...

    0.2 0.2 0.5 1.0...

    S1

    ?

    ... S2

    1.0

    S3

    0.6

    S3

    0.4

    S4

    0.6

    ...

    C C G T A

    probabilitas transisi:

    P(CCGTA) = P(C)P(C|C)P(G|C)P(T|G)P(A|T)

  • 5/28/2018 Bio Inform a Tika

    59/71

    aspek statistika

    terdiri dari 4 sub-model

    A|C|G|T A T G

    T T G

    A A A

    A A C

    A A G

    T T T

    ... T A G

    T G A

    T A A

    stop codon

    start codon

    model 61 triplet

    model antargen

    mengikuti Markov orde-2

    P(CCGAT)=P(CC)*P(G|CC)*P(A|CG)*P(T|GA)

  • 5/28/2018 Bio Inform a Tika

    60/71

    1. P(daerah mengkode) = nukleotida pengkode / seluruh nukleotida

    2. P(daerah tak-mengkode) = nukleotida tak-mengkode / seluruh nukleotida

    3. P(N1Nn| mengkode) =P(N1N2| mengkode) * P(N3| N1N2, mengkode) *P(N4| N2N3, mengkode) *P(N5| N3N4, mengkode) * * P(Nn| Nn-2Nn-1, mengkode)

    4. P(N1Nn| tak-mengkode) =P(N1N2| tak-mengkode) * P(N3| N1N2, tak-mengkode) *

    P(N4| N2N3, tak-mengkode) * P(N5| N3N4, tak-mengkode) *P(N6| N4N5, tak-mengkode) * *P(Nn| Nn-2Nn-1, tak-mengkode)

    P(N1Nn| mengkode) = probabilitas priorP(N1N2| mengkode) = probabilitas kondisi

    aspek statistika

    parameter model yang dibutuhkan:

  • 5/28/2018 Bio Inform a Tika

    61/71

    aspek statistika

    ditentukan dari model latihan (training model)2311 (dari 4354) gen pada genome E. coli

    (4 639 221 bp) dengan panjang > 1000 bp

    452 fragmen tak-mengkode denganpanjang > 40 bp

    menghasilkan tabel-tabel frekuensi yangmenyatakan besarnya probabilitas tampilnya

    basa Z dalam urutan berikut, setelah basa XY

  • 5/28/2018 Bio Inform a Tika

    62/71

    aspek statistikaProbabilitas prior

    Daerah yang mengkode:Bingkai 1 Bingkai 2 Bingkai 3

    AA A 0.001801 AA A 0.000689 AA A 0.000255

    AA C 0.000949 AA C 0.001864 AA C 0.000535

    AA G 0.000854 AA G 0.000322 AA G 0.0.00256

    AA T 0.001240 AA T 0.000792 AA T 0.001339

    . . . . . . . . .

    TT G 0.001546 TT G 0.001370 TT G 0.000570

    TT T 0.002331 TT T 0.001591 TT T 0.002652

    Daerah tak-mengkode:

    Bingkai 1 Bingkai 2 Bingkai 3

    AA A 0.002321 AA A 0.000674 AA A 0.000190

    AA C 0.002652 AA C 0.002405 AA C 0.000510AA G 0.000874 AA G 0.001218 AA G 0.000622

    AA T 0.000539 AA T 0.001031 AA T 0.000814

    . . . . . . . . .

    TT G 0.000172 TT G 0.000921 TT G 0.001591

    TT T 0.001666 TT T 0.000172 TT T 0.000367

  • 5/28/2018 Bio Inform a Tika

    63/71

    aspek statistikaProbabilitas kondisi

    Daerah yang mengkode:

    Bingkai 1

    A C G T

    AA 0.186712 0.183134 0.431893 0.445291

    AC 0.259937 0.277165 0.595482 0.187232

    AG 0.272389 0.314251 0.109616 0.228153

    AT 0.110139 0.176955 0.324473 0.400621

    . . .TG 0.395386 0.410135 0.410082 0.172744

    TT 0.222835 0.289972 0.436321 0.372181

    Daerah tak-mengkode:

    Bingkai 1

    A C G TAA 0.345324 0.254387 0.288616 0.254233

    AC 0.549191 0.130097 0.127723 0.581637

    AG 0.163811 0.333365 0.198174 0.111278

    AT 0.283213 0.362833 0.409421 0.308102

    . . .

    TG 0.114081 0.470082 0.532941 0.281721

    TT 0.171321 0.125911 0.372309 0.299712

  • 5/28/2018 Bio Inform a Tika

    64/71

    aspek statistika

    lintasan terbaik (atau yang paling mungkin)ditentukan dengan dynamic programmingmengikuti algoritma Viterbi

    A 01

    G

    0

    CG

    Tacgt

    0

    0

    0

    0

    0

    0

    0

    0 0 0

    A T A

    0 0.0924 0 0.0157

    0 0 0 0

    0.1512 0 0 0

    0 00.0696

    0

    0 0.0502 0 0.0087

    0 0 0 0

    0.1433 0 0 0

    0 0 0.0814 0

    v GATAberada didaerahmengkode

  • 5/28/2018 Bio Inform a Tika

    65/71

    aspek statistika

    hasilnya adalah data posisi gen pada genomyang dianalisis

    Genome: Mycoplasma genitalium

    Gen Awal Akhir Panjang----- ------- ------- -------1 735 1829 10952 2845 4798 19543 4813 7323 25114 7295 8548 1254

    583 564926 566203 1278584 570053 570988 936585 570992 576343 5352

  • 5/28/2018 Bio Inform a Tika

    66/71

    aspek statistika

    hasilnya adalah data posisi gen pada genomyang dianalisis

    Genome: Mycoplasma pneumoniae

    Gen Awal Akhir Panjang----- ------- ------- -------1 9947 11275 13292 11275 12060 7863 13558 14265 708

    765 731678 732835 1158766 747742 749427 1686767 761504 762562 1059768 765524 766387 864

  • 5/28/2018 Bio Inform a Tika

    67/71

    aspek statistika

    hasil prediksi masih belum sempurna:

    Genome Panjang(bp)

    Jumlahgen

    Prediksi Tepatsama

    Tidakketemu

    Mycoplasma

    genitalium

    580.074 490 585 276

    (56.4)

    69

    (14.1)Mycoplasmapneumoniae

    816.394 695 768 334(48.1)

    83(11.9)

    Helicobacter pylori 1.667.867 1.588 1.641 916(57.7)

    163(10.3)

    Methanobacterium

    thermoautotrophicum

    1.751.377 1.889 2.014 923

    (48.9)

    173

    (9.2)Haemophilusinfluenzae

    1.830.138 1.738 1.861 1124(64.7)

    139(8.0)

  • 5/28/2018 Bio Inform a Tika

    68/71

    aspek statistika

    banyak prediksi yang meleset, seperti:

    Genome Tag Lokasi Panjang (bp)

    Mycoplasmagenitalium

    rp17 460126 460494 369

    Mycoplasmapneumoniae

    ptsH 66822 67088 267

    Helicobacter pylori HP0203 207932 208207 276

    Methanobacteriumthermoautotrophicum

    MTH74 45402 45677 136

    Haemophilus

    influenzae

    HI0484 505168 - 505422 255

  • 5/28/2018 Bio Inform a Tika

    69/71

    aspek statistika

    perlu perbaikan model dengan mengubah orde rantai Markov menjadi lebih

    tinggi (dari orde 2 menjadi orde 5)

    mengganti algoritma lintasan terbaikdengan lainnya (seperti: forward algorithm)

    T C G GAT C G GA

    T C G GA

    3 bingkai pembacaan

    rantai Markov orde 5

    rantai Markov orde 2

  • 5/28/2018 Bio Inform a Tika

    70/71

    peranan lanjut bioinformatika

    melakukan analisis hibridisasi paralel padaDNA microarray (DNA chips)

    menentukan pola ekspresi gen dalam array2-D secara bersamaan

    membantu mempelajari sistem biologi untukkepentingan konservasi sumber daya dankelestarian lingkungan

    mengembangkan kemampuan komputasiuntuk memodelkan sistem biologi yang rumit

  • 5/28/2018 Bio Inform a Tika

    71/71

    epilog

    bioinformatika merupakan alat bantu (tools)dalam riset biologi

    bioinformatika adalah aplikasi teknologiinformasi untuk mempelajari karakteristik

    genome dan memperkirakan struktur protein

    bioinformatika memerlukan pengembanganlanjut dibidang algoritma dan pemodelan

    matematis untuk mendapatkan metodaprediksi yang lebih akurat