bab i 2007air

5
1 1. PENDAHULUAN A. Latar Belakang Perkembangan teknologi informasi, khususnya teknologi Internet sebagai wadah untuk dapat dengan mudah menyebarkan informasi secara mudah dan gratis, mengakibatkan informasi berlimpah. Melimpahnya informasi di satu sisi semakin memudahkan kita untuk mengakses informasi. Namun di sisi lain, banyaknya informasi dapat menimbulkan permasalahan pada pencarian atau penelusuran dan pengorganisasian informasi. Jumlah dan laju pertambahan informasi yang dihasilkan saat ini telah melebihi kemampuan manusia untuk melakukan organisasi, menelusuri dan memodifikasi informasi tanpa bantuan sistem yang otomatis (Taylor, 1999). Untuk memudahkan penelusuran informasi diperlukan mesin pencari. Mesin pencari menerima input query atau kata kunci dari pengguna dan menampilkan daftar informasi atau dokumen yang diperoleh (pada mesin pencari Internet, hasil pencarian terdiri dari link menunjuk alamat Internet yang menyimpan dokumen). Pada saat ini sudah banyak mesin pencari informasi pada Internet yang dapat digunakan secara cuma-cuma, antara lain : google (www.google.com ), yahoo (www.yahoo.com ) dan altavista (www.altavista.com ). Ketika menggunakan mesin pencari, pengguna sering tidak memperoleh hasil yang optimal (sesuai dengan keinginan), karena pengguna menghadapi beberapa kendala dalam memasukkan kata kunci, antara lain (Muresan, 2002): 1. Kesalahan dalam pengetikan atau dalam ejaan kata

Upload: arwanto-cahya

Post on 11-Nov-2015

214 views

Category:

Documents


0 download

DESCRIPTION

materi SPI

TRANSCRIPT

  • 1

    1. PENDAHULUAN

    A. Latar Belakang

    Perkembangan teknologi informasi, khususnya teknologi Internet

    sebagai wadah untuk dapat dengan mudah menyebarkan informasi secara

    mudah dan gratis, mengakibatkan informasi berlimpah. Melimpahnya

    informasi di satu sisi semakin memudahkan kita untuk mengakses informasi.

    Namun di sisi lain, banyaknya informasi dapat menimbulkan permasalahan

    pada pencarian atau penelusuran dan pengorganisasian informasi. Jumlah dan

    laju pertambahan informasi yang dihasilkan saat ini telah melebihi

    kemampuan manusia untuk melakukan organisasi, menelusuri dan

    memodifikasi informasi tanpa bantuan sistem yang otomatis (Taylor, 1999).

    Untuk memudahkan penelusuran informasi diperlukan mesin pencari.

    Mesin pencari menerima input query atau kata kunci dari pengguna dan

    menampilkan daftar informasi atau dokumen yang diperoleh (pada mesin

    pencari Internet, hasil pencarian terdiri dari link menunjuk alamat Internet

    yang menyimpan dokumen).

    Pada saat ini sudah banyak mesin pencari informasi pada Internet yang

    dapat digunakan secara cuma-cuma, antara lain : google (www.google.com),

    yahoo (www.yahoo.com) dan altavista (www.altavista.com). Ketika

    menggunakan mesin pencari, pengguna sering tidak memperoleh hasil yang

    optimal (sesuai dengan keinginan), karena pengguna menghadapi beberapa

    kendala dalam memasukkan kata kunci, antara lain (Muresan, 2002):

    1. Kesalahan dalam pengetikan atau dalam ejaan kata

  • 2

    2. Terbatasnya perbendaharaan kata yang dimiliki pengguna (terutama untuk

    istilah pada domain pengetahuan yang memiliki terminologi-terminologi

    tertentu)

    3. Kurang memahami cara penggunaan sintaks bahasa query, seperti

    Operator Boolean

    4. Kebanyakan pencarian hanya menggunakan kata kunci yang sedikit

    sehingga mengurangi daya jelajah pada ruang informasi

    5. Kata kunci yang digunakan sedikit dan terlalu luas atau memiliki makna

    ganda (ambigue) sehingga hasil pencarian yang didapat banyak namun

    kurang atau tidak relevan sama sekali

    Kesalahan memasukkan kata kunci dapat menyebabkan hasil tidak ada

    atau terlalu banyak. Mesin pencari kebanyakan menggunakan teknik

    representasi peringkat dengan menampilkan seluruh link menuju halaman

    hasil yang dibagi perhalaman. Masalah pada teknik representasi peringkat

    muncul bila hasil pencarian yang diperoleh terlalu banyak. Misalkan kita cari

    kata java untuk pulau jawa dengan menggunakan google (www.google.co.id),

    akan diperoleh hasil sebanyak 235 juta link ke alamat yang mengandung kata

    java dan baru pada halaman ke-3 (link yang ke-31) kita bisa menemukan link

    yang mempunyai keterangan tentang pulau java (Gambar 1.1).

    Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan

    suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan

    dokumen hasil query yang memiliki kemiripan, misalkan dokumen-dokumen

    yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau

    cluster (Borodavkina, 2000).

  • 3

    Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)

    Pengelompokan dokumen telah banyak diaplikasikan pada sistem temu-

    kembali informasi untuk meningkatkan efektifitas pencarian, antara lain

    (Horng et. al., 2005), (Haruechaiyasak & Chen, 2002) dan (Mendes & Sacks,

    2003). Pada aplikasi komersial, dokumen clustering antara lain telah

    digunakan oleh mesin pencari Vivisimo (www.vivisimo.com). Ketika

    digunakan, Vivisimo menghasilkan judul dan abstrak dokumen yang

    ditemukan. Kemudian menggunakan judul dan abstrak tersebut sebagai bahan

    pengelompokan (bukan keseluruhan dokumen). Vivisimo menggunakan

    algoritma Hierarchical Fuzzy Clustering.

    Algoritma Hierarchical Fuzzy Clustering merupakan salah satu

    algoritma algoritma clustering. Algoritma clustering lainnya antara lain K-

    Means, Buckshot, Fuzzy C-Means, Hyperspherical Fuzzy c-Means, -

    Insentive Fuzzy C-Means (-FCM), Competitive Clustering by Learning

  • 4

    (CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering

    (FSC).

    Algoritma tersebut masing-masing memiliki karakter yang berbeda,

    sehingga perlu dilakukan pemilihan algoritma clustering yang paling tepat

    untuk document clustering. Perbandingan kinerja algoritma untuk document

    clustering sudah pernah dilakukan, antara lain oleh Mendes & Sacks (2003)

    yang menggunakan algoritma H-FCM untuk document clustering dan

    membandingkannya dengan algoritma K-Means. Hasilnya algoritma H-FCM

    memiliki kinerja lebih baik dibandingkan algoritma K-Means (bukan fuzzy).

    Penelitian ini bertujuan untuk mengembangkan penelitian Mendes &

    Sacks (2003) dengan membandingkan kinerja algoritma H-FCM dengan dua

    algoritma fuzzy clustering lainnya,. Algoritma FCM dipilih karena FCM

    merupakan algoritma fuzzy clustering yang paling populer, sedangkan

    algoritma FSC dipilih karena belum pernah diteliti penggunaanya untuk

    document clustering. Penelitian ini juga akan membuat prototipe sistem temu-

    kembali informasi yang menggunakan satu algoritma clustering terbaik di

    antara algoritma tersebut.

    B. Tujuan dan Manfaat

    Penelitian ini bertujuan untuk (1) melakukan evaluasi kecocokan

    penggunaan algoritma fuzzy clustering FCM, H-FCM dan FSC pada dokumen

    dari situs Internet (2) melakukan evaluasi kecocokan formula representasi

    dokumen Tf, Tf-Idf dan Salton pada dokumen dari situs Internet (3)

  • 5

    mengembangkan prototipe sistem temu-kembali informasi (dokumen) yang

    dibangun dengan menggunakan satu algoritma yang terbaik hasil evaluasi.

    Penelitian ini diharapkan dapat bermanfaat sebagai salah satu model

    implementasi sistem algoritma fuzzy clustering dalam temu kembali informasi

    berbahasa Indonesia.

    C. Ruang Lingkup

    Penelitian ini memiliki ruang lingkup sebagai berikut :

    1 Algoritma clustering yang diuji adalah : Fuzzy C-Means Clustering

    (FCM), Hyperspherical Fuzzy C-Means Clustering (H-FCM) dan

    algoritma Fuzzy Subtractive Clustering (FSC) .

    2 Bahan atau data yang digunakan adalah artikel dokumen yang diperoleh

    dari situs Internet.

    3 Implementasi algoritma pada proses evaluasi dilakukan dengan Matlab 7.1

    4 Prototipe sistem dikembangkan dengan menggunakan algoritma clustering

    terpilih

    5 Prototipe sistem dibangun menggunakan bahasa PHP 5.0, basisdata

    MySQL versi 5.0.18 dan web server Apache versi 2.2.0.