bab i 2007air
DESCRIPTION
materi SPITRANSCRIPT
-
1
1. PENDAHULUAN
A. Latar Belakang
Perkembangan teknologi informasi, khususnya teknologi Internet
sebagai wadah untuk dapat dengan mudah menyebarkan informasi secara
mudah dan gratis, mengakibatkan informasi berlimpah. Melimpahnya
informasi di satu sisi semakin memudahkan kita untuk mengakses informasi.
Namun di sisi lain, banyaknya informasi dapat menimbulkan permasalahan
pada pencarian atau penelusuran dan pengorganisasian informasi. Jumlah dan
laju pertambahan informasi yang dihasilkan saat ini telah melebihi
kemampuan manusia untuk melakukan organisasi, menelusuri dan
memodifikasi informasi tanpa bantuan sistem yang otomatis (Taylor, 1999).
Untuk memudahkan penelusuran informasi diperlukan mesin pencari.
Mesin pencari menerima input query atau kata kunci dari pengguna dan
menampilkan daftar informasi atau dokumen yang diperoleh (pada mesin
pencari Internet, hasil pencarian terdiri dari link menunjuk alamat Internet
yang menyimpan dokumen).
Pada saat ini sudah banyak mesin pencari informasi pada Internet yang
dapat digunakan secara cuma-cuma, antara lain : google (www.google.com),
yahoo (www.yahoo.com) dan altavista (www.altavista.com). Ketika
menggunakan mesin pencari, pengguna sering tidak memperoleh hasil yang
optimal (sesuai dengan keinginan), karena pengguna menghadapi beberapa
kendala dalam memasukkan kata kunci, antara lain (Muresan, 2002):
1. Kesalahan dalam pengetikan atau dalam ejaan kata
-
2
2. Terbatasnya perbendaharaan kata yang dimiliki pengguna (terutama untuk
istilah pada domain pengetahuan yang memiliki terminologi-terminologi
tertentu)
3. Kurang memahami cara penggunaan sintaks bahasa query, seperti
Operator Boolean
4. Kebanyakan pencarian hanya menggunakan kata kunci yang sedikit
sehingga mengurangi daya jelajah pada ruang informasi
5. Kata kunci yang digunakan sedikit dan terlalu luas atau memiliki makna
ganda (ambigue) sehingga hasil pencarian yang didapat banyak namun
kurang atau tidak relevan sama sekali
Kesalahan memasukkan kata kunci dapat menyebabkan hasil tidak ada
atau terlalu banyak. Mesin pencari kebanyakan menggunakan teknik
representasi peringkat dengan menampilkan seluruh link menuju halaman
hasil yang dibagi perhalaman. Masalah pada teknik representasi peringkat
muncul bila hasil pencarian yang diperoleh terlalu banyak. Misalkan kita cari
kata java untuk pulau jawa dengan menggunakan google (www.google.co.id),
akan diperoleh hasil sebanyak 235 juta link ke alamat yang mengandung kata
java dan baru pada halaman ke-3 (link yang ke-31) kita bisa menemukan link
yang mempunyai keterangan tentang pulau java (Gambar 1.1).
Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan
suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan
dokumen hasil query yang memiliki kemiripan, misalkan dokumen-dokumen
yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau
cluster (Borodavkina, 2000).
-
3
Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)
Pengelompokan dokumen telah banyak diaplikasikan pada sistem temu-
kembali informasi untuk meningkatkan efektifitas pencarian, antara lain
(Horng et. al., 2005), (Haruechaiyasak & Chen, 2002) dan (Mendes & Sacks,
2003). Pada aplikasi komersial, dokumen clustering antara lain telah
digunakan oleh mesin pencari Vivisimo (www.vivisimo.com). Ketika
digunakan, Vivisimo menghasilkan judul dan abstrak dokumen yang
ditemukan. Kemudian menggunakan judul dan abstrak tersebut sebagai bahan
pengelompokan (bukan keseluruhan dokumen). Vivisimo menggunakan
algoritma Hierarchical Fuzzy Clustering.
Algoritma Hierarchical Fuzzy Clustering merupakan salah satu
algoritma algoritma clustering. Algoritma clustering lainnya antara lain K-
Means, Buckshot, Fuzzy C-Means, Hyperspherical Fuzzy c-Means, -
Insentive Fuzzy C-Means (-FCM), Competitive Clustering by Learning
-
4
(CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering
(FSC).
Algoritma tersebut masing-masing memiliki karakter yang berbeda,
sehingga perlu dilakukan pemilihan algoritma clustering yang paling tepat
untuk document clustering. Perbandingan kinerja algoritma untuk document
clustering sudah pernah dilakukan, antara lain oleh Mendes & Sacks (2003)
yang menggunakan algoritma H-FCM untuk document clustering dan
membandingkannya dengan algoritma K-Means. Hasilnya algoritma H-FCM
memiliki kinerja lebih baik dibandingkan algoritma K-Means (bukan fuzzy).
Penelitian ini bertujuan untuk mengembangkan penelitian Mendes &
Sacks (2003) dengan membandingkan kinerja algoritma H-FCM dengan dua
algoritma fuzzy clustering lainnya,. Algoritma FCM dipilih karena FCM
merupakan algoritma fuzzy clustering yang paling populer, sedangkan
algoritma FSC dipilih karena belum pernah diteliti penggunaanya untuk
document clustering. Penelitian ini juga akan membuat prototipe sistem temu-
kembali informasi yang menggunakan satu algoritma clustering terbaik di
antara algoritma tersebut.
B. Tujuan dan Manfaat
Penelitian ini bertujuan untuk (1) melakukan evaluasi kecocokan
penggunaan algoritma fuzzy clustering FCM, H-FCM dan FSC pada dokumen
dari situs Internet (2) melakukan evaluasi kecocokan formula representasi
dokumen Tf, Tf-Idf dan Salton pada dokumen dari situs Internet (3)
-
5
mengembangkan prototipe sistem temu-kembali informasi (dokumen) yang
dibangun dengan menggunakan satu algoritma yang terbaik hasil evaluasi.
Penelitian ini diharapkan dapat bermanfaat sebagai salah satu model
implementasi sistem algoritma fuzzy clustering dalam temu kembali informasi
berbahasa Indonesia.
C. Ruang Lingkup
Penelitian ini memiliki ruang lingkup sebagai berikut :
1 Algoritma clustering yang diuji adalah : Fuzzy C-Means Clustering
(FCM), Hyperspherical Fuzzy C-Means Clustering (H-FCM) dan
algoritma Fuzzy Subtractive Clustering (FSC) .
2 Bahan atau data yang digunakan adalah artikel dokumen yang diperoleh
dari situs Internet.
3 Implementasi algoritma pada proses evaluasi dilakukan dengan Matlab 7.1
4 Prototipe sistem dikembangkan dengan menggunakan algoritma clustering
terpilih
5 Prototipe sistem dibangun menggunakan bahasa PHP 5.0, basisdata
MySQL versi 5.0.18 dan web server Apache versi 2.2.0.