bab i 2007air

1

1. PENDAHULUAN

A. Latar Belakang

Perkembangan teknologi informasi, khususnya teknologi Internet

sebagai wadah untuk dapat dengan mudah menyebarkan informasi secara

mudah dan gratis, mengakibatkan informasi berlimpah. Melimpahnya

informasi di satu sisi semakin memudahkan kita untuk mengakses informasi.

Namun di sisi lain, banyaknya informasi dapat menimbulkan permasalahan

pada pencarian atau penelusuran dan pengorganisasian informasi. Jumlah dan

laju pertambahan informasi yang dihasilkan saat ini telah melebihi

kemampuan manusia untuk melakukan organisasi, menelusuri dan

memodifikasi informasi tanpa bantuan sistem yang otomatis (Taylor, 1999).

Untuk memudahkan penelusuran informasi diperlukan mesin pencari.

Mesin pencari menerima input query atau kata kunci dari pengguna dan

menampilkan daftar informasi atau dokumen yang diperoleh (pada mesin

pencari Internet, hasil pencarian terdiri dari link menunjuk alamat Internet

yang menyimpan dokumen).

Pada saat ini sudah banyak mesin pencari informasi pada Internet yang

dapat digunakan secara cuma-cuma, antara lain : google (www.google.com),

yahoo (www.yahoo.com) dan altavista (www.altavista.com). Ketika

menggunakan mesin pencari, pengguna sering tidak memperoleh hasil yang

optimal (sesuai dengan keinginan), karena pengguna menghadapi beberapa

kendala dalam memasukkan kata kunci, antara lain (Muresan, 2002):

1. Kesalahan dalam pengetikan atau dalam ejaan kata

2

2. Terbatasnya perbendaharaan kata yang dimiliki pengguna (terutama untuk

istilah pada domain pengetahuan yang memiliki terminologi-terminologi

tertentu)

3. Kurang memahami cara penggunaan sintaks bahasa query, seperti

Operator Boolean

4. Kebanyakan pencarian hanya menggunakan kata kunci yang sedikit

sehingga mengurangi daya jelajah pada ruang informasi

5. Kata kunci yang digunakan sedikit dan terlalu luas atau memiliki makna

ganda (ambigue) sehingga hasil pencarian yang didapat banyak namun

kurang atau tidak relevan sama sekali

Kesalahan memasukkan kata kunci dapat menyebabkan hasil tidak ada

atau terlalu banyak. Mesin pencari kebanyakan menggunakan teknik

representasi peringkat dengan menampilkan seluruh link menuju halaman

hasil yang dibagi perhalaman. Masalah pada teknik representasi peringkat

muncul bila hasil pencarian yang diperoleh terlalu banyak. Misalkan kita cari

kata java untuk pulau jawa dengan menggunakan google (www.google.co.id),

akan diperoleh hasil sebanyak 235 juta link ke alamat yang mengandung kata

java dan baru pada halaman ke-3 (link yang ke-31) kita bisa menemukan link

yang mempunyai keterangan tentang pulau java (Gambar 1.1).

Untuk membantu pengguna dalam mengatasi masalah ini, perlu dipikirkan

suatu teknik representasi lain. Salah satu cara adalah dengan mengelompokkan

dokumen hasil query yang memiliki kemiripan, misalkan dokumen-dokumen

yang memiliki kesamaan subyek dapat dimasukkan dalam satu kelompok atau

cluster (Borodavkina, 2000).

3

Gambar 1.1 Contoh halaman hasil pencarian Google (www.google.com)

Pengelompokan dokumen telah banyak diaplikasikan pada sistem temu-

kembali informasi untuk meningkatkan efektifitas pencarian, antara lain

(Horng et. al., 2005), (Haruechaiyasak & Chen, 2002) dan (Mendes & Sacks,

2003). Pada aplikasi komersial, dokumen clustering antara lain telah

digunakan oleh mesin pencari Vivisimo (www.vivisimo.com). Ketika

digunakan, Vivisimo menghasilkan judul dan abstrak dokumen yang

ditemukan. Kemudian menggunakan judul dan abstrak tersebut sebagai bahan

pengelompokan (bukan keseluruhan dokumen). Vivisimo menggunakan

algoritma Hierarchical Fuzzy Clustering.

Algoritma Hierarchical Fuzzy Clustering merupakan salah satu

algoritma algoritma clustering. Algoritma clustering lainnya antara lain K-

Means, Buckshot, Fuzzy C-Means, Hyperspherical Fuzzy c-Means, -

Insentive Fuzzy C-Means (-FCM), Competitive Clustering by Learning

4

(CCL), Fuzzy CCL (FCCL) serta algoritma Fuzzy Subtractive Clustering

(FSC).

Algoritma tersebut masing-masing memiliki karakter yang berbeda,

sehingga perlu dilakukan pemilihan algoritma clustering yang paling tepat

untuk document clustering. Perbandingan kinerja algoritma untuk document

clustering sudah pernah dilakukan, antara lain oleh Mendes & Sacks (2003)

yang menggunakan algoritma H-FCM untuk document clustering dan

membandingkannya dengan algoritma K-Means. Hasilnya algoritma H-FCM

memiliki kinerja lebih baik dibandingkan algoritma K-Means (bukan fuzzy).

Penelitian ini bertujuan untuk mengembangkan penelitian Mendes &

Sacks (2003) dengan membandingkan kinerja algoritma H-FCM dengan dua

algoritma fuzzy clustering lainnya,. Algoritma FCM dipilih karena FCM

merupakan algoritma fuzzy clustering yang paling populer, sedangkan

algoritma FSC dipilih karena belum pernah diteliti penggunaanya untuk

document clustering. Penelitian ini juga akan membuat prototipe sistem temu-

kembali informasi yang menggunakan satu algoritma clustering terbaik di

antara algoritma tersebut.

B. Tujuan dan Manfaat

Penelitian ini bertujuan untuk (1) melakukan evaluasi kecocokan

penggunaan algoritma fuzzy clustering FCM, H-FCM dan FSC pada dokumen

dari situs Internet (2) melakukan evaluasi kecocokan formula representasi

dokumen Tf, Tf-Idf dan Salton pada dokumen dari situs Internet (3)

5

mengembangkan prototipe sistem temu-kembali informasi (dokumen) yang

dibangun dengan menggunakan satu algoritma yang terbaik hasil evaluasi.

Penelitian ini diharapkan dapat bermanfaat sebagai salah satu model

implementasi sistem algoritma fuzzy clustering dalam temu kembali informasi

berbahasa Indonesia.

C. Ruang Lingkup

Penelitian ini memiliki ruang lingkup sebagai berikut :

1 Algoritma clustering yang diuji adalah : Fuzzy C-Means Clustering

(FCM), Hyperspherical Fuzzy C-Means Clustering (H-FCM) dan

algoritma Fuzzy Subtractive Clustering (FSC) .

2 Bahan atau data yang digunakan adalah artikel dokumen yang diperoleh

dari situs Internet.

3 Implementasi algoritma pada proses evaluasi dilakukan dengan Matlab 7.1

4 Prototipe sistem dikembangkan dengan menggunakan algoritma clustering

terpilih

5 Prototipe sistem dibangun menggunakan bahasa PHP 5.0, basisdata

MySQL versi 5.0.18 dan web server Apache versi 2.2.0.

bab i 2007air

Documents