implementasi metode generalized vector space model pada · pdf filesemoga makalah sederhana...
Post on 06-Feb-2018
271 Views
Preview:
TRANSCRIPT
Tugas Makalah
Sistem Temu Kembali Informasi (STKI)
TI029306
Implementasi Metode Generalized Vector Space Model Pada
Information Retrieval System
Oleh :
I PUTU ANDREAS WARANU
1204505042
Dosen :
I Putu Agus Eka Pratama, ST MT
Jurusan Teknologi Informasi
Fakultas Teknik Universitas Udayana
2015
i
KATA PENGANTAR
Puji syukur kami panjatkan kehadirat Tuhan Yang Maha Esa karena
dengan rahmat, karunia, dan berkat-Nya penulis dapat menyelesaikan makalah
tentang Implementasi Metode Generalized Vector Space Model Pada
Information Retrieval System ini dengan baik meskipun banyak kekurangan
didalamnya. Dan juga kami berterima kasih pada Bapak I Putu Agus Eka Pratama,
ST MT selaku Dosen mata kuliah Sistem Temu Kembali Informasi di jurusan
Teknologi Informasi Universitas Udayana yang telah memberikan tugas ini.
Penulis sangat berharap makalah ini dapat berguna dalam rangka
menambah wawasan serta pengetahuan kita mengenai Sistem temu kembali
informasi dan model pencarian dalam search engine seperti Generalized Vector
Space Model. Kami juga menyadari sepenuhnya bahwa di dalam makalah ini
terdapat kekurangan dan jauh dari kata sempurna. Oleh sebab itu, penulis
berharap adanya kritik, saran dan usulan demi perbaikan makalah yang telah kami
buat di masa yang akan datang, mengingat tidak ada sesuatu yang sempurna tanpa
saran yang membangun.
Semoga makalah sederhana ini dapat dipahami bagi siapapun yang
membacanya. Sekiranya laporan yang telah disusun ini dapat berguna bagi penulis
sendiri maupun orang yang membacanya. Sebelumnya kami mohon maaf apabila
terdapat kesalahan kata-kata yang kurang berkenan dan kami memohon kritik dan
saran yang membangun demi perbaikan di masa depan.
Jimbaran, Mei 2015
Penyusun
ii
Daftar Isi
Kata Pengantar ................................................................................... i
Daftar Isi ................................................................................... ii
Abstrak ................................................................................... iii
Bab I Pendahuluan
1.1 Latar Belakang .................................................................................. 1
1.2 Rumusan Masalah .................................................................................. 2
1.3 Solusi Yang Ditawarkan ............................................................................ 2
Bab II Landasan Teori Dan Desain Solusi
2.1 Landasan Teori ........................................................................... 3
2.1.1 Information Retrieval .......................................................................... 3
2.1.2 Generalized Vector Space Model ............................................................ 5
2.1.3 Java Class Library ........................................................................... 7
2.2 Desain Solusi ........................................................................... 7
2.2.1 Gambaran Umum ........................................................................... 8
2.2.2 Use Case Diagram ............................................................................ 10
2.2.3 Sequence Diagram ............................................................................ 11
Bab III Analisa Dan Kesimpulan
3.1 Analisa ........................................................................................... 13
3.2 Kesimpulan ........................................................................................... 16
Daftar Pustaka ............................................................................................ 17
iii
ABSTRAK
Dengan pesatnya perkembangan dalam penggunaan teknologi komputer
baik di perusahaan maupun di bidang pendidikan, maka semakin banyak pula
dokumen-dokumen yang berbentuk digital yang dihasilkan. Untuk mencari
dokumen-dokumen tersebut dibutuhkan waktu yang relatif lama apabila
pencariannya dilakukan secara manual. Information Retrieval (IR) adalah sebuah
metode untuk mengambil data terstruktur yang tersimpan dalam koleksi dokumen,
kemudian menyediakan informasi yang diperlukan. Tujuan dari sistem IR adalah
untuk mengambil dan menampilkan dokumen yang relevan dengan input
pengguna (query). IR memerlukan sebuah metode untuk dapat mencari dokumen-
dokumen tersebut dengan waktu yang cepat. Generalized Vector Space Model
(GVSM) adalah salah satu dari model sistem IR yang termasuk dalam model
aljabar. Query yang dimasukkan oleh pengguna akan diproses terlebih dahulu.
Pengolahan kata meliputi tokenizing, stop word removal, dan stemming. Dengan
mengimplementasikan GVSM pada sistem IR ini diharapkan dapat melakukan
pencarian dokumen seperti pdf (*.pdf) dan Ms Word Doc (*.doc & *.docx.) yang
relevan dengan query. Hasil pencarian ini disusun berdasarkan nilai kesamaan
GVSM yang tertinggi. Dengan menggunakan Generalized Vector Space Model,
hasil pencarian dokumen menjadi lebih relevan berdasarkan nilai perbandingan
kemiripan.
Kata kunci :
Generalized Vector Space Model, Query, Information Retrieval
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Information Retrieval (IR) merupakan suatu metode untuk menemukan
kembali data tidak terstruktur yang tersimpan pada sekumpulan dokumen,
kemudian menyediakan informasi mengenai subyek yang dibutuhkan. Tujuan dari
sistem IR ini adalah memenuhi kebutuhan informasi pengguna dengan
mendapatkan semua dokumen yang relevan dengan kebutuhan pengguna dan pada
waktu yang sama mendapatkan sesedikit mungkin dokumen yang tak relevan.
Pengguna dapat menemukan informasi yang relevan dengan membaca seluruh
dokumen yang ada pada tempat penyimpanannya, menyimpan dokumen-dokumen
yang relevan, membuang dokumen yang tidak relevan, dan mengurutkan
dokumen-dokumen yang sesuai dengan keperluannya. Hal tersebut merupakan
sistem IR yang sempurna, tetapi solusi ini tidak praktis dan efisien. Dikarenakan
pengguna tidak memiliki banyak waktu untuk membaca seluruh dokumen satu per
satu dari sekian banyak dokumen yang ada. Terdapat beberapa metode dalam
sistem IR dokumen diantaranya adalah metode Gravitation Based Model, Latent
Semantic Model, Vector Space Model, dan Generalized Vector Space Model.
Model Information Retrieval yang baik memungkinkan pengguna
menentukan secara cepat dan akurat apakah isi dari dokumen yang diterima
memenuhi kebutuhannya. Generalized Vector Space Model (GVSM) merupakan
salah satu model sistem Information Retrieval (IR) yang termasuk dalam
Algebraic Model yang merupakan perluasan dari Vector Space Model (VSM),
proses yang terjadi pada GVSM terbagi menjadi dua yaitu tahapan preprocessing
yang terdiri dari reading text (*.pdf,*.doc,*.docx), tokenizing, filtration, stemming
dan parse query, sedangkan proses yang kedua adalah menghitung relevansi
antara kumpulan dokumen yang telah di-preprocess dengan query yang
diinginkan pengguna. Banyaknya kemunculan kata dalam kumpulan dokumen
yang sesuai dengan query akan dihitung. Query yang dimasukan oleh pengguna
dan dokumen diterjemahkan menjadi vektor-vektor kemudian vektor-vektor
2
tersebut dikenakan operasi perkalian titik dan hasilnya menjadi acuan dalam
menentukan relevansi masukan pengguna (query) terhadap kumpulan dokumen.
Berdasarkan permasalahan tersebut metode Algoritma Generalized Vector Space
Model digunakan pada aplikasi Information Retrieval untuk membangun sebuah
aplikasi pencarian informasi pada kumpulan dokumen berdasarkan query yang
dimasukan oleh pengguna.
1.2 Rumusan Masalah
Berdasarkan uraian latar belakang masalah yang dikemukakan, maka
dapat dirumuskan beberapa masalah sebagai berikut.
1. Bagaimana sistem dapat membaca dokumen berformat *.pdf,*.doc dan
*.docx.
2. Bagaimana tahapan preprocessing dapat bekerja pada sistem.
3. Bagaimana faktor normalisasi digunakan untuk menormalkan vektor
dokumen sehingga proses retrieval tidak terpengaruh oleh panjang dari
suatu dokumen.
4. Bagaimana memperoleh dokumen yang relevan dan sudah terurut sesuai
dengan query yang dimasukan pengguna dengan menggunakan metode
generalized vector space model.
5. Bagaimana proses multi thread dapat bekerja pada proses stemming untuk
mempercepat pencarian dokumen.
1.3 Solusi Yang Ditawarkan
Berdasarkan uraian latar belakang dan rumusan masalah diatas, solusi
yang ditawarkan untuk menciptakan sistem IR yang praktis dan efisien yaitu
dengan mengimplementasikan metode Algoritma Generalized Vector Space
Model yang dapat digunakan pada aplikasi Information Retrieval untuk
membangun sebuah aplikasi pencarian informasi pada kumpulan dokumen
berdasarkan query yang dimasukan oleh pengguna. Sehingga memudahkan user
dalam melakukan pencarian data yang efektif dan efisien.
3
BAB II
LANDASAN TEORI DAN DESAIN SOLUSI
2.1 Landasan Teori
Pada bab ini, disajikan sejumlah landasan teori yang mendasari solusi
y
top related