penerapan vector space model untuk pencarian dokumen

7
IMPLEMENTASI VECTOR SPACE MODEL UNTUK PENCARIAN DOKUMEN Abdul Azis Abdillah 1 , Indra Bayu Muktyas 2 Program Studi Pendidikan Matematika, STKIP Surya, Tangerang, Banten [email protected] 1 , [email protected] 2 ABSTRAK Memiliki banyak dokumen terkadang sangat merepotkan, terutama disaat ingin mencari dokumen yang dibutuhkan secara cepat dan tepat. Salah satu cara untuk mencari dokumen dari tumpukan dokumen adalah dengan me-ranking. Ranking merupakan salah satu cabang ilmu dari information retrieval. Information retrieval yaitu menemukan materi (biasanya dokumen) dari sebuah kumpulan data yang tidak terstruktur (biasanya teks) untuk memenuhi kebutuhan informasi dari koleksi yang besar (Manning dkk, 2008). salah satu metode pencarian dokumen adalah dengan menggunakan Vector Space Model (VSM). VSM menggunakan konsep yang terdapat pada aljabar linear yaitu ruang vektor. Berdasarkan konsep yang digunakan tersebut, dikembangkan pemodelan dokumen untuk melakukan pencarian terhadap dokumen yang dibutuhkan. Representasi vektor kolom dimanfaatkan dalam pengkonversian dokumen input. Konsep lain yang digunakan adalah dengan mengetahui kedekatan antara dua buah vektor, yaitu dengan cara menghitung besarnya sudut yang terbentuk antara dua vektor dan kemudian diurutkan dari data yang memiliki besar sudut yang terkecil hingga yang terbesar yang menandakan urutan data hasil ranking dari yang paling relevan hingga tidak relevan. Pada paper ini dijelaskan tentang pencarian dokumen dengan menggunakan VSM dan implementasinya pada 50 judul buku yang terdapat pada database perpustakaan STKIP Surya. Kata kunci : ranking, information retrieval, Vector Space Models. ABSTRACT we have many documents are sometime very inconvenient, especially when we want to search for document that we need quickly and accurately. One way to search for document from the pile of documents is with ranking. Ranking is one of science in information retrieval. Information retrieval is finding material (especially documents) from unstructured dataset (especially text) to fulfill information needs from large collection (Manning et al, 2008). Vector Space Model (VSM) is one of method to search document that uses ranking. VSM uses vector space concept in linear algebra. Based on the concepts used, developed modeling documents to conduct a search of the necessary documents. Column vector representation used in the conversion of input document. Another concept that is used to determine the proximity between two vectors, by calculating the angle formed between the two vectors and then sorted from the data that has a large measure of angle the smallest to the largest. That point indicates the results of ranking from relevant document to irrelevant document. This paper described vector space model implementation in finding document using 50 books from STKIP Surya library database. Keywords : ranking, information retrieval, Vector Space Models. PENDAHULUAN Memiliki banyak dokumen terkadang sangat merepotkan, terutama disaat ingin mencari dokumen yang kita butuhkan secara cepat dan tepat. Pada tahun 2005, Yahoo! mengumumkan bahwa Search Engine Yahoo! telah mengindeks lebih dari 19.2 milyar dokumen (www.iht.com/articles/2005/08/15/business/we b.php ). Dokumen dengan jumlah yang sangat banyak tersebut, tentu memerlukan suatu mekanisme agar pengguna dapat melakukan pencarian atau mendapatkan kembali dokumen yang sesuai dengan kebutuhan secara cepat dan mudah. Tanpa hal tersebut, maka informasi yang terdapat dalam dokumen akan tanpa guna. Salah satu cara untuk mendapatkan kembali informasi yang terdapat dalam dokumen yang sesuai dengan kebutuhan pengguna adalah dengan melakukan Ranking. Ranking merupakan salah satu cabang ilmu dari information retrieval. Ranking merupakan bagian penting dari masalah pencarian informasi, seperti pengambilan dokumen, penyaringan informasi, penempatan iklan online, dan lain-lain. Salah satu aplikasi ranking terdapat pada search engine, contohnya

Upload: abdillah-azul

Post on 17-Jan-2016

26 views

Category:

Documents


0 download

DESCRIPTION

we have many documents are sometime very inconvenient, especially when we want to search for document that we need quickly and accurately. One way to search for document from the pile of documents is with ranking. Ranking is one of science in information retrieval. Information retrieval is finding material (especially documents) from unstructured dataset (especially text) to fulfill information needs from large collection (Manning et al, 2008). Vector Space Model (VSM) is one of method to search document that uses ranking. VSM uses vector space concept in linear algebra. Based on the concepts used, developed modeling documents to conduct a search of the necessary documents. Column vector representation used in the conversion of input document. Another concept that is used to determine the proximity between two vectors, by calculating the angle formed between the two vectors and then sorted from the data that has a large measure of angle the smallest to the largest. That point indicates the results of ranking from relevant document to irrelevant document. This paper described vector space model implementation in finding document using 50 books from STKIP Surya library database.

TRANSCRIPT

Page 1: Penerapan Vector Space Model untuk Pencarian Dokumen

IMPLEMENTASI VECTOR SPACE MODEL UNTUK PENCARIAN DOKUMEN

Abdul Azis Abdillah1, Indra Bayu Muktyas2

Program Studi Pendidikan Matematika, STKIP Surya, Tangerang, Banten [email protected], [email protected]

ABSTRAK

Memiliki banyak dokumen terkadang sangat merepotkan, terutama disaat ingin mencari dokumen yang dibutuhkan secara cepat dan tepat. Salah satu cara untuk mencari dokumen dari tumpukan dokumen adalah dengan me-ranking. Ranking merupakan salah satu cabang ilmu dari information retrieval. Information retrieval yaitu menemukan materi (biasanya dokumen) dari sebuah kumpulan data yang tidak terstruktur (biasanya teks) untuk memenuhi kebutuhan informasi dari koleksi yang besar (Manning dkk, 2008). salah satu metode pencarian dokumen adalah dengan menggunakan Vector Space Model (VSM). VSM menggunakan konsep yang terdapat pada aljabar linear yaitu ruang vektor. Berdasarkan konsep yang digunakan tersebut, dikembangkan pemodelan dokumen untuk melakukan pencarian terhadap dokumen yang dibutuhkan. Representasi vektor kolom dimanfaatkan dalam pengkonversian dokumen input. Konsep lain yang digunakan adalah dengan mengetahui kedekatan antara dua buah vektor, yaitu dengan cara menghitung besarnya sudut yang terbentuk antara dua vektor dan kemudian diurutkan dari data yang memiliki besar sudut yang terkecil hingga yang terbesar yang menandakan urutan data hasil ranking dari yang paling relevan hingga tidak relevan. Pada paper ini dijelaskan tentang pencarian dokumen dengan menggunakan VSM dan implementasinya pada 50 judul buku yang terdapat pada database perpustakaan STKIP Surya.

Kata kunci : ranking, information retrieval, Vector Space Models.

ABSTRACT we have many documents are sometime very inconvenient, especially when we want to search for document that we need quickly and accurately. One way to search for document from the pile of documents is with ranking. Ranking is one of science in information retrieval. Information retrieval is finding material (especially documents) from unstructured dataset (especially text) to fulfill information needs from large collection (Manning et al, 2008). Vector Space Model (VSM) is one of method to search document that uses ranking. VSM uses vector space concept in linear algebra. Based on the concepts used, developed modeling documents to conduct a search of the necessary documents. Column vector representation used in the conversion of input document. Another concept that is used to determine the proximity between two vectors, by calculating the angle formed between the two vectors and then sorted from the data that has a large measure of angle the smallest to the largest. That point indicates the results of ranking from relevant document to irrelevant document. This paper described vector space model implementation in finding document using 50 books from STKIP Surya library database.

Keywords : ranking, information retrieval, Vector Space Models.

PENDAHULUAN

Memiliki banyak dokumen terkadang sangat merepotkan, terutama disaat ingin mencari dokumen yang kita butuhkan secara cepat dan tepat. Pada tahun 2005, Yahoo! mengumumkan bahwa Search Engine Yahoo! telah mengindeks lebih dari 19.2 milyar dokumen (www.iht.com/articles/2005/08/15/business/web.php). Dokumen dengan jumlah yang sangat banyak tersebut, tentu memerlukan suatu mekanisme agar pengguna dapat melakukan pencarian atau mendapatkan kembali dokumen

yang sesuai dengan kebutuhan secara cepat dan mudah. Tanpa hal tersebut, maka informasi yang terdapat dalam dokumen akan tanpa guna.

Salah satu cara untuk mendapatkan kembali informasi yang terdapat dalam dokumen yang sesuai dengan kebutuhan pengguna adalah dengan melakukan Ranking. Ranking merupakan salah satu cabang ilmu dari information retrieval. Ranking merupakan bagian penting dari masalah pencarian informasi, seperti pengambilan dokumen, penyaringan informasi, penempatan iklan online, dan lain-lain. Salah satu aplikasi ranking terdapat pada search engine, contohnya

Page 2: Penerapan Vector Space Model untuk Pencarian Dokumen

Abdul Azis Abdillah

2 Prodi Pendidikan Matematika, STKIP Surya, Tangerang, Banten

pada Google dan Yahoo! yang sudah sangat familiar di masyarakat.

salah satu metode untuk me-ranking dokumen adalah dengan menggunakan Vector Space Model (VSM). VSM menggunakan konsep yang terdapat pada aljabar linear yaitu ruang vektor. Berdasarkan konsep yang digunakan tersebut, dikembangkan pemodelan dokumen untuk melakukan pencarian terhadap dokumen yang dibutuhkan. Representasi vektor kolom dimanfaatkan dalam pengkonversian dokumen input. Konsep lain yang digunakan adalah dengan mengetahui kedekatan antara dua buah vektor, dengan cara menghitung besarnya sudut yang terbentuk antara dua vektor dan kemudian diurutkan dari data yang memiliki besar sudut yang terkecil hingga yang terbesar yang menandakan urutan data hasil ranking dari yang paling relevan hingga yang tidak relevan. Pada paper ini akan dibahas implementasi Vector Space Model untuk pencarian dokumen.

Gambar 1. Diagram alur Information Retrieval

LANDASAN TEORI

1. Information Retrieval

Information Retrieval (IR) adalah menemukan materi (biasanya dokumen) dari sebuah kumpulan data yang tidak terstruktur (biasanya teks) untuk memenuhi kebutuhan informasi dari koleksi yang besar (Manning dkk, 2008). Tujuan IR adalah untuk memenuhi kebutuhan informasi pengguna dengan me-retrieve semua dokumen yang relevan, dan pada waktu yang sama me-retrieve sesedikit dokumen yang tak relevan. Secara umum diagram alur information retrieval dapat dilihat pada gambar 1.

2. Vector Space Model

Vector Space Model (VSM) mempresentasikan setiap dokumen yang terdapat dalam database dan query ke dalam vektor multidimensi. Dimensi dari vektor berkorespondensi dengan jumlah setiap term dalam database dan kumpulan term tersebut membentuk suatu ruang vektor.

Pada VSM setiap term, 푖 , di dalam dokumen maupun query, 푗, diberikan suatu bobot (weight) yang bernilai real 푤 . Dokumen dan query diekspresikan sebagai vektor 푡 -dimensi 푑 = (푤 ,푤 , … ,푤 ) dan diasumsikan terdapat 푛 dokumen di dalam database, yaitu 푗 = 1,2, … ,푛. Contoh dari VSM dengan tiga dimensi untuk dua dokumen 퐷 dan 퐷 , satu query 푄, dan tiga term 푇 ,푇 , dan 푇 dapat dilihat pada gambar 2.

Gambar 2. Representasi dokumen dan query pada

ruang vektor

Selain itu pada VSM, database dari semua dokumen direpresentasikan oleh matriks term-document (atau matriks term-frequency). Dimana setiap sel pada matriks berkorespondensi dengan bobot yang diberikan dari suatu term dalam dokumen yang ditentukan. Nilai nol berarti bahwa term tidak terdapat dalam dokumen.

Inverse Document Frequency (IDF). IDF didefinisikan sebagai

푖푑푓 = log (푛푑푓

)

dimana 푑푓 merupakan frekuensi dokumen dari term 푖 atau sama dengan jumlah dokumen yang mengandung term 푖 dan 푛 adalah total dokumen di dalam database. Log digunakan untuk memperkecil pengaruh relative untuk 푡푓 .

Bobot 푤 dihitung menggunakan ukuran tf-idf (term frequency-inversed document frequency) didefinisikan sebagai

푤 = 푡푓 × 푖푑푓

Sumber : Krzysztof J. Cios, 2007

Sumber : C.J. van Rijsbergen, 1979

Page 3: Penerapan Vector Space Model untuk Pencarian Dokumen

Implementasi Vector Space Model untuk Pencarian Dokumen

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika 2013 3

3. Similarity

Salah satu ukuran kemiripan teks yang popular digunakan pada VSM untuk pencarian dokumen adalah cosine similarity (Krzysztof J. Cios, dkk. 2007). Konsep dari cosine similarity yaitu menghitung nilai cosinus sudut antara dua vektor yaitu jika diberikan dokumen yang dipresentasikan oleh vektor 푑 dan query 푞, dan 푡 term yang diekstrak dari database, maka nilai cosine similarity didefinisikan sebagai

푠푖푚푖푙푎푟푖푡푦 풅풋, 풒 =풅풋 ⋅ 풒 풅풋 ⋅ |풒|

atau dapat ditulis sebagai

푠푖푚푖푙푎푟푖푡푦 풅풋,풒 =∑ 푤 ⋅ 푤풕풊 ퟏ

∑ 푤풕풊 ퟏ ⋅ ∑ 푤풕

풊 ퟏ

dimana representasi grafis sudut antara dokumen dan query dapat dilihat pada gambar 3.

Gambar 3. Representasi grafis sudut antara

dokumen dan query Secara geometris, sudut yang merentang

antara vektor 푑 dan query 푞 dapat diukur. Semakin kecil sudut diantara kedua vektor 푑 dan query 푞 , maka akan semakin tinggi derajat kesamaan. Cosinus dari sudut tersebut merupakan koefisien yang dapat mewakili kemiripan antara vektor 푑 dan query 푞.

EKSPERIMEN

1. Dataset

Dataset yang digunakan adalah kumpulan 50 judul buku yang terdapat pada database perpustakaan STKIP Surya. Dataset ini dapat dilihat pada tabel 10.

2. Software

Software yang digunakan adalah macro VBA yang terdapat pada Microsoft Excel dan OS Windows Vista Ultimate. 3. Hardware

Spesifikasi hardware yang digunakan pada eksperimen ini adalah Processor Intel Pentium(R) Dual-Core T4200 @ 2.0GHz 1.20 GHz, RAM 3.5 GB. 4. Implementasi

Pada implementasi ini ditampilkan 10 dokumen teratas berdasarkan hasil pencarian dokumen dengan 10 query berbeda. Untuk setiap query dilakukan pencarian dokumen dengan VSM tanpa pembobotan tf-idf dan VSM tf-idf dan kemudian dibandingkan hasil pencariannya. Tabel 1 menunjukkan daftar query yang digunakan pada percobaan.

Tabel 1. Daftar query yang digunakan

Query ID

Detail Query

Q1 Indonesia Q2 Filsafat Q3 Teknik teknologi Q4 Teknik Internet Q5 Internet Q6 Matematika Teknik Q7 Teknik Analisis Data Q8 Nasionalisme Indonesia Q9 Indonesia Mengajar Q10 Teknologi Indonesia

Tabel 2 menunjukkan hasil pencarian 10

dokumen teratas menggunakan query “Indonesia”. Sedangkan tabel 3 menunjukkan hasil pencarian 10 dokumen teratas menggunakan query “filsafat”. Pada VSM dan VSM tf-idf dokumen pertama dan dokumen kedua yang dimunculkan saat di input query “Indonesia” sama yaitu “ceritalah Indonesia” sebagai dokumen pertama dan “Indonesia/proses” sebagai dokumen ke dua, sedangkan untuk dokumen ke tiga dokumen yang dimunculkan berbeda. Dapat dilihat dari kedua dokumen teratas yang ditampilkan memiliki panjang dokumen yang paling pendek jika dibandingkan dengan dokumen lain hasil perangkingan.

Sumber : Krzysztof J. Cios, 2007

Page 4: Penerapan Vector Space Model untuk Pencarian Dokumen

Abdul Azis Abdillah

4 Prodi Pendidikan Matematika, STKIP Surya, Tangerang, Banten

Tabel 2. Hasil Pencarian Dokumen Menggunakan Query “indonesia”

Rank VSM VSM tf-idf

Doc. Id

Sim Doc. id

Sim

1 D2 0.707107 D2 0.209113 2 D3 0.707107 D3 0.209113 3 D4 0.57735 D5 0.180553 4 D5 0.57735 D19 0.163052 5 D6 0.57735 D45 0.153284 6 D7 0.57735 D49 0.150458 7 D8 0.5 D4 0.149508 8 D9 0.5 D6 0.149508 9 D11 0.5 D7 0.149508

10 D19 0.5 D9 0.136205

Tabel 3. Hasil Pencarian Dokumen Menggunakan Query “Filsafat”

Rank VSM VSM tf-idf

Doc. Id

Sim Doc. id

Sim

1 D24 0.866025 D24 0.515841 2 D25 0.755929 D25 0.466161 3 D26 0.707107 D26 0.328367 4 D27 0.57735 D27 0.296367 5 D28 0.57735 D28 0.271456 6 D29 0.5 D49 0.245171 7 D30 0.447214 D29 0.236578 8 D49 0.408248 D30 0.195586 9 D48 0.353553 D48 0.147371

10 D1 0 D1 0

Tabel 4 menunjukkan hasil pencarian 10 dokumen teratas menggunakan query “teknik teknologi”. Sedangkan tabel 5 menunjukkan hasil pencarian 10 dokumen teratas menggunakan query “teknik internet”. Pada VSM dokumen pertama yang muncul adalah “matematika teknik” dimana “matematika teknik” merupakan dokumen dengan panjang terpendek jika dibandingkan dengan dokumen yang lain hasil perangkingan. Sedangkan pada VSM tf-idf dokumen pertama yang dimunculkan jika menggunakan query “teknik teknologi” adalah “teknologi warung internet”, “matematika teknik” berada pada urutan ke empat.

Pada VSM dan VSM tf-idf sama-sama menampilkan dokumen “internet” pada urutan pertama saat diinput query “teknik internet”, pada pada VSM dokumen “internet sehat” berada pada urutan ke dua dan “matematika teknik” berada pada urutan ke tiga. Sedangkan VSM tf-idf dilanjutkan dengan dokumen “matematika teknik” pada urutan ke dua dan “teknik dasar autocad”

pada urutan ke tiga. Dokumen teratas yang ditampilkan memiliki panjang dokumen yang lebih pendek jika dibandingkan dengan dokumen yang lain hasil perangkingan. Tabel 4. Hasil Pencarian Dokumen Menggunakan

Query “teknik teknologi”

Rank VSM VSM tf-idf

Doc. Id Sim

Doc. id Sim

1 D46 0.5 D34 0.390351 2 D34 0.408248 D49 0.338462 3 D44 0.408248 D9 0.305483 4 D50 0.408248 D46 0.24154 5 D23 0.377964 D23 0.222077 6 D9 0.353553 D50 0.201658 7 D45 0.353553 D45 0.190325 8 D47 0.316228 D44 0.178207 9 D43 0.288675 D47 0.15852

10 D49 0.288675 D43 0.145957 Tabel 5. Hasil Pencarian Dokumen Menggunakan

Query “teknik internet”

Rank VSM VSM tf-idf

Doc. Id Sim

Doc. id Sim

1 D31 0.707107 D31 0.597577 2 D32 0.5 D46 0.323639 3 D46 0.5 D50 0.270202 4 D33 0.408248 D45 0.255017 5 D34 0.408248 D44 0.23878 6 D35 0.408248 D47 0.212401 7 D44 0.408248 D43 0.195568 8 D50 0.408248 D32 0.186651 9 D36 0.353553 D34 0.158988

10 D37 0.353553 D48 0.150125

Berdasarkan tabel 6, tabel 7, dan tabel 8 jika dipilih suatu query yang dimana query tersebut tepat ada pada database maka dokumen tersebut akan memiliki nilai similarity satu dan akan ditempatkan pada posisi teratas pada setiap pencarian dokumen.

Page 5: Penerapan Vector Space Model untuk Pencarian Dokumen

Implementasi Vector Space Model untuk Pencarian Dokumen

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika 2013 5

Tabel 6. Hasil Pencarian Dokumen Menggunakan Query “internet”

Rank VSM VSM tf-idf

Doc. Id

Sim Doc. id

Sim

1 D31 1 D31 1 2 D32 0.707107 D32 0.312346 3 D33 0.57735 D34 0.266054 4 D34 0.57735 D33 0.245987 5 D35 0.57735 D35 0.245987 6 D36 0.5 D38 0.216527 7 D37 0.5 D39 0.215398 8 D38 0.5 D40 0.196965 9 D39 0.5 D36 0.1865

10 D40 0.5 D37 0.1865 Tabel 7. Hasil Pencarian Dokumen Menggunakan

Query “matematika teknik”

Rank VSM VSM tf-idf

Doc. Id

Sim Doc. id

Sim

1 D46 1 D46 1 2 D44 0.408248 D50 0.159105 3 D50 0.408248 D45 0.150163 4 D45 0.353553 D44 0.140602 5 D47 0.316228 D47 0.12507 6 D43 0.288675 D43 0.115157 7 D48 0.25 D48 0.088399 8 D23 0.188982 D23 0.062545 9 D1 0 D1 0

10 D2 0 D2 0 Tabel 8. Hasil Pencarian Dokumen Menggunakan

Query “teknik analisis data”

Rank VSM VSM tf-idf

Doc. Id

Sim Doc. id

Sim

1 D44 1 D44 1 2 D46 0.408248 D46 0.142956 3 D50 0.333333 D50 0.119352 4 D45 0.288675 D45 0.112644 5 D47 0.258199 D47 0.09382 6 D43 0.235702 D43 0.086385 7 D48 0.204124 D48 0.066312 8 D23 0.154303 D23 0.046918 9 D1 0 D1 0

10 D2 0 D2 0

Tabel 9. Hasil Pencarian Dokumen Menggunakan Query “nasionalisme indonesia”

Rank VSM VSM tf-idf

Doc. Id

Sim Doc. id

Sim

1 D2 0.5 D17 0.257088 2 D3 0.5 D2 0.052545 3 D4 0.408248 D3 0.052545 4 D5 0.408248 D5 0.045369 5 D6 0.408248 D19 0.040971 6 D7 0.408248 D45 0.038517 7 D17 0.377964 D49 0.037807 8 D8 0.353553 D4 0.037568 9 D9 0.353553 D6 0.037568

10 D11 0.353553 D7 0.037568 Tabel 10. Hasil Pencarian Dokumen Menggunakan

Query “indonesia mengajar”

Rank VSM VSM tf-idf

Doc. Id

Sim Doc. id

Sim

1 D2 0.5 D1 0.318409 2 D3 0.5 D2 0.052545 3 D1 0.471405 D3 0.052545 4 D4 0.408248 D5 0.045369 5 D5 0.408248 D19 0.040971 6 D6 0.408248 D45 0.038517 7 D7 0.408248 D49 0.037807 8 D8 0.353553 D4 0.037568 9 D9 0.353553 D6 0.037568

10 D11 0.353553 D7 0.037568

Tabel 9 menunjukkan hasil pencarian 10 dokumen teratas menggunakan query “nasionalisme indonesia”, tabel 10 menunjukkan hasil pencarian 10 dokumen teratas menggunakan query “Indonesia mengajar”, dan tabel 11 menunjukkan hasil pencarian 10 dokumen teratas menggunakan query “teknologi informasi”. Pada VSM dokumen yang mengandung query “nasionalisme Indonesia” berada pada urutan ke tujuh, sedangkan pada VSM tf-idf berada pada urutan pertama. Pada VSM dokumen yang mengandung query “Indonesia mengajar” berada pada urutan ke tiga, sedangkan pada VSM tf-idf berada pada urutan pertama. Dokumen yang pertama adalah “ceritalah Indonesia” dan diikuti oleh “Indonesia/proses”. Pada VSM dokumen yang mengandung query “teknologi Indonesia” berada pada urutan pertama, sedangkan pada VSM berada pada urutan ke tiga.

Page 6: Penerapan Vector Space Model untuk Pencarian Dokumen

Abdul Azis Abdillah

6 Prodi Pendidikan Matematika, STKIP Surya, Tangerang, Banten

Tabel 11. Hasil Pencarian Dokumen Menggunakan Query “teknologi Indonesia”

Rank VSM VSM tf-idf

Doc. Id

Sim Doc. id

Sim

1 D9 0.707107 D34 0.458116 2 D49 0.57735 D49 0.449881 3 D2 0.5 D9 0.405945 4 D3 0.5 D23 0.167092 5 D4 0.408248 D2 0.071184 6 D5 0.408248 D3 0.071184 7 D6 0.408248 D5 0.061462 8 D7 0.408248 D19 0.055505 9 D34 0.408248 D45 0.05218

10 D8 0.353553 D4 0.050894 KESIMPULAN

Berdasarkan hasil eksperimen yang diperoleh selama percobaan, dapat diambil beberapa kesimpulan sebagai berikut : 1. Metode Vector Space Model dapat digunakan

untuk melakukan pencarian dokumen.

2. Hasil pencarian dokumen menggunakan VSM tanpa pembobotan tf-idf bergantung kepada panjang dokumen. Semakin pendek suatu dokumen yang relevan maka akan ditampilkan pada urutan teratas.

3. Secara umum pencarian dokumen mengunakan VSM tf-idf lebih relevan jika dibandingkan dengan menggunakan VSM tanpa pembobotan tf-idf.

REFERENSI

[1] Cios, Krzysztof J., dkk. (2007). Data Mining a Knowledge Discovery Approach. Springer.

[2] Manning, Christopher D., Raghavan, Prabhakar,. Schutze. (2008). Introduction to Information Retrieval. Cambridge University Press, New York, USA.

[3] Salton, G., Wong, A., Yang, C. S. (1975). A Vector Space Model for Automatic Indexing. Communications of the ACM, Nov 1975, volume 18, Number 11, Pp. 613-620

[4] Van Rijsbergen, C.J. (1979). Information Retrieval. Butterworths, London.

Page 7: Penerapan Vector Space Model untuk Pencarian Dokumen

Implementasi Vector Space Model untuk Pencarian Dokumen

Prosiding Seminar Nasional Matematika dan Pendidikan Matematika 2013 7

LAMPIRAN

Tabel 12. Dataset yang digunakan pada eksperimen

No. Judul Buku Doc. ID

No. Judul Buku Doc. ID

1 Indonesia mengajar-kisah para pengajar muda di pelosok negeri

D1 26 Filsafat modern D26

2 Ceritalah indonesia D2 27 Filsafat pendidikan islam D27 3 Indonesia/proses D3 28 Pengantar filsafat barat D28 4 Menuju indonesia swadaya D4 29 Pengantar filsafat ilmu pengetahuan D29 5 Kamus inggris-indonesia D5 30 Filsafat ilmu sebuah pengantar

populer D30

6 Korupsi mengorupsi indonesia D6 31 Internet D31 7 Digital camera indonesia D7 32 Internet sehat D32 8 Direktori open source indonesia D8 33 Mari mengenal internet D33 9 Teknologi indonesia akan kemana? D9 34 Teknologi warung internet D34

10 Godot di amerika dan indonesia D10 35 Belajar sendiri internet D35 11 Bantuan likuiditas bank indonesia D11 36 Konferensi video melalui internet D36 12 Indonesia habis gelap terbitlah

terang D12 37 Bisnis Sukses lewat Internet D37

13 The internet in indonesia's new democracy

D13 38 Belajar internet untuk anak D38

14 Munju sejarah sumatra antara indonesia dan dunia

D14 39 Internet Wireless dan Hotspot D39

15 Tanah air bahasa (seratus jejaqk pers indonesia)

D15 40 Mengenal internet for beginners D40

16 Kamus inggris - indonesia: pilihan kata lain penerjemah

D16 41 Internet governance asia-pasific perspektif

D41

17 Nasionalisme-kenali indonesia-mu, temukan passion-mu berkaryalah untuk masa depan bangsamu

D17 42 Arah kebijakan penyelenggaraan jasa internet teleponi (VOIP) di Indonesia

D42

18 Politik pendidikan D18 43 Dasar-dasar Teknik Pemrograman D43 19 Revolusi pendidikan di indonesia D19 44 Teknik analisis data D44 20 Pendidikan tanpa kekerasan D20 45 Teknik membangun indonesia jaya D45 21 Setia budhi: jurnal pendidikan D21 46 Matematika teknik D46 22 Potensi kekayaan intelektual

departemen pendidikan nasional D22 47 Teknik pengawetan tanah dan air D47

23 Pengembangan sekolah teknik elektro dan informatika institut teknologi bandung sebagai institusi pendidikan berbasis riset

D23 48 Filsafat teknik dan pikiran spiritualis dari siswa pemula

D48

24 Filsafat kantian, filsafat jacobian, filsafat fictean

D24 49 Filsafat dan teknologi untuk membangun indonesia

D49

25 Filsafat jiwa dan filsafat ilmu D25 50 Teknik dasar autocad D50