presentasi sidang dream searchengine

MEISYA FITRI(D03106038)

4 Februari 2013PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS TEKNIKUNIVERSITAS TANJUNGPURA

2013

PERANCANGAN SISTEM TEMU BALIK INFORMASI DENGAN METODE PEMBOBOTAN KOMBINASI TF-IDF UNTUK PENCARIAN DOKUMEN BERBAHASA

INDONESIA

Latar Belakang

??

Diperlukan Sistem Temu

Balik Informasi(Information Retrieval)

Latar belakang• Pembobotan kata diharapkan dapat

menemukan kembali informasi yang paling relevan dengan indeks istilah terbaik.

• Metode pembobotan kata berdasarkan kombinasi TF-IDF memberikan bobot lebih kepada istilah yang lebih penting.

Oleh karena itu diperlukan suatu sistem temu balik informasi yang mampu mencari informasi berdasarkan bentuk Natural Language Processing (NLP) dari kata kunci pencarian

Penambahan istilah pada query juga diperlukan untuk meningkatkan performa pencarian

Informasi berupa dokumen teks yang tersedia di internet memiliki banyak variasi. Fokus utama penelitian ini, berupa dokumen hasil crawling dari situs berita, tanpa menutup kemungkinan untuk melakukan pencarian terhadap dokumen hasil crawling dari situs lain.

Perumusan Masalah Bagaimana merancang sistem temu balik

informasi yang mampu mencari informasi yang dibutuhkan secara efektif dan efisien berdasarkan bentuk Natural Language Processing (NLP) dari kata kunci pencarian dengan memberikan bobot pada setiap kata dengan metode pembobotan kombinasi TF-IDF, dan menampilkan serta mengurutkan data yang paling relevan terhadap kata kunci pencarian.

Tujuan Penelitian

Menghasilkan suatu sistem temu balik informasi khususnya berita yang didalamnya terdapat proses pengumpulan dokumen, pembobotan kata dan pencarian dokumen dengan menggunakan metode pembobotan kombinasi TF-IDF sehingga dapat ditemukan informasi yang dibutuhkan dengan efektif dan efisien.

Pembatasan Masalah

Penelitian ini difokuskan pada proses pengumpulan dokumen dan pencarian dokumen dengan menggunakan metode pembobotan kata.

Tipe dokumen yang digunakan adalah dokumen berita hasil crawling dari beberapa situs berita yang telah ditentukan yaitu www.detik.com, www.antaranews.com, pontianak.tribunnews.com.

Dokumen yang digunakan hanya dokumen yang berbahasa Indonesia.

http://www.detik.com/

http://www.antaranews.com/

http://www.antaranews.com/

Metodologi Penelitian

Bahan Penelitian Bahan penelitian yang

digunakan berupa berita hasil crawling website penyedia berita yang telah ditentukan sebelumnya yaitu www.detik.com, www.antaranews.com, pontianak.tribunnews.com.

Metodologi Penelitian

Alat Penelitian Entity Relationship Diagram (ERD), untuk

menjelaskan hubungan antardata dalam basis data berdasarkan objek-objek dasar data yang mempunyai hubungan antarrelasi.

Data Flow Diagram (DFD), untuk menggambarkan aliran data pada sistem yang terdiri dari dua bagian utama yaitu sistem input data dan sistem analisis data

Alat Penelitian Metode Crawling Dokumen, untuk

menggambarkan proses dan komponen yang digunakan dalam crawling dokumen.

Metode Indexing Dokumen, untuk menggambarkan proses dan komponen yang digunakan dalam indexing dokumen. Dalam indexing dokumen digunakan metode pembobotan kombinasi TF-IDF untuk menghasilkan index yang akan digunakan dalam pencarian.

Metode Searching Dokumen, untuk menggambarkan proses dan komponen yang digunakan dalam searching dokumen.

Metodologi PenelitianPerangkat Lunak Sistem operasi Windows 7

Professional Apache Tomcat Version 6.0.26

sebagai web server Bahasa pemograman JSP Basisdata MySQL 5.0.27 Notepad++ sebagai aplikasi

untuk source code editor Netbean 6.9.1

Diagram Alir Penelitian

Mulai

Studi Literartur

Analisis Sistem

Pengujian Sistem

Sesuai DenganPerancangan

Kesimpulan

Selesai

ya

tidakT

ahap

P

enge

mba

nga

n S

iste

m

Perancangan Aplikasi

Tinjauan Pustaka

Sistem Temu Balik Informasi (Information Retrieval) digunakan untuk menemukan kembali (retrieve) secara otomatis informasi- informasi

yang relevan terhadap kebutuhan pengguna dari suatu kumpulan informasi (Hadhiatma, 2010).

Crawler Crawler merupakan program yang berjalan secara otomatis, berisi script program

yang melakukan crawling melalui halaman website untuk mengumpulkan data berdasarkan indeks dari halaman web yang ditemukan (Sasongko, 2010). Tujuan dari crawler adalah dengan cepat dan efisien mengumpulkan banyak informasi dari halaman web yang berguna, berikut dengan struktur link yang terkoneksi dengan halaman web tersebut.

Indexing proses membangun basis data indeks dari koleksi dokumen (Bunyamin, 2008).

TF diperoleh dari perhitungan frekuensi kemunculan suatu istilah pada dokumen

IDF merupakan banyaknya istilah tertentu dalam keseluruhan dokumen

(1)

Arsitektur Sistem

Dokumen

WEB

Indexer

Stemmer

Crawler

Indexed Directory

Searcher

User InterfaceSearcher

Stemmer

User

QueryResult

Query Expansion

Perancangan Perangkat LunakDiagram Konteks

Sistem Temu Balik

Informasi User Admin

Hasil Pencarian

Data AdminKata DasarStop WordTesaurus

Kata kunci pencarian

Perancangan Perangkat LunakDiagram Overview

Admin2.0

Crawling

3.0Indexing

DokumenBerita

url

Perintah IndexingDokumen

IndexedDirectory

4.0Manipulasi

Data

StopList

Data AdminKata DasarStop WordTesaurus

5.0Searching

Kata Dasar

Data index

Data index

User

Hasil Pencarian


KataDasarKata Dasar

Stop WordStop Word

TesaurusTesaurus

Sinonim

Stop Word

Kata Dasar

1.0Login

Admin

UsernamePassword

Hak Akses

Data Admin

UsernamePassword

nama

Hak Akses

Hak Akses

url

Perancangan Perangkat LunakDiagram Rinci Proses Crawling

2.1Baca Daftar

Situs

3.0

Dokumen

metadata

Perintah Indexing

2.2Mulai Crawling

url

1.0Hak Akses

2.3Ekstraksi Link

2.4Cek Link

2.5Simpan Link

2.6Ekstraksi Berita

2.7Cek Berita

2.8Simpan Berita

metadata

url

url

berita

berita

url

berita

url

validasi

validasi

Perancangan Perangkat LunakDiagram Rinci Proses Indexing

3.1Membaca Dokumen

Dokumen

Perintah Indexing

Dokumen

IndexedDirectory

StopList

KataDasar

Stop word

2.0

3.5Pembobotan

Kata

3.4Stemming

3.3Eliminasi Stop

Word

3.2Tokenisasi

Kata dasar

Kata kata dasar

Kata kata

Kata kata

teks

Data index

1.0Hak Akses

Beritaurl

4.0Stop word

Kata dasar

Kata kata

Perancangan Perangkat LunakDiagram Rinci Proses Searching

IndexedDirectory

Data index

5.1Membaca Kata

KunciUser


5.2Tokenisasi

5.3Eliminasi Stop

Word

5.4Query

Expansion

5.5Stemming

5.6Pencarian

Kata kunci

Kata kata

Kata kata

Kata katasinonim

Kata kata dasarsinonim

Hasil Pencarian

StopList

KataDasar Tesaurus

Stop word

sinonim

Kata dasar

Kata katasinonim

4.0Stop word

Sinonim

Kata dasar

4.0

Data index

Perancangan Perangkat LunakEntity Relationship Diagram (ERD)

MAdmin mengumpulkan Dokumen1

Id_adminJudulIsiHyperlink

1Membuat

1

Mencari PenggunaM

MIndexed Directory

URL Judul IsiIndex

Hasil Perancangan

Sistem temu balik informasi yang dirancang memiliki proses utama berupa penemuan kembali dokumen berita dari website penyedia berita online.

Berita yang dikenali dari judul, repoter, tanggal dan isi berita. Berita yang telah dikenali dapat diproses dan diindeks untuk mengenali varian morfologik dari istilah-istilah yang terdapat dalam berita.

Kata yang memiliki banyak varian morfologik diproses untuk mendapatkan kata dasar tanpa stop word.

Pengujian White Box Prosedur Pembobotan kata

1

2

3 4

5 6

7

Jalur 1 : 1-7Jalur 2 : 1-2-3-4-6-1-7Jalur 3 : 1-2-4-6-1-7Jalur 4 : 1-2-4-5-6-1-7

Cyclomatic Complexity

Region

Edge–node+2

predict node+

14 9–

7+2 = 4

3+1 = 4

Pengujian Pembobotan Kata dengan Indexing Mode Stem

Kata Kunci

Jumlah Dokumen

Relevan

dalam Koleksi

Indexing Mode StemJumlah

Dokumen Relevan

ditemukan

Jumlah dokumen

ditemukanRecall

Precision

NIAP

Stem

Non Stem

Stem

Non Stem

StemNon Stem

StemNon Stem

StemNon Stem

Penculikan anak 5 5 5

35

34 1.00001.000

00.1429

0.1471

0.1868 0.2087

Pendidikan SMA 5 5 5

15

15 1.00001.000

00.3333

0.3333

1.0000 0.9429

Korupsi 1 1 1 2 1 1.00001.000

00.5000

1.0000

1.0000 1.0000

Dahlan Iskan 1 1 1 1 1 1.0000

1.0000

1.00001.000

01.0000 1.0000

Banjir Jakarta 15

15

15

41

41 1.00001.000

00.3659

0.3659

0.8956 0.7763

Kata Kunci

Jumlah Dokumen

Relevan

dalam Koleksi

Indexing Mode Non StemJumlah

Dokumen Relevan

ditemukan

Jumlah dokumen

ditemukanRecall

Precision

NIAP

Stem

Non Stem

Stem

Non Stem

StemNon Stem

StemNon Stem

StemNon Stem

Penculikan anak 5 5 5 35 34 1.0000 1.0000 0.1429 0.1471 0.2108 0.2308

Pendidikan SMA 5 5 5 15 15 1.0000 1.0000 0.3333 0.3333 1.0000 0.9429

Korupsi 1 1 1 2 1 1.0000 1.0000 0.5000 1.0000 1.0000 1.0000

Dahlan Iskan 1 1 1 1 1 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000

Banjir Jakarta 15 15 15 41 41 1.0000 1.0000 0.3659 0.3659 0.8956 0.7763

Analisis Hasil Pengujian

Pengujian pada sistem temu balik informasi dengan menggunakan metode white box berhasil dilakukan dengan error nol, dimana setiap statement pada program telah dieksekusi paling tidak satu kali selama pengujian dan semua kondisi logis telah diuji dan berhasil.

Pencarian dokumen dengan kata kunci akan menampilkan semua dokumen yang mengandung kata kunci dan menampilkan dokumen paling relevan ke urutan teratas.

Sistem dapat menemukan semua dokumen relevan. Indexing non stem lebih baik dalam ketepatan

mengurutkan dokumen relevan.

Kesimpulan Sistem mampu mengumpulkan

dokumen berita melalui proses crawling website dan memberikan bobot dengan mengimplementasikan metode pembobotan kata dengan metode kombinasi Tf-Idf secara lengkap sehingga lebih banyak data relevan yang dapat diperhitungkan dalam pencarian.

Sistem dapat melakukan proses pencarian dan menemukan informasi yang relevan berdasarkan hasil pengujian yang dilakukan pada 5 kata kunci. Data hasil pengujian menghasilkan nilai recall 1 yang menunjukkan bahwa semua dokumen yang relevan dapat ditemukan sistem dan nilai precision antara 0.1429 dan 1 yang menunjukkan terdapat dokumen lain selain dokumen relevan yang ikut ditemukan oleh sistem. Nilai NIAP yang dihasilkan mencapai nilai 1 yang menunjukkan sistem dapat mengurutkan dokumen relevan ke dalam urutan hasil pencarian teratas.

Proses indexing dapat membantu proses penemuan kembali dokumen menjadi lebih efisien dengan dilakukannya pencarian terhadap dokumen index yang telah memiliki bobot dokumen.

Saran Perlu tambahan extractor berita Perlu penyempurnaan extractor berita yang

sudah ada Dibuat suatu sistem untuk mengolah

pengumpulan dokumen dari website yang mampu menangani dokumen dalam jumlah yang tak terbatas dengan penggunaan perangkat keras yang terdistribusi.

Perlu penyempurnaan teknik query expansion dengan menambahakan tesaurus yang lebih lengkap, sehingga kata hasil dari proses ini memiliki makna dari sebuah kata.

SEKIAN DAN TERIMA KASIH

Senin, 4 Februari 201318.45-Selesai

presentasi sidang dream searchengine

Documents