academicopter - digilib.uns.ac.id/academic... · hasil pencarian dari kedua sumber data ke dalam...
TRANSCRIPT
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
i
ACADEMICOPTER : MESIN PENCARIAN META UNTUK
AKADEMIK DENGAN PERINGKASAN OTOMATIS
PDF JURNAL ILMIAH
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu
Jurusan Informatika
Disusun Oleh:
Lyla Ruslana Aini
M0507027
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2012
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ii
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iii
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iv
MOTTO
Surely there is ease after hardship.
(Al-Inshirah:6)
Knowledge shared is power.
(Luis Suarez)
Knowledge is that which benefits, not that which is memorised.
(Imam Syafi'i)
is done.
(Nelson Mandela)
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
v
PERSEMBAHAN
Untuk bapak dan ibu tercinta,
Untuk kakak dan adik tersayang,
Untuk ibu Dewi Wisnu Wardani, S.Kom.,M.S.,
Untuk seluruh bapak dan ibu dosen jurusan Informatika UNS,
Untuk teman-teman IF angkatan 2007
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vi
KATA PENGANTAR
Puji syukur kepada Allah Subhanahu w senantiasa
melimpahkan nikmat dan pertolongan-Nya sehingga Penulis dapat menyelesaikan
skripsi dengan judul
Akademik dengan Peringkasan Otomatis Pdf Jurnal Ilmiah .
Skripsi ini disusun dengan bantuan dari banyak pihak. Oleh karena itu,
Penulis mengucapkan terima kasih kepada :
1. Bapak Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons), Ph.D., Dekan FMIPA
UNS.
2. Ibu Dewi Wisnu Wardani, S.Kom., M.S., Dosen Pembimbing I yang telah
memberikan bimbingan, saran dan koreksi atas penyusunan skripsi ini.
3. Bapak Wisnu Widiarto, S.Si., M.Kom., Dosen Pembimbing II yang telah
memberikan bimbingan, saran dan koreksi atas penyusunan skripsi ini.
4. Ibu Umi Salamah, S.Si., M.Kom., ketua Jurusan Informatika FMIPA UNS.
5. Bapak Drs. Wiranto, M.Kom., M.Cs., Pembimbing Akademik yang telah
banyak memberi bimbingan selama masa studi Penulis di Jurusan Informatika
FMIPA UNS.
6. Bapak dan Ibu dosen Jurusan Informatika FMIPA UNS yang telah banyak
memberikan ilmu serta bimbingan kepada Penulis.
7. Keluarga besar yang telah banyak memberikan doa dan dukungan.
8. Seluruh teman serta pihak yang tidak dapat Penulis tuliskan satu persatu yang
telah memberikan bantuan atas penyusunan skripsi ini baik secara langsung
maupun secara tidak langsung.
Semoga Allah membalas kebaikan yang telah diberikan dengan pahala
yang sebesar-besarnya. Penulis berharap semoga skripsi ini dapat memberikan
manfaat bagi para pembaca.
Surakarta, November 2012
Lyla Ruslana Aini
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vii
ACADEMICOPTER : MESIN PENCARIAN META UNTUK AKADEMIK
DENGAN PERINGKASAN OTOMATIS PDF JURNAL ILMIAH
LYLA RUSLANA AINI
Jurusan Informatika. Fakultas MIPA. Universitas Sebelas Maret
ABSTRAK
Academic search engines yang telah ada memberikan informasi tentang jurnal ilmiah hasil pencarian pada snippet berupa informasi yang diperoleh dari abstrak. User memperoleh sedikit informasi dan terkadang harus berpindah pada halaman yang lain untuk memperoleh informasi yang lebih rinci. Oleh karena itu, dikembangkan sebuah academic metasearch engine dengan nama Academicopter yang berfokus pada pencarian PDF jurnal ilmiah dengan sumber data yang diperoleh dari academic metasearch engines. Academicopter melakukan proses peringkasan otomatis pada konten PDF jurnal ilmiah untuk memberikan informasi yang lebih banyak kepada user. Academicopter menggunakan wrapper untuk mengekstraksi data dari halaman hasil pencarian academic search engines. Data yang diekstrak adalah judul jurnal ilmiah, web address sumber jurnal ilmiah, web address PDF jurnal ilmiah, author, serta data untuk pagination. Data-data tersebut akan ditampilkan pada daftar hasil pencarian Academicopter. Peringkasan pada konten PDF jurnal ilmiah menggunakan pendekatan graph-based algorithm dan penambahan fitur metadata formula untuk title, keywords dan abstract. Hasil studi eksperimental menggunakan sumber data yang diperoleh dari Google Scholar dan Libra menunjukkan bahwa Academicopter berhasil menggabungkan hasil pencarian dari kedua sumber data ke dalam satu daftar hasil pencarian tunggal dengan perangkingan yang mengikuti urutan hasil perangkingan pada Google Scholar dan Libra. Academicopter memberikan informasi tentang jurnal ilmiah hasil pencarian pada snippet berupa informasi yang diperoleh dari hasil peringkasan konten PDF jurnal ilmiah. Academicopter juga menghilangkan duplikasi data antara kedua sumber data dengan cara menampilkan satu data saja.
Kata Kunci : Graph based summarization, mesin pencarian meta untuk akademik,
metadata, pdf
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
viii
ACADEMICOPTER : ACADEMIC METASEARCH ENGINE WITH
AUTOMATIC PDF SCIENTIFIC JOURNAL SUMMARIZATION
LYLA RUSLANA AINI
Department of Informatic. Mathematic and Science Faculty. Sebelas Maret University
ABSTRACT
The existing academic search engines provided abstract information of scientific journal in snippet. Users gained a little information and sometime had to move to another page to get more-detailed information. Therefore, we developed an academic metasearch engine named Academicopter which focused on scientific journal search with data sources which were obtained from academic metasearch engines. Academicopter performed automatic summarization of PDF scientific journal with the purpose of providing more-detailed information to the users. Academicopter used wrapper for extracting data from academic search engines result pages. The extracted-data are title of the scientific journal, web address of scientific journal source, web address of PDF file, author, and data for pagination which will be displayed on result list of Academicopter. The automatic summarization of PDF scientific journal used graph-based approach and metadata formula for title, keywords and abstract. As the result of experimental studies using data sources which were obtained from Google Scholar and Libra, Academicopter successfully combined search results from both data sources into one single list result. The ranks of result followed the sequence ranks of data source. Academicopter provided summary information of scientific journal in snippet. Academicopter also eliminated duplication of data between the two sources of data by displaying only one data from one data source.
Keywords: Academic metasearch engine, graph based summarization, metadata,
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ix
DAFTAR ISI
HALAMAN JUDUL................................................................................................ i
HALAMAN PERSETUJUAN ................................................................................ ii
HALAMAN PENGESAHAN................................................................................ iii
HALAMAN MOTTO ............................................ Error! Bookmark not defined.
HALAMAN PERSEMBAHAN ............................................................................ iv
KATA PENGANTAR ........................................................................................... vi
ABSTRAK ............................................................................................................ vii
ABSTRACT ........................................................................................................... viii
DAFTAR ISI .......................................................................................................... ix
DAFTAR TABEL .................................................................................................. xi
DAFTAR GAMBAR ............................................................................................ xii
DAFTAR LAMPIRAN ........................................................................................ xiii
BAB I PENDAHULUAN ........................................................................................1
1.1 Latar Belakang .............................................................................................. 1
1.2 Rumusan Masalah ......................................................................................... 2
1.3 Batasan Masalah ............................................................................................ 2
1.4 Tujuan dan Manfaat Penelitian ...................................................................... 2
1.4.1 Tujuan Penelitian ................................................................................. 2
1.4.2 Manfaat Penelitian ............................................................................... 3
1.5 Sistematika Penulisan .................................................................................... 3
BAB II TINJAUAN PUSTAKA..............................................................................4
2.1 Dasar Teori .................................................................................................... 4
2.1.1 Search Engine .......................................................................................... 4
2.1.1.2 Vertical Search Engine ................................................................... 5
2.1.2 Metasearch Engine................................................................................... 6
2.1.2.1 Wrapper .......................................................................................... 7
2.1.3 Text Preprocessing ................................................................................... 9
2.1.4 Porter Stemmer ...................................................................................... 11
2.1.5. Algoritma TF-IDF ................................................................................. 13
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
x
2.1.6 Model Ruang Vektor ............................................................................. 15
2.1.6.1 Sentence Cosine Similarity (idf modified) ..................................... 17
2.1.7. Peringkasan Teks ................................................................................. 18
2.2.7.1 Peringkasan Berbasis Graf ............................................................ 19
2.1.8. Metadata .............................................................................................. 21
2.2 Penelitian Terkait ........................................................................................ 21
2.3 Rencana Penelitian ...................................................................................... 25
BAB III METODE PENELITIAN........................................................................ 26
3.1 Studi Literatur .............................................................................................. 26
3.2 Tahap Perancangan ...................................................................................... 26
3.3 Tahap Implementasi .................................................................................... 27
3.4 Tahap Eksperimen ....................................................................................... 30
3.5 Tahap Evaluasi ............................................................................................ 31
BAB IV PEMBAHASAN ......................................................................................32
4.1 Framework Academicopter ........................................................................ 32
4.2 Perangkingan Hasil Pencarian Academicopter ........................................... 35
4.3 Studi Eksperimen ........................................................................................ 36
BAB V KESIMPULAN DAN SARAN.................................................................50
5.1 Kesimpulan .................................................................................................. 50
5.2 Saran ............................................................................................................ 50
DAFTAR PUSTAKA ............................................................................................51
LAMPIRAN ...........................................................................................................55
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xi
DAFTAR TABEL
Tabel 2.1 Similarity Antarkalimat ........................................................................20
Tabel 4.1 Hasil Pencarian Sumber Data A ..........................................................35
Tabel 4.2 Hasil Pencarian Sumber Data B ...........................................................36
Tabel 4.3 Hasil Pencarian Pada Academicopter ..................................................36
Tabel 4.4 Hasil Pencarian Google Scholar dengan Keywords Wimax
Technology ........................................................................................ 37
Tabel 4.5 Hasil Pencarian Libra dengan Keywords Wimax Technology ........... 37
Tabel 4.6 Hasil Pencarian Academicopter dengan Keywords Wimax
Technology ......................................................................................... 38
Tabel 4.7 Penggabungan Rangking Eksperimen 1 ..............................................38
Tabel 4.8 Hasil Ringkasan Eksperimen 1 ............................................................39
Tabel 4.9 Hasil Pencarian Google Scholar dengan Keywords Text Mining ...... 40
Tabel 4.10 Hasil Pencarian Libra dengan Keywords Text mining ........................ 41
Tabel 4.11 Hasil Pencarian Academicopter dengan Keywords Text Mining ........42
Tabel 4.12 Penggabungan Rangking Eksperimen 2 ..............................................43
Tabel 4.13 Hasil Ringkasan Eksperimen 2 ............................................................44
Tabel 4.14 Hasil Eksperimen dengan Seratus Keyword ........................................45
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xii
DAFTAR GAMBAR
Gambar 2.1. Arsitektur Search Engine ..................................................................5
Gambar 2.2. Arsitektur Mesin Metasearch ............................................................7
Gambar 2.3. Representasi Tree dari Sebuah Fragmen HTML ...............................8
Gambar 2.4. Contoh Proses Tokenizing .................................................................9
Gambar 2.5. Contoh Proses Filtering ..................................................................10
Gambar 2.6. Contoh Proses Stemming .................................................................10
Gambar 2.7. Representasi Dokumen dan Vektor Pada Ruang Vektor ................15
Gambar 2.8. Representasi Matrik Kata-Dokumen ...............................................16
Gambar 2.9. Representasi Grafis Sudut Vektor Dokumen dan Query ...............16
Gambar 2.10. Representasi Graf ............................................................................20
Gambar 2.11. Arsitektur METALICA ...................................................................22
Gambar 2.12. Arsitektur Helios .............................................................................23
Gambar 3.1. Diagram Alir Metodologi Penelitian ...............................................26
Gambar 3.2. Design Framework Academicopter ................................................27
Gambar 4.1. Framework Academicopter .............................................................32
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xiii
DAFTAR LAMPIRAN
LAMPIRAN 1. Pembangunan Wrappers ..............................................................55
LAMPIRAN 2. Tampilan Hasil .............................................................................62
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Web telah menjadi sumber informasi yang sangat luas (Meng et al, 2002).
Informasi tentang jurnal penelitian ilmiah banyak tersebar di situs yang berbeda.
Academic search engines telah banyak dibangun untuk dapat melakukan
pencarian pada domain spesifik yang memberikan hasil berupa informasi dalm
bidang akademik, salah satunya adalah informasi tentang jurnal ilmiah. Academic
search engines yang telah ada memberikan informasi tentang jurnal ilmiah hasil
pencarian pada snippet berupa informasi yang diperoleh dari abstrak. User
memperoleh sedikit informasi dan terkadang harus berpindah ke halaman yang
lain untuk memperoleh informasi yang lebih rinci. Untuk menyimpan waktu yang
lebih banyak dari pencari (Dorn, 2008) dan untuk memberikan hasil pencarian
jurnal ilmiah yang lebih banyak, maka dapat dilakukan pencarian ke beberapa
academic search engines secara simultan dengan menggunakan mesin pencarian
meta (Taneja et al., 2007).
Skripsi ini membangun sebuah mesin pencarian meta untuk akademik
dengan sumber data yang berasal dari academic search engines dan berfokus pada
pencarian PDF jurnal ilmiah. Informasi pada PDF jurnal ilmiah merupakan bagian
dari informasi tekstual yang selalu meningkat jumlahnya. Peringkasan teks
otomatis adalah salah satu teknik untuk memperoleh dan mencerna informasi
penting dalam sumber-sumber tekstual. Oleh karena itu, penelitian dalam skripsi
ini juga menerapkan proses peringkasan otomatis pada konten PDF jurnal ilmiah
yang diperoleh dari academic search engines. Peringkasan berfokus pada
peringkasan ekstraktif dengan pendekatan metode berbasis graf dan penambahan
fitur metadata formula untuk title, keywords, dan abstract. Hasil peringkasan akan
ditampilkan pada snippet dalam daftar hasil pencarian dengan tujuan untuk
memberikan informasi yang lebih banyak kepada user.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
2
1.2 Rumusan Masalah
Rumusan masalah yang dibahas dalam skripsi ini adalah bagaimana
membangun sebuah mesin pencarian meta untuk akademik yang menampilkan
snippet berupa informasi hasil peringkasan konten PDF jurnal ilmiah.
1.3 Batasan Masalah
Batasan masalah dari penelitian skripsi ini adalah :
1. Proses peringkasan otomatis dilakukan pada jurnal ilmiah yang berekstensi
PDF dan berbahasa inggris.
2. Bagian dari jurnal yang diringkas adalah bagian abstrak dan bagian
pendahuluan dengan asumsi sebanyak maksimal lima puluh kalimat dengan
hasil ringkasan sebanyak 30% dari total kalimat yang diringkas.
3. Hasil peringkasan akan ditampilkan pada snippet dalam daftar hasil
pencarian.
4. Urutan rangking hasil pencarian pada Academicopter mengikuti urutan hasil
perangkingan dari sumber data. Sumber data dengan hasil pencarian yang
lebih sedikit akan memperoleh prioritas perangkingan yang lebih awal pada
Academicopter.
5. Menampilkan satu data saja jika terdapat duplikasi data di antara sumber data
yang berbeda.
6. Eksperimen mengambil sumber data yang berasal dari dua academic search
engines, yaitu http://libra.msra.cn dan http://scholar.goole.com.
1.4 Tujuan dan Manfaat Penelitian
1.4.1 Tujuan Penelitian
Tujuan dilaksanakan penelitian skripsi ini adalah terbangun sebuah mesin
pencarian meta untuk akademik dengan nama Academicopter yang menampilkan
snippet berupa informasi hasil peringkasan otomatis konten PDF jurnal ilmiah.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
3
1.4.2 Manfaat Penelitian
Manfaat dari penelitian ini adalah memberikan kemudahan bagi user
untuk memperoleh informasi dari beberapa academic search engines secara
simultan dan memberikan representasi hasil pencarian yang lebih lengkap dengan
menampilkan informasi yang diperoleh dari hasil peringkasan konten PDF jurnal
ilmiah.
1.5 Sistematika Penulisan
Sistematika penulisan laporan skripsi ini adalah sebagai berikut:
BAB I PENDAHULUAN
Bagian ini berisi mengenai Latar Belakang Masalah, Rumusan
Masalah, Batasan Masalah, Tujuan Penelitian, Manfaat Penelitian,
Metodologi Penelitian dan Sistematika Penulisan.
BAB II TINJAUAN PUSTAKA
Bagian ini berisi mengenai dasar teori dan tinjauan pustaka yang
digunakan dalam penelitian mengenai mesin pencarian meta, text
preprocessing dan peringkasan teks dengan pendekatan metode graph.
BAB III METODOLOGI PENELITIAN
Pada bagian ini akan dibahas mengenai tahapan dalam pembangunan
Academicopter.
BAB IV PEMBAHASAN
Bagian ini berisi pembahasan implementasi hasil perancangan serta
eksperimen.
BAB V PENUTUP
Bagian ini memuat kesimpulan dan saran dari penelitian dalam skripsi
ini.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
4
BAB II
TINJAUAN PUSTAKA
2.1 Dasar Teori
2.1.1 Search Engine
Search engine adalah alat yang powerful untuk membantu tugas
navigasi pada World Wide Web yang berkembang pesat (Beigi et al., 1997).
Menurut Phan (2010), search engine terdiri dari tiga bagian utama, yaitu :
a. Web crawler
Crawling atau spidering adalah sebuah proses otomatis untuk
mengumpulkan data dengan web spider. Spider divisualisasikan sebagai
laba-laba kecil dan juga dikenal sebagai crawlers, robots, software agents,
wanderers, walkers atau knowbots. Spider mulai meng-crawl beberapa
halaman web dan mengikuti link-link dalam halaman web tersebut. Setelah
mengambil halaman yang ditunjuk, spider mengikuti link-link hingga yang
berada pada halaman terakhir. Proses yang sama akan dilanjutkan sampai
spider mengindek bagian tertentu dari web.
b. Indexer
Indexer bertugas melakukan indexing, yaitu proses mengambil data
mentah dan mengkategorisasikannya. Proses indexing akan menghapus
duplikasi data dan secara umum mengatur data ke dalam bentuk yang
terstruktur.
c. Query Processor
Terdiri dari form pencarian dan pencocokan permintaan pencarian yang
relevan dengan database.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
5
Secara umum, arsitektur search engine ditunjukkan oleh Gambar 2.1
Gambar 2.1. Arsitektur Search Engine (Zhou, 2006)
Arsitektur umum dari sebuah search engine terdiri dari sebuah front-
end process di mana user memasukkan kata kunci pencarian ke dalam
interface search engine. Search engine mengeksekusi operasi pencarian pada
file index. Setelah melakukan perangkingan, interface search engine
mengembalikan hasil pencarian kepada user. Pada back-end process, sebuah
spider/robot mengambil halaman web dari internet dan kemudian subsistem
pengindekan akan mem-parsing halaman web dan menyimpannya ke dalam
file index.
2.1.1.1 Vertical Search Engine
Pertumbuhan web terjadi secara eksponensial yang menyebabkan
jumlah halaman yang diindeks di web juga semakin meningkat. Hal
tersebut akan menyulitkan search engine untuk tetap up-to-date dan
mempertahankan indeks pencarian yang komprehensif sehingga
menghasilkan presisi yang rendah (Chau, 2002). Vertical search engine
atau disebut juga dengan domain-specific search engine mengatasi
masalah tersebut dengan memungkinkan pengguna untuk melakukan
pencarian dalam domain tertentu dan menyediakan fitur yang sesuai
(Chau, 2002). Vertical search engine umumnya menggunakan crawler
dengan fokus mengindek halaman web yang relevan dengan topik yang
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
6
telah ditentukan. Vertical search engine dapat mengangkat topik khusus
dalam bidang pariwisata (travel), bidang akademik, dan sebagainya.
2.1.2 Metasearch Engine
Pencarian meta atau metasearch adalah pencarian yang memanfaatkan
beberapa pencarian lain dan berlangsung secara simultan. Sebuah mesin
metasearch adalah sebuah sistem yang memungkinkan untuk melakukan
metasearch. Untuk melakukan proses dasar dari metasearch, sebuah user
query dikirim ke beberapa search engines yang telah ada oleh mesin
metasearch (Meng, 2008).
Mesin metasearch juga dikenal sebagai multi-threaded engines, yang
mengirim user query secara simultan ke search engines lainnya atau ke
direktori web atau deep web, kemudian mengumpulkan hasilnya, menghapus
duplikasi link, menggabungkan dan merangkingnya berdasarkan algoritma
yang diterapkan dalam sebuah daftar tunggal, dan menampilkan hasilnya
kepada user (Dorn et al., 2008). Yang menjadi isu utama dari mesin
metasearch adalah bagaimana meluluskan user query ke mesin pencari lain,
bagaimana mengidentifikasi hasil pencarian yang benar dari halaman yang
dikembalikan dari search engines, dan bagaimana menggabungkan hasil dari
sumber yang berbeda (Meng, 2008).
Menurut Meng (2008) motivasi dalam pembuatan mesin metasearch
adalah (i) peningkatan cakupan pencarian karena mesin metasearch secara
efektif mengabungkan komponen-komponen dari berbagai search engines,
(ii) peningkatan kenyamanan user karena mesin metasearch memungkinkan
pengguna untuk memperoleh informasi dari berbagai sumber dan mesin
metasearch menyembunyikan perbedaan dari search engines yang berbeda
dalam format query pada user, (iii) efektivitas pengambilan yang lebih baik
karena hasil penggabungan komponen menyatukan mekanisme pemilihan
hasil, seperti misalnya hasil dengan rangking yang tinggi dari berbagai search
engines lebih relevan dibandingkan dari hasil yang dikembalikan oleh satu
mesin pencari saja.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
7
Arsitektur mesin metasearch ditunjukkan oleh Gambar 2.2.
Gambar 2.2. Arsitektur Mesin Metasearch (Glover et al., 1999)
Proses penggabungan merupakan salah satu komponen yang paling
mendasar dalam mesin metasearch. Search engines yang berbeda mungkin
mengindeks halaman web yang berbeda pula dan beberapa search engines
mungkin lebih baik dari search engines lainnya dalam area tertentu. Hal
tersebut penting untuk mengidentifikasi search engines yang sesuai dengan
user query. Sebagian besar mesin metasearch dibangun di atas search
engines tanpa kolaborasi eksplisit dari search engines tersebut. Sehingga
membangun mesin metasearch membutuhkan sebuah program koneksi dan
sebuah program ekstraksi (wrapper) untuk masing-masing komponen search
engines (Meng, 2008).
2.1.2.1 Wrapper
Search engines yang berbeda menghasilkan halaman hasil dalam
format yang berbeda pula. Sebuah program pengekstrak hasil yang
terpisah (wrapper) perlu dibangkitkan untuk setiap search engines
(Meng, 2008). Wrapper merupakan program khusus untuk mengekstrak
data yang diinginkan dari halaman hasil pencarian yang dikembalikan
oleh mesin pencari dan memetakan data yang didapat ke dalam format
yang terstruktur (Nassourou, 2010).
Wapper bertanggung jawab untuk mentransmisikan query yang
diberikan ke search engines, menerima hasil pencarian dan mengekstrak
data yang diperlukan. Wrapper terdiri dari dua komponen utama, yaitu
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
8
sebuah kontrol koneksi dan sebuah komponen analisis syntax (Schmitt,
1999).
Sebuah halaman hasil HTML dari sebuah search engine
mengandung nol atau lebih butir jawaban. Sebuah butir jawaban adalah
sebuah kelompok informasi yang koheren yang menyusun sebuah
jawaban bagi query. Sebuah wrapper mengekstrak jawaban dari konten
tekstual dan atribut dari tag tertentu dalam halaman sebagai sebuah tupel.
Karena presentasi hasil pencarian dari search engine sering berubah,
maka wrapper harus selalu dijalankan.
Halaman hasil biasanya juga mengandung beberapa informasi atau
link yang tidak diinginkan. Sehingga penting bagi wrapper untuk dapat
mengekstrak dengan tepat informasi yang diperlukan (Meng, 2008).
Sebagian dari wrapper menganalisis sumber file HTML dari halaman
hasil sebagai string teks atau tag tree (DOM trees) untuk menemukan
pola berulang dari catatan hasil pencarian.
a. String based wrapper
Dalam string based wrapper sebuah halaman web digambarkan
sebagai sebuah urutan dari tokens dan markup tags. Batas awal dan
akhir dari string yang diberikan digunakan untuk mengekstrak
informasi di dalamnya.
b. Tree based wrapper
Menurut Nassourou (2010), dalam tree based wrapper, halaman web
direpresentasikan sebagai sebuah tree. Yang menjadi nodes dalam
tree adalah HTML tags.
Gambar 2.3. Representasi Tree dari Sebuah Fragmen HTML
(Nassourou, 2010)
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
9
Gambar 2.3 menunjukkan representasi tree dari sebuah potongan halaman
HTML di bawah ini :
<html> <head></head> <body><table><tr><td><b>Hotel</b></td></tr></table></body> </html>
2.1.3 Text Preprocessing
Text preprocessing adalah tahapan pertama dalam tahapan text mining
untuk mempersiapkan teks menjadi data yang akan diolah pada tahapan
selanjutnya (Even, 2002). Inputan awal pada proses ini berupa dokumen utuh.
Tahapan dalam text preprocessing adalah :
1. Tokenizing
Tokenizing merupakan tahap pemotongan teks input berdasar tiap kata
penyusunnya. Contoh proses tokenizing ditunjukkan oleh gambar 2.4.
Gambar 2.4. Contoh Proses Tokenizing
2. Filtering
Tahap filtering adalah tahap mengambil kata-kata penting dari hasil
tokenizing. Bisa menggunakan algoritma stoplist (membuang kata yang
kurang penting atau yang dianggap tidak mempunyai bobot) atau wordlist
(menyimpan kata penting) (Triawati, 2009). Stoplist adalah kata-kata yang
tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words.
Contoh stoplist is and the dan seterusnya. Contoh proses
filtering ditunjukkan oleh gambar 2.5.
Seren's hobbies include snow skiing and boarding
hobbies include snow skiing and
boarding
tokenizing
Hasil token
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
10
Gambar 2.5. Contoh Proses Filtering
Hasil dari filtering kemudian digunakan untuk proses selanjutnya yaitu
proses tagging dan stemming.
3. Tagging
Tagging adalah proses memberikan label/tag pada token yang tidak
termasuk stopwords maupun yang tidak termasuk dalam wordlist.
Misalnya memberikan tag number untuk angka yang ditemukan dalam
teks atau untuk nama orang, nama kota, nama sistem dan
sebagainya. Pada kata hasil filtering pada contoh filtering, maka didapat
satu kata yang diberi .
4. Stemming
Stemming adalah tahap mencari root kata dari tiap kata yang dihasilkan
oleh filtering (Triawati, 2009). Proses ini mengubah kata menjadi kata
dasar pembentuknya. Tahap ini kebanyakan dipakai dalam teks berbahasa
Inggris. Proses stemming untuk teks berbahasa Inggris menggunakan
algoritma yang cukup terkenal, yaitu Porter Stemmer. Contoh dari proses
stemming ditunjukkan oleh gambar 2.6.
Gambar 2.6. Contoh Proses Stemming
hobbies include snow skiing and
boarding
Hasil filter Hasil token
hobbies include snow skiing
boarding
hobbies include snow skiing and
boarding
Hasil stemming
Hasil filter
hobbi include snow
ski board
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
11
2.1.4 Porter Stemmer
Algoritma stemming yang paling umum digunakan untuk stemming
bahasa Inggris dan terbukti efektif adalah Porter Stemmer (Manning et al.,
2009). Porter Stemmer ditemukan oleh Martin Porter pada tahun 1980.
Algoritma Porter Stemmer mencari kata dasar suatu kata berimbuhan dengan
membuang imbuhan-imbuhan (akhiran) pada kata-kata bahasa Inggris karena
dalam bahasa Inggris tidak mengenal awalan (Baskoro et al., 2012).
Beberapa definisi yang digunakan dalam algoritma ini adalah :
V vokal
C konsonan
M measure (vc)
*S -stem berakhir dengan huruf S
*v* -stem mengandung vokal
*d -stem berakhir dengan double konsonan
*o -stem berakhir dengan cvc, dengan c yang kedua bukan W, X,Y
Menurut Porter (1980) langkah-langkah algoritma Porter Stemmer
adalah sebagai berikut :
Langkah 1a
SSES SS caresses caress IES I ponies poni SS SS caress caress S cats cat
Langkah 1b
(m>0) EED EE feed feed (*v*) ED plastered plaster bled bled (*v*) ING motoring motor sing sing
Jika aturan kedua atau ketiga pada langkah 1b sukses, dilakukan hal berikut
ini :
AT ATE conflat(ed) conflate BL BLE troubl(ed) trouble IZ IZE siz(ed) size
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
12
(*d dan tidak (*L atau *S atau *Z))
single letter
hopp(ing) hop tann(ed) tan fall(ing) fall hiss(ing) hiss fizz(ed) fizz (m=1 dan *o) E fail(ing) fail fil(ing) file
Aturan untuk memetakan ke single letter menyebabkan penghapusan salah
satu pasangan huruf ganda. -E diletakkan kembali pada akhir setelah -AT,
-BL, dan -IZ sehingga akhiran dapat dikenali kemudian.
Langkah 1c
(*v*) Y I happy happi sky ski
Langkah 2
(m>0) ATIONAL -> ATE relational -> relate (m>0) TIONAL -> TION conditional -> condition
rational -> rational (m>0) ENCI -> ENCE valenci -> valence (m>0) ANCI -> ANCE hesitanci -> hesitance (m>0) IZER -> IZE digitizer -> digitize
(m>0) ABLI -> ABLE conformabli -> conformable (m>0) ALLI -> AL radicalli -> radical (m>0) ENTLI -> ENT differentli -> different (m>0) ELI -> E vileli -> vile (m>0) OUSLI -> OUS analogousli -> analogous (m>0) IZATION -> IZE vietnamization -> vietnamize (m>0) ATION -> ATE predication -> predicate (m>0) ATOR -> ATE operator -> operate
(m>0) ALISM -> AL feudalism -> feudal (m>0) IVENESS -> IVE decisiveness -> decisive (m>0) FULNESS -> FUL hopefulness -> hopeful (m>0) OUSNESS -> OUS callousness -> callous (m>0) ALITI -> AL formaliti -> formal (m>0) IVITI -> IVE sensitiviti -> sensitive (m>0) BILITI -> BLE sensibiliti -> sensible
Langkah 3
(m>0) ICATE -> IC triplicate -> triplic (m>0) ATIVE -> formative -> form (m>0) ALIZE -> AL formalize -> formal
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
13
(m>0) ICITI -> IC electriciti -> electric (m>0) ICAL -> IC electrical -> electric (m>0) FUL -> hopeful -> hope (m>0) NESS -> goodness -> good
Langkah 4
(m>1) AL -> revival -> reviv (m>1) ANCE -> allowance -> allow (m>1) ENCE -> inference -> infer (m>1) ER -> airliner -> airlin (m>1) IC -> gyroscopic -> gyroscop (m>1) ABLE -> adjustable -> adjust (m>1) IBLE -> defensible -> defens (m>1) ANT -> irritant -> irrit (m>1) EMENT -> replacement -> replac (m>1) MENT -> adjustment -> adjust (m>1) ENT -> dependent -> depend (m>1 and (*S or *T)) ION -> adoption -> adopt (m>1) OU -> homologou -> homolog (m>1) ISM -> communism -> commun (m>1) ATE -> activate -> activ (m>1) ITI -> angulariti -> angular (m>1) OUS -> homologous -> homolog (m>1) IVE -> effective -> effect (m>1) IZE -> bowdlerize -> bowdler
Langkah 5a
(m>1) E -> probate -> probat rate -> rate (m=1 dan not *o) E -> cease -> ceas
Langkah 5b
(m > 1 dan *d dan *L) -> single letter controll -> control roll -> roll
2.1.5 Algoritma TF-IDF
Salah satu cara untuk memberi bobot terhadap suatu kata adalah
memberikan nilai jumlah kemunculan suatu kata dalam suatu dokumen atau
dikenal dengan term frequency (tf) dan jumlah kemunculannya dalam koleksi
dokumen sebagai inverse document frequency (idf).
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
14
a. Term Frequency (tf)
Term Frequency (tf) adalah jumlah kemunculan suatu kata/term (t) dalam
dokumen/kalimat. Semakin besar kemunculan sering suatu term dalam
sebuah dokumen, maka semakin besar nilai tf pada term tersebut yang
berarti semakin penting term tersebut. Faktor tf dapat dihitung dengan
menggunakan persamaan 2.1.
dengan fw,s > 0 (2.1)
di mana,
tfw,s = nilai tf term w dalam kalimat s
fw,s = jumlah kemunculan term w dalam kalimat s
ns = jumlah term dalam kalimat s
b. Inverse Document Frequency (idf)
Menurut Mandala (2002) faktor lain yang diperhatikan dalam pemberian
bobot adalah jarang munculnya kata dalam koleksi. Kata yang muncul
pada sedikit dokumen dipandang sebagai kata yang lebih penting daripada
kata yang sering muncul pada banyak dokumen. Pembobotan
memperhitungkan faktor kebalikan frekuensi dokumen yang mengandung
suatu kata atau disebut dengan inverse document frequency.
Faktor idf dapat dihitung dengan menggunakan persamaan 2.2 (Manning et
al., 2009).
dengan nw > 0 (2.2)
di mana,
idfw = nilai idf term w
n = jumlah kalimat dalam suatu artikel
nw = jumlah kalimat di mana term w muncul
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
15
2.1.6 Model Ruang Vektor
Menurut Mandala et al. (2002) misalkan terdapat sejumlah n kata yang
berbeda sebagai kamus kata (vocabulary) atau indeks kata (terms index),
kata-kata tersebut akan membentuk ruang vektor yang memiliki dimensi
sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar
wi. Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi
n. misalkan terdapat tiga buah kata ( T1, T2 dan T3 ), 2 buah dokumen ( D1
dan D2 ) serta sebuah query Q.
D1=2T1+3T2+5T3 D2=3T1+7T2+0T3 Q=0T1+0T2+2T3
Maka representasi grafis dari ketiga vektor ini adalah seperti yang
ditunjukkan pada gambar 2.7.
Gambar 2.7. Representasi Dokumen dan Vektor Pada Ruang Vektor
(Mandala et al., 2002)
Menurut Mandala et al. (2002) koleksi dokumen direpresentasikan pula
dalam ruang vektor sebagai matriks kata-dokumen (terms-documents matrix).
Nilai dari elemen matriks wij adalah bobot kata i dalam dokumen j. Misalkan
terdapat sekumpulan kata T sejumlah m, yaitu T = (T1,T2,...,Tm) dan
sekumpulan dokumen D sejumlah n, yaitu D=(D1,D2,...,Dm) serta wij adalah
bobot kata i pada dokumen j, representasi matrik kata dokumen tersebut
ditunjukkan oleh gambar 2.8.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
16
T1 T2 . TnD1 w11 w21 wn1
D2 w12 w22 wn2: : : :: : : :Dm w1m w2m wnm
Gambar 2.8. Representasi Matrik Kata-Dokumen (Mandala et al., 2002)
Menurut Mandala et al. (2002) penentuan relevansi dokumen dengan
query dipandang sebagai pengukuran kesamaan (similarity measure) antara
vektor dokumen dengan vektor query
dokumen dengan vektor query maka dokumen dapat dipandang semakin
relevan dengan query. Salah satu pengukuran kesesuaian yang baik adalah
dengan memperhatikan perbedaan arah (direction difference) dari kedua
vektor tersebut. Perbedaan arah kedua vektor dalam geometri dapat dianggap
sebagai sudut yang terbentuk oleh kedua vektor. Kesamaan antara dokumen
D1 dan D2 dengan query Q ditunjukkan oleh gambar 2.9.
t3
t1
t2
D1
D2
Q
1
2
Gambar 2.9. Representasi Grafis Sudut Vektor Dokumen dan Query
(Mandala et al., 2002)
Sudut 1 menggambarkan kesamaan dokumen D1 dengan query
sedangkan sudut 2 menggambarkan kesamaan dokumen D2 dengan query.
Jika Q adalah vektor query dan D adalah vektor dokumen, dan adalah
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
17
sudut yang dibentuk oleh kedua vektor tersebut. Maka cosDQDQ ,
dengan n
i
DD1
21 dan
n
i
QQ1
21 yang merupakan panjang vektor
dalam ruang berdimensi n. Perhitungan kesamaan (similarity) kedua vektor
ditunjukkan oleh persamaan 2.3.
i
n
ii DQ
DQDQDQ
DQCosDQSim1
1),(),( (2.3)
2.1.6.1 Sentence Cosine Similarity ( idf modified )
Cosine similarity adalah metode similarity yang paling banyak
digunakan untuk menghitung similarity antara dua buah dokumen (Tan et
al., 2006). Similarity diantara dua vektor kalimat x dan y dapat ditentukan
dengan cosine diantara dua vektor yang dimodifikasi dengan inverse
document frequency (idf). Metode tersebut cukup populer dan lebih baik
dibandingkan metode lainnya (Erkan, 2004). Haiharan (2010) telah
membuktikan bahwa metode cosine similarity (idf modified) memberikan
hasil yang baik dalam mengukur hubungan antarkalimat.
Erkan dan Radev (2004) menggunakan modifikasi cosine
similarity dengan konsep bag of words model, yaitu menggunakan
perhitungan kemunculan term pada suatu kalimat dikalikan dengan nilai
idf term tersebut. Kemiripan antar kalimat dapat dihitung menggunakan
persamaan 2.4.
(2.4)
di mana,
idf_modified_cosine(x,y) = kemiripan kalimat x dan kalimat y
tfw,x = jumlah dari munculnya kata (tf) w dalam kalimat x
tfw,y = jumlah dari munculnya kata (tf) w dalam kalimat y
idfw = nilai idf kata w
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
18
= jumlah dari munculnya kata (tf) xi dalam kalimat x
= jumlah dari munculnya kata (tf) xi dalam kalimat y
= nilai idf kaya yi
= nilai idf kaya xi
2.1.7 Peringkasan Teks
Ringkasan dapat didefinisikan sebagai sebuah teks yang dihasilkan dari satu
atau lebih teks, yang berisi informasi penting dari teks asli (Hovy, 2005). Menurut
Mani et al. (1999) peringkasan adalah proses penyaringan informasi paling
penting dari sebuah sumber (atau beberapa sumber) untuk menghasilkan sebuah
versi pendek dari sumber tersebut untuk user tertentu (atau beberapa user) dan
untuk sebuah tugas (atau beberapa tugas). Ketika proses tersebut dilakukan
dengan komputer secara otomatis maka disebut dengan peringkasan teks otomatis.
Input dalam proses peringkasan dapat berupa dokumen tunggal atau beberapa
dokumen, teks atau informasi multimedia seperti gambar, audio, atau video.
Definisi sederhana tentang ringkasan merangkum tiga aspek penting yang menjadi
karakter penelitian dalam automatic text summarization (Susanti, 2011) :
a. Summary mungkin dihasilkan dari single atau multiple-document.
b. Summary harus menampilkan informasi yang penting dari teks asli,
c. Summary yang dihasilkan harus pendek (<= 50%).
Secara garis besar fase dalam peringkasan teks otomatis dapat terdiri dari 3
fase (Mani et al., 1999), yaitu analisis teks input, transformasi teks input ke dalam
sebuah bentuk ringkasan, dan mengumpulkan dalam sebuah output yang tepat.
Ada beberapa cara yang mana dapat mencirikan pendekatan yang berbeda untuk
peringkasan teks. Salah satunya adalah mengkaji pada level proses. Berdasarkan
hal tersebut, peringkasan dapat dicirikan dengan pendekatan masalah pada
surface-level, entity-level, dan discourse-level (Mani et al., 1999).
a. Surface-level merupakan pendekatan dalam mengekstrak informasi. Fitur ini
meliputi :
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
19
fitur tematik (statistik dari istilah penting, berdasarkan statisik frekuensi
istilah/term)
lokasi (posisi dari teks, posisi paragraf)
latar belakang (term dari judul atau heading dalam teks, bagian inisial dari
teks, atau sebuah user query)
b. Entity-level adalah pendekatan pembangunan representasi internal dari teks,
pemodelan entitas teks dan relasinya. Pendekatan ini mewakili pola
konektivitas dalam teks (misalnya topologi graf). Hubungan antara entitas
meliputi :
similarity
proximity (jarak antara unit teks)
hubungan tesaurus antara kata-kata (sinonim, hipernim)
c. Discourse-level merupakan pendekatan model struktur global dari teks dan
relasinya untuk tujuan komunikatif. Struktur ini meliputi :
format dari dokumen ( hypertext markup, outline dokumen)
struktur retorikal dari teks
Sebuah parameter penting untuk peringkasan adalah compression ratio (rasio
dari panjang ringkasan pada panjang sumber). Compression ratio biasanya berada
pada kisaran 1%-30% (Mani et al., 1999). Ringkasan teks dapat dibagi ke dalam
kategori yang berbeda, salah satunya berdasarkan pada asal teks dalam ringkasan
yang terbagi menjadi dua (Lal, 2002), yaitu :
a. Ekstraktif, di mana ringkasan tersusun dari kalimat yang sudah ada dalam
teks.
b. Abstraktif, beberapa teks baru dibangkitkan oleh peringkas.
2.1.7.1 Peringkasan Berbasis Graf
Metode peringkasan berbasis graf merepresentasikan sebuah teks dalam
sebuah graf. Vertex/node pada graf dapat berbentuk kata, kalimat, maupun
paragraf dalam sebuah teks, sedangkan edge menunjukkan keterhubungan
antara vertex-vertex tersebut. Keterhubungan dapat berupa similarity antar
kalimat ataupun hubungan leksikal atau gramatikal antar kata/frasa
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
20
(Purwasih, 2008). Kata-kata akan dipilih sebagai vertex. Namun apabila ingin
menghasilkan ringkasan ekstraktif, maka kalimat dipilih sebagai vertex. Edge
yang menghubungkan vertex-vertex tersebut juga disesuaikan dengan
kebutuhan dan unit teks yang telah dipilih menjadi vertex. Konsep similarity
digunakan untuk menyatakan hubungan antar vertex, atau dengan kata lain,
antara kalimat satu dengan kalimat lain. Salah satu yang cukup terkenal
adalah dengan cosine similarity.
Tabel 2.1 Tabel Similarity Antarkalimat (Muresan, 2007)
Kalimat 1 2 3 4 5
1 23
2 33 5
3 55
4 50
5
Representasi graf dari hubungan antarkalimat tersebut ditunjukkan pada
Gambar 2.10.
Gambar 2.10. Representasi Graf (Muresan,2007)
Secara umum, graph-based summarization dapat diklasifikasikan dalam dua
jenis, yaitu tipe non-Page Rank dan Page Rank (Hariharan, 2010). Salah satu
metode yang yang termasuk dalam Page Rank adalah algoritma continuous
Sentence Rank (Hariharan, 2010).
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
21
2.1.8 Metadata
Metadata adalah data yang mendiskripsikan data. Menurut Oracle (2012)
metadata adalah diskripsi dari data itu sendiri, maksud dari data tersebut,
bagaimana cara menggunakannya, dan sistem yang digunakan untuk
mengaturnya. Metadata meliputi :
1. Definisi model data
2. Diskripsi transformasi data
3. Proses dan aliran informasi, seperti jadwal dan logs.
4. Diskripsi seperti dimensi, matrik.
5. Tipe informasi yang berarti lainnya, seperti semantik.
Metadata tidak hanya terdiri dari informasi teknis, tetapi juga meliputi
informasi yang membuat user tahu tentang tujuan dan kegunaan data.
2.2 Penelitian Terkait
Berikut ini adalah beberapa penelitian yang berkaitan dengan mesin
pencarian meta di berbagai domain pengetahuan.
1. METALICA: An Enhanced Meta Search Engine for Literature Catalogs
(Schmitt et al., 1999)
Penelitian ini menyediakan kemudahan pengguna dalam pencarian literatur.
Layanan heterogen yang terintegrasi pada bagian dasar dari sebuah domain
model, dirancang untuk menggabungkan semua aspek dari dokumen,
termasuk informasi bibliografi, informasi konten, dan informasi yang
diperlukan untuk memperoleh versi fisik atau digital dari entitas dokumen
komersial atau publik. Teknis dan sintaksis homogenisasi dilakukan dengan
wrappers yang terdiri dari komponen kontrol koneksi dan komponen analisis
sintaks. Homogenisasi semantik dilakukan dengan mediator yang berisi
penerjemah query dan penerjemah model atribut. Integrator mengenali dan
menyatukan duplikat dan menawarkan operasi tambahan untuk
mengelompokkan dan memilah sehingga mendukung pengguna dalam
eksplorasi koleksi hasil yang besar. Antarmuka pengguna memanfaatkan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
22
arsitektur model-view-controller. Arsitektur METALICA ditunjukkan oleh
Gambar 2.11.
Gambar 2.11. Arsitektur METALICA (Schmitt et al., 1999)
2. Fusion Based Meta Search : An Improved Approach towards efficient web
searching (Taneja et al., 2007)
Penelitian ini menerangkan bagaimana cara membuat sebuah sistem untuk
menggabungkan hasil himpunan permintaan pengguna dari beberapa mesin
pencari yang berbeda ke dalam satu himpunan hasil tunggal yang kemudian
akan ditawarkan kepada pengguna dalam format yang sesuai. Pendekatan
dalam metasearch dapat dirangkum dalam tiga fase, yaitu :
a. Selection of Search Engine, yaitu pengguna memasukkan query ke dalam
mesin metasearch, kemudian query tersebut dikirim untuk menyeleksi
search engine. Mesin metasearch memutuskan himpunan search engines
yang dapat digunakan untuk proses pembuatan keputusan.
b. Merging Result Sets, yaitu mengkombinasikan, mereorganisasi dan
mengurutkan dokumen yang diperoleh serta menyatukan ke dalam satu
daftar tunggal.
c. Presentation to Use, yaitu menampilkan hasil pencarian kepada pengguna
dengan format yang sesuai.
3. Web Service based Meta-Search for Accomodation (Dorn et al., 2008)
Paper ini menerangkan tentang Helios, yaitu sebuah mesin metasearch yang
berbasis open source. Helios berjalan di atas delapan belas search engines.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
23
Antarmuka web mengizinkan users untuk men-submit query dan untuk
menyeleksi search engines yang diinginkan. Informasi diinterpretasikan
dengan Local Query Parser & Emitter yang menulis ulang queries ke dalam
format yang tepat untuk search engines yang terpilih. Engines Builder
memelihara seluruh pengaturan penting untuk berkomunikasi dengan remote
search engines. Modul HTTP Retrievers menangani komunikasi jaringan.
Segera setelah hasil diperoleh, Search Result Collector & Parser
mengekstrak informasi yang relevan dan mengembalikannya dengan
menggunakan XML. Untuk mencapai performansi yang baik, Helios
memanfaatkan I/O dan koneksi paralel TCP, dengan remote search engines.
Hal tersebut berguna untuk : (i) sistem tidak overloaded dengan ribuan
threads, (ii) dengan koneksi paralel, biaya koneksi berkurang. Arsitektur
Helios ditunjukkan oleh Gambar 2.12.
Gambar 2.12. Arsitektur Helios (Dorn et al 2008)
4. Inquirus, The NECI Metasearch Engine (Lawrence et al., 1998)
Inquirus bekerja dengan mengunduh and menganalisis halaman web. Inquirus
membuat perbaikan atas mesin pencari yang ada di sejumlah daerah,
misalnya: dengan teknik sederhana mencari kesamaan antara query dan
informasi pada halaman web dan mendeteksi duplikasi halaman. Fitur dasar
Inquirus adalah menganalisis dokumen halaman web dan menampilkan
konteks lokal yang berada pada sekitar query. Sehingga user dapat
memperoleh hasil dengan relevansi tinggi terhadap query yang dimasukkan.
Manfaat dari menampilkan konteks lokal adalah user dapat dengan cepat
membaca apakah dokumen yang terpilih menjawab user query atau tidak.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
24
Seorang user dapat menemukan dokumen dengan relevansi yang tinggi
dengan scanning lokal konteks secara cepat. Teknik tersebut sederhana, tetapi
efektif, khususnya dalam kasus pencarian pada web dengan database yang
begitu besar dan terkadang kurang terorganisasi. User mengindikasi
ringkasan dari halaman yang dibangkitkan dengan menggunakan konteks
lokal yang mengizinkan untuk memperkirakan relevansi dokumen dengan
lebih mudah dan cepat. Duplikasi halaman akan teridentifikasi jika string
konteks identik. Inquirus menggunakan teknik pencarian specific expressive
forms, yang mana dapat meningkatkan presisi untuk query tertentu secara
dramatis. Teknik tersebut bekerja dengan cara mencari jalan khusus dari
pernyataan jawaban untuk sebuah query.
5. Applying Metasearch Technique to Medical Literature Retrieval for
Evidence-Based Medicine (Coi et al., 2009)
Paper ini menerangkan pembangunan sistem pencarian yang efektif dalam
domain medis yang kompleks dengan cara menghitung relevansi dan aspek
kualitas bersama dalam algoritma perangkingan. Hal pertama yang dilakukan
adalah membuat koleksi test dengan memanfaatkan Cochrane Reviews yang
mempublikasikan tinjauan sistematis penelitian utama dalam perawatan
kesehatan manusia dan kebijakan kesehatan. Skor relevansi dihitung
menggunakan probabilistik pengambilan model (Okapi BM25). Judul,
abstrak, bidang publikasi diekstraksi untuk diindeks. Dengan mesin classifier
(Naif Bayes, SVM) dilatih tentang database Hedges klinis, untuk menghitung
kualitas skor. Kemudian menggabungkan skor relevansi dan skor kualitas
dengan berbagai metodologi reranking. Prediksi peringkat dihitung dengan
menggunakan algoritma SVM. Dan dari paper ini telah dibuktikan bahwa
proses dapat reranking meningkatkan performansi.
6. Profusion: Intelligent Fusion from Multiple Distributed Search Engines
(Gauch et al., 1996)
ProFusion adalah sebuah mesin metasearch yang bekerja dengan
mengkombinasikan learning approach. Dalam ProFusion, 13 pre-set kategori
dimanfaatkan dalam proses learning. Sekumpulan term diasosiasikan dengan
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
25
masing-masing kategori untuk merefleksikan topik dari kategori. Untuk
setiap kategori, sekumpulan dari training queries akan diidentifikasi. Alasan
menggunakan kategori dan training queries adalah untuk mempelajari
seberapa baik masing-masing komponen database akan merespon queries
dalam kategori yang berbeda. Pengetahuan yang dipelajari dari training
queries digunakan untuk menyeleksi search engine pada setiap user query
dan pengetahuan secara berlanjut diperbarui dengan dasar reaksi user
terhadap hasil pencarian, hal tersebut dilihat dari diklik atau tidaknya hasil
oleh user.
7. ProThes: Thesaurus-based Meta-Search Engine for a Specific Application
Domain (Braslavski et al., 2004)
ProThes adalah sebuah mesin metasearch untuk sebuah aplikasi domain
khusus. ProThes mengkombinasikan tiga pendekatan : metasearch, graphical
user interface (GUI) untuk spesifikasi query, dan teknik thesaurus-based
query. ProThes mencoba untuk menggunakan pengetahuan pada bidang
khusus, yang mana direpresentasikan oleh konsep thesaurus. Walaupun
representasi pengetahuan terpisah dari inti mesin metasearch, mengatur
sistem dalam sebuah domain khusus tidaklah masalah. Thesaurus
mengizinkan untuk pembangunan query manual dan teknik query otomatis.
Dalam penelitian ini ditunjukkan bahwa teknik query otomatis, walaupun
sangat membantu dalam banyak kasus, gagal untuk menyajikan hasil yang
baik secara konsisten.
2.3 Rencana Penelitian
Penelitian ini membangun sebuah mesin pencarian metauntuk akademik
dengan nama Academicopter. Academicopter berfokus pada jurnal ilmiah dengan
proses peringkasan pada konten PDF jurnal ilmiah. Wrapper yang dibangun
menggunakan pendekatan metode tree-based wrapper. Proses peringkasan teks
dengan menggunakan metode pendekatan graph dan penambahan fitur untuk
metadata formula untuk title keywords,dan abstract.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
26
BAB III
METOD OLOGI PENELITIAN
Penelitian dalam skripsi ini dilakukan dengan tahapan-tahapan yang
ditunjukkan oleh Gambar 3.1.
Gambar 3.1. Diagram Alir Metodologi Penelitian
3.1 Studi Literatur
Studi literatur merupakan langkah pertama untuk mengumpulkan informasi
yang relevan dengan penelitian pembangunan Academicopter. Studi literatur
dilakukan melalui kajian pustaka tentang teori dan penelitian tentang mesin
pencarian meta yang telah ada sebelumnya. Sumber kajian pustaka berasal dari
jurnal, skripsi, maupun artikel yang berkaitan dengan tema mesin pencarian meta,
text preprocessing, dan peringkasan teks otomatis dengan pendekatan graf dengan
penambahan fitur metadata formula. Sumber kajian pustaka diperoleh dari sumber
baik yang berasal dari luar negeri maupun dalam negeri.
3.2 Tahap Perancangan
Pada tahap ini dilakukan perancangan framework Academicopter. Gambar
design perancangan framework Academicopter ditunjukkan oleh gambar 3.2.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
27
Gambar 3.2. Design Framework Academicopter
Tahap perancangan mengikuti alur proses utama dalam Academicopter, yaitu
user memasukkan keywords pencarian, Academicopter melakukan koneksi
terhadap sumber data academic search engines untuk meneruskan user query,
mengekstraksi data yang diperlukan dari halaman web hasil pencarian academic
search engines yang sesuai dengan query user dengan menggunakan wrapper
yang dibangun dengan metode pendekatan tree-based wrapper, mengunduh file
PDF jurnal ilmiah, mengekstrak file PDF menjadi TXT dengan menggunakan tool
pdftotext.exe, melakukan text preprocessing pada konten TXT, melakukan proses
peringkasan konten PDF jurnal ilmiah dengan menggunakan metode pendekatan
graph dan penambahan fitur untuk metadata formula untuk title, keywords, dan
abstract.
3.3 Tahap Implementasi
Tahap implementasi merupakan tahap pembangunan Academicopter
berdasarkan hasil perancangan framework dengan menerapkan algoritma graf
untuk peringkasan. Tahap implementasi meliputi tahap pembangunan database
dengan database server MySQL, tahap pembuatan kode program dengan bahasa
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
28
pemrograman PHP, HTML, CSS dan javascript, serta tahap debugging untuk
mencari error yang masih terdapat pada program untuk selanjutnya diperbaiki.
Model algoritma peringkasan yang digunakan adalah sebagai berikut :
1. Proses peringkasan menggunakan algortitma graph-based dengan
penambahan fitur metadata formula. Model graph-based algorithm
ditunjukkan pada persamaan 3.1 (Hariharan, 2010).
][][
1
),(][*),(
*)1(*)(iSj
jSk
i
kjIdfModCosjCSRjiIdfModCos
dbetagamaNd
iCSR (3.1)
di mana :
N = total jumlah kalimat dalam dokumen
d = damping factor (0,1)
gama,beta = parameter dari position weight (antara 0-1)
CSR(i) = skor Continuous Sentence Rank kalimat ke-i
IdfModCos(i,j) = nilai idf modified cosine kal i dan j
2. Menghitung metadata formula. Metadata formula menunjukkan similarity
antara kalimat dan metadata title, keywords, dan abstract. Metadata formula
ditunjukkan oleh persamaan 3.2.
n
k Qkiki wwQSSim1
),( (3.2)
di mana :
Sim(Si,Q) = similarity kalimat ke-i dengan query (Skor MF)
Wik = bobot kata ke-k dalam kalimat ke-i
Wqk = bobot kata ke-k dalam query/metadata
Ketiga metadata, yaitu title, keywords, dan abstract, menggunakan formula
yang sama, sehingga akan diperoleh skor MF untuk metada title(MFtti), skor
MF untuk metada keywords (MFkwi), dan skor MF untuk metadata abstract
(MFabi).
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
29
3. Skor CSR, MFtti, MFkwi, dan MFabi akan dinormalisasi agar setiap skor
berada dalam range 0-1. Persamaan 3.3 menunjukkan formula untuk
normalisasi.
minmax
min
xx
xxxnormal (3.3)
di mana,
x = skor yang akan dinormalisasi
xnormal = skor hasil normalisasi
xmin = skor minimal dalam himpunan skor yang akan dinormalisasi
xmax = skor maksimal dalam himpunan skor yang akan dinormalisasi
4. Kemudian skor akhir dari kalimat akan didapatkan dengan proses linear
combination seperti yang ditunjukkan pada persamaan 3.4.
4iiii
i
MFabMFkwMFttCSRStot (3.4)
di mana :
CSRi) = skor CSR kalimat ke-i (normalized)
MFtti = skor MF title kalimat ke-i (normalized)
MFkwi = skor MF keywords kalimat ke-i (normalized)
MFabi = skor MF abstract kalimat ke-i (normalized)
Stoti = skor akhir kalimat ke-i
5. Setelah skor akhir per kalimat didapatkan dengan formula linear combination
maka summary dibangkitkan dengan mengekstrak kalimat yang memiliki
skor tertinggi sesuai dengan compression ratio yang diinginkan. Formula
untuk membangkitkan summary ditunjukkan oleh persamaan 3.5.
Psummary = CR * N (3.5)
di mana,
Psummary = panjang summary (jumlah kalimat yang diambil)
CR = compression ratio (30%)
N = total kalimat dalam dokumen
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
30
3.4 Tahap Eksperimen
Tahap eksperimen dilakukan untuk menguji sejauh mana Academicopter
yang telah terbangun sesuai dengan rancangan awal penelitian. Eksperimen
dilakukan dengan mencoba melakukan pencarian dengan beberapa kata keywords
yang berbeda pada Academicopter secara online. Eksperimen dilakukan dengan
mengambil sumber data dari dua academic search engines, yaitu
http://scholar.google.com dan http://libra.msra.cn.
Tahap awal sebelum dilakukan eksperimen ini adalah membuat wrapper
untuk Google Scholar dan Libra. Pembuatan wrapper dilakukan dengan dasar
tree-based wrapper. Proses pembuatan wrapper dapat dilihat pada lampiran 1.
Tahap eksperimen dilakukan dengan skenario berikut :
1. User memasukkan keywords pencarian pada form input Academicopter.
2. User mengklik tombol submit untuk memulai proses pencarian jurnal
akademik.
3. Academicopter akan menampilkan hasil pencarian pada sebuah halaman baru.
4. Keberhasilan ditunjukkan oleh kesamaan data antara Academicopter dan
sumber data, keberhasilan menggabungkan hasil pencarian dari Google Scholar
dan Libra dalam satu daftar hasil pencarian tunggal, keberhasilan dalam
menampilkan hasil ringkasan dari jurnal ilmiah pada snippet, keberhasilan
melakukan perangkingan hasil pencarian yang mengikuti urutan hasil
perangkingan dari Google Scholar dan libra, dan keberhasilan dalam
menghilangkan duplikasi data antara Google Scholar dan Libra.
5. Tidak dilakukan pengukuran terhadap baik atau tidaknya ringkasan yang
dihasilkan oleh Academicopter.
Tahap eksperimen dilakukan dengan perangkat keras dan perangkat lunak
dengan spesifikasi sebagai berikut :
1. Perangkat Keras
Perangkat keras yang digunakan adalah notebook dengan spesifikasi :
a. Processor : Intel ® Core(TM) i3-250M CPU @ 2.30 GHz
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
31
b. RAM : 2048 MB
c. Harddisk : 320 GB
2. Perangkat Lunak
a. Package AppServ Open Project version 2.5.10 dengan :
Bahasa Pemrograman : PHP 5.2.6
Web Server : Apache 2.2.8
Database Server : MySQL 5.0.51b
Database Manager : phpMyAdmin 2.10.3
b. Operating system : Microsoft Windows 7 ultimate
c. Graphic tools : Adobe Photoshop CS3
d. Testing tools
Web browser : Opera 12.02
Koneksi Internet : Jaringan internet Telkom Speedy
3.5 Tahap Evaluasi
Tahap evaluasi adalah tahap analisis dari hasil eksperimen sebagai dasar
untuk penarikan kesimpulan.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
32
BAB IV
PEMBAHASAN
4.1 Framework Academicopter
Framework Academicopter ditunjukkan oleh Gambar 4.1.
Gambar 4.1. Framework Academicopter
Penjelasan alur dalam framework Academicopter adalah sebagai berikut :
1. User memasukkan keywords pencarian dalam form input pencarian
Academicopter.
2. Academicopter membaca string keywords yang dimasukkan oleh user,
kemudian membangkitkan url halaman sumber data dengan cara
menambahkan keywords ke dalam string url sumber data yang polanya telah
dikenali sebelumnya. Contoh pengenalan pola url dengan sumber academic
search engine Libra adalah sebagai berikut :
a. Melakukan pencarian dengan cara memasukkan keywords pada form
input Libra, misalnya text mining.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
33
b. String url hasil pencarian pada Libra untuk keyword text mining adalah :
http://libra.msra.cn/Search?query=text%20mining&s=0. Dari contoh url
tersebut dapat dikenali pola url untuk Libra adalah
http://libra.msra.cn/Search?query=$keywords&s=0. Di mana $keywords
adalah ruang yang akan diisi oleh string keywords yang dimasukkan oleh
user.
3. Academicopter membaca halaman HTML hasil pencarian yang diperoleh dari
url yang telah dibangkitkan untuk mengekstraksi informasi pada data yang
memiliki link dokumen PDF jurnal ilmiah. Informasi yang diekstrak adalah
judul jurnal, web address sumber jurnal ilmiah, author, web address PDF
jurnal ilmiah, dan data pagination.
4. Untuk mencegah terjadinya pengulangan pemrosesan peringkasan dokumen,
dilakukan pencocokan antara nama file dokumen PDF yang pernah diringkas
dengan informasi nama file dokumen PDF yang sedang diekstrak. Nama file
dokumen yang sedang diekstrak diperoleh dengan membaca filename pada
web address file PDF jurnal ilmiah.
5. Mengunduh dokumen PDF yang belum pernah diringkas sebelumnya dengan
fungsi copy pada web address PDF. Dokumen PDF disimpan dalam folder
Academicopter.
6. Dokumen PDF diekstrak ke dalam bentuk TXT dengan tool pdftotext.exe dan
hasil ekstraksi disimpan dalam folder Academicopter.
7. Teks dalam dokumen TXT kemudian diuraikan untuk memperoleh konten,
abstrak, dan keywords. Konten adalah keseluruhan isi dari dokumen. Konten
diuraikan untuk memperoleh sentences. Untuk peringkasan, Academicopter
hanya akan memproses isi dari abstrak dan pendahuluan dengan asumsi
sebanyak maksimal lima puluh kalimat. Konten, abstrak, keywords, dan
sentences disimpan dalam database Academicopter. Tahap ini sekaligus
menyaring dokumen apakah termasuk dalam kategori jurnal. Dokumen akan
dikenali sebagai jurnal jika memenuhi salah satu syarat di bawah ini:
a. Ditemukan kata abstract, keywords, introduction dan references. Di mana
kata abstract terletak di depan kata keywords, kata keywords terletak di
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
34
depan kata introduction, dan kata introduction terletak di depan kata
references.
b. Ditemukan kata abstract, introduction dan references. Di mana kata
abstract terletak di depan kata introduction, dan kata introduction terletak
di depan kata references.
c. Ditemukan kata abstract, keywords dan references. Di mana kata abstract
terletak di depan kata keywords, kata keywords terletak di depan kata
references.
d. Ditemukan kata keywords, introduction dan references. Di mana kata
keywords terletak di depan kata introduction, dan kata introduction
terletak di depan kata references.
e. Ditemukan kata abstract, conclusion dan references. Di mana kata
abstract terletak di depan kata conclusion, kata conclusion terletak di
depan kata references.
f. Ditemukan kata keywords, conclusion dan references. Di mana kata
keywords terletak di depan kata conclusion, kata conclusion terletak di
depan kata references.
g. Ditemukan kata keywords, acknowledgment dan references. Di mana kata
keywords terletak di depan kata acknowledgment, kata acknowledgment
terletak di depan kata references.
h. Ditemukan kata introduction, conclusion dan references. Di mana kata
introduction terletak di depan kata conclusion, kata conclusion terletak di
depan kata references.
8. Sentences dari dokumen yang masuk dalam kategori jurnal akan diproses
pada text preprocessing yang bertujuan untuk mencari kata-kata penting yang
dapat mewakili isi dokumen. Proses ini terdiri dari 3 tahap, yaitu tokenizing,
tagging, dan stemming yang telah dijelaskan pada sub bab 2.1.3 pada bab II.
Kemudian pembobotan kalimat pada setiap dokumen dengan menghitung
nilai tf (term frequency) dengan formula yang ditunjukkan pada persamaan
2.1 pada bab II, idf (inverse document frequency dengan formula yang
ditunjukkan pada persamaan 2.2 pada bab II, dan fungsi untuk menghitung
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
35
similarity antarkalimat dengan menggunakan algoritma cosine similarity (idf
modified) dengan formula yang ditunjukkan pada persamaan 2.4 pada bab II.
9. Dilakukan proses summarization dengan menghitung nilai Continuous
Sentence Rank (CSR) pada setiap kalimat dengan formula yang ditunjukkan
pada persamaan 3.1 pada bab III dan menghitung nilai metadata formula
untuk metadata title, keywords, dan abstract dengan formula yang
ditunjukkan pada persamaan 3.3 pada bab III. Semua skor dinormalisasi
dengan formula yang ditunjukkan pada persamaan 3.4 pada bab III, kemudian
dilakukan kombinasi linier dengan formula yang ditunjukkan pada persamaan
3.5 pada bab III sehingga didapatkan skor akhir. Ringkasan dibangkitkan
dengan mengekstrak kalimat yang memiliki skor tertinggi. Formula untuk
membangkitkan ringkasan ditunjukkan oleh persamaan 3.6 pada bab III.
10. Hasil akan digabungkan dalam satu daftar tunggal yang disajikan kepada user
dengan pagination yang mengikuti pagination dari sumber data. Duplikasi
data dokumen akan dihilangkan dengan menampilkan satu data saja yang
berasal dari search engines dengan jumlah data yang paling sedikit.
4.2 Perangkingan Hasil Pencarian Academicopter
Perangkingan hasil pencarian pada Academicopter mengikuti urutan hasil
perangkingan pada sumber data. Sumber data dengan jumlah hasil pencarian yang
lebih sedikit akan memperoleh prioritas rangking yang lebih tinggi pada hasil
pencarian Academicopter. Sebagai contoh, Academicopter mengambil data dari
sumber data A dan sumber data B dengan data hasil pencarian sumber data A
yang ditunjukkan oleh tabel 4.1 dan data hasil pencarian sumber data B yang
ditunjukkan oleh tabel 4.2.
Tabel 4.1. Hasil Pencarian Sumber Data A
No Data Rangking
1 Data A1 1
2 Data A2 2
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
36
Tabel 4.2. Hasil Pencarian Sumber Data B
No Data Rangking
1 Data B1 1
2 Data B2 2
3 Data B3 3
Hasil pencarian dari sumber data A akan memperoleh prioritas karena
menghasilkan data yang lebih sedikit. Sehingga data dengan rangking pertama
pada sumber data A akan menjadi data dengan urutan pertama pada hasil
pencarian Academicopter. Data dengan rangking pertama pada sumber data B
akan menempati urutan kedua, data dengan rangking kedua pada sumber data A
akan menjadi data dengan urutan ketiga, data dengan rangking kedua pada sumber
data B akan menjadi data dengan urutan keempat dan seterusnya. Sehingga hasil
pengurutan hasil pencarian pada Academicopter dapat dilihat pada tabel 4.3.
Tabel 4.3. Hasil Pencarian Pada Academicopter
No Data Rangking
1 Data A1 1
2 Data B1 2
3 Data A2 3
4 Data B2 4
5 Data B3 5
4.3 Studi Eksperimen
a. Eksperimen 1
1. Menggunakan keywords : wimax technology .
2. Google Scholar menampilkan hasil pencarian seperti yang ditunjukkan pada
tabel 4.4.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
37
Tabel 4.4. Hasil Pencarian Google Scholar dengan Keywords Wimax
Technology
Rank Judul dokumen PDF Kategori Dokumen
1 Achieving wireless
broadband with WiMax
Dapat
diunduh
Artikel
2 An overview of next-
generation mobile WiMAX
technology
Dapat
diunduh
Jurnal, memuat kata
abstract, introduction,
dan references
3 A survey on mobile wimax
[wireless broadband access]
Dapat
diunduh
Jurnal, memuat kata
abstract, introduction,
dan references
Pencarian dengan keywords wimax technology
memberikan hasil pencarian pada halaman pertama dengan data seperti yang
tertulis pada tabel 4.4. Terdapat tiga data yang memiliki informasi tentang
dokumen PDF dengan urutan rangking bahwa data yang tercatat lebih awal
memiliki urutan rangking yang lebih tinggi dari data yang sesudahnya. Secara
manual, ketiga dokumen PDF dapat diunduh. Pengecekan secara manual
terhadap isi dokumen menunjukkan bahwa kategori dokumen data pertama
adalah sebuah artikel, data kedua dan ketiga adalah jurnal. Sehingga bisa
ditarik hipotesis sementara, bahwa pada hasil yang ditampilkan oleh
Academicopter, ringkasan hanya akan dihasilkan oleh data kedua dan ketiga.
3. Libra menampilkan hasil pencarian seperti pada tabel 4.5.
Tabel 4.5 Hasil Pencarian Libra dengan Keywords Wimax Technology
Rank Judul dokumen PDF Kategori Dokumen
1 WEIRD - Real Use Cases
and Applications for the
WiMAX Technology
Dapat
diunduh
Jurnal, memuat kata
abstract, keywords
introduction, references
Pencarian dengan keywords wimax technology
pencarian pada halaman pertama dengan data seperti yang tertulis pada tabel
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
38
4.5. Terdapat satu data yang memiliki informasi tentang dokumen PDF
sehingga secara otomatis data tersebut adalah data dengan rangking pertama
dari Libra. Secara manual, dokumen PDF dapat diunduh. Pengecekan secara
manual terhadap isi dokumen menunjukkan bahwa kategori dokumen tersebut
adalah jurnal. Sehingga bisa ditarik hipotesis sementara bahwa pada hasil yang
ditampilkan oleh Academicopter, ringkasan akan dihasilkan oleh data tersebut.
4. Analisis hasil eksperimen
Academicopter menampilkan hasil pencarian yang ditunjukkan pada tabel 4.6.
Tabel 4.6. Hasil Pencarian Academicopter dengan Keywords Wimax
Technology Rank Judul Dokumen Ringkasan
1 WEIRD - Real Use Cases and Applications for the
WiMAX Technology
Ada
2 Achieving wireless broadband with WiMax Tidak Ada
3 An overview of next-generation mobile WiMAX
technology
Ada
4 A survey on mobile wimax [wireless broadband access] Ada
Academicopter menampilkan hasil pencarian sebanyak empat data jurnal
ilmiah. Data dengan peringkat nomor dua tidak menampilkan hasil ringkasan.
Tabel 4.7 menunjukkan perbandingan rangking pada setiap data yang
dihasilkan oleh Google Scholar, Libra dan Academicopter.
Tabel 4.7 Penggabungan Rangking Eksperimen 1
No Judul dokumen Rank
G-Scholar
Rank
Libra
Rank
Academicopter
1 WEIRD - Real Use Cases and
Applications for the WiMAX
Technology
- Rank 1 Rank 1
2 Achieving wireless broadband
with WiMax
Rank 1 - Rank 2
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
39
Tabel 4.7 Penggabungan Rangking Eksperimen 1 (lanjutan) No Judul dokumen Rank
G-Scholar
Rank
Libra
Rank
Academicopter
3 An overview of next-generation
mobile WiMAX technology
Rank 2 - Rank 3
4 A survey on mobile wimax
[wireless broadband access]
Rank 3 - Rank 4
Data pada tabel 4.7 dapat dianalisis dengan penjelasan sebagai berikut :
1. Academicopter berhasil menggabungkan semua data dari Google Scholar
dan Libra ke dalam satu daftar tunggal.
2. Perangkingan pada Academicopter telah mengikuti urutan hasil
perangkingan pada Google Scholar dan Libra. Data dengan rangking
pertama pada Libra menempati rangking pertama pada Academicopter. Data
dengan rangking pertama pada Google Scholar menempati rangking kedua
pada Academicopter karena rangking pertama telah diisi sebelumnya.
Dokumen yang memiliki rangking kedua dan ketiga di Google Scholar
menempati rangking ketiga dan keempat pada Academicopter.
Tabel 4.8 menunjukkan kategori konten jurnal pada setiap data hasil pencarian
pada Google Scholar dan Libra serta ada tidaknya ringkasan pada setiap data
yang dihasilkan pada Academicopter.
Tabel 4.8 Hasil Ringkasan Eksperimen 1
No Judul dokumen Kategori
(G-Scholar)
Kategori
(Libra)
Ringkasan
(Academicopter)
1 WEIRD - Real Use Cases and
Applications for the WiMAX
Technology
- Jurnal Ada
2 Achieving wireless broadband
with WiMax
Artikel - Tidak Ada
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
40
Tabel 4.8 Hasil Ringkasan Eksperimen 1(lanjutan) No Judul dokumen Kategori
(G-Scholar)
Kategori
(Libra)
Ringkasan
(Academicopter)
3 An overview of next-
generation mobile WiMAX
technology
Jurnal - Ada
4 A survey on mobile wimax
[wireless broadband access]
Jurnal - Ada
Data pada tabel 4.8 dapat dianalisis dengan penjelasan sebagai berikut :
1. Data kedua tidak menghasilkan ringkasan karena kategori dokumen tidak
dikenali sebagai jurnal melainkan sebagai artikel. Dokumen tersebut tidak
memenuhi syarat-syarat terpilihnya dokumen sebagai jurnal.
2. Data pertama, data ketiga, dan data keempat menghasilkan ringkasan karena
kategori dokumen dari ketiga data tersebut dikenali sebagai jurnal.
b. Eksperimen 2
1. Menggunakan keywords : text mining.
2. Google Scholar menampilkan hasil pencarian seperti pada tabel 4.9.
Tabel 4.9 Hasil Pencarian Google Scholar dengan Keywords Text Mining Rank Judul dokumen PDF Kategori Dokumen
1 GENIA corpus a
semantically annotated
corpus for bio-textmining
Dapat
diunduh
Jurnal, memuat kata
abstract, keywords,
introduction, dan
references
2 Fast and effective text
mining using linear-time
document clustering
Dapat
diunduh
Jurnal, memuat kata
abstract, keywords,
introduction, dan
references
3 Text mining: The state of the
art and the challenges
Dapat
diunduh
Jurnal, memuat kata
abstract, introduction,
dan references
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
41
Tabel 4.9 Hasil Pencarian Google Scholar dengan Keywords Text Mining (lanjutan)
Rank Judul dokumen PDF Kategori Dokumen
4 Survey of Text Mining I:
Clustering, Classification,
and Retrieval
Dapat
diunduh
ebook
5 A survey of current work in
biomedical text mining
Tidak dapat
diunduh
-
6 The text mining handbook:
advanced approaches in
analyzing unstructured data
Dapat
diunduh
Book Reviews
7 Discovering evolutionary
theme patterns from text: an
exploration of temporal text
mining
Dapat
diunduh
Jurnal, memuat kata
abstract, keywords,
introduction, dan
references
8 Text mining for biology and
biomedicine
Dapat
diunduh
Book Reviews
Pencarian dengan keywords text mining
hasil pencarian pada halaman pertama seperti yang tertulis pada tabel 4.9.
Terdapat delapan data yang memiliki informasi tentang dokumen PDF dengan
urutan rangking bahwa data yang tercatat lebih awal memiliki urutan rangking
yang lebih tinggi dari data yang sesudahnya. Secara manual, ada satu dokumen
PDF yang tidak dapat diunduh, yaitu untuk data no.5. Hasil pengecekan
manual terhadap isi dokumen menghasilkan hipotesis sementara bahwa
ringkasan akan dihasilkan oleh data pertama, kedua, ketiga, dan ketujuh.
3. Libra menampilkan hasil pencarian seperti pada tabel 4.10.
Tabel 4.10 Hasil Pencarian Libra dengan Keywords Text Mining
Rank Judul dokumen PDF url Konten PDF
1 A survey of current work in
biomedical text mining
Dapat
Diunduh
Jurnal, memuat kata
abstract, introduction,
dan references
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
42
Pencarian dengan keywords text mining
pencarian pada halaman pertama dengan data seperti yang ditunjukkan pada
tabel 4.10. Terdapat satu data yang memiliki informasi tentang dokumen PDF
sehingga secara otomatis data tersebut adalah data dengan rangking pertama
dari Libra. Secara manual, dokumen PDF dapat diunduh. Pengecekan secara
manual terhadap isi dokumen menunjukkan bahwa kategori dokumen tersebut
adalah jurnal. Sehingga bisa ditarik hipotesis sementara bahwa Academicopter
akan menghasilkan ringkasan pada data tersebut.
4. Analisis hasil eksperimen
Academicopter menampilkan hasil pencarian ditunjukkan pada tabel 4.11.
Tabel 4.11. Hasil Pencarian Academicopter dengan Keywords Text Mining Rank Judul dokumen Ringkasan
1 A survey of current work in biomedical text mining Ada
2 GENIA corpus a semantically annotated corpus for
bio-textmining
Ada
3 Fast and effective text mining using linear-time
document clustering
Ada
4 Text mining: The state of the art and the challenges Ada
5 Survey of Text Mining I: Clustering, Classification, and
Retrieval
Ada
6 The text mining handbook: advanced approaches in
analyzing unstructured data
Tidak Ada
7 Discovering evolutionary theme patterns from text: an
exploration of temporal text mining
Ada
8 Text mining for biology and biomedicine Tidak Ada
Academicopter menampilkan hasil pencarian sebanyak empat data jurnal
ilmiah. Data dengan peringkat keenam dan kedelapan tidak menampilkan hasil
ringkasan. Tabel 4.12. menunjukkan perbandingan rangking pada setiap data
yang dihasilkan oleh Google Scholar, Libra dan Academicopter.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
43
Tabel 4.12 Penggabungan Rangking Eksperimen 2
No Judul dokumen G-Scholar Libra Academicopter
1 A survey of current work in
biomedical text mining
Rank 5 Rank 1 Rank 1
2 GENIA corpus a semantically
annotated corpus for bio-textmining
Rank 1 - Rank 2
3 Fast and effective text mining using
linear-time document clustering
Rank 2 - Rank 3
4 Text mining: The state of the art
and the challenges
Rank 3 - Rank 4
5 Survey of Text Mining I:
Clustering,
Classification, and Retrieval
Rank 4 - Rank 5
6 The text mining handbook:
advanced approaches in analyzing
unstructured data
Rank 6 - Rank 6
7 Discovering evolutionary theme
patterns from text: an exploration
of temporal text mining
Rank 7 - Rank 7
8 Text mining for biology and
biomedicine
Rank 8 - Rank 8
Data pada tabel 4.12 dapat dianalisis dengan penjelasan sebagai berikut :
1. Academicopter berhasil menggabungkan semua data dari Google Scholar
dan Libra ke dalam satu daftar tunggal.
2. Terdapat duplikasi data antara Google Scholar dan Libra yaitu untuk data
A survey of current work in biomedical text
mining pter akan ditampilkan satu data saja, yaitu data
yang berasal dari Libra, karena Libra memiliki jumlah hasil pencarian yang
lebih sedikit dibandingkan dengan data yang dihasilkan oleh Google
Scholar.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
44
3. Perangkingan pada Academicopter telah mengikuti perangkingan pada
Google Scholar dan Libra. Data dengan rangking pertama pada Libra
menempati rangking pertama pada Academicopter. Data dengan rangking
pertama pada Google Scholar menempati rangking kedua pada
Academicopter karena rangking pertama telah diisi sebelumnya. Dokumen
yang memiliki rangking kedua dan ketiga (kecuali data kelima) dan
seterusnya pada Google Scholar menempati rangking ketiga dan keempat
dan seterusnya pada Academicopter.
Tabel 4.13 menunjukkan kategori konten jurnal pada setiap data hasil
pencarian pada Google Scholar dan Libra serta menunjukkan ada tidaknya
ringkasan pada setiap data yang dihasilkan pada Academicopter.
Tabel 4.13 Hasil Ringkasan Eksperimen 2
No Judul dokumen Kategori
(G-Scholar)
Kategori
(Libra)
Ringkasan
(Academicopter)
1 A survey of current work in
biomedical text mining
- Jurnal Ada
2 GENIA corpus a
semantically annotated corpus
for bio-textmining
Jurnal - Ada
3 Fast and effective text mining
using linear-time document
clustering
Jurnal - Ada
4 Text mining: The state of the
art and the challenges
Jurnal - Ada
5 Survey of Text Mining I:
Clustering, Classification, and
Retrieval
ebook - Tidak Ada
6 The text mining handbook:
advanced approaches in
analyzing unstructured data
Book
Reviews
- Tidak Ada
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
45
Tabel 4.13 Summary Eksperimen 2 (lanjutan) No Judul dokumen Kategori
(G-Scholar)
Kategori
(Libra)
Summary
(Academicopter)
7 Discovering evolutionary
theme patterns from text: an
exploration of temporal text
mining
Jurnal - Ada
8 Text mining for biology and
biomedicine
Book
Reviews
- Tidak Ada
Data pada tabel 4.13 dapat dianalisis dengan penjelasan sebagai berikut :
1. Data kelima, data keenam, dan data kedelapan tidak menghasilkan
ringkasan karena kategori dokumen tidak dikenali sebagai jurnal melainkan
sebagai ebook dan book reviews.
2. Data pertama, data kedua, data ketiga, data keempat, dan data ketujuh
menghasilkan ringkasan karena kategori dokumen dari ketiga data tersebut
dikenali sebagai jurnal.
c. Tingkat Keberhasilan Hasil Eksperimen
Eksperimen dengan seratus keywords yang berbeda dilakukan untuk
mengetahui tingkat keberhasilan Academicopter dalam menyajikan jumlah data
yang sama dengan data yang dihasilkan oleh sumber data.
Hasil eksperimen dengan seratus keywords yang berbeda ditunjukkan oleh
tabel 4.14.
Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords
No Keyword Jumlah Data pada
G-Scholar (manual)
Jumlah Data dari
G-Scholar pada Academicopter
Jumlah Data
pada Libra (manual)
Jumlah Data dari
Libra pada Academicopter
Nilai Kesamaan
Data
1 adaptive web 10 10 2 2 1
2 advanced algorithms
4 4 0 0 1
3 agent based systems
6 6 1 1 1
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
46
Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No Keyword Jumlah
Data pada
G-Scholar (manual)
Jumlah Data dari
G-Scholar pada Academicopter
Jumlah Data
pada Libra (manual)
Jumlah Data dari
Libra pada Academicopter
Nilai Kesamaan
Data
4 artificial intelligence
10 10 0 0 1
5 assembly language 9 9 4 4 1
6 automata 4 4 0 0 1
7 automated reasoning and verification
4 4 0 0 1
8 bias on the web 6 6 3 3 1
9 big data 7 7 1 1 1
10 bioinformatics 8 8 1 1 1
11 cloud computing 10 10 1 1 1
12 collaborative computing
5 5 1 1 1
13 compiler construction
6 6 0 0 1
14 complexity theory 5 5 1 1 1
15 computational complexity
4 4 0 0 1
16 computer design 2 2 1 1 1
17 computer ethics 3 3 1 1 1
18 computer graphic 2 2 3 3 1
19 computer security 4 4 1 1 1
20 computing infrastructure
7 7 2 2 1
21 cryptography 5 5 1 1 1
22 data 3 3 3 3 1
23 database 4 4 3 3 1
24 data mining 7 7 3 3 1
25 data and computer communication
5 5 0 0 1
26 decision support system
3 3 2 2 1
27 digital libraries 7 7 2 2 1
28 disaster mitigation 1 1 2 2 1
29 distributed systems 8 8 2 2 1
30 efffective information systems
8 8 1 1 1
31 embedded system 7 7 1 1 1
32 evolutionary algorithms
8 8 2 2 1
33 expert system 4 4 0 0 1
34 e-learning 6 6 1 1 1
35 e-business system 7 7 0 0 1
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
47
Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No Keyword Jumlah
Data pada
G-Scholar (manual)
Jumlah Data dari
G-Scholar pada Academicopter
Jumlah Data
pada Libra (manual)
Jumlah Data dari
Libra pada Academicopter
Nilai Kesamaan
Data
36 e-commerce 8 8 1 1 1
37 geographic information systems
4 4 2 2 1
38 global electronic market
3 3 1 1 1
39 global positioning system
4 4 0 0 1
40 graph based summarization
9 9 5 5 1
41 graphical systems 5 5 0 0 1
42 human centered systems
3 3 0 0 1
43 human computer interaction
7 7 3 3 1
44 image processing 2 2 1 1 1
45 imperative programming
7 7 0 0 1
46 information filtering
5 5 1 1 1
47 information life cycle
5 5 2 2 1
48 information policy 5 5 1 1 1
49 information quality
5 5 1 1 1
50 information revolution
3 3 1 1 1
51 information representation
5 5 1 1 1
52 information systems
5 5 3 3 1
53 information technology
8 8 0 0 1
54 information visualization
5 5 2 2 1
55 intelligent information retrieval
5 5 2 2 1
56 internet 4 4 4 4 1
57 knowledge discovery
4 4 3 3 1
58 knowledge management
4 4 2 2 1
59 logic and modelling
5 5 2 2 1
60 machine learning 9 9 3 3 1
61 metadata 4 4 1 1 1
62 metasearch engine 8 8 0 0 1
63 multimedia technology
3 3 0 0 1
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
48
Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No Keyword Jumlah
Data pada
G-Scholar (manual)
Jumlah Data dari
G-Scholar pada Academicopter
Jumlah Data
pada Libra (manual)
Jumlah Data dari
Libra pada Academicopter
Nilai Kesamaan
Data
64 multi-core computing
9 9 0 0 1
65 mobile communications
3 3 1 1 1
66 mobile systems 6 6 0 0 1
67 natural language processing
4 4 3 3 1
68 natural language systems
6 6 2 2 1
69 network computer 0 0 1 1 1
70 numerical analysis 3 3 0 0 1
71 object-oriented design
4 4 0 0 1
72 open systems 6 6 2 2 1
73 operating system 5 5 1 1 1
74 parallel programs 4 4 0 0 1
75 processor 7 7 4 4 1
76 quantum computing
7 7 2 2 1
77 question answering
9 9 4 4 1
78 recommender system
9 9 5 5 1
79 robotic system 3 3 0 0 1
80 semantic web 9 9 4 4 1
81 sensor networks 10 10 6 6 1
82 social informatics 3 3 1 1 1
83 software design using patterns
8 8 0 0 1
84 software engineering
5 5 1 1 1
85 software evolution 8 8 2 2 1
86 system architecture
6 6 3 3 1
87 system enterprise 3 3 2 2 1
88 systems intelligence
1 1 2 2 1
89 systems simulation 3 3 0 0 1
90 text mining 8 8 2 2 1
91 text summarization 9 9 3 3 1
92 web modeling language
8 8 3 3 1
93 web searching 9 9 1 1 1
94 web service 7 7 1 1 1
95 web technologies 9 9 1 1 1
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
49
Tabel 4.14. Hasil Eksperimen dengan Seratus Keywords (lanjutan) No Keyword Jumlah
Data pada
G-Scholar (manual)
Jumlah Data dari
G-Scholar pada Academicopter
Jumlah Data
pada Libra (manual)
Jumlah Data dari
Libra pada Academicopter
Nilai Kesamaan
Data
96 web-collaborative filtering
6 6 3 3 1
97 wimax technology 3 3 1 1 1
98 wireless security 8 8 2 2 1
99 wireless technology
5 5 3 3 1
100 XML applications 4 4 2 2 1
Data pada tabel 4.14 menunjukkan bahwa Academicopter berhasil menyajikan
jumlah data yang sama dengan data yang dihasilkan oleh sumber data.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
50
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Penelitian ini menghasilkan sebuah mesin pencarian meta untuk akademik dengan
nama Academicopter yang menampilkan hasil ringkasan dari PDF jurnal ilmiah
dalam snippet pada daftar hasil pencarian. Berdasarkan hasil dari eksperimen
sebelumnya dapat disimpulkan bahwa :
1. Academicopter mampu menyaring informasi yang berfokus pada kategori
PDF jurnal ilmiah yang berasal dari Google Scholar dan Libra dan
menggabungkan hasil pencarian dari dua sumber data tersebut ke dalam satu
daftar tunggal. Hal tersebut mempermudah user dalam mengakses informasi
dari beberapa academic search engines dalam satu kali pencarian.
2. Academicopter menghilangkan duplikasi data antara academic search
engines yang berbeda dengan menampilkan satu data saja yang berasal dari
academic seach engine dengan jumlah data yang paling sedikit . Hal tersebut
membantu user dalam mengurangi pengulangan pengambilan informasi yang
sama.
5.2 Saran
1. Proses peringkasan dilakukan pada semua konten PDF jurnal ilmiah, tidak
terbatas pada bagian abstrak dan pendahuluan saja.
2. Proses peringkasan jurnal PDFs menggunakan metode lain yang dapat
menghasilkan hasil ringkasan yang lebih baik dan lebih cepat.
3. Academicopter membuat algoritma yang lebih baik dalam perangkingan hasil
pencarian.