proposal sopi (seminar) newnew (revisi)2

Upload: rastra-sofi

Post on 19-Jul-2015

372 views

Category:

Documents


2 download

TRANSCRIPT

USULAN PENELITIAN RANCANG BANGUN SEARCH ENGINE TAFSIR AYAT-AYAT AL-QURAN YANG SESUAI DENGAN DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE JACCARD SIMILARITY Oleh: Sofi Silvia Sulistiani Purwandari NIM. 08650007 JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NEGERI (UIN) MAULANA MALIK IBRAHIM MALANG 2011 1 1.JUDUL RANCANGBANGUNSEARCHENGINETAFSIRAYAT-AYATAL-QURAN YANGSESUAIDENGANDOKUMENTEKSBERBAHASAINDONESIA MENGGUNAKAN METODE JACCARD SIMILARITY 2.LATAR BELAKANG Al-QuranadalahmukjizatAllahyangditurunkankepadaNabiMuhammad melaluimalaikatJibril.KitabAllahyangpalingsempurnadanmerupakan petunjuk dari segala petunjuk. Setiap Muslim tentu menyadari, bahwa Al-Quran adalahkitabSuciyangmerupakanpedomanhidupdandasarsetiaplangkah hidup. (Hadhiri, 2005).Selain itu,kemurnian Kitab Suciini dijamin langsung olehAllahdanpadakenyataannyadapatdilihatbahwasatu-satunyakitabsuci yang mudah dipelajari bahkan sampai dihafal oleh beribu-ribu umat Islam adalah Al-Quran. Al-Quran mempunyai banyak pelajaran yang terkandung di dalamnya. Pelajaran yang sangat berharga dan terkandung di dalam Al-Quran seperti firman Allah dibawah ini : QS. Al-Maidah:49 p4 7;O- 4LuO4.E) 44O^ +.- 4 ;7)l4>-47.-4Ou- -OEOu-4p CONLg^4C }4N ^*u4 .4`44O^ +.- El^O) W p)W-O-4O> Uu 4^^C@ONC +.- p g=ONC^*u4l) jgjO+^O Ep)4-LOOg1E =}g)` +EEL-4pOOE ^j_ 49. dan hendaklah kamu memutuskan perkara di antara mereka menurut apa yangditurunkanAllah,danjanganlahkamumengikutihawanafsumereka.dan berhati-hatilahkamuterhadapmereka,supayamerekatidakmemalingkankamu 2 darisebahagianapayangtelahditurunkanAllahkepadamu.jikamereka berpaling(darihukumyangtelahditurunkanAllah),Makaketahuilahbahwa SesungguhnyaAllahmenghendakiakanmenimpakanmushibahkepadamereka disebabkansebahagiandosa-dosamereka.danSesungguhnyakebanyakan manusia adalah orang-orang yang fasik. ;4 4^uO-OEC 4p-47O^-@O^g]~-g E_ }g` OgOG`^gg Dan sesungguhnya telah Kami mudahkan Al-Quran untuk pelajaran, maka adakah orang yang mengambil pelajaran. (QS. Al-Qamar: 22) Al-Quran juga merupakan petunjuk bagi umat manusia seperti dalam ayat Al-Quran berikut ini:QS. Al-Baqarah :1-2 .- ^ ElgO CU4-:^- =UuC4O O gOOg O O1-=}1+Ug ^g 1. Alif laam miin. 2.Kitab(Al-Quran)initidakadakeraguanpadanya;petunjukbagimereka yang bertaqwa Selain itu, Al-Quran banyak memuat ilmu pengetahuan yang dapat dibaca secarainduktifmaupundeduktifyangbanyakbermanfaatbagimanusia (Wardhana,2006).IsikandungandariAl-Quranjugadapatmenjelaskanilmu pengetahuandanteknologiyangbahkanmasihditemukanmaupunberkembang sekarang ini. Salah satu bukti adalah fakta bahwa beberapa kebenaran ilmiah yang ternyatabarumampuditemukansekitarabadke-20ternyatatelahadadalamAl-Quran lebih dari 1400 tahun yang lalu. Dalam sejumlah ayat juga terdapat banyak faktailmiahyangdinyatakansecarasangatakuratdanbenaryangbarudapat ditemukan dengan teknologi abad ke-20. Fakta-fakta ini belum dapat diketahui di 3 masaAl-Qurandiwahyukan,daninisemakinmembuktikanbahwaAl-Quran adalah firman Allah. Seperti Firman Allah dibawah ini. )_C)ON6Ec 4Lg4C-47 O)-E- EO)4 jgO^_/4EO 4E-4lE4C _ +O^^O-O4^- 4 -'4CEl)4O) +O^^ _O>4N ]77/E* NOjgE+ ^)@Kamiakanmemperlihatkankepadamerekatanda-tanda(kekuasaan)Kamidi segenap ufuk dan pada diri mereka sendiri, sehingga jelaslah bagi mereka bahwa Al-Qur`anituadalahbenar.DanapakahTuhanmutidakcukup(bagikamu) bahwa sesungguhnya Dia menyaksikan segala sesuatu? (Fushshilat: 53) Dari ayat-ayat di atas dapat kita ketahui bahwa Al-Quran merupakan petunjuk bagimanusia.SegalapermasalahandanpemecahannyaharuslahberlandaskanAl-Quran.HanyasajabanyaksekalikesulitanuntukmenemukanayatAl-Quran yang sesuai dengan permasalahan. Ditambah kesulitan memahami terjemahan Al-Quranyangbahasanyakadangmasihmembingungkan,ayat-ayatAl-Quranyang mengandungtopikberbeda-bedadalamsatusuratsertapersamaantopikpada suratyanglain,dansebagainya.SebagaiseorangMuslim,sudahseharusnyakita menjadikanAl-Quransebagaipedomanhidupdanpetunjukbagisetiap permasalahan.Menjadikannyacerminmelihatdanmengukurakhlakdansetiap aktivitas yang kita lakukan. Hal itulah yang memotivasi untuk merancang dan membuat suatu sistem yang dapatmemudahkanseseorangdalammenemukanpadananayatAl-Quranyang sesuaidengansuatuteks/dokumentertentu.Dalammencaripadananayatdalam tafsir Al-Quran tersebutpeneliti mengukur kemiripan dari dokumenyangterkait. 4 Dokumen berupa teks yang berbahasa Indonesia. Data ini sebagai sebuah inputan melaluibeberapaprosessebelumdisamakandengantafsirAl-Quranberbahasa Indonesia.TafsirAl-Quraninidalambentukdatabasedandalampenelitianini,penelitimenggunakanmetodeJaccardSimilaritydalamprosesmenemukan padanan ayat yang sesuai dengan isi dokumen. 3.RUMUSAN MASALAH BagaimanamembangunsistemuntukmencaripadananayatdariTafsir Al-Quran dengan dokumen teks yang dikehendaki menggunakan metode Jaccard Similarity? 4.BATASAN MASALAH a.Aplikasi yang akan dibuat berbasis desktop dengan bahasa pemrograman JAVA (Java 2 Standart Edition) dengan database MySQL. b.Teksyangakandiinputkandalamformattxtdanmerupakanisidari sebuah bacaan (tidak termasuk daftar pustaka dan sebagainya). c.Tafsir Al-Quran yang digunakan adalah Tafsir Jalalain. d.Padatahappreprocessing,stemmingbahasaIndonesiamenggunakan algoritma stemming Arifin. e.PadanandokumendengantafsirAl-Qurandiukurberdasarkantingkat frekuensi kemunculan kata. f.Dalammengukurbobotfrekuensikemunculankata,untukmengetahui pengaruhalgoritmapembobotannyamenggunakanpembobotanterm frequency- inverse document frequncy (TF-IDF) ternormalisasi. g.Dalam mencari padanan (similarity) dokumen dengan terjemahan ayat Al-Quran menggunakan metode Jaccard similarity. 5.TUJUAN Tujuandaripenelitianadalahuntukmembangunsistemyangdapatmencari padananayatdariTafsirAl-QuranJalalaindengandokumenteksyang dikehendaki menggunakan metode Jaccard Similarity. 5 6.MANFAAT Manfaatpenelitianiniadalahuntukmempermudahuserdalampencocokan teksIndonesiadenganbeberapaayatAl-QuranmenggunakanTafsirJalalain secara efisien. 7.TINJAUAN PUSTAKA a.Text Mining TextMiningadalahsebuahprosesuntukmenggali,mengolahdanmengatur informasidengancaramenganalisahubungan,poladanaturan-aturanyangada padadatatekstualsemiterstrukturatautidakterstruktur.Kuncidariprosesini adalah menggabungkan informasi yang berhasil diekstraksi dariberbagai sumber (Tan,1999).Tujuanyangpalingutamadariprosesiniadalahmendukungproses knowledge discovery pada koleksi dokumen yang besar. Dalamteksmininginidibagidalam3prosesutama,yaituText Preprocessing, Text Transformation dan Pattern Discovery.1.Text Preprocessing Dalamtextmining,tahapanawalyangdilakukanadalahtextpreprocessing. Tahapinibertujuanuntukmempersiapkanteksmenjadidatayangakandiproses padatahapanberikutnya.Terdapatbeberapahalyangdilakukandalamtahapan ini, baik itu berupa tindakanyang bersifat kompleks sepertipart-of-speech (pos), tagging,parsetree,maupuntindakansederhanasepertitokenization,yaitutugas memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjaditoken atau potongan kata tunggal atautermmed word. Tahapan ini juga menghilangkan karakter-karaktertertentusepertitandabacadanmengubahsemuatokenke bentuk huruf kecil (case folding) (Husni). 2.Text Transformation (feature generation) Padatahapinidilakukanpenyaringan(filtration)denganmenghilangkan stopword. Stopword merupakan kata-katayang bukan merupakan ciri (kata unik) sehinggadenganmenghilangkannyadarisuatutextmakasistemhanyaakan memperhitungkankata-katayangdianggappenting.Penghapusanstop-worddari 6 dalamsuatukoleksidokumenpadasatuwaktumembutuhkanbanyakwaktu. Solusinyaadalahdenganmenyusunsuatupustakastop-wordataustop-listdari termyangakandihapus.Konversitermkebentukakar(stemming)juga merupakantindakanyangdapatdilakukanpadatahapini.MenurutTala(2003) stemming merupakan proses untuk mereduksi kata ke bentuk dasarnya.KarenapadapenelitianinimenggunakandokumenteksbahasaIndonesia makadalammelakukanprosesstemmingkatakebentukdasarnyaperlu mengetahuitentangstrukturbahasaIndonesia.Danpadapenelitianinialgoritma yangdigunakandalammelakukanstemmingbahasaIndonesiaadalahalgoritma Arifin. Pembahasan tentang stemming akan dipaparkan berikutnya. 3.Pattern Discovery Tahapinimerupakantahapterpentingdariseluruhprosestextmining.Pada penelitianini,operasiyangdilakukanadalahclusteringdenganpengukuran kemiripan text (similarity). Teknikyang digunakan pada tahap iniadalah dengan melakukanpembobotan(weighting)terhadaptermdarihasiltahaptext transformation.Setiaptermdiberikanbobotsesuaidenganskemapembobotan yang dipilih, baik itu pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasimenerapkanpembobotankombinasiberupaperkalianbobotlokalterm frequencydanglobalinversedocumentfrequency,ditulistf.idf.Disinipeneliti akan menggunakan tf.idf yang telah dinormalisasi. Dandalamkemiripanantardokumendidefinisikanberdasarkanrepresentasi bag-of-wordsdandikonversikesuatumodelruangvektor(vectorspacemodel, VSM).ModelinidiperkenalkanolehSalton(Salton,1983)dantelahdigunakan secaraluas.Setelahmerepresentasitermkedalambentukvektorakandilakukan prosespencariankemiripandenganmenghitungnilaicosinusantarvektoryang dalampenelitianinimenggunakanmetodeJaccardsimilarityyangakan dijelaskan pada pembahasan berikutnya. b.Algoritma Stemming Arifin dan Setiono DalamAlgoritmaArifindanSetionoinididahuluidenganpembacaantiap katadaridatayangada.SehinggatahapyangdilakukandalamAlgoritmaini adalah sebagai berikut : 7 1.Pemeriksaansemuakemungkinanbentukkata.Setiapkatadiasumsikan memiliki 2 Awalan (prefiks) dan 3 Akhiran (sufiks). Sehingga bentuknya menjadi: Jikadalamkatayangdiperiksatidakmemilikiimbuhansebanyak imbuhansepertiformuladiatas,makaimbuhanyangkosongatautidakada tersebut diberi tanda x untuk prefiks dan diberi tanda xx untuk sufiks. 2.PemotongandalamAlgoritmainidilakukansecaraberurutansebagai berikut : AW : AW (Awalan) AK : AK (Akhiran) KD : KD (Kata Dasar) a.AW I, hasilnya disimpan pada pe1 (prefiks 1) b.AW II, hasilnya disimpan pada pe2 (prefiks 2) c.AK I, hasilnya disimpan pada su1 (sufiks 1) d.AK II, hasilnya disimpan pada su2 (sufiks 2) e.AK III, hasilnya disimpan pada su3 (sufiks 3) Dalamsetiaptahappemotongandiatasselaludiikutidengan pemeriksaandidalamkamus.Haliniuntukmengetahuiapakahhasil pemotongan tersebut sudah ada dalam bentuk dasar. Apabila pemeriksaan ini berhasilmakaprosesdinyatakanselesaidantidakperlumelanjutkanproses pemotonganimbuhanselanjutnya.Contohpemenggalankata mempertanyakannya: a.Langkah 1 : Cek kata tersebut dalam kamus Ya: Sukses Tidak: melakukan pemotongan AW I Kata = pertanyakannya b.Langkah 2 : Cek kata tersebut dalam kamus Ya : Sukses Prefiks 1 + Prefiks 2 + Kata dasar + Sufiks 3 + Sufiks 2 + Sufiks 1 8 Tidak : melakukan pemotongan AW II Kata = tanyakannya c.Langkah 3 : Cek kata tersebut dalam kamus Ya : Sukses Tidak : melakukan pemotongan AK I Kata = tanyakan d.Langkah 4 : Cek kata tersebut dalam kamus Ya : Sukses Tidak : lakukan pemotongan AK II Kata = tanya e.Langkah 5 : Cek kata tersebut dalam kamus Ya : Sukses Tidak : lakukan pemotongan AK III.Dalam hal ini AK III tidakada, sehingga kata tidak diubah. Kata = main f.Langkah 6 Cek kata tersebut dalam kamus Ya : Sukses Tidak : "Kata tersebut tidak ada" 3.Akan tetapi, apabila sampai pada pemotongan AKIII, belum ditemukan dalam kamus, maka akan dilakukan proses kombinasi.Katadasaryangdihasilkandikombinasikandenganimbuhan-imbuhannya dalam 12 konfigurasi berikut : a.KD b.KD + AK III c.KD + AK III + AK II d.KD + AK III + AK II + AK I e.AW I + AW II + KD f.AW I + AW II + KD + AK III 9 g.AW I + AW II + KD + AK III + AK II h.AW I + AW II + KD + AK III + AK II + AK I i.AW II + KD j.AW II + KD + AK III k.AW II + KD + AK III + AK II l.AW II + KD + AK III + AK II + AK I Kombinasia,b,c,d,h,danlsudahdiperiksapadatahapsebelumnya, karenakombinasiiniadalahhasilpemotonganbertahaptersebut.Dengan demikian,kombinasiyangmasihperludilakukantinggal6yaknipada kombinasi-kombinasiyangbelumdilakukan(e,f,g,i,j,dank).Apabila dalamproseskombinasiyangdilakukanituada,makapemeriksaanpada kombinasi lainnya sudah tidak diperlukan lagi. Pemeriksaandalam12kombinasiinisangatdiperlukan,halini dikarenakanfenomenaoverstemmingpadaalgoritmapemotonganimbuhan. Kelemahaniniberakibatpadapemotonganbagiankatayangsebenarnya adalahmilikkatadasaritusendiriyangkebetulanmiripdengansalahsatu jenisimbuhanyangada.Dengan12kombinasiitu,pemotonganyangsudah terlanjur tersebut dapat dikembalikan sesuai posisinya. (Arifin-Setiono, 2000) AlasandalampemilihanAlgoritmaStemminginisalahsatu keuntungannyaadalahjikakatadasardarisebuahkataturunantidakdapat ditemukansetelahmenghilangkanprefixdansuffixnyamakaalgoritmaini akanmencobamengembalikankembalisemuaimbuhanyangtelah dihilangkantadidenganmenggunakan12kombinasiuntukdikombinasikan dengankatahasilstemmingdarikataturunanyangkatadasarnyatidak ditemukan dalam kamus. c.Algoritma Pembobotan Pembobotan tf-idf ternormalisasi Dalampembobotantf-idfternormalisasiinimenggabungkanduakonsep untukperhitunganbobotyaitu,pertamafrekuensikemunculansebuahkatadi dalamsebuahdokumentertentudankeduainversefrekuensidokumenyang mengandungkatatersebut.Frekuensikemunculankatayangadadidalam 10 dokumenmenunjukkanseberapapentingkatatersebutdidalamdokumen tersebut.Frekuensidokumenyangmengandungkatatersebutmenunjukkan seberapaumumkatatersebut.Jadi,bobothubunganantarasebuahkatadan sebuahdokumenakantinggiapabilafrekuensikatatersebuttinggididalam dokumendanfrekuensikeseluruhandokumenyangmengandungkatatersebut yang rendah pada kumpulan dokumen atau database. Rumus umum untuk tf-idf: wij = tfij x idfi (1)

(2) dimana:i= dokumen ke-i j=kata ke-j dari kata kunci w= bobot dokumen ke-i terhadap kata ke-j N=jumlah semua dokumen yang ada dalam database n=jumlah dokumen yang mengandung kata/term tj (minimal ada satu kata yaitu term tj) Berdasarkanpadarumusdiatas,berapapunbesarnyanilaitfij,apabilaN=n makaakandidapatkanhasil0(nol)untukperhitunganidf.Untukitudapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan bobotnya menjadi sbb:

(

) (3) Rumus(3)dapatdinormalisasidenganRumus(4)bertujuanuntuk menstandarisasi nilai bobot ke dalam interval 0 s.d. 1, sbb: Rumus tf-idf dengan menggunakan normalisasi

(

)

(

)

(4) Berdasarkandarihasilperhitungandiatas,dapatdilihatbahwasemakin sedikit suatuterm ditemukan dalam documen dan semakin banyakterm tersebut 11 dalamdokumentersebut,makabobothubunganantaratermterhadapdokumen akan semakin besar. (Intan) Faktornormalisasiinidigunakanuntukmenormalkanvektordokumen sehinggaprosessimilaritytidakterpengaruholehpanjangdaridokumen. Normalisasiinidiperlukankarenadokumenpanjangbiasanyamengandung perulangantermyangsamasehinggamenaikkanfrekuensiterm(tf).Dokumen panjang juga mengandung banyak term yang berbeda sehingga menaikkan ukuran kemiripan antara query dengan dokumen tersebut. d.Vector Space Model (VSM) Pada Information Retrieval System terdapat beberapa metode yang digunakan dalamSearchingsalahsatunyaadalahdenganmerepresentasikanprosesSearchingmenggunakanModelRuangVektor(VectorSpaceModel).Untuk mengimplementasikanmodelruangvektor,diasumsikansudahtersedia sekumpulantermyangdapatmendeskripsikankumpulandokumenyang tersimpandalamsuatusistemtemu-kembaliinformasi.Baikquerymaupun dokumen-dokumenyangdisimpan,dinyatakandalambentukvector(Salton, 1983).Misalkanterdapatsejumlahnkatayangberbedasebagaikamuskata (vocabulary) atau indeks kata (terms index). Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikanbobotsebesarwi.Baikdokumenmaupunquerydirepresentasikan sebagai vektor berdimensi n. Sebagai contoh terdapat 3 buah kata (T1, T2 dan T3), 2 buah dokumen (D1 dan D2) serta sebuah query Q. Masing-masing bernilai:D1 = 2T1+3T2+5T3 D2 = 3T1+7T2+0T3 Q = 0T1+0T2+2T3

12 Gambar 1: Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta query Q1 Koleksi dokumen direpresentasikan juga dalam ruang vector sebagai matriks kata-dokumen(term-documentmatrix).Nilaisetiapseldalamelemenmatriks bersesuaiandenganbobotyangdiberikandarisuatutermdalamdokumenyang ditentukan.Nilainolberartibahwatermtersebuttidakhadirdidalamdokumen. (Cios, Krzysztof: 2007). Misalkan terdapat sekumpulan kata Tsejumlah n, yaituT = (T1, T2, , Tn)dansekumpulandokumenDsejumlahm,yaituD=(D1,D2,,Dm)sertawij

adalahbobotkataipadadokumenj.Makagambar2adalahrepresentasi matriks kata-dokumen (Mandala, 2006). Gambar 2: Contoh Representasi matriks kata-dokumen KeberhasilandariModelRuangVektoriniditentukandariskema pembobotanterhadapsuatutermuntukcakupanlokalmaupunglobal,danfaktor normalisasi. e.Jaccard Similarity Dalam penelitian kali ini metode kemiripan yang digunakan adalahJaaccard Similarity.IndeksJaccard,jugadikenalsebagaikoefisienJaccardSimilarity diciptakanolehPauldecommunautJaccardadalahstatistikyangdigunakan untuk membandingkan kesamaan dan keragaman set sampel. Koefisien Kesamaan 13 antaraJaccardmengukursetsampeldandidefinisikansebagaiukurandari persimpangan dibagi ukuran persatuan set. f.Tingkat Kemiripan Persamaanuntukmendapatkankemiripanantaraquerydengandokumen adalah: (5) Contoh: Dilakukan pencarian dengan menggunakan kata kunci pelajaran Al-Quran, di dalam database terdapat 3 dokumen: D1:Sesungguhnyapadayangdemikianitubenar-benarterdapattanda-tanda) yakni pelajaran bagi orang-orang yang beriman D2:(DansesungguhnyatelahkamimudahkanAlquranuntukpelajaran, maka adakah orang yang mengambil pelajaran?) D3:(Ingatlah)DisinimenunjukkanmaknaIstiftahataukataituAl-Quran Katayangtidakterdapatdalamtabeladalahstopwordyangdihilangkan sebelumpembobotan.Dalamtablemerupakankata-katadasaryangtelah dilakukannprosesstemmingdanpembentukanvectoryaitupadaprosestext transformation. Pembentukanvektordariquerydandokumendenganpembobotantfdapat dilihat pada Tabel 1 Tabel 1 Term Vektor ModelCount, tfiWeight,

(

)

(

)

TermQD1D2D3dfi D/dfiIDFi QD1D2D3 sungguh011023/2=1.50.176100.52880.33050 mudah001013/1=30.4771000.4150 14 Al-Quran101123/2=1.50.17610.70700.33050.492 ajar112023/2=1.50.17610.7070.52880.66110 ambil001013/1=30.4771000.4150 iman010013/1=30.477100.664100 makna000113/1=30.47710000.618 Istiftah000113/1=30.47710000.618 Untuk semua dokumen dan query, dihitung semua vektor length: Wij12=

.002 Wij22=

Wij32=

Wiq2=

Setelah itu dihitung semua dot product: Wiq Wij1 = 0.707 * 0.5288 = 0.3738 Wiq Wij2 = (0.707 * 0.3305) + (0.707 * 0.6611) = 0.7009 Wiq Wij3 = 0.707 * 0.492 = 0.3478 Dan kemudian menghitung nilai dari kemiripan

Dariperhitungantersebutjikadiurutkanberdasarkannilaikemiripanantara querydengandokumen,yaitudarinilaiyangpalingmendekati1,makasebagai berikut: Rank 1: dokumen 2 = 0.5411 Rank 2: dokumen 3 = 0.209 Rank 3: dokumen 1 = 0.229 15 8.PENELITIAN TERKAIT Terdapatbeberapapenelitianyangterkaitdenganpenelitianyangdilakukan oleh penulis, diantaranya yaitu: a.PengembanganAplikasiPendeteksiPlagiarismeMenggunakanMetode Latent Semantic Analysis (LSA) PenelitianyangdilakukanolehmahasiswajurusanIlmuKomputerini termasuk dalam bidang text mining. Document similarity sebagai bagian dari bidang text mining ini diimplementasikan oleh peneliti dalam pengembangan aplikasipendeteksiplagiarismedenganmengukururnilai antardokumen.DalammetodeLatentSemanticAnalysis(LSA)yang digunakanolehpenelititerdapatbeberapatahapyangdilakukanhingga mendapatnilaisimilarityantaradokumendengandokumenyanglainnya, tahapan tersebut adalah parsing text dan pembobotan dengan algoritma Term Frequency-Inverse Document Frequence (TF-IDF) hingga tahap perhitungan similarity dengan menggunakan cosine similarity. b.HARD : Subject-Based Search Engine Menggunakan TF-IDF dan Jaccards Coefficient Paper ini memperkenalkan suatu algorima search engine berdasarkan konsep HARD (High AccuracyRetrieval from Documents) dengan menggabungkan penggunaan metoda TF-IDF (Term Frequency Inverse Document Frequency) danJaccardsCoefficient.Similaritytermterhadaptermbisajuga didapatkan dengan menerapkan metode Jaccards Coefficient. MetodeTf-Idf merupakansuatucarauntukmemberikanbobothubungansuatukata(term) terhadapdokumen.Metodeinimenggabungkanduakonsepuntuk perhitunganbobot.Pencariansimilarityiniperludidasarkanpadasesuatu yangmemilikirelasidenganterm.Dalamhalinidigunakanhubungantermterhadapsubyekmaupundokumenyangtelahdidapatkan.Masingmasing hubungan antara term terhadap subyek dan hubungan term terhadapdokumen memiliki kelemahannya masing-masing.c.AutomatedMultipleRelatedDocumentsSummarizationviaJaccards Coefficient 16 DalampaperinimenggunakanJaccardCoefficientuntukmencaredokumen yang sama. Dalam menggunakan Jaccard Coefficent, juga menggunakan text miningdanstemming.Disinidibandingkanperhitunganmenggunakan systemyangtelahjadidenganperhitunganmanualdanhasilnyatidak berbeda jauh. 9.METODE PENELITIAN Dalampenelitianiniterdapatbeberapatahapdalampengerjaanuntuk digunakansebagaiawaldalammenyelesaikanpenelitian.Acuanini menjelaskanapayangharusdilakukandalampenelitianhinggapembuatan laporan akhir. Tahap-tahap dalam penelitian adalah sebagai berikut: Pattern Discovery / Analysis Hasil padanan Ayat Evaluasi dan Uji CobaPenyusunan Laporan Akhir Ukuran kemiripan(Jaccard similarity) Text Preprocessing TeksTransformation VSM (Vector Space Model) VSM (Vector Space Model) Pembobotan tf-idf ternormalisasi Stemming FilteringStemming Case FoldingTokenizationCase FoldingTokenization Filtering Pengambilan Data Teks dokumen berbahasa Indonesia Database Tafsir Jalalain Al-Quran Pencarian Literatur Pembobotan tf-idf ternormalisasi 17 Gambar 3: Tahapan penelitian 1.Pengumpulan literatur Dalamtahapinidikumpulkanbeberapainformasiseperti:Pertama, Pengumpulaninformasitentangcaramengolahkatadankalimatdalam PemrogramanJavadaninformasitentangpenggunaandatabasedalam pengolahantersebut.Kedua,pencariandatatafsirAl-QuranJalalain berbahasaIndonesia.Datatafsirinididapatkanmelaluisitus http://www.maktabah-alhidayah.tk/.Ketiga,Pengumpulaninformasitentang bagaimana cara menghitung frekuensi kemunculan kata pada suatu dokumen dalammelakukanpembobotandanrepresentasimodelruangvektor. Pengumpulaninformasitentangmetodepencarianpadanan(similarity)ayat yang sesuai dengan dokumen serta teknik-tekniknya. 2.Perancangan dan Desain Aplikasi Perancangan aplikasi terdiri dari perancangan proses-proses utama dan desain aplikasiterdiriatasdesainantarmukadandesaindatabaseAl-Quran terjemah.Terdapatbeberapaprosesutamayaitu:textpreprocessing(case folding,tokenization),texttransformation(filtering,stemming),danyang ketigaadalahPatternDiscoveryyaitudenganmelakukanrepresentasinilai numerik (model ruang vektor, normalisasi, pembobotan tf-idf ternormalisasi) danmengukurkemiripandenganJaccardSimilarity.Pemodelanproses-proses tersebut dibuat dalam UML dengan menggunakan aplikasi pemodelan visual Rational Rose. 3.Pembuatan aplikasi Padatahapini,perancangandandesainaplikasidiimplementasikandengan bahasapemrogramanJavadandatabaseMySQL.Aplikasidibangundengan IDE NetBeans 6.9 untuk mempermudah desain antarmuka dan database yang 18 digunakanadalahMySQL.PemilihaninidikarenakanMySQLmudahdan tidak berat dalam pengoperasiannya. 4.Uji coba dan evaluasi Ujicobadanevaluasidilakukanpadaaplikasidanhasildaripencarian padanan ayat yang sesuai dengan teks. 5.Penyusunan laporan Penyusunanlaporanakhirmerupakandokumentasidarikeseluruhan pelaksanaanpenelitian.Diharapkandokumentasipenelitianbergunadan bermanfaat untuk penelitian atau pengembangan lebih lanjut. 10. RANCANGAN SISTEM Dalamsisteminiterdapatsatuaktor,yaituuser.Userdapatmenginputkan dokumenyangkemudianakandiprosesdalamsistemuntukdicocokkandengan databaseTafsirAl-QuranberbahasaIndonesiasehinggaakandiperolehpadanan ayat yang sesuai dengan input dokumen oleh user. Gambar 4: Diagram usecase Untukmemperolehpadananayatyangsesuaidengandokumenyang diinputkanuserterdapatakanmelaluitahapanprosestextmining,yaitu:text prepocessing, text transformation, dan pattern discovery. 1.Text prepocessing Tahapanawalyangdilakukanadalahprepocessing,langkah-langkahyang akandilakukanadalahcasefoldingataudalamJavadisebuttoLowerCase,yaitu mengubahsemuahurufdalamdokumenteksmenjadihurufkecil.Kemudian dilakukanprosesparsing.Parsingyangdigunakandalampenelitianiniyaitu memecahdokumenteksmenjadikumpulankata-katatanpamemperhatikan User Input data Hasil Padanan Ayat Al-Quran 19 keterkaitanantarkatadanperanataukedudukannyadalamkalimatdanseperti yangdijelaskansebelumnya,karakteryangditerimadalampembentukankata adalahkarakterhurufsajasehinggaselainhurufakandihapus.Prosesinijuga seringdisebutdisebuttokenizing.Jadi,sepertikataulangyangadadalamkaidah bahasaIndonesia,iniakandiuraimenjadiduakatabukansatukesatuankata. Setelah itu, akan disimpan dalam database. Dalam proses ini terdapat perulangan hinggakata=0.Apabilakata>0makaprosesiniakanterusberlanjut.Berikut diagram alir tentang proses text preprocessing : Gambar 5: Diagram alir tahap prepocessing 2.Text transformation Tahaptexttransformationinidilakukanfiltering,yaitudengan menghilangkanstop-worddaridaftartermyangtelahdiprosesdalam preprocessingdandisimpandalamdatabase.Daftarstop-wordyangakan digunakandalampenelitianinibersumberdariTala(2003).Laluakandilakukan proses stemming (mencari akar kata) menggunakan algoritma stemming Arifin. START Dokumen END Merubah menjadi huruf kecil (toLowerCase) Pemotongan dokumen per-kata dan menghilangkan tanda baca (Tokenization) Simpan dalam database Jumlah kata > 0 T Y START kata hasilproses preprocessing 20 Gambar 6: Diagram alir penghilangan stop-word (filtering)

Gambar 7: Diagram alir algoritma stemming Arifin 3.Pattern Discovery Padatahapinidilakukanrepresentasinilainumerikyaitudenganmelakukan pembobotan, normalisasi, dan model ruang vektor (vektor space model). Dari nilai vectortersebutdiukurkemiripandenganmenghitungJaccardantarvektorquery dengan vektor tiap tafsir Al-Quran sehingga diperoleh nilai dengan range antara 0 sampe 1, semakin nilai mencapai angka 1 maka dokumen tersebut semakin sama. START END KataMemotong Imbuhan Cek kombinasi balikan Kata dasar ketemu Y T 21 Gambar 8: Diagram alir tahap pattern discovery 11. JADWALPenelitian dibuat dengan menganut jadwal yang tertera pada tabel 2.Tabel 2: Jadwal pelaksanaan penelitian NoUraian IIIIIIIV 1234123412341234 1. Studi literature dan pengumpulan data 2.Perancangan system dan interface 3.Tahap preprocesing 4.Proses Stemming Arifin 5. Pembobotantf-idf ternormalisasi 6. Representasi vector space model (VSM) 7. Pembuatan pencari ayat sederhana dan Uji coba tahap awal 8.Evaluasi9. Pencocokan document dengan Jaccard similarity START Hitung nilai pembobotan (Weighting) TF-IDF Ternormalisasi Representasi Vector Space Model Hitung nilai Similarity (Jaccard Similarity) Hasil Perhitungan (0-1) Padanan Ayat yang sesuai END Daftar term dalam koleksi 22 10.Evaluasi tahap 2 11. Dokumentasi dan pembuatan laporan 12. DAFTAR PUSTAKA Al-Quran al-Karim Arifin,AgusZainaldanAriSetiono,Novan.KlasifikasiDokumenBerita KejadianBerbahasaIndonesiadenganAlgoritmaSinglePassClustering. InstitutTeknologiSepuluhNovember(ITS).Surabaya. http://www.its.ac.id/personal/files/pub/667-agusza-SITIAKlasifikasiEvent.pdf. Diakses pada 25 Juli 2011 Cios,KrzysztofJ.Etc.(2007)DataMiningAKnowledgeDiscoveryApproach, Springer.http://uploading.com/files/get/c96m96a8/.Diaksespadatanggal 8 Juni 2011 Hadhiri, Choiruddin SP. 2005. Klasifikasi Kandungan Al-Qur'an .Jakarta : GEMA INSANIIntan, Rolly, et al. HARD: Subject-Based Search Engine Menggunakan Tf-Idf dan Jaccards Coefficient. Universtas Kristen Petra Surabaya.http://www.maktabah-alhidayah.tk/ . Diakses pada tanggal 30 November 2011 http://www.republika.co.id/berita/dunia-islam/islam-nusantara/10/09/25/136336-jumlah-penghafal-alquran-indonesia-terbanyak-di-dunia.Diaksespada tanggal 20 Agustus 2011 http://en.wikipedia.org/wiki/Jaccard_index#Tanimoto_Similarity_and_Distance Diakses pada tanggal 20 Agustus 2011 http://vemby-yoel.blogspot.com/2011/05/text-mining.htmlDiaksespadatanggal 20 Agustus 2011 http://liyantanto.wordpress.com/2011/06/28/pencarian-dengan-metode-vektor-space-model-vsm/ Diakses pada tanggal 20 Agustus 2011 http://people.revoledu.com/kardi/tutorial/Similarity/WhatIsSimilarity.html#Distance Diakses pada tanggal 20 Agustus 2011 23 http://people.revoledu.com/kardi/tutorial/Similarity/Jaccard.htmlDiaksespada tanggal 20 Agustus 2011 http://people.revoledu.com/kardi/tutorial/Similarity/index.htmlDiaksespada tanggal 20 Agustus 2011 http://en.wikipedia.org/wiki/Jaccard_indexDiaksespadatanggal20Agustus 2011 http://www.lans.ece.utexas.edu/~strehl/diss/node56.htmlDiaksespadatanggal 20 Agustus 2011 http://jenigroup.blogspot.com/2009/01/kekurangan-dan-kelebihan-java.html Diakses pada tanggal 20 Agustus 2011 Mandala,Rila.2006.EvaluasiKinerjaSistemPenyaringanInformasiModel Ruang Vektor . Institut Teknologi Bandung Martin,Indrajani.2007.PemrogramanBerbasisObjekdenganBahasaJava. Jakarta : Elex Media Komputindo Polettini,Nicola.2004.TheVectorSpaceModelinInformationRetrieval Term Weighting Problem RaymondJ.Mooney.2006.CS391L:MachineLearningTextCategorization. University of Texas at Austin. Salton,Gerard.1983.IntroductiontoModernInformationRetrieval,McGraw Hill Sanjaya,Ridwan,SE,S.Kom.2005.PengolahanDatabaseMySQL5dengan Java 2. Yogyakarta: Penerbit Andi Swastika, Windra. 2006. PHP 5 dan MYSQL 4 Proyek Membuat BLOG. Jakarta : Dian Rakat Thalib,Farid.2010.PembuatanProgramAplikasiuntukPendeteksian KemiripanDokumenTeksdenganAlgoritmaSmithWaterman. Universitas Gunadara. Depok Tata,Sandeep,PatelM,Jignesh.2007.EstimatingheSelectivityoftf-idfbased Cosine Similarity Predicates, Sigmod Record December 2007 Vol 36 No. 2 Tala., Fadillah Z. 2003. A Study of Stemming Efects on Information Retrieval in BahasaIndonesia.InstituteforLogic,LanguageandComputation 24 UniversiteitvanAmsterdamTheNetherlands. www.illc.uva.nl/publications/ResearchReport/Mol200302.text.pdf. Diakses tanggal 8 Juni 2011.Trunojoyo,Husni.BukuAjar.InformationRetrievaldanKlasifikasi. http://husni.trunojoyo.ac.id/wp-content/uploads/2010/03/Husni-IR-dan-Klasifikasi.pdf. Diakses pada 8 Juni 2011. Yasin,Huda.2011.AutomatedMultipleRelatedDocumentsSummarizationvia Jaccards Coefficient. University of Karachi. Pakistan Wardhana, Wisnu Arya. 2006.Melacak Teori Einstein dalam Al-Qur'an. PUSTAKA PELAJAR : Yogyakarta USULAN PENELITIAN RANCANG BANGUN SEARCH ENGINE TAFSIR AYAT-AYAT AL-QURAN YANG SESUAI DENGAN DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE JACCARD SIMILARITY Oleh SOFI SILVIA S.P NIM. 08650007 Telah Disetujui oleh : 25 PengujiI M. Faisal, M.T 19740510 200501 1 007 Penguji II Zainal Abidin, M.Kom 19760613 200501 1 001 Penguji III Fatchurrohman, M.Kom 19700731 200501 1 002 26 - Input artikel - - Output hasil padanan ayat - file cari Input: Hasil: