artikel sentia rudy 2013
DESCRIPTION
system cerdasTRANSCRIPT
4rgtm'v/;----7-
'7*a€3dr-*%.
PERAN PENGEMBANGANAPLIKASI TEKNOLOGI INFORMASI
DALAM BIDANG ENERGI DAN MANUEAKTUR
r
t
i
DEWAN REDAKSI
KETUADr.Eng. Anggit Murdani, ST., M.Eng.
REVIEWERYKOMITE PROGRAMProf. Dr. Bambang Riyanto (lTB)Dr. lr. Syaad Patmanthara (UM)Hadi Suyono, ST., MT., PhD. (UB)Dr. lr. Agnes Hanna P., MT.Dr. lr. R. Edy Punranto, MSc.Dr. M. Sarosa, Dipl. lng., MT.Dr. M. Maskan, MSi.
Dr.Eng. Anggit Murdani, ST., M.Eng.Dr. Andriani Parastiwi, B.SEET, MT.Dr. Kartika Dewi Sri S., SE, MBAIr. Achmad Chumaidi, MT.Ratih lndri Hapsari, ST., MT., PhD.
KOMITE ORGANISASIRatna lka Putri, ST., MT.Mila Fauziyah, ST., MT.M. Rifa'i, ST., MT.
Lisa Agustriyana, ST., MT.Denda Dewatama, ST., MT.lka Noer Syamsiana, ST., MT.Fauziah S. CSM., ST., MT.Haris Puspito Buwono, ST., MT.Utsman Syah A., ST., MT.Beauty lka A., ST., MT.
M. Nanak Zakaria, ST., MT.Haryono
M. Junus, ST., MT.
Rudi Ariyanto, ST., MT.
Usman Zulhijah, AMd.
mg SENTIA 201 3-Politeknik Negeri Malang Volume 5-ISSN:2085-2347
9. SPATIAL ANALYTICAL HIERARCHY PROCESS UNTUK PENENTUANKECOCOKAN RUANG TERBUKA HUAU
Sigit Priyantar, Guntur Budi Herwanto2......... .(B-57)
II,TENENTUAN ORIENTASI OPINI MENGGUNAKAN METODE SUPERT'ISEDL&IRNING
hrarn Fahrur Rozil, Banni Satriya A.2, Rudy Ariyanto3 (B-64)
ILIENERAPAN ALGORITMA NAZIEF & ADRIANI PADA PREPROSES SISTEMIM5GJKURAN TINGKAT KEMIRIPAN JUDUL TUGAS AKHIR DI PROGRAMfiTTIDI MANAJEMEN INFORMATIKA POLITEKNIK NEGERI MALANG
lLelldfua Rosianir, Dwi Puspitasari2, Banni Satria Andoko3 ........(B-71)
ILMIFIKASI JATUH TEMPO TUNGGAKAN KULIAH MAHASISWA"TSIS SMS GATEWAY DAN APLIKASI WEB(STUDI KASUS POLITEKNIK
AATA}I NADA SOLMISASI SEBAGAI IDENTIFIKASI MULTI POINTMN,f-qIS IYTMF PADA JALA-JALA LISTRIK 22OYI5OHZ
illEffiooor,H€ru Sumamo2.. .....(B-81)
PENCARIAN INFORMASI PEKERJAAN (JOBDROID)
rySErAfrlai r, Amelia LinggaRizky2, Rani Salidowati 3 .(A-87)
SLEEP STAGES DENGAN FITUR TIME DOMAINMETODE TIME DEI,AY NEURAL NETWORK
ltsrimingrrm .....(B-92)
'ASI E-LIBRARY PADA PERGURUAN TINGGI SEBAGAI SOLUSIPUSTAKA YANG MURAH DAN MUDAH
BANGUN PERHITUNGAN ANGKA KREDIT BERDASARKA}IKINERJA DOSEN
Prosiding SENTIA 201 3-Politeknik Negeri Malang Volume 5-ISSN:2085-2347
PENENTUAN ORIENTASI OPINI MENGGUNAKAI\ METODESAPERVISED LEARNING
Imam Fahrur Rozir, Banni Satriya A.2, Rudy Ariyanto3
Politeknik Negeri MalangE-mail : [email protected], [email protected], [email protected]
Abstraksi
Dalam sistem analisis sentimen (opinion mining), data teks opini akan ditentukan orientasinya, apakahtermasuk ke dalam orientasi negatif atau positif. Proses penentuan orientasi teks opini bisa dipandang sebagaiproses klasifikasi atau kategorisasi dokumen teks. Oleh karena itu, metode yang dapat digunakan untukmenyelesaikan masalah klasifikasi teks, sebenamya jula dapat digunakan juga untuk menyelsaikanpermasalahan penentuan orientasi opini. Salahsatu metode yang paling popular digunakan untuk kategorisasiteks adalah menggunakan strategi Supervised Learning, yaitu menggunakan metode Naive Bayes Classifier(NBC).Pada penelitian ini, metode NBC tersebut akan diimplementasikan pada sistem analisis sentimen untukmenentukan orientasi dari suatu kalimat atau teks opini. Sistem yang dibangun akan diujikan pada sekumpulanteks opini tentang perguruan tinggi, yang telah dikoleksi oleh peneliti dengan menyebarkan kuisioner online.Proses pengujian ditujukan untuk mengetahui akurasi sistem yang dibangun menggunakan NBC, yaifi denganmencari rilai precission dan recall. Dari proses pengujian, didapatkan nilai precission sebesar 0.95 dan recallsebesar 0.94.
Kata kunci : Opinion Mining, Supervised Learning,NBC
1. Pendahuluan
Pada bagian pendahuluan disajikan latarbelakang dan tujuan penelitian.
1.1. Latar BelakangInformasi tekstual yang tersebar di dunia ini
tergolong ke dalam 2 kategoi utama yaitLr, faktadan opini. Fakta merupakan ekspresi yang bersifatobyektif atas suatu objek atau entitas, maupunperistiwa. Berbeda dengan fakta, opini sifatnyalebih subyektif dan ia mengekspresikan tentangperasaan, penilaian, pendapat seseorang terhadapsuatu entitas maupun peristiwa [5].
Mayoritas penelitian yang telah dilakukansampai saat ini yang berkenaan dengan pengolahaninformasi teks masih sebatas pada pengolahan datafaktual/fakta, seperti information retrteval, websearch, text clusteing dan beberapa jenis lainnyayang tergolong dalam text mining ataupun naturallanguage processing lainnya. Masih sedikitpenelitian yang masuk ke bidang opinion mining.Padahal pengolahan data opini juga penting. Salahsatu alasan sedikitnya penelitian dalam opinionmining adalah terbatasnya jumlah informasitekstual yang didalamnya terdapat ungkapan opini.Akantetapi, kemajuan dalam dunia World WideWeb beberapa tahun terakhir ini telah merubahkondisi tersebut. WWW telah memfasilitasi manusia
untuk dapat mem-publish ungkapan opini mereka,baik dalam bentuk blog, forum di inteme! gnpgrup diskusi dan berbagai sosial media/networkiryyang ada di intemet [5]. Sumber-sumber informasidari internet sangat beragam dan banyak. Hal inimenyebabkan kesulitan untuk menganilisis opiriyang tersebar di WWW secara manual. Disinilahletak relevansi penelitian opinion mining, yaifruntuk mengembangkan sistem untuk analisis opiriyang terotomatisasi.
Penelitian ini ditujukan r-ltr*mengembangkan sistem yang dapat mendet#orientasi dari suatu dokumen teks fqmenyatakan opini. Metode yang digunakan udmembangun sistem penentuan orientasi oeit-adalah supervised learning, yaitu dengrmenggunakan metode text classifier NBC (NaircBayes Classifier). Permasalahan penenbrorientasi opini bisa dipandang sebag-permasalahan klasifikasi atau kategorisasi teks y4mengelompokkan atau mengklasif,rkasikan t&opini ke dalam kategori opini positifatau negatif
1.2. Tujuan PenelitianPenelitian ini ditujukan ud
mengembangkan sistem deteksi orientasi opil(penentuan apakah suatu teks opini termasuk qr-negatif atau positif), dengan menggunakan NHsebagai salah satu metode supervised learning-
B-63
Prosiding SENTIA 201 3-Politeknik Negeri Malang
2. Kajian PustakaUntuk pustaka pendukung, disajikan secara
ringkas mengenai opinion mining dan NBC.2.1. Hasil Penelitian Terkait
Penelitian tentang opinion mining mulaimarak setelah Tumey melakukan penelitian tentangopinion mining yang diterapkan pada data reviewkonsumen suatu produk menggunakan SemanticOrientation-Pointwise Mutual Information (SO-PMI), dengan nilai akurasi terbaik yang didapatadalah 84Yo rxtfiik review kendaraan dan 66% untukdata review film [8]. Pada tahun yang sama, Pangdkk. mengambangkan sistem opinion miningmenggunakan metode machine learning, dengannilai akurasi berkisar 72Yo sampai 83% t7).Penelitian tentang penggunaan Naive BayesClassifier sebagai metode pengklasifikasi teks telahdilakukan oleh SM Kamaruzzaman dan ChowduryMofizur Rahman [2] serta Ashraf M Kibriya dkk.[3] pada tahun 2004. Dari proses pengujian secarakualitatif disebutkan bahwa teks bisadiklasifikasikan dengan akurasi yang tinggi.
2.2. Opinion MiningOpinion mining atau sentiment analysis
(sebagian besar peneliti menganggap dua istilahini sama) merupakan sebuah cabang dari textmining yang mulai marak pada awal tahun 2002.Riset pada bidang ini mulai berkembang semenjakpaper dari Bo Pang dan L.Lee diterbitkan [7].Secara umurn, sentiment analysis dibagi menjadi 2kategori [1]:l. Coarse-grained SentimentAnalysis2. Fined-grained SentirnentAnalysis
Coarse-grained Sentiment Analysismelakukan proses analisis pada level dokumen.Artinya, proses klasifikasi opini berdasarkan isidokumen secara keseluruhan (berada pada leveldokumen). Orientasi ini ada 2 jenis yaitu positif dannegatif. Akan tetapi, ada juga yang menjadikannilai orientasi ini bersifat kontinu / tidak diskrit.
Fined-grained Sentiment Analysismelakukan analisis opini pada level kalimat, bukanpada level dokumen. Artinya, opini akandiklasifikasikan per kalimat. Contoh :
o Saya tidak suka pemrograman. (negatif)r Hotel yang baru saja dikunjungi sangat indah
sekali. (positiflHingga sekarang, hampir sebagian besar
penelitian di bidang analisis sentimen hanyaditujukan untuk bahasa Inggris karena tools danresource untuk bahasa Inggris sangat banyak.Beberapa sumberdaya yang sering digunakanuntuk sentiment analysis adalah SentiWordNet danWordNet. Analisis sentimen terdiri dari 3subproses besar [5]. Masing-masing subproses inibisa dijadikan bahan/topik riset secara terpisah
Volume 5-ISSN:2085-2347
karena masing-masing subproses ini membutuhkanteknik yang tidak mudah1. Document Subjectivity: proses menentukan
kalimat yang merupakan opini atau kalimatyang mengandung nuansa sentimen.
2. Opinion Orientation: proses menentukanorientasi opini, apakah suatu kalimat opinitermasuk ke dalam kategori atau klasifikasipositifatau negatif.
Opinion Holder and Target Detection: prosesmenentukan subyek yang mengemukakan kalimatopini tersebut dan menentukan objek yang menjaditarget dari sentimen atau opini.
' 2.3. Naive Bayes Classifwr (NBC)Nai've Bayes Classifier (NBC) merupakan
algoritma yang bisa digunakan untukmenyelesaikan masalah klasifikasi atau kategorisasidengan menggunakan metode probablistik. Padapenelitian ini NBC digunakan pada prosesklasifikasi opirtt (opinion orientation detection),apakah opini termasuk klasifikasi positif ataunegatif. Prinsip dari NBC adalah probabilitas suatukata akan masuk ke dalam suatu kategori (posteriorprobability), didasarkan pada nilai probabilitastertinggi yang telah dimiliki sebehmnya (piorprobability) yang dimiliki teks yang bersangkutanuntuk suatu ketegori tertentu. Misalnya kata"processor" pada koleksi data memiliki probabilitasuntuk kategori "komputer" sebesar 0.9, sedangkanuntuk kategori "elektronik" sebesar 0.3. Sehinggakalau pada proses pengujian ditemukan kata"processor" maka akan masuk ke dalam kategori"komputer". Dengan kata lain, NBC menggunakanasumsi bahwa kemunculan atau ketidakmunculandari suatu kata atau fitur tidak terkait dengankemunculan atau ketidakmunculan fitur yang lain14).
Sebagai ilustrasi, misal data trainingdikategorikan menjadi /r kategori Ci = {Ct Cz,
Ca...,C*] , dan prior probability untuk masing-masing kategori adalah p(C), dimanal = 7,2,3,...,k.
Koleksi data disimbolkan di =(wt,..,wy...wn), dan kata atau fitur yang ada dalamdokumen adalah w1, dimana j = 7,2,3,...m, akanmasuk kedalam kategori Cy Untukmengklasifikasikan dokumen di, dilakukan denganmenghitung nilai probabilitas dari semua dokumen(po s terio r prob ability). P os terior pro b ability suahtdokumen pada suatu kategori dapat dihitungdengan menggunakan persamaan (l) t6l,
p[til*iti - rirt'1r'ihrir"ri (1)
F f.l.J
Keterangan:. p[LJ'lnli] : posterior probability yang
menunjukkan probabilitas suatu kategori T;,ketika diberikan dokumen sli
B-64
Prosiding SENTIA 20 I 3-Politeknik Negeri Malang
. p[d.ilt'j] = likelihood probability yans
menunjukkan probabilitas dokumen oli ketikadiberikan kategori L;
. p[ilj]: prior probability yang menunjukkan
probabilitas suatu kategori t';. P(d") : probabilitas suatu dokumen dji
Klasifikasi teks menggunakan NBCdilakukan dengan memaksimalkan nilai daripersamaan (l). Karena untuk semua kategori yang
diberikan, nilai penyebut P(ttr') bernilai sama atau
konstan, maka bisa dihilangkan dari persamaan.
Sehingga persamaan untuk menghitung nilaimaksimal dari persamaan (l) menjadi persamaan(2) I6t.m{?r /_r-a rna.Y /.r_\ Q)
Ct c.c.e[fild!] cr tr f p[tltl{'}p(Cr}
Berdasarkan pada hipotesis Bayesian yangmenyebutkan bahwa setiap kata atau frfix w6 .-. wi..., w, dari di: wt, ... wi ..., w, adalah tidak salingterkait, maka dishibusi probabilitas totalmerupakan hasil perkalian (product) dari distribusiprobabilitas tiap fitur atau kata, seperti ditunjukkanpada persamaan (3).
p(drlfr) p(rsr,.-,ui.."..r,r*lq]INtz p[,u,lE] (3)
i1Dengan memasukkan persamaan (3) ke persamaan(2), maka persamaan (2) menjadi,tttcr - rnfl.t !n
q trcplcrldr} Ci c{ p(cri.n.,.u[n,lf1]i1
(4)Persamaan (4) ini yang disebut sebagai FormulaPengklasifikasi. Nilai (Ci) dapat dihitungmenggunakan persamaan
p(e;]:F (5)
Keterangan:. j[+ : jumlah dokumen yang masuk
kedalam kategori L;
. ,\r:iumtah total dokumen.
Sedangkan untuk menghitung nilai p(ffj JC;) auput
dihitung menggunakan persamaan,
P(tr,;ltri) - "":i;:t (6)t\"+tf
Keterangan:. i$-.r*, : jumlah kata 14 yang ada dalam
dokumen training yang masuk ke dalam
kategori Q,. IJ. : jumlah semua kata yang ada dalam
dokumen training yang masuk kedalam kategoriL; (tanpa menghiraukan ada kata yang sama
atau tidak),
Volume 5-ISSN:2085-2347
c Y : jumlah total jenis kata yang ada dalamdokumen training (kata yang sama hanyadihitung 1).
Jika dalam dokumen training tidak ditemukan katart pada kategori C;, maka nilai "r\t*r menjadi 0.
Untuk menghindari nilai 0 maka pembilangditambahkan l, ini yang disebut laplace smothing16l.
2.4. Metode Evaluasi Precrbsion llaa RecaA
Dua buah teknik evaluasi unjuk kerja sistem,yang biasanya digunakan pada sistem temu kembali(information retrieval), sistem pengenalan pola,ataupun sistem kategorisasi teks adalah precisiondan recall.
Precision adalah rasio jumlah dokumenrelevan yang ditemukan dengan total jumlahdokumen yang ditemukan oleh sistem. Recalladalah rasio jumlah dokumen relevan yangditemukan kernbali dengan total jumlah dokumendalam kumpulan dokumen yang dianggap relevan.Nilai keduanya biasanya ditunjukkan dalam satuanpersen (%). Persamaan wfiitk precision ditunjukkanpada persamaan (7) dan recall pada persamaan (8)
t6l.Ji ltr.r rl tsG I { rr ii }rr rl :,1i ll,f #lri :.tt lfuti: I r :iA.!-.:-r fif,
JiiIf u iri[{ Jlli ntu-trii:
f5(relermn I tiitenlukcn)(7)
h rr Slrt*tr i\r'.S,'44'ua'- >urrq r.{iridru*{rrritrrr...-.ri:----.i ;.adlrlli lt':iu tu.!i aL:trirril
FI dirernu&mn ] r* fa unn)
(8)Kedua persamaan tersebut, dapat lebihdisederhanakan dengan memperhatikan Tabel 1.
Tabel L. Variabel untuk perhitungan precision dan. recall
Sehingga rumus precision dan recallseperti pada persamaan (9) dan (10).i$ tpl[qr I fp]"E fp/lf.u I rdfl]
menjadi
(e)
(10)
3. Metode PenelitianPada bagian ini akan diuraikan metode yang
digunakan rmtuk mengembangkan sistem.
3.1 DataData yang digunakan dalam penelitian ini
berupa data teks yang menyatakan opini seseorang.Peneliti mengumpulkan data tersebut dengan
B-65
Prosiding SENTIA 20 I 3 -politeknik Negeri Malang
menggunakan kuisioner online. Data tersebut bisadiklasifikasikan menjadi 2, yaitu:
. ?ata training: data ini berupa data opinidalam bentuk teks yang digunakan daiamproses training sistem. Dari proses training,NBC akan mendapatkan model probabilistikdari distribusi kata atas suatu kategori.. Data testing: data ini juga berupa data opiniberbentuk teks, yang digunakan pada prosespengujian. Model probabilistik yangdidapatkan dari proses training, akandigunakan untuk mengklasifikasikan teksyang ada pada data testing.
3.2 Metode Pengolahan Data
. NBC secara global terbagi atas 2 tahap yaituylay tlainins dan tahap klasifikasi. proses tiainingdilakukan terhadap kumpulan data yangsebelumnya sudah diklasifikasikan secara manualoleh peneliti. Dari proses training akan dihasilkanmodel probabilitas/distribusi kata tiap klasifikasi.Algoritma proses training NBC digambarkan padaflowchartpada Gambar l.
Volume S-ISSN:2085-2347
Gambar l. Flowchart TrainingNBC
Data hasil training tersebut akan dijadikanacuan untuk menentukan suatu dokumen tekstermasuk ke dalam kategori tertentu (prosesklasi{ikasi). Algoritma klasifikasi ditunjukan padaGambar 2. Tabel 2 menunjukkan ilustrasi prosesklasifikasi teks.
Table 2. Ilustlasi Klasifikasi Teks
B-66
Prosiding SENTIA 201 3-Politeknik Negeri Malang
33 ToolsBeberapa tools yang digunakan oleh peneliti
untuk membangun sistem ini antara lain:o Bahasa pemrograman yang digunakan untuk
membangun sistem adalah Java EnterpriseEdition. JEE digunakan karena sistemdireancang sebagai aplikasi berbasis web.
o Database Management System yangdigunakan adalah MySQL 5.5. Databasedigunakan untuk menyimpan data trainingdan data testing.
Volume 5-ISSN:2085-2347
3.4 Metode Pengujian
Pengujian ditujukan untuk mengetahuiakurasi sistem untuk mengelompokan teks opini kedalam klasifikasi positif atau negatif. Metodepengujian yang digunakan adalah dengan mencarinilai precission dan recall.
4. Hasil dan PembahasanPengujian pada peneilitian ini ditujukan
untuk mengetahui akurasi sistem dalammengklasifikasikan orientasi suatu opini, apakahtermasuk ke dalam klasifikasi opini positif atauopini negatif. Pengujian opinion orientationmenggunakan dataset vrtttk training berupa koleksidata opini yang telah diklasfikasikan secara manualke dalam kategori opini positif dan negatif,sebanyak 575 data. Setelah proses training,kemudian sistem diujikan pada. 87 data teks opini.Data-data tersebut dikumpulkan oleh penelitimelalui krlisioner o n lin e.
Tabel 3 menunjukan beberapa contoh datatraining.
Tabel 3. Contoh Data Trai
Tabel 4 menunjukan beberapa contoh datayang digunakan pada proses pengujian, yang akandiklasifikan orientasi opininya, apakah termasukopini positif atau negatif.
I Banyak komputer lab yangrusak
negatif
2 Beberapa matakuliah seringkosons
negatif
J Beruntung saya bisa kuliahdisini
positif
4 Beberapa dosen sering moloratau kosons
negatif
5 Konten materi sudah cukup Positif
teksuii = inputteks yangakan dicai orientasinya
lmp E indeksltoken][oriefitasi] +1 /iumTokenP6of eNasilo]i€ntasfl+lumTol(af t
Gambar 2. Flowchart Klasifikasi NBC
B-67
Prosiding SENTIA 201 3-Politeknik Negeri Malang
Tabel 5 menunjukan niali precission dan recallsetelah proses pengujian. Dari Tabel 5 nilaiprecission dan recall sebagai berikut:Precission = 60 / (60+3) : 0.95Recall : 60 I (60+4) : 0.94
Volume 5-ISSN:2085-2347
digolongkan ke dalam opini negatif. Nilai recalldidapatkan dari perbandingan antara jumlahdokumen yang ditentukan relevan oleh sistem danpeneliti, dengan jumlah jumlah semua dokumenyang dinyatakan relevan oleh peneliti (meskipuntidak ditemukan relevan oleh sistem).
Nilai precision dan recall yang didapatkandari proses pengujian sangat tinggi, yaitu masing-masing 0.95 dan 0.94 dai skala l. Hasil ini yangdidapatkan dengan menerapkan data training dandata testing yang dimiliki oleh peneliti.
Pada sistem ini, sebelum data diolahmenggunakan NBC, tidak di preprosesmenggnnaan stemming ataruipu,n stopword removing.Karena dimungkinkan apabila dilakukan preproses,akan ada informasi yang hilang (seperti kata negasi,kata sambung dsb), yang akan berpengaruh padaakurasi sistem.
5. KesimpulanSistem penentuan orientasi opini yang
dikembangkan oleh peneliti dengan menggunakanNBC, yang diterapkan pada 575 data training dan87 data testing, memiliki akurasi yang cukup tinggi.Hal ini bisa ditunjukan dari nilai precission 0.95dan nilai recall 0.94.
6. SaranNBC mengelompokan dokumen teks ke
dalam beberapa klasifikasi berdasarkan dishibusikemunculan kata dari teks dalam suatu klasifikasi.Hubungan antar kata dalam suatu teks tidakdiperhitungkan. Pada kasus analisis sentimensebenarnya hubungan kata dengan kata lain perludiperhitungkan. Penelitian selanjutnya bisamengkombinasikan atau membandingkan antarametode supervised learning dan unsupervisedlearning (menggunakan orientasi semantik).
Daftar PustakaFink, R. Clayton. 2011. Coarse- and Fine-Grained
Sentiment Analysis of Social Media Text. JohnsHopkins APL Technical Digest, Vol. 30 No. l.
Kamaruzaman, S.M., Chowdhury M.R. 2004.Tekst Categorization using Association Ruleand Naive Bayes Classifier. Asian Journal ofInformation Technology, Vol. 3, No. 9, pp 657-665, Sep. 2004
Kibriya Ashraf M., Frank Eibe,Pfahringer Egrnb4ld, Holmes Geoffrey . 2004.Multinomial Nai've Bayes for Text CategorizationRevisited. Australian joint conference onartificial intelligence No 17.
Kim.S., Han.K., Rim.H., Myaeng.S. 2006. SomeEffective Techniques for Naive Bayes TextClassification IEEE Transactions on Knowledgeand Data Engineering. (2006) I 8(l I ), I 4 57 -t 466.
tidak dikenali sebagai opini "negatif' :24
Dari pengujian, dari total g7 dokumen ujididapatkan 63 dokumen yang dikenali sebagai opininegatif dan 24 dokumen yang tidak dikenalisebagai opini negatif, Dari 63 dokumen yangdikenali sebagai opini negatif, setelah divalidasioleh peneliti, ternyata terdapat 3 dokumen yangseharusnya tidak digolongkan sebagai opini negatif.Jadi, hanya 60 dokumen yang dinyatakun b"na.oleh sistem dan dinyatakan benar pula oleh peneliti(setelah divalidasi secara manual) dan 3 dokumenyang dinyatakan benar oleh sistem tapi dinyatakantidak benar oleh peneiliti. Nllai precision diperolehdari hasi perbandingan antara jum_lah dokumenyang dinyatakan relevan baik oleh sistem maupunpeneliti dengan jumlah semua dokuman yangdinyatakan relevan oleh sistem saja (meskipuntidak dinyatakan relevan oleh peneliti setelahdivalidasi).
Dari 24 data yang tidak dikenali sebagaiopini negatif setelah divalidasi secara manual olehpeneliti, terdapat 4 dokumen yang seharusnya
B-68
Tabel 4. Contoh Data Tt
Praktek dengan teori tidak
Ruang himpunan hanyamenjadi tempat menginap gratis
Lingkungan kuliah di elektrosudah kondusif
Tabel 5. Hasil
Catatan: total dokumen = 87, total dok"-en yangdikenali sebagai opini 'hegatif' = 63, total dokumen
Prosiding SENTIA 20l3-Politeknik Negeri Malang
Litu B. 2010. Handbook of Natural LanguageProcessing, chapter Sentiment Analysis andAnalysis, 2nd Edition. Chapman & Hall / CRCPress.
Manning, D. Cristopher, Prabakhar Raghavan danHinrich Schutze. 2009. An Introduction toInformation Retrieval. Cambridge UniversityPress
Pang, Bo. Lee, L dan Vaithyanathan, S. 2002.Thumbs up? Sentiment classification usingmachine learaing techniques. Proceedings of the7th Conference on Empirical Methods in NaturalLanguage Processing (EMNLP-O2)
Volume 5-ISSN:2085-2347
Tumey, Peter D. 2002. Thumbs Up or ThumbsDown? Semantic Ortentution Applied toUnsupervised Classification of Reviews..Dipresentasikan pada Association forComputational Linguistics 40 AnniversaryMeeting, New Brunswick, N.J
Thabtah, Fadi. Ali, Mohammad. ZamzeerMannam and Hadi, M.W. 2009. NavieBayessian Based on Chi Square toCategoize Arabic Data. Communication ofIBIMA VoL 10, ISSN: 1943-7765.
B-69