abstrak abstrak internet telah menjadi sesuatu hal yang penting dalam perkembangan sarana...
TRANSCRIPT
vii
Abstrak
Internet telah menjadi sesuatu hal yang penting dalam perkembangan sarana
komunikasi. Salah satu fasilitas komunikasi yang terdapat pada internet adalah
internet relay chat atau yang sering dikenal dengan istilah chat. Aplikasi chat
yang bersifat real time sering disalahgunakan untuk keperluan penyebaran virus,
promosi, dan kepentingan lain yang dikenal dengan istilah spam. Tindakan
spamming adalah pengiriman pesan yang tidak diinginkan oleh seseorang yang
memiliki sebuah akun chat. Hal ini menyebabkan pemilik akun merasa tidak
nyaman dengan kondisi tersebut. Berdasarkan permasalah tersebut maka dalam
penelitian ini membuat sebuah aplikasi chat yang dapat menyaring pesan atau
spam filtering dengan menerapkan text mining. Proses spam filtering dilakukan
dengan dua tahap yaitu tahap text pre-processing dan analyzing. Kedua tahap ini
dilakukan untuk menghitung bobot (𝑊) keterhubungan kata spam dengan pesan.
Berdasarkan hasil pengujian yang dilakukan pada aplikasi chat dengan
menerapkan text mining untuk melakukan filtering terhadap pesan spam
menghasilkan tingkat akurasi sebesar 91.41%.
Kata Kunci : Aplikasi Chat, Text Mining, Spam filtering.
viii
Abstract
The Internet has become something important in the communication development.
One communication facilities on the Internet is the Internet relay chat or known
as chat. Chat applications in real time is often misused for the purpose of
spreading the virus, promotions, and other interests known as spam. Spamming is
the sending of unwanted messages by someone who has a chat account. This
causes the chat account feel uncomfortable with the condition. Based on these
problems this research create a chat application that can filter messages or spam
filtering by applying text mining. Spam filtering process can be done in two
phases: text pre-processing and analyzing. These two phases are carried out to
calculate the weight (W) of connectedness with the word spam messages. Based
on the results of tests performed on chat applications by applying text mining to
perform filtering on spam messages generate the level of accuracy of 91.41%.
Keywords: Application Chat, Text Mining, Spam filtering
ix
DAFTAR ISI
TESIS ....................................................................................................................... i
Lembar Pengesahan Pembimbing ........................................................................... ii
Tesis Ini Telah Diuji pada ...................................................................................... iv
UCAPAN TERIMAKASIH ................................................................................... vi
Abstrak .................................................................................................................. vii
Abstract ................................................................................................................ viii
DAFTAR ISI .......................................................................................................... ix
DAFTAR GAMBAR ............................................................................................. xi
DAFTAR TABEL ................................................................................................. xii
DAFTAR ISTILAH DAN SINGKATAN ........................................................... xiii
BAB I PENDAHULUAN ....................................................................................... 1
Latar Belakang ........................................................................................ 1
Rumusan Masalah ................................................................................... 4
Batasan Masalah...................................................................................... 5
Tujuan Penelitian .................................................................................... 5
Manfaat Penelitian .................................................................................. 6
Keaslian Penelitian .................................................................................. 6
BAB II TINJAUAN PUSTAKA ............................................................................. 8
State Of The Art Review .......................................................................... 8
Data Mining .......................................................................................... 14
Text Mining ........................................................................................... 16
Algoritma TF/IDF (Term Frequency – Inverse Document Frequency) 18
Confusion Matrix .................................................................................. 23
Spam ...................................................................................................... 24
Challenge-Response Filtering ............................................................... 25
BAB III METODE PENELITIAN........................................................................ 27
Metode Penelitian.................................................................................. 27
Identifikasi Masalah dan Perumusan Masalah ................................ 27
x
Analisa Sistem ................................................................................. 28
Desain Sistem ................................................................................. 28
Implementasi Sistem Aplikasi Chat ................................................ 31
Data Penelitian ...................................................................................... 32
Text Mining ........................................................................................... 36
Rancangan Database ............................................................................. 39
Rancangan User Interface ..................................................................... 43
BAB IV PEMBAHASAN DAN HASIL .............................................................. 49
4.1. Proses Text Mining ................................................................................ 50
Text Pre-processing ........................................................................ 51
Tahap Analyzing .............................................................................. 66
Implementasi Chatting .......................................................................... 74
4.2. Pengujian ............................................................................................... 78
4.3. Analisa Hasil Pengujian ........................................................................ 83
BAB V KESIMPULAN DAN SARAN ................................................................ 89
Kesimpulan ........................................................................................... 89
Saran ...................................................................................................... 90
DAFTAR PUSTAKA ........................................................................................... 92
xi
DAFTAR GAMBAR
Gambar 2. 1 Challenge Response ................................................................................... 11
Gambar 2. 2 Cara Kerja Sistem Challenge-response filtering ........................................ 25
Gambar 3. 1 Tahapan Penelitian ..................................................................................... 27
Gambar 3. 2 Arsitektur Sistem ........................................................................................ 30
Gambar 3. 3 Contoh Spam .............................................................................................. 33
Gambar 3. 4 Spam Facebook Chat ................................................................................. 34
Gambar 3. 5 Spam Facebook Message ........................................................................... 34
Gambar 3. 6 Rancangan Interface Halaman Utama ........................................................ 44
Gambar 3. 7 Rancangan Interface Halaman Master Kata Dasar .................................... 45
Gambar 3. 8 Rancangan Interface Halaman Master Kata Penghubung .......................... 45
Gambar 3. 9 Rancangan Interface Halaman Master Kata Spam ..................................... 46
Gambar 3. 10 Rancangan Interface Halaman Challenge Response ................................ 47
Gambar 3. 11 Rancangan Interface Halaman Client Chat .............................................. 48
Gambar 4. 1 Hasil Filtering ............................................................................................ 54
Gambar 4. 2 Master Kata Penghubung ........................................................................... 56
Gambar 4. 3 Daftar Kata Penghubung ............................................................................ 56
Gambar 4. 4 Hasil Stemming ........................................................................................... 58
Gambar 4. 5 Menu Master Kata Dasar............................................................................ 60
Gambar 4. 6 Kata Dasar .................................................................................................. 61
Gambar 4. 7 Hasil Tagging ............................................................................................. 62
Gambar 4. 8 Master Verb Dasar ...................................................................................... 65
Gambar 4. 9 Form Verb Dasar ........................................................................................ 65
Gambar 4. 10 Master List Spam ...................................................................................... 68
Gambar 4. 11 Hasil Penghitungan Bobot Sistem ............................................................ 72
Gambar 4. 12 Server Chat ............................................................................................... 74
Gambar 4. 13 List Client ................................................................................................. 75
Gambar 4. 14 Broadcast Pesan ....................................................................................... 75
Gambar 4. 15 Form Client chat....................................................................................... 76
Gambar 4. 16 Form Client Chat Status Connected. ........................................................ 77
Gambar 4. 17 Pesan Diterima oleh Server ...................................................................... 77
Gambar 4. 18 Form Challenge Response ....................................................................... 78
Gambar 4. 19 Hasil Akurasi ............................................................................................ 81
Gambar 4. 20 Grafik Perbandingan Tingkat Akurasi ..................................................... 83
Gambar 4. 21 Perbandingan Hasil Pengujian Sistem ..................................................... 84
xii
DAFTAR TABEL
Tabel 2. 1 Mapping Jurnal .............................................................................................. 13
Tabel 2. 2 Ilustrasi Penghitungan Bobot ......................................................................... 21
Tabel 2. 3 Confusion Matrix untuk Klasifikasi Biner ..................................................... 23
Tabel 3. 1 Contoh Kategori Pesan................................................................................... 35
Tabel 3. 2 Proses Tokenizing ........................................................................................... 37
Tabel 3. 3 Proses Filtering .............................................................................................. 37
Tabel 3. 4 Proses Stemming ............................................................................................ 38
Tabel 3. 5 Proses Tagging ............................................................................................... 38
Tabel 3. 6 Struktur Tabel Kata Penghubung ................................................................... 40
Tabel 3. 7 Struktur Tabel Kata Dasar.............................................................................. 40
Tabel 3. 8 Struktur Tabel Verb Dasar ............................................................................. 41
Tabel 3. 9 Struktur Tabel Pengaturan ............................................................................. 41
Tabel 3. 10 Struktur Tabel Pesan .................................................................................... 42
Tabel 3. 11 Struktur Tabel Spam..................................................................................... 43
Tabel 4. 1 Tokenizing Kalimat Pesan .............................................................................. 52
Tabel 4. 2 Contoh Kata Penghubung dan Stopword ....................................................... 55
Tabel 4. 3 Daftar Kata Dasar........................................................................................... 59
Tabel 4. 4 Daftar Verb Dasar .......................................................................................... 64
Tabel 4. 5 Contoh Kata Spam ......................................................................................... 67
Tabel 4. 6 Penghitungan Data Latih ................................................................................ 70
Tabel 4. 7 Klasifikasi Pesan ............................................................................................ 71
Tabel 4. 8 Penghitungan Data Latih ................................................................................ 73
Tabel 4. 9 Hasil Pengujian .............................................................................................. 79
Tabel 4. 10 Confusion Matrix ......................................................................................... 80
Tabel 4. 11 Hasil Tingkat Akurasi Masing – Masing Metode ........................................ 82
Tabel 4. 12 Perbandingan Hasil Pengujian ..................................................................... 83
Tabel 4. 13 Analisa Hasil Pengujian ............................................................................... 87
xiii
DAFTAR ISTILAH DAN SINGKATAN
Chat : layanan percakapan online ynag biasa digunakan pengguna
internet untuk berbicara dengan pengguna lainnya.
Chatting : aktivitas berkomunikasi langsung melalui pengetikan pesan
dan merupakan percakapan real-time antara dua orang user
atau lebih melalui jaringan komputer atau internet.
Spam : tulisan – tulisan/pesan sampah yang dikirim melalui email atau
media komunikasi lainnya secara berulang – ulang/bertubi –
tubi tanpa diminta dan tidak dikehendaki oleh penerimanya.
Term : suatu kata atau suatu kumpulan kata yang merupakan ekspressi
verbal dari suatu pengertian atau dapat juga diartikan kata atau
sejumlah kata yang dapat berdiri sendiri.
Stopwords : kata umum (common words) yang biasanya muncul dalam
jumlah besar dan dianggap tidak memiliki makna.
1
BAB I
PENDAHULUAN
Latar Belakang
Interconnection-networking adalah sebuah sistem global jaringan komputer yang
saling menghubungkan antara satu dengan yang lain di seluruh penjuru dunia dengan
menggunakan standart Internet Protocol Suite. Hadirnya teknologi informasi seperti
internet ini telah membuka mata dunia akan sebuah dunia baru, interaksi baru, market
place baru, dan memberikan peran penting sebagai sarana komunikasi. Internet Relay
Chat atau yang sering dikenal dengan istilah chat, merupakan sumber daya di Internet
yang memungkinkan dua orang atau lebih (group) melakukan dialog secara langsung
atau real time dalam bentuk komunikasi yang tertulis (Abdul Kadir & Terra, 2003).
Chatting sendiri merupakan istilah bagi pelaku atau orang yang memanfaatkan
aplikasi tersebut untuk berkomunikasi. Aplikasi ini bersifat client server dimana
server chat dapat ditempatkan pada salah satu komputer kemudian aplikasi chat yang
diinstall pada komputer client dapat melakukan komunikasi dengan memanfaatkan
layanan dari server tersebut.
Seiring dengan perkembangan dunia teknologi informasi dan komunikasi,
aplikasi chat berkembang pesat karena kebutuhan komunikasi real time yang begitu
tinggi oleh para praktisi teknologi informasi dan komunikasi. Berbagai penelitianpun
dikembangkan untuk aplikasi chat seperti penelitian yang dilakukan oleh Diny
Wahyuni yang berjudul “Pengembangan Aplikasi Pertukaran Pesan Berbasis Teks
Melalui Jaringan Lokal (LAN) Menggunakan Microsoft Visual C++ 6.0”. Aplikasi
Microsooft Visual C++ 6.0 dapat membantu para pengguna komputer di dalam sebuah
2
jaringan yang terkoneksi atau badan – badan hukum dalam pekerjaan sehingga dapat
menghemat waktu, uang, dan tenaga (Diny Wahyuni, 2008). Selain itu banyak aplikasi
chat yang bermunculan mulai dari vendor besar seperti Yahoo Messangger dan
Google Talk, atau vendor dan konsorsium lain yang turut mengembangkan aplikasi
sejenis dengan berbagai tujuan dan pendekatan. Seperti suatu kondisi dimana selalu
ada sesuatu yang saling berlawanan, seperti ada hitam ada bagian yang putih, maka
aplikasi chat yang muncul dan digunakan oleh begitu banyak orang akhirnya
dimanfaatkan oleh beberapa pihak untuk melakukan tindakan spamming dimana
mereka akan mengirimkan pesan yang tidak diinginkan oleh pemilik akun chat
tersebut yang akhirnya akan menyebabkan pemilik akun merasa tidak nyaman dengan
kondisi tersebut. Sama seperti spam yang terjadi pada email, pesan sampah (spam
message) tersebut dikirim untuk berbagai tujuan, mulai dari tujuan marketing sampai
dengan kegiatan untuk merusak sistem dan mencuri informasi dari komputer korban
yang salah mengklik suatu link yang terdapat dalam pesan sampah tersebut.
Terkadang, pengirim pesan tersebut bukan hanya pengguna lain yang tidak terdaftar di
dalam daftar kontak korban, tetapi bisa juga berasal dari pengguna yang telah menjadi
teman korban dan terdaftar dalam daftar kontak korban tanpa disadari oleh pengguna
yang bersangkutan bahwa pesan tersebut dikirim atas namanya. Hal ini terjadi, karena
terdapat suatu software atau mesin otomatis tertentu yang dibangun untuk
mengirimkan pesan tersebut secara otomatis ke semua daftar kontak atau akun yang
dimilikinya. Pesan sampah menyebabkan pengguna pesan instan merasa tidak nyaman
karena terus menerus memperoleh pesan yang tidak diinginkan. Bagi sebagian
pengguna yang baru di dunia internet, minimnya pengetahuan mengenai pesan sampah
(spam) dapat menyebabkan mereka menjadi korban dari pesan tersebut, dengan
3
berbagai kerugian mulai dari kerugian kehilangan materi sampai dengan kerusakan
sistem yang dimilikinya.
Berbagai cara dan aplikasi telah digunakan untuk mengatasi masalah spam yang
bermula dari email spam sampai dengan SMS spam. Seperti penelitian berjudul
Content Based SMS Spam Filtering dengan metode Bayessian Filtering, dimana
penelitian ini dilakukan untuk menyaring spam pada koleksi spam untuk SMS dalam
dua bahasa yaitu Inggris dan Spanyol (Jose Maria Gomez, dkk., 2007). Semua itu
dilakukan untuk mengurangi tingginya tingkat pemakaian pesan sampah yang
dikirimkan ke semua pengguna internet yang memiliki akun tertentu. Beberapa
aplikasi yang dibuat dan dipasarkan bersifat komersil sehingga tidak terlalu banyak
yang menggunakannya. Melihat keadaan tersebut, dipandang perlu untuk membangun
sebuah aplikasi yang dapat menutup akses pesan sampah untuk sampai ke akun
pengguna dengan sifat aplikasi yang open source sehingga dapat dikembangkan dan
diperbaiki oleh siapa saja. Selain itu, dengan digunakannya text mining kedalam
aplikasi ini, diharapkan dapat memberikan suatu tingkat filtering yang tinggi terhadap
pesan yang masuk untuk diterima atau tidak oleh sistem.
Data mining adalah suatu istilah yang digunakan untuk kegiatan menemukan
informasi atau pengetahuan di dalam basis data. Data mining merupakan suatu proses
yang menggunakan teknik statistik, matematika, kecerdasan tiruan dan machine
learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan
pengetahuan yang terkait dari berbagai database besar. Pada mulanya data mining
dimanfaatkan oleh perusahaan atau organisasi besar untuk melakukan prediksi pasar,
identifikasi customer serta berbagai tujuan bisnis lainnya. Saat ini, data mining mulai
banyak digunakan untuk berbagai keperluan mulai dari bidang kesehatan, bisnis,
4
keamanan, cuaca dan lain sebagainya. Pada sebuah penetian text mining digunakan
untuk sentiment analysis mengklasifikasikan opini berbahasa Inggris dan opini positif
berbahasa Indonesia dengan menggunakan metode Naïve Bayes Classifier dan Support
Vector Machine (Sumartini Saraswati, 2011).
Text mining adalah salah satu bidang khusus dari data mining dimana yang
membedakan keduanya adalah sumber data yang digunakan. Pada data mining data
yang digunakan adalah data terstruktur sedangkan dalam text mining data yang
digunakan adalah data yang tidak terstruktur atau semi terstruktur berupa teks. Data
teks akan diproses menjadi data numerik agar dapat dilakukan proses lebih lanjut.
Sehingga dalam text mining ada istilah preprocessing data yaitu proses pendahuluan
yang diterapkan terhadap data teks yang bertujuan untuk menghasilkan data numerik.
Rumusan Masalah
Berdasarkan latar belakang di atas maka dapat dibuat suatu rumusan masalah
dari penelitian ini adalah sebagai berikut :
a. Bagaimana metode text mining dan teknik Challenge-response filtering dapat
diterapkan untuk filtering pesan spam serta memperoleh pola kalimat pesan
yang dinyatakan spam.
b. Bagaimana tingkat akurasi dan response time dari sistem filtering spam dalam
mengklasifikasikan pesan ke dalam kelompok spam dan non spam, serta faktor
yang mempengaruhi tingkat akurasi dari sistem.
5
Batasan Masalah
Sehubungan dengan luasnya cakupan yang dapat diambil dari penelitian ini,
maka perlu dibuat batasan-batasan dalam penelitian ini, antara lain :
a. Proses klasifikasi pesan dilakukan dengan menggunakan metode text
mining dimana sebelumnya telah dilakukan pengelompokan terhadap
beberapa pesan yang dianggap sebagai spam dan non spam.
b. Pembelajaran untuk klasifikasi pesan dilakukan dengan menganalisa
koleksi spam yang diperoleh dari Spam Archive
(http://untroubled.org/spam/), yang biasanya dikirimkan melalui instant
message serta beberapa contoh spam yang dikumpulkan secara mandiri.
c. Data yang digunakan dalam pengujian spamming adalah hanya bahasa
Inggris saja.
d. Pembuatan sistem dilakukan dengan menggunakan perangkat lunak Visual
Studio 2010 dengan menggunakan bahasa pemrograman C#, serta database
menggunakan SQL Server 2010.
Tujuan Penelitian
Beberapa tujuan yang ingin dicapai melalui penelitian ini adalah sebagai
berikut :
a. Menghasilkan sebuah sistem aplikasi chatting yang dapat menyaring spam
sehingga spam yang ada pada pesan tidak sampai ke client yang dituju.
b. Mengetahui bagaimana metode text mining dan teknik Challenge-response
filtering dapat diterapkan pada proses klasifikasi spam.
6
c. Mengetahui tingkat akurasi dan response time dari sistem filtering spam
dalam mengklasifikasikan pesan ke dalam kelompok spam dan non spam.
Manfaat Penelitian
Manfaat yang bisa diperoleh dari hasil penelitian ini adalah :
a. Mengurangi terjadinya spamming pada aplikasi chat sehingga tidak
merugikan para pengguna aplikasi chat.
b. Memperoleh nilai akurasi text mining saat digunakan untuk klasifikasi
pesan yang dianggap sebagai spam.
Keaslian Penelitian
Berdasarkan penelitian yang akan diambil, penulis mengkaji topik yang
berhubungan dengan spam filtering diantaranya jurnal, artikel, paper, white paper,
buku, dan penelitian yang sudah ada sebelumnya.
Penelitian mengenai spam filtering telah dilakukan sebelumnya dengan
menggunakan beberapa metode pada aplikasi yang berbeda – beda seperti pada SMS
dan E-Mail. Metode yang digunakan sebagai machine learning dalam penelitian –
penelitian tersebut antara lain seperti Naïve Bayes, C4.5, PART, dan Support Vector
Machines (SVM). Terdapat juga spam filtering pada SMS menggunakan 12 metode
klasifikasi diantaranya Naive Bayes (NB), Discriminative Multinomial Naive Bayes
(DMNBtext), Multinomial Naïve Bayes (MNB), Support Vector Machine (SVM),
Stochastic Gradient Descent (SGD), Voted Perceptron, K-Nearest Neighbor (KNN),
K-Star, Decision Table, Decision Tree, AdaBoostM1, dan Voting.
Dari semua penelitian yang telah dilakukan belum ada penelitian yang dilakukan
untuk mengantisipasi spam pada internet messanger dengan menggunakan Text
7
Mining yang digabungkan dengan teknik Challenge-response filtering dimana sistem
yang akan dihasilkan ini akan menjadi sebuah sistem anti spam yang disebut dengan
Hybrid Filtering. Fishbone penelitian untuk penelitian ini dapat dilihat pada Gambar
1.1. Bidang pengelompokan berdasarkan tipe sumber spam, teknologi atau metode
yang digunakan untuk spam filtering, bahasa yang digunakan dalam membangun
sistem spam filtering, dan kelompok pemanfaatan data mining.
Spam Filtering
Type Spamming
Use Technology
Spam Filtering Techniques
Data Mining
instant messaging
web search engine spam
mobile spam
forum
rule based filtering
naive bayesian filtering
support vector machine
vector space model
text mining
challenge response
C#
PHP
Java
SQL
Delphi
Description
Estimation
Prediction
Clustering
Classification
Gambar 1. 1 Fishbone Penelitian