penerapan algoritma c4.5 untuk deteksi penyakit … · 2019. 8. 27. · x kata pengantar puji...
TRANSCRIPT
PENERAPAN ALGORITMA C4.5 UNTUK DETEKSI PENYAKIT
KANKER SERVIKS
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Oleh :
Ventya Fernitha
155314088
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
IMPLEMENTATION OF C4.5 ALGORITHM FOR CERVICAL CANCER
DETECTION
A THESIS
Present as Partial Fullfillment of Requirements
to Obtains Sarjana Komputer Degree
in Informatics Engineering Study Program
By :
Ventya Fernitha
155314088
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2019
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
iv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
HALAMAN MOTTO
“Kita berdiri paling tinggi dan paling kuat ketika kita berlutut dan
berserah dihadapan-Nya.”
“I can do all things through Christ who strengthens me”
Philipians 4 : 13
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
ABSTRAK
Algoritma C4.5 merupakan metode klasifikasi dan prediksi dalam teknik
penambangan data yang digunakan untuk mengidentifikasi pola tersembunyi
dalam data untuk memperoleh informasi atau pengetahuan yang berguna dari
suatu data yang berjumlah besar. Pada penelitian ini algoritma C4.5 diterapkan
untuk mendeteksi penyakit kanker serviks dengan mengklasifikasi hasil biopsi
pasien berdasarkan atribut yang mempengaruhi risiko kanker serviks dari dataset
sebuah Rumah Sakit di Caracas, Venezuela. Data tersebut berjumlah 858 data
dalam kondisi imbalanced data karena terdapat kelas yang mendominasi dari
kelas lainnya. Masalah imbalanced data dapat menyebabkan hasil dari klasifikasi
tidak akurat. Untuk mengatasi masalah tersebut, peneliti menerapkan teknik
undersampling terhadap data mayoritas agar data yang dimiliki menjadi seimbang
dan memperoleh hasil yang akurat.
Peneliti melakukan pengujian dengan jumlah 165 data. Pada pengujian
dengan perbandingan data training dan data testing secara descending sebesar
80:20 menghasilkan tingkat akurasi tertinggi sebesar 75,76%. Berdasarkan hasil
perhitungan dapat disimpulkan bahwa algoritma C4.5 dapat diterapkan dan
menemukan aturan klasifikasi yang menarik dari pohon keputusan yang terbentuk.
Kata kunci : algoritma C4.5, undersampling, kanker serviks
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRACT
C4.5 algorithm is a method of classification and prediction in data
mining techniques that used to identify hidden patterns in data to obtain
information or knowledge from a large amount of data. In this research, the C4.5
algorithm was applied to detect cervical cancer by classifying the patient's biopsy
results based on attributes that affect the risk of cervical cancer from the dataset of
a hospital in Caracas, Venezuela. The used of 858 data is imbalanced data
conditions because there are dominating classes from other classes. Imbalanced
data problems can cause the inacurate classification. To overcome this problem,
researchers applied the undersampling technique to the majority data so the data
will be balanced and obtained accurate results.
The researcher conducted a test with 165 data. The testing with
comparison of training data and descending data testing of 80:20 show the highest
accuracy rate was 75.76%. Based on the results of the calculation it can be
concluded that the C4.5 algorithm can be applied and find interesting
classification rules from the formed decision tree.
Keyword: C4.5 algorithm, undersampling, cervical cancer.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
KATA PENGANTAR
Puji syukur penulis haturkan kepada Tuhan Yang Maha Esa karena berkat,
rahmat dan karunia-Nya, penulis dapat menyelesaikan tugas akhir ini yang
berjudul “PENERAPAN ALGORITMA C4.5 UNTUK DETEKSI
PENYAKIT KANKER SERVIKS”.
Penulisan skripsi ini tidak lepas dari peran pentingnya berbagai pihak yang
telah memberi banyak dukungan, doa dan motivasi kepada penulis dalam proses
penyelesaian skripsi hingga selesai. Oleh karena itu, dalam kesempatan ini penulis
dengan kerendahan hati mengucapkan terima kasih kepada :
1. Tuhan Yesus Kristus yang memberikan kekuatan, berkat dan selalu
menyertai penulis.
2. Kedua orang tua tercinta, Gilbert Alfried Djohan dan Newiwatie Tajah
Setia, S.Sos. yang selalu memberikan doa, perhatian, kepercayaan,
dukungan moral maupun fasilitas serta kasih sayang.
3. Kakak-kakak penulis, Hefriandhi, S.H., Winda Roslina S.Pd., Andre
Fernadi, S.AN., Erlina dan Alexandro Andreas Herman Kandou, S.H.
yang selalu memberikan doa, dukungan dan motivasi.
4. Bapak Drs. Johanes Eka Priyatma, M.Sc., Ph.D. selaku Rektor
Universitas Sanata Dharma dan selaku Dosen Pembimbing Skripsi
yang telah memberikan waktu luangnya untuk membimbing serta
memberikan saran dan dukungan kepada penulis selama menyusun
tugas akhir.
5. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan
Fakultas Sains dan Teknologi.
6. Ibu Dr. Anastasia Rita Widiarti, M.Kom. selaku Ketua Program Studi
Teknik Informatika Universitas Sanata Dharma.
7. Bapak Eko Hari Parmadi, S.Si., M.Kom. selaku Dosen Pembimbing
Akademik yang telah memberikan bimbingan dan saran selama
penulis menempuh studi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
HALAMAN JUDUL ................................................................................................ i
TITTLE PAGE ......................................................................................................... ii
HALAMAN PERSETUJUAN ............................... Error! Bookmark not defined.
HALAMAN PENGESAHAN ................................ Error! Bookmark not defined.
HALAMAN MOTTO ............................................................................................. v
PERNYATAAN KEASLIAN KARYA ................ Error! Bookmark not defined.
ABSTRAK ............................................................................................................ vii
ABSTRACT ......................................................................................................... viii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPERLUAN KEPENTINGAN AKADEMIS .... Error! Bookmark not
defined.
KATA PENGANTAR ............................................................................................ x
DAFTAR ISI ......................................................................................................... xii
DAFTAR TABEL ................................................................................................. xv
DAFTAR GAMBAR ........................................................................................... xvi
BAB 1PENDAHULUAN ....................................................................................... 1
1.1. Latar Belakang .................................................................................. 1
1.2. Rumusan Masalah ............................................................................. 3
1.3. Tujuan Penelitian .............................................................................. 3
1.4. Manfaat Penelitian ............................................................................ 3
1.5. Batasan Masalah................................................................................ 3
1.6. Sistematika Penulisan ....................................................................... 4
BAB IITINJAUAN PUSTAKA .............................................................................. 5
2.1. Penambangan Data ............................................................................ 5
2.1.1. Definisi Penambangan Data .............................................................. 5
2.1.2. Fungsi Penambangan Data ................................................................ 5
2.1.3. Tahap-Tahap Penambangan Data ..................................................... 6
2.2. Algoritma C4.5 .................................................................................. 8
2.2.1. C4.5 ................................................................................................... 8
2.2.2. Contoh Penerapan C4.5 ................................................................... 12
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
2.3. Kanker Serviks ................................................................................ 22
2.3.1. Definisi Kanker Serviks .................................................................. 22
2.3.2. Penyebab Kanker Serviks ............................................................... 23
2.3.3. Faktor Risiko Kanker Serviks ......................................................... 23
2.3.4. Diagnosis Kanker Serviks ............................................................... 24
2.4. Imbalanced Data.............................................................................. 25
2.5. Split Validation ............................................................................... 26
2.6. ConfusionMatrix ............................................................................. 27
BAB IIIMETODOLOGI PENELITIAN............................................................... 29
3.1. Sumber Data .................................................................................... 29
3.2. Tahapan Penelitian .......................................................................... 33
3.2.1. Knowledge Discovery in Database (KDD) ..................................... 33
3.2.2.1 Pembersihan Data (Data Cleaning) ............................................ 33
3.2.2.2 Integrasi Data (Data Integration) ................................................ 35
3.2.2.3 Seleksi Data (Data Selection) ...................................................... 35
3.2.2.4 Transformasi Data (Data Transformation) ................................. 36
3.2.2.5 Penambangan Data (Data Mining) .............................................. 41
3.2.2.6 Evaluasi Pola (Pattern Evaluation) ............................................. 42
3.2.2.7 Presentasi Pengetahuan (Knowledge Presentation) .................... 42
3.2.2. Analisis dan Kesimpulan................................................................. 42
3.3. Perancangan Perangkat Lunak ........................................................ 42
3.3.1. Perancangan Umum ........................................................................ 42
3.3.1.1 Input ............................................................................................. 43
3.3.1.2 Proses ........................................................................................... 43
3.3.1.3 Output .......................................................................................... 46
3.3.2. Model Fungsi .................................................................................. 46
3.3.2.1 Diagram Use Case ....................................................................... 46
3.3.2.2 Narasi Use Case .......................................................................... 47
3.3.2.3 Diagram Aktivitas ....................................................................... 54
3.3.3. Model Perancangan ......................................................................... 57
3.3.3.1 Perancangan Antarmuka .............................................................. 57
3.3.3.2 Diagram Kelas Analisis ............................................................... 61
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
3.3.3.3 Entity Relationship Diagram (ERD) ........................................... 62
3.3.3.4 Desain Basis Data Logikal .......................................................... 63
3.4. Spesifikasi Alat ............................................................................... 63
BAB IVIMPLEMENTASI DAN ANALISIS HASIL .......................................... 64
4.1. Implementasi Program .................................................................... 64
4.1.1. Halaman Masuk .............................................................................. 64
4.1.2. Halaman Utama ............................................................................... 64
4.1.3. Data Pasien ...................................................................................... 65
4.1.4. Partisi Data ...................................................................................... 65
4.1.5. Proses Algoritma C4.5 .................................................................... 66
4.1.6. Kinerja ............................................................................................. 68
4.1.7. Uji Data Tunggal ............................................................................. 69
4.2. Pengujian Perangkat Lunak (Black Box)......................................... 70
4.2.1. Rencana Pengujian Validasi Black Box .......................................... 70
4.2.2. Hasil Pengujian Validasi ................................................................. 70
4.3. Hasil Perangkat lunak ..................................................................... 70
4.4. Kelebihan dan Kekurangan Perangkat lunak .................................. 72
4.4.1. Kelebihan Perangkat lunak ............................................................. 72
4.4.2. Kekurangan Perangkat lunak .......................................................... 72
BAB VPENUTUP ................................................................................................. 73
5.1. Kesimpulan ..................................................................................... 73
5.2. Saran ................................................................................................ 73
DAFTAR PUSTAKA ........................................................................................... 74
LAMPIRAN .......................................................................................................... 76
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
DAFTAR TABEL
Tabel 2.1 Perbedaan Algoritma C4.5 dan ID3 ........................................................ 8
Tabel 2.2 Data Pasien ............................................................................................ 12
Tabel 2.3 Perhitungan Root/Node 1 ...................................................................... 17
Tabel 2.4 Data Pasien dengan Dx:CIN = False .................................................... 19
Tabel 2.5 Perhitungan Node 1.1 ............................................................................ 19
Tabel 2.6 Data Pasien Dx:CIN = False dan IUD (years) = 6-11 .......................... 21
Tabel 2.7 Perhitungan Node 1.1.2 ......................................................................... 21
Tabel 2.8 Confusion Matrix .................................................................................. 27
Tabel 3.1 Atribut Data Kanker Serviks ................................................................. 29
Tabel 3.2 Detail Kelas Biopsy ............................................................................... 32
Tabel 3.3 Beberapa atribut yang Memiliki Sedikit Nilai Kosong ......................... 33
Tabel 3.4 Narasi Use Case Login ......................................................................... 47
Tabel 3.5 Narasi Use Case Masukkan Data .......................................................... 48
Tabel 3.6 Narasi Use Case Partisi Data ................................................................ 49
Tabel 3.7 Narasi Use Case Proses Algoritma C4.5 .............................................. 50
Tabel 3.8 Narasi Use Case Uji Data Tunggal ....................................................... 52
Tabel 3.9 Narasi Use Case Hapus Semua Data .................................................... 53
Tabel 4.1 Rencana Pengujian Validasi Black Box ................................................ 70
Tabel 4.2 Akurasi Split Validation Ascending ...................................................... 71
Tabel 4.3 Akurasi Split Validation Descending .................................................... 71
Tabel 4.4 Akurasi Split Validation Random ......................................................... 71
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
DAFTAR GAMBAR
Gambar 2.1 Tahap-tahap penambangan data (Han & Kamber, 2006) .................... 7
Gambar 2.2 Pohon Keputusan Node 1 (Root Node) ............................................. 18
Gambar 2.3 Pohon Keputusan Node 1.1 ............................................................... 20
Gambar 2.4 Pohon Keputusan Node 1.1.2 ............................................................ 22
Gambar 2.5 Ilustrasi Split Validation .................................................................... 27
Gambar 3.1 Diagram Flowchart ........................................................................... 46
Gambar 3.2 Diagram UseCase .............................................................................. 47
Gambar 3.3 Diagram Aktivitas Login ................................................................... 54
Gambar 3.4 Diagram Aktivitas Masukkan Data ................................................... 54
Gambar 3.5 Diagram Aktivitas Partisi Data ......................................................... 55
Gambar 3.6 Diagram Aktivitas Proses Algoritma C4.5 ........................................ 55
Gambar 3.7 Diagram Aktivitas Uji Data Tunggal ................................................ 56
Gambar 3.8 Diagram Aktivitas Hapus Semua Data.............................................. 56
Gambar 3.9 Perancangan Halaman Masuk ........................................................... 57
Gambar 3.10 Perancangan Halaman Utama ......................................................... 57
Gambar 3.11 Perancangan Halaman Data Pasien ................................................. 58
Gambar 3.12 Perancangan Halaman Partisi Data ................................................. 58
Gambar 3.13 Perancangan Halaman Proses Algoritma C4.5 ............................... 59
Gambar 3.14 Perancangan Halaman Pohon Keputusan ........................................ 59
Gambar 3.15 Perancangan Halaman Kinerja ........................................................ 60
Gambar 3.17 Diagram Kelas Analisis ................................................................... 61
Gambar 3.18 Entity Relationship Diagram (ERD) ............................................... 62
Gambar 3.19 Desain Basis Data Logikal .............................................................. 63
Gambar 4.1 Halaman Masuk................................................................................. 64
Gambar 4.2 Halaman Utama ................................................................................. 64
Gambar 4.3 Tampilan Data Pasien........................................................................ 65
Gambar 4.4 Tampilan Partisi Data ........................................................................ 66
Gambar 4.5 Tampilan Proses Algoritma C4.5 ...................................................... 67
Gambar 4.6 Tampilan Pohon Keputusan dan Rule C4.5 ...................................... 67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvii
Gambar 4.7 Tampilan Proses Kinerja ................................................................... 68
Gambar 4.8 Tampilan Hasil Kinerja ..................................................................... 68
Gambar 4.9 Tampilan Input Uji Data Tunggal ..................................................... 69
Gambar 4.10 Hasil Akurasi Confusion Matrix ..................................................... 72
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB 1
PENDAHULUAN
1.1. Latar Belakang
Penambangan data merupakan proses mengidentifikasi pola
tersembunyi dalam data untuk memperoleh informasi atau pengetahuan
yang berguna dari suatu data yang berjumlah besar. Terdapat beberapa
teknik penambangan data, salah satunya yaitu Decision Tree dengan
algoritma C4.5. Algoritma C4.5 merupakan metode klasifikasi dan
prediksi yang sudah banyak digunakan dalam implementasi penentuan
keputusan karena memiliki banyak kelebihan. Beberapa kelebihan dari
algoritma ini dapat menangani pruning, mengolah data numerik diskret,
dapat menangani nilai atribut yang hilang serta menghasilkan aturan-
aturan yang mudah diinterpretasikan.
Kemajuan algoritma C4.5 yang begitu pesat saat ini telah memperoleh
banyak manfaat seperti halnya dalam bidang kesehatan. Penambangan
data dengan teknik pembelajaran mesin yang canggih dapat dijadikan
penelitian dalam bidang medis untuk mengidentifikasi berbagai masalah
kesehatan. Pengetahuan yang diperoleh dengan teknik penambangan data
dapat membantu dalam mempercepat proses diagnosis beberapa penyakit
salah satunya seperti penyakit kanker serviks.
Kanker serviks adalah jenis kanker yang muncul pada leher rahim.
Kanker jenis ini sering disebut dengan silent killer karena wanita dengan
kanker serviks stadium awal dan pre-kanker tidak merasakan gejala sama
sekali hingga sel kanker menyebar ke jaringan di sekitarnya membentuk
tumor. Gejala-gejala kanker serviks baru akan muncul saat kanker sudah
memasuki stadium lanjut(di atas stadium dua). Padahal, jika kanker
serviks terdeteksi sejak dini akan lebih mudah untuk disembuhkan.
Berdasarkan penelusuran mengenai pengaruh risiko kanker serviks,
terdapat beberapa faktor risiko yang diduga berpengaruh. Beberapa faktor
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
yang diduga berpengaruh terhadap penyebab munculnya kanker serviks
yaitu meliputi usia, faktor seksual yang meliputi usia pertama kali
melakukan hubungan seks, pasangan seks yang berganti-ganti, paritas,
kurang menjaga kebersihan genital, merokok, riwayat penyakit kelamin,
trauma kronis pada serviks, serta penggunaan kontrasepsi oral dalam
jangka waktu lama(Diananda, 2007).
Wen Wu & Hao Zhou (2017) melakukan klasifikasi untuk
mendiagnosis penyakit kanker serviks dengan menggunakan tiga metode
berbasis Support Vector Machine (SVM).Tiga metode tersebut yaitu
SVM-standar, SVM-RFE (Recursive Feature Elimination) dan SVM-
PCA (Principal Component Analysis). Dataset yang digunakan yaitu
dataset faktor risiko kanker serviks dari Rumah Sakit Universitario de
Caracas di Caracas, Venezuela. Dataset berisi 32 atribut mengenai faktor
risiko yang meliputi informasi demografis, kebiasaan, dan catatan rekam
medis. Selanjutnya, dilakukan perbandingan pada hasil ketiga metode
yang digunakan dalam mengklasifikasi dataset tersebut. Hasil
menunjukan bahwa SVM-PCA lebih baik dibanding metode yang lain.
Berdasarkan uraian tersebut pada penelitian ini penulis mencoba
mengaitkan kasus dengan menggunakan teknik penambangan data (data
mining) dengan algoritma C4.5 dalam membangun sebuah perangkat
lunak untuk mendeteksi penyakit kanker serviks dengan memprediksi hasil
biopsi pasien berdasarkan atribut yang mempengaruhi risiko kanker
serviks. Biopsi merupakan tes yang dilakukan dengan mengambil sampel
dari jaringan serviks untuk memverifikasi apakah pasien menderita kanker
serviks atau tidak. Tes biopsi memakan waktu 5-6 hari untuk
mengkonfirmasi keberadaan kanker, diagnosis yang tertunda tersebut
dapat memakan waktu seumur hidup bagi seorang pasien. Dengan
dibangunnya suatu perangkat lunak untuk mendeteksi penyakit kanker
serviks menggunakan algortima C4.5, diharapkan dapat mempercepat
proses diagnosis biopsi sehingga dapat dilakukan proses pengobatan sedini
mungkin.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
1.2. Rumusan Masalah
Berdasarkan latar belakang di atas, maka masalah yang akan
diselesaikan adalah bagaimana menerapkan algoritma C4.5 untuk
mendeteksi penyakit kanker serviks dan menghitung akurasi yang
diperoleh dengan membandingkan hasil klasifikasi yang dilakukan oleh
perangkat lunak dengan hasil klasifikasi pada data kanker serviks yang
digunakan.
1.3. Tujuan Penelitian
Tujuan dari penelitian ini adalah :
1. Membangun sebuah perangkat lunak untuk mendeteksi penyakit
kanker serviks dengan menerapkan algoritma C4.5.
2. Untuk mengetahui seberapa baik algoritma C4.5 diterapkan pada
perangkat lunak.
1.4. Manfaat Penelitian
Manfaat dari penelitian ini adalah :
1. Membantu mempercepat proses diagnosis biopsi dalam mendeteksi
penyakit kanker serviks dengan menerapkan algoritma C4.5.
2. Menambah wawasan bagi pembaca yang ingin mempelajari algoritma
C4.5.
1.5. Batasan Masalah
a. Perangkat lunak yang dibangun hanya dapat digunakan untuk
mendeteksi penyakit kanker serviks berdasarkan beberapa faktor yang
diduga berpengaruh terhadap munculnya kanker serviks, bukan
memberikan cara penanganan.
b. Data yang digunakan adalah data yang diperoleh dari UCI Machine
Learning yang dikumpulkan dari Rumah Sakit Universitario de
Caracas di Caracas, Venezuela.
c. Perangkat lunak yang dibangun untuk mendeteksirisiko penyakit
kanker serviks hanya akan berfokus pada target biopsi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
1.6. Sistematika Penulisan
BAB I : Pendahuluan
Bab ini berisi tentang latar belakang, rumusan masalah, tujuan
penelitian, batasan masalah dan perangkat lunakatika penulisan.
BAB II : Tinjauan Pustaka
Bab ini berisi tentang teori yang berkaitan dengan judul atau
masalah pada tugas akhir yang digunakan sebagai penunjang penelitian
dan menjadi dasar atau sumber tertulis dari apa yang akan dilakukan.
BAB III : Metodologi Penelitian
Bab ini berisi tentang data, tahapan penelitian, perancangan
perangkat lunak yang akan dibuat dan spesifikasi alat.
BAB IV : Implementasi dan Analisis Hasil
Bab ini berisi tentang implementasi perangkat lunak berdasarkan
analisis dan perancangan yang dibuat sebelumnya, uji coba perangkat
lunak serta analisis hasil.
BAB V : Penutup
Bab ini berisi tentang kesimpulan dan saran dari penelitian yang
telah dilakukan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
BAB II
TINJAUAN PUSTAKA
2.1. Penambangan Data
2.1.1. Definisi Penambangan Data
Penambangan data atau Data Mining merupakan suatu proses
untuk menemukan informasi atau pengetahuan yang berguna dari
suatu data yang berjumlah besar. Data mining juga disebut sebagai
serangkaian proses untuk menggali nilai tambah berupa pengetahuan
yang selama ini tidak diketahui secara manual dari suatu kumpulan
data (Pramudiono, 2007).
Data mining, sering juga disebut sebagai Knowledge Discovery in
Database (KDD). KDD adalah kegiatan yang meliputi pengumpulan,
pemakaian data, historis untuk menemukan keteraturan, pola atau
hubungan dalam set data berukuran besar (Santoso, 2007).
Menurut Turban et.al.(2005) data mining adalah suatu istilah yang
digunakan untuk menguraikan penemuan pengetahuan di dalam
database. Data mining adalah proses yang menggunakan teknik
statistik, matematika, kecerdasan buatan, dan machine learning untuk
mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan
pengetahuan yang terkait dari berbagai database besar.
2.1.2. Fungsi Penambangan Data
Menurut Yusuf W. dkk (2006) dikutip oleh (Citra, 2015) data
mining dapat menjalankan fungsi-fungsi sebagai berikut :
1.Deskripsi
Deskripsi dapat membantu dalam menjelaskan pola dan
tren yang terjadi, pola dan trend data sering dideskripsikan.
Model data mining harus transparan, sehingga hasilnya dapat
mendeskripsikan pola dengan jelas.
2.Estimasi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
Estimasi sama dengan deskripsi kecuali variabel targetnya
numerik ketimbang kategorikal. Model yang dibuat
menggunakan record yang lengkap, yang telah menyediakan
nilai variabel target prediktor.
3.Prediksi
Prediksi sama dengan klasifikasi dan estimasi yang
membedakannya hanya hasil dalam prediksi yang terjadi dimasa
yang akan datang.
4.Klasifikasi
Variabel target dalam kasifikasi adalah kategorikal.
Mode data mining memeriksa set record yang besar, di mana
setiap record memiliki informasi variabel target dan set input.
5.Clustering
Pengelompokan record, observasi atau kasus ke dalam
objek-objek yang mirip disebut dengan clustering. Didalam
clustering tidak terdapat variabel target, clusteringmencoba
memfregmentasi seluruh set data ke dalam subgroup yang relatif
homogen, di mana kemiripan atar record luar cluster
diminimalisasikan sedangkan kemiripan didalam record
dimaksimalkan.
6.Asosiasi
Asosiasi adalah suatu tugas untuk menemukan atribut-
atribut yang terjadi bersamaan yang mencoba menemukan aturan
untuk mengkuantifikasi hubungan antara dua atau lebih atribut.
2.1.3. Tahap-Tahap Penambangan Data
Rangkaian proses penambangan data dapat dibagi menjadi
beberapa tahap yang diilustrasikan seperti pada Gambar 2.1.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
Gambar 2.1Tahap-tahap penambangan data (Han & Kamber, 2006)
Tahap-tahap penambangan data yaitu :
1. Pembersihan data (data cleaning)
Proses untuk menghilangkan noise dan data yang tidak
konsisten atau data tidak relevan.
2. Integrasi data (data integration)
Proses penggabungan data dari berbagai database ke dalam
satu database baru.
3. Seleksi data (data selection)
Proses untuk mengambil data dari database yang sesuai
untuk dianalisis.
4. Transformasi data (data transformation)
Proses mengubah atau menggabung data ke dalam format
yang sesuai untuk diproses dalam data mining.
5. Penambangan data (data mining)
Proses utama saat metode diterapkan untuk menemukan
pengetahuan berharga dan tersembunyi dari suatu data.
6. Evaluasi pola (pattern evaluation)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
Proses mengidentifikasi pola-pola menarik yang ditemukan.
Pola-pola menarik maupun model prediksi pada hasil dari tahap
data mining dievaluasi untuk menilai apakah hipotesa yang ada
tercapai atau tidak.
7. Presentasi pengetahuan (knowledge presentation)
Visualisasi dan penyajian pengetahuan mengenai metode
yang digunakan untuk memperoleh pengetahuan yang diperoleh
pengguna. Dalam tahap terakhir ini, presentasi hasil data mining
dalam bentuk pengetahuan yang bisa dipahami semua orang
merupakan salah satu tahapan yang diperlukan.
2.2. Algoritma C4.5
2.2.1. C4.5
Menurut Quinlan J.R, Algoritma Classification version 4.5 atau
biasa disebut C4.5 adalah algoritma yang paling terkenal (Pramudiono,
2003). Algoritma C4.5 merupakan algoritma yang digunakan untuk
membentuk pohon keputusan (decision tree). Pohon keputusan
merupakan metode klasifikasi dan prediksi yang berguna untuk
mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah
calon variabel input dengan sebuah variabel target. Algoritma ini
merupakan pengembangan dari algoritma Iterative Dichotomiser (ID3).
Perbedaan utama algoritma C4.5 dari ID3 yaitu :
Tabel 2.1 Perbedaan Algoritma C4.5 dan ID3
Algoritma C4.5 Algoritma ID3
1. C4.5 dapat menangani atribut
kontinyu dan diskrit
1. ID3 hanya mampu menangani
atribut diskrit
2.C4.5 dapat menangani data
training dengan missing value.
2. ID3 tidak dapat menangani data
training dengan missing value.
3. Hasil pohon keputusan C4.5 3. Hasil pohon keputusan ID3 tidak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
akan terpangkas setelah dibentuk terpangkas setelah dibentuk
4. Pemilihan atribut yang dilakukan
dengan menggunakan Gain Ratio.
4. Pemilihan atribut yang dilakukan
dengan menggunakan Information
Gain.
Secara umum algoritma C4.5 untuk membangun pohon keputusan
adalah sebagai berikut :
1) Memilih atribut sebagai akar(root) dengan menghitung nilai
entropy, information gain, split information dan gain ratio.
Atribut yang memiliki nilai gain ratio tertinggi akan dipilih
sebagai simpul akar dari pohon.
2) Membuat cabang untuk masing-masing nilai.
3) Membagi kasus dalam cabang
4) Mengulangi proses perhitungan untuk masing-masing cabang
sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk mengukur efektifitas suatu atribut dalam melakukan teknik
pengklasifikasian sampel data dapat menggunakan information gain.
Sebelum mencari nilai gain, dilakukan perhitungan untuk mencari peluang
kemunculan suatu record dalam atribut (entropy) dengan menggunakan
rumus 2.1 berikut :
( ) ∑
..........................(2.1)
Keterangan :
S : Himpunan kasus
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
Untuk melakukan perhitungan information gain digunakan seperti
rumus 2.2sebagai berikut:
( ) ( ) ∑
( )
.........(2.2)
Keterangan :
S : Himpunan kasus
A : Atribut
n : jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke i
|S| : Jumlah kasus dalam S
Dalam algoritma C4.5, pemilihan atribut dilakukan dengan
menggunaan gain ratio. Atribut dengan nilai gain ratio tertinggi dipilih
sebagai atribut test untuk simpul. Untukmenghitung gain ratio perlu
diketahui suatu term baru yang disebut dengan split information.Split
information dihitung dengan menggunakan rumus 2.3 sebagai berikut :
( ) ∑
....................(2.3)
Di mana :
S1 sampai Sc adalah c subset yang dihasilkan dari pemecahan S
dengan menggunakan atribut A yang mempunyai sebanyak c nilai.
Untuk menghitung gain ratio digunakan rumus 2.4 sebagai
berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
( ) ( )
( )
....................(2.4)
Pada saat membangun pohon keputusan, banyaknya cabang
mungkin karena adanya noise atau outlierpada data training. Pemangkasan
pohon (pruning) dapat dilakukan untuk mengenali dan menghilangkan
cabang tersebut agar pohon lebih kecil dan lebih mudah dipahami. Selain
itu, pemangkasan pohon juga perlu dilakukan karena dalam teknik
klasifikasi yang akan dijalankan nantinya akan mengeluarkan pola atau
rule yang dibentuk berdasarkan struktur pohon, jadi jika struktur pohon
tidak teratur atau kurang sederhana, maka rule yang dihasilkan pun akan
rumit untuk diimplementasikan. Ada dua metode yang dapat digunakan
untuk melakukan pemangkasan pohon keputusan, yaitu :
1. Prepruning
Prepruningyaitu melakukan pemangkasansubtree lebih awal,
yakni dengan memutuskan untuk tidak lebih jauh mempartisi
data training. Pada pendekatan prepruning, sebuah pohon
dipangkas dengan cara menghentikan pembangunannya jika
partisi yang akan dibuat dianggap tidak signifikan. Keuntungan
dari prepruningyaitu lebih hemat waktu dalam proses
pembentukan pohon keputusan.
2. Postpruning
Postpruning yaitu menyederhanakan pohon dengan cara
memangkas beberapa cabang subtree setelah pohon selesai
dibangun.
Langkah-langkah pemangkasan pohon :
1. Hitung Pessimistic error rate parent.
2. Hitung Pessimistic error rate child.
3. Jika Pessimistic error rate child>parent, maka lakukan
pemangkasan.
4. Jika Pessimistic error rate child<parent, maka lanjutkan split.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
Untuk menghitung Pessimistic error rate digunakan rumus 2.5
berikut.
√
..................(2.5)
Jika c= 25% (default untuk C4.5) maka z= 0,69 (dari distribusi
normal)
f = nilai perbandingan error rate.
n = total sample.
2.2.2. Contoh Penerapan C4.5
Berikut merupakan contoh sederhana penerapan algoritma C4.5
untuk menyelesaikan kasus apakah pasien mengidap penyakit kanker
serviks atau tidak, berdasarkan IUD (years) yang menyatakan berapa
tahun pasien menggunakan alat kontrasepsi IUD, First Sexual
Intercourse menyatakan umur pasien saat pertama kali melakukan
hubungan seksual, Dx:CINmenyatakan hasil diagnosis Cervical
Intraepithelial Neoplasiadan status STDs:HIV menyatakan apakah
pasien menderita penyakit menular seksual jenis HIV. Pada tabel 2.2
berikut akan digunakan untuk membentuk pohon keputusan:
Tabel 2.2 Data Pasien
IUD
(years)
First
Sexual
Intercoure
Dx : CIN STDs :
HIV BIOPSY
0 - 5 10 - 16 False True No
0 - 5 10 - 16 False False No
>= 12 10 - 16 False True Yes
6 - 11 17 - 23 False True Yes
6 - 11 >= 24 True True Yes
6 - 11 >= 24 True False Yes
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
>= 12 >= 24 True False Yes
0 - 5 17 - 23 False True No
0 - 5 >= 24 True True Yes
6 - 11 17 - 23 True True Yes
0 - 5 17 - 23 True False Yes
>= 12 17 - 23 False False Yes
>= 12 10 - 16 True True Yes
6 - 11 17 - 23 False False No
Pada tabel 2.2, atribut-atributnya adalah IUD (years), First Sexual
Intercourse, Dx:CIN dan STDs:HIV. Setiap atribut memiliki nilai
masing-masing. Sedangkan kelasnya ada pada kolom Biopsy, yaitu
kelas “Yes” atau “No”. Data tersebut memiliki 14 kasus yang terdiri
dari 10 “Yes” dan 4 “No”.
Langkah 1, menghitung Entropy Total dari masing-masing nilai
Biopsy dengan rumus 2.1 :
EntropyTotal(10Yes,4No) =(-10/14*log2(10/14)) + (-4/14*log2(4/14))
=0,346733448 + 0,516387121
= 0,863120569
Langkah 2, menghitung Entropy dari atribut IUD (years) dengan
rumus 2.1:
EntropyIUD (years)0 - 5(2Yes,3No)=(-2/5*log2(2/5)) + (-3/5*log2(3/5))
=0,528771238 + 0,442179356
= 0,970950594
EntropyIUD (years)6-11(4Yes,1No)=(-4/5*log2(4/5)) + (-1/5*log2(1/5))
=0,257542476 + 0,464385619
= 0,721928095
EntropyIUD (years)>= 12(4Yes,0No)=(-4/4*log2(4/4)) + (0/4*log2(0/4))
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
=0+ 0
= 0
EntropyTotal(IUD (years))=5/14*(0,970950594)+5/14*
(0,721928095)+0
=0,346768069 + 0,257831463 + 0
= 0,604599532
Langkah 3, menghitung Information Gain dari atribut IUD (years)
dengan rumus 2.2:
Gain(Total,IUD (years)) =0,863120569 - 0,604599532
= 0,258521037
Langkah 4, menghitung Split Information dari atribut IUD (years)
dengan rumus 2.3:
SplitInformation(Total,IUD (years)) = (-5/14*log2(5/14)) +
(-5/14*log2(5/14)) +
(-4/14*log2(4/14))
= 1,577406283
Langkah 5, menghitung Gain Ratio dari atribut IUD (years) dengan
rumus 2.4:
GainRatio(Total,IUD (years)) =0,258521037/1,577406283
= 0,16388995
Ulangi langkah 2, menghitung Entropy dari atribut First Sexual
Intercourse dengan rumus 2.1:
EntropyFirstSexualIntercourse10 - 16(2Yes,2No) =(-2/4*log2(2/4))+
(2/4*log2(2/4))
=0,5 + 0,5
= 1
EntropyFirstSexualIntercourse17 - 23(4Yes,2No) =(-4/6*log2(4/6)) +
(-2/6*log2(2/6))
=0,389975 +
0,528320834
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
= 0,918295834
EntropyFirstSexualIntercourse>= 24(4Yes,0No)=(-4/4*log2(4/4)) +
(0/4*log2(0/4))
=0+ 0
= 0
EntropyTotal(FirstSexualIntercourse) = 4/14 * 1 + 6/14 *
(0,918295834) + 0
=0,285714286 +
0,393555357 + 0
= 0,679269643
Ulangi langkah 3, menghitung Information Gain dari atribut First
Sexual Intercourse dengan rumus 2.2:
Gain(Total,FirstSexualIntercourse) =0,863120569 - 0,679269643
= 0,183850926
Langkah 4, menghitung Split Information dari atribut First Sexual
Intercourse dengan rumus 2.3:
SplitInformation(Total,FirstSexualIntercourse)= (-4/14*log2(4/14))
+(-6/14*log2(6/14))
+(-4/14*log2(4/14))
= 1,556656707
Langkah 5, menghitung Gain Ratio dari atribut First Sexual
Intercourse dengan rumus 2.4:
GainRatio(Total,FirstSexualIntercourse)=0,183850926/
1,556656707
= 0,118106275
Ulangi langkah 2, menghitung Entropy dari atribut Dx:CIN dengan
rumus 2.1:
EntropyDx:CINFalse(3Yes,4Np) =(-3/7*log2(3/7))+(-4/7*log2(4/7))
=0,523882466+ 0,46134567
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
= 0,985228136
EntropyDx:CINTrue(7Yes,0No) =(-7/7*log2(7/7))+(-0/7*log2(0/7)
=0 + 0
= 0
EntropyTotal(Dx:CIN) = 7/14*(0,985228136) + 0
=0,492614068 + 0
= 0,492614068
Ulangi langkah 3, menghitung Information Gain dari atribut Dx:CIN
dengan rumus 2.2:
Gain(Total, Dx:CIN) =0,863120569 - 0,492614068
= 0,370506501
Langkah 4, menghitung Split Information dari atribut Dx:CIN dengan
rumus 2.3:
SplitInformation(Total,Dx:CIN) = (-7/14*log2(7/14)) +
(-7/14*log2(7/14))
= 1
Langkah 5, menghitung Gain Ratio dari atribut Dx:CIN dengan
rumus 2.4:
GainRatio(Total,Dx:CIN) =0,370506501/1
= 0,370506501
Ulangi langkah 2, menghitung Entropy dari atribut STDs:HIV
dengan rumus 2.1:
EntropySTDs:HIVFalse(2Yes,4No)=(-2/6*log2(2/6))+(-4/6*log2(4/6))
=0,528320834+ 0,389975
= 0,918295834
EntropySTDs:HIVTrue(6Yes,2No) =(-6/8*log2(6/8))+(-2/8*log2(2/8)
=0,311278124 + 0,5
= 0,811278124
EntropyTotal(STDs:HIV) = 6/14*(0,918295834) + 8/14 *
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
(0,811278124)
=0,393555357 + 0,4635875
= 0,857142857
Ulangi langkah 3, menghitung Information Gain dari atribut
STDs:HIV dengan rumus 2.2:
Gain(Total,STDs:HIV) =0,863120569 - 0,857142857
= 0,005977712
Langkah 4, menghitung Split Information dari atribut STDs:HIV
dengan rumus 2.3:
SplitInformation(Total,STDs:HIV) = (-6/14*log2(6/14)) +
(-8/14*log2(8/14))
= 0,985228136
Langkah 5, menghitung Gain Ratio dari atribut STDs:HIV dengan
rumus 2.4:
GainRatio(Total,STDs:HIV) =0,005977712/ 0,985228136
= 0,006067338
Hasil perhitungan root ditampilkan pada tabel 2.3 berikut:
Tabel 2.3 Perhitungan Root/Node 1
Atr
ibu
t
Nil
ai
Ju
mla
h D
ata
Ju
mla
h (
Yes
)
Ju
mla
h (
No
)
En
trop
y
Gain
Sp
lit
Info
Gain
Rati
o
Total (S) 14 10 4 0,863120569
IUD
(yea
rs)
0 - 5 5 2 3 0,970950594
0,258521037 1,577406283 0,16388995
6-11 5 4 1 0,721928095
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
>= 12 4 4 0 0
Fir
st S
exu
al
Inte
rco
urs
e
10 - 16 4 2 2 1
0,183850926 1,556656707 0,118106275 17 - 23 6 4 2 0,918295834
>= 24 4 4 0 0
Dx
:CIN
False 7 3 4 0,985228136
0,370506501 1 0,370506501
True 7 7 0 0
ST
Ds:
HIV
False 6 2 4 0,918295834
0,005977712 0,985228136 0,006067338
True 8 6 2 0,811278124
Dari hasil perhitungan pada tabel 2.3 di atas diperoleh nilai Gain
Ratio tertinggi adalah atribut Dx:CIN yaitu 0,370506501. Dengan
demikian atribut terbentuk sebagai root. Pada atribut Dx:CIN terdapat
dua nilai atribut, yaitu “False” dan “True”. Pada status Dx:CIN
“True”, memiliki 7 kasus dan semuanya bernilai “Yes”. Hal ini
menunjukan bahwa Dx:CIN “True” menjadi daun atau leaf. Jika
divisualisasi maka pohon keputusan akan tampak seperti Gambar 2.2.
Gambar 2.2 Pohon Keputusan Node 1 (Root Node)
Berdasarkan Gambar 2.2 di atas, node 1.1 akan dianalisis lebih
lanjut. Untuk mempermudahnya, maka Tabel 2.2 difilter dengan
Yes
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
mengambil data yang memiliki Dx:CIN = False sehingga
menghasilkan Tabel 2.4 seperti berikut:
Tabel 2.4 Data Pasien dengan Dx:CIN = False
NO IUD
(YEARS)
FIRST SEXUAL
INTERCOURSE DX:CIN STDS:HIV BIOPSY
1 0 - 5 10 - 16 False True No
2 0 - 5 10 - 16 False False No
3 >= 12 10 - 16 False True Yes
4 6-11 17 - 23 False True Yes
5 0 - 5 17 - 23 False True No
6 >= 12 17 - 23 False False Yes
7 6-11 17 - 23 False False No
Kemudian data di Tabel 2.3 dianalisis dan dihitung dengan
mengulangi langkah-langkah perhitungan seperti yang sudah
dilakukan sebelumnya. Hasil perhitungan tersebut ditampilkan pada
Tabel 2.5 berikut.
Tabel 2.5 Perhitungan Node 1.1
Atr
ibu
t
Nil
ai
Ju
mla
h D
ata
Ju
mla
h (
Yes
)
Ju
mla
h (
No)
En
trop
y
Gain
Sp
lit
Info
Gain
Rati
o
Total (S) 7 3 4 0,985228136
IUD
(y
ears
)
0 - 5 3 0 3 0
0,69951385 1,556656707 0,449369374 6-11 2 1 1 1
>= 12 2 2 0 0
Fir
st
Sex
ual
Inte
rco
urs
e
10 - 16 3 1 2 0,918295834
0,020244207 0,985228136 0,020547736
17 - 23 4 2 2 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
>= 24 0 0 0 0
ST
Ds:
HIV
False 3 1 2 0,918295834
0,020244207 0,985228136 0,020547736
True 4 2 2 1
Dari hasil perhitungan pada tabel 2.5 di atas diperoleh nilai Gain
Ratio tertinggi adalah atribut IUD (years) yaitu 0,449369374. Dengan
demikian atribut IUD (years) terbentuk menjadi node 1.1. Pada atribut
IUD (years) “>= 12” memiliki 2 kasus dan semuanya bernilai “Yes”,
sedangkan pada atribut IUD (years) “0 - 5” memiliki 3 kasus dan
semuanya bernilai “No”. Dengan demikian kedua nilai tersebut
dijadikan daun atau leaf. Jika divisualisasikan maka pohon keputusan
akan tampak seperti Gambar 2.3.
Gambar 2.3 Pohon Keputusan Node 1.1
Untuk menganalisis node 1.1.2, kembali dilakukan filter untuk data
yang memiliki atribut bernilai Dx:CIN = False dan IUD (years) = 6-11
sehingga data yag dihasilkan seperti pada Tabel 2.5.
No Ye
Ye
s
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
Tabel 2.6 Data Pasien Dx:CIN = False dan IUD (years) = 6-11
NO IUD
(YEARS)
FIRST SEXUAL
INTERCOURSE DX:CIN STDS:HIV BIOPSY
1 6-11 17 - 23 False True Yes
2 6-11 17 - 23 False False No
Tabel 2.6 dianalisis dan dihitung dengan mengulangi langkah-
langkah perhitungan seperti yang sudah dilakukan sebelumnya. Hasil
perhitungan tersebut ditampilkan pada Tabel 2.7 berikut.
Tabel 2.7 Perhitungan Node 1.1.2
Atr
ibu
t
Nil
ai
Ju
mla
h D
ata
Ju
mla
h (
Yes
)
Ju
mla
h (
No)
En
trop
y
Gain
Sp
lit
Info
Gain
Rati
o
Total (S) 2 1 1 1
Fir
st S
exu
al
Inte
rco
urs
e
10 - 16 0 0 0 0
0 0 0 17 - 23 2 1 1 1
>= 24 0 0 0 0
ST
Ds:
HIV
False 1 0 1 0
1 1 1
True 1 1 0 0
Dari hasil perhitungan pada tabel 2.7 di atas diperoleh nilai Gain
Ratio tertinggi adalah atribut STDs:HIV yaitu 1. Maka atribut
STDs:HIV terbentuk menjadi node 1.1.2 Pada atribut STDs:HIV
“False” memiliki 1 kasus dan bernilai “No”, sedangkan pada atribut
STDs:HIV “True” memiliki 1 kasus dan bernilai “Yes”. Dengan
demikian kedua nilai tersebut dijadikan daun atau leaf. Pohon
keputusan yang terbentuk pada perhitungan node 1.1.2 ditampilkan
pada Gambar 2.4 berikut:
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
Gambar 2.4 Pohon Keputusan Node 1.1.2
Dengan memperhatikan pohon keputusan pada Gambar 2.4 di atas,
diketahui bahwa semua kasus telah masuk dalam kelas. Dengan
demikian pohon keputusan tersebut merupakan pohon terakhir yang
terbentuk.
2.3. Kanker Serviks
2.3.1. Definisi Kanker Serviks
Kanker serviks adalah jenis kanker yang muncul pada leher rahim.
Pengertian kanker serviks adalah suatu proses keganasan yang terjadi
pada leher rahim, sehingga jaringan di sekitarnya tidak dapat
melaksanakan fungsi sebagaimana mestinya. Keadaan tersebut
biasanya disertai dengan adanya perdarahan dan pengeluaran cairan
vagina yang abnormal, penyakit ini dapat terjadi berulang-ulang
(Prayetni, 2007).
No
No
Y
Y
Y
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
2.3.2. Penyebab Kanker Serviks
Kanker serviks 99,7 % disebabkan oleh Human Papilloma Virus
(HPV). HPV adalah virus yang paling sering dijumpai pada penyakit
menular seksual dan diduga berperan dalam proses terjadinya kanker.
Saat ini terdapat 138 jenis HPV yang sudah teridentifikasi, 40
diantaranya dapat ditularkan melalui hubungan seksual. HPV yang
dapat menyebabkan kanker serviks yaitu HPV risiko sedang maupun
tinggi. Beberapa penelitian mengemukakan bahwa 90% kanker
serviks disebabkan oleh HPV tipe 16 dan 18. Dari kedua tipe ini,
HPV tipe 16 telah menyebabkan lebih dari 50% kanker serviks.
Seseorang yang sudah terinfeksi HPV 16 maka memiliki
kemungkinan terkena kanker serviks sebesar 5% (Rasjidi, 2009).
2.3.3. Faktor Risiko Kanker Serviks
Menurut Diananda (2007), faktor-faktor yang mempengaruhi
kanker serviks yaitu :
1.Usia > 35 tahun mempunyai risiko tinggi terhadap kanker
serviks.
2.Melakukan hubugan seksual pada usia kurang dari 20
tahun. Hubugan seks idealnya dilakukan setelah seorang
wanita benar-benar matang.
3. Wanita dengan aktivitas seksual yang tinggi, dan sering
berganti-ganti pasangan. Berganti-ganti pasangan
memungkinkan seseorang tertular penyakit kelamin, seperti
HPV.
4. Penggunaan antiseptik dengan menggunakan obat-obatan
antiseptik maupun deodoran ketika mencuci vagina dapat
mengakibatkan iritasi yang mengakibatkan terjadinya
kanker.
5. Wanita yang merokok. Wanita perokok memiliki risiko 2
kali lebih besar terkena kanker serviks dibandingkan
dengan wanita yang tidak merokok.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
6. Riwayat penyakit kelamin dan infeksi virus seperti herpes
dan kutil genetalia
7. Paritas (jumah kelahiran). Wanita yang memiliki banyak
anak dengan jarak persalinan yang terlalu pendek memiliki
risiko yang semakin tinggi karena berdampak pada
seringnya terjadi perlukaan di organ reproduksinya yang
memudahkan munculnya HPV.
8. Penggunaan kontrasepsi oral dalam jangka waktu lama.
2.3.4. Diagnosis Kanker Serviks
Wanita dengan kanker serviks stadium awal dan pre-kanker tidak
menimbulkan gejala sama sekali hingga sel kanker menyebar ke
jaringan di sekitarnya membentuk tumor. Gejala-gejala kanker
serviks baru akan muncul saat kanker sudah memasuki stadium
lanjut(di atas stadium dua).
Dalam diagnosis penyakit kanker, dokter akan melakukan beragam
tes sebagai berikut :
1. Tes Pap Smear
Tes pap smear bertujuan untuk mengetahui apakah terdapat
pertumbuhan sel yang abnormal pada rahim. Tes ini harus mulai
dilakukan pada wanita usia 18 tahun atau ketika telah melakukan
aktivitas seksual sebelum itu. Setiap wanita yang telah aktif
secara seksual dianjurkan menjalani pap smear secara teratur
yaitu 1 kali setiap tahun.
2. Tes HPV
Tes HPV adalah tes yang dilakukan untuk mengidentifikasi
jenis HPV mana yang paling mungkin menyebabkan kanker
serviks. Tes HPV memiliki tujuan yang sama dengan tes pap
smear yaitu mendeteksi kanker serviks secara dini. Tes HPV
dapat dilakukan bersamaan dengan tes pap smear.
3. Tes Kolposkopi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Tes kolposkopi digunakan dokter untuk mengonfirmasi
keberadaan sel abnormal di serviks. Tes ini juga dapat digunakan
untuk memandu biopsi. Tes kolposkopi menggunakan alat
khusus yang bernama kolposkop. Kolposkop tidak dimasukkan
ke dalam tubuh dan alat ini dapat memperlihatkan tampilan sel-
sel serviks dan vagina yang diperbesar.
4. Biopsi
Biopsi merupakan tes yang dilakukan dengan mengambil
sejumlah kecil jaringan sebagai sampel untuk diperiksa
menggunakan mikroskop. Biopsi sering dilakukan untuk
memastikan suatu diagnosis. Selain untuk diagnosis, biopsi juga
dapat dilakukan untuk mengangkat jaringan abnormal dari
serviks serta memberikan pengobatan untuk sel pra-kanker.
Walaupun tes-tes lain dapat menunjukkan kemungkinan adanya
kanker di serviks, tetapi hanya biopsi lah satu-satunya cara pasti
dalam mendeteksi kanker.
2.4. Imbalanced Data
Sebuah data dapat dikatakan menjadi tidak seimbang (imbalanced)
jika terdapat satu kelas yang direpresentasikan dalam jumlah instance
yang kecil bila dibandingkan dengan jumlah instancekelas yang lainnya.
Kondisi tersebut dapat menimbulkan masalah pada klasifikasi data yang
kasusnya jarang terjadi akan tetapi sangat penting, contohnya pada
pengklasifikasian data kecurangan transaksi telepon, pengenalan citra
satelit untuk pendeteksian tumpahan minyak, deteksi kkegagalan mesin
suatu pabrik, deteksi penyakit yang langka tetapi berbahaya (Barandela et
al. 2002).
Kondisi imbalanced data dapat terlihat secara nyata pada himpunan
data yang memiliki dua kelas. Kelas yang jumlah instance terkecil
(minority class) disebut kelas positif dan kelas yang jumlah instance
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
terbesar (majority class) disebut kelas negatif. Rasio jumlah instance
antara kedua kelas yaitu 1:100, 1:1000 dan 1:10000 atau lebih.
Ada dua pendekatan yang dapat dilakukan untuk mengatasi kondisi
imbalanced data. Pendekatan pertama yaitu pada level data,
menggunakan teknik pengambilan contoh (sampling technique) dan
pendekatan kedua yaitu pada level algoritma. Pendekatan sampling
technique terdiri dari dua cara yaitu Oversampling kelas terkecil dan
Undersamplingkelas terbesar.
1. Oversampling
Teknik pengambilan contoh meningkatkan jumlah kelas
terkecil dengan cara mereplikasi data secara acak sehingga
jumlahnya sama dengan kelas terbesar.
2. Undersampling
Teknik pengambilan contoh mengurangi jumlah data kelas
terbesar secara acak sehingga jumlahnya sama dengan kelas
terkecil.
2.5. SplitValidation
Split Validation merupakan teknik validasi yang membagi data
menjadi dua bagian, sebagian sebagai data training dan sebagian lainnya
sebagai data testing. Dengan menggunakan split validation akan
dilakukan proses training berdasarkan splitratio yang telah ditentukan
sebelumnya, kemudian sisa dari split ratio data training akan dianggap
sebagai data testing. Data training merupakan data yang akan dipakai
dalam melakukan pembelajaran sedangkan data testing merupakan data
yang belum pernah dipakai sebagai pembelajaran dan akan digunakan
sebagai data pengujian kebenaran hasil pembelajaran. Ilustrasi
splitvalidation dipaparkan pada Gambar 2.4 berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
Gambar 2.5 Ilustrasi Split Validation
2.6. ConfusionMatrix
Confusion Matrix merupakan suatu metode yang dapat digunakan
untuk menghitung akurasi suatu metode klasifikasi pada konsep data
mining. Pada dasarnya confusion matrix mengandung informasi yang
membandingkan hasil klasifikasi yang dilakukan oleh perangkat lunak
dengan hasil klasifikasi yang seharusnya. Tabel 2.8 menyajikan bentuk
confusion matrix sebagai berikut :
Tabel 2.8 Confusion Matrix
PREDIKSI
Positif Negatif
AKTUAL
Positif TP FN
Negatif FP TN
Keterangan :
a. TP (True Positive), yaitu jumlah data yang kelas aktualnya
adalah kelas positif dengan kelas prediksinya adalah kelas
positif.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
b. FN (False Negative), yaitu jumlah data yang kelas
aktualnya adalah kelas positif dengan kelas prediksinya
adalah kelas negatif.
c. FP (False Positive), yaitu jumlah data yang kelas aktualnya
adalah kelas negatif dengan kelas prediksinya adalah kelas
positif.
d. TN (True Negative), yaitu jumlah data yang kelas aktualnya
adalah kelas negatif dengan kelas prediksinya adalah kelas
negatif.
Berdasarkan Tabel 2.8di atas, untuk menghitung akurasi yaitu
dengan menggunakan rumus 2.6 berikut :
.............................(2.6)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
BAB III
METODOLOGI PENELITIAN
3.1. Sumber Data
Data yang digunakan oleh penulis dalam penelitian ini adalah data
yang diperoleh dari situsUCI Machine Learning yang dapat diakses
melalui alamat https://archive.ics.uci.edu/ml/index.php. Data pasien
dikumpulkan dari Rumah Sakit Universitario de Caracas di Caracas,
Venezuela. Data tersebut berfokus pada prediksi/indikator risiko kanker
serviks. Jumlah data sebanyak 858 data pasien, dengan 32 atribut yang
terdiri dari informasi demografis, kebiasaan, dan catatan rekam medis
serta 4 label kelas yaitu Hinselmann, Schiller, Citology dan
Biopsy.Namun pada penelitian ini penulis hanya akan berfokus pada
target biopsy. Beberapa pasien tidak menjawab beberapa pertanyaan
karena masalah privasi (missing value).Atribut data kanker serviks
dipaparkan pada tabel 3.1 berikut.
Tabel 3.1 Atribut Data Kanker Serviks
No Attribut Keterangan Tipe Data
1 Age Umur pasien Integer
2 Number of sexual
partners
Jumlah pasangan seksual Integer
3 First sexual intercourse
(age)
Umur pasien saat
melakukan hubungan
seksual pertama
Integer
4 Num of pregnancies Jumlah kehamilan pasien Integer
5 Smokes Apakah pasien merokok Boolean
6 Smokes (years)
Berapa tahun pasien
merokok
Integer
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
7 Smokes (packs/year)
Berapa bungkus rokok yang
dihabiskan pasien per tahun
Integer
8 Hormonal
contraceptives
Apakah pasien
menggunakan kontrasepsi
hormonal
Boolean
9 Hormonal
contraceptives (years)
Berapa tahun pasien
menggunakan kontrasepsi
hormonal
Integer
10 IUD
Apakah pasien
menggunakan alat
kontrasepsi intrauterine
device
Boolean
11 IUD (years)
Berapa tahun pasien
menggunakan kontrasepsi
intrauterine device
Integer
12 STDs Apakah pasien menderita
penyakit menular seksual
Boolean
13 STDs (number) Jumlah penyakit menular
yang diderita pasien
Integer
14 STDs:condylomatosis
Apakah pasien menderita
penyakit menular seksual
jenis condylomatosis
Boolean
15 STDs:cervical
condylomatosis
Apakah pasien menderita
penyakit menular seksual
jeniscervical
condylomatosis
Boolean
16 STDs:vaginal
condylomatosis
Apakah pasien menderita
penyakit menular seksual
jenis vaginal
condylomatosis
Boolean
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
17 STDs:vulvo-perineal
condylomatosis
Apakah pasien menderita
penyakit menular seksual
jenis vulvo-perineal
condylomatosis
Boolean
18 STDs:syphilis
Apakah pasien menderita
penyakit menular seksual
jenissyphilis
Boolean
19 STDs:pelvic
inflammatory disease
Apakah pasien menderita
penyakit menular seksual
jenispelvic inflammatory
disease
Boolean
20 STDs:genital herpes
Apakah pasien menderita
penyakit menular seksual
jenisgenital herpes
Boolean
21 STDs:molluscum
contagiosum
Apakah pasien menderita
penyakit menular seksual
jenismolluscum
contagiosum
Boolean
22 STDs:AIDS
Apakah pasien menderita
penyakit menular seksual
jenisAIDS
Boolean
23 STDs:HIV
Apakah pasien menderita
penyakit menular seksual
jenisHIV
Boolean
24 STDs:Hepatitis B
Apakah pasien menderita
penyakit menular seksual
jenisHepatitis B
Boolean
25 STDs:HPV Apakah pasien menderita Boolean
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
penyakit menular seksual
jenisHPV
26 STDs: Number of
diagnosis
Jumlah diagnosis penyakit
menular seksual
Integer
27 STDs: Time since first
diagnosis
Tahun diagnosis penyakit
menular seksual pertama
kali
Integer
28 STDs: Time since last
diagnosis
Tahun diagnosis penyakit
menular seksual terakhir
kali
Integer
29 Dx:Cancer Hasil diagnosis kanker Boolean
30 Dx:CIN
Hasil diagnosis Cervical
Intraepithelial
Neoplasia (CIN)
Boolean
31 Dx:HPV
Hasil diagnosis Human
Papilloma Virus (HPV)
Boolean
32 Dx Hasil diagnosis Boolean
Contoh data mentah yang digunakan pada penelitian ini dapat
dilihat pada lampiran 1.
Data yang diperoleh pada penelitian ini merupakan data tidak
seimbang (imbalanced data) karena terdapat kelas yang mendominasi
dari kelas lainnya. Kelas dari biopsy yang menyatakan pasien tidak
menderita kanker serviks merupakan kelas mayoritas, sedangkan kelas
dari biopsyyang menyatakan pasien menderita kanker serviks merupakan
kelas minoritas. Detail mengenai kelas biopsy pada dataset dipaparkan
pada tabel 3.2 berikut.
Tabel 3.2 Detail Kelas Biopsy
Biopsy Jumlah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
No 803
Yes 55
Total : 858
3.2. Tahapan Penelitian
Pendekatan sistematis yang akan digunakan dalam merealisasikan
tujuan dan rumusan masalah di atas adalah dengan menggunakan
langkah-langkah sebagai berikut :
3.2.1. Knowledge Discovery in Database (KDD)
3.2.2.1 Pembersihan Data (Data Cleaning)
Proses pembersihan data untuk menghilangkan noise atau
data yang tidak konsisten. Pada data pasien yang digunakan,
terdapat dua atribut yang memiliki banyak nilai kosong
dikarenakan masalah privasi pasien. Kedua atribut tersebut yaitu
atribut STDs: Time since first diagnosis dan STDs: Time since last
diagnosis. Dengan begitu pada proses ini kedua atribut akan
dihilangkan. Beberapa atribut yang memiliki sedikit nilai kosong
akan diganti dengan nilai rata-rata atau dengan nilai modus
tergantung jenis datanya.Pada data integer digunakan cara
mengganti nilai kosong dengan nilai rata-rata, sedangkan untuk
data boolean maka digunakan cara mengganti nilai kosong dengan
nilai modus. Detail mengenai atribut yang memiliki sedikit nilai
kosong akan dipaparkan pada tabel 3.3 berikut.
Tabel 3.3 Beberapa atribut yang Memiliki Sedikit Nilai Kosong
No Attribut
Tipe Data Mengganti Nilai
Kosong
1 Number of sexual partners Integer Mean= 2
2 First sexual intercourse Integer Mean= 17
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
(age)
3 Num of pregnancies Integer Mean = 2
4 Smokes Boolean Modus = 0 (false)
5 Hormonal contraceptives Boolean Modus = 1 (true)
6 Hormonal contraceptives
(years)
Integer Mean = 2
7 IUD Boolean Modus = 0 (false)
8 STDs Boolean Modus = 0 (false)
9 STDs:condylomatosis Boolean Modus = 0 (false)
10
STDs:cervical
condylomatosis
Boolean Modus = 0 (false)
11
STDs:vaginal
condylomatosis
Boolean Modus = 0 (false)
12
STDs:vulvo-perineal
condylomatosis
Boolean Modus = 0 (false)
13 STDs:syphilis Boolean Modus = 0 (false)
14
STDs:pelvic inflammatory
disease
Boolean Modus = 0 (false)
15 STDs:genital herpes Boolean Modus = 0 (false)
16
STDs:molluscum
contagiosum
Boolean Modus = 0 (false)
17 STDs:AIDS Boolean Modus = 0 (false)
18 STDs:HIV Boolean Modus = 0 (false)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
19 STDs:Hepatitis B Boolean Modus = 0 (false)
20 STDs:HPV Boolean Modus = 0 (false)
21 Dx:Cancer Boolean Modus = 0 (false)
22 Dx:CIN Boolean Modus = 0 (false)
23 Dx:HPV Boolean Modus = 0 (false)
24 Dx Boolean Modus = 0 (false)
3.2.2.2 Integrasi Data (Data Integration)
Proses penggabungan data dari berbagai database ke dalam
database baru. Integrasi data dapat dilakukan jika data yang
diperoleh berasal dari sumber yang berbeda. Pada penelitian ini
peneliti memperoleh data langsung dari satu sumber sehingga tidak
diperlukan proses integrasi data.
3.2.2.3 Seleksi Data (Data Selection)
Proses seleksi data dilakukan untuk atribut data yang tidak
diperlukan akan dibuang atau ditinggalkan. Pada penelitian ini
peneliti hanya akan berfokus pada target biopsi sehingga tiga target
lainnya yaitu Hinselmann, Schiller dan Citology akan dibuang.
Pada atribut STDs: cervical condylomatosis dan STDs: AIDS
semua data bernilai sama yaitu false sehingga kedua atribut
tersebut akan dibuang karena tidak memiliki nilai pembandingnya.
Selanjutnya, terdapat 4 atribut yang dapat dihapus yaitu atribut
Smokes, Hormonal Contraceptives, IUD dan STDs. Atribut Smokes
dihapus karena terdapat atribut lain yang telah menjelaskan atribut
Smokes yaitu Smokes (years) dan Smokes (packs/year). Ketika
pasien tidak merokok maka atribut Smokes (years) dan Smokes
(packs/year) akan diisi dengan nilai 0, maka dari kedua atribut
tersebut pun dapat menjelaskan apakah seseorang tersebut merokok
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
atau tidak. Hal ini juga berlaku untuk ketiga atribut Hormonal
Contraceptives, IUD dan STDs karena atribut-atribut tersebut
kurang memberikan informasi yang banyak maka lebih baik
dihapus dari dataset.
3.2.2.4 Transformasi Data (Data Transformation)
Proses transformasi data atau mengubah data ke dalam
bentuk yang sesuai dilakukan agar data dapat diolah dengan
perhitungan algoritma C4.5. Pada tahap ini transformasi dilakukan
dengan cara mengubah data ke dalam bentuk kategori. Berikut
transformasi yang dilakukan pada masing-masing atribut :
1. Transformasi pada kolom STDs: condylomatosis
0 : False
1 : True
2. Transformasi pada kolom STDs: vaginal condylomatosis
0 : False
1 : True
3. Transformasi pada kolom STDs: vulvo-perineal
condylomatosis
0 : False
1 : True
4. Transformasi pada kolom STDs: syphilis
0 : False
1 : True
5. Transformasi pada kolom STDs: pelvic inflammatory disease
0 : False
1 : True
6. Transformasi pada kolom STDs: genital herpes
0 : False
1 : True
7. Transformasi pada kolom STDs: molluscum contagiosum
0 : False
1 : True
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
8. Transformasi pada kolom STDs: HIV
0 : False
1 : True
9. Transformasi pada kolom STDs: Hepatitis B
0 : False
1 : True
10. Transformasi pada kolom STDs: HPV
0 : False
1 : True
11. Transformasi pada kolom Dx: Cancer
0 : False
1 : True
12. Transformasi pada kolom Dx: Cin
0 : False
1 : True
13. Transformasi pada kolom Dx: HPv
0 : False
1 : True
14. Transformasi pada kolom Dx
0 : False
1 : True
15. Transformasi STDs (number)
0 : Zero
1 : One
2 : Two
3 : Three
4 : Four
16. Transformasi STDs : Number of Diagnosis
0 : Zero
1 : One
2 : Two
3 : Three
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
17. Transformasi pada kolom Age, Number of Sexual Partners,
First Sexual Intercourse, Num of Pregnancies, Smokes
(years), Smokes (packs/year), Hormonal Contraceptives
(years) dan IUD (years).
Proses transformasi pada beberapa atribut ini menggunakan
teknik discretization untuk mengubah data numerik atau
kontinyu ke dalam interval. Teknik discretization yang
digunakan yaitu dengan menerapkan metode binning yang
membagi partisi ke dalam beberapa bin dengan lebar yang
sama (jarak). Berikut langkah-langkahnya :
a. Menentukan berapa banyak kelas interval. Pada
masing-masing atribut tersebut, peneliti akan
membagi menjadi 3 kelas interval (k=3).
b. Mencari nilai minimal dan maksimal dari masing-
masing atribut.
Age
Nilai minimal : 13
Nilai maksimal : 84
Number of Sexual Partners
Nilai minimal : 1
Nilai maksimal : 28
First Sexual Intercourse
Nilai minimal : 10
Nilai maksimal : 32
Num of Pregnancies
Nilai minimal : 0
Nilai maksimal : 11
Smokes (years)
Nilai minimal : 0
Nilai maksimal : 37
Smokes (packs/year)
Nilai minimal : 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
Nilai maksimal : 37
Hormonal Contraceptives (years)
Nilai minimal : 0
Nilai maksimal : 30
IUD (years)
Nilai minimal : 0
Nilai maksimal : 19
c. Menentukan panjang kelas interval dengan rumus 3.1
berikut :
( )
.............(3.1)
Panjang kelas interval pada tiap atribut adalah :
Age
( )
Number of Sexual Partners
( )
First Sexual Intercourse
( )
Num of Pregnancies
( )
Smokes (years)
( )
Smokes (packs/year)
( )
Hormonal Contraceptives (years)
( )
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
IUD (years)
( )
Dari perhitungan di atas maka dihasilkan kategori sebagai
berikut :
Age
13 – 36
37 – 60
>= 61
Number of Sexual Partners
1 – 9
10 – 18
>= 19
First Sexual Intercourse
10 – 16
17 – 23
>= 24
Num of Pregnancies
0 – 3
4 – 7
>= 8
Smokes (years)
0 – 11
12 – 23
>= 24
Smokes (packs/year)
0 – 11
12 – 23
>= 24
Hormonal Contraceptives (years)
0 – 9
10 – 19
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
>= 20
IUD (years)
0 – 5
6 – 11
>= 12
Contoh hasil transformasi data dapat dilihat pada lampiran 2.
3.2.2.5 Penambangan Data (Data Mining)
Pada tahap ini diterapkan proses penambangan data dengan
algoritma C4.5. Namun seperti yang telah dijelaskan sebelumnya,
data pasien yang akan digunakan berjumlah 858 dalam kondisi
imbalanced data. Oleh karena itu, untuk mengatasi masalah
tersebut digunakan suatu metode sampling yaitu undersampling.
Undersampling merupakan metode untuk mengambil beberapa
data mayoritas sehingga jumlah data mayoritas sama besar
jumlahnya dengan jumlah data minoritas. Pada proses ini data
kelas mayoritas dan minoritas akan diambil dengan perbandingan 1
: 2. Itu artinya kelas biopsy yang bernilai “Yes” akan diambil
semua yaitu sejumlah 55 data, sedangkan untuk data kelas biopsy
yang bernilai “No” akan diambil sebanyak 110 data sehingga total
data yang akan digunakan yaitu 165 data. Data ini selanjutnya
dibagi menjadi data training dan data testing. Data training akan
digunakan dalam proses pembentukan pohon keputuan
menggunakan algoritma C4.5.
Proses pembentukan pohon ditentukan dari perhitungan
nilai Entropy, Gain, Split Information, dan Gain Ratio untuk setiap
atribut. Dari perhitungan tersebut, atribut yang memiliki nilai
GainRatio tertinggi akan menjadi simpul akar dari pohon. Proses
pembentukan pohon dilakukan secara rekursif hingga seluruh data
memiliki kelas. Dalam proses pembentukan pohon keputusan akan
dilakukan prepruning yaitu dengan menghitung pessimistic error
rate seperti pada rumus 2.5. Setelah perhitungan selesai akan
ditampilkan hasil pohon yang terbentuk.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
3.2.2.6 Evaluasi Pola (Pattern Evaluation)
Pattern evaluation adalah proses mengidentifikasi pola-
pola sehingga mempresentasikan pengetahuan yang benar-benar
menarik yang merupakan hasil dari penambangan data.Tahap ini
dilakukan setelah melakukan proses penambangan data sehingga
dapat ditarik keputusan atau ditentukan rule berdasarkan pohon
keputusan yang diperoleh.
3.2.2.7 Presentasi Pengetahuan (Knowledge Presentation)
Pada tahap ini dilakukan proses penyajian pengetahuan dari
hasil penambangan data. Hasil klasifikasi data pasien yang
menderita penyakit kanker serviks akan ditampilkan ke dalam
bentuk yang mudah dipahami oleh pengguna.
3.2.2. Analisis dan Kesimpulan
Pada tahap ini, hasil implementasi perangkat lunak yang
telah dibangun akan dianalisa untuk memastikan apakah sesuai
dengan rancangan yang dilakukan sebelumnya. Tahap pengujian
berikutnya adalahuji validasi perangkat lunak dengan
menggunakan metode pengujian black box. pengujian black box ini
berisi pengujian dengan pengisian data secara benar dan tidak
benar. Selanjutnya dilakukan pengujian untuk mencari nilai akurasi
terbaik dengan membagi data menjadi data training dan testing
menggunakan split validation. Hasil dari semua tersebut
selanjutnya disusun dalam naskah tugas akhir.
3.3. Perancangan Perangkat Lunak
3.3.1. Perancangan Umum
Perangkat lunak yang akan dibangun adalah perangkat lunak yang
dapat melakukan deteksi penyakit kanker serviks menggunakan
algoritma C4.5 sehingga menghasilkan rule atau kondisi yang
digunakan untuk penentuan keputusan pada proses deteksi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
3.3.1.1 Input
Input dari perangkat lunak yang dibangun yaitu file dengan
ekstensi .xls yang berupa data pasien dalam bentuk tabel berisi
beberapa atribut yang meliputi informasi demografis, kebiasaan
dan catatan rekam medis yang kemudian disimpan ke dalam
database.
3.3.1.2 Proses
Proses perangkat lunak yang akan dibangun terdiri dari
beberapa tahapan untuk mengklasifikasikan data, menghitung
akurasi dan uji data tunggal. Secara garis besar tahapan proses
perangkat lunak tersebut, yaitu:
1. Memasukkan data pasien ke dalam database, data
yang dimasukkan harus bertipe .xls.
Tahapan-tahapan yang akan dilakukan perangkat
lunak pada proses memasukkan data pasien yaitu :
1) Membaca file excel yang diupload.
2) Membaca jumlah baris dari data pasien.
3) Membaca kolom dari data pasien yang berisi
atribut-atribut menggunakan perulangan for
berdasarkan jumlah baris data pasien.
4) Menyisipkan data ke dalam tabel data pasien
di database.
5) Menampilkan status data berhasil diinput.
2. Melakukan transformasi data
Tahapan-tahapan yang akan dilakukan perangkat
lunak pada proses melakukan transformasi data yaitu :
1) Membaca data pada tabel data pasien di
database.
2) Masing-masing atribut akan dilakukan
transformasi dengan menerapkan percabangan
if-else untuk mengetahui kategori mana yang
sesuai dengan kondisi data.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
3) Update nilai masing-masing atribut pada tabel
data pasien di database berdasarkan hasil
kategori yang diperoleh.
3. Membagi data training dan data testing berdasarkan
nilai split ratio.
4. Melakukan proses algoritma C4.5.
Tahapan-tahapan yang akan dilakukan perangkat
lunak pada proses algoritma C4.5 yaitu :
1) Menghitung nilai entropy total dan entropy
masing-masing atribut
2) Menghitung nilai information gain, split info,
dan gain ratio masing-masing atribut. Atribut
yang memiliki nilai gain ratio tertinggi akan
menjadi simpul akar dari pohon.
3) Membuat cabang untuk masing-masing nilai
4) Membagi kasus dalam cabang
5) Mengulangi proses untuk masing-masing
cabang sampai semua kasus pada cabang
memiliki kelas yang sama. Dalam proses
pembentukan pohon keputusan dilakukan
pemangkasan pohon menggunakan metode
prepruning dengan menghitung nilai
pessimistic error rateseperti yang dijelaskan
pada bab 2.
5. Menampilkan tabel perhitungan, pohon keputusan dan
rule.
6. Melakukan proses kinerja untuk memperoleh akurasi
dari algoritma C4.5
Tahapan-tahapan yang akan dilakukan perangkat
lunak pada proses kinerja algoritma C4.5 yaitu :
1) Membaca data yang akan digunakan untuk uji
akurasi yaitu data testing.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
2) Membandingkan nilai masing-masing atribut
untuk memperoleh klasifikasi yang dilakukan
perangkat lunak berdasarkan rule yang
terbentuk dari hasil proses algoritma C4.5
yang telah dilakukan sebelumnya.
3) Hasil klasifikasi yang dilakukan perangkat
lunak akan dibandingkan dengan hasil
klasifikasi data pasien yang seharusnya
dengan menggunakan confusion matrix
sehingga diperoleh akurasi dari algoritma
C4.5.
7. Melakukan proses uji data tunggal di mana user akan
memasukkan data tunggal dan perangkat lunak akan
menampilkan hasil biopsi.
Tahapan-tahapan yang akan dilakukan perangkat
lunak pada proses uji data tunggal yaitu :
1) Membaca data yang dimasukkan oleh
pengguna
2) Membandingkan nilai masing-masing atribut
untuk memperoleh klasifikasi yang dilakukan
perangkat lunak berdasarkan rule yang
terbentuk dari hasil proses algoritma C4.5
yang telah dilakukan sebelumnya.
3) Menampilkan hasil biopsi yang diperoleh dari
proses uji data tunggal.
Proses sistem digambarkan dalam diagram flowchart seperti
pada Gambar 3.1.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
Gambar 3.1Diagram Flowchart
3.3.1.3 Output
Perangkat lunak yang dibangun akan memberikan output
berupa hasil perhitungan algoritma, pohon keputusan, rule, dan
perhitungan akurasi. Selanjutnya untuk uji data tunggal perangkat
lunak akan meminta masukan dari user dan akan menampilkan
hasil biopsi dalam mendeteksi penyakit kanker serviks.
3.3.2. Model Fungsi
3.3.2.1 Diagram Use Case
Diagram use case dipaparkan pada Gambar 3.2 berikut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
Gambar 3.2 Diagram UseCase
3.3.2.2 Narasi Use Case
Diagram use case menggambarkan mengenai hubungan
antara aktor (pengguna) dengan sistem. Narasi use case akan
memperjelas setiap use case sebagai berikut.
a. Login
Tabel 3.4 Narasi Use Case Login
Login
NamaUse Case Login
ID Use Case 1
Aktor Pengguna
Deskripsi
Use case ini mendeskripsikan pengguna masuk ke dalam
sistem
Kondisi Awal Pengguna masuk ke sistem dan berada pada halaman login
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
Kondisi Akhir Pengguna berhasil masuk ke sistem
Typical Course
Aksi Aktor Reaksi Sistem
1. Pengguna memasukkan
username dan password
2. Menampilkan halaman
utama
b. Masukkan Data
Tabel 3.5 Narasi Use CaseMasukkan Data
Masukkan Data
NamaUse Case Masukkan Data
ID Use Case 2
Aktor Pengguna
Deskripsi
Use case ini merupakan proses memilih dan memasukkan
file berekstensi .xls yang akan digunakan dalam proses
klasifikasi
Kondisi Awal Pengguna telah masuk pada halaman utama sistem
Kondisi Akhir
Menampilkan data dalam bentuk tabel pada halaman data
pasien
Typical Course
Aksi Aktor Reaksi Sistem
1. Menekan menu data pasien
2. Menampilkan halaman
data pasien
3. Menekan tombol browse
4. Menampilkan kotak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
dialog untuk memilih file
yang berada pada direktori
komputer
5. Memilih file berekstensi
.xls yang akan digunakan dan
menekan tombol submit.
6. Memasukkan data ke
database dan melakukan
transformasi data
7. Menampilkan data
dalam bentuk tabel pada
halaman data pasien
c. Partisi Data
Tabel 3.6 Narasi Use CasePartisi Data
Partisi Data
NamaUse Case Partisi Data
ID Use Case 3
Aktor Pengguna
Deskripsi
Use case ini merupakan proses membagi data menjadi data
training dan data testing berdasarkan nilai split ratio yang
dimasukkan pengguna.
Kondisi Awal
Pengguna telah memilih file berekstensi .xls dan data telah
ditampilkan pada halaman data pasien
Kondisi Akhir Menampilkan status jumlah data training dan data testing
Typical Course Aksi Aktor Reaksi Sistem
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
1. Menekan menu partisi data
2. Menampilkan halaman
partisi data
3. Memasukkan nilai split
ratio dan memilih teknik
pengambilan data
4. Menekan tombol proses
5. Membagi data training
dan data testing
berdasarkan nilai splitratio
dan teknik pengambilan
data yang dimasukkan
pengguna
6. Menampilkan pesan
data training berhasil
diupdate
7. Menampilkan status
jumlah data training dan
data testing
d. Proses Algoritma C4.5
Tabel 3.7 Narasi Use CaseProses Algoritma C4.5
Proses Algoritma C4.5
NamaUse Case Proses Algoritma C4.5
ID Use Case 4
Aktor Pengguna
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
Deskripsi
Use case ini merupakan proses membentuk pohon
keputusan dan rule menggunakan algoritma C4.5
Kondisi Awal
Pengguna telah membagi data training dan data testing
berdasarkan nilai split ratio serta berada pada halaman
utama
Kondisi Akhir
Menampilkan tabel hasil perhitungan, pohon keputusan,
rule, dan menghitung akurasi
Typical Course
Aksi Aktor Reaksi Sistem
1. Menekan menu proses
algoritma C4.5
2. Menampilkan halaman
proses algoritma C4.5
3. Menekan tombol lakukan
proses mining C4.5
4. Melakukan proses
mining C4.5
5. Menampilkan hasil
perhitungan
6. Menekan tombol kembali
7. Menampilkan pohon
keputusan dan rule yang
terbentuk pada halaman
pohon keputusan
8. Menekan menu kinerja
C4.5
9. Menampilkan halaman
kinerja C4.5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
10. Menekan tombol proses
kinerja C4.5
11.Melakukan proses
perhitungan akurasi.
12. Menampilkan hasil
perhitungan akurasi dalam
bentuk confusion matrix
e. Uji Data Tunggal
Tabel 3.8 Narasi Use CaseUji Data Tunggal
Uji Data Tunggal
NamaUse Case Uji Data Tunggal
ID Use Case 5
Aktor Pengguna
Deskripsi Use case ini merupakan proses melakukan uji data tunggal
Kondisi Awal
Pengguna telah melakukan proses mining C4.5 dan berada
pada halaman menu utama
Kondisi Akhir Menampilkan hasil klasifikasi
Typical Course
Aksi Aktor Reaksi Sistem
1. Menekan menu uji data
tunggal
2. Menampilkan halaman
uji data tunggal
3. Memasukkan nilai data
tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
4. Menekan tombol proses
5. Menampilkan hasil
klasifikasi
f. Hapus Semua Data
Tabel 3.9 Narasi Use CaseHapus Semua Data
Hapus Semua Data
NamaUse Case Hapus Semua Data
ID Use Case 6
Aktor Pengguna
Deskripsi
Use case ini merupakan proses menghapus semua data
pasien
Kondisi Awal Pengguna berada pada halaman data pasien
Kondisi Akhir Data berhasil dihapus
Typical Course
Aksi Aktor Reaksi Sistem
1. Menekan tombol hapus
semua data
2. Menampilkan pesan
data berhasil dihapus
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
3.3.2.3 Diagram Aktivitas
a. Login
Gambar 3.3Diagram Aktivitas Login
b. Masukkan Data
Gambar 3.4Diagram Aktivitas Masukkan Data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
c. Partisi Data
Gambar 3.5Diagram Aktivitas Partisi Data
d. Proses Algoritma C4.5
Gambar 3.6Diagram Aktivitas Proses Algoritma C4.5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
e. Uji Data Tunggal
Gambar 3.7 Diagram Aktivitas Uji Data Tunggal
f. Hapus Semua Data
Gambar 3.8Diagram Aktivitas Hapus Semua Data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
3.3.3. Model Perancangan
3.3.3.1 Perancangan Antarmuka
1. Halaman Masuk
Gambar 3.9Perancangan Halaman Masuk
2. Halaman Utama
Gambar 3.10Perancangan Halaman Utama
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
3. Data Pasien
Gambar 3.11Perancangan Halaman Data Pasien
4. Partisi Data
Gambar 3.12Perancangan Halaman Partisi Data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
5. Proses Algoritma C4.5
Gambar 3.13Perancangan Halaman Proses Algoritma C4.5
Gambar 3.14Perancangan Halaman Pohon Keputusan
Pohon Keputusan | Kinerja
Pohon Keputusan | Kinerja
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
6. Kinerja
Gambar 3.15Perancangan Halaman Kinerja
7. Uji Data Tunggal
Gambar 3.16Perancangan Halaman Uji Data Tunggal
Pohon Keputusan| Kinerja
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
3.3.3.2 Diagram Kelas Analisis
Gambar 3.17Diagram Kelas Analisis
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
3.3.3.3 Entity Relationship Diagram (ERD)
Gam
bar
3.1
8 E
nti
ty R
elati
onsh
ip D
iagra
m (
ER
D)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
3.3.3.4 Desain Basis Data Logikal
Gambar 3.19Desain Basis Data Logikal
3.4. Spesifikasi Alat
Perangkat lunak dibangun menggunakan software dan hardware sebagai
berikut:
a. Spesifikasi Software
1) Perangkat lunak operasi Microsoft Windows 7 Ultimate
32-bit.
2) Aplikasi Netbeans 8.2.
b. Spesifikasi Hardware
1) Processor Intel(R) Celeron(R) 2955U 1.40 GHz
2) Memory 2GB
3) Harddisk 500 GB
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
BAB IV
IMPLEMENTASI DAN ANALISIS HASIL
4.1. Implementasi Program
4.1.1. Halaman Masuk
Tampilan awal yaitu halaman masuk/login di mana user harus
memasukkan username dan password untuk masuk ke halaman
utama.
Gambar 4.1Halaman Masuk
4.1.2. Halaman Utama
Tampilan halaman utama yang menampilkan 3 pilihan menu
berupa data pasien, proses algoritma C4.5, dan uji data tunggal.
Gambar 4.2 Halaman Utama
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
4.1.3. Data Pasien
Halaman data pasien akan ditampilkan ketika user memilih menu
data pasien. Ketika user sebelumnya sudah pernah memasukkan data
maka data yang ada pada database akan muncul. Namun, jika belum
pernah user dapat memasukkan file berekstensi .xls dengan menekan
tombol browse untuk mencari data pada direktori komputer.
Berikutnya user menekan tombol submit maka data akan diproses
untuk dimasukkan ke database kemudian dilakukan proses
transformasi. Setelah proses berhasil maka data akan ditampilkan.
Selain itu juga terdapat opsi untuk menghapus semua data yang ada.
Gambar 4.3 Tampilan Data Pasien
4.1.4. Partisi Data
Halaman partisi data merupakan submenu dari menu data pasien.
Halaman ini menampilkan status data berupa jumlah data yang sudah
diinputkan oleh user. Pada halaman ini user diminta untuk membagi
data training dan data testing berdasarkan splitratio dan teknik
pengambilan data baik secara ascending, descending maupun
random.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
Gambar 4.4 Tampilan Partisi Data
4.1.5. Proses Algoritma C4.5
Ketika user memilih menu proses algoritma C4.5 maka halaman ini
akan muncul di mana jika user belum melakukan proses mining akan
muncul pesan untuk melakukan proses mining. Namun jika user
sebelumnya telah melakukan proses mining maka pada halaman ini
akan langsung ditampilkan pohon keputusan dan rule yang terbentuk.
Ketika proses mining dilakukan maka akan ditampilkan proses
perhitungan serta pembentukan pohon dengan preprunning. Setelah
proses mining selesai, akan ditampilkan pesan dan akan muncul
tombol kembali yang di mana ketika user menekan tombol tersebut
akan langsung diarahkan ke halaman pohon keputusan yang berisi
pohon keputusan serta rule dari proses mining yang telah dilakukan.
Pada menu proses algoritma c4.5 ini terdapat dua submenu yaitu
submenu pohon keputusan dan submenu kinerja.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
67
Gambar 4.5 Tampilan Proses Algoritma C4.5
Gambar 4.6 Tampilan Pohon Keputusan dan Rule C4.5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
4.1.6. Kinerja
Halaman kinerja merupakan submenu dari menu proses algoritma
C4.5. Ketika user telah menyelesaikan proses mining maka user dapat
melanjutkan ke proses kinerja di mana ketika user memilih submenu
kinerja akan diberikan pesan untuk melakukan proses kinerja. Namun
jika user belum menyelesaikan proses miningmaka ketika user
memilih submenu kinerja akan diberikan pesan untuk melakukan
proses mining terlebih dahulu. Ketika proses kinerja selesai maka
akan ditampilkan pesan dan akan muncul tombol lihat hasil kinerja
yang di mana jika tombol ditekan user akan diarahkan ke halaman
kinerja yang menampilkan hasil perhitungan akurasi.
Gambar 4.7Tampilan Proses Kinerja
Gambar 4.8Tampilan Hasil Kinerja
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
69
4.1.7. Uji Data Tunggal
Halaman ini merupakan halaman untuk melakukan uji data tunggal
di mana user akan diminta untuk memasukkan nilai dari data
tersebut. Untuk proses ini juga sebelumnya user sudah melakukan
proses mining sehingga dari proses mining yang dilakukan
menghasilkan aturan/rule yang digunakan untuk melakukan
klasifikasi pada uji data tunggal.
Gambar 4.9Tampilan Input Uji Data Tunggal
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
70
4.2. Pengujian Perangkat Lunak (Black Box)
4.2.1. Rencana Pengujian Validasi Black Box
Pada tabel 4.1 berikut akan dijelaskan mengenai rencana pengujian
menggunakan metode black box.
Tabel 4.1 Rencana Pengujian Validasi Black Box
No Use Case Keterangan Kasus Uji
1 Login
Memasukkan username dan password
dengan benar
UC1-01
Memasukkan username dan password
dengan sembarang
UC1-02
2 Masukkan
Data
Memasukkan data dengan tipe .xls UC2-01
Memasukkan data dengan tipe bukan .xls UC2-02
3 Partisi Data
Memasukkan nilai split ratio dengan
benar (<= 100%)
UC3-01
Memasukkan nilai split ratio > 100% UC3-02
Tidak memasukkan nilai split ratio UC3-03
4
Proses
Algoritma
C4.5
Menekan tombol proses klasifikasi UC4-01
5
Menampilkan
Tree dan
Rule
Menekan submenu pohon keputusan UC5-01
6 Menampilkan
Hasil Akurasi
Menekan submenu kinerja UC6-01
7 Uji Data
Tunggal
Memasukkan data dengan benar UC7-01
Tidak memasukkan data UC7-02
8 Hapus Semua
Data
Menekan hapus semua data UC8-01
4.2.2. Hasil Pengujian Validasi
Hasil dari pengujian black box terdapat pada lampiran 3. Dari hasil
pengujian dapat disimpulkan bahwa sistem telah dibangun sesuai
dengan rancangan dan sistem berjalan dengan baik.
4.3. Hasil Perangkat lunak
Pada penelitian ini dilakukan beberapa pengujian untuk
mendapatkan nilai akurasi terbaik. Berdasarkan hasil pengujian yang
dilakukan dalam mengklasifikasi pasien kanker serviks menggunakan
algoritma C4.5, diperoleh nilai akurasi yang terbentuk dari perhitungan
menggunakan split validation sebagai berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
71
Tabel 4.2Akurasi Split Validation Ascending
Jumlah Data Data Training Data Testing Akurasi
165
60% 40% 68,18%
70% 30% 73,47%
80% 20% 72,73%
90% 10% 75%
Tabel 4.3 Akurasi Split Validation Descending
Jumlah Data Data Training Data Testing Akurasi
165
60% 40% 66,67%
70% 30% 66,67%
80% 20% 75,76%
90% 10% 75%
Tabel 4.4 Akurasi Split Validation Random
Jumlah Data Data Training Data Testing Akurasi
165
60% 40% 72,73%
70% 30% 63,27%
80% 20% 66,67%
90% 10% 62,5%
Dari ketiga tabel yang ditampilkan di atas, dapat dilihat bahwa
tingkat akurasi terbaik diperoleh pada Tabel 4.3 akurasi split validation
descending yaitu pada saat menggunakan perbandingan 80:20 dengan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
72
akurasi sebesar 75,76%. Hasil akurasi tersebut dipaparkan dalam bentuk
confusion matrix pada Gambar 4.10 berikut.
Gambar 4.10Hasil Akurasi Confusion Matrix
4.4. Kelebihan dan Kekurangan Perangkat lunak
4.4.1. Kelebihan Perangkat lunak
Kelebihan yang dimiliki oleh perangkat lunak adalah :
1. Perangkat lunak mampu menerima input data berupa .xls
2. Perangkat lunak mampu melakukan metode undersampling
dengan perbandingan kelas 1:2
3. Perangkat lunak mampu menampilkan perhitungan algoritma
C4.5 secara lengkap
4. Perangkat lunak mampu melakukan pemangkasan pohon dengan
metode preprunning
5. Perangkat lunak mampu menampilkan pohon keputusan dan rule
6. Perangkat lunak mampu melakukan perhitungan akurasi
7. Perangkat lunak mampu melakukan perhitungan uji data tunggal
4.4.2. Kekurangan Perangkat lunak
Kekurangan yang dimiliki oleh perangkat lunak adalah :
1. Perangkat lunak hanya mampu menerima input data bertipe .xls
2. Perangkat lunak hanya mampu melakukan undersampling dengan
perbandingan 1:2
3. Perangkat lunak belum mampu menampilkan visualisasi pohon
keputusan
4. Perangkat lunak belum mampu menerima atribut dengan jumlah
yang bervariasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
73
BAB V
PENUTUP
5.1. Kesimpulan
Dari hasil penelitian ini, dapat di ambil kesimpulan sebagai berikut:
1. Penerapan algoritma C4.5 untuk deteksi penyakit kanker serviks
dapat diimplementasikan dengan baik menggunakan algoritma
C4.5.
2. Pengujian yang dilakukan terhadap 165 data menggunakan split
validation descending dengan ratio 80:20 menghasilkan tingkat
akurasi sebesar 75,76%. Nilai akurasi tersebut dapat dikatakan
cukup baik untuk digunakan dalam mendeteksi penyakit kanker
serviks.
3. Data training dengan jumlah yang besar tidak selalu membuat
akurasi menjadi lebih tinggi.
5.2. Saran
Berdasarkan hasil analisis pada tugas akhir ini, saran yang dapat diberikan
penulis untuk penelitian yang akan datang :
1. Perangkat lunak mampu import data tidak hanya .xls.
2. Perangkat lunak dapat dikembangkan lagi dengan menggunakan
algoritma klasifikasi lainnya.
3. Perangkat lunak dapat dikembangkan lagi untuk metode pruning
lainnya.
4. Perangkat lunak mampu menerima masukan dengan jumlah
atribut yang bervariasi.
5. Perangkat lunak mampu melakukan jenis validasi lainnya seperti
k-fold cross validation.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
74
DAFTAR PUSTAKA
Admin. 2014. Pohon Keputusan ID3 dan C4.5. Sumber :
http://pohonkeputusan.com/konsep-pohon-keputusan-id3-dan-c4-5/?i=1.
[Diakses tanggal: 14 November 2018].
Alfian, Ekky. 2018. “Metode Decission Tree C4.5 dalam Klasifikasi Kelayakan
Calon Pendonor Darah (Studi Kasus PMI Kota Yogyakarta). Skripsi.
Universitas Sanata Dharma Yogyakarta.
Anindyaputri, Irene. 2017. Apa itu Kanker Serviks?. Sumber :
https://hellosehat.com/penyakit/kanker-serviks-kanker-leher-rahim/.
[Diakses tanggal: 7 November 2018].
Diananda, Rama. 2007. Mengenal Seluk Beluk Kanker. Yogyakarta: Katahati.
Han, Jiawei & Micheline Kamber. 2006. Second Edition. Data Mining : Concepts
and Techniques. New York : Morgan Kaufman.
Han, Jiawei & Micheline Kamber. 2012. Third Edition. Data Mining : Concepts
and Techniques. New York : Morgan Kaufman.
Novaloid. 2015. Cara Menangani Missing Value.
https://novaloid.wordpress.com/2015/06/12/cara-menangani-missing-
value/. [Diakses tanggal: 15 Maret 2019].
Pramudiono, I (2007). “Pengantar Data Mining : Menambang Permata
Pengetahuan di Gunung Data”, Paper ITS Surabaya.
Prasetyo, Eko. 2014. Data Mining Mengolah Data menjadi Informasi
Menggunakan Matlab. Yogyakarta : CV. ANDI OFFSET.
Ramadhan, Roby. 2016. Data Mining dan Fungsi Data Mining. Sumber :
http://ramadhanroby.blogspot.com/2016/05/data-mining-dan-fungsi-
data-mining.html. [Diakses tanggal: 13 November 2018].
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
75
Rasjidi, I. 2009. Epidemiologi Kanker Serviks. Indonesian Journal of Cancer, 3:
pp.103.
Setyarini, Eka. 2009. “Faktor-Faktor Yang Berhubungan Dengan Kejadian
Kanker Leher Rahim Di RSUD Dr. Moewardi Surakarta”. Skripsi.
Universitas Muhammadiyah Surakarta.
Solichin, Achmad. 2017. Mengukur Kinerja Algoritma Klasifikasi dengan
Confusion Matrix. Sumber:https://achmatim.net/2017/03/19/mengukur-
kinerja-algoritma-klasifikasi-dengan-confusion-matrix/. [Diakses
tanggal: 9 Desember 2018].
Subagja, Indra. 2017. Kanker Serviks Pembunuh Nomor 1 Perempuan Indonesia.
Sumber : https://kumparan.com/@kumparannews/kanker-serviks-
pembunuh-nomor-1-perempuan-indonesia. [Diakses tanggal: 7
November 2018].
Turban, E., Aronson, J., E., and Liang, T., (2005). Decision Support Systemsand
Intelligent Systems, 7th Ed, jilid 1, Andi Offset, Yogyakarta.
Wijaya, Cindy. 2018. Diagnosis Kanker Serviks. Sumber ::
https://www.deherba.com/beragam-jenis-tes-untuk-diagnosis-kanker-
serviks.html. [Diakses tanggal: 7 November 2018].
Wu, W. and H. Zhou. 2017. “Data-Driven Diagnosis of Cervical Cancer With
Support Vector MachineBased Approaches”. IEEE Access. 5:p. 25189-
25195.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
76
LAMPIRAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Lampiran 1 : Data Pasien
Ag
e
Nu
mb
er o
f se
xu
al
pa
rtn
ers
Fir
st s
exu
al
inte
rco
urs
e (a
ge)
Nu
m o
f p
reg
na
nci
es
Sm
ok
es
Sm
ok
es (
yea
rs)
Sm
ok
es (
pa
cks/
yea
r)
Ho
rmo
na
l C
on
tra
cep
tiv
es
Ho
rmo
na
l C
on
tra
cep
tiv
es
(yea
rs)
IUD
IUD
(y
ears
)
ST
Ds
ST
Ds
(nu
mb
er)
ST
Ds:
co
nd
ylo
ma
tosi
s
ST
Ds:
cerv
ica
l co
nd
ylo
ma
tosi
s
ST
Ds:
va
gin
al
co
nd
ylo
ma
tosi
s
ST
Ds:
vu
lvo
-per
inea
l
con
dy
lom
ato
sis
ST
Ds:
sy
ph
ilis
ST
Ds:
pel
vic
in
fla
mm
ato
ry
dis
ease
ST
Ds:
gen
ita
l h
erp
es
ST
Ds:
mo
llu
scu
m
con
tag
iosu
m
ST
Ds:
AID
S
ST
Ds:
HIV
ST
Ds:
Hep
ati
tis
B
ST
Ds:
HP
V
ST
Ds:
Nu
mb
er o
f d
iag
no
sis
ST
Ds:
Tim
e si
nce
fir
st
dia
gn
osi
s
ST
Ds:
Tim
e si
nce
la
st
dia
gn
osi
s
Dx
: C
an
cer
Dx
: C
IN
Dx
: H
PV
Dx
Hin
selm
an
n
Sch
ille
r
Cit
olo
gy
Bio
psy
22 4 16 1 0 0 0 1 0,5 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 1 0 1
14 1 14 ? 0 0 0 ? ? 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
22 3 17 1 0 0 0 0 0 0 0 1 2 1 0 0 1 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
20 3 17 2 0 0 0 1 0,2
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 1 1
21 2 18 3 0 0 0 0 0 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 1 0 1 1 1 1 0 1
19 3 14 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
25 6 17 2 0 0 0 1 2 0 0 1 3 1 0 0 1 0 0 0 0 0 1 0 0 1 4 4 0 0 0 0 0 1 1 1
24 3 17 3 0 0 0 1 1 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
15 2 13 1 0 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
20 1 18 1 0 0 0 1 14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
24 2 18 ? 0 0 0 1 0,6
6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
28 5 14 4 0 0 0 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 1
25 3 17 2 0 0 0 1 0,0
8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 1 1
28 2 17 ? 0 0 0 1 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
23 3 15 1 1 5 0,75 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
31 3 20 1 0 0 0 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31 ? 17 5 1 1,
3
0,513202
128 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
16 1 12 ? 0 0 0 1 0,4
2 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 1
20 1 19 1 0 0 0 1 0,2
5 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 1
16 1 13 2 ? ? ? ? ? 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
29 5 17 6 1 1,
3 1,3 1 0,5 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 1 5 5 0 0 0 0 0 0 0 0
15 2 14 1 0 0 0 1 0,1
6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
20 1 17 ? 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
24 2 18 4 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 4 4 0 0 0 0 1 1 0 1
47 2 17 3 0 0 0 1 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 1 1
19 1 13 ? 0 0 0 1 0,7
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
20 2 14 4 1 3 3 1 0,5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 1
38 4 18 4 0 0 0 1 16 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 1 1
35 5 11 ? 1 1
5 15 1 14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 1 1
14 5 16 ? 0 0 0 1 0,0
8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
29 1 22 ? 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
33 2 21 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
17 1 16 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
48 4 16 4 0 0 0 1 10 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 0 1
35 2 17 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
33 3 19 3 0 0 0 1 0,1
6 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 1 0 1 1 1 1 0 1
34 2 16 3 0 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
18 3 14 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 1 0
18 3 17 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
36 3 20 2 0 0 0 1 6 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 1 16 16 1 0 1 1 0 0 0 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37 3 19 3 1 1
2 6 1 13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 0 1
25 4 17 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
24 2 13 5 0 0 0 1 2 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
25 5 15 4 0 0 0 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 1 0 1 0 0 0 0
15 2 14 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
33 2 24 2 0 0 0 1 0,0
8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
18 1 18 1 0 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
28 1 19 2 0 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
29 2 18 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 1 0 1 1 0 1 1 1
30 1 17 3 0 0 0 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
35 5 19 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 0 1
34 1 15 4 0 0 0 1 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
25 4 15 3 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
18 5 14 1 1 3 1,2 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
19 1 18 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 1 0 1 1 1 1 1 1
19 2 15 3 0 0 0 1 0,5
8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
24 1 14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
19 2 16 1 0 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
25 7 14 3 0 0 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
21 1 17 2 0 0 0 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
34 ? 15 5 0 0 0 1 0,5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
21 3 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 1 0 1 0 0 0 1
26 2 18 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
24 2 16 3 0 0 0 1 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
20 2 16 1 0 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
27 1 18 3 0 0 0 1 0,5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17 2 15 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
38 2 19 5 0 0 0 1 30 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 1 0
22 3 15 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 1 1
22 2 14 3 0 0 0 1 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
34 2 17 3 0 0 0 1 9 1 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 0 1
35 2 17 3 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
43 4 16 3 1 2
8 7 0 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
23 2 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
24 2 19 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
17 1 16 ? 0 0 0 1 0,2
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
29 ? 14 ? 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
43 3 17 3 0 0 0 1 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
24 2 18 2 0 0 0 1 0,5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
34 1 ? 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
23 2 16 1 0 0 0 1 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
29 2 13 ? 0 0 0 0 0 1 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
24 3 15 4 ? ? ? 1 3 1 2 1 1 0 0 0 0 1 0 0 0 0 0 0 0 1 2 2 0 0 0 0 0 0 0 0
35 4 16 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
22 2 15 2 1 5 1,25 1 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 0 1
20 1 18 1 0 0 0 0 0 0 0 1 2 1 0 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0
36 2 27 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
30 1 16 ? 0 0 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
26 3 15 ? 0 0 0 1 0,3
3 ? ? 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
18 1 16 1 1 2 0,05 0 0 0 0 1 2 1 0 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 1 1 0 1
41 1 17 3 0 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
29 3 15 2 1 1
0
0,513202
128 1
0,2
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29 8 17 2 1 1
4 2,8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
31 3 19 1 0 0 0 1 0,0
8 1 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 1 0 0 1 0 0 0 0
38 3 18 4 0 0 0 1 10 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 1 1
31 3 18 1 0 0 0 1 0,5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
35 3 18 3 0 0 0 1 5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
21 2 19 ? 0 0 0 1 0,5 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
37 2 18 ? 0 0 0 0 0 ? ? 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 15 15 0 1 0 1 0 1 0 1
40 1 18 1 0 0 0 1 0,2
5 0 0 1 2 1 0 0 1 0 0 0 0 0 0 0 0 1 2 2 0 0 0 0 0 1 1 1
35 4 18 ? 0 0 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
21 4 15 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 1 1
30 3 14 3 0 0 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
32 2 19 1 0 0 0 1 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
19 2 15 2 0 0 0 1 0,7
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
19 2 17 1 0 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
28 4 18 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 0 1
18 3 13 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 1 0
37 3 ? 0 0 0 0 1 0,2
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
30 3 15 0 1 1
6 8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
23 2 15 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
36 2 18 ? 1 1
9 7,6 1 8 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
23 1 15 3 0 0 0 1 0,2
5 1 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
18 2 17 ? 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 0 1
30 4 19 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
41 3 18 5 0 0 0 1 1 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 1 0 1 1 0 0 0 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21 1 14 2 0 0 0 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
40 3 23 2 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 8 8 0 0 0 0 0 0 0 0
28 2 19 2 1 1,
3
0,513202
128 0 0 0 0 1 2 1 0 0 1 0 0 0 0 0 0 0 0 1 3 3 0 0 0 0 0 1 0 1
19 1 14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
35 3 17 3 1 2
0 2 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
38 2 15 4 0 0 0 1 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 1 0 1 0 0 1 0 1
21 4 15 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 1 1
52 2 19 5 0 0 0 0 0 1 11 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 0 1
31 9 ? 1 1 1
1 5,5 1
0,2
5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
33 4 17 0 0 0 0 1 0,7
5 0 0 1 1 0 0 0 0 0 1 0 0 0 0 0 0 1 11 11 0 0 0 0 0 0 0 0
27 2 14 3 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 1 0 1 1 0 0 0 0
36 3 16 3 1 6 0,3 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
51 3 17 6 1 3
4 3,4 0 0 1 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
26 2 15 2 0 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 1 0 1 0 0 0 0
25 2 17 0 0 0 0 1 0,0
8 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 1 0
28 2 19 2 0 0 0 1 0,4
2 1 3 1 2 1 0 0 1 0 0 0 0 0 0 0 0 1 7 7 0 0 0 0 1 1 0 1
17 4 14 ? 1 4 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
29 3 17 3 1 1
0 2 1 6 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 0 1
30 ? 13 3 1 2
2 3,3 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 3 3 0 0 0 0 1 1 0 1
37 4 26 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
18 7 14 1 0 0 0 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 0 ? ? 0 0 0 0 0 0 0 0
33 3 19 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
34 3 15 5 1 0,
2 0,001 1 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
33 3 18 2 ? ? ? 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 1 1 1 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34 3 18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
24 1 23 1 0 0 0 1 0,7
5 0 0 1 2 1 0 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 1 1 1
34 3 14 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
21 1 17 ? 0 0 0 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 1 0 1 0 0 0 1
29 5 20 1 0 0 0 1 3 0 0 1 2 1 0 0 1 0 0 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 0 0
25 4 16 3 0 0 0 1 1 1 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 0 0
33 1 29 2 0 0 0 1 0,5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 1 1
35 3 16 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
35 3 17 3 1 9 2,7 1 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
31 7 16 5 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
30 2 18 1 1 1
1 1,65 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
42 3 17 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
30 3 22 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
17 3 13 1 1 2 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
30 2 18 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
16 1 15 ? 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
33 3 16 4 1 1
4 1,4 1 1 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 1 16 16 0 0 0 0 0 1 1 1
19 7 14 2 0 0 0 1 0,1
6 0 0 1 2 1 0 0 1 0 0 0 0 0 0 0 0 1 4 4 0 0 0 0 0 0 0 0
26 8 15 1 1 9 1,35 1 5 1 0,1
7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
21 1 18 1 0 0 0 1 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
40 1 20 2 0 0 0 1 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 1 0 1 0 1 1 0 1
29 2 20 1 0 0 0 1 0,5 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 0 0 0
32 3 18 1 1 1
1 0,16 1 6 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 1 0 ? ? 1 0 1 0 0 0 0 0
28 5 15 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 ? ? 0 0 0 0 0 1 1 1
17 1 15 2 0 0 0 1 0,1
6 0 0 1 2 1 0 0 1 0 0 0 0 0 0 0 0 1 2 2 0 0 0 0 0 0 0 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Lampiran 2: Contoh Hasil Transformasi Data
Contoh Data Sebelum Transformasi
Age
Nu
mb
er o
f se
xu
al
part
ner
s
Fir
st s
exu
al
inte
rcou
rse
Nu
m o
f p
regn
an
cies
Sm
ok
es (
yea
rs)
Sm
ok
es (
pack
s/yea
r)
Horm
on
al
Con
trace
pti
ves
(yea
rs)
IUD
(yea
rs)
ST
Ds
(nu
mb
er)
ST
Ds:
con
dylo
mato
sis
ST
Ds:
vagin
al
con
dylo
mato
sis
ST
Ds:
vu
lvo
-per
inea
l
con
dylo
mato
sis
ST
Ds:
syp
hil
is
ST
Ds:
pel
vic
in
flam
mato
ry
dis
ease
ST
Ds:
gen
ital
her
pes
ST
Ds:
moll
usc
um
co
nta
gio
sum
ST
Ds:
HIV
ST
Ds:
Hep
ati
tis
B
ST
Ds:
HP
V
ST
Ds:
Nu
mb
er o
f d
iagn
osi
s
Dx:
Can
cer
Dx:
CIN
Dx:
HP
V
Dx
Bio
psy
34 1 17 1 0 0 0 0 3 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 0
52 10 16 9 37 37 3 0 0 0 0 0 0 0 0 0 0 0 0 2 1 0 1 0 0
42 3 23 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
61 3 17 6 15 20 0 7 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
62 11 26 3 0 0 26 14 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Contoh Data Setelah Transformasi
Age
Nu
mb
er o
f se
xu
al
part
ner
s
Fir
st s
exu
al
inte
rcou
rse
Nu
m o
f p
regn
an
cies
Sm
ok
es (
yea
rs)
Sm
ok
es (
pack
s/yea
r)
Horm
on
al
Con
trace
pti
ves
(yea
rs)
IUD
(yea
rs)
ST
Ds
(nu
mb
er)
ST
Ds:
con
dylo
mato
sis
ST
Ds:
vagin
al
con
dylo
mato
sis
ST
Ds:
vu
lvo
-per
inea
l
con
dylo
mato
sis
ST
Ds:
syp
hil
is
ST
Ds:
pel
vic
in
flam
mato
ry
dis
ease
ST
Ds:
gen
ital
her
pes
ST
Ds:
moll
usc
um
con
tagio
sum
ST
Ds:
HIV
ST
Ds:
Hep
ati
tis
B
ST
Ds:
HP
V
ST
Ds:
Nu
mb
er o
f d
iagn
osi
s
Dx:
Can
cer
Dx:
CIN
Dx:
HP
V
Dx
Bio
psy
13
-
36
1
-
9
17
-
23
0
-
3
0
-
11
0
-
11
0
-
9
0
-
5
three False True False True False True False False False False zero False False False False No
37
-
60
10
-
18
10
-
16
>=
8
>=
24
>=
24
0
-
9
0
-
5
zero False False False False False False False False False False two True False True False No
37
-
60
1
-
9
17
-
23
0
-
3
0
-
11
0
-
11
0
-
9
0
-
5
zero False False False False False False False False False False zero False False False False No
>=
61
1
-
9
17
-
23
4
-
7
12
-
23
12
-
23
0
-
9
6
-
11
zero False False False False False False False False False False zero False False False False Yes
>=
61
10
-
18
>=
24
0
-
3
0
-
11
0
-
11
>=20 >=
12 one False False True False False False False False False False zero False False False False Yes
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Lampiran 3: Rencana Pengujian Validasi Black Box
Identifikasi
Use Case
Deskripsi Prosedur
Pengujian
Masukan Keluaran yang
Diharapkan
Hasil yang
Didapatkan
Catatan Proses
Pengembangan
UC1-01 Memasukkan username dan
password dengan benar
1. Menjalankan
perangkat lunak
2. Pada halaman
login, masukkan
username dan
password
3. Klik tombol
Login
Username : abcde
Password : 12345
Akan muncul pesan
login gagal
Muncul pesan login
gagal! Username dan
Password salah
Tidak diperbaiki
UC1-02 Memasukkan username dan
password dengan
sembarang
Username : admin
Password :
admin1234
Akan diarahkan ke
halaman utama dari
perangkat lunak
Tampil halaman utama Tidak diperbaiki
UC2-01 Memasukkan data dengan
tipe .xls
1. Pilih menu data
pasien
2. Pada halaman
data pasien klik
browser
3. Pilih file yang
akan
dimasukkan
4. Klik tombol
DataFix.xls Akan muncul pesan
data berhasil diinput
Muncul pesan data
berhasil diinput
Tidak diperbaiki
UC2-02 Memasukkan data dengan
tipe bukan .xls
Sample.pdf Akan muncul pesan
file bukan bertipe
.xls
Muncul pesan data
gagal diinput file bukan
bertipe .xls
Tidak diperbaiki
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
submit
UC3-01 Memasukkan nilai split
ratio dengan benar
(<=100%)
1. Pada halaman
data pasien, pilih
submenu partisi
data
2. Masukkan nilai
split ratio
3. Klik tombol
proses
80 Akan muncul pesan
data training
berhasil diupdate
Muncul pesan data
training berhasil
diupdate
Tidak diperbaiki
UC3-02 Memasukkan nilai split
ratio > 100%
101 Akan muncul pesan
set data training
harus lebih kecil
dari 100
Muncul pesan set data
training harus lebih
kecil dari 100
Tidak diperbaiki
UC3-03 Tidak memasukkan nilai
split ratio
(tidak memasukkan
nilai apapun)
Akan muncul pesan
set data training
belum dimasukkan
nilainya
Muncul pesan set data
training belum
dimasukkan nilainya
Tidak diperbaiki
UC4-01 Menekan tombol proses
klasifikasi
1. Pilih menu
proses algoritma
C4.5
2. Klik proses
klasifikasi
Klik proses
klasifikasi
Akan tampil proses
perhitungan
algoritma C4.5
Tampil proses
perhitungan algoritma
C4.5
Tidak diperbaiki
UC5-01 Menekan submenu pohon
keputusan
1. Pada halaman
proses algoritma
C4.5, pilih
Klik submenu pohon
keputusan
Akan tampil pohon
keputusan dan rule
yang terbentuk dari
Tampil pohon
keputusan dan rule
Tidak diperbaiki
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
submenu pohon
keputusan
proses algoritma
yang telah dilakukan
UC6-01 Menekan submenu kinerja 1. Pada halaman
proses algoritma
C4.5, pilih
submenu kinerja
Klik submenu
kinerja
Akan tampil hasil
perhitungan akurasi
Tampil hasil
perhitungan akurasi
Tidak diperbaiki
UC7-01 Memasukkan data dengan
benar
1. Pilih menu uji
data tunggal
2. Masukkan data
yang akan di uji
3. Klik tombol
proses
Semua data di isi Akan tampil hasil
klasifikasi
Tampil hasil klasifikasi Tidak diperbaiki
UC7-02 Tidak Memasukkan data Tidak memasukkan
data /
mengosongkan
beberapa data
Akan muncul pesan
error dan bertanda
merah pada bagian
yang tidak diisikan
datanya
Muncul pesan error dan
bertanda merah pada
bagian yang tidak
diisikan datanya
Tidak diperbaiki
UC8-01 Menekan hapus semua data 1. Pilih menu data
pasien
2. Klik hapus
semua data
Klik hapus semua
data
Akan muncul pesan
data berhasil
dihapus
Muncul pesan data
berhasil dihapus
Tidak diperbaiki
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI