PENERAPAN ALGORITMA K-MEANS UNTUK
MEMETAKAN GARIS KEMISKINAN MENURUT
PROVINSI DI INDONESIA
SKRIPSI
Oleh:
BAGAS PRAYOGO HARYAJI
311410430
TEKNIK INFORMATIKA
SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA
BEKASI
2018
PENERAPAN ALGORITMA K-MEANS UNTUK
MEMETAKAN GARIS KEMISKINAN MENURUT
PROVINSI DI INDONESIA
SKRIPSI
Diajukan Sebagai Salah Satu Syarat Untuk Menyelesaikan
Program Strata Satu (S1) pada Program Studi Teknik Informatika
Oleh:
BAGAS PRAYOGO HARYAJI
311410430
TEKNIK INFORMATIKA
SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA
BEKASI
2018
i
ii
iii
iv
KATA PENGANTAR
Puji syukur penulis panjatkan ke hadiran Allah SWT. yang telah
melimpahkan segala rahmat dan hidayah-Nya, sehingga tersusunlah Skripsi yang
berjudul “PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN
GARIS KEMISKINAN MENURUT PROVINSI DI INDONESIA”.
Skripsi tersusun dalam rangka melengkapi salah satu persyaratan dalam
rangka menempuh ujian akhir untuk memperoleh gelar Sarjana Komputer
(S.Kom.) pada Program Studi Teknik Informatika di Sekolah Tinggi Teknologi
Pelita Bangsa.
Penulis sungguh sangat menyadari, bahwa penulisan Skripsi ini tidak akan
terwujud tanpa adanya dukungan dan bantuan dari berbagai pihak. Sudah
selayaknya, dalam kesempatan ini penulis menghaturkan penghargaan dan ucapan
terima kasih yang sebesar-besarnya kepada:
a. Bapak Dr. Ir. Suprianto, M.P selaku Ketua STT Pelita Bangsa
b. Bapak Aswan Sunge, S.E., M.Kom. selaku Ketua Program Studi Teknik
Informatika STT Pelita Bangsa.
c. Bapak Asep Muhidin, S.Kom, M.Kom selaku Pembimbing Utama yang telah
banyak memberikan arahan dan bimbingan kepada penulis dalam penyusunan
Skripsi ini.
d. Seluruh Dosen STT Pelita Bangsa yang telah membekali penulis dengan
wawasan dan ilmu di bidang teknik informatika.
e. Seluruh staf STT Pelita Bangsa yang telah memberikan pelayanan terbaiknya
kepada penulis selama perjalanan studi jenjang Strata 1.
f. Rekan-rekan mahasiswa STT Pelita Bangsa, khususnya angkatan 2014, yang
telah banyak memberikan inspirasi dan semangat kepada penulis untuk dapat
menyelesaikan studi jenjang Strata 1.
g. Ibu dan Ayah tercinta yang senantiasa mendo’akan dan memberikan semangat
dalam perjalanan studi Strata 1 maupun dalam kehidupan penulis.
v
Akhir kata, penulis mohon maaf atas kekeliruan dan kesalahan yang
terdapat dalam Skripsi ini dan berharap semoga Skripsi ini dapat memberikan
manfaat bagi khasanah pengetahuan Teknologi Informasi di lingkungan STT
Pelita Bangsa khususnya dan Indonesia pada umumnya.
Bekasi, Oktober 2018
Penulis
vi
DAFTAR ISI
PERSETUJUAN ...................................................................................................... i
PENGESAHAN ...................................................................................................... ii
PERNYATAAN KEASLIAN PENELITIAN ....................................................... iii
KATA PENGANTAR ........................................................................................... iv
DAFTAR ISI .......................................................................................................... vi
DAFTAR TABEL .................................................................................................. ix
DAFTAR GAMBAR .............................................................................................. x
ABSTRACT ............................................................................................................ xii
ABSTRAK ........................................................................................................... xiii
BAB I ...................................................................................................................... 1
1.1 Latar belakang .......................................................................................... 1
1.2 Identifikasi masalah dan batasan masalah ................................................ 2
1.1.4 Identifikasi masalah .......................................................................... 2
1.2.2 Batasan masalah ..................................................................................... 3
1.2 Rumusan masalah ..................................................................................... 3
1.3 Tujuan penelitian ...................................................................................... 3
1.5 Manfaat penelitian ......................................................................................... 4
1.6 Metode pengumpulan data ............................................................................ 4
1.7 Sistematika penulisan .................................................................................... 5
BAB II ..................................................................................................................... 7
vii
2.1 Penelitian terkait............................................................................................ 7
2.2 Definisi judul ................................................................................................. 9
2.2.1 Algoritma ............................................................................................... 9
2.2.2 K-means ................................................................................................. 9
2.2.3 Clustering ............................................................................................. 10
2.2.4 Garis kemiskinan .................................................................................. 10
2.3 Data mining ................................................................................................. 11
2.3.1 Pengertian data mining ........................................................................ 11
2.3.2 Fungsi data mining ............................................................................... 13
2.3.3 Teknik pembelajaran data mining ........................................................ 15
2.3.4 Proses data mining ............................................................................... 16
2.3.5 Pengelompokan teknik data mining ..................................................... 17
2.4 K-means ...................................................................................................... 18
2.4.1 Pengertian k-means .............................................................................. 18
2.4.2 Keuntungan dan kekurangan k-means ................................................. 21
2.5 Rapidminer .................................................................................................. 22
BAB III ................................................................................................................. 24
3.1 Tahap penelitian .......................................................................................... 24
3.1.1 Gambaran penelitian ............................................................................ 24
3.2 Data ............................................................................................................. 25
viii
3.3 Preprocessing data ..................................................................................... 25
3.3.1 Data cleaning ....................................................................................... 25
BAB IV ................................................................................................................. 29
4.1 Proses clustering ......................................................................................... 29
4.2 Pengujian rapidminer .................................................................................. 29
4.3 Pembahasan hasil clustering k-means ......................................................... 37
BAB V ................................................................................................................... 45
5.1 Kesimpulan ................................................................................................. 45
5.2 Saran ............................................................................................................ 45
DAFTAR PUSTAKA ........................................................................................... 46
LAMPIRAN .......................................................................................................... 48
Lampiran 1. Tabel dataset penelitian ............................................................... 48
Lampiran 2. Tabel dataset daerah perkotaan..................................................... 49
Lampiran 3. Tabel dataset daerah perdesaan .................................................... 50
ix
DAFTAR TABEL
Tabel 4. 1 Dataset penelitian pendapatan/kapita/bulan dalam satuan rupiah........ 38
Tabel 4. 2 Dataset yang telah distandarkan z score .............................................. 39
Tabel 4. 3 Anggota cluster 0 ................................................................................. 40
Tabel 4. 4 Anggota cluster 1 ................................................................................. 40
Tabel 4. 5 Anggota cluster 2 ................................................................................. 41
Tabel 4. 6 Deskripsi (linguistik) dan domain nilai tiap atribut ............................. 42
Tabel 4. 7 Deskripsi data berdasarkan dengan cluster .......................................... 43
Tabel 4. 8 Hasil operasi perfomance vector .......................................................... 44
x
DAFTAR GAMBAR
Gambar 2. 1 Penemuan ilmu baru ......................................................................... 13
Gambar 2. 2 Fungsi data mining ........................................................................... 14
Gambar 3. 1 Gambaran penelitian ........................................................................ 24
Gambar 3. 2 Implementasi data pada rapidminer ................................................. 26
Gambar 3. 3 Penggantian data yang hilang pada data perdesaan DKI Jakarta ..... 27
Gambar 3. 4 Penggantian data yang hilang pada data perdesaan Kalimantan Utara
............................................................................................................................... 27
Gambar 3. 5 Penggantian data yang hilang pada data perkotaan Kalimantan Utara
............................................................................................................................... 28
Gambar 4. 1 Design process ................................................................................. 30
Gambar 4. 2 Example set result ............................................................................ 31
Gambar 4. 3 Cluster model ................................................................................... 32
Gambar 4. 4 Centroid table ................................................................................... 33
Gambar 4. 5 Anggota cluster 0 ............................................................................. 33
Gambar 4. 6 Anggota cluster 1 ............................................................................. 34
Gambar 4. 7 Anggota cluster 2 ............................................................................. 34
Gambar 4. 8 Example set statistic ......................................................................... 35
Gambar 4. 9 Graph result ..................................................................................... 35
Gambar 4. 10 Plot result ....................................................................................... 36
Gambar 4. 11 Chart clustering.............................................................................. 37
Gambar 4. 12 Perfomance vector.......................................................................... 37
Gambar 4. 13 Grafik titik hasil clustering ............................................................ 41
xi
Gambar 4. 14 Discretize data ............................................................................... 42
Gambar 4. 15 Perfomace vector............................................................................ 43
xii
ABSTRACT
BAGAS PRAYOGO HARYAJI. 311410430. Implementaion of K-means
Algorithm to Map Poverty Line by Province in Indonesia.
Indonesia has a sizeable population, the Central Bureau of Statistics in 2012
recorded that there were 250.000.000 more people scattered throughout the
Indonesian provinces. In addition, Indonesia also has a variety of social
problems, one of which is poverty. The poverty line number in Indonesia needs to
be improved. Data utilization techniques become a new information called data
mining. One of the most popular data mining methods is clustering using the k-
means algorithm. K-means can process data without being notified in advance of
the class label. This study will produce three provincial groups according to very
low, low and sufficient income figures. Data processing of poverty line numbers in
Indonesia using the k-means algorithm to get the results of the davies bouldin
index of 0,288. These results are considered good enough because the closer the
results obtained with zeros, the better the data similarity between members of the
cluster.
Keyword: Poverty Line, K-means
xiii
ABSTRAK
BAGAS PRAYOGO HARYAJI. 311410430. Penerapan Algoritma K-means
Untuk Memetakan Garis Kemiskinan Menurut Provinsi Di Indonesia.
Indonesia memiliki jumlah penduduk yang cukup besar, Badan Pusat Statistik di
tahun 2012 mencatat ada 250.000.000 lebih penduduk yang tersebar di seluruh
provinsi Indonesia. Selain itu, Indonesia juga memiliki beragam masalah sosial,
salah satunya kemiskinan. Angka garis kemiskinan di Indonesia perlu diperbaiki.
Teknik pemanfaatan data menjadi sebuah informasi baru disebut juga sebagai
data mining. Salah satu metode data mining yang cukup populer yaitu clustering
dengan menggunakan algoritma k-means. K-means dapat mengolah data tanpa
diberitahu lebih dahulu label kelasnya. Penelitian ini akan menghasilkan tiga
kelompok provinsi sesuai dengan angka pendapatan sangat rendah, rendah dan
cukup. Pengolahan data angka garis kemiskinan di Indonesia menggunakan
algoritma k-means mendapatkan hasil davies bouldin index sebesar 0,288. Hasil
tersebut dinilai cukup baik sebab semakin dekat hasil yang diperoleh dengan
angka nol, maka kemiripan data anggota antar cluster semakin baik.
Kata kunci: Garis kemiskinan, K-means
1
BAB I
PENDAHULUAN
1.1 Latar belakang
Indonesia merupakan negara yang mempunyai lebih dari 230.000.000
penduduk yang tersebar di beberapa provinsi berdasarkan data yang dihimpun
oleh Badan Pusat Statistik tahun 2012. Selain memiliki jumlah penduduk yang
cukup besar tersebut, Indonesia memilki beragam masalah sosial antara lain
tingkat kejahatan yang tinggi, swasembada pangan, masalah ekonomi dan lain
lain. Salah satu masalah sosial yang diakibatkan oleh faktor ekonomi, yaitu
kemiskinan. Kemiskinan adalah suatu keadaan dimana terjadi ketidakmampuan
untuk memenuhi kebutuhan dasar seperti makanan, pakaian, tempat berlindung,
pendidikan, dan kesehatan. Kemiskinan dapat disebabkan oleh kelangkaan alat
pemenuh kebutuhan dasar, ataupun sulitnya akses terhadap pendidikan dan
pekerjaan. Banyak orang saat ini menerjemahkan kemiskinan sebagai pangkal
penyebab masalah sosial dan ekonomi.
Angka garis kemiskinan di Indonesia dinilai perlu untuk diperbaiki.
Menurut lembaga Pembangunan PBB bersama ASEAN dan China tahun 2016,
Indonesia berada pada posisi sembilan dari sepuluh Negara di Asia Tenggara.
Parameter yang digunakan untuk menentukan sebuah daerah disebut miskin yaitu
angka pendapatan per kapita per bulan tiap penduduknya. Kepala Badan Pusat
Statistik pada tahun 2018 menetapkan batas garis kemiskinan yakni Rp 401.220
per kapita per bulan. Seperti di DKI Jakarta nilai garis kemiskinan Rp 593.000 per
kapita maka pengeluaran keluarga miskin dengan 4-5 orang mencapai sekira
2
Rp3.100.000 juta (sedikit di bawah UMR DKI JAKARTA Rp3.600.000).
Diperlukan sebuah langkah pemetaan bagi tiap provinsi sesuai dengan tingkat
garis kemiskinan sehingga dapat diambil sebuah solusi yang tepat sesuai dengan
kelompoknya. Salah satu teknik yang dikenal dalam data mining yaitu teknik
clustering.
Teknik clustering mengelompokan data secara otomatis tanpa perlu
diberitahu label kelasnya. Banyak metode clustering yang telah diusulkan oleh
para ahli, salah satunya adalah k-means. Metode k-means merupakan algoritma
klasterisasi yang paling banyak digunakan dalam berbagai aplikasi kecil hingga
menengah karena kemudahan mengaplikasikannya.
Menyikapi hal tersebut, pada penelitian ini penulis mencoba untuk
menerapkan teknik clustering dengan menggunakan algoritma k-means sebagai
metode penyelasian masalah tersebut. Sehingga penulis menjadikannya sebuah
judul ”PENERAPAN ALGORITMA K-MEANS UNTUK MEMETAKAN
GARIS KEMISKINAN MENURUT PROVINSI DI INDONESIA”.
Diharapkan penelitian ini dapat membantu pemerintah dalam mengambil
langkah yang tepat sebagai upaya menurunkan angka kemiskinan pada setiap
provinsi yang ada di Indonesia.
1.2 Identifikasi masalah dan batasan masalah
1.1.4 Identifikasi masalah
Berdasarkan latar belakang tersebut maka didapat identifikasi masalah
sebagai berikut :
3
1. Banyaknya data yang telah dihimpun belum diolah menjadi sebuah informasi
lebih lanjut.
2. Belum adanya pemetaan daerah yang berada dalam angka garis kemiskinan
sangat rendah, rendah maupun cukup.
1.2.2 Batasan masalah
Pada penulisan tugas akhir ini, penulis membatasi dalam implementasi
data mining untuk pemetaan angka garis kemiskinan di Indonesia yang meliputi :
1. Tidak membahas sistem pendukung keputusan maupun sistem informasi.
2. Metode yang digunakan adalah clustering dengan algoritma k-means.
3. Data yang digunakan diambil dari empat tahun terakhir.
1.2 Rumusan masalah
Berdasarkan latar belakang masalah tersebut maka perumusan masalah
yang diambil dalam penelitian ini adalah “Bagaimana menerapkan algoritma k-
means untuk pemetaan angka garis kemiskinan di Indonesia dari data yang sudah
dihimpun selama empat tahun terakhir”.
1.3 Tujuan penelitian
Penelitian ini dimaksudkan mengolah data angka garis kemiskinan di
Indonesia yang bersumber dari website Badan Pusat Statistik menggunakan
metode clustering sebagai sebuah bidang ilmu yaitu data mining. Selain itu untuk
mendapatkan hasil pemetaan angka garis kemiskinan dengan menerapkan
algoritma k-means, sehingga dapat diambil solusi yang tepat untuk tiap daerah
berbeda di Indonesia.
4
Adapun tujuan yang dalam penelitian ini adalah :
1. Melakukan tinjauan lebih lanjut terkait angka garis kemiskinan di Indonesia
yang dihimpun oleh Badan Pusat Statistik selama empat tahun terakhir.
2. Mengelompokkan provinsi di Indonesia menjadi tiga kelompok sesuai dengan
angka pendapatan tiap daerah menggunakan algoritma k-means.
1.5 Manfaat penelitian
Manfaat dari penelitian tugas akhir ini adalah hasil pemetaan angka garis
kemiskinan yang diharapkan dapat diambil langkah solusi yang tepat menurut
tingkat daerah masing-masing. Adapun manfaat lain dari penelitian ini adalah :
2. Bagi Penulis
Dapat menambah pengetahuan dan wawasan serta dapat mengaplikasikan teori
yang telah diperoleh selama masa perkuliahan.
3. Bagi Akademik
Dapat menjadi referensi bagi mahasiswa yang melakukan kajian terhadap
algoritma k-means di masa yang akan datang.
1.6 Metode pengumpulan data
Dalam melakukan penelitian ini penulis menerapkan beberapa metode
antara lain :
1. Studi Pustaka
Penulis mempelajari dan mengumpulkan data dari buku–buku serta mencari
informasi yang diperlukan terkait penyusunan laporan.
5
2. Sumber Data
Data yang digunakan dalam penelitian ini diperoleh secara online melalui
website https://www.bps.go.id/dynamictable/2016/01/18/1120/garis-
kemiskinan-menurut-provinsi-2013---2017.html sebagai sumber data yang
digunakan untuk penelitian.
1.7 Sistematika penulisan
Penelitian ini terbagi menjadi lima bab, dimana masing–masing bab terdiri
dari beberapa sub–sub bab untuk menghasilkan pembahasan secara sistematis.
Adapun lima bab tersebut ialah :
BAB I : PENDAHULUAN
Pada bab ini penulis ingin mengemukakan gambaran tentang latar belakang,
maksud dan tujuan, rumusan masalah, batasan masalah, metode pengumpulan
data dan sistematika penulisan.
BAB II : LANDASAN TEORI
Pada bab ini penulis ingin menjelaskan tentang teori-teori yang didapat dari
sumber-sumber yang relevan untuk digunakan sebagai panduan dalam penelitian
serta penyusunan skripsi.
BAB III : METODOLOGI PENELITIAN
Pada bab ini penulis akan menjelaskan tentang tahap penelitian, data yang
digunakan dan 5las an5n5ing data.
BAB IV : HASIL DAN PEMBAHASAN
Pada bab ini penulis akan menjelaskan tentang implementasi algoritma serta
pembahasan dari penelitian yang dilakukan.
6
BAB V : PENUTUP
Pada bab ini penulis akan memberikan kesimpulan dan saran dari keseluruhan
penelitian yang telah di bahas.
7
BAB II
LANDASAN TEORI
2.1 Penelitian terkait
1. Clustering penentuan potensi kejahatan daerah di kota Banjarbaru dengan
metode k-means (Rahayu, S., Nugrahadi, D.T., Indriani, F. 2014).
Penelitian tersebut membahas tentang penerapan algoritma k-means dalam
penentuan potensi kejahatan berdasarkan data kejahatan yang dimiliki oleh
Kepolisian Negara Republik Indonesia daerah Kalimantan Selatan Resort
Banjarbaru. Variabel-variabel yang digunakan dalam clustering penentuan potensi
kejahatan daerah di kota Banjarbaru adalah hukuman, bulan dan laporan.
Setelah mendapatkan data langkah selanjutnya adalah melakukan
persiapan data yaitu data selection, preprocessing data, transformation hingga
diterapkan metode k-means.
Kesimpulan dari penelitian ini clustering potensi kejahatan daerah di kota
Banjarbaru diproses berdasarkan perjajaran. Hal ini dilakukan agar hasil dari
pengelompokan potensi kejahatan daerah di kota Banjarbaru menjadi lebih
spesifik.
2. Analisa metode hierarchical clustering dan k-means dengan model LRFMP
pada segmentasi pelanggan (Muhidin,A. 2017).
Penelitian tersebut membahas tentang penerapan algoritma k-means dalam
menentukan segmentasi konsumen yang potensial. Variabel yang digunakan
dalam clustering pelanggan berdasarkan model LRFMP (Length, Recency,
Frequency, Monetary, Payment).
8
Pada penelitian ini proses segmentasi pelanggan dimulai dengan
melakukan proses preprocessing, analytic hierarchy process (AHP), pencarian
nilai K terbaik dari semua metode hierarchical clustering dengan membandingkan
nilai bouldien index. Selanjutnya nilai k terpilih dijadikan nilai awal pada k-means
clustering. Hasil clustering tersebut digunakan untuk melakukan segmentasi
menggunakan model RFM untuk mendapatkan kelas konsumen. Hasil clustering
dapat dijadikan acuan marketing dalam menentukan perlakuan terhadap
pelanggan.
3. Pemanfaatan metode k-means clustering dalam penentuan penjurusan siswa
SMA (Aziz, A., Purmaningsih, C., Saptono, R. 2014).
Penelitian tersebut membahas tentang penerapan algoritma k-means dalam
kasus penentuan penjurusan siswa SMA. Variabel yang digunakan dalam
penelitian ini adalah kriteria nilai akademik, nilai IQ dan minat siswa.
Data minat siswa dan nilai IQ belum dapat digunakan dalam proses
clustering maka perlu adanya proses konversi data non numerik minat siswa dan
nilai IQ siswa menjadi data numerik, oleh karena itu kriteria minat dan IQ siswa
dikategorikan terlebih dahulu.
Kesimpulan penelitian algoritma k-means dapat digunakan untuk
mengelompokkan data siswa sebagai pendukung keputusan penentuan penjurusan
siswa SMA. Hasil penelitian menunjukkan bahwa tidak ada siswa yang diterima
di dua jurusan IPA/IPS atau siswa ditolak di keduanya.
9
4. Penerapan metode k-means clustering untuk mengelompokan potensi produksi
buah-buahan di provinsi Daerah Istimewa Yogyakarta (Murti, M.A.W.K. 2017).
Penelitian tersebut membahas tentang penerapan algoritma k-means dalam
pengelompokan daerah penghasil buah. Variabel yang digunakan berdasarkan luas
panen (Ha), produksi (ton) dan tahun panen.
Setelah mendapatkan data langkah selanjutnya adalah melakukan
persiapan data yaitu cleaning data, transformation hingga diterapkan metode k-
means.
Kesimpulan penelitian memberikan pemetaan daerah dengan hasil
produksi buah banyak, sedang dan rendah.
2.2 Definisi judul
2.2.1 Algoritma
Menurut Munir (2012:176) algoritma adalah urutan logis langkah-langkah
penyelesaian masalah yang disusun secara sistematis. Metode pengurutan
digambarkan dalam sejumlah langkah terbatas yang mengarah pada solusi
permasalahan.
2.2.2 K-means
Menurut Vulandari (2017:54) k-means merupakan algoritma yang
menetapkan nilai-nilai cluster (k) secara random, untuk sementara nilai tersebut
menjadi pusat dari cluster yang biasa disebut centroid. Kemudian menghitung
jarak setiap data yang ada terhadap masing-masing centroid menggunakan rumus
9las an9n hingga ditemukan jarak yang paling dekat dari setiap data dengan
centroid hingga nilai centroid tidak berubah (stabil).
10
Menurut Suyanto (2017:262) k-means merupakan algoritma klasterisasi
yang memiliki ide dasar sederhana dengan cara meminimalkan Sum of Squared
Error (SSE) antara objek-objek data dengan sejumlah k centroid.
2.2.3 Clustering
Menurut Suyanto (2017:260) Clustering adalah proses pengelompokan
satu set objek data (into multiple groups) atau cluster sehingga benda-benda
dalam suatu kelompok memiliki kesamaan yang tinggi, tetapi sangat berbeda
dengan objek di kelompok lain.
Menurut Han,dkk (2012:445) clustering adalah proses mempartisi
sekumpulan objek data (pengamatan) kedalam himpunan bagian yang dapat
digunakan untuk mengatur hasil pencarian ke dalam kelompok dan menyajikan
hasil dengan cara yang ringkas dan mudah diakses.
Clustering banyak digunakan dalam berbagai bidang dengan beragam
aplikasi yang sangat penting diantaranya riset pasar, sistem perekomendasi, sistem
keamanan dan mesin pencarian.
2.2.4 Garis kemiskinan
Menurut Hamzah,dkk (2013:68) garis kemiskinan atau batas kemiskinan
ditetapkan dengan 10las an logis dengan berdasarkan konsep kebutuhan pokok
(basic needs). Terdapat dua hal yang harus terlebih dahulu ditentukan, yaitu
pengukuran kebutuhan hidup minimum (standard of living) dan penentuan garis
kemiskinan.
Sajogyo dalam Hamzah,dkk (2013:68) menetapkan garis kemiskinan
berdasarkan penghasilan rumah tangga senilai 360 Kg beras per tahun di
11
perkotaan dan 240 Kg beras per tahun di perdesaan. Pengukuran garis kemiskinan
ini dapat dipakai untuk memperbandingkan tingkat hidup antar zaman dan antar
ragam nilai rupiah.
2.3 Data mining
2.3.1 Pengertian data mining
Perkembangan teknologi informasi telah memberikan kontribusi pada
cepatnya pertumbuhan jumlah data yang dikumpulkan dan disimpan dalam basis
data berukuran besar (big data). Big data adalah istilah yang menggambarkan
volume data yang besar, baik data yang terstruktur maupun data yang tidak
terstruktur. Big data memiliki potensi tinggi untuk mengumpulkan wawasan kunci
dari informasi bisnis. Big data dapat dianalisis untuk wawasan yang mengarah
pada pengambilan keputusan dan strategi bisnis yang lebih baik.
Sebuah metode atau teknik diperlukan untuk dapat merubah data tersebut
menjadi sebuah informasi berharga atau pengetahuan yang bermanfaat untuk
mendukung pengambilan keputusan. Suatu teknologi yang dapat digunakan untuk
mewujudkannya adalah data mining. Belakangan ini data mining telah
diimplementasikan kedalam berbagai bidang, diantaranya dalam bidang bisnis
atau perdangangan, bidang pendidikan, dan telekomunikasi.
Menurut Stanton (2013:173) data mining adalah bidang penelitian dan
praktik yang berfokus pada penemuan pola-pola baru dalam data yang mengacu
pada penggunaan algoritma dan komputer untuk menemukan pola baru dan
menarik dalam data.
12
Menurut Pramudiono dalam Baskoro,dkk (2013:42) data mining adalah
analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan
untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak
disadari keberadaanya.
Menurut Suyatno (2017:2) data mining ditujukan untuk mengekstrak
pengetahuan dari sekumpulan data sehingga didapatkan struktur yang dapat
dimengerti manusia serta meliputi basis data dan manajemen data, prapemrosesan
data, pertimbangan model dan inferensi, ukuran ketertarikan, pertimbangan
kompleksitas, pascapemrosesan terhadap struktur yang ditemukan, visualisasi dan
online updating.
Sebagai teknologi umum, data mining dapat diterapkan ke semua jenis
data selama data bermakna untuk aplikasi target. Bentuk data paling dasar untuk
penambangan aplikasi adalah database, data warehouse dan data transaksional.
Data mining juga dapat diterapkan ke bentuk data lain (misalnya, aliran data, data
urutan / urutan, grafik atau data jaringan, data spasial, data teks, data multimedia).
13
Sumber : Han,dkk, 2012.
2.3.2 Fungsi data mining
Secara umum, kegunaan data mining terbagi menjadi dua yaitu deskriptif
dan prediktif. Deskriptif memiliki arti untuk mencari pola-pola yang dapat
dipahami manusia yang menjelaskan karakteristik data sedangkan prediktif
digunakan untuk membentuk sebuah model pengetahuan guna melakukan
prediksi. Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa
dikelompokan menjadi enam kelompok yaitu :
Gambar 2. 1 Penemuan ilmu baru
14
Adapun penjelasan rinci dari enam kelompok tersebut sebagai berikut:
1. Klasifikasi (classification)
Proses generalisasi struktur yang diketahui untuk diaplikasikan pada data-data
baru.
2. Klasterisasi (clustering)
Mengelompokan data yang belum diketahui label kelasnya ke dalam sejumlah
kelompok tertentu sesuai dengan ukuran kemiripannya.
3. Regresi (regression)
Menemukan suatu fungsi yang memodelkan data dengan kesalahan prediksi
seminimal mungkin.
Gambar 2. 2 Fungsi data mining
15
4. Deteksi anomali (anomaly detection)
Mengidentifikasi data yang tidak umum, berupa outlier (pencilan), perubahan
atau deviasi yang mungkin sangat penting dan perlu investigasi lebih lanjut.
5. Pemodelan kebergantungan (Depedency modeling)
Mencari relasi antar tabel.
6. Perangkuman (summarization)
Menyediakan representasi data yang lebih sederhana, meliputi visualisasi dan
pembuatan laporan.
2.3.3 Teknik pembelajaran data mining
Teknik yang digunakan dalam data mining erat kaitannya dengan
penemuan dan pembelajaran yang terbagi dalam tiga metode utama pembelajaran
yaitu :
1. Supervised learning
Teknik yang melibatkan fase pelatihan dimana data pelatihan historis yang
karakter-karakternya dipetakan ke hasil-hasil yang telah diketahui dan diolah
dalam algoritma data mining. Proses ini melatih algoritma untuk mengenali
variabel-variabel dan nilai-nilai kunci yang nantinya akan digunakan sebagai
dasar dalam membuat perkiraan-perkiraan ketika diberikan data baru.
2. Unsupervised learning
Teknik pembelajaran yang tidak melibatkan fase pelatihan seperti supervised
learning yakni bergantung pada penggunaan algoritma yang mendeteksi semua
pola yang muncul dari kriteria penting yang spesifik dalam data masukan.
Pendekatan ini mengarah pada pembuatan banyak aturan yang
16
mengkarakteristikan penemuan associations, clusters dan segment yang
kemudian dianalisis untuk menemukan hal-hal yang penting.
3. Reinforcement learning
Teknik yang memiliki penerapan-penerapan yang terus dioptimalkan dari
waktu ke waktu dan memiliki kontrol adaptif. Menyerupai kehidupan nyata
yaitu seperti “on job training” dimana seorang pekerja diberikan sekumpulan
tugas yang membutuhkan keputusan-keputusan. Reinforcement leraning sangat
tepat digunakan untuk menyelesaikan masalah-masalah sulit yang bergantung
pada waktu.
2.3.4 Proses data mining
Data mining biasanya terdiri dari empat proses (Stanton 2013:173) :
1. Persiapan data
Melibatkan memastikan bahwa data diatur dengan cara yang benar, bahwa
bidang data yang hilang terisi, bahwa data yang tidak akurat berada dan
diperbaiki atau dihapus, dan data tersebut "didaur ulang" seperlunya.
2. Analisis data eksploratori
Proses eksplorasi juga melibatkan mencari keluar nilai-nilai yang tepat untuk
parameter kunci.
3. Pengembangan model
Yaitu menguji pilihan penambangan data yang paling sesuai teknik.
Tergantung pada struktur dataset dan memilih yang paling menjanjikan di
dalamnya sebagai sains.
17
4. Interpretasi hasil.
Berfokus untuk memahami dari apa algoritma data mining telah dihasilkan
yang merupakan langkah penting dari perspektif pengguna data, karena ini
adalah tempat kesimpulan yang dapat ditindaklanjuti terbentuk.
Beberapa tahun terakhir data tumbuh menjadi semakin heterogen dan
kompleks dengan volume yang meningkat cepat secara eksponensial. Selain itu,
beberapa faktor pendorong kemajuan yang berlanjut dalam bidang data mining
ialah:
1. Pertumbuhan yang cepat dalam pertumbuhan data.
2. Penyimpanan data dalam data warehouse, sehingga seluruh perusahaan
memiliki akses ke dalam database yang handal.
3. Adanya peningkatan akses data melalui navigasi web dan internet.
4. Perkembangan teknologi perangkat lunak untuk data mining (ketersediaan
teknologi).
5. Perkembangan yang hebat dalam kemampuan komputasi dan pengembangan
kapasitas media penyimpanan.
2.3.5 Pengelompokan teknik data mining
Menurut Baskoro,dkk (2013:43) data mining dibagi menjadi beberapa
kelompok berdasarkan tugas yang dapat dilakukan, yaitu:
1. Classification
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang
telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru
18
dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan
menggunakan hasilnya untuk memberikan sejumlah aturan.
2. Association
Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau
proses dimana hubungan asosiasi muncul pada setiap kejadian.
3. Clustering
Digunakan untuk menganalisis pengelompokkan berbeda terhadap data, mirip
dengan klasifikasi, namun pengelompokkan belum didefinisikan sebelum
dijalankannya tool data mining.
4. Forecasting
Teknik forecasting sebagai input kemudian akan mengambil sederetan angka
yang menunjukkan nilai yang berjalan seiring waktu dan kemudian Teknik
forecasting ini akan menghubungkan nilai masa depan dengan menggunakan
bermacam-macam teknik machine learning dan teknik statistik yang
berhubungan dengan musim, trend, dan noise pada data.
5. Prediction
Prediction (prediksi), untuk memperkirakan nilai masa mendatang, misalnya
memprediksi stok barang satu tahun ke depan.
2.4 K-means
2.4.1 Pengertian k-means
K-means merupakan algoritma klasterisasi yang paling tua dan paling
banyak digunakan dalam berbagai aplikasi kecil hingga menengah karena
19
kemudahan implementasinya. Menurut Suyanto (2017:262) Algoritma k-means
bekerja dengan empat langkah, yaitu :
1. Himpunan data yang akan diklasterisasi, dipilih sejumlah k objek secara acak
sebagai centroid awal.
2. Setiap objek yang bukan centroid dimasukkan ke cluster terdekat berdasarkan
ukuran jarak tertentu.
3. Setiap centroid diperbarui berdasarkan rata-rata dari objek yang ada di dalam
setiap cluster.
4. Langkah kedua dan ketiga dilakukan secara diulang-ulang (diiterasi) sampai
semua centroid stabil dalam arti semua centroid yang dihasilkan dalam iterasi
saat ini sama dengan semua centroid yang dihasilkan pada iterasi sebelumnya.
Berikut ini adalah langkah-langkah algoritma k-means :
1. Penentuan cluster awal
Dalam menentukan n buah pusat cluster awal dilakukan pembangkitan
bilangan random yang merepresentasikan urutan data input. Pusat awal cluster
didapatkan dari data sendiri bukan dengan menentukan titik baru, yaitu dengan
random pusat awal dari data.
2. Perhitungan jarak dengan pusat cluster
Untuk mengukur jarak antar data dengan pusat dengan cluster digunakan
euclidian distance, algoritma perhitungan jarak data dengan pusat cluster :
a. Pilih nilai data dan nilai pusat cluster
b. Hitung euclidian distance data dengan tiap pusat cluster
𝑑(𝑥𝑖 , 𝜇𝑗) = √(𝑥𝑖 − 𝜇𝑗) 2 …..(1)
20
Penjelasan :
xi : Data kriteria
µi : Centroid pada cluster ke j
3. Pengelompokan data
Jarak hasil perhitungan akan dilakukan perbandingan dan dipilih jarak terdekat
antara data dengan pusat cluster, jarak ini menunjukan bahwa data tersebut
berada dalam satu kelompok dengan pusat cluster terdekat.
Adapun cara pengelompokan data tersebut adalah :
a. Pilih nilai jarak tiap pusat cluster dengan data.
b. Cari nilai jarak terkecil.
c. Kelompokkan data dengan pusat cluster yang memiliki jarak terkecil.
4. Penentuan pusat cluster baru
Untuk mendapatkan pusat cluster baru bisa dihitung dari rata-rata nilai anggota
cluster dan pusat cluster. Pusat cluster yang baru digunakan untuk melakukan
iterasi selanjutnya, jika hasil yang didapatkan belum konvergen. Proses iterasi
akan berhenti jika telah memenuhi maksimum iterasi yang dimasukkan oleh
user atau hasil yang dicapai sudah konvergen (pusat cluster baru sama dengan
pusat cluster lama).
Algoritma penentuan pusat cluster :
a. Cari jumlah anggota tiap cluster
b. Hitung pusat baru dengan rumus
𝜇𝑗 (𝑡 + 1) =1
𝑁𝑠𝑗∑ 𝑗 𝜖 𝑆𝑗 𝑥𝑗 … … (2)
21
Penjelasan :
µj (t+1) : Centroid baru pada iterasi ke 1
Nsj : Banyak data pada cluster sj
Hasil dari operasi clustering yang terbentuk selanjutnya akan di evaluasi
menggunakan Davies bouldin index yang dihitung dengan persamaan :
𝐷𝐵𝐼 =1
𝐾∑ 𝑅𝑖
𝑘
𝑖=1
𝑅𝑖 = max 𝑅𝑖𝑗 j=1…k,i≠j
𝑅 𝑖𝑗𝑖≠𝑗
=var(𝐶𝑖) + var(C𝑗)
||𝑐𝑖 − 𝑐𝑗||
Dimana:
Cᵢ = Cluster i dan cluster ci adalah centroid dari cluster i
2.4.2 Keuntungan dan kekurangan k-means
Sebagai fungsi penambangan data, analisis cluster dapat digunakan
sebagai alat yang berdiri sendiri untuk memperoleh wawasan ke dalam distribusi
data. Adapun keuntungan lain dari metode ini (Han,dkk , 2012:445) antara lain :
1. K-means juga disebut segmentasi data di beberapa aplikasi karena
pengelompokan mempartisi set data besar ke dalam grup sesuai dengan
kemiripannya.
2. K-means bisa juga digunakan untuk deteksi outlier (nilai yang "jauh" dari mana
pun cluster).
3. K-means mempartisi sekumpulan objek data (atau pengamatan) ke dalam
himpunan bagian, sehingga banyak digunakan dalam banyak aplikasi seperti
22
intelijen bisnis, pengenalan pola gambar, pencarian web, biologi, dan
keamanan.
Selain itu, metode clustering memiliki beberapa kekurangan (Suyanto,
2017:262) antara lain :
1. K-means tidak dapat menjamin konvergen pada optimum global.
2. K-means sering terjebak pada optimum lokal, dimana centroid akhir yang
dihasilkan tidak benar-benar menjadi pusat cluster yang sesungguhnya.
3. Keluaran dari k-means bergantung pada centroid awal yang ditentukan secara
acak.
2.5 Rapidminer
Menurut Baskoro,dkk (2013:8) Rapidminer merupakan perangkat lunak
yang bersifat terbuka (open source). Rapidminer adalah sebuah solusi untuk
melakukan analisis terhadap data mining, text mining dan analisis prediksi.
Rapidminer menggunakan berbagai teknik deskriptif dan prediksi dalam
memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang
paling baik.
Rapidminer memiliki beberapa sifat sebagai berikut:
1. Ditulis dengan bahasa pemrograman java sehingga dapat dijalankan di
berbagai sistem operasi.
2. Proses penemuan pengetahuan dimodelkan sebagai operator trees.
3. Representasi XML internal untuk memastikan format standar pertukaran data.
4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi
eksperimen.
23
5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin
penanganan data.
6. Memiliki GUI, command line mode, dan java API yang dapat dipanggil dari
program lain.
24
BAB III
METODOLOGI PENELITIAN
3.1 Tahap penelitian
Dalam tahapan ini akan membahas tentang penelitian yang dilakukan
dengan dataset yang sudah di dapatkan yaitu :
1. Tahap pencarian data. Pada tahap ini dilakukan pencarian terhadap dataset
angka garis kemiskinan di Indonesia yang di didapatkan melalui website
https://www.bps.go.id/dynamictable/2016/01/18/1120/garis-kemiskinan-
menurut-provinsi-2013---2017.html.
2. Tahap analisa. Pada tahap ini dilakukan analisa tentang algoritma yang cocok
digunakan untuk dataset yang ada yaitu k-means.
3. Tahap implementasi. Pada tahap ini dilakukan pengujian terhadap dataset yang
didapat dengan algortima k-means dengan cara menghitung centroid pada
setiap satuan data.
4. Tahap dokumentasi. Pada tahap ini semua hasil hitung dilampirkan kedalam
laporan serta grafik yang dihasilkan ditampilkan sebagai representasi tiap data.
3.1.1 Gambaran penelitian
Gambar 3. 1 Gambaran penelitian
25
Proses pertama yaitu pencarian data mentah berupa dataset angka garis
kemiskinan yang berekstensi .xlsx yang merupakan representasi dari data. Proses
kedua yaitu pembersihan data untuk mengambil data yang akan digunakan. Dalam
penelitian ini data dari tahun 2013 hingga 2017 dilakukan pembersihan data yang
tidak bagus dengan cara replace missing value. Proses ketiga yaitu data yang
sudah bisa digunakan untuk penelitian. Proses keempat yaitu k-means clustering
yaitu mengelompokan data menjadi tiga kelompok yaitu sangat rendah, rendah
dan cukup.
3.2 Data
Data yang digunakan untuk penelitian adalah data angka garis kemiskinan
yang diperoleh secara online melalui website
https://www.bps.go.id/dynamictable/2016/01/18/1120/garis-kemiskinan-menurut-
provinsi-2013---2017.html sebanyak 34 data sesuai dengan jumlah provinsi yang
ada di Indonesia. Data yang digunakan yaitu data yang terkumpul selama tahun
2013 sampai 2017 yang berekstensi .xlsx.
3.3 Preprocessing data
Sebelum mengolah data, perlu dilakukan proses preprocessing data untuk
memudahkan penggalian informasi dari hasil penambangan data. Prepocessing
data yang digunakan adalah data cleaning.
3.3.1 Data cleaning
Dalam tahap ini, akan dilakukan penggantian nilai yang hilang (replace
missing value). Terdapat dua dataset yang tidak lengkap yaitu data perdesaan di
DKI Jakarta dan Kalimantan Utara pada daerah perdesaan dan perkotaan. Dalam
26
kedua data tersebut tidak ada nilai pendapatan rupiah/kapita/bulan. Pada data DKI
Jakarta tahun 2013 semester 1 sampai tahun 2017 tidak terdapat angka pada
daerah perdesaan selama lima tahun tersebut. Sedangkan tidak terdapat data di
daerah Kalimantan Utara pada tahun 2014 baik di perkotaan maupun perdesaan.
Penggantian nilai yang hilang dari ketiga data tersebut memberikan hasil
baru pada data penelitian. Penggantian tersebut menggunakan nilai maksimal dari
data yang ada pada tiap provinsi kemudian memasukan nilai maksimal tersebut
pada atribut yang hilang.
Proses penggantian data yang hilang menggunakan tool rapidminer
dengan cara memasukan file dataset penelitian lalu mengabungkan dengan
operator Replace missing value kemudian melakukan run sehingga didapatkan
dataset yang dibutuhkan.
Gambar 3. 2 Implementasi data pada rapidminer
27
Gambar 3. 3 Penggantian data yang hilang pada data
perdesaan DKI Jakarta
Gambar 3. 4 Penggantian data yang hilang pada data
perdesaan Kalimantan Utara
28
Gambar 3. 5 Penggantian data yang hilang pada data
perkotaan Kalimantan Utara
29
BAB IV
HASIL DAN PEMBAHASAN
4.1 Proses clustering
Pada tahap ini akan dilakukan proses utama yaitu segmentasi atau
pengelompokan data angka garis kemiskinan. Berikut ini merupakan penerapan
algoritma k-means dengan asumsi bahwa parameter input adalah jumlah dataset
sebanyak n data dan jumlah inisialisasi centroid k = 3 sesuai dengan penelitian.
Data yang diambil untuk penelitian berjumlah 34 untuk dijadikan contoh
penerapan algoritma k-means. Percobaan dilakukan dengan menggunakan
parameter-parameter berikut :
Jumlah cluster : 3
Jumlah data : 34
Jumlah atribut : 2
4.2 Pengujian rapidminer
Pada penelitian ini penulis menggunakan tool rapidminer sebagai alat
pengujian dataset. Adapun tahapan pengujian yang dilakukan yaitu sebagai
berikut :
30
Gambar 4. 1 Design process
Pada tahapan ini dilakukan 8 proses yaitu :
a. Read excel
Tahapan ini dilakukan operasi penginputan dataset berupa file berekstensi .xls
angka garis kemiskinan di Indonesia.
b. Replace missing value
Tahapan ini dilakukan operasi pengisian nilai yang hilang dengan nilai
maksimal.
c. Select attributes
Tahapan ini dilakukan operasi pemilihan atribut yang akan dihitung yaitu data
perdesaan dan data perkotaan pada bulan September 2017.
d. Normalize
Tahapan ini dilakukan operasi normalisasi data menggunakan metode z score
dihasilkan nilai-nilai yang sudah distandarkan.
31
e. Clustering
Tahapan ini dilakukan operasi clustering sebagai algortima yang digunakan
pada penelitian ini.
f. Performance
Tahapan ini dilakukan operasi pencarian nilai davies bouldin index.
g. Sort
Tahapan ini dilakukan operasi pengurutan anggota cluster 0 sampai dengan
cluster 2.
h. Discretize
Tahapan ini dilakukan operasi mengubah atribut numerik yang dipilih menjadi
atribut nominal dengan mendiskritasikan atribut numerik.
Gambar 4. 2 Example set result
32
Pada tahapan ini ditampilkan hasil dari klasterisasi data. Label cluster
terbagi menjadi tiga kelompok yaitu cluster 0, cluster 1, cluster 2. Pembagian ini
berdasarkan hasil kedekatan tiap masing-masing data dengan jarak terdekat (k).
Gambar 4. 3 Cluster model
Pada tahapan ini ditampilkan hasil pembagian data terhadap tiap cluster.
Cluster 0 memiliki 17 anggota, Cluster 1 memiliki 6 anggota, Cluster 2 memiliki
11 anggota dari total 34 dataset yang di uji.
33
Gambar 4. 4 Centroid table
Pada tahapan ini ditampilkan nilai titik pusat pada tiap cluster. Nilai
tersebut menjadikan acuan perhitungan pada tiap-tiap dataset dengan cara
mengukur kedekatan nilai dengan masing-masing titik pusat cluster.
Gambar 4. 5 Anggota cluster 0
34
Gambar 4. 6 Anggota cluster 1
Gambar 4. 7 Anggota cluster 2
35
Gambar 4. 8 Example set statistic
Pada tahapan ini ditampilkan hasil statistik dari data yang sudah di uji.
Pada tabel K dan U terdapat 3 atribut yaitu min sebagai nilai terendah pada tabel
dataset, max sebagai nilai tertinggi pada tabel dataset dan average sebagai nilai
rata-rata dari penjumlahan tabel dataset tersebut.
Gambar 4. 9 Graph result
36
Pada tahapan ini ditampilkan hasil pembagian dari tiga kelompok berupa
lingkaran. Ukuran tiap lingkaran mendeskripsikan jumlah banyaknya anggota tiap
cluster.
Gambar 4. 10 Plot result
Pada tahapan ini ditampilkan hasil plot dari hasil pengujian. Pada bagian
sebelah kiri menunjukan angka pedapatan dan bagian sebelah kanan ditampilkan
garis sebagai gambaran rataan nilai anggota.
37
Gambar 4. 11 Chart clustering
Pada tahapan ini ditampilkan hasil pengelompokan data dalam bentuk
grafik titik dengan warna. Warna biru mengartikan cluster 0, warna hijau
mengartikan cluster 1 dan warna merah mengartikan cluster 2.
Gambar 4. 12 Perfomance vector
4.3 Pembahasan hasil clustering k-means
Setelah dilakukan pengujian dengan tool rapidminer, maka didapatkan
kesimpulan sebagai berikut :
38
Tabel 4. 1 Dataset penelitian pendapatan/kapita/bulan dalam satuan rupiah
PROVINSI
2017
PERKOTAAN PERDESAAN
Aceh 479872 442869
Sumatera Utara 438894 407157
Sumatera Barat 475365 441415
Riau 474626 457368
Jambi 465233 366036
Sumatera Selatan 417828 356020
Bengkulu 490475 449857
Lampung 427072 377049
Kep. Bangka Belitung 595031 623111
Kep. Riau 540062 507795
DKI Jakarta 578247 623111
Jawa Barat 354866 353103
Jawa Tengah 339692 337657
DI Yogyakarta 413631 352861
Jawa Timur 372585 347997
Banten 421137 373039
Bali 371118 350826
Nusa Tenggara Barat 363697 343387
Nusa Tenggara Timur 409382 329136
Kalimantan Barat 401588 394313
Kalimantan Tengah 378311 418861
Kalimantan Selatan 434791 407382
Kalimantan Timur 564801 554497
Kalimantan Utara 595802 554548
Sulawesi Utara 331931 340146
Sulawesi Tengah 430728 400639
Sulawesi Selatan 303834 287788
Sulawesi Tenggara 308624 295456
Gorontalo 312931 304353
Sulawesi Barat 318376 315137
Maluku 461552 443565
Maluku Utara 413797 390914
Papua Barat 523381 499086
Papua 508403 446994
Sumber: Badan Pusat Statistik
39
Tabel 4. 2 Dataset yang telah distandarkan z score
PROVINSI
2017
PERKOTAAN PERDESAAN
Aceh 0,563 0,394
Sumatera Utara 0,072 -0,017
Sumatera Barat 0,509 0,377
Riau 0,500 0,560
Jambi 0,387 -0,490
Sumatera Selatan -0,180 -0,605
Bengkulu 0,690 0,474
Lampung -0,069 -0,363
Kep. Bangka Belitung 1,942 2,466
Kep. Riau 1,283 1,140
DKI Jakarta 1,741 2,466
Jawa Barat -0,934 -0,638
Jawa Tengah -1,116 -0,816
DI Yogyakarta -0,230 -0,641
Jawa Timur -0,722 -0,697
Banten -0,141 -0,409
Bali -0,739 -0,665
Nusa Tenggara Barat -0,282 -0,750
Nusa Tenggara Timur -0,281 -0,914
Kalimantan Barat -0,375 -0,165
Kalimantan Tengah -0,653 0,118
Kalimantan Selatan 0,023 -0,014
Kalimantan Timur 1,580 1,677
Kalimantan Utara 1,951 1,678
Sulawesi Utara -1,209 -0,787
Sulawesi Tengah -0,026 -0,092
Sulawesi Selatan -1,545 -1,389
Sulawesi Tenggara -1,436 -1,301
Gorontalo -1,436 -1,199
Sulawesi Barat -1,371 -1,075
Maluku 0,343 0,402
Maluku Utara -0,228 -0,204
Papua Barat 1,084 1,040
Papua 0,904 0,441
Kemudian dilakukan operasi clustering untuk mendapatkan nilai
klasterisasi data berdasarkan tiap kelompoknya.
40
Tabel 4. 3 Anggota cluster 0
No Provinsi Perkotaan Perdesaan Cluster
1 Aceh 479872 442869 0
2 Sumatera Utara 438894 407157 0
3 Sumatera Barat 475365 441415 0
4 Riau 474626 457368 0
5 Jambi 465233 366036 0
6 Sumatera Selatan 417828 356020 0
7 Bengkulu 490475 449857 0
8 Lampung 427072 377049 0
9 DI Yogyakarta 413631 352861 0
10 Banten 421137 373039 0
11 Kalimantan Barat 401588 394313 0
12 Kalimantan Tengah 378311 418861 0
13 Kalimantan Selatan 434791 407382 0
14 Sulawesi Tengah 430728 400639 0
15 Maluku 461552 443565 0
16 Maluku Utara 413797 390914 0
17 Papua 508403 446994 0
Tabel 4. 4 Anggota cluster 1
No Provinsi Perkotaan Perdesaan Cluster
1 Kep. Bangka Belitung 595031 623111 1
2 Kep. Riau 540062 507795 1
3 DKI Jakarta 578247 623111 1
4 Kalimantan Timur 564801 554497 1
5 Kalimantan Utara 595802 554548 1
6 Papua Barat 523381 499086 1
41
Tabel 4. 5 Anggota cluster 2
No Provinsi Perkotaan Perdesaan Cluster
1 Jawa Barat 354866 353103 2
2 Jawa Tengah 339692 337657 2
3 Jawa Timur 372585 347997 2
4 Bali 371118 350826 2
5 Nusa Tenggara Barat 363697 343387 2
6 Nusa Tenggara Timur 409382 329136 2
7 Sulawesi Selatan 303834 287788 2
8 Sulawesi Tenggara 308624 295496 2
9 Gorontalo 312931 304353 2
10 Sulawesi Barat 318376 315137 2
11 Sulawesi Utara 331931 340146 2
Gambar 4. 13 Grafik titik hasil clustering
42
Tanda panah biru adalah data pada provinsi Nusa Tenggara Timur yang
memiliki kedekatan jarak secara sekilas dekat dengan cluster 0 yang diartikan
dengan titik berwarna biru. Peneliti berpendapat bahwa data tersebut tidak dapat
bergabung dengan cluster 0 dikarenakan nilai z score menunjukan hasil yang lebih
dekat dengan titik pusat cluster 2 sehingga data tersebut dinyatakan sebagai
anggota cluster 2.
Selanjutnya dibuat himpunan dan domain untuk masing-masing variabel
untuk memudahkan mendeskripsikan tiap provinsi :
Tabel 4. 6 Deskripsi (linguistik) dan domain nilai tiap atribut
Attribute Deskripsi Domain nilai
Cluster 0
Perkotaan 413714 – 515892
Perdesaan 369537 – 478227
Cluster 1 Perkotaan 515892 - ∞
Perdesaan 478227 - ∞
Cluster 2 Perkotaan ∞ - 413714
Perdesaan ∞ - 369537
Gambar 4. 14 Discretize data
43
Setelah cluster terbentuk, maka dapat diperoleh kesimpulan sebagai
berikut:
Tabel 4. 7 Deskripsi data berdasarkan dengan cluster
Cluster Deskripsi
0 Anggota cluster dengan rataan penghasilan rendah
1 Anggota cluster dengan rataan penghasilan cukup
2 Anggota cluster dengan rataan penghasilan sangat rendah
Setelah proses clustering selesai selanjutnya dilakukan operasi
performance untuk mengetahui nilai dari Davies bouldin index yang bertujuan
untuk memaksimalkan pengukuran jarak antar cluster dan meminimalkan jarak
antar anggota dalam suatu cluster .
Gambar 4. 15 Perfomace vector
Hasil yang diperoleh dari operasi performance vector adalah sebagai
berikut:
44
Tabel 4. 8 Hasil operasi perfomance vector
Perfomance Vector Value
Avg. within centroid distance 0.151
Avg. within centroid distance cluster 0 0.161
Avg. within centroid distance cluster 1 0.212
Avg. within centroid distance cluster 2 0.104
Davies Bouldin 0.288
Evaluasi hasil dari average within centroid distance mendekati angka 0
mengartikan bahwa masing-masing anggota didalam cluster berada dalam jarak
yang berdekatan. Evaluasi menggunakan davies bouldin index memiliki skema
internal cluster yang dilihat dari kuantitas dan kedekatan antar hasil cluster.
Semakin kecil nilai davies bouldin index yang diperoleh (non-negatif >= 0), maka
semakin baik cluster yang diperoleh dari pengelompokan menggunakan metode
clustering. Hasil perhitungan menggunakan algoritma k-means menunjukan nilai
0,288. Angka tersebut memiliki arti masing-masing objek dalam cluster tersebut
memiliki kesamaan yang cukup baik karena mendekati angka 0.
45
BAB V
PENUTUP
5.1 Kesimpulan
Berdasarkan hasil penelitian yang dilakukan oleh penulis, dapat diambil
kesimpulan sebagai berikut:
1. Penerapan algortima k-means membagi dataset menjadi tiga kelompok yaitu
sangat rendah, rendah dan cukup sesuai dengan kemiripan tingkat
pendapatan/kapita/bulan.
2. Hasil pengujian mendapatkan nilai davies bouldin index sebesar 0,288 yang
memiliki arti kesamaan antar anggota cluster yang cukup baik.
5.2 Saran
Mengingat masih banyaknya hal-hal yang belum dapat diimplemetasikan
dari penelitian ini, maka penulis mempertimbangkan beberapa saran yaitu :
1. Hasil clustering yang terbentuk dapat dikembangkan menjadi basis
pengetahuan untuk sistem pendukung keputusan pemetaan provinsi dengan
rataan pendapatan tiap daerah sesuai dengan kemiripannya.
2. Melakukan kombinasi dengan metode atau pendekatan yang lain guna
mendapatkan hasil penelitian yang lebih baik.
46
DAFTAR PUSTAKA
Aprilla, D., Ambarwati, L., Baskoro, D. A., Wicaksana, I. W. S. 2013. Belajar
Data Mining dengan RapidMiner. Jakarta: Open Content Model
Aziz, A., Purmaningsih, C., Saptono, R. 2014. Pemanfaatan Metode K-means
Clustering Dalam Penentuan Penjurursan Siswa SMA. Jurnal ITSMART. Vol
3 (1): 27-33
Hamzah, A., Syechalad, M. N., Takdir, A. 2013. Analisis Kemiskinan Rumah
Tangga Berdasarkan Karakteristik Sosial Ekonomi Di Kabupaten Aceh Barat
Daya. Vol. 1. Page 67-75
Han, J., Kamber, M., Pei, J. 2012. Data Mining Concepts and Techniques.
Waltham: Elsevier.
Jumadi, B.D.S. 2018. Peningkatan Hasil Evaluasi Clustering Davies Bouldin
Index Dengan Penentuan Titik Pusat Cluster Awal Algoritma K-means
[skripsi]. Medan. Universitas Sumatera Utara
Muhidin ,A. 2017. Analisa Metode Hierarchical dan K-means Dengan Model
LRFMP Pada Segmentasi Pelanggan. SIGMA. Vol 7 (1): 81-88
Munir, R. 2012. Matematika Diskrit. Bandung: Informatika
Murti, M.A.W.K. 2017. Penerapan Metode K-means Clustering Untuk
Mengelompokan Potensi Produksi Buah-buahan Di Provinsi Daerah Istimewa
Yogyakarta [skripsi]. Yogyakarta. Universitas Sanata Dharma
Rahayu, S., Nugrahadi, D.T., Indriani, F. 2014. Clustering Penentuan Potensi
Kejahatan Daerah Di Kota Banjarbaru Dengan Metode K-means. Kumpulan
Jurnal Ilmu Komputer. Vol 1 (1): 33-45
Stanton, J. 2013. Inroduction to Data Science. Syracuse: Syracuse University’s
School of Information Studies
47
Suyanto. 2017. Data Mining Untuk Klasifikasi dan Klasterisasi Data. Bandung:
Informatika
Vulandari, R. T. 2017. Data Mining Teori dan Aplikasi Rapidminer. Yogyakarta:
Gavamedia
48
LAMPIRAN
Lampiran 1. Tabel dataset penelitian
49
Lampiran 2. Tabel dataset daerah perkotaan
50
Lampiran 3. Tabel dataset daerah perdesaan