Download - a2.1100145 Wulan Handayani
-
8/16/2019 a2.1100145 Wulan Handayani
1/90
MODEL DATA MINING DALAM PENENTUAN KONDISI
PEREKONOMIAN PENDUDUK DI DESA MULYAJAYA
SKRIPSI
Oleh :
WULAN HANDAYANI
A2.1100145
PROGRAM STUDI TEKNIK INFORMATIKA
PROGRAM STRATA SATU (S1)
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
(STMIK) SUMEDANG
2015
-
8/16/2019 a2.1100145 Wulan Handayani
2/90
MODEL DATA MINING DALAM PENENTUAN KONDISI
PEREKONOMIAN PENDUDUK DI DESA MULYAJAYA
SKRIPSI
Diajukan Sebagai Satu Syarat Untuk Menyelesaikan
Program Strata Satu (S1) Teknik Informatika
Oleh :
WULAN HANDAYANI
A2.1100145
PROGRAM STUDI TEKNIK INFORMATIKA
PROGRAM STRATA SATU (S1)
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
(STMIK) SUMEDANG
2015
-
8/16/2019 a2.1100145 Wulan Handayani
3/90
PERSETUJUAN SIDANG SKRIPSI
Nama : Wulan Handayani
NPM : A2.1100145
Peminatan : Database
Judul Skripsi : Model Data Mining dalam Penentuan Kondisi
Perekonomian Penduduk di Desa Mulyajaya
Telah disetujui untuk diuji pada siding akhir Skripsi Program Strata Satu
(S1) Program Studi Teknik Informatika STMIK Sumedang.
Pembimbing I Pembimbing II
Dody Herdiana, ST., M.Kom. Muhamad Nurdin A.M., M.Kom.
-
8/16/2019 a2.1100145 Wulan Handayani
4/90
PENGESAHAN SKRIPSI
Nama : Wulan Handayani
NPM : A2.1100145
Peminatan : Database
Judul Skripsi : Model Data Mining dalam Penentuan Kondisi
Perekonomian Penduduk di Desa Mulyajaya
Telah disidangkan dan dinyatakan lulus pada sidang akhir Skripsi
Program Strata Satu (S1) Teknik Informatika STMIK Sumedang pada
tanggal Juli 2015.
Penguji I Penguji II
Asep Saeppani, M.Kom. Yopi Hidayatul A., S.Kom., M.T.
Mengetahui,
Ketua Program Studi Teknik Informatika
Asep Saeppani, M.Kom.
-
8/16/2019 a2.1100145 Wulan Handayani
5/90
-
8/16/2019 a2.1100145 Wulan Handayani
6/90
ABSTRAK
Data mining penduduk merupakan data yang sangat penting bagiDesa Mulyajaya, karena semua kegiatan administrasi penduduk, datanyabersumber dari data penduduk. Banyaknya data penduduk, menjadi salahsatu kendala dalam pengambilan keputusan mengenai hal kesejahteraanpenduduk, maka dari itu perlu diimbangi dengan pengetahuan yangdihasilkan dari kumpulan data tersebut. Untuk itu, peneliti tertarik untukmengangkat tema penelitian menerapkan model data mining untukmenggali informasi tersembunyi dari kumpulan data penduduk.
Data mining merupakan proses menemukan pola antar data danhubungan keterkaitan antar data dari suatu data besar menjadipengetahuan. Informasi yang dihasilkan yaitu kondisi perekonomian
penduduk berupa kelompok keluarga miskin dan tidak miskin yang dapatdijadikan sebagai acuan pengambilan keputusan dimasa mendatang.Teknik yang digunakan yaitu teknik klasifikasi dengan metode decisiontrees menggunakan algoritma C4.5.
Tujuan penerapan model data mining ini adalah untuk menhasilkaninformasi tentang kondisi perekonomian penduduk berupa kelompokkeluarga miskin dan tidak miskin dengan menyeleksi variabel yang adamenjadi beberapa variabel sesuai dengan kebutuhan informasi, meliputipendidikan, pekerjaan, penghasilan, dinding, lantai dan fasilitas buang airbesar. Variabel yang terpilih akan melewati proses pembersihan data,transformasi data, dan data mining . Pada variabel terpilih kan dilakukanperhitungan entropy dan gain , hasil perhitungan akan direfresentasikandalam bentuk pohon keputusan. Hasil dari pohon keputusan yaitu berupaaturan dalam penentuan kelompok keluarga miskin dan tidak miskin.
Kata kunci : Data mining, Klasifikasi, Decision trees, Algoritma C4.5,Perekonomian penduduk.
-
8/16/2019 a2.1100145 Wulan Handayani
7/90
KATA PENGANTAR
Assalamu’alaikum Wr.Wb.
Puji dan syukur peneliti panjatkan kehadirat Allah SWT atas
Rahmat, Hidayah dan Karunia-Nya, sehingga peneliti dapat
menyelesaikan skripsi yang berjudul “MODEL DATA MINING DALAM
PENENTUAN KONDISI PEREKONOMIAN PENDUDUK DI DESA
MULYAJAYA”. Skripsi ini merupakan salah satu syarat untuk
menyelesaikan Program Studi Strata-1 (S1), pada jurusan Teknik
Informatika di Sekolah Tinggi Manajemen Informatika dan Komputer
(STMIK) Sumedang.
Pada proses pembuatan skripsi ini, banyak bantuan, dorongan dan
bimbingan dari berbagai pihak yang sangat berharga yang diberikan
kepada peneliti. Maka, dalam kesempatan ini peneliti ingin mengucapkan
terima kasih yang sebesar-besarnya kepada:
1. Kedua orang tua, bapak dan mamah yang senantiasa memberikan
do’a, motivasi, dukungan dan bantuannya, baik itu moril maupun
materiil kepada peneliti.
2. Bapak Dwi Yuniarto, S.Sos., M.Kom., selaku Ketua STMIK
Sumedang.
3. Bapak Asep Saeppani, M.Kom., selaku Ketua Jurusan Teknik
Informatika STMIK Sumedang.
-
8/16/2019 a2.1100145 Wulan Handayani
8/90
4. Bapak Dody Herdiana, ST., M.Kom., selaku Pembimbing I, yang telah
meluangkan waktunya untuk memberikan bimbingan, bantuan, arahan
serta saran kepada peneliti dalam penyusunan skripsi ini.
5. Bapak M. Nurdin, M.Kom., selaku Pembimbing II, yang telah
meluangkan waktunya untuk memberikan bimbingan, bantuan, arahan
serta saran kepada peneliti dalam penyusunan skripsi ini.
6. Seluruh Staf Pengajar STMIK Sumedang yang telah memberikan ilmu,
arahan serta masukan selama masa perkuliahan.
7. Seluruh staf Tata Usaha STMIK Sumedang yang telah memberikan
dukungan dan kerjasamanya.
8. Teman-teman seperjuangan, terutama kepada Tiara Febyanti R, Novia
Kemalasari, Fitri Wulandari dan Almira Kurniara yang selalu
memberikan motivasi, semangat dan senantiasa bertukar pikiran
dalam menyelesaikan skripsi ini.
9. Kakak saya Ujang Cahya yang senantiasa memberikan semangat.
10. Bapak Oma Suryana selaku Kepala Desa dan semua Staf Desa
Mulyajaya yang bersedia memberikan data penduduk sebagai objek
penelitian serta informasi yang berguna untuk kelancaran penelitian
skripsi.
11. Serta berbagai pihak lainnya yang tidak dapat disebutkan satu persatu
yang telah banyak memberikan bantuan dan saran sampai
terealisasikannya skripsi ini.
-
8/16/2019 a2.1100145 Wulan Handayani
9/90
Peneliti menyadari bahwa dalam penyusunan skripsi ini tidak lepas
dari kekurangan karena keterbatasan kemampuan sehingga diharapkan
saran dan masukkan yang ditujukan untuk menyempurnakan penyusunan
skripsi ini sangat peneliti harapkan.
Akhir kata peneliti mengucapkan terima kasih, semoga skripsi ini
dapat bermanfaat dan semoga Allah SWT memberikan hikmah yang
berlimpah kepada kita semua. Amin.
Wassalamu’alaikum Wr. Wb.
Sumedang, Juni 2015
Peneliti
-
8/16/2019 a2.1100145 Wulan Handayani
10/90
DAFTAR ISI
HALAMAN JUDUL ................................................................................. i
HALAMAN PERSETUJUAN .................................................................. ii
HALAMAN PENGESAHAN .................................................................... iii
ORISINILITAS SKRIPSI ........................................................................ iv
ABSTRAK .............................................................................................. v
KATA PENGANTAR .............................................................................. vi
DAFTAR ISI ........................................................................................... ix
DAFTAR TABEL .................................................................................... xii
DAFTAR GAMBAR ................................................................................ xiv
DAFTAR RUMUS .................................................................................. xv
DAFTAR LAMPIRAN ............................................................................. xvi
BAB I PENDAHULUAN
1.1 Latar Belakang ................................................................................ 1
1.2 Perumusan Masalah ........................................................................ 6
1.3 Tujuan Penelitian ............................................................................. 6
1.4 Pembentukan Model ........................................................................ 7
1.5 Kontribusi Penelitian ........................................................................ 8
-
8/16/2019 a2.1100145 Wulan Handayani
11/90
1.6 Sistematika Penulisan ..................................................................... 9
1.7 Kegunaan Model .............................................................................. 11
BAB II TINJAUAN PUSTAKA DAN KERANGKA PEMIKIRAN
2.1 Model Data Mining dalam Penentuan Kondisi Perekonomian
Penduduk di Desa Mulyajaya .......................................................... 12
2.1.1 Basis Data ............................................................................... 12
2.1.2 Data Mining ............................................................................. 15
2.1.3 Kondisi Perekonomian Penduduk ........................................... 22
2.2 Spesifikasi yang Berhubungan dengan Model yang Sudah Ada
dalam Bidang Masalah yang Akan Diteliti........................................ 24
2.3 Kerangka Pemikiran ........................................................................ 29
BAB III METODOLOGI PENGEMBANGAN MODEL
3.1 Objek Penelitian .............................................................................. 31
3.2 Metodologi Pengembangan Model Secara Skematik ...................... 32
3.3 Uraian Rinci Metodologi Pengembangan Model .............................. 32
3.4 Langkah-Langkah Pengembangan Model ....................................... 35
3.5 Rencana Validasi Model .................................................................. 38
3.6 Jadwal Penelitian ............................................................................. 38
BAB IV PENGEMBANGAN MODEL
4.1 Pendefinisian Sistem ....................................................................... 39
4.1.1 Aspek Struktur ......................................................................... 40
4.1.2 Perlaku Sistem ........................................................................ 40
4.1.3 Performansi Sistem ................................................................. 42
-
8/16/2019 a2.1100145 Wulan Handayani
12/90
4.1.4 Lingkungan Sistem .................................................................. 42
4.2 Formulasi Model Yang Dikembangkan ............................................ 43
4.2.1 Formulasi Database yang sedang Berjalan ............................ 43
4.2.2 Formulasi Sistem yang Diusulkan ........................................... 44
4.2.3 Formulasi Pre-processing ....................................................... 47
4.2.4 Formulasi Transformasi .......................................................... 48
4.2.5 Formulasi Data Mining ............................................................ 48
4.2.6 Formulasi Klasifikasi ............................................................... 49
4.2.7 Formulasi Pohon Keputusan ................................................... 50
4.2.8 Formulasi Aturan (IF-THEN ) ................................................... 54
4.3 Analisis Model ................................................................................. 54
4.4 Validasi Model ................................................................................. 65
BAB V KESIMPULAN DAN SARAN
5.1 Kesimpulan ...................................................................................... 66
5.2 Saran ............................................................................................... 66
DAFTAR PUSTAKA
LAMPIRAN - LAMPIRAN
-
8/16/2019 a2.1100145 Wulan Handayani
13/90
DAFTAR TABEL
Tabel 3.1 Jadwal Penelitian ..................................................................... 38
Tabel 4.1 Struktur Data Tabel Data KK .................................................... 44
Tabel 4.2 Struktur Data Tabel Data Kondisi Fisik Rumah ........................ 45
Tabel 4.3 Struktur Data Tabel Kualitas Penduduk ................................... 45
Tabel 4.4 Struktur Data Tabel Kesejahteraan Penduduk ......................... 45
Tabel 4.5 Format Tabel Setelah Pemilihan Variabel ................................ 47
Tabel 4.6 Klasifikasi Pendidikan .............................................................. 49
Tabel 4.7 Klasifikasi Pendidikan ............................................................. 49
Tabel 4.8 Klasifikasi Penghasilan ............................................................ 49
Tabel 4.9 Format Data Klasifikasi ............................................................ 50
Tabel 4.10 Data Sampel .......................................................................... 50
Tabel 4.11 Skema Tabel Perhitungan Entropy dan Gain ........................ 51
Tabel 4.12 Database Penduduk Yang Sedang Berjalan .......................... 54
Tabel 4.13 Tabel Penduduk Sebelum Diseleksi ...................................... 55
Tabel 4.14 Tabel Kesejahteraan Keluarga Sebelum Seleksi .................. 56
-
8/16/2019 a2.1100145 Wulan Handayani
14/90
Tabel 4.15 Tabel Kondisi Fisik Rumah Sebelum Seleksi ......................... 56
Tabel 4.16 Tabel Kualitas Keluarga Sebelum Seleksi ............................ 57
Tabel 4.17 Proses Penggabungan Tabel ................................................. 58
Tabel 4.18 Data Hasil Seleksi .................................................................. 58
Tabel 4.19 Hasil Transformasi ................................................................. 60
Tabel 4.20 Tabel Hasil Proses Klasifikasi ................................................ 60
Tabel 4.21 Hasil Perhitungan ................................................................... 61
Tabel 4.22 Tabel Hasil Pengujian ............................................................ 64
-
8/16/2019 a2.1100145 Wulan Handayani
15/90
DAFTAR GAMBAR
Gambar 3.1 Proses Pengembangan Model Secara Skematik ................. 32
Gambar 4.1 Aspek Struktur Model Data Mining Penentuan Kondisi
Perekonomian Penduduk ...................................................... 40
Gambar 4.2 Skema Database Yang Sedang Berjalan ............................. 43
Gambar 4.3 Skema Database Baru ......................................................... 48
Gambar 4.4 Skema Pohon Keputusan (Decision Tree ) ........................... 53
Gambar 4.5 Pohon Keputusan Yang Dihasilkan ...................................... 62
-
8/16/2019 a2.1100145 Wulan Handayani
16/90
DAFTAR RUMUS
Rumus 2.1 Menghitung Gain ................................................................. 21
Rumus 2.1 Menghitung Entropy ............................................................ 21
-
8/16/2019 a2.1100145 Wulan Handayani
17/90
DAFTAR LAMPIRAN
Lampiran 1 Riwayat Hidup
Lampiran 2 Kartu Bimbingan
Lampiran 3 Surat Keputusan
Lampiran 4 Surat Izin Penelitian
Lampiran 5 Data Rekaptulasi Penduduk
Lampiran 6 Hasil Wawancara
-
8/16/2019 a2.1100145 Wulan Handayani
18/90
BAB I
PENDAHULUAN
1.1 Latar Belakang
Berdasarkan Peraturan Pemerintah Republik Indonesia Nomor 72
Tahun 2005 tentang Desa. Pemerintahan Desa adalah penyelenggaraan
urusan pemerintahan oleh Pemerintah Desa dan Badan
Permusyawaratan Desa dalam mengatur dan mengurus kepentingan
masyarakat setempat berdasarkan asal-usul dan adat istiadat setempat
yang diakui dan dihormati dalam sistem Pemerintahan Negara Kesatuan
Republik Indonesia. Pembentukan desa dimaksudkan untuk
meningkatkan pelayanan publik guna mempercepat terwujudnya
kesejahteraan masyarakat.
Menurut Undang-Undang Republik Indonesia Nomor 11 Tahun 2011
tentang Kesejahteraan Sosial, Pasal 1 Ayat 1adalah:
“Kesejahteraan Sosial adalah kondisi terpenuhinya kebutuhanmaterial, spiritual, dan sosial warga negara agar dapat hidup layakdan mampu mengembangkan diri, sehingga dapat melaksanakanfungsi sosialnya”.
Salah satu ciri ilmu kesejahteraan sosial adalah upaya
pengembangan metodologi untuk menangani berbagai macam masalah
sosial, baik tingkat individu, kelompok, keluarga maupun masyarakat ( Adi,
1994: 3-5). Sesuai Undang-Undang Republik Indonesia Nomor 11 Tahun
2011 tentang Kesejahteraan Sosial, Pasal 1 Ayat 1, maka Pemerintah
-
8/16/2019 a2.1100145 Wulan Handayani
19/90
Kabupaten Sumedang, telah melaksanakan berdasarakan ketentuan-
ketentuan pokok kesejahteraan sosial masyarakat.
Begitu halnya dengan Desa Mulyajaya Kecamatan Wado, yang
merupakan bagian wilayah Kabupaten Sumedang. Dengan jumlah ± 810
kepala keluarga dengan jumlah RT 21 dan RW 6, mata pencaharian
penduduk sebagian besar petani dan buruh dengan latar belakang
pendidikannya tamatan Sekolah Dasar dan Sekolah Menengah Pertama.
Hal ini berpengaruh pada pendapatan perkapita masyarakat Desa
Mulyajaya yang masih rendah, minimnya pendapatan dan rendahnya
pendidikan merupakan kendala cukup pital dikalangan masyarakat.
Banyaknya masyarakat Desa Mulyajaya yang belum bisa meningkatkan
taraf perekonomian yang dapat berdampak terhadap kondisi ekonomi
masyarakat desa menjadi kendala bagi Pemerintah Desa dalam hal
kesejahteraan penduduk desa.
Bedasarkan paparan kendala Desa Mulyajaya dalam hal
kesejahteraan penduduk, Desa Mulyajaya itu sendiri mengalami kesulitan
dalam mendapatkan informasi penduduk miskin dan tidak miskin yang
masih belum jelas, dan juga sering terjadinya faktor subjektif karena
pengambil keputusan diberikan kepada setiap RW, data penduduk miskin
dan tidak miskin tersebut nantinya akan dijadikan bahan untuk
pengambilan keputusan mengenai penduduk yang mendapat bantuan
apabila pemerintah mengeluarkan bantuan sosial bagi penduduk. Kendala
yang dihadapi oleh Pemerintah Desa Mulyajaya, secara umum merupakan
-
8/16/2019 a2.1100145 Wulan Handayani
20/90
kendala di wilayah lainnya yang ada di Kabupaten Sumedang. Hal ini,
disebabkan karena pengolahan data dari beberapa sumber data
kependudukan dan data hasil survey kelapangan untuk dijadikan bahan
dalam pengambilan keputusan belum dikelola secara maksimal.
Pengolahan data tersebut dapat dimaksimalkan dengan adanya
sebuah basis data. Basis Data terdiri atas 2 kata, yaitu Basis dan Data.
Basis kurang lebih dapat diartikan sebagai markas atau gudang, tempat
bersarang/berkumpul. Sedangkan Data adalah representasi fakta dunia
nyata yang mewakili suatu objek seperti manusia (pegawai, siswa,
pembeli, pelanggan), barang, hewan, peristiwa, konsep, keadaan, dan
sebagainya, yang diwujudkan dalam bentuk angka, huruf, symbol teks,
gambar, bunyi atau kombinasinya (Fatahansyah: 2, 2012).
Selain itu, diperlukan juga suatu model untuk memaksimalkan
pengolahan data penduduk, yang nantinya dapat digunakan dalam
pengambilan keputusan dari beberapa data yang sudah ada untuk
menggambarkan kondisi ekonomi penduduk di Desa Mulyajaya, salah
satunya dengan menggunakan model data mining. Data mining adalah
proses yang menggunakan teknik statistic , matematika, kecerdasan
buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi
informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai
database besar.
Basis Data sendiri dapat didefinisikan dalam sejumlah sudut
pandang seperti:
-
8/16/2019 a2.1100145 Wulan Handayani
21/90
a. Himpunan kelompok data (arsip) yang saling berhubungan yang
diorganisasi sedemikian rupa agar elak dapat dimanfaatkan kembali
dengan cepat dan mudah.
b. Kumpulan data yang saling berhubungan yag disimpan secara
bersama sedemikian rupa dan tanpa pengulangan (redudansi ) yang
tidak perlu, untuk memenuhi berbagai kebutuhan.
c. Kumpulan file /tabel/arsip yang saling berhubungan yang disimpan
dalam media penyimpanan elektronis.
Pemanfaatan Basis Data dilakukan untuk memenuhi sejumlah tujuan
(objektif) seperti berikut:
a. Kecepatan dan kemudahan (Speed );
b. Efisiensi ruang penyimpanan (Space );
c. Keakuratan (Accurancy );
d. Ketersedian (Availability );
e. Kelengkapan (Completeness );
f. Keamanan (Security );
g. Kebersamaan Pemakai (Sharability ).
-
8/16/2019 a2.1100145 Wulan Handayani
22/90
Basis Data dapat dibedakan menjadi 4 jenis, yaitu (Nukhrid, Diakses
26 Maret 2015) :
a. Basis Data Individual
Basis data individual adalah basis data yang digunakan oleh
perseorangan. Biasanya basis data seperti ini banyak dijumpai
dilingkungan PC.
b. Basis Data Perusahaan
Basis data perusahaan adalah basis data yang dimaksudkan untuk
diakses oleh sejumlah pegawai dalam sebuah perusahaan dalam
sebuah lokasi. Basis data seperti ini disimpan dalam sebuah server
dan para pemakai dapat mengakses dari masing-masing komputer
yang berkedudukan sebagai client.
c. Basis Data Terdistribusi
Basis data terdistribusi adalah basis data yang disimpan pada
sejumlah komputer yang terletak pada beberapa lokasi. Model seperti
ini banyak digunakan bank yang memiliki sejumlah cabang di berbagai
kota dan melayani transaksi perbankan yang bersifatonline
d. Basis Data Publik
Basis Data Publik adalah basis data yang dapat diakses oleh siapa
saja (publik).
Berdasarkan uraian di atas, maka dalam penulisan skripsi ini peneliti
ingin mencoba melakukan analisis data dengan serangkaian proses yang
-
8/16/2019 a2.1100145 Wulan Handayani
23/90
memanfaatkan teknologi data mining yang dimaksudkan untuk
memaksimalkan pengolahan data dari beberapa sumber data
kependudukan dan data hasil survey kelapangan untuk dijadikan bahan
dalam pengambilan keputusan. Selain itu, perlu juga diterapkan model
data mining untuk memaksimalkan data penduduk agar dapat digunakan
dalam proses penentuan kondisi perekonomian penduduk di Desa
Mulyajaya berupa kelompok keluarga miskin dan tidak miskin.
Untuk merealisasikan hal tersebut, peneliti mencoba untuk
menganalisis bagaimana menentukan kondisi perekonomian penduduk
berupa kelompok keluarga miskin dan tidak miskin dengan memilih judul
Skripsi yaitu “Model Data Mining dalam Penentuan Kondisi
Perekonomian Penduduk di Desa Mulyajaya”.
1.2 Perumusan Masalah
Berdasarkan latar belakang, maka perumusan masalahnya, yaitu:
1. Bagaimana menerapkan model data mining dalam proses penentuan
kondisi perekonomian penduduk di Desa Mulyajaya?
1.3 Tujuan Penelitian
Tujuan dari penelitian ini adalah sebagai berikut:
1. Terciptanya sebuah basis data yang menerapkan model data mining
dalam memaksimalkan pengelolaan data penduduk di Desa Mulyajaya.
-
8/16/2019 a2.1100145 Wulan Handayani
24/90
2. Basis data ini, diharapkan dapat menyajikan informasi yang akurat
untuk melihat kondisi perekonomian penduduk, serta dapat
dimanfaatkan untuk beberapa keperluan desa, seperti pengambilan
keputusan menyangkut dengan kesejahteraan sosial penduduk.
1.4 Pembentukan Model
Model data mining yang akan dibentuk dalam penelitian ini, yaitu
discovery model. Dimana pada discovery model ini merupakan sebuah
sistem basis data yang dapat secara langsung menemukan informasi
penting yang tersembunyi dalam suatu data yang besar. Data-data yang
ada kemudian dipilah-pilah untuk menemukan suatu pola yang ada, dan
keadaaan umum pada saat itu tanpa adanya campur tangan dan tuntunan
dari pengguna. Hasil temuan ini menyatakan fakta-fakta yang ada dalam
data yang ditemukan dalam waktu yang sesingkat mungkin. Sebagai
contoh, misalkan pemerintah Desa ingin menemukan kelompok penduduk
yang memenuhi syarat untuk menerima suatu bantuan.
Model data mining dengan discovery model ini dikembangkan
dengan menggunakan teknik klasifikasi. Klasifikasi adalah proses untuk
menemukan model atau fungsi yang menjelaskan atau membedakan
konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas
dari suatu objek yang labelnya tidak diketahui. Tujuan dari klasifikasi ini
adalah untuk menganalisa training data dan membentuk sebuah deskripsi
yang akurat atau sebuah model untuk setiap kelas berdasarkan feature-
-
8/16/2019 a2.1100145 Wulan Handayani
25/90
feature yang tersedia di dalam data tersebut. Metode yang akan
digunakan yaitu metode decision tree (pohon keputusan) dengan
algoritma C4.5.
Alasan digunakan model dan teknik serta metode diatas, adalah
memberikan ketepatan dan kemudahan dalam penyediaan informasi yang
akurat untuk kebutuhan pengambilan keputusan. Proses pada pohon
keputusan adalah mengubah bentuk data (tabel) menjadi model pohon,
mengubah model pohon menjadi rule , dan menyederhanakan rule .
Manfaat utama dari penggunaan pohon keputusan adalah
kemampuannya untuk mempermudah proses pengambilan keputusan
yang kompleks menjadi lebih simpel sehingga pengambil keputusan akan
lebih menginterpretasikan solusi dari permasalahan.
1.5 Kontribusi Penelitian
Penelitian ini diharapkan berguna bagi peneliti juga dapat berguna
bagi lembaga pemerintah desa yang bersangkutan dan juga bagi peneliti
selanjutnya yang berkaitan dengan permasalahan yang menggunakan
data mining . Adapun manfaat dari data penelitian ini adalah sebagai
berikut:
a. Menambah ilmu pengetahuan tentang pemanfaatan data mining yang
diterapkan dalam pengolahan data, khususnya data penduduk.
-
8/16/2019 a2.1100145 Wulan Handayani
26/90
b. Mengetahui cara membuat model data mining untuk menghasilkan
informasi yang akurat agar dapat mengatasi faktor subjektif di Desa
tersebut.
c. Penelitian bisa dijadikan bahan rekomendasi oleh pihak yang
berkepentingan, baik bagi akademisi, praktisi maupun oleh aparat
desa.
d. Memberikan kemudahan dalam penyajian informasi kependudukan
dalam pengambilan keputusan.
1.6 Sistematika Penulisan
BAB I PENDAHULUAN
1.1 Latar Belakang
1.2 Rumusan Masalah
1.3 Tujuan Penelitian
1.4 Pembentukan Model
1.5 Kontribusi Penelitian
1.6 Sistematika Penulisan
1.7 Kegunaan Model
BAB II TINJAUAN PUSTAKA DAN KERANGKA PEMIKIRAN
2.1 Penerapan Model Data Mining dalam Penentuan Kondisi
Perekonomian Penduduk di Desa Mulyajaya
2.1.1 Basis data
2.1.2 Data mining
-
8/16/2019 a2.1100145 Wulan Handayani
27/90
-
8/16/2019 a2.1100145 Wulan Handayani
28/90
4.2.6 Formulasi Klasifikasi
4.2.7 Formulasi Pohon Keputusan
4.2.8 Formulasi Aturan (IF-THEN )
4.3 Analisis Model
4.4 Validasi Model
BAB V KESIMPULAN DAN SARAN
5.1 Kesimpulan
5.2 Saran
Daftar Pustaka
Lampiran-lampiran
1.7 Kegunaan Model
Kegunaan dari model data mining yang akan dikaji dalam penelitian,
yaitu diharapkan dapat:
a. Memaksimalkan data penduduk di Desa Mulyajaya, sehingga dapat
disajikan secara tepat dan akurat.
b. Membantu menemukan informasi yang akurat dari basis data
kependudukan dan dapat melihat bagaimana kondisi perekonomian
penduduk desa dengan melihat berapa banyak penduduk yang
termasuk kategori miskin dan tidak miskin sehingga dapat
dimanfaatkan untuk pengambilan keputusan dibidang kependudukan
yang lain.
-
8/16/2019 a2.1100145 Wulan Handayani
29/90
BAB II
TINJAUAN PUSTAKA DAN KERANGKA PEMIKIRAN
2.1 Model Data Mining dalam Penentuan Kondisi Perekonomian
Penduduk di Desa Mulyajaya
2.1.1 Basis data
Basis data terdiri dari 2 kata, yaitu Basis dan Data. Basis dapat
diartikan sebagai markas atau gudang tempat bersarang/berkumpul.
Sedangkan data adalah representasi fakta dunia nyata yang mewakili
suatu objek seperti manusia (pegawai, siswa, pembeli, pelanggan),
barang hewan, peristiwa, konsep, keadaan dan sebagainya, yang
diwujudkan dalam bentuk angka, huruf, symbol, teks, gambar, bunyi atau
kombinasi.
Menurut Fatahansyah (2012 : 3), Database dapat didefinisikan dalam
sejumlah sudut pandang:
a. Himpunan kelompok data (arsip) yang saling berhubungan yang
diorganisasi sedemikian rupa agar kelak dapat dimanfaatkan kembali
dengan cepat dan mudah.
b. Kumpulan data yang saling berhubungan yang disimpan secara
bersama sedemikian rupa dan tanpa pengulangan (redudansi ) yang
tidak perlu, untuk memenuhi berbagai kebutuhan.
c. Kumpulan file /tabel/arsip yang saling berhubungan yang disimpan
dalam media penyimpanan elektronis.
-
8/16/2019 a2.1100145 Wulan Handayani
30/90
Dari beberapa sudut pandang diatas peneliti dapat menyimpulkan
bahwa Database atau basis data adalah kumpulan file-file yang
mempunyai kaitan antara satu file dengan file yang lain sehingga
membentuk data untuk menghasilkan suatu informasi untuk memenuhi
berbagai kebutuhan. Bila terdapat file yang tidak dapat dipadukan atau
dihubungkan dengan file yang lainnya, berarti file tersebut bukanlah
kelompok dari satu database , melainkan membentuk satu database
sendiri. Atau basis data (database) adalah kumpulan dari data yang saling
berhubungan (relation) antara satu dengan yang lainnya yang
diorganisasikan berdasarkan skema atau struktur tertentu.
Model database adalah kumpulan dari konsepsi basis data yang
biasanya mewakili struktur dan relasi data yang terdapat pada suatu basis
data. Esensi sebuah model basis data adalah tempat dimana data atau
suatu metodologi untuk menyimpan data. Model data yang paling umum
berdasarkan pada bagaimana hubungan antar record yang tersimpan
dalam database . Terdapat 3 jenis model dasar yang paling umum, yaitu:
Model Database Hirarki, Model Database Jaringan dan Model Database
Relasional.
Model database yang digunakan pada penelitian ini adalah model
database relasional karena merupakan model yang paling sederhana,
sehingga mudah digunakan oleh pengguna. Model ini menggunakan
sekumpulan table berdimensi dua (yang disebut relasi atau table), dengan
masing-masing relasi tersusun atas baris dan atribut.
-
8/16/2019 a2.1100145 Wulan Handayani
31/90
Prinsip utama dari database adalah pengaturan data/arsip.
Sedangkan tujuan utamanya adalah kemudahan dan kecepatan dalam
pengambilan kembali data/arsip. Perbedaannya hanya terletak pada
media penyimpanan yang digunakan.
Secara lebih lengkap, pemanfaatan basis data dilakukan untuk
memenuhi sejumlah tujuan (objektif) seperti berikut:
a. Kecepatan dan Kemudahan (Speed )
Pemanfaatan basis data memungkinkan kita untuk dapat
menyimpanan data atau melakukan perubahan/manipulasi terhadap
data atau menampilkan kembali data tersebut dengan lebih cepat dan
mudah.
b. Efisiensi Ruang Penyimpanan (Space )
Dengan basis data, efisiensi/optimalisasi penggunaan ruang
penyimpanan dapat dilakukan, karena kita dapat melakukan
penekanan jumlah redudansi data, baik dengan menerapkan sejumlah
pengkodean atau dengan membuat relasi-relasi (dalam bentuk tabel)
antar kelompok data yang saling berhubungan.
c. Keakuratan (Accuracy )
Pemanfaatan pengkodean atau pembentukan relasi antar data
bersama dengan penerapan aturan/batas (constraint ) tipe data,
domain data, keunikan data, dan sebagainya, sangat berguna untuk
menekan ketidakakuratan penyimpanan data.
d. Ketersediaan (Availability )
-
8/16/2019 a2.1100145 Wulan Handayani
32/90
Pertumbuahan data (baik dari sisi jumlah maupun jenisnya) sejalan
dengan waktu akan semakin membutuhkan ruang penyimpanan yang
besar. Karena itu kita dapat memilah adanya data utama/master, data
transaksi, data histori hingga data yang kadaluarsa.
e. Kelengkapan (Completeness )
Dalam sebuah basis data, disamping data kita juga harus menyimpan
struktur. Untuk mengakomodasi kebutuhan kelengkapan data yang
semakin berkembang, maka kita tidak melakukan perubahan struktur
dalam basis data.
f. Keamanan (security)
Dalam basis data harus diterapkan aspek keamanan, dengan begitu
kita dapat menentukan siapa saja pengguna yang dapat menggunakan
basis data beserta objek di dalamnya dan operasi apa saja yang boleh
dilakukan.
g. Kebersamaan Pemakai (Sharability )
Basis data yang dikelola oleh sistem (aplikasi) yang menduung
lingkungan multi-user, akan dapat menjaga/menghindari munculnya
persoalan baru seperti inkonsistensi data atau kondisi deadlock .
2.1.2 Data mining
Menurut Fajar Astuti Hermawati (2013: 3) Data mining adalah
proses yang mempekerjakan satu atau lebih teknik pembelajaran
komputer (machine learning ) untuk menganalisis dan mengekstraksi
-
8/16/2019 a2.1100145 Wulan Handayani
33/90
pengetahuan (knowledge ) secara otomatis. Data mining merupakan
proses iterative dan interaktif untuk menemukan pola baru yang sahih
(sempurna), bermanfaat dan dapat dimengerti dalam suatu database yang
sangat besar (massive database ). Pola-pola ini dikenali oleh perangkat
tertentu yang dapat memberikan suatu analisa data yang berguna dan
berwawasan yang kemudian dapat dipelajari dengan lebih teliti.
Data mining adalah suatu istilah yang digunakan untuk
menguraikan penemuan pengetahuan di dalam database . Data mining
adalah proses yang menggunakan teknik statistic , matematika,
kecerdasan buatan, dan machine learning untuk mengekstraksi dan
mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait
dari berbagai database besar (Turban, dkk. 2005).
Menurut Gartner Group data mining adalah suatu proses
menemukan hubungan yang berarti, pola, dan kecenderungan dengan
memeriksa dalam sekumpulan besar data yang tersimpan dalam
penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik
static dan matematika (Larose, 2005).
Berdasarkan beberapa pendapat di atas, maka dapat disimpulkan
bahwa data mining merupakan proses yang berisi pencarian pola yang
diinginkan dalam database yang besar untuk membantu pengambilan
keputusan diwaktu yang akan datang.
Hubungan yang dicari dalam data mining dapat berupa hubungan
antara dua atau lebih dalam satu dimensi. Selain itu, hubungan juga dapat
-
8/16/2019 a2.1100145 Wulan Handayani
34/90
dilihat antara dua atau lebih atribut dan dua atau lebih objek. Sementara
itu, penemuan pola merupakan keluaran lain dari data mining .
Menurut Fayyad yang dikutip oleh Kusrini dan Emha Taufiq Luthfi
(2009: 6) menyatakan bahwa Istilah data mining dan knowledge discovery
in database (KDD) sering kali digunakan secara bergantian untuk
menjelaskan proses penggalian informasi tersembunyi dalam suatu basis
data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang
berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam
keseluruhan proses KDD adalah data mining . Proses KDD secara garis
besar dapat dijelaskan sebagai berikut:
a. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap pengalian informasi dalam KDD dimulai. Data
hasil seleksi yang akan digunakan untuk proses data mining disimpan
dalam suatu berkas, terpisah dari basis data operasional.
b. Pre-processing/Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan
cleaning pada data yang menjadi fokus KDD. Proses cleaning
mencakup antara lain membuang duplikasi data, memeriksa data yang
inkonsisten, dan memperbaiki kesalahan pada data.
c. Transformation
Coding adalah proses tranformasi pada data yang telah dipilih,
sehingga data tersebut sesuai untuk proses data mining . Proses
-
8/16/2019 a2.1100145 Wulan Handayani
35/90
coding dalam KDD merupakan proses kreatif dan sangat tergantung
pada jenis atau pola informasi yang akan dicari dalam basis data.
d. Data Mining
Data mining adalah proses mencari pola atau informasi menarik dalam
data terpilih dengan menggunakan teknik atau metode tertentu.
Teknik, metode, atau algoritma dalam data mining sangat bervariasi.
Pemilihan metode atau algoritma yang tepat sangat bergantung pada
tujuan dan proses KDD secara keseluruhan.
e. Interpretation/Evalution
Pola informasi yang dihasilkan dari proses data mining perlu
ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang
berkepentingan. Tahap ini, merupakan bagian dari proses KDD yang
disebut interpretation . Tahap ini mencakup pemeriksaan apakah pola
atau informasi yang ditemukan bertentangan dengan fakta atau
hipotesis yang ada sebelumnya.
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas
yang dapat dilakukan, yaitu (Larose, 2005):
a. Deskripsi
Teknik yang ingin mencoba mencari cara untuk menggambarkan pola
dan kecenderungan yang terdapat dalam data.
-
8/16/2019 a2.1100145 Wulan Handayani
36/90
b. Estimasi
Teknik yang dibangun menggunakan record lengkap yang
menyediakan nilai dari variabel target sebagai nilai prediksi.
c. Prediksi
Teknik dalam prediksi menyatakan nilai dari hasil akan ada di masa
mendatang.
d. Klasifikasi
Klasifikasi adalah menentukan sebuah record data baru ke salah satu
dari beberapa kategori (class ) yang telah didefinisikan sebelumnya.
e. Pengklusteran
Pengklusteran merupakan pengelompokan record , pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan.
f. Asosiasi
Tugas asosiasi dalam data mining adalah menemukan atribut yang
muncul data satu waktu.
Dari beberapa teknik data mining di atas, maka teknik yang akan
digunakan dalam menerapkan model Data mining adalah teknik klasifikasi.
Klasifikasi yaitu suatu fungsionalitas data mining yang akan menghasilkan
model untuk memprediksi kelas atau kategori dari objek-objek di dalam
basis data. Teknik klasifikasi merupakan suatu pendekatan sistematis
untuk membangun model klasifikasi dari suatu himpunan data masukan.
-
8/16/2019 a2.1100145 Wulan Handayani
37/90
Klasifikasi dapat disajikan dengan menggunakan berbagai metode seperti
decision trees, Bayesian classification, k-nearst neighbor, Bayesian
classification, neural network, classification (IF-THEN) rule .
Metode yang akan dipakai yaitu metode decision trees dengan
menggunakan algoritma C4.5. Menurut Kusrini (2009: 13) Metode pohon
keputusan dapat mengubah fakta yang sangat besar menjadi pohon
keputusan yang merepresentasikan aturan. Pohon keputusan juga
berguna untuk mengekplorasi data, menemukan hubungan tersembunyi
antara sejumlah calon variabel input dengan sebuah variabel target.
Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan
untuk membagi kumpulan data yang besar menjadi himpunan-himpunan
record yang lebih kecil dengan menerapkan serangkaian aturan
keputusan.
Sebuah model pohon keputusan terdiri dari sekumpulan aturan
untuk membagi sejumlah populasi yang heterogen menjadi lebih kecil,
lebih homogen dengan memperhatikan pada variabel tujuannya. Variabel
tujuannya dikelompokan dengan pasti dan pohon keputusan mengarah
pada perhitungan probabilitas dari tiap-tiap record terhadap kategori
tersebut atau untuk mengklasifikasi record dengan mengelompokannya
dalam satu kelas. Algoritma yang dipakai dalam pembentukan pohon
keputusan, antara lain ID3, CART dan C4.5. Peneliti menggunakan
algoritma C4.5.
-
8/16/2019 a2.1100145 Wulan Handayani
38/90
Secara umum algoritma C4.5 untuk membangun pohon keputusan
adalah sebagai berikut:
a. Pilih atribut sebagai akar.
b. Buat cabang untuk tiap-tiap nilai.
c. Bagi kasus dalam cabang.
d. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang
memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain
tertinggi dari atribut yang ada. Untuk menghitung gain digunakan rumus
seperti tertera dalam persamaan 1 berikut.
, = − ∑ |||| ∗ Rumus …… 1)
Keterangan:
S : Himpunan Kasus
A : Atribut
n : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke-i
|S| : Jumlah kasus dalam S
Sementara itu perhitungan nilai entropi dapat dilihat pada persamaan 2
berikut:
= − ∑ − ∗ log Rumus …… 2)
-
8/16/2019 a2.1100145 Wulan Handayani
39/90
Keterangan:
S : Himpunan kasus
A : Atribut
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
2.1.3 Kondisi perekonomian penduduk
Data penduduk adalah data perseorangan atau data agregat yang
terstruktur sebagai hasil kegiatan pendaftaran penduduk dan pencatatan
sipil. Sumber data kependudukan yang pokok dibagi menjadi 3, yaitu: a)
Sensus penduduk, b) Registrasi penduduk, dan c) survey penduduk.
(Sumber: Ditjen Kependudukan & Pencatatan Sipil, Kemendagri RI)
Penduduk dikategorikan menjadi penduduk miskin dan tidak miskin,
adapun 14 kriteria miskin menurut standar Badan Pusat Statistik (BPS)
yaitu:
a. Luas lantai bangunan tempat tinggal kurang dari 8 m2 per orang
b. Jenis lantai tempat tinggal terbuat dari tanah/bambu/kayu murahan
c. Jenis dinding tempat tinggal dari bamboo/rumbia/kayu berkualitas
rendah/tembok tanpa diplester
d. Tidak memiliki fasilitas buang air besar/bersama-sama dengan rumah
tangga lain
e. Sumber penerangan rumah tangga tidak menggunakan listrik
-
8/16/2019 a2.1100145 Wulan Handayani
40/90
f. Sumber air minum berasal dari sumur/mata air tidak
terlindungi/sungai/air hujan
g. Bahan bakar untuk memasak sehari-hari adalah kayu
bakar/arang/minyak tanah
h. Hanya mengonsumsi danging/susu/ayam satu kali dalam seminggu
i. Hanya membeli satu stel pakaian baru dalam setahun
j. Hanya sanggup makan sebanyak satu/dua kali dalam sehari
k. Tidak sanggup membayar biaya pengobatan dipuskesmas/poliklinik
l. Sumber penghasilan kepala rumah tangga adalah: petani dengan luas
lahan 500 m2, buruh tani, nelayan, buruh bangunan, buruh
perkebunan dan atau pekerjaan lainnya dengan pendapatan dibawah
Rp.600.000,- per bulan
m. Pendidikan tertinggi kepala rumah tangga: tidak sekolah/tidak tamat
SD/hanya SD
n. Tidak memiliki tabungan/barang yang mudah dijual dengan minimal
Rp.500.000,- seperti sepeda motor kredit/non kredit, emas, ternak,
kapal motor, atau barang modal lainnya.
Jika minimal 9 variabel terpenuhi maka suatu rumah tangga
dikategorikan sebagai rumah tangga miskin.
-
8/16/2019 a2.1100145 Wulan Handayani
41/90
2.2 Spesifikasi yang Berhubungan dengan Model yang Sudah Ada
dalam Bidang Masalah yang Akan Diteliti
a. Penerapan data mining untuk menentukan criteria calon nasabah
potensial pada AJB BUMIPUTRA 1912 Palembang (Khoiril Amri,
2013)
Pada penelitian ini menggunakan model data mining dengan
teknik klasifikasi untuk mengahadapi persaingan yang terjadi dalam
dunia bisnis asuransi, para pihak terkait dalam perusahaan tersebut
dituntut untuk memikirkan strategi-strategi serta terobosan yang dapat
menjamin kelangsungan dari bisnis asuransi tersebut. Dengan
memanfaatkan jumlah data yang sangat besar, perusahaan-
perusahaan tentunya dapat menemukan beragam informasi. Dengan
adanya informasi criteria nasabah perusahaan asuransi dapat
mengambil keputusan yang tepat dalam menerapkan strategi yang
tepat untuk menawarkan produk kepada calon nasabah berdasarkan
criteria nasabah yang dulu.
Data mining diharapkan dapat membantu perusahaan
menemukan informasi yang sangat penting dari gudang data mereka
agar dapat meningkatkan bisnis perusahaan. Salah satu metode yang
digunakan dalam data mining adalah klasifikasi dimana metode
tersebut akan menghasilkan model untuk memprediksi kelas atau
kategori dari objek di dalam database .
-
8/16/2019 a2.1100145 Wulan Handayani
42/90
Persamaan penelitian ini yaitu menggnakan model data mining
dengan teknik klasifikasi untuk menghasilkan informasi lebih dari
informasi yang sudah ada, namun dalam membangun pohon
keputusannya berbeda, Khoiril Amri menggunakan software DTREG.
b. Model data mining dalam memaksimalkan data penduduk desa
(Studi Kasus: Desa Sarimekar Kecamatan Jatinunggal) (Tresna
Gustyan R, 2012)
Dalam penelitian ini, digunakan data mining untuk menggali nilai
tambah dari suatu kumpulan data berupa pengetahuan yang selama
ini tidak diketahui secara manual dan untuk menghindari sistem yang
belum memiliki integrasi informasi yang baik sehingga mengakibat
keabsahan data. Teknik klasifikasi dengan menggunakan pohon
keputusan ini memiliki kemampuan untuk menyajikan informasi dan
layanan administrasi kependudukan yang cepat, tepat dan akurat.
Hasil yang didapatkan digunakan untuk memaksimalkan data
penduduk yang dimanfaatkan dalam pengelompokan keluarga
sejahtera dan prasejahtera.
Persamaan dengan penelitian tersebut adalah menggunakan
model data mining dalam menemukan informasi serta teknik yang
digunakan sama yaitu teknik klasifikasi dengan pohon keputusan
namun algoritma dan hasil penelitian berbeda. Penelitian Tresna
-
8/16/2019 a2.1100145 Wulan Handayani
43/90
Gustyan R. yaitu penemuan pola dari data penduduk untuk
menghasilkan informasi kelompok keluarga sejahtera dan prasejahtera
sedangkan peneliti menemukan pola keterkaitan antara data yang satu
dengan data yang lainnya untuk menghasilkan informasi tersembunyi
dalam database penduduk dalam penentuan kondisi perekonomian
penduduk desa.
c. Penentuan jurusan sekolah menengah atas dengan algoritma
fuzzy c-means (Bahar, 2011)
Pada penelitian ini menggunakan konsep clustering dalam data
mining untuk menentukan jurusan sekolah menengah atas. Dalam
proses pendidikan, perbedaan masing-masing siswa harus
diperhatikan karena dapat menetukan baik buruknya prestasi siswa.
Dengan adanya perbedaan individu tersebut, maka fungsi pendidikan
tidak hanya dalam proses belajar mengajar, tetapi juga meliputi
bimbingan/konseling, pemilihan dan penempatan siswa sesuai dengan
kapasitas individual yang dimiliki. Kemungkinan yang akan terjadi jika
siswa mengalami kesalahan dalam penempatan yang tidak sesuai
dengan kapasitas individual yang dimiliki adalah rendahnya prestasi
belajar siswa.
Konsep clustering dalam data mining diharapkan dapat
membantu penempatan siswa sesuai dengan kapasitas
kemampuannya atau sering disebut dengan penjurusan siswa,
-
8/16/2019 a2.1100145 Wulan Handayani
44/90
sehingga dengan penempatan penjurusan yang sesuai akan
meningkatkan minat dan memberikan kenyamanan seseorang dengan
dalam belajar.
Persamaan penelitian ini yaitu menggunakan model data mining ,
dalam penelitian ini Bahar menggunakan teknik clustering dengan
algoritma fuzzy c-means , sedangkan peneliti menggunakan teknik
klasifikasi dan metode decision tree dengan menggunakan algoritma
C4.5.
d. Penerapan data mining pada penjualan produk minuman di
PT.Pepsi ColaIndoberages menggunakan metode clustering (Enur
Irdiansyah)
Pada penelitian ini menggunakan data mining dengan metode
clustering untuk menghadapi dunia bisnis yang dinamis dan penuh
persaingan, para pelaku di perusahaan terkait harus senantiasa
memikirkan cara-cara untuk terus survive dan mengembangkan skala
bisnis. Dalam menghadapi persaingan bisnis dan meningkatkan
pendapatan perusahaan, pihak terkait dalam perusahaan dituntut
untuk dapat mengambil keputusan yang tepat dalam menentukan
strategi pemasaran produk minuman yang akan dijual.
Data mining dimaksudkan untuk memberikan solusi nyata bagi
para pengambil keputusan di dunia bisnis, untuk mengembangkan
bisnis. Salah satu metode yang terdapat dalam data mining yang
-
8/16/2019 a2.1100145 Wulan Handayani
45/90
digunakan dalam penelitian ini adalah clustering dimana metode
tersebut mengidentifikasi objek yang memiliki kesamaan karakteristik
tertentu.
Persamaan penelitian ini yaitu menggunakan model data
mining , namun dalam penggunaan metodenya berbeda, Enur
Irdiansyah menggunakan metode clustering .
e. Penerapan data mining pada RSUP Dr. Moh Hosein Sumatera
Selatan untuk mengelompokan hasil diagnosa pasien pengguna
asuransi kesehatan miskin (ASKIN) (Sandro Somario, 2013)
Dalam penelitian ini menggunakan model data mining dengan
teknik clustering untuk mengetahui apa saja yang menjadi penyebab
penyakit yang di derita pasien pengguna asuransi kemiskinan. Dengan
mengetahui hal tersebut maka dapat dilakukan usaha pencegahan
dalam bentuk pemeriksaan disertai penyuluhan ke tempat-tempat
tinggal masyarakat kurang mampu yang menggunakan askin.
Data mining diharapkan menjadi solusi untuk mengatasi masalah
yang dihadapi rumah sakit dalam memberikan informasi yang tepat
dan akurat, dimana informasi tersebut terdapat dalam penyimpanan
data rumah sakit.
Persamaan dengan penelitian ini yaitu menggunakan model data
mining untuk menghasilkan informasi dari dalam database yang sudah
ada, namun peneliti Sandro Somario menggunakan teknik clustering
-
8/16/2019 a2.1100145 Wulan Handayani
46/90
dengan menggunakan algoritma CLMH (Centroid Linkage Hierarchical
Method ).
2.3 Kerangka Pemikiran
Berdasarkan tinjauan pustaka di atas, maka kerangka pemikiran
untuk model data mining dalam penentuan kondisi perekonomian
penduduk di Desa Mulyajaya, yaitu dilakukan dengan teknik klasisfikasi.
Data mining merupakan kegiatan untuk menggali informasi dari data yang
berukuran besar. Untuk menghasilkan informasi lebih dari sekedar data
penduduk dibutuhkan suatu teknik yaitu teknik klasifikasi. Tujuan dari
klasifikasi adalah untuk menemukan model dari training set yang
membedakan atribut ke dalam kategori atau kelas yang sesuai, teknik ini
digunakan untuk mengkalsifikasikan kelas yang belum diketahui
sebelumnya. Proses ini diterapkan dalam memaksimalkan data penduduk
agar dapat digunakan untuk kepentingan lain sesuai kebutuhan.
Proses pencarian pada teknik klasifikasi menggunakan pohon
keputusan, metode ini memiliki aturan yang dapat dengan mudah
dipahami dengan bahasa alami. Metode ini juga melakukan proses
pencarian dengan cara menemukan hubungan tesembunyi antara
seumlah calon variabel input dengan variabel target. Variabel target
didasarkan pada nilai gain tertinggi dari atribut yang ada, nilai gain ini
merupakan nilai yang dijadikan prioritas, untuk menentukan nilai gain
tersebut digunakan salah satu algoritma data mining yaitu algoritma C4.5.
-
8/16/2019 a2.1100145 Wulan Handayani
47/90
-
8/16/2019 a2.1100145 Wulan Handayani
48/90
BAB III
METODOLOGI PENGEMBANGAN MODEL
3.1 Objek Penelitian
Objek penelitian pada penulisan skripsi ini adalah proses penentuan
kondisi perekonomian penduduk di Desa Mulyajaya yang berlokasi Jln.
Dalem Cengkok No. 01 Kecamatan Wado. Desa Mulyajaya memiliki
jumlah penduduk ± 2.468 dengan jumlah RT 21 dan RW 6. Dalam
menentukan kelompok keluarga miskin dan tidak miskin, pihak desa
hanya melakukan dengan cara melihat penghasilan tiap kepala keluarga
saja tanpa melihat kondisi yang lainnya, sedangkan ada 14 kriteria miskin
menurut pemerintah yang harus menjadi pertimbangan dalam penentuan
keluarga miskin. Dari proses tersebut, dapat dilihat kategori keluarga
miskin masih belum jelas, sehingga para aparat desa sering kali
mengalami kesulitan dalam hal pemberian bantuan sosial karena hanya
melihat dari satu kondisi saja.
Untuk menghasilkan informasi yang akurat mengenai penentuan
kelompok keluarga miskin dan tidak miskin berdasarkan 14 kriteria miskin
menurut BPS, maka diperlukan suatu data mining untuk menggali
informasi tersembunyi dari database penduduk menggunakan teknik
klasifikasi dan metode decision tree s dengan menggunakan algoritma
C4.5.
-
8/16/2019 a2.1100145 Wulan Handayani
49/90
3.2 Metodologi Pengembangan Model Secara Skematik
Dalam penelitian ini terdapat beberapa langkah, adapun langkah-
langkah dalam pengembangan model tersebut secara skematik dapat
dilihat pada gambar 3.1.
Gambar 3.1 Proses Pengembangan Model Secara Skematik
3.3 Uraian Rinci Metodologi Pengembangan Model
Berdasarkan metodologi pengembangan model secara skematik,
dapat diuraikan secara rinci langkah-langkah setiap prosesnya sebagai
berikut:
PENGURAIAN MASALAH
PENGUMPULAN DATA
DATA MINING
LAPORAN
TRANSFORMATION
PRE-PROCESSING
SELECTION
-
8/16/2019 a2.1100145 Wulan Handayani
50/90
a. Penguraian Masalah
Pada tahap ini menjelaskan masalah-masalah yang terdapat di Desa
Mulyajaya yaitu pada database penduduk dan prosedur yang sedang
berjalan di desa tersebut, tujuannya untuk mengetahui masalah apa
yang terdapat dalam pengolahan data penduduk mengenai proses
penentuan kondisi perekonomian penduduk serta menjelaskan
manfaat model data mining untuk mengatasi masalah di Desa
Mulyajaya tersebut.
b. Pengumpulan Data
Pada tahap pengumpulan data, data yang berhubungan dengan objek
penelitian dikumpulan.
c. Selection
Pemilihan (seleksi) data dari sekumpulan data operasional,
menciptakan himpunan data target atau memfokuskan pada sampel
data.
d. Pre-processing/cleaning
Proses pembersihan data dilakukan dengan membuang duplikasi data
yang tidak konsisten.
e. Transformation
Proses transformasi pada data yang telah dipilih, sehingga data
tersebut sesuai untuk proses mining. Meliputi penentuan fitur penting
untuk mempresentasikan data bergantung pada tujuan yang ingin
-
8/16/2019 a2.1100145 Wulan Handayani
51/90
dicapai. Seperti menghubungkan tabel yang memiliki keterkaitan pola,
dan transformasi lainnya.
f. Data mining
Data mining merupakan proses pencarian pola atau informasi menarik
dalam data terpilih dengan menggunakan teknik atau metode tertentu.
Adapun langkah-langkah model data mining dengan teknik klasifikasi
menggunakan algoritma C4.5 adalah sebagai berikut:
1. Pemilihan variabel.
2. Melakukan pra-proses, yaitu:
a. Pilih atribut sebagai akar.
b. Buat cabang untuk tiap-tiap nilai.
c. Bagi kasus dalam cabang.
d. Ulangi proses untuk setiap cabang sampai semua kasus pada
cabang memiliki kelas yang sama.
3. Merancang diagram alir data.
4. Merancang basis data.
g. Laporan
Berupa hasil yang diperoleh dari beberapa langkah sebelumnya diatas.
Hasil dari proses-proses tersebut dapat digunakan untuk pengambilan
keputusan di masa depan.
-
8/16/2019 a2.1100145 Wulan Handayani
52/90
3.4 Langkah-langkah Pengembangan Model
Langkah-langkah yang digunakan dalam pengembangan model ini
adalah sebagai berikut:
a. Penguraian Masalah
Pada tahap ini peneliti melakukan beberapa langkah, yaitu:
1. Melihat proses kerja yang sedang berlangsung.
2. Mengidentifikasi masalah yang terdapat dalam database serta
masalah dalam proses kerja yang sedang berlangsung.
3. Menarik masalah yang sudah diidentifikasi sebelumnya.
b. Pengumpulan Data
Pada tahap pengumpulan data, peneliti melakukan beberapa langkah,
diantaranya sebagai berikut:
1. Observasi
Menganalisis objek yang akan diteliti untuk memperoleh informasi
dan data yang akan dijadikan bahan penelitian.
2. Interview
Melakukan wawancara dengan petugas desa yang berkaitan
dengan kependudukan.
3. Studi pustaka
Mengumpulkan buku sumber dan melakukan browsing untuk
mendapatkan informasi yang sesuai dengan masalah yang diteliti.
-
8/16/2019 a2.1100145 Wulan Handayani
53/90
c. Selection
Pada tahap ini peneliti melakukan pemilihan data dari sekumpulan
data kependudukan sesuai dengan data yang dibutuhkan dan data
yang akan diolah berdasarkan kriteria tertentu. Kriteria yang akan
dipakai dalam penelitian ini adalah kriteria miskin berdasarkan BPS,
kriteria ini digunakan untuk proses penentuan kondisi perekonomian
penduduk desa. Data yang sudah diseleksi akan disimpan dalam
database baru, terpisah dari database operasional desa.
d. Pre-processing
Pada tahap ini semua data akan melewati tahap pembersihan data
(Cleaning ) yaitu membuang redudansi (duplikasi) data dengan cara
memeriksa nilai data setiap variabel, memperbaiki kesalahan dalam
penulisan dan kesalahan lainnya pada data penduduk. Selain itu, ada
juga penggantian atribut-atribut data yang tidak relevan dengan
hipotesa data mining yang dimiliki.
e. Transformasi
Pada tahap ini semua data akan direpresentasikan sesuai tujuan yang
diinginkan, seperti menghubungkan antar tabel yang memiliki
keterkaitan pola, menambah kolom, dan transformasi lainnya.
Transformasi ini merupakan proses yang bertujuan untuk
mengkonversi data dari format sistem operasional ke format sistem
target, sehingga data tersebut sesuai dengan data mining .
-
8/16/2019 a2.1100145 Wulan Handayani
54/90
f. Data mining
Pada proses data mining variabel yang terpilih akan dilakukan
pencarian model, dengan cara mengelompokan data berdasarkan
klasifikasi tertentu, memilih metode apa yang sesuai dengan informasi
yang ingin diketahui, memilih teknik sesuai dengan model yang sudah
dipilih, dan menentukan algoritma yang akan digunakn untuk
menghasilkan informasi.
Pada penelitian ini metode yang digunakan adalah teknik klasifikasi
yang merupakan proses pencarian sekumpulan model atau fungsi
yang menggambarkan dan membedakan kelas data dengan tujuan
untuk memprediksi kelas yang belum diketahui sebelumnya. Metode
yang digunakan yaitu decision tree dengan menggunakan algoritma
C4.5.
g. Laporan
Hasil yang diperoleh dari penelitian ini yaitu menentukan kondisi
perekonomian di Desa Mulyajaya yang memperlihatkan apakah
penduduk di Desa tersebut termasuk kategori miskin atau tidak miskin,
hal tersebut dapat berguna untuk pengambilan keputusan dimasa
mendatang mengenai bantuan sosial dari pemerintah yang akan
diberikan kepada penduduk secara tepat.
-
8/16/2019 a2.1100145 Wulan Handayani
55/90
3.5 Rencana Validasi Model
a. Menguji apakah model data mining dengan teknik klasifikasi dapat
memaksimalkan data penduduk agar dapat disajikan secara tepat dan
akurat?
b. Menguji apakah model data mining dapat menghasilkan informasi yang
akurat mengenai penentuan kondisi perekonomian penduduk di Desa
Mulyajaya?
3.6 Jadwal Penelitian
Tabel 3.1 Jadwal Penelitian
No KegiatanBulan / MingguMaret April Mei Juni1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
1 Penguraian Masalah
2 Pengumpulan Data3 Selection4 Praprocesing5 Transformation6 Data mining
7 Laporan
-
8/16/2019 a2.1100145 Wulan Handayani
56/90
BAB IV
PENGEMBANGAN MODEL
4.1 Pendefinisian Sistem
Model data mining dalam penentuan kondisi perekonomian
penduduk di Desa Mulyajaya adalah model data mining yang digunakan
untuk mengetahui suatu pola data dan hubungan keterkaitan antar data
dari data penduduk, yang bertujuan agar dapat menemukan informasi
tersembunyi dari database penduduk, yaitu berupa kodisi perekonomian
penduduk. Model data mining dalam penentuan kondisi perekonomian
penduduk di Desa Mulyajaya ini, menggunakan teknik klasifikasi dengan
metode pohon keputusan (decision tree ).
Pada data mining ini, akan digali informasi dari data penduduk dan
data penduduk yang dipilih berdasarkan kebutuhan, selanjutnya disimpan
dalam database baru yang terpisah dari data operasional. Sebelum diolah
lebih lanjut, data penduduk akan melalui beberapa tahapan. Tahap
pembersihan data meliputi penghapusan duplikat data (redudansi),
memperbaiki kesalahan penulisan dan kesalahan lainnya. Data yang
sudah bersih akan ditransformasi sesuai dengan kebutuhan informasi,
yaitu dengan menggabungkan tabel yang memiliki keterkaitan pola data
dikelompokan pada kelas yang belum diketahui sebelumnya. Setelah
beberapa langkah tersebut, maka langkah selanjutnya adalah menggali
informasi dari data yang sudah dikelompokan berdasarkan kriteria tertentu
-
8/16/2019 a2.1100145 Wulan Handayani
57/90
sesuai dengan ke
dari keterkaitan pol
keputusan dan alg
4.1.1 Aspek strukt
Tahap dalam
gambar 4.1 sebag
Pen
(
4.1.2 Perilaku sist
Dari aspek st
dari model data m
dengan dihasilkan
berikut:
butuhan informasinya. Untuk menghas
a data tersebut diproses menggunakan
ritma C4.5.
ur
membangun model data mining did
i berikut:
Gambar 4.1Aspek Struktur Model Data Miningntuan Kondisi Perekonomian Penduduk
umber: Fajar Astuti Hermawati, 2013)
m
ruktur di atas, maka dapat dijelaskan
ning yang dikembangkan, mulai dari da
informasi. Adapun penjelasannya a
ilkan informasi
metode pohon
finisikan pada
erilaku sistem
tabase sampai
alah sebagai
-
8/16/2019 a2.1100145 Wulan Handayani
58/90
a. Database Penduduk sebagai tempat menyimpan data penduduk.
b. Proses seleksi data adalah model proses dalam pemilihan data
berdasarkan kebutuhan informasi dan disimpan pada database baru
yang terpisah dari database operasional.
c. Proses pembersihan data adalah model proses dalam pembersihan
data, seperti menghapus duplikasi data dan memperbaiki kesalahan
lainnya.
d. Proses transformasi adalah model proses data sesuai kebutuhan,
seperti menambahkan variabel dan proses lainnya.
e. Proses data mining adalah model proses untuk mengolah kembali data
dalam mendapatkan keterkaitan pola antar variabel.
f. Untuk mengetahui keterkaitan pola antar varibel, data akan
dikelompokan berdasarkan kriteria tertentu sesuai dengan kebutuhan
informasi.
g. Variabel yang sudah terpilih akan diseleksi kembali untuk dijadikan
node . Pemilihan variabel dilakukan berdasarkan perhitungan nilai
entropy dan nilai gain tertinggi. Dari perhitungan tersebut dapat
diketahui beberapa variabel serta nilai-nilai variabel yang mendukung
untuk pengambilan keputusan tehadap suatu kebutuhan informasi.
h. Informasi yang dihasilkan dari perhitungan entropy dan gain dapat
dijadikan pengetahuan baru berupa kelompok penduduk mampu dan
tidak mampu yang berguna sebagai sarana pembangunan desa di
masa mendatang.
-
8/16/2019 a2.1100145 Wulan Handayani
59/90
4.1.3 Performansi sistem
Berdasarkan perilaku sistem di atas maka di dapat performansi
sistem dalam penerapan model data mining pada database penduduk,
mampu mengatasi masalah-masalah data kependudukan, diantaranya:
a. Data yang akurat mampu mengefisiensikan kinerja aparat desa,
sehingga pelayanan kepada masyarakat bisa lebih maksimal.
b. Penggalian informasi terhadap data penduduk mampu menghasilkan
informasi penting bagi pihak Desa, sehingga dapat dijadikan sebagai
acuan untuk proses pengambilan keputusan dimasa mendatang.
4.1.4 Lingkungan sistem
Kemampuan data mining untuk menangani data dalam jumlah besar
memungkinkan data mining diterapkan pada masalah-masalah kompleks
yang ukurannya tidak dibatasi oleh otak manusia, seperti diterapkan pada
database penduduk. Namun, dalam implementasi data mining pada
database penduduk kurang maksimal apabila ada beberapa faktor yang
tidak bisa dikendalikan oleh sistem, diantaranya:
a. Dalam menemukan pengetahuan dengan data mining tidak bisa
dilakukan secara instan.
b. Penilaian hasil data mining dilakukan secara manual.
c. Sumber daya manusia yang belum memahami cara kerja model data
mining dan algoritma data mining yang cukup kompleks.
-
8/16/2019 a2.1100145 Wulan Handayani
60/90
4.2 Formulasi Model yang Dikembangakan
Pada tahap ini menjelaskan tentang formula-formula yang akan di
kembangkan untuk membuat model data mining yang mampu mengatasi
masalah pada proses penentuan kondisi perekonomian penduduk.
4.2.1 Formulasi database yang sedang berjalan
Berdasarkan database yang sedang berjalan, skema data yang
terbentuk adalah sebagai berikut:
Gambar 4.2 Skema Database yang Sedang Berjalan
Permasalahan yang dapat dilihat dari proses kerja yang sedang
berlangsung dan masalah dalam database yang sedang berjalan yaitu
belum maksimalnya pengelolaan database penduduk yang hanya
digunakan untuk menampilkan data penduduk saja, selain itu belum
jelasnya kelompok keluarga miskin dan tidak miskin sehingga masih
-
8/16/2019 a2.1100145 Wulan Handayani
61/90
terjadi kesalahan dalam hal pengambilan keputusan mengenai pemberian
bantuan sosial kepada penduduk.
Solusi yang diusulkan berdasarkan permasalahan tersebut di atas
yaitu menerapan model data mining dalam penentuan kondisi
perekonomian penduduk di Desa Mulyajaya. Model data mining ini
digunakan untuk menggali informasi tersembunyi mengenai kondisi
perekonomian penduduk dari database penduduk. Sehingga database
tersebut tidak hanya digunakan untuk menampilkan data penduduk saja.
4.2.2 Formulasi sistem yang diusulkan
Berdasarkan database yang berjalan, terdapat 4 tabel. Adapun
struktur tabel yang terdapat pada database penduduk, yaitu:
Tabel 4.1 Struktur Data Tabel Data KK
No Field Type Size1 Kode Keluarga Number
2 Nama Kepala Keluarga Text 303 No Urut Number
4 NIK Number5 Nama Anggota Keluarga Text 306 Jenis Kelamin Text 1
7 Hubungan Keluarga Text 208 Tempat Lahir Text 15
9 Tanggal Lahir Date/Time10 Usia Number11 Status Perkawinan Text 15
12 Agama Text 1013 Golongan Darah Text 214 Kewarganegaraan Text 2515 Pendidikan Text 2516 Pekerjaan Text 30
-
8/16/2019 a2.1100145 Wulan Handayani
62/90
Tabel 4.2 Struktur Data Tabel Data Kondisi Fisik Rumah
No Field Type Size
1 Kode Keluarga Number2 Nama Kepala Keluarga Text 303 Penguasaan Aset Tanah Text 30
4 Dinding Rumah Text 105 Lantai Rumah Text 106 Atap Rumah Text 10
Tabel 4.3Struktur Data Tabel Kualitas Penduduk
No Field Type Size
1 Kode Keluarga Number2 Nama Kepala Keluarga Text 303 Fasilitas Buang Air Besar Text 50
4 Pola Makan Text 255 Kebiasaan Berobat Text 50
Tabel 4.4 Struktur Data Tabel Kesejahteraan Penduduk
No Field Type Size1 Kode Keluarga Number
2 Nama Kepala Keluarga Text 303 Penghasilan/Bulan (Rp) Number4 Pengeluaran/Bulan (Rp) Number
5 Kepemilikan Rumah Text 20
Pembentukan database baru dilakukan dengan cara menyeleksi data
penduduk sesuai dengan kebutuhan informasi. Informasi yang dibutuhkan
yaitu kelompok keluarga miskin dan tidak miskin. Kriteria pengelompokan
keluarga telah ditentukan oleh Badan Pusat Statistik, tetapi hanya
beberapa kriteria yang diambil dalam menentukan pengelompokan
keluarga di Desa Mulyajaya, karena tidak semua kriteria dapat digunakan
sebagai tolak ukur ketidakmampuan suatu keluarga. Adapun kriteria
tersebut adalah sebagai berikut:
-
8/16/2019 a2.1100145 Wulan Handayani
63/90
a. Seluruh penduduk mendapatkan pendidikan minimal wajib sekolah 12
tahun.
b. Salah satu anggota keluarga memiliki pekerjaan dan penghasilan
tetap.
c. Terpenuhinya kebutuhan papan meliputi keadaan dinding, lantai dan
atap rumah.
d. Perilaku hidup sehat seperti memiliki fasilitas buang air besar sendiri
dengan kondisi semi permanen/permanen.
Keluarga miskin merupakan keluarga yang tidak dapat memenuhi
kebutuhan minimum seperti sandang, pangan, papan, pendidikan,
pelayanan kesehatan dan sanitasi.penyeleksian data penduduk dilakukan
dengan dengan pertimbangan sebagai berikut:
a. Variabel yang tidak memiliki missing value atau data variabelnya
lengkap.
b. Jumlah karakter dari nilai variabelnya tidak besar.
c. Variabel sesuai dengan kriteria yang dibutuhkan.
d. Variabel yang memiliki nilai variabel banyak tidak digunakan.
Berdasarkan pertimbangan di atas, maka variabel-variabel terpilih,
yaitu : 1) pendidikan; 2) pekerjaan; 3) penghasilan; 4) dinding rumah; 5)
lantai rumah; dan 6) fasilitas buang air besar. Variabel yang terpilih
berasal dari beberapa tabel.
-
8/16/2019 a2.1100145 Wulan Handayani
64/90
Pada tahap ini, variabel tersebut akan digabungkan menjadi satu tabel
dalam database baru yang terpisah dari database operasional.
4.2.3 Formulasi pre-processing
Data yang akan digunakan untuk proses data mining harus melewati
tahap pembersihan data. Pembersihan data dilakukan dengan cara
memeriksa semua variabel terpilih. Adapun pembersihan data meliputi:
a. Membuang redudansi data, jika beberapa variabel memiliki nilai yang
sama maka salah satunya akan dihapus sehingga tidak ada duplikasi
data.
b. Memeriksa data yang inkonsisten.
c. Memperbaiki kesalahan pada data, seperti kesalahan cetak.
Data yang sudah bersih, tidak terdapat duplikasi, konsisten dan tidak
ada kesalahan sehingga tidak ada data yang perlu dibersihkan. Format
data menjadi seperti pada tabel berikut:
Tabel 4.5 Format Tabel Setelah Pemilihan Variabel
Pendidikan Pekerjaan Penghasilan Dinding Lantai Fasilitas BAB
Data yang sudah bersih selanjutnya akan dilakukan proses
tranformasi.
-
8/16/2019 a2.1100145 Wulan Handayani
65/90
4.2.4 Formulasi transformasi
Pada tahap ini, tabel yang sudah melewati tahap seleksi dan
pembersihan akan melakukan transformasi data dengan cara
menambahkan kolom status. Status merupakan variabel yang
membedakan suatu kelas.
Database baru yang sudah terbentuk dapat dilihat pada gambar
berikut:
Gambar 4.3 Skema Database Baru
Setelah melalui proses seleksi, pembersihan, dan transformasi,
maka data siap untuk melakukan proses data mining . Proses data mining
ini merupakan inti dari penelitian ini.
4.2.5 Formulasi data mining
Pada tahap ini, data akan digali untuk mendapatkan suatu
pengetahuan. Penggalian data ini dilakukan dengan cara mencari
keterkaitan pola antara variabel. Dalam pencarian keterkaitan pola
tersebut digunakan teknik klasifikasi dengan menggunakan metode pohon
keputusan dan algoritma C4.5.
-
8/16/2019 a2.1100145 Wulan Handayani
66/90
4.2.6 Formulasi klasifikasi
Tahap ini merupakan proses menemukan model yang dapat
menjelaskan kelas data. Sebelum melakukan proses selanjutnya, variabel
pendidikan, pekerjaan dan penghasilan akan diklasifikasikan berdasarkan
kriteria tertentu.
Pada variabel pendidikan, data dikelompokan menjadi sudah dan
tidak sekolah. Kriteria pendidikan didefinisikan pada tabel 4.6.
Tabel 4.6 Klasifikasi Pendidikan
Pendidikan Klasifikasi
Tamat SD, SMP, SMA dan PT Sudah
Tidak Tamat SD Tidak
Pada variabel pekerjaan dikelompokan berdasarkan yang
berpenghasilan tetap dan tidak tetap. Pekerjaan didefinisikan pada tabel
4.7.
Tabel 4.7 Klasifikasi Pekerjaan
Pekerjaan Klasifikasi
PNS/TNI/POLRI, Pegawai Swasta, Pensiunan TetapPetani, Nelayan, Pedagang, Wirawsasta, Pekerja Lepas danlain-lain.
Tidak Tetap
Untuk variabel penghasilan dibagi menjadi dua klasifikasi sebagai
berikut (Sumber: BPS):
Tabel 4.8 Klasifikasi Penghasilan
Penghasilan Klasifikasi
Penghasilan < Rp. 600.000,- Rendah
Penghasilan > Rp. 600.000,- Tinggi
-
8/16/2019 a2.1100145 Wulan Handayani
67/90
Setelah melakukan beberapa proses, maka format akhir dapat di
lihat pada tabel
Tabel 4.9 Format Data Klasifikasi
Pendidikan Pekerjaan Penghasilan Dinding LantaiFasilitas
BAB
Sudah Tetap Rendah Tembok KeramikYa
Tidak Tidak Tetap Tinggi Bambu KayuTidak
Kayu Semen
4.2.7 Formulasi pohon keputusan
Dalam membangun pohon keputusan perlu memilih variabel sebagai
akar yang didasarkan pada nilai gain tertinggi dari kasus yang ada.
Langkah perhitungan dalam menentukan node adalah sebagai berikut:
a. Menentukan data sampel
Data yang dihitung adalah nilai entropy dan gain berdasarkan jumlah
kasus yang dijadikan sampel.
Tabel 4.10Data Sampel
Pendidikan Pekerjaan Penghasilan Dinding Lantai F.BABStatus
Sudah Tidak Tetap Tinggi Kayu Semen Ya Tidak Miskin
Tidak Tidak Tetap Rendah Bambu Kayu TidakMiskin
Sudah Tetap Tinggi Tembok Keramik YaTidak Miskin
Sudah Tetap Tinggi Tembok Keramik YaTidak Miskin
Sudah Tetap Tinggi Tembok Keramik YaTidak Miskin
Sudah Tidak Tetap Rendah Bambu Kayu TidakMiskin
Tidak Tidak Tetap Tinggi Bambu Semen TidakMiskin
Sudah Tetap Tinggi Tembok Keramik Ya Tidak Miskin
-
8/16/2019 a2.1100145 Wulan Handayani
68/90
Tidak Tidak Tetap Rendah Tembok Keramik YaMiskin
Tidak Tidak Tetap Rendah Bambu Kayu Tidak
Miskin
Sudah Tetap Tinggi Tembok Keramik TidakTidak Miskin
b. Menentukan jumlah kasus
Menghitung jumlah kasus secara keseluruhan, menghitung jumlah
kasus berdasarkan kelas miakin dan tidak miskin dari semua sampel
data, dan menghitung jumlah kelas miskin dan tidak miskin
berdasarkan nilai masing-masing variabel. Berikut skema untuk
perhitungan nilai entropy dan gain :
Tabel 4.11 Skema Tabel Perhitungan Entropy dan Gain
Node Jml Kasus
(S)
Miskin
!)Tidak Miskin
")Entropy Gain
1 Total
Variabel
Nilai
Nilai
Variabel
Nilai
Nilai
Variabel
Nilai
Nilai
Nilai
-
8/16/2019 a2.1100145 Wulan Handayani
69/90
c. Menghitung entropy total
Nilai entropy total adalah nilai entropy kasus secara keseluruhan. Data
yang diperlukan pada perhitungan ini adalah keseluruhan jumlah
kasus yang menempati kelas miskin dan kelas tidak miskin. Adapun
rumus untuk perhitungannya adalah sebagai berikut:
= − # − ∗ log
Perhitungan entropy dilakukan dengan menghitung selisih antara
proporsi kasus miskin terhadap jumlah seluruh kasus, dengan proporsi
antara kasus tidak miskin terhadap seluruh kasus.
a. Menghitung entropy masing-masing nilai variabel
Pada perhitungan ini, masing-masing nilai variabel akan dihitung
jumlah kasus yang menempati kelas miskin dan tidak miskin. Setelah
itu tentukan nilai dari setiap kelasnya, perhitungan entropy dilakukan
dengan cara menghitung selisih antara proporsi jumlah kasus yang
menempati kelas miskin terhadah jumlah kasus dari variabel dengan
jumlah kasus yang menempati kelas tidak miskin terjadap jumlah
kasus dari variabel.
b. Menghitung nilai gain
Setelah nilai entropy didapatkan, selanjutnya perhitungan gain.
Menghitung gain dapat menggunakan rumus 2.2 sebagai berikut:
, = − # |||| ∗
-
8/16/2019 a2.1100145 Wulan Handayani
70/90
Nilai gain merupakan selisih antara nilai entropy total dari keseluruhan
jumlah kasus dengan nilai entropy total dari masing-masing variabel.
Entropy total variabel adalah jumlah total dari nilai entropy dari masing-
masing nilai variabel.
c. Menentukan node akar
Yang dijadikan node akar pada pohon keputusan adalah nilai gain
tertinggi.
d. Menentukan node cabang
Nilai variabel dari node akar akan dilakukan perhitungan untuk node
cabang. Sebelum mendapatkan node cabang, nilai variabel dari node
akar akan dihitung apakah pohon keputusan akan berlanjut atau tidak.
Nilai variabel mengkalsifikasikan kasus lebih dari satu kelas maka
perhitungan akan di lanjutkan dengan membentuk node cabang.
e. Menentukan leaf node
Jika nilai variabel mengklasifikasikan kasus menjadi satu kelas maka
perhitungan selesai. Berarti tidak ada node cabang. Berikut skema
pohon keputusannya:
-
8/16/2019 a2.1100145 Wulan Handayani
71/90
Gambar(
Dari skema d
nilai variabel.
mengklasifikasikan
sedangkan nilai v
sehingga masih h
cabang. Nilai vari
dalam satu ketas
variabel telah dikel
4.2.8 Formulasi at
Setelah pem
berupa aturan if-th
4.4 Skema Pohon Keputusan (Decisionumber: Fajar Astuti Hermawati, 2013)
iatas dapat dijelaskan bahwa node ak
ilai variabel pertama merupakan
kasus menjadi satu sehingga diben
riabel kedua mengklasifikasikan ke da
rus melakukan perhitungan untuk me
bel dari node cabang mengklasifika
ehingga dibentuk leaf node dan masi
mpokan berdasarkan kelas tertentu.
ran (IF-THEN )
bentukan pohon keputusan, dapat di
n, yaitu if node akar and node cabang
Tree )
r memiliki dua
nilai yang
uk leaf node ,
lam dua kelas
mbentuk node
ikan kelas ke
g-masing nilai
bentuk aturan
then leaf node
-
8/16/2019 a2.1100145 Wulan Handayani
72/90
berupa kelompok keluarga miskin dan keluarga tidak miskin. Aturan yang
terbentuk dapat dimanfaatkan untuk proses pengambilan keputusan.
4.3 Analisis Model
Berdasarkan tahapan-tahapan formulasi yang telah dijelaskan, maka
didapat analisis penerapan model data mining terhadap database. Rincian
analisis tersebut adalah sebagai berikut:
a. Database
Data yang digunakan adalah data penduduk di Desa Mulyajaya.
Adapun skema database nya adalah sebagai berikut.
Tabel 4.12 Database Penduduk yang Sedang Berjalan
b. Seleksi Data
Proses seleksi data dilakukan berdasarkan kriteria tertentu sesuai
dengan kebutuhan informasi. Variabel yang diseleksi berasal dari tabel
-
8/16/2019 a2.1100145 Wulan Handayani
73/90
penduduk, tabel kondisi fisik rumah, tabel kesejahteraan penduduk dan
tabel kualitas penduduk.
Data yang diseleksi merupakan data yang tidak memiliki missing
value , inkonsisten dan kesalahan lainnya serta sesuai dengan
informasi yang akan dihasilkan dari variabel yang ada pada database
yang sedang berjalan.
Tabel 4.13
Tabel Penduduk Sebelum Diseleksi
-
8/16/2019 a2.1100145 Wulan Handayani
74/90
Tabel 4.14 Tabel Kesejahteraan Keluarga Sebelum Seleksi
Kode KeluargaNama Kepala
KeluargaPenghasilan/Bulan (Rp)
Pengeluaran/Bulan (Rp)
KepemilikanRumah
32052302099 NYANGNYANG 1.000.000 1.000.000 Milik Orang Tua
321101000 SARA 400.000 400.000 Pinjam Pakai
32110123030 YAYA S.pd. 6.000.000 4.000.000 Milik Sendiri
32110124030 WOWO SUKIRTA 4.000.000 2.000.000 Milik Sendiri
32110123030 KATMA 2.200.000 2.200.000 Milik Sendiri
32110140510 TATANG 1.000.000 1.000.000 Milik Sendiri
32110123030 ACIM 500.000 500.000 Milik Sendiri
32110113100 ADE SUYANTO 2.000.000 2.000.000 Milik Sendiri32110124030 SUMARJA 400.000 400.000 Milik Sendiri
32111000023 ERAT 300.000 300.000 Milik Sendiri
32110123030 AMAR 2.000.000 2.000.000 Milik Sendiri
10171620908 AGUS SUHENDRA 2.000.000 2.000.000 Milik Sendiri
32081723068 NANANG SURISNA 500.000 500.000 Milik Orang Tua
32110001111 CECEP TATANG R 2.000.000 1.000.000 Milik Orang Tua
Tabel 4.15 Tabel Kondisi Fisik Rumah Sebelum Seleksi
Kode Keluarga Nama Kepala KeluargaDindingRumah
LantaiRumah
AtapRumah
32052302099 NYANGNYANG Kayu Semen Genteng
321101000 SARA Tembok Semen Genteng
32110123030 YAYA S.Pd. Tembok Keramik Genteng
32110124030 WOWO SUKIRTA Tembok Keramik Genteng
32110123030 KATMA Tembok Keramik Genteng
32110140510 TATANG Tembok Keramik Genteng
32110123030 ACIM Bambu Semen Genteng
32110113100 ADE SUYANTO Kayu Semen Genteng
32110124030 SUMARJA Tembok Keramik Genteng
32111000023 ERAT Bambu Semen Genteng
32110123030 AMAR Tembok Keramik Genteng
10171620908 AGUS SUHENDRA Tembok Keramik Genteng
32081723068 NANANG SURISNA Bambu Kayu Genteng
32110001111 CECEP TATANG R Tembok Keramik Genteng
-
8/16/2019 a2.1100145 Wulan Handayani
75/90
Tabel 4.16 Tabel Kualitas Keluarga Sebelum Seleksi
Kode Keluarga Nama Keluarga Fasilitas BAB Pola Makan
32052302099 NYANGNYANG WC Permanen 3 kali
321101000 SARA Fasilitas Umum 3 kali
32110123030 YAYA S.pd. WC Permanen 3 kali
32110124030 WOWO SUKIRTA WC Permanen 3 kali
32110123030 KATMA WC Permanen 3 kali
32110140510 TATANG WC Darurat 3 kali
32110123030 ACIM WC Darurat 3 kali
32110113100 ADE SUYANTO WC Permanen 3 kali
32110124030 SUMARJA WC Permanen 2 kali
32111000023 ERAT WC Darurat 3 kali
32110123030 AMAR WC Darurat 3 kali
10171620908 AGUS SUHENDRA WC Permanen 3 kali
32081723068 NANANG SURISNA Fasilitas Umum 3 kali
32110001111 CECEP TATANG R WC Permanen 3 kali
Variabel hasil seleksi terdiri dari pendidikan dan pekerjaan dari tabel
penduduk, penghasilan dari tabel kesejahteraan penduduk, dinding,
lantai, atap dari tabel kondisi fisik rumah, fasilitas bab dari tabel
kualitas penduduk. Tabel baru di simpan diluar database operasional.
Semua variabel yang dibutuhkan digabungkan menjadi satu tabel
berdasarkan kode kk.
-
8/16/2019 a2.1100145 Wulan Handayani
76/90
Tabel 4.17 Proses Penggabungan Tabel
KodeKeluarga
Nama KepalaKeluarga
Pendidikan Pekerjaan Penghasilan/Bulan (Rp)
DindingRumah
LantaiRumah
Fasilitas BAB
32052302099 NYANGNYANGTamat SLTP
Wiraswasta 1.000.000 Kayu Semen WC Permanen
321101000 SARATamat SD
Buruh 400.000 Tembok Semen Fasilitas Umum
32110123030 YAYA S.pd. Tamat S-1 PNS 6.000.000 Tembok Keramik WC Permanen
32110124030 WOWO S Tamat S-1 PNS 4.000.000 Tembok Keramik WC Permanen
32110123030 KATMA Tamat SD Buruh 2.200.000 Tembok Keramik WC Permanen
32110140510 TATANG Tamat SDIbu RumahTangga
1.000.000 Tembok Keramik WC Darurat
32110123030 ACIMTidak tamatSD
Petani 500.000 Bambu Semen WC Darurat
32110113100 ADE S Tamat S-1 Guru swasta 2.000.000 Kayu Semen WC Permanen
32110124030 SUMARJATidak tamatSD
Petani 400.000 Tembok Keramik WC Permanen
32111000023 ERATTidak tamatSD
BelumBekerja
300.000 Bambu Semen WC Darurat
32110123030 AMAR Tamat SLTA Pensiunan 2.000.000 Tembok Keramik WC Darurat
10171620908 AGUS S Tamat SLTA Petani 2.000.000 Tembok Keramik WC Permanen
32081723068 NANANG S Tamat SD IRT 500.000 Bambu Kayu Fasilitas Umum
32110001111 CECEP T.R Tamat SLTP Buruh 2.000.000 Tembok Keramik WC Permanen
Variabel kode kk diambil untuk menyesuaikan data pada proses
penggabungan, setelah data sesuai maka kode kk akan dihapus.
Tabel 4.18Data Hasil Seleksi
Nama KepalaKeluarga
Pendidikan PekerjaanPenghasilan/
Bulan (Rp)DindingRumah
LantaiRumah
Fasilitas BAB
NYANGNYANG Tamat SLTP Wiraswasta 1.000.000 Kayu Semen WC Permanen
SARA Tamat SD Buruh 400.000 Tembok Semen Fasilitas Umum
YAYA S.pd. Tamat S-1 PNS 6.000.000 Tembok Keramik WC Permanen
WOWO S Tamat S-1 PNS 4.000.000 Tembok Keramik WC Permanen
KATMA Tamat SD Buruh 2.200.000 Tembok Keramik WC Permanen
TATANG Tamat SD IRT 1.000.000 Tembok Keramik WC Darurat
ACIM Tidak tamat SD Petani 500.000 Bambu Semen WC Darurat
ADE SUYANTO Tamat S-1 Guru swasta 2.000.000 Kayu Semen WC Permanen
SUMARJA Tidak tamat SD Petani 400.000 Tembok Keramik WC Permanen
ERAT Tidak tamat SDBelumBekerja
300.000 Bambu Semen WC Darurat
AMAR Tamat SLTA Pensuinan 2.000.000 Tembok Keramik WC Darurat
AGUS S Tamat SLTA