i
Kode/Nama
Rumpun Ilmu
: 122/Statistika
Bidang Fokus : Sosial Humaniora-Seni
Budaya-Pendidikan
LAPORAN AKHIR
PENELITIAN DISERTASI DOKTOR
Pengembangan Hibermimo Menggunakan Bayesian MCMC
Untuk Pemodelan Data Bidikmisi Propinsi Jawa Tengah
Penyusun:
WAHYUNI SURYANINGTYAS, M.Si.
NIDN. 0705118301
Dibiayai oleh:
Direktorat Riset dan Pengabdian Masyarakat
Direktorat Jenderal Penguatan Riset dan Pengembangan
Kementerian Riset, Teknologi dan Pendidikan Tinggi
Sesuai dengan Kontrak Penelitian
Nomor: 011/SP2H/LT/K7/KM/2018
Tanggal 24 April 2018
LEMBAGA PENELITIAN DAN PENGABDIAN KEPADA MASYARAKAT
UNIVERSITAS MUHAMMADIYAH SURABAYA
NOVEMBER 2018
ii
HALAMAN PENGESAHAN
iii
RINGKASAN
Pengembangan Hibermimo Menggunakan Bayesian MCMC Untuk
Pemodelan Data Bidikmisi Propinsi Jawa Tengah
Implementasi Bidikmisi diberikan khusus bagi mayarakat marginal, namun
pelaksanaannya terkendala masalah pemerataan karena letak georafis dan
kemampuan masyarakat untuk mengakses informasi. Oleh karena itu perlu
dilakukan pengembangan model penyelenggaran Bidikmisi dalam rangka
meningkatkan kualitas SDM siap berkompetisi Masyarakat Ekonomi ASEAN
(MEA). Penelitian bertujuan melakukan pengembangan model linear hirarki dua level
untuk pemodelan data Bidikmisi dilakukan dengan memperhatikan adanya kekhususan
dalam data penerimaan beasiswa Bidikmisi prototype Provinsi Jawa Tengah. Bidikmisi
memiliki struktur data hirarki dengan respon biner (0 dan 1) berdistribusi Bernoulli
mixture. Kekhususan kondisi data tersebut akan menjadi salah satu keunikan dari
penelitian ini. Pemodelan dilakukan dengan mengembangkan model linear hirarki dua
level menggunakan respon status penerimaan beasiswa Bidikmisi yang berdistribusi
Bernoulli mixture yang merupakan finite mixture karena memiliki 2 (dua) komponen
yang telah ditentukan. Pengembangan analisis data berhirarki dengan
menggabungkan konsep Bernoulli mixture menghasilkan pemodelan baru yang
disebut dengan Hierarchical Bernoulli Mixture Model (Hibermimo). Proses
estimasi Hibermimo dua level dilakukan melalui pendekatan Bayesian menggunakan
Markov Chain Monte Carlo (MCMC) dan algoritma Gibbs Sampling. Penelitian
pengembangan Hibermimo dua level menghasilkan model dan peta tematik untuk
memprediksi jumlah siswa yang diterima program Beasiswa Bidikmisi pada
Kabupaten/Kota Provinsi Jawa Tengah. Hasil penelitian diharapkan dapat dijadikan
pertimbangan dalam pengambilan kebijakan yang berhubungan penerimaan
beasiswa Bidikmisi. Target luaran dalam penelitian ini di seminarkan di seminar
nasional dan internasional serta dipublikasikan pada jurnal internasional yaitu
Journal Communications in Statistics-Theory and Methods. Penyelesaian
studi s3 di targetkan pada awal tahun 2019.
Kata Kunci : Bernoulli mixture, finite mixture, Bayesian, MCMC, Gibbs Sampling,
Bidikmisi
iv
PRAKATA
Puji syukur kehadirat Allah SWT yang telah memberikan hidayah, kekuatan,
rahman dan rahim, serta kesehatan sehingga dapat terselesaikan laporan akhir hibah
Penelitian Disertasi Doktor (PDD) Tahun 2018. Penelitian yang berjudul
“Pengembangan Hibermimo Menggunakan Bayesian MCMC untuk Pemodelan
Data Bidikmisi Propinsi Jawa Tengah” atas bantuan baik secara material maupun
moril dari berbagai pihak yang tidak mungkin kami sebutkan satu persatu. Namun
demikian merupakan sebuah kehormatan jika kami diperkenankan menyampaikan
ucapan terima kasih kepada:
1. Direktur Riset dan Pengabdian Masyarakat (DRPM), Kementrian Riset dan
Teknologi Pendidikan Tinggi, Usulan Program Hibah Penelitian Disertasi
Doktor (PDD) Tahun 2018, atas fasilitas dan khususnya pendanaan dalam
penelitian hibah, sehingga memberikan kesempatan kepada peneliti untuk dapat
berusaha untuk mengembangkan potensi diri.
2. Dr. Sukadiono, MM., Rektor Universitas Muhammadiyah Surabaya, yang telah
memberikan petunjuk serta memotivasi peneliti untuk menyusun proposal dan
melaksanakan penelitian.
3. Prof. Drs. Nur Iriawan, MIKom., Ph.D, Promotor Program Doktor Departemen
Statistika, Fakultas Matematika, Komputasi dan Sains Data (FMKSD) Institut
Teknologi Sepuluh Nopember, yang telah banyak memberikan bimbingan dan
petunjuk dalam menyusun disertasi.
4. Endah Hendarwati, SE., M.Pd., Dekan Fakultas Keguruan dan Ilmu Pendidikan,
yang telah memotivasi peneliti.
5. Dr. Sujinah, M.Pd., Ketua Lembaga Penelitian dan Pengabdian Masyarakat
Universitas Muhammadiyah Surabaya, yang telah memberikan petunjuk dan
bimbingan untuk melaksanakan penelitian dan menyusun laporan kemajuan
serta laporan akhir.
6. Mahasiswa S2 Statistika ITS Tim Hibah Hibah PDD Tahun 2018 yang telah
mendukung dan membantu pelaksanaan kegiatan penelitian.
Peneliti menyadari bahwa laporan akhir Hibah PDD Tahun 2018 ini masih
jauh dari sempurna, karena itu, segala kritik, tanggapan, komentar-komentar dari
segenap pembaca sangat diharapkan, serta bimbingan dari pakar sangat penulis
harapkan, demi perbaikan yang akan digunakan untuk menyusun disertasi dan
laporan hibah penelitian.
Surabaya, November 2018
Peneliti
v
DAFTAR ISI
HALAMAN PENGESAHAN ................................................................................. ii
RINGKASAN ........................................................................................................ iii
PRAKATA ............................................................................................................. iv
DAFTAR ISI ........................................................................................................... v
DAFTAR TABEL .................................................................................................. vi
DAFTAR GAMBAR ............................................................................................. ix
BAB 1 PENDAHULUAN .................................................................................... 1
1.1 Latar Belakang ......................................................................................... 1
1.2 Kebaruan .................................................................................................. 2
1.3 Tujuan Khusus .......................................................................................... 3
1.4 Urgensi / Keutamaan Penelitian ............................................................... 3
1.5 Kaitan Penelitian dengan Penyelesaian Desertasi .................................... 4
1.6 Luaran Penelitian ...................................................................................... 4
BAB 2 TINJAUAN PUSTAKA ........................................................................... 6
2.1 Skema Penelitian Relevan ........................................................................ 6
2.2 Road Map Penelitian ................................................................................ 8
2.3 Metode Bayesian ...................................................................................... 9
2.4 Deviance Information Criterion ............................................................... 9
BAB 3 TUJUAN DAN MANFAAT PENELITIAN .......................................... 10
3.1 Tujuan Penelitian .................................................................................... 10
3.2 Manfaat Penelitian .................................................................................. 10
BAB 4 METODOLOGI PENELITIAN.............................................................. 11
4.1 Kajian Teori (Pengembangan Teori) ...................................................... 11
4.2 Kajian Empiris (Penelitian Aplikatif) ..................................................... 12
4.2.1 Sumber Data ........................................................................................... 12
4.2.2 Skema Struktur Hirarki .......................................................................... 12
4.2.3 Variabel Penelitian ................................................................................. 12
BAB 5 HASIL DAN LUARAN YANG DICAPAI ............................................ 14
BAB 6 RENCANA TAHAPAN BERIKUTNYA .............................................. 69
BAB 7 KESIMPULAN DAN SARAN............................................................... 74
DAFTAR PUSTAKA ........................................................................................... 75
vi
DAFTAR TABEL
Tabel 1.1 Rencana Target Capaian Luaran Penelitian Hibah PDD ..................... 5
Tabel 5.1 Kabupaten/Kota Provinsi Jawa Tengah ............................................. 15
Tabel 5.2 Data Pendaftar Beasiswa Bidikmisi Provinsi Jawa Tengah 2015
Berdasarkan Jenis Kelamin ................................................................ 15
Tabel 5.3 Rekapitulasi Jumlah Pendaftar Bidikmisi Provinsi Jawa Tengah 2015
............................................................................................................ 16
Tabel 5.4 Rekapitulasi Penerimaan Beasiswa Bidikmisi Provinsi Jawa Tengah
Tahun 2015 ......................................................................................... 17
Tabel 5.5 Rekapitulasi Penerimaan Bidikmisi Provinsi Jawa Tengah 2015 per
Kabupaten/Kota .................................................................................. 17
Tabel 5.6 Rincian Variabel Penelitian ................................................................ 22
Tabel 5.7 Klasifikasi berdasarkan Kondisi Penerimaan Beasiswa Bidikmisi
Indonesia 2015 ................................................................................... 24
Tabel 5.8 Klasifikasi Polytomous Penerimaan Beasiswa Bidikmisi Indonesia
2015 .................................................................................................... 24
Tabel 5.9 Signifikansi Parameter Model Regresi Dummy Provinsi Kepulauan
Jawa Tengah ....................................................................................... 27
Tabel 5.10 Ketepatan Klasifikasi Model Regresi Dummy Provinsi Kepulauan Jawa
Tengah ................................................................................................ 28
Tabel 5.11 Signifikansi Parameter Model Regresi Polytomous Provinsi Kepulauan
Jawa Tengah ....................................................................................... 29
Tabel 5.12 Ketepatan Klasifikasi Model Regresi Polytomous Provinsi Kepulauan
Jawa Tengah ....................................................................................... 30
Tabel 5.13 Signifikansi Parameter Model Regresi Bernoulli Mixture Bayesian
Provinsi Jawa Tengah......................................................................... 32
Tabel 5.14 Ketepatan Klasifikasi Model Regresi Bernoulli Mixture Bayesian
Provinsi Jawa Tengah......................................................................... 33
Tabel 5.15 Confussion Matrix AdaBoost.M2 untuk Masing-masing Iterasi ....... 35
Tabel 5.16 Confussion Matrix SMOTE-Boosting untuk Masing-masing Iterasi . 38
Tabel 5.17 Confussion Matrix SMOTE-Bagging untuk Masing-masing Iterasi.. 40
vii
Tabel 5.18 Perbandingan Kinerja Performansi Klasifikasi Data Bidikmisi ......... 43
Tabel 5.19 Identifikasi Kondisi Klasifikasi Data Bidikmisi ................................ 45
Tabel 5.20 Identifikasi Kondisi Klasifikasi Data Bidikmisi dengan Tiga Metode
............................................................................................................ 46
Tabel 5.21 Tingkat Kinerja AUC, G-Mean, dan Akurasi Data Testing dan Data
Training 1 Hidden Layer .................................................................... 49
Tabel 5.22 Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network..... 50
Tabel 5.23 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data
Training Pada Model Neural Network Backpropagation (1 Hidden
Layer) ................................................................................................. 51
Tabel 5.24 Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network
Backpropagation Pada Data Testing dengan 1 Hidden Layer ........... 52
Tabel 5.25 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data
Testing Pada Model Neural Network Backpropagation (1 Hidden
Layer) ................................................................................................. 54
Tabel 5.26 Hasil Kinerja Kasifikasi dengan Jumlah Neuron 4 Pada 1 hidden layer
............................................................................................................ 55
Tabel 5.27 Tingkat Kinerja AUC, G-Mean, dan Akurasi Data Testing dan Data
Training dengan 2 Hidden Layer ....................................................... 56
Tabel 5.28 Ketepatan Klasifikasi dengan 2 Hidden layer 10-Fold Cross Validation
Neural Network Backpropagation Pada Data Training .................... 57
Tabel 5.29 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data
Training Pada Model Neural Network Backpropagation (2 Hidden
Liayer) ................................................................................................ 59
Tabel 5.30 Ketepatan Klasifikasi denga 2 Hidden layer 10-Fold Cross Validation
Neural Network Backpropagation Pada Data Testing ...................... 60
Tabel 5.31 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data
Testing Pada Model Neural Network Backpropagation (2 Hidden
Layer) ................................................................................................. 61
Tabel 5.32 Hasil Kinerja Klasifikasi 10-Fold dengan Jumlah Neuron (10-4)
dengan 2 Hidden Layer Pada Data Training Dan Testing ................. 63
viii
Tabel 5.33 Hasil Kinerja Klasifikasi BPN-GA dengan 4 Neuron Pada 1 Hidden
Layer................................................................................................... 66
Tabel 5.34 Kinerja Hasil Klasifikasi Tanpa dan dengan Optimasi Bobot dan Bias
Pada Neural Network Backpropagation ............................................. 67
Tabel 6.1 Target Capaian Luaran PDD .............................................................. 72
ix
DAFTAR GAMBAR
Gambar 2.1 Skema dan Posisi Penelitian .............................................................. 6
Gambar 4.1 Skema Struktur hirarki data Bidikmisi dalam pembentukan model
hirarki penerimaan beasiswa Bidikmisi di seluruh kabupaten/kota
Provinsi Jawa Tengah ...................................................................... 12
Gambar 5.1 Peta Provinsi Jawa Tengah .............................................................. 14
Gambar 5.2 Persentase Penerimaan Bidikmisi per Kabupaten/Kota Provinsi Jawa
Tengah Tahun 2015 ......................................................................... 19
Gambar 5.3 Kerangka Konseptual Variabel-Variabel Penelitian ........................ 21
Gambar 5.4 Doodle Regresi Bernoulli Mixture Bayesian-Level_1 ..................... 26
Gambar 5.5 Plot ACF pada Regresi Bernoulli Mixture Bayesian-Level_1 Provinsi
Jawa Tengah .................................................................................... 31
Gambar 5.6 Serial Plot 10.000 iterasi thin 40 Model Regresi Bernoulli Mixture
Bayesian-Level_1 Provinsi Jawa Tengah ........................................ 31
Gambar 5.7 Error Klasifikasi Random Forest Berukuran Pohon k Untuk Setiap
Prediktor m ....................................................................................... 34
Gambar 5.8 Error Klasifikasi Random Forest Prediktor m Untuk Setiap Pohon k
......................................................................................................... 34
Gambar 5.9 Nilai Kinerja Performansi pada Beberapa Iterasi AdaBoost.M2 ..... 36
Gambar 5.10 Nilai G-Mean dan AUC pada Beberapa Iterasi AdaBoost.M2
......................................................................................................... 37
Gambar 5.11 Nilai Kinerja Performansi pada Beberapa Iterasi SMOTE-Boosting
......................................................................................................... 39
Gambar 5.12 Nilai G-Mean dan AUC pada Beberapa Iterasi SMOTE-Boosting
......................................................................................................... 39
Gambar 5.13 Nilai Kinerja Performansi pada Beberapa Iterasi SMOTE-Bagging
......................................................................................................... 41
Gambar 5.14 Nilai G-Mean dan AUC pada Beberapa Iterasi SMOTE-Bagging
......................................................................................................... 42
Gambar 5.15 Boxplot Nilai Kinerja Performansi G-Mean.................................... 43
Gambar 5.16 Boxplot Nilai Kinerja Performansi AUC ........................................ 44
x
Gambar 5.17 Pie Chart Identifikasi Kondisi Klasifikasi Data Bidikmisi
......................................................................................................... 46
Gambar 5.18 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode AdaBoost.M2
......................................................................................................... 47
Gambar 5.19 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode SMOTE-
Boosting ........................................................................................... 47
Gambar 5.20 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode SMOTE-
Bagging ............................................................................................ 48
Gambar 5.21 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan
1 Hidden layer 10-fold Data Training ............................................. 52
Gambar 5.22 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan
1 Hidden layer 10-fold Data Testing. .............................................. 55
Gambar 5.23 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan
2 Hidden layer 10-fold Data Training ............................................. 59
Gambar 5.24 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan
2 Hidden layer 10-fold Data Testing ................................................ 62
Gambar 5.25 Pembentukan Kromosom Algoritma Genetika ............................... 65
Gambar 6.1 Doodle Regresi Bernoulli Mixture Bayesian-Level_1 ..................... 71
Gambar 6.2 Roadmap PDD Tahun 2018 ............................................................. 73
1
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Program bantuan biaya pendidikan Bidikmisi diluncurkan mulai tahun
2010 oleh pemerintah melalui Direktorat Jenderal Pendidikan Tinggi Kelembagaan,
bertujuan agar dapat mencapai pemerataan akses dan kesempatan belajar pada
jenjang perguruan tinggi serta menghasilkan lulusan yang mandiri, produktif dan
memiliki kepedulian sosial yang mampu berperan dalam upaya pemutusan rantai
kemiskinan sehingga dapat berpartisipasi dalam meningkatkan daya saing bangsa
di era kompetisi global. Implementasi Bidikmisi diberikan khusus bagi mayarakat
marginal, namun pelaksanaannya terkendala masalah pemerataan karena letak
georafis dan kemampuan masyarakat untuk mengakses informasi. Oleh karena itu
perlu dilakukan pengembangan model penyelenggaran Bidikmisi dalam rangka
meningkatkan kualitas SDM siap berkompetisi Masyarakat Ekonomi ASEAN
(MEA) (Direktorat Jenderal Pembelajaran dan Kemahasiswaan, 2016).
Data Bidikmisi berdasarkan konsep Hox (2002), memiliki struktur data
hirarki. Pendekatan model hirarki pada data Bidikmisi diaplikasikan karena model
hirarki dapat digunakan untuk menganalisis informasi dari beberapa level yang
berbeda, yaitu pada level-1 merupakan informasi individu-individu tersarang
(nested) dalam kabupaten/kota dan level-2 merupakan informasi dari
kabupaten/kota dalam wilayah Provinsi. Informasi dari beberapa level yang
berbeda dalam struktur hirarki data dapat dianalisis menjadi satu analisis statistik
secara simulltan (Goldstein , 1995; Hox, 1995). Penelitian bertujuan melakukan
pengembangan model linear hirarki dua level untuk pemodelan data Bidikmisi
dilakukan dengan memperhatikan adanya kekhususan dalam data penerimaan beasiswa
Bidikmisi prototype Provinsi Jawa Tengah. Bidikmisi memiliki struktur data hirarki
dengan respon biner (0 dan 1) berdistribusi Bernoulli mixture. Respon status
penerimaan beasiswa Bidikmisi yang berdistribusi Bernoulli mixture merupakan finite
mixture karena memiliki 2 (dua) komponen yang telah ditentukan. Pengembangan
analisis data Bidikmisi berhirarki selanjutnya dilakukan dengan menggabungkan
konsep mixture. Mixture pada data Bidikmisi berstruktur hirarki terdapat pada
level-1 yang memuat data diskrit respon Bidikmisi bernilai biner. Perkembangan
2
pemodelan mixture data diskrit bernilai biner merupakan salah satu tantangan besar
dalam analitik statistik yang dihadapi oleh para peneliti, karena sebagian besar
literatur banyak membahas tentang pemodelan mixture pada data kontinu.
Pengembangan pemodelan mixture data diskrit pertama kali dilakukan oleh Celeux
dan Govaert (1991) membahas tentang clustering data diskrit dengan menggunakan
classification maximum likelihood (CML). Pada perkembangannya dilakukan di
bidang Biologi yang berhubungan dengan genetik manusia (Abel dkk., 1993),
mikrobiologi (Gyllenberg dkk., 1997) dan komputasi DNA (Fränti dkk., 2003).
Sebagian besar referensi data biner memiliki sejarah yang berada di area text mining
(Wang dan Kabán, 2005). Data text mining berdistribusi Bernoulli, dalam pemodelan
mixture disebut dengan Bernoulli Mixture Model (BMM). Struktur hirarki yang
dipadukan dengan Bernoulli mixture untuk pemodelan data Bidikmisi, diharapkan
akan menghasilkan cara pemodelan baru yang disebut dengan Hierarchical
Bernoulli Mixture Model (Hibermimo). Analisis Hibermimo merupakan model
yang kompleks, sehingga estimasi parameter model menggunakan analisis klasik
dengan keterbatasannya akan sulit untuk diterapkan. Analisis pendekatan Bayesian
pada Hibermimo akan memberikan alternatif solusi mengatasi keterbatasan metode
estimasi klasik. Hibermimo dengan pendekatan Bayesian komputasinya
menggunakan software BUGS (Bayesian Using Gibbs Sampler). Estimasi
parameter model menggunakan proses Markov Chain Monte Carlo (MCMC)
dengan algoritma Gibbs Sampler (Iriawan, 2010).
Penelitian pengembangan Hibermimo dua level menghasilkan model dan
peta tematik untuk memprediksi jumlah siswa yang diterima program Beasiswa
Bidikmisi pada Kabupaten/Kota Provinsi Jawa Tengah yang diharapkan dapat
memenuhi prinsip 3T, yaitu Tepat sasaran, Tepat jumlah, dan Tepat Waktu. Hasil
penelitian diharapkan dapat dijadikan pertimbangan dalam pengambilan kebijakan
yang berhubungan penerimaan beasiswa Bidikmisi.
1.2 Kebaruan
Pengembangan analisis data berhirarki dilakukan dengan menggabungkan
konsep Bernoulli mixture. Struktur hirarki yang dipadukan dengan Bernoulli
mixture menghasilkan cara pemodelan baru yang disebut dengan Hierarchical
3
Bernoulli Mixture Model (Hibermimo). Analisis Hibermimo akan menghadapi
model yang kompleks, sehingga digunakan pendekatan Bayesian pada Hibermimo
untuk memberikan alternatif solusi mengatasi keterbatasan metode estimasi klasik.
Kebaruan dalam penelitian adalah pengembangan secara teoritis model Hibermimo
dua level sebagai model yang unik dalam mengatasi permasalahan respon Bernoulli
mixture. Penaksiran parameter-parameter Hibermimo dua level menggunakan
pendekatan Bayesian sebagai solusi terhadap masalah-masalah estimasi interval,
prediksi dan inferensi. Penelitian juga mengembangkan algoritma komputasi dalam
pengestimasian model Hibermimo dua level aplikasi data Bidikmisi Jawa Tengah
dan pemilihan model terbaik dengan menggunakan pendekatan Bayesian.
Sehingga, kebaruan penelitian diharapkan dapat memudahkan pengguna
Hibermimo untuk mengimplementasikan model dalam kasus yang lain.
1.3 Tujuan Khusus
Tujuan khusus penelitian yang diajukan adalah pengembangan Hibermimo
dua level aplikasi data penerimaan beasiswa Bidikmisi prototype Provinsi Jawa
Tengah diberikan sebagai berikut:
1. Memperoleh algoritma komputasi penaksir parameter-parameter Hibermimo
dua level dengan menggunakan pendekatan Bayesian.
2. Memperoleh model optimal Hibermimo dua level aplikasi data Bidikmisi Jawa
Tengah dengan menggunakan pendekatan Bayesian.
3. Menghasilkan peta tematik geografi penerimaan beasiswa Bidikmisi pada
Kabupaten/Kota Provinsi Jawa Tengah.
1.4 Urgensi / Keutamaan Penelitian
Data Bidikmisi yang memiliki struktur hirarki dua level dipadukan dengan
Bernoulli mixture menghasilkan cara pemodelan baru disebut dengan Hierarchical
Bernoulli Mixture Model yang kemudian diakronimkan Hibermimo. Urgensi atau
keutamaan penelitian pengembangan Hibermimo dua level aplikasi data
penerimaan beasiswa Bidikmisi prototype Provinsi Jawa Tengah diberikan sebagai
berikut:
4
1. Memberikan sumbangan secara akademik dalam bentuk algoritma komputasi
dalam penaksir parameter-parameter model Hibermimo dua level aplikasi data
Bidikmisi Jawa Tengah serta pemilihan model terbaik dengan menggunakan
pendekatan Bayesian MCMC.
2. Memberikan sumbangan peta tematik informasi persebaran mahasiswa
penerima beasiswa Bidikmisi sesuai pengaruh faktor dua level dalam
pemodelan Hibermimo yang bisa dimanfaatkan pengambil kebijakan pada
setiap level hirarki (Camat, Bupati, Direktorat Jenderal Pembelajaran dan
Kemahasiswaan serta Kementerian Riset Teknologi dan Pendidikan Tinggi).
1.5 Kaitan Penelitian dengan Penyelesaian Desertasi
Hasil penelitian pengembangan Hibermimo dua level studi kasus Bidikmisi
Provinsi Jawa Tengah merupakan data pelengkap untuk tahap simulasi pada kajian
empiris bagian tahapan penelitian disertasi yang sudah dilakukan yaitu kajian
teoritis estimasi parameter-parameter model Hibermimo dua level. Kajian empiris
Hibermimo dengan pendekatan Bayesian komputasinya menggunakan software
BUGS (Bayesian Using Gibbs Sampler). Estimasi parameter model menggunakan
proses Markov Chain Monte Carlo (MCMC) dengan algoritma Gibbs Sampler.
1.6 Luaran Penelitian
Luaran yang dapat diperoleh dari hasil penelitian ini adalah:
1. Model Hibermimo dua level dan peta tematik informasi persebaran mahasiswa
penerima beasiswa Bidikmisi sesuai pengaruh faktor dua level.
2. Makalah yang disampaikan pada seminar nasional dan internasional.
3. Artikel ilmiah yang dimuat dalam jurnal internasional Journal
Communications in Statistics-Theory and Methods.
5
Rencana target capaian tahunan sesuai luaran penelitian yang dihasilkan
disajikan pada Tabel 1.1.
Tabel 1.1 Rencana Target Capaian Luaran Penelitian Hibah PDD
No Jenis Luaran
Indikator
Capaian
Kategori Sub Kategori Wajib Tambahan TS1)
1 Artikel ilmiah
dimuat di jurnal
Internasional bereputasi accepted/published
Nasional Terakreditasi
2 Artikel Ilmiah
dimuat di
prosiding
Internasional Terindeks sudah dilaksanakan
Nasional
3 Invited Speaker
dalam temu ilmiah
Internasional
Nasional
4 Visiting Lecturer Internasional
5 Hak Atas
Kekayaan
Intelektual (HKI)
Paten
Paten sederhana
Hak Cipta
Merek dagang
Rahasia dagang
Desain Produk Industri
Indikasi Geografis
Perlindungan Varietas
Tanaman
Perlindungan Topografi
Sirkuit Terpadu
6 Teknologi Tepat Guna
7 Model/Purwarupa/Desain/Karya seni/Rekayasa
Sosial
8 Buku Ajar (ISBN)
9 Tingkat Kesiapan Teknologi (TKT) Skala 3
6
BAB 2
TINJAUAN PUSTAKA
2.1 Skema Penelitian Relevan
Skema dan posisi penelitian disertasi doktor dapat disajikan pada Error!
Reference source not found.. berikut:
Keterangan:
= sudah dilakukan
= belum dilakukan (akan diteliti)
Gambar 2.1 Skema dan Posisi Penelitian
Hierarchical Bernoulli Mixture Models (Hibermimo) dua Level dengan Pendekatan Bayesian
- Pengembangan Hibermimo dua level.
- Penaksir parameter-parameter Hibermimo dua level menggunakan pendekatan Bayesian.
- Algoritma dan komputasi penaksiran parameter-parameter Himimo dua level studi kasus data Bidikmisi
Provinsi Jawa Tengah dengan menggunakan pendekatan Bayesian.
Pemodelan Hirarki dua level
menggunakan respon Biner
- Estimasi parameter model
hirarki menggunakan metode
PQL (Park dan Kim, 2015;
2016)
Pemodelan Hirarki data biner
menggunakan Pendekatan
Bayesian
- Raftery (1988); Shkedy, dkk.
(2005); Hardin, dkk. (2008);
Morgan, dkk. (2014)
Pemodelan Hirarki data biner
Pendekatan Klasik
Pendekatan Bayesian
Bernoulli Mixture Model
(BMM)
- Grim, dkk. (2000); González,
dkk. (2001); Juan dan Vidal
(2002; 2004); Patrikainen dan
Manilla (2004); Zhu, dkk.
(2007); Sun, dkk. (2007);
Tikka, dkk. (2007); Jollmen
dan Tikka (2007);
Myllykangas, dkk. (2008);
Bouguila (2010); Saeed, dkk.
(2013)
Data Respon Biner
Data biner berdistribusi
Bernoulli
Agrawal dan Srikant (1994),
Wang dan Kabán (2005), Li
(2006), Bishop (2006) dan
Kamthe, dkk. (2011)
Data respon biner berstruktur
hirarki
7
Data respon Bidikmisi bernilai biner. Sebagian besar referensi data biner
berada di area text mining (Wang dan Kabán, 2005), yaitu klasifikasi dokumen (Li,
2006), pengenalan digit pada tulisan tangan (Bishop, 2006; Grim dkk., 2000),
pengurutan paket dalam jaringan sensor (Kamthe dkk., 2011) dan identifikasi
aturan asosiasi barang obral (Agrawal dan Srikant, 1994). Data text mining
berdistribusi Bernoulli, dalam pemodelan mixture disebut dengan Bernoulli
Mixture Model (BMM). Penelitian BMM pertama kali dilakukan oleh Duda dan
Hart (1973). Pada perkembangannya penelitian-penelitian yang berhubungan
dengan BMM dilakukan oleh Grim, dkk. (2000), González, dkk. (2001), Juan dan
Vidal (2002; 2004), Patrikainen dan Manilla (2004), Zhu, dkk. (2007), Sun, et.al.
(2007), Tikka, dkk. (2007), Hollmen dan Tikka (2007), Myllykangas, dkk. (2008),
Bouguila (2010) dan Saeed, dkk. (2013). Bidikmisi berdasarkan konsep Hox
(2002), memiliki struktur data hirarki dengan respon biner. Penelitian pemodelan
data hirarki diskrit dengan respon biner dilakukan oleh Park dan Kim (2015; 2016)
menggunakan metode estimasi klasik penalized quasi-likelihood (PQL).
Pengembangan analisis data berhirarki selanjutnya dilakukan dengan
menggabungkan konsep Bernoulli mixture. Struktur hirarki yang dipadukan dengan
Bernoulli mixture menghasilkan cara pemodelan baru yang disebut dengan
Hierarchical Bernoulli Mixture Model (Hibermimo). Analisis Hibermimo akan
menghadapi model yang kompleks, sehingga digunakan pendekatan Bayesian pada
Hibermimo untuk memberikan alternatif solusi mengatasi keterbatasan metode
estimasi klasik. Penelitian-penelitian pemodelan hirarki dengan pendekatan
Bayesian dilakukan oleh Raftery (1988), Shkedy, dkk. (2005), Hardin, dkk. (2008)
dan Morgan, dkk. (2014).
Kebaruan dalam penelitian adalah pengembangan secara teoritis model
Hibermimo dua level sebagai model yang unik dalam mengatasi permasalahan
respon Bernoulli mixture. Penaksiran parameter-parameter Hibermimo dua level
menggunakan pendekatan Bayesian MCMC sebagai solusi terhadap masalah-
masalah estimasi interval, prediksi dan inferensi. Penelitian juga mengembangkan
algoritma komputasi dalam pengestimasian model Hibermimo dua level aplikasi
data Bidikmisi Jawa Tengah dan pemilihan model terbaik dengan menggunakan
pendekatan Bayesian.
8
2.2 Road Map Penelitian
Secara utuh road map penelitian diberikan sebagai berikut:
9
2.3 Metode Bayesian
Teorema Bayes menjadi distribusi posterior sebagaimana formula berikut:
||
|
p x pp x
p x
p x p
, (2.1)
dengan p adalah distribusi prior, |p x adalah likelihood dan |p x adalah distribusi
posterior. Distribusi prior dalam metode Bayesian dapat dikategorikan menjadi Conjugate
prior, Proper prior dan Informative Prior ( (Gelman dkk., 2014) dan (Carlin
dan Chib, 1995)). Keputusan pemodelan didasarkan pada posterior yang diperoleh (Iriawan,
2001).
2.4 Deviance Information Criterion
Ukuran kelayakan model yag digunakan dalam mengevaluasi kecocokan model Bayes
adalah deviance information crierion (DIC). Kriteria model menurut (Ntzoufras, 2009) adalah:
2 , , , 2c cc cDIC c D c D c D c p , (2.2)
Nilai DIC yang semakin kecil mengindikasikan model yang lebih cocok untuk digunakan
(Iriawan, 2000).
10
BAB 3
TUJUAN DAN MANFAAT PENELITIAN
3.1 Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1. Mengkaji algoritma teoritis dan komputasi penaksir parameter-parameter Hibermimo
dua level dengan menggunakan pendekatan Bayesian.
2. Mendesain model optimal Hibermimo dua level aplikasi data Bidikmisi Jawa Tengah
dengan menggunakan pendekatan Bayesian.
3.2 Manfaat Penelitian
Hasil penelitian ini diharapkan dapat bermanfaat sebagai berikut adalah:
1. Memberikan sumbangan dalam mengembangkan analisis Bayesian Hirarki, khususnya
dalam algoritma teoritis penaksir parameter-parameter Hibermimo dua level
menggunakan pendekatan Bayesian.
2. Memberikan sumbangan secara akademik dalam bentuk algoritma komputasi dalam
pengestimasian model Hibermimo dua level aplikasi data Bidikmisi Jawa Tengah dan
pemilihan model terbaik dengan menggunakan pendekatan Bayesian. Pengolahan data
Bidikmisi dengan data sebenarnya belum pernah dilakukan oleh peneliti-peneliti
sebelumnya.
3. Memberikan sumbangan peta tematik informasi persebaran mahasiswa penerima
beasiswa Bidikmisi sesuai pengaruh faktor dua level dalam pemodelan Hibermimo
yang bisa dimanfaatkan pengambil kebijakan pada setiap level hirarki (Camat, Bupati,
Direktorat Jenderal Pembelajaran dan Kemahasiswaan serta Kementerian Riset
Teknologi dan Pendidikan Tinggi).
11
BAB 4
METODOLOGI PENELITIAN
4.1 Kajian Teori (Pengembangan Teori)
Kajian teori pada penelitian merupakan pengembangan teori dilakukan langkah-
langkah penelitian sebagai berikut:
1. Susun Directed Acyclic Graph (DAG) untuk menyatakan hubungan antara data yang
digunakan, parameter dan ditribusi prior serta hyperprior dalam model Hibermimo dua
level dengan pendekatan Bayesian
2. Gunakan ijy yaitu variabel respon status penerimaan beasiswa Bidikmisi individu ke- i
kabupaten- j , dimana ijy berdistribusi Bernoullli Mixture yang dinotasikan dengan
ij ijy Be .
3. Bentuk fungsi Likelihood
4. Bentuk distribusi posterior gabungan dari perkalian fungsi Likelihood, fungsi distribusi
prior dan fungsi distribusi hyperprior.
1 2, τ | | | τ , τ
| | τ τ
L
L
p p p p
p p p p
β γ y y β β γ γ
y β β γ γ
dengan
|Lp y β adalah fungsi Likelihood
1 | τp
β γ adalah fungsi distribusi prior tahap pertama (first stage prior)
2 τp
γ adalah fungsi distribusi prior tahap kedua (second stage prior)
5. Bentuk full conditional posterior distribution untuk setiap parameter yang akan diestimasi
berdasarkan distribusi posterior gabungan yang diperoleh pada langkah (4).
6. Tentukan nilai awal untuk setiap parameter yang akan diestimasi
0 0 0dan τ
β γ
7. Bangkitkan sampel parameter dengan menggunakan full conditional posterior distribution
yang diperoleh dalam langkah (6) secara iteratif sampai tercapai kondisi equilibrium,
sehingga akan diperoleh karakteristik penaksir parameter-parameter Hibermimo dua level.
12
4.2 Kajian Empiris (Penelitian Aplikatif)
4.2.1 Sumber Data
Data yang digunakan dalam penelitian ini adalah: data Bidikmisi seluruh kabupaten di
Provinsi Jawa Tengah tahun 2015, data Indikator Kesejahteraan Sosial Provinsi Jawa Tengah
tahun 2016 (publikasi 2015) dan data Statistik Kesejahteraan Rakyat, Provinsi Jawa Tengah
tahun 2016 (publikasi 2015).
4.2.2 Skema Struktur Hirarki
Skema struktur hirarki data yang digunakan dalam pembentukan model hirarki untuk
estimasi penerimaan beasiswa Bidikmisi di Propinsi Jawa Tengah dijelaskan pada Gambar 4.1.
Gambar 4.1 Skema Struktur hirarki data Bidikmisi dalam pembentukan model hirarki penerimaan beasiswa
Bidikmisi di seluruh kabupaten/kota Provinsi Jawa Tengah
Terdapat dua tingkatan data dengan unit observasi untuk tingkat pertama dari struktur
hierarki data adalah data pendaftar beasiswa Bidikmisi. Sedangkan data untuk unit tingkat
kedua dari struktur hierarki data adalah kabupaten/kota. Setiap kabupaten/kota terdiri dari
beberapa sampel pendaftar beasiswa Bidikmisi. Pada struktur hierarki dapat diketahui bahwa
pendaftar beasiswa Bidikmisi tersarang (nested) pada wilayah di kabupaten/kota tempat
tinggal.
4.2.3 Variabel Penelitian
1. Variabel respon Y
Y = Status Penerimaan Beasiswa Bidikmisi (1 = diterima, 0 = tidak diterima)
𝑦11 𝑦12 … 𝑦1𝑛 𝑦21 𝑦22 … 𝑦2𝑛 𝑦𝑚1 𝑦𝑚2 … 𝑦𝑚𝑛
Kab/kota (1) Kab/kota (2) … Kab/kota (m)
Jawa Tengah
Level 1
Level 2
13
2. Variabel Prediktor Mikro X
1X = Pekerjaan Ayah; 2X = Pekerjaan Ibu;
3X = Jumlah Tanggungan Keluarga; 4X = Pendidikan Ayah;
5X
= Pendidikan Ibu; 6X = Kepemilikan Rumah;
7X = Sumber Listrik yang digunakan; 8X = Luas Tanah Rumah;
9X = Luas Bangunan Rumah; 10X = Kepemilikan Fasilitas MCK;
11X = Sumber Air yang digunakan; 12X
= Jarak dari Rumah ke Kab/Kota; 13X = Penghasilan Ayah;
14X = Penghasilan Ibu
3. Variabel Prediktor Makro W
1W = Persentase Penduduk Miskin pada setiap kabupaten/kota Provinsi Jawa Tengah; 2W = Persentase
penduduk usia 19-24 yang tidak sekolah lagi; 3W = Persentase Rumah Tangga dengan Jenis atas Rumah yang
Menggunakan Asbes/Seng+Bambu/Kayu+Jerami/Ijuk/Daun-daunan/Lainnya; 4W = Persentase Rumah
Tangga dengan Jenis dinding Kayu/Batang Kayu; 5W = Persentase Rumah Tangga yang menerima subsidi
BBM; 6W = Persentase Rumah Tangga yang menerima Bantuan Siswa Miskin (BSM) SMA Sederajat
Kajian empiris untuk memperoleh model optimal Hibermimo dua level dilakukan
dengan langkah-langkah berikut:
1. Gunakan ijy yaitu variabel respon
2. Tentukan distribusi prior dan hyperprior dari parameter dan hyperparameter yang akan
diestimasi.
3. Bentuk distribusi posterior gabungan dari perkalian fungsi Likelihood, fungsi dstribusi
prior dan fungsi distribusi hyperprior
4. Bentuk full conditional posterior distribution untuk setiap parameter yang akan diestimasi
berdasarkan distribusi posterior gabungan.
5. Lakukan proses loading data dan kompilasi program untuk mengecek kesesuaian antara
model dengan data dan tetapkan nilai awal (initial value) untuk setiap parameter yang akan
diestimasi.
6. Tentukan banyaknya iterasi (T) untuk membangkitkan sampel tiap parameter.
7. Bangkitkan sampel parameter dengan menggunakan full conditional posterior
distribution yang diperoleh dalam langkah (6) secara iteratif sampai tercapai kondisi
equilibrium.
8. Lakukan proses burn in dengan meng-cut off sebanyak B sampel pertama.
Burn in akan berakhir sampai kondisi equilibrium tercapai.
9. Lakukan monitoring output dan evaluasi model.
10. Pilih model mixture terbaik diantara beberapa jumlah komponen mixture dengan cara
menghitung DIC model Hibermimo dua level untuk data Bidikmisi berdasarkan distribusi
Bernoulli Mixture.
14
BAB 5
HASIL DAN LUARAN YANG DICAPAI
5. 1 Deskripsi Data Bidikmisi Provinsi Jawa Tengah 2015
Pada bagian ini akan dilakukan eksplorasi data Bidikmisi Provinsi Jawa Tengah Tahun
2015. Analisis statistika meliputi: deskripsi pendaftar Bidikmisi dan deskripsi penyebaran
pendaftar beasiswa Bidikmisi per Kabupaten/Kota Provinsi Jawa Tengah Tahun 2015
(Bidikmisi Indonesia 2015). Adapun karakteristik data siswa pendaftar beasiswa Bidikmisi
Provinsi Jawa Tengah 2015 disajikan sebagai berikut:
Provinsi Jawa Tengah
Jawa Tengah adalah sebuah provinsi Indonesia yang terletak di bagian tengah Pulau
Jawa. Ibu kotanya adalah Semarang. Provinsi ini berbatasan dengan Provinsi Jawa Barat di
sebelah barat, Samudra Hindia dan Daerah Istimewa Yogyakarta di sebelah selatan, dan Laut
Jawa di sebelah utara. Luas wilayahnya 32.548 km², atau sekitar 28,94% dari luas pulau Jawa.
Gambar 5.1 Peta Provinsi Jawa Tengah
Berikut di bawah ini adalah daftar nama-nama kota dan kabupaten di Provinsi Jawa Tengah.
Saat ini jumlah kabupaten yang ada di Jawa Tengah adalah 29 Kabupaten, dan jumlah kota
yang ada di Jawa Tengah adalah 6 Kota.
15
Tabel 5.1 Kabupaten/Kota Provinsi Jawa Tengah
No. Kabupaten/Kota No. Kabupaten/Kota
1 Kab. Banjarnegara 19 Kab. Pemalang
2 Kab. Banyumas 20 Kab. Purbalingga
3 Kab. Batang 21 Kab. Purworejo
4 Kab. Blora 22 Kab. Rembang
5 Kab. Boyolali 23 Kab. Semarang
6 Kab. Brebes 24 Kab. Sragen
7 Kab. Cilacap 25 Kab. Sukoharjo
8 Kab. Demak 26 Kab. Tegal
9 Kab. Grobogan 27 Kab. Temanggung
10 Kab. Jepara 28 Kab. Wonogiri
11 Kab. Karanganyar 29 Kab. Wonosobo
12 Kab. Kebumen 30 Kota Magelang
13 Kab. Kendal 31 Kota Pekalongan
14 Kab. Klaten 32 Kota Salatiga
15 Kab. Kudus 33 Kota Semarang
16 Kab. Magelang 34 Kota Surakarta
17 Kab. Pati 35 Kota Tegal
18 Kab. Pekalongan
Adapun karakteristik data siswa pendaftar beasiswa Bidikmisi Provinsi Jawa Tengah 2015
berdasarkan jenis kelamin dalam penelitian ini dapat disajikan sebagai berikut:
Tabel 5.2 Data Pendaftar Beasiswa Bidikmisi Provinsi Jawa Tengah 2015 Berdasarkan Jenis Kelamin
Jenis kelamin Jumlah Persentase (%)
Laki-laki 8923 27,44%
Perempuan 23597 72,56%
Total Pendaftar 32520 100,00%
Pada tabel dapat diketahui bahwa jumlah keseluruhan pendaftar Bidikmisi Provinsi Jawa
Tengah 2015 adalah 32.520 siswa. Pendaftar Bidikmisi dengan jenis kelamin laki-laki sedikit
dibandingkan perempuan yaitu sebanyak 8.923 siswa laki-laki dengan proporsi 27,44 dan
23.597 siswa perempuan dengan proporsi sebesar 72,56%. Berdasarkan data sekunder yang
diperoleh dari Direktorat Jenderal Pembelajaran dan Mahasiswa, Kementerian Pendidikan
Tinggi, kanal Beasiswa Bidikmisi, diketahui bahwa siswa pendaftar beasiswa tersebar pada 10
16
Kabupaten/Kota Provinsi Jawa Tengah. Deskripsi karakteristik pendaftar Bidikmisi Provinsi
Jawa Tengah 2015 per Kabupaten/Kota disajikan sebagai berikut.
Tabel 5.3 Rekapitulasi Jumlah Pendaftar Bidikmisi Provinsi Jawa Tengah 2015
No. Kabupaten/Kota Pendaftar
Jml %
1 Kab. Banjarnegara 579 1,78%
2 Kab. Banyumas 1645 5,06%
3 Kab. Batang 591 1,82%
4 Kab. Blora 830 2,55%
5 Kab. Boyolali 1181 3,63%
6 Kab. Brebes 1000 3,07%
7 Kab. Cilacap 1305 4,01%
8 Kab. Demak 988 3,04%
9 Kab. Grobogan 821 2,52%
10 Kab. Jepara 1438 4,42%
11 Kab. Karanganyar 1005 3,09%
12 Kab. Kebumen 2103 6,47%
13 Kab. Kendal 771 2,37%
14 Kab. Klaten 1681 5,17%
15 Kab. Kudus 881 2,71%
16 Kab. Magelang 1225 3,77%
17 Kab. Pati 1452 4,46%
18 Kab. Pekalongan 653 2,01%
19 Kab. Pemalang 1049 3,23%
20 Kab. Purbalingga 1101 3,39%
21 Kab. Purworejo 1145 3,52%
22 Kab. Rembang 601 1,85%
23 Kab. Semarang 983 3,02%
24 Kab. Sragen 592 1,82%
25 Kab. Sukoharjo 1154 3,55%
26 Kab. Tegal 899 2,76%
27 Kab. Temanggung 582 1,79%
28 Kab. Wonogiri 828 2,55%
29 Kab. Wonosobo 575 1,77%
30 Kota Magelang 241 0,74%
31 Kota Pekalongan 221 0,68%
32 Kota Salatiga 175 0,54%
33 Kota Semarang 976 3,00%
34 Kota Surakarta 989 3,04%
35 Kota Tegal 262 0,81%
17
Pada tabel jumlah pendaftar serta persentase siswa pendaftar beasiswa Bidikmisi Provinsi
Jawa Tengah 2015 per Kabupaten/Kota menunjukkan bahwa pendaftar yang paling banyak
adalah pada Kabupaten Kebumen dengan jumlah pendaftar sebesar 2103 siswa atau 6.47%,
sedangkan pendaftar yang paling sedikit adalah pada Kota Salatiga dengan jumlah pendaftar
sebanyak 175 siswa atau 0.54% pendaftar. Rekapitulasi jumlah serta persentase proporsi siswa
pendaftar beasiswa Bidikmisi Provinsi Jawa Tengah Tahun 2015 yang diterima dan tidak
diterima disajikan pada tabel berikut:
Tabel 5.4 Rekapitulasi Penerimaan Beasiswa Bidikmisi Provinsi Jawa Tengah
Tahun 2015
Penerimaan Bidikmisi Jawa
Tengah
Pendaftar
Diterima Tidak Diterima
Status 7.678 24.844
23,61% 76,39%
Total 32.522
(100,00%)
Hasil analisis deskriptif menunjukkan bahwa dengan jumlah pendaftar Bidikmisi Provinsi Jawa
Tengah 2015 sebesar 32.522 terdapat 23,61% yang diterima, sedangkan yang tidak diterima
adalah sebesar 76,39%. Penyajian data penerimaan Bidikmisi Provinsi Jawa Tengah 2015 per
Kabupaten/Kota dapat dilihat pada tabel berikut:
Tabel 5.5 Rekapitulasi Penerimaan Bidikmisi Provinsi Jawa Tengah 2015 per Kabupaten/Kota
No. Kabupaten/Kota Jml
Pendaftar
Tidak
Diterima
% Tdk
Diterima Diterima
%
Diterima
1
Kab.
Banjarnegara 579 455 78,58% 124 21,42%
2 Kab. Banyumas 1645 1229 74,71% 416 25,29%
3 Kab. Batang 591 467 79,02% 124 20,98%
4 Kab. Blora 830 670 80,72% 160 19,28%
5 Kab. Boyolali 1181 879 74,43% 302 25,57%
6 Kab. Brebes 1000 856 85,60% 144 14,40%
7 Kab. Cilacap 1305 998 76,48% 307 23,52%
8 Kab. Demak 988 796 80,57% 192 19,43%
9 Kab. Grobogan 821 645 78,56% 176 21,44%
18
No. Kabupaten/Kota Jml
Pendaftar
Tidak
Diterima
% Tdk
Diterima Diterima
%
Diterima
10 Kab. Jepara 1438 1143 79,49% 295 20,51%
11 Kab. Karanganyar 1005 802 79,80% 203 20,20%
12 Kab. Kebumen 2103 1568 74,56% 535 25,44%
13 Kab. Kendal 771 604 78,34% 167 21,66%
14 Kab. Klaten 1681 1266 75,31% 415 24,69%
15 Kab. Kudus 881 696 79,00% 185 21,00%
16 Kab. Magelang 1225 840 68,57% 385 31,43%
17 Kab. Pati 1452 1155 79,55% 297 20,45%
18 Kab. Pekalongan 653 527 80,70% 126 19,30%
19 Kab. Pemalang 1049 836 79,69% 213 20,31%
20 Kab. Purbalingga 1101 892 81,02% 209 18,98%
21 Kab. Purworejo 1145 793 69,26% 352 30,74%
22 Kab. Rembang 601 453 75,37% 148 24,63%
23 Kab. Semarang 983 763 77,62% 220 22,38%
24 Kab. Sragen 592 445 75,17% 147 24,83%
25 Kab. Sukoharjo 1154 855 74,09% 299 25,91%
26 Kab. Tegal 899 708 78,75% 191 21,25%
27 Kab. Temanggung 582 431 74,05% 151 25,95%
28 Kab. Wonogiri 828 597 72,10% 231 27,90%
29 Kab. Wonosobo 575 435 75,65% 140 24,35%
30 Kota Magelang 241 154 63,90% 87 36,10%
31 Kota Pekalongan 221 153 69,23% 68 30,77%
32 Kota Salatiga 175 130 74,29% 45 25,71%
33 Kota Semarang 976 709 72,64% 267 27,36%
34 Kota Surakarta 989 679 68,66% 310 31,34%
35 Kota Tegal 262 215 82,06% 47 17,94%
Hasil analisis statistika deskripsi secara visual daerah Kabupaten/Kota Provinsi Jawa Tengah
data penerimaan Bidikmisi 2015 disajikan menggunakan bar chart diberikan sebagai berikut:
19
Gambar 5.2 Persentase Penerimaan Bidikmisi per Kabupaten/Kota Provinsi Jawa Tengah Tahun 2015
Analisis persentase menunjukkan bahwa Kota Magelang merupakan daerah yang memiliki
proporsi siswa penerima beasiswa Bidikmisi 2015 paling tinggi, yaitu sebanyak 36,1% lolos
seleksi beasiswa Bidikmisi Provinsi Jawa Tengah 2015. Kab. Magelang menempati posisi
peringkat kedua yaitu sebesar 31,43%.
20
5. 2 Analisis Data Bidikmisi Provinsi Jawa Tengah
Kajian empiris pada penelitian membahas: 1) ketepatan klasifikasi model dengan
menggunakan analisis regresi Dummy, regresi Polytomus dan regresi Bernoulli Mixture
Bayesian-Level_1 serta 2) analisis cluster menggunakan Bayesian Hierarchical Cluster pada
data Bidikmisi Provinsi Jawa Tengah tahun 2015 (Bidikmisi Indonesia 2015). Metode
penelitian dilakukan dengan melakukan eksplorasi data terlebih dahulu. Data yang digunakan
adalah data Bidikmisi Provinsi Jawa Tengah 2015 yaitu data respon status siswa pendaftar
Bidikmisi yang diterima dan yang tidak diterima. Eksplorasi data dilakukan preprocessing
pada data Bidikmisi Indonesia 2015, merupakan suatu proses yang bertujuan untuk
meningkatkan kualitas kebermaknaan dalam eksplorasi variabel respon Y . Setelah
melakukan eksplorasi data respon Bidikmisi, maka langkah selanjutnya adalah mengkaji
berbagai literatur-literatur yang berhubungan dengan pemodelan data dan metode yang akan
digunakan untuk menganalisis data sesuai dengan pola data hasil eksplorasi di atas.
5.2.1 Variabel Penelitian
Program Beasiswa Bidikmisi diutamakan untuk masyarakat marginal atau dapat
dikatakan untuk masyarakat yang tidak mampu atau tergolong masyarakat miskin. Pada
laporan Badan Perencanaan dan Pembangunan Nasional atau Bappenas (2004) terdapat
indikator-indikator penyebab kemiskinan yang dalam penelitian diklasifikasikan menjadi 2
(dua) faktor utama yang dianggap sesuai dalam mempengaruhi siswa SMA/SMK/MA tidak
melanjutkan ke jenjang Perguruan Tinggi dikarenakan ketidakmampuan secara ekonomi yang
dipegaruhi oleh faktor sosial ekonomi, meliputi: faktor umur, jenis kelamin, tempat
tinggal/status kependudukan, pendidikan, pekerjaan, penghasilan dan kelas sosial.
Faktor sosial ekonomi tersebut terdapat keterkaitan satu sama lainnya yang membentuk
rantai kemiskinan. Rumah tangga yang tidak mampu secara ekonomi pada umumnya memiliki
pendidikan yang rendah dan terpusat di daerah pedesaan. Pendidikan rendah berimplikasi
dengan produktivitas yang rendah, sehingga imbalan/pendapatan/penghasilan yang akan
diperoleh tidak memadai untuk memenuhi kebutuhan pangan, sandang, kesehatan, perumahan,
dan pendidikan. Akibatnya, rumah tangga miskin akan menghasilkan keluarga-keluarga miskin
pula pada generasi berikutnya. Faktor-faktor tersebut merupakan kerangka konseptual yang
menggambarkan variabel-variabel yang akan diukur atau diamati dalam penelitian disajikan
pada Gambar 5.3.
21
Gambar 5.3 Kerangka Konseptual Variabel-Variabel Penelitian
Variabel penelitian yang digunakan dalam penelitian ini terdiri dari variabel respon dan
variabel prediktor.
Variabel Deskripsi
Y Status penerimaan beasiswa Bidikmisi seluruh kabupaten/kota di
Provinsi Jawa Tengah
X mikro Karakteristik calon mahasiswa pendaftar beasiswa Bidikmisi
seluruh kabupaten/kota di Provinsi Jawa Tengah
Variabel-variabel penelitian dari data Bidikmisi yang akan diteliti terdiri dari variabel
respon Y dan variabel prediktor mikro X . Rincian variabel respon dan variabel prediktor
mikro yang digunakan dalam penelitian disajikan pada sebagai berikut:
Faktor Sosial Ekonomi
Pekerjaan Ayah
Pekerjaan Ibu
Jumlah Tanggungan Keluarga
Pendidikan Ayah
Pendidikan Ibu
Penghasilan Ayah
Penghasilan Ibu
Status Penerimaan Beasiswa
Bidikmisi
22
Tabel 5.6 Rincian Variabel Penelitian
Var Deskripsi Skala
Data Keterangan
Y Status Penerimaan Beasiswa
Bidikmisi
Kategori 1=Diterima Bidikmisi
0=Tidak Diterima Bidikmisi
1X Pekerjaan Ayah Kategori 1=Petani, Nelayan, Lainnya
2=TNI/POLRI
3=Wirausaha
4= Peg. Swasta
5= PNS
5X Kepemilikan Rumah Tinggal
Keluarga
Kategori 1= Tidak Memiliki Rumah
2=Sewa (Tahunan, Bulanan) dan
menumpang
3= Sendiri
2X Pekerjaan Ibu Kategori 1=Petani, Nelayan, Lainnya
2=TNI/POLRI
3=Wirausaha
4= Peg. Swasta
5= PNS
3X Pendidikan Ayah Kategori 1=Tidak Sekolah
2= Pendidikan Dasar (SD/MI dan
SMP/MTs)
3= SMA/MA
4= PT (D1, D2/D3, S1/D4)
4X Pendidikan Ibu Kategori 1=Tidak Sekolah
2= Pendidikan Dasar (SD/MI dan
SMP/MTs)
3= SMA/MA
4= PT (D1, D2/D3, S1/D4)
Definisi Operasional Variabel Penelitian
1. Status Penerimaan Beasiswa Bidikmisi
Status penerimaan siswa SLTA/SMA/MA kelas 12 yang mendaftar beasiswa Bidikmisi di
seluruh Kabupaten/Kota Propinsi Indonesia.
2. Pekerjaan Ayah
Pekerjaan Ayah adalah suatu aktivitas sehari-hari yang dilakukan Ayah untuk memenuhi
kebutuhan harian.
3. Pekerjaan Ibu
Pekerjaan Ibu adalah suatu aktivitas sehari-hari yang dilakukan Ibu untuk memenuhi
kebutuhan harian.
4. Pendidikan Ayah
Pendidikan Ayah adalah pendidikan formal tertinggi yang dimiliki oleh Ayah siswa
pendaftar beasiswa Bidikmisi.
5. Pendidikan Ibu
Pendidikan Ibu adalah pendidikan formal tertinggi yang dimiliki oleh Ibu siswa pendaftar
beasiswa Bidikmisi.
23
5.2.2 Pre-processing Bernoulli Mixture
Penjelasan teknik-teknik yang digunakan pada tahap pre-processing Bernoulli Mixture
data identifikasi Bernoulli mixture distribution adalah sebagai berikut:
1. Teknik data reduction: mereduksi data dengan cara mem-filter data berdasarkan
Kabupaten/Kota di provinsi Jawa Tengah pada database data Bidikmisi seluruh provinsi di
Indonesia.
2. Teknik data cleaning: membersihkan data dengan cara memperbaiki inkonsistensi data
dengan mengisi missing value pada covariate variable.
3. Teknik data integration: mengintegrasikan masing-masing variabel yaitu variabel respon
(Y) dan covariate variable (X)
4. Teknik data transformation: mentrasformasikan data untuk proses identifikasi Bernoulli
mixture distribution dengan langkah-langkah sebagai berikut:
Step 1. ambil variabel respon (Y)
Step 2. pilih covariate “penghasilan ayah”, “penghasilan ibu” dan “jumlah tanggungan
keluarga”
Step 3. buat covariate baru dengan hitung jumlah “penghasilan ayah”dan “penghasilan ibu”
dibagi “jumlah tanggungan keluarga”, kemudian beri nama dengan “Kode Kategori
(KK)”.
Step 4. coding-kan covariate “KK” dengan kriterian sebagai berikut:
0 = jika KK > Rp. 750.000 per kepala dalam keluarga termasuk dalam kategori
mampu.
1 = jika KK < Rp. 750.000 per kepala dalam keluarga termasuk dalam kategori tidak
mampu.
Step 5. pasangkan variabel respon (Y) dengan KK pada Langkah 4 akan diperoleh KP
(Kondisi Penerimaan) dengan tabel klasifikasi kondisi penerimaan Bidikmisi
“salah” dan “benar” diberikan sebagai berikut:
24
Tabel 5.7 Klasifikasi berdasarkan Kondisi Penerimaan Beasiswa Bidikmisi Indonesia 2015
Y KK KP Kondisi Interpretasi
1 0 0 salah Kondisi penerimaan salah (KP = 0) jika siswa diterima (Y = 1)
dengan kategori mampu (KK = 0)
0 1 0 salah Kondisi penerimaan salah (KP = 0) jika siswa tidak diterima
(Y = 0) dengan kategori tidak mampu (KK = 1)
1 1 1 benar Kondisi penerimaan benar (KP = 1) jika siswa diterima (Y = 1)
dengan kategori tidak mampu (KK = 1)
0 0 1 benar Kondisi penerimaan salah (KP = 1) jika siswa tidak diterima
(Y = 0) dengan kategori mampu (KK = 0)
Hasil pre-processing dengan melibatkan kovariat penciri penerima beasiswa Bidikmisi
menghasilkan data respon berdistribusi Bernoulli mixture dua komponen yaitu komponen
kondisi peneriman salah dan komponen kondisi penerimaan benar. Klasifikasi akan
dibandingkan dengan menggunakan pendekatan Polytomous, sehingga akan diperoleh 4
(empat) kriteria klasifikasi yang diberikan sebagai berikut:
Tabel 5.8 Klasifikasi Polytomous Penerimaan Beasiswa Bidikmisi Indonesia 2015
Y KK KP Kode_Poly Interpretasi
0 0 1 1 Kondisi penerimaan salah (KP = 1) jika siswa tidak diterima
(Y = 0) dengan kategori mampu (KK = 0)
0 1 0 2 Kondisi penerimaan salah (KP = 0) jika siswa tidak diterima
(Y = 0) dengan kategori tidak mampu (KK = 1)
1 0 0 3 Kondisi penerimaan salah (KP = 0) jika siswa diterima (Y = 1)
dengan kategori mampu (KK = 0)
1 1 1 4 Kondisi penerimaan benar (KP = 1) jika siswa diterima (Y = 1)
dengan kategori tidak mampu (KK = 1)
5.2.3 Analisis Klasifikasi Regresi Dummy, Regresi Polytomous dan Regresi Bernoulli
Mixture Bayesian-Level_1
Pada analisis klasifikasi dengan menggunakan Regresi Dummy, Regresi Polytomous dan
Regresi Bernoulli Mixture Bayesian-Level_1 diberikan model persamaan umum sebagai
berikut:
1. Persamaan umum model Regresi Dummy adalah sebagai berikut:
0 1 11 2 12 3 13 4 14 5 21 6 22 7 23 8 24 9 31 10 32 11 33 12 41 13 42 14 43+ d + d + d + d + d + d + d + d + d d + d d d dg x
Persamaan untuk menentukan nilai peluang (odds ratio) adalah sebagai berikut:
eˆ
1 e
g x
g xx
25
atau
exp + d + d + d + d + d + d + d + d + d d + d d d d5 70 1 11 2 12 3 13 4 14 21 6 22 23 8 24 9 31 10 32 11 33 12 41 13 42 14 43
ˆ1 exp + d + d + d + d + d + d + d + d + d d + d d5 70 1 11 2 12 3 13 4 14 21 6 22 23 8 24 9 31 10 32 11 33 12 41
x
d d13 42 14 43
2. Persamaan umum model Regresi Polytomous
Pada model regresi logistik dikotomi, variabel terikat (variabel dependen) dinyatakan
dalam fungsi logit untuk Y =1 dibandingkan dengan fungsi logit untuk Y = 0. Sedangkan,
dalam model regresi polytomous atau model multinomial logit dengan 4 (empat) kategori,
maka terdapat 3 fungsi logit, yaitu:
Fungsi logit Y = 2 relatif terhadap fungsi logit untuk Y = 1
Fungsi logit Y = 3 relatif terhadap fungsi logit untuk Y = 1
Fungsi logit Y = 4 relatif terhadap fungsi logit untuk Y = 1
dimana kategori Y = 1 merupakan kategori pembanding
Sehingga persamaan umum model Regresi Polytomous diberikan sebagai berikut:
2
1
1
10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32
111 33 112 41 113 42 114 43
Pr 2 | Pln ln
Pr 1| P
= + d + d + d + d + d + d + d + d + d d +
d d d d
Y xZ x
Y x
3
2
1
20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32
211 33 212 41 213 42 214 43
Pr 3 | Pln ln
Pr 1| P
= + d + d + d + d + d + d + d + d + d d +
d d d d
Y xZ x
Y x
4
3
1
30 31 11 32 12 33 13 34 14 35 21 36 22 37 23 38 24 39 31 310 32
311 33 312 41 313 42 314 43
Pr 4 | Pln ln
Pr 1| P
= + d + d + d + d + d + d + d + d + d d +
d d d d
Y xZ x
Y x
3. Persamaan umum model Regresi Bernoulli Mixture Bayesian-Level_1
Pada regresi Bernoulli Mixture Bayesian-Level_1 untuk memodelkan penerimaan
beasiswa Bidikmisi dilakukan dengan membuat doodle sebagai berikut.
26
Gambar 5.4 Doodle Regresi Bernoulli Mixture Bayesian-Level_1
Persamaan umum model Regresi Bernoulli Mixture Bayesian-Level_1 adalah sebagai
berikut:
- -1 -1 -2 -2f x g x g xB mix mix mix mix mix
dengan
1 10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32
111 33 112 41 113 42 114 43
+ d + d + d + d + d + d + d + d + d d +
d d d d
mixg x
2 20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32
211 33 212 41 213 42 214 43
+ d + d + d + d + d + d + d + d + d d +
d d d d
mixg x
sehingga
10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32
111 33 112 41 113 42 114 43
20 21 11 22 12
- -1
-2
+ d + d + d + d + d + d + d + d + d d +
d d d d
+ d + d +
f xB mix mix
mix
23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32
211 33 212 41 213 42 214 43
d + d + d + d + d + d + d d +
d d d d
Persamaan untuk menentukan nilai peluang (odds ratio) model Regresi Bernoulli Mixture
Bayesian-Level_1 adalah sebagai berikut:
27
-1 -2
-1 -2
10 11 11 12 12 13 13 14 14 15 21 16 22
- -1 -1 -2 -2
-1 -2
-1
ˆ ˆ
e e =
1 e 1 e
+ d + d + d + d + d + dexp
=
mix mix
mix mix
g x g x
g x g x
f xB mix mix mix mix mix
mix mix
mix
x x
17 23 18 24 19 31 110 32
111 33 112 41 113 42 114 43
10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32
111 33
+ d + d + d d +
d d d d
+ d + d + d + d + d + d + d + d + d d + 1 exp
d
112 41 113 42 114 43
10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32
111 33 112 41 113 42 114
-2
d d d
+ d + d + d + d + d + d + d + d + d d + exp
d d d d
mix
43
20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32
211 33 212 41 213 42 214 43
+ d + d + d + d + d + d + d + d + d d +
1 exp d d d d
5.2.4 Regresi Dummy, Regresi Polytomous dan Regresi Bernoulli Mixture
Bayesian-Level_1 Provinsi Jawa Tengah
1. Regresi Dummy Provinsi Kepulauan Jawa Tengah
Pengujian signifikansi parameter model regresi dummy Provinsi Kepulauan Jawa Tengah
secara serentak dimana data in-sample dipisahkan menjadi dua kelompok, yaitu kelompok
dengan kriteria KK “ Mampu” dan “Tidak Mampu” dapat dilihat pada tabel berikut:
Tabel 5.9 Signifikansi Parameter Model Regresi Dummy Provinsi Kepulauan Jawa Tengah
Dummy
Parameter Mean SE Significant
Mampu (0)
Intercept-0 -1.40778 0.29119
X1 d11[1] 0.38779 0.15827
d12[1] -0.22194 0.52158 -
d13[1] 0.52562 0.17284
d14[1] 0.19898 0.16843 -
X2 d21[1] 0.07123 0.25453 -
d22[1] 0 0 -
d23[1] -0.14273 0.2666 -
d24[1] -0.0634 0.26938 -
X3 d31[1] 0.12197 0.19535 -
d32[1] -0.14371 0.07281
d33[1] 0.09349 0.0692 -
X4 d41[1] -0.39253 0.18547
d42[1] -0.13519 0.07066
d43[1] 0.16211 0.07247
28
Dummy
Parameter Mean SE Significant
Tidak Mampu (1)
Intercept-1 -2.16142 0.643373
X1 d11[2] 0.10349 0.20562 -
d12[2] 0.619933 0.677981 -
d13[2] 0.212723 0.211322 -
d14[2] -0.00224 0.212779 -
X2 d21[2] 1.070287 0.614808
d22[2] -8.15017 119.4696 -
d23[2] 0.896073 0.618586 -
d24[2] 1.008775 0.622294 -
X3 d31[2] 0.02825 0.116553 -
d32[2] -0.11847 0.046891
d33[2] 0.050147 0.047386 -
X4 d41[2] -0.31336 0.109479
d42[2] -0.23946 0.045303
d43[2] 0.077003 0.049363 -
Ketepatan klasifikasi model regresi dummy Provinsi Kepulauan Jawa Tengah digunakan untuk
mengukur tingkat akurasi model yang telah ditetapkan. Berikut merupakan tabel klasifikasi
antara nilai aktual dengan hasil prediksi model regresi dummy berdasarkan pada kriteria KK.
Tabel 5.10 Ketepatan Klasifikasi Model Regresi Dummy Provinsi Kepulauan Jawa Tengah
Aktual
Y_Head
Klasifikasi
% Mampu
(0)
Tidak Mampu
(1)
Y_Test (0) 25 20,75%
Y_Test (1) 379
2. Regresi Polytomous Provinsi Kepulauan Jawa Tengah
Pengujian signifikansi parameter data in-sample untuk pembentukan model regresi
polytomous Provinsi Kepulauan Jawa Tengah dilakukan secara serentak. Hasil analisis dapat
dilihat pada tabel berikut:
29
Tabel 5.11 Signifikansi Parameter Model Regresi Polytomous Provinsi Kepulauan Jawa Tengah
Dummy
Parameter Mean SE Significant
Poly-2
Intercept-2 -2.42804 0.27783
X1 d11[2] 1.70481 0.126661
d12[2] -0.55129 0.482162 -
d13[2] 1.524862 0.134603
d14[2]
1.073372
0.132664
X2 d21[2] 1.852895 0.250735
d22[2] 9.339628 1.43E-05
d23[2] 1.240846 0.255683
d24[2]
0.904455
0.259132
X3 d31[2] 0.124495 0.113554 -
d32[2] 0.003297 0.043508 -
d33[2] 0.022356 0.044486 -
X4 d41[2] -0.0103 0.098664 -
d42[2] 0.00191 0.042684 -
d43[2] -0.03379 0.047254 -
Poly-3
Intercept-3 -1.38608 0.289472
X1 d11[1] 0.378253 0.158182
d12[1] -0.229 0.521554 -
d13[1] 0.507531 0.171975
d14[1] 0.19828 0.168388 -
X2 d21[1] 0.060493 0.254322 -
d22[1] -1.3799 6.86E-07
d23[1] -0.141 0.265945 -
d24[1] -0.065 0.269139 -
X3 d31[1] 0.115975 0.193834 -
d32[1] -0.14776 0.072586
d33[1] 0.088638 0.068849 -
X4 d41[1] -0.39582 0.184297
d42[1] -0.13485 0.070465
d43[1] 0.158513 0.072034
30
Dummy
Parameter Mean SE Significant
Poly-4
Intercept-4 -4.61943 0.62288
X1 d11[2] 1.824079 0.193996 -
d12[2] 0.094661 0.581445
d13[2] 1.75778 0.202052
d14[2] 1.080539 0.201832
X2 d21[2] 2.93673 0.594182
d22[2] -0.388 4.15E-06
d23[2] 2.146391 0.598447
d24[2] 1.922307 0.601671
X3 d31[2] 0.153524 0.142367 -
d32[2] -0.11337 0.055239
d33[2] 0.075315 0.055312 -
X4 d41[2] -0.3226 0.129197
d42[2] -0.23818 0.053607
d43[2] 0.04269 0.057876 -
Ketepatan klasifikasi model regresi polytomous Provinsi Kepulauan Jawa Tengah digunakan
untuk mengukur tingkat akurasi model yang telah ditetapkan. Berikut merupakan tabel
klasifikasi antara nilai aktual dengan hasil prediksi model regresi polytomous berdasarkan pada
kriteria penerimaan beasiswa Bidikmisi Indonesia 2015.
Tabel 5.12 Ketepatan Klasifikasi Model Regresi Polytomous Provinsi Kepulauan Jawa Tengah
Aktual Y_Head Klasifikasi
% (1) (2) (3) (4)
Y_Test (1) 12
62,95% Y_Test (2) 4112
Y_Test (3) 0
Y_Test (4) 0
3. Regresi Bernoulli Mixture Bayesian-Level_1 Provinsi Jawa Tengah
Pembentukan model regresi Bernoulli Mixture Bayesian-Level_1 provinsi Jawa Tengah
dilakukan dengan running program untuk mendapatkan model regresi yang tidak terdapat
autokorelasi. Gambar adalah plot autocorrelation dengan menggunakan 10.000 thin 40 iterasi.
31
Gambar 5.5 Plot ACF pada Regresi Bernoulli Mixture Bayesian-Level_1 Provinsi Jawa Tengah
Serial nilai sampel memperlihatkan pola random yang stabil dalam suatu domain tetap,
menunjukkan terpenuhinya sifat irreducible, aperiodic dan recurrent. Serial seluruh sampel
nilai estimasi parameter ditunjukkan melalui serial plot disajikan pada gambar berikut:
Gambar 5.6 Serial Plot 10.000 iterasi thin 40 Model Regresi Bernoulli Mixture Bayesian-Level_1 Provinsi
Jawa Tengah
32
Estimasi parameter Model Regresi Bernoulli Mixture Bayesian Provinsi Jawa Tengah
ditampilkan dalam tabel berikut:
Tabel 5.13 Signifikansi Parameter Model Regresi Bernoulli Mixture Bayesian Provinsi Jawa Tengah
Parameter Dummy
Mean Standar
Deviasi 2,50% 97,50% Significant
Parameter
P[1] 0,6101 0,0030 0,6042 0,6160
P[2] 0,3899 0,0030 0,3840 0,3958
b0[1] 0,9346 0,1628 0,6168 1,2560
X1 d11[1] -1,2890 0,0919 -1,4700 -1,1100
d12[1] 0,1479 0,4590 -0,7617 1,0440 No
d13[1] -0,9718 0,1009 -1,1670 -0,7724
d14[1] -0,8357 0,1010 -1,0320 -0,6393
X2 d21[1] -1,7330 0,1476 -2,0260 -1,4460
d22[1] -10,8500 118,5000 -243,8000 223,4000 No
d23[1] -1,3300 0,1587 -1,6400 -1,0220
d24[1] -0,9147 0,1632 -1,2280 -0,5957
X3 d31[1] -0,0052 0,1204 -0,2430 0,2250 No
d32[1] -0,1518 0,0453 -0,2395 -0,0623
d33[1] 0,0856 0,0445 -0,0004 0,1736 No
X4 d41[1] -0,3856 0,1172 -0,6181 -0,1625
d42[1] -0,1305 0,0440 -0,2171 -0,0456
d43[1] 0,1970 0,0458 0,1068 0,2860
b0[2] -4,7330 0,2747 -5,2560 -4,1940
X1 d11[2] 1,8560 0,1000 1,6620 2,0490
d12[2] 0,0361 0,4087 -0,7967 0,7998 No
d13[2] 1,8120 0,1083 1,6010 2,0240
d14[2] 1,0940 0,1089 0,8831 1,3100
X2 d21[2] 3,0130 0,2670 2,4780 3,5200
d22[2]
d23[2] 2,2060 0,2717 1,6640 2,7190
d24[2] 1,9790 0,2771 1,4350 2,5110
X3 d31[2] 0,1714 0,0985 -0,0199 0,3663 No
d32[2] -0,1119 0,0373 -0,1849 -0,0387
d33[2] 0,1034 0,0385 0,0267 0,1788
X4 d41[2] -0,3262 0,0896 -0,5013 -0,1532
d42[2] -0,2403 0,0361 -0,3117 -0,1701
d43[2] 0,0406 0,0403 -0,0392 0,1191 No
Ketepatan klasifikasi model regresi Bernoulli Mixture Bayesian Provinsi Jawa Tengah
digunakan untuk mengukur tingkat akurasi model yang telah ditetapkan. Berikut merupakan
33
tabel klasifikasi antara nilai aktual dengan hasil prediksi model regresi Bernoulli Mixture
Bayesian berdasarkan pada kriteria penerimaan beasiswa Bidikmisi Indonesia 2015.
Tabel 5.14 Ketepatan Klasifikasi Model Regresi Bernoulli Mixture Bayesian Provinsi Jawa Tengah
Aktual Y_Head Klasifikasi
% (mix-1) (mix-2)
Y_Test (mix-1) 76,85
Y_Test (mix-2)
5. 3 Analisis Klasifikasi Bidikmisi dengan Metode Random Forest
Adapun tahap dalam penelitian untuk penelitian setelah dilakukan pre-processing adalah
menerapkan algoritma random forest pada data Beasiswa Bidikmisi tahun 2017 di Jawa
Tengah.
langkah-langkah analisis metode random forest. Langkah pertama adalah menentukan
nilai m yaitu nilai variabel prediktor penting dan k yaitu nilai pohon yang digunakan dalam
analisis, dimana nilai m yang digunakan adalah 1, , dan 2
2p p p . p adalah banyaknya
variabel predictor yang digunakan pada penelitian ini yaitu p = 11. Sehingga nilai p yang
digunakan adalah 2, 4, dan 8. Langkah selanjutnya adalah menentukan nilai k. Umumnya nilai
k = 50 sudah memberikan hasil yang memuaskan pada masalah klasifikasi (Breimann, 1996),
sedangkan Sutton (2005) menyarankan menggunakan 100k karena dengan nilai tersebut
cenderung menghasilkan misklasifikasi yang konstan. Sehingga k yang digunakan pada
penelitian ini adalah 25, 50, 100, dan 500. Selanjutnya akan disajikan perbandingan nilai m dan
k untuk melihat kombinasi mana yang menghasilkan nilai misklasifikasi paling kecil disajikan
pada Gambar 5.7 dan Gambar 5.8.
Gambar 5.7 menunjukkan perubahan nilai m menyebabkan error klasifikasi berubah-
ubah. Nilai error klasifikasi menurun ketika m = 4, kemudian naik drastis ketika m = 8, untuk
setiap nilai k polanya sama. Sehingga dapat disimpulkan bahwa nilai m optimum ketika jumlah
variabel predictor sama dengan 4. Gambar 5.8 menunjukkan perubahan error klasifikasi akibat
berubahnya nilai k. Pada saat nilai m = 8, semakin besar nilai k maka semakin besar pula nilai
error klasifikasinya.
34
842
0.03675
0.03650
0.03625
0.03600
0.03575
0.03550
0.03525
0.03500
prediktor (m)
err
or
kla
sif
ika
si
25
50
100
500
k
Gambar 5.7 Error Klasifikasi Random Forest Berukuran Pohon k Untuk Setiap Prediktor m
5001005025
0.03675
0.03650
0.03625
0.03600
0.03575
0.03550
0.03525
0.03500
Pohon (k)
err
or
kla
sif
ika
si
2
4
8
m
Gambar 5.8 Error Klasifikasi Random Forest Prediktor m Untuk Setiap Pohon k
Lain halnya untuk m = 4, ketika ukuran k antara 25 sampai 50 nilai error klasifikasinya menurun
kemudian naik pada saat k = 100, kemudian turun lagi ketika k = 500. Untuk m = 2 nilai error
klasifikasi cenderung turun pada saat nilai k antara 25 sampai 100, kemudian stabil pada saat k
= 500. Berdasarkan Gambar 5.9 dan Gambar 5.10, nilai error terendah diperoleh pada saat m =
4 dan k = 100. Dapat dikatakan bahwa akurasi untuk metode random forest akan mencapai
optimal ketika prediktornya berjumlah 4 dan konvergen pada saat menggunakan 100 pohon
klasifikasi.
5. 4 Analisis Klasifikasi Data Bidikmisi dengan Metode Adaptive Bossting M2
(AdaBoost.M2) dengan Random Forest Sebagai Base Classifier
Pembentukan model dilakukan dengan membagi data menjadi data training dan data
testing. Data training digunakan untuk membangun model dan data testing untuk validasi
35
model. Penelitian ini menggunakan 5-fold cross validation dengan partisi 20% untuk setiap
foldnya. AdaBoost.M2 adalah perluasan dari AdaBoost, dimana AdaBoost.M2 menggunakan
pseudo-loss untuk menghitung residualnya. Berikut adalah hasil confussion matrix
AdaBoost.M2 menggunakan random forest sebagai base classifier.
Tabel 5.15 Confussion Matrix AdaBoost.M2 untuk Masing-masing Iterasi
Iterasi 5 Iterasi 10
Actual
Class
Prediction Class
Total Actual
Class
Prediction Class
Total Tidak
Diterima Diterima
Tidak
Diterima Diterima
Tidak
Diterima 0 367 367
Tidak
Diterima 1 366 367
Diterima 3 10156 10159 Diterima 25 10134 10159
Total 3 10523 10526 Total 26 10500 10526
Iterasi 15 Iterasi 25
Actual
Class
Prediction Class
Total Actual
Class
Prediction Class
Total Tidak
Diterima Diterima
Tidak
Diterima Diterima
Tidak
Diterima 1 367 368
Tidak
Diterima 1 366 367
Diterima 22 10137 10159 Diterima 22 10137 10159
Total 23 10504 10527 Total 23 10503 10526
Iterasi 30 Iterasi 50
Actual
Class
Prediction Class
Total Actual
Class
Prediction Class
Total Tidak
Diterima Diterima
Tidak
Diterima Diterima
Tidak
Diterima 2 367 369
Tidak
Diterima 3 364 367
Diterima 30 10129 10159 Diterima 31 10128 10159
Total 32 10496 10528 Total 34 10492 10526
Tabel 5.15 menyajikan confussion matrix untuk metode AdaBoost.M2, dari tabel
tersebut dapat pula dihitung nilai performansi secara manual untuk Iterasi ke-10.
TP 1Presisi 0,0385
(TP+FP) (1 25)
TP 1Recall= 0,0027
(TP+FN) (1 366)
2(Recall×Presisi) 0,00021F-Value= 0,0051
(Recall+Presisi) 0,04123
Sensitivity 0,00273
36
TN 10134Specificity= 0,9975
(TN+FP) (10134 25)
G-Mean Sensitivity × Specificity 0,00273 0,9975 = 0,0521 =
TPR 0,00272
FPR 1 Specificity 1 0,9975 0,00246
1 TPR-FPR 1,00033AUC 0,50013
2 2
Gambar 5.9 Nilai Kinerja Performansi pada Beberapa Iterasi AdaBoost.M2
Gambar 5.9 menyajikan kinerja performansi klasifikasi data Bidikmisi pada tiap iterasi
yang digunakan. Nilai recall, presisi dan f-value cenderung mengalami peningkatan, walaupun
dengan nilai yang masih sangat kecil. Nilai presisi berkaitan dengan banyaknya objek yang
diprediksi ke dalam kelas positif, dengan semakin naiknya kurva maka dapat dikatakan bahwa,
semakin tinggi jumlah iterasi, maka semakin banyak objek yang diklasifikasikan masuk ke
dalam kelas positif. Namun, jumlah false positif lebih banyak dibandingkan true positifnya
sehingga nilai presisi sangat kecil.
0 0,003 0,003 0,003 0,005 0,0080
0,0380,043 0,043
0,063
0,088
00,005 0,005 0,005
0,0100,015
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,10
5 1 0 1 5 2 5 3 0 5 0
KIN
ERJA
PER
FOR
MA
NSI
ITERASI
Recall Presisi F-Value
37
Gambar 5.10 Nilai G-Mean dan AUC pada Beberapa Iterasi AdaBoost.M2
Gambar 5.10 menunjukkan ukuran kinerja performansi yaitu G-Means dan AUC untuk model
AdaBoost.M2. Nilai G-mean dan AUC cenderung mencapai maksimal pada iterasi ke-50,
dengan nilai 50,256% dan 9,027%.
5. 5 Analisis Klasifikasi Data Bidikmisi dengan Metode SMOTE-Boosting dengan
Random Forest Sebagai Base Classifier
Seperti penjelasan sebelumnya, data dibagi menjadi data training dan data testing
menggunakan 5-fold cross validation. Kemudian membangkitkan data synthetic untuk
menyeimbangkan komposisi kelas mayoritas dan kelas minor menggunakan algoritma
SMOTE. Dengan menggunakan beberapa iterasi dan nilai over-sampling rate dari SMOTE,
Tabel 5.16 menyajikan confussion matrix untuk metode SMOTE-Boosting, dari tabel tersebut
dapat pula dihitung nilai performansi secara manual. Diberikan contoh untuk menghitung
performansi Iterasi ke-10.
TP 32Presisi 0,042
(TP+FP) (32 732)
TP 32Recall= 0,087
(TP+FN) (32 335)
2(Recall×Presisi) 0,00771F-Value= 0,057
(Recall+Presisi) 0,129
Sensitivity 0,087
0,000
5,214 5,207 5,2147,351 9,027
49,985 50,013 50,028 50,028 50,123 50,256
0
10
20
30
40
50
60
5 1 0 1 5 2 5 3 0 5 0
KIN
ERJA
PER
FOR
MA
NSI
(%
)
ITERASI
G-Mean AUC
38
TN 9427Specificity= 0,928
(TN+FP) (9427 732)
G-Mean Sensitivity × Specificity 0,065 0,999 = 0,2841=
TPR 0,087
FPR 1 Specificity 1 0,999 0,072
1 TPR-FPR 1,015AUC 0,5075
2 2
Tabel 5.16 Confussion Matrix SMOTE-Boosting untuk Masing-masing Iterasi
Iterasi 5 Iterasi 10
Actual
Class
Prediction Class
Total Actual
Class
Prediction Class
Total Tidak
Diterima Diterima
Tidak
Diterima Diterima
Tidak
Diterima 27 340 367
Tidak
Diterima 32 335 367
Diterima 634 9525 10159 Diterima 732 9427 10159
Total 661 9865 10526 Total 764 9762 10526
Iterasi 15 Iterasi 25
Actual
Class
Prediction Class
Total Actual
Class
Prediction Class
Total Tidak
Diterima Diterima
Tidak
Diterima Diterima
Tidak
Diterima 32 335 367
Tidak
Diterima 37 330 367
Diterima 961 9199 10160 Diterima 959 9201 10160
Total 993 9534 10527 Total 996 9531 10527
Iterasi 30 Iterasi 50
Actual
Class
Prediction Class
Total Actual
Class
Prediction Class
Total Tidak
Diterima Diterima
Tidak
Diterima Diterima
Tidak
Diterima 36 331 367
Tidak
Diterima 33 334 367
Diterima 940 9220 10160 Diterima 953 9206 10159
Total 976 9551 10527 Total 986 9540 10526
39
Gambar 5.11 Nilai Kinerja Performansi pada Beberapa Iterasi SMOTE-Boosting
Gambar 5.11 menyajikan kinerja performansi klasifikasi data Bidikmisi pada tiap
iterasi yang digunakan. Nilai recall dan f-value mengalami fluktuasi, walaupun dengan nilai
yang masih sangat kecil. Nilai presisi berkaitan dengan banyaknya objek yang diprediksi ke
dalam kelas positif, karena jumlah false positif lebih banyak dibandingkan true positifnya
sehingga nilai presisi sangat kecil.
Gambar 5.12 Nilai G-Mean dan AUC pada Beberapa Iterasi SMOTE-Boosting
Gambar 5.12 menunjukkan ukuran performansi yaitu G-Means dan AUC untuk model
SMOTE-Boosting. Nilai G-mean dan AUC cenderung stabil tanpa kenaikan yang drastis.
Sementara dari perhitungan manual diperoleh nilai specificity sebesar 0,928 berarti fungsi
pemisah yang diperoleh berhasil mengidentifikasi 92,79% pengamatan yang berasal dari status
diterima bidikmisi.
0,074
0,087 0,087
0,101 0,0980,090
0,041 0,042
0,0320,037 0,037 0,033
0,0530,057
0,0470,054 0,054
0,049
0,00
0,02
0,04
0,06
0,08
0,10
0,12
5 1 0 1 5 2 5 3 0 5 0
KIN
ERJA
PER
FOR
MA
NSI
ITERASI
Recall Presisi F-Value
50,558 50,757 49,630 50,321 50,279 49,805
26,264 28,445 28,097 30,216 29,836 28,545
0
10
20
30
40
50
60
70
5 1 0 1 5 2 5 3 0 5 0
KIN
ERJA
PER
FOR
MA
NSI
(%
)
ITERASI
AUC G-Mean
40
5. 6 Analisis Klasifikasi Bidikmisi dengan Metode SMOTE-Bagging dengan Random
Forest Sebagai Base Classifier
Langkah awal yang harus dilakukan dalam analisis metode bagging adalah dengan
membagi data menjadi data training dan data testing dengan 5-fold cross validation. Kemudian
dilakukan bootstrapping pada data training. Karena metode ini gabungan antara bagging dan
SMOTE, maka setelah dilakukan bootstrapping data akan di bangkitkan lagi menggunakan
SMOTE. Dengan beberapa iterasi yang digunakan, disajikan hasil performansi metode
SMOTE-Bagging dalam bentuk confussion matrix dan juga pada gambar sebagai berikut.
Tabel 5.17 Confussion Matrix SMOTE-Bagging untuk Masing-masing Iterasi
Iterasi 5 Iterasi 10
Actual
Class
Prediction Class
Total Actual
Class
Prediction Class
Total Tidak
Diterima Diterima
Tidak
Diterima Diterima
Tidak
Diterima 27 340 367
Tidak
Diterima 44 323 367
Diterima 536 9623 10159 Diterima 859 9300 10159
Total 563 9963 10526 Total 903 9623 10526
Iterasi 15 Iterasi 25
Actual
Class
Prediction Class
Total Actual
Class
Prediction Class
Total Tidak
Diterima Diterima
Tidak
Diterima Diterima
Tidak
Diterima 37 330 367
Tidak
Diterima 36 331 367
Diterima 712 9447 10159 Diterima 681 9478 10159
Total 749 9777 10526 Total 717 9809 10526
Iterasi 30 Iterasi 50
Actual
Class
Prediction Class
Total Actual
Class
Prediction Class
Total Tidak
Diterima Diterima
Tidak
Diterima Diterima
Tidak
Diterima 42 325 367
Tidak
Diterima 43 324 367
Diterima 784 9375 10159 Diterima 760 9399 10159
Total 826 9700 10526 Total 803 9723 10526
Tabel 5.17 menyajikan confussion matrix untuk metode SMOTE-Bagging, dari tabel
tersebut dapat pula dihitung nilai performansi secara manual untuk iterasi ke-10 sebagai
berikut. Selanjutnya akan dilihat bagaimana plot dari nilai performansi untuk jumlah iterasi
yang berbeda.
TP 44Presisi= 0,049
(TP+FP) (44 859)
41
TP 44Recall 0,1199
(TP+FN) (44 323)
2(Recall×Presisi) 0,0117F-Value= 0,069
(Recall+Presisi) 0,1689
Sensitivity 0,1199
TN 9300Specificity= 0,9154
(TN+FP) (9300 859)
G-Mean Sensitivity × Specificity 0,1199 0,9154 = 0,3313=
TPR 0,1199
FPR 1 Specificity 1 0,9154 0,0846
Gambar 5.13 Nilai Kinerja Performansi pada Beberapa Iterasi SMOTE-Bagging
Gambar 5.13 menyajikan performansi klasifikasi data Bidikmisi pada tiap iterasi yang
digunakan. Nilai recall, presisi dan f-value cenderung mengalami peningkatan, walaupun
dengan nilai yang masih kecil. Nilai presisi berkaitan dengan banyaknya objek yang diprediksi
ke dalam kelas positif, dengan semakin naiknya kurva maka dapat dikatakan bahwa, semakin
tinggi jumlah iterasi, maka semakin banyak objek yang diklasifikasikan masuk ke dalam kelas
positif. Namun, jumlah false positif lebih banyak dibandingkan true positifnya sehingga nilai
presisi sangat kecil.
0,0736
0,1199
0,1008 0,0981
0,1144 0,1172
0,048 0,049 0,049 0,050 0,051 0,054
0,058
0,069 0,066 0,066 0,070 0,074
0,00
0,02
0,04
0,06
0,08
0,10
0,12
0,14
5 1 0 1 5 2 5 3 0 5 0
KIN
ERJA
PER
FOR
MA
NSI
ITERASI
Recall Presisi F-Value
42
Gambar 5.14 Nilai G-Mean dan AUC pada Beberapa Iterasi SMOTE-Bagging
Gambar 5.14 menunjukkan ukuran performansi yaitu G-Means dan AUC untuk model
SMOTE-Bagging. Nilai G-mean mencapai maksimal pada iterasi ke-10, dengan nilai 33,129%
dan nilai AUC maksimal pada iterasi ke-50 sebesar 32,924%. Sementara nilai specificity
sebesar 0,9154 berarti fungsi pemisah yang diperoleh berhasil mengidentifikasi 91,54%
pengamatan yang berasal dari status diterima bidikmisi.
5. 7 Perbandingan Kinerja Performansi Klasifikasi
Setelah dilakukan analisis pada data Bidikmisi tahun 2017 di Jawa Tengah
menggunakan random forest, AdaBoost.M2 random forest, SMOTE-Boosting random forest,
dan SMOTE-Bagging random forest, selanjunya pada bagian ini dilakukan perbandingan dari
performansi semua model optimum yang diperoleh. Perbandingan beberapa metode tersebut
diukur menggunakan performansi klasifikasi yang meliputi presisi, recall, f-value, sensitivity,
dan specificity, g-mean dan AUC yang merupakan hasil klasifikasi dengan parameter terbaik
dari masing-masing metode. Perbandingan hasil klasifikasi tersebut ditampilkan pada Tabel
5.5, dapat dilihat bahwa performansi dari seluruh metode menunjukkan SMOTE-Boosting dan
SMOTE-Bagging mempunyai nilai yang cenderung sama. Ketepatan klasifikasi kelas positif
yang dilakukan oleh model AdaBoost.M2 yaitu rata-rata dari klasifikasi kelima fold sebesar
8,8235% yang berarti rata-rata hanya 8,8235% dari pengamatan di tiap fold data bidikmisi telah
diklasifikasikan dengan benar. Jika dilihat dari nilai sensitivity dan specificity, AdaBoost.M2
hanya bisa mengklasifikasikan 0,8174% pengamatan yang berasal dari status tidak diterima
(minoritas) sebagai kelas tidk diterima namun berhasil mengklasifikasikan 99,97%
pengamatan yang berasal dari status diterima (mayoritas) sebagai kelas diterima. Adanya kasus
26,398
33,12930,619 30,252
32,498 32,924
51,040 51,767 51,537 51,553 51,863 52,118
0
10
20
30
40
50
60
5 1 0 1 5 2 5 3 0 5 0
KIN
ERJA
PER
FOR
MA
NSI
(%
)
ITERASI
G-Mean AUC
43
imbalance pada data menyebabkan rendahnya nilai sensitivity dikarenakan fungsi pemisah
random forest cenderung mengklasifikan pengamatan ke dalam kelas mayoritas, sehingga
pengklasifikasian kelas minoritas hanya benar diklasifikasikan kurang dari 1%. Setelah
dilakukan penyeimbangan data pada kedua kelas dengan SMOTE dan dilakukan boosting dan
bagging diperoleh hasil yang lebih baik. Hal ini dibuktikan dengan performansi g-mean yang
diperoleh menggunakan SMOTE-Boosting random forest dan SMOTE-Bagging random forest
lebih tinggi dibandingkan AdaBoost.M2.
Tabel 5.18 Perbandingan Kinerja Performansi Klasifikasi Data Bidikmisi
Model
Rata-Rata Kelima Fold
Akurasi Presisi Recall F-Value Sensitivity Specificity G-mean AUC
AdaBoost.M2 0,9648 0.088235 0.008174 0.014963 0.008174 0.999705 0.090274 0.502561
SMOTE-Boosting 0,9074 0.041885 0.100817 0.056587 0.100817 0.937592 0.302161 0.50757
SMOTE-Bagging 0,9167 0.053549 0.119891 0.073504 0.119891 0.947239 0.331291 0.521178
Berdasarkan Tabel 5.18 dapat dilihat pula bahwa AdaBoost.M2 menghasilkan nilai
akurasi dan specificity yang tinggi. Hal ini dikarenakan pada proses boosting-nya,
AdaBoost.M2 berhasil mengambil keuntungan dari kesalahan klasifikasi yang dilakukan
random forest di tiap iterasi boosting-nya sehingga dapat meningkatkan ketepatan klasifikasi
khususnya klasifikasi pada kelas mayoritas. Sementara SMOTE-Boosting dan SMOTE-
Bagging menghasilkan nilai performansi yang hampir sama pada semua kriteria dikarenakan
proses penyeimbangan distribusi kelas training set sehingga mengakibatkan peningkatan
ketepatan klasifikasi pada kelas minoritas.
Gambar 5.15 Boxplot Nilai Kinerja Performansi G-Mean
Gambar 5.15 menyajikan boxplot dari nilai-nilai g-mean yang dihasilkan pada setiap
model. Nilai g-mean yang dihasilkan menggunakan SMOTE-Bagging random forest yang
ditunjukkan oleh warna kuning pada gambar, cenderung lebih tinggi sedikit dibandingkan
44
dengan SMOTE-Boosting. Nilai g-mean berkisar antara 26% sampai 33%. Nilai g-mean yang
dihasilkan menggunakan SMOTE-Boosting random forest yang ditunjukkan oleh warna biru
pada gambar. Variasi dari g-mean yang dihasilkan oleh algoritma SMOTE-Boosting random
forest cenderung lebih kecil dibandingkan kedua algoritma lain, nilai g-mean berkisar antara
26% sampai 30%.
Gambar 5.16 Boxplot Nilai Kinerja Performansi AUC
Selanjutnya Gambar 5.16 menyajikan boxplot dari nilai-nilai AUC yang dihasilkan
pada setiap model. Nilai AUC yang dihasilkan menggunakan SMOTE-Bagging random forest
yang ditunjukkan oleh warna kuning pada gambar, cenderung lebih tinggi dari pada metode
lain. Variasi nilai g-mean yang dihasilkan oleh algoritma SMOTE-Bagging random forest
berkisar antara 51% sampai 52%.
5. 8 Hasil Klasifikasi Data Pelamar Bidikmisi
Beasiswa Bidikmisi merupakan beasiswa pemerintahan bagi calon mahasiswa tidak
mampu secara ekonomi dan memiliki potensi akademik baik. Dikarenakan beasiswa ini adalah
untuk siswa miskin, maka persyaratan utama untuk mendaftar beasiswa jika pendapatan kotor
gabungan orangtua/wali dibagi jumlah anggota keluarga sebesar-besarnya Rp 750.000,00
setiap bulannya. Sebelum menuju pembahasan selanjutnya, ada beberapa tahap yang dilakukan
untuk mendapatkan nilai-nilai yang disajikan pada Tabel 4.6.
a. Memilih variabel “pendapatan ayah”, “pendapatan ibu” dan “jumlah tanggungan
keluarga”;
b. Membuat variabel baru dengan menghitung pendapatan gabungan orangtua, pada
Tabel 4.6 disajikan dengan nama “pendapatan orangtua”;
45
c. Menghitung “pendapatan orangtua” dibagi dengan “jumlah tanggungan keluarga”
kemudian menjadi variabel baru “pendapatan per kapita”;
d. Koding variabel “pendapatan per kapita” dengan kriteria: Jika pendapatan per
kapita > Rp. 750,000.00 maka dikategorikan sebagai keluarga mampu dengan kode
prediksi = 0. Jika pendapatan per kapita < Rp. 750,000.00 maka termasuk keluarga
miskin dengan kode prediksi = 1;
e. Cocokan dengan variabel respon yaitu “aktual” dengan prediksi pada langkah (d)
dan untuk variabel kondisi klasifikasi diisi dengan kriteria: Jika siswa yang
menerima beasiswa (Aktual = 1) berasal dari keluarga miskin (Prediksi = 1) maka
dikategorikan “Benar”. Jika siswa yang tidak menerima beasiswa (Aktual = 0)
berasal dari keluarga mampu (Prediksi = 0) maka “Benar”. Jika siswa yang
menerima beasiswa (Aktual = 1) berasal dari keluarga mampu (Prediksi = 0) maka
“Salah”. Jika siswa yang tidak menerima beasiswa (Aktual = 0) berasal dari
keluarga miskin (Prediksi = 1) maka “Salah”.
Tabel 5.19 Identifikasi Kondisi Klasifikasi Data Bidikmisi
Objek/
Siswa
Pendapatan
Gabungan Kotor
Pendapatan
Gabungan Bersih Aktual Prediksi Kondisi
1 Rp 625,000.00 Rp 156,250.00 1 1 Benar
2 Rp 1,875,000.00 Rp 937,500.00 1 0 Salah
3 Rp 875,000.00 Rp 875,000.00 1 0 Salah
4 Rp 1,375,000.00 Rp 1,375,000.00 1 0 Salah
5 Rp 875,000.00 Rp 175,000.00 1 1 Benar
6 Rp 1,875,000.00 Rp 625,000.00 1 1 Benar
7 Rp 2,750,000.00 Rp 687,500.00 1 1 Benar
8 Rp 875,000.00 Rp 218,750.00 1 1 Benar
9 Rp 1,000,000.00 Rp 500,000.00 1 1 Benar
10 Rp 1,250,000.00 Rp 178,571.43 1 1 Benar
(Sumber: Iriawan dkk, 2018)
Berdasarkan syarat bidikmisi, bahwa siswa yang berhak mendapatkan beasiswa jika
pendapatan per kapita sebesar-besarnya adalah Rp 750.000,00. Hasil “prediksi” status
penerimaan beasiswa menunjukkan bahwa terdapat 3 siswa yang seharusnya tidak berhak
mendapatkan beasiswa, hasil “aktual” menunjukkan bahwa kesepuluh siswa ternyata
mempunyai status diterima beasiswa. Berdasarkan Tabel 5.19 dapat dilihat kolom “kondisi”.
46
Gambar 5.17 Pie Chart Identifikasi Kondisi Klasifikasi Data Bidikmisi
Secara keseluruhan terdapat 10.762 siswa yang masuk dalam kondisi “salah
diklasifikasikan” dan 41.869 siswa yang masuk dalam kondisi “benar diklasifikasikan” seperti
ditunjukkan pada Gambar 5.17.
Penelitian ini menggunakan 3 metode klasifikasi yaitu AdaBoost.M2, SMOTE-
Boosting dan SMOTE-Bagging yang digunakan pada data Bidikmisi. Hasil performansi
masing-masing metode telah dijelakan dalam subbab sebelumnya, kemudian hasil prediksi
untuk setiap metode ditampilkan lebih jelas pada Tabel 5.20.
Tabel 5.20 Identifikasi Kondisi Klasifikasi Data Bidikmisi dengan Tiga Metode
Metode Iterasi
Jumlah
Salah
Klasifikasi
Jumlah
Benar
Klasifikasi
Persentase Benar
Klasifikasi
AdaBoost.M2
5 356 10170 96,618
10 379 10147 96,399
15 375 10151 96,437
25 376 10150 96,427
30 383 10143 96,361
50 387 10139 96,323
SMOTE-
Boosting
5 984 9542 90,652
10 1083 9443 89,711
15 1280 9247 87,839
25 1281 9246 87,830
30 1259 9268 88,039
50 1279 9247 87,840
SMOTE-
Bagging
5 880 9464 91,639
10 1192 9334 88,676
15 1052 9474 90,006
25 1020 9506 90,309
30 1123 9403 89,331
50 1122 9404 89,341
Benar Klasifikasi;
41869
Salah Klasifikasi;
10762
47
Berdasarkan Tabel 5.20 dapat dilihat perubahan benar klasifikasi untuk masing-masing
iterasi yang disajikan pada Gambar 5.18 hingga Gambar 5.22.
Gambar 5.18 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode AdaBoost.M2
Kondisi metode AdaBoost.M2 yang konvergen pada saat iterasi ke 10 hingga iterasi ke
50, menunjukkan variabilitas data yang kecil untuk metode ini. Dengan rata-rata 10.150
pengamatan masuk ke dalam kelompok benar klasifikasi.
Gambar 5.19 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode SMOTE-Boosting
Gambar 5.19 menunjukkan hasil klasifikasi metode SMOTE-Boosting, dimana kondisi
konvergen tercapai pada saat iterasi ke 15 hingga iterasi ke 50, dengan rata-rata 9.332
pengamatan masuk ke dalam kelompok benar klasifikasi.
10170
10147 10151 1015010143 10139
5 10 15 25 30 50
Jum
lah
Iterasi
AdaBoost.M2
95429443
9247 9246 9268 9247
5 10 15 25 30 50
Jum
lah
Iterasi
SMOTE-Boosting
48
Gambar 5.20 Kondisi “Benar Klasifikasi” Data Bidikmisi Metode SMOTE-Bagging
Metode SMOTE-Bagging menunjukkan hasil yang berbeda dibandingkan hasil metode
sebelumnya. Variabilitas data yang tinggi terlihat berdasarkan fluktuasi plot yang disajikan
pada Gambar 5.20 untuk setiap iterasi. Kondisi konvergen tercapai pada saat iterasi terakhir
yaitu iterasi ke 30 sampai iterasi ke 50, dengan rata-rata 9.431 pengamatan masuk dalam
kelompok benar klasifikasi.
Semua model telah dievaluasi dengan menggunakan 5-fold cross validation, dan dilihat
kriteria performansi masing-masing metode. Algoritma yang digunakan yaitu random forest,
SMOTE-Boosting dan SMOTE-Bagging berdasarkan pada integrasi algoritma SMOTE
didalam prosedur boosting dan bagging standar. Kesimpulan yang diperoleh dari penelitian ini
sesuai dengan tujuan penelitian adalah sebagai berikut:
1. Akurasi metode random forest mencapai optimal ketika prediktor (m) berjumlah 4 dan
konvergen pada saat menggunakan 100 pohon (k) klasifikasi.
2. Hasil penelitian dari kelas yang imbalance menunjukkan bahwa algoritma ensemble
SMOTE-Bagging random forest dan SMOTE-Boosting random forest menunjukkan
ketepatan klasifikasi yang cenderung lebih baik dibandingkan metode AdaBoost.M2
random forest. Selisih antara kedua metode algoritma SMOTE-Boosting random forest
dan SMOTE-Bagging random forest sangat kecil. Bisa dikatakan bahwa kedua metode
tersebut cukup berhasil mengambil keuntungan dari dua algoritma boosting dan bagging
dengan SMOTE. Ketika boosting dan bagging mempengaruhi akurasi dari random forest
dengan berfokus pada semua kelas data, algoritma SMOTE merubah nilai performansi dari
random forest hanya pada kelas minoritas.
5. 9 Analisis Bidikmisi dengan Metode Neural Network
Tujuan yang ingin dicapai analisis data Bidikmisi dengan menggunakan metode Neural
Network yaitu membangun suatu model prediksi Neural Network Backpropagation dalam
9464
9334
94749506
9403 9404
5 10 15 25 30 50
Jum
lah
Iterasi
SMOTE-Bagging
49
memprediksi variabel respon penerimaan Beasiswa Bidikmisi di Jawa Tengah. Sehingga untuk
membangun suatu model Neural Network yang terdiri dari input layer, hidden layer dan output
layer, maka akan ditentukan jumlah neuron pada masing-masing layer tersebut.
Jumlah neuron yang digunakan pada penelitain ini pada input layer yaitu terdiri dari 12
variabel yang merupakan karakteristik data Bidikmisi di Jawa Tengah. Hasil prepocesing data
ke dalam range [0,1] menghasilkan 23 neuron input untuk Neural Network yang akan dibangun.
Penentuan jumlah hidden layer sangat penting untuk memaksimalkan kinerja Neural Network
selama proses pelatihan. Sebelum menentukan jumlah neuron pada hidden layer dibentuk
terlebih dahulu jumlah neuron pada output layer. Pada penelitian ini adalah klasifikasi biner
dimana variabel respon atau targetnya terdiri dari 2 katagori yaitu tidak diterima (0) dan
diterima (1).
Selanjutnya sebelum membangun suatu model Neural Network Backpropagation data
dibagi menjadi data training dan data testing dengan 10 cross fold validation (k=10).
5.9.1 Model Prediksi Neural Network Backpropagation 1 Hidden layer
Berikut merupakan hasil klasifikasi dengn 1 hidden layer, untuk mendapatkan hasil
klasifikasi yang baik harus menetukan jumlah neuron yang tepat pada hidden layer yaitu
dilakukan trial dan error yaitu menggunakan jumlah neuron 2, 4, 6, 8 10, 12, 24 dengan
menggunakan fungsi aktivasi sigmoid biner pada hidden layer dan output layer. Hasil yag
diperoleh disajikan pada tabel 5.21. Untuk memperoleh hasil klasifikasi ini digunakan software
R dengan package neuralnet.
Tabel 5.21 Tingkat Kinerja AUC, G-Mean, dan Akurasi Data Testing dan Data Training 1 Hidden Layer
Jumlah
Neuron
Data Testing Data Training
AUC G-mean Akurasi AUC G-mean Akurasi
4 0,51 0,01 78,00 0,51 0,00 78,02
2 0,51 0,02 68,33 0,50 0,03 68,34
6 0,50 0,02 96,13 0,50 0,04 95,53
12 0,50 0,01 96,41 0,50 0,02 96,37
8 0,50 0,00 96,65 0,50 0,00 96,65
24 0,50 0,00 96,65 0,50 0,00 96,65
Tabel 5.21 disajikan tingkat kinerja AUC, G-Mean, dan Akurasi data testing dan data
training dengan 1 hidden layer. Untuk medapatkan performance yang terbaik dari hasil kinerja
50
klasifikasi pada Tabel 5.21, yaitu dengan mengurutkan (sort) dari nilai tertinggi sampai
terrendah. Kriteria AUC yang paling utama digunakan dalam pemilihan model, karena data
imbalance sehingga AUC lebih tepat untuk memilih model yang terbaik. Terdapat nilai G-
mean 0,00 artinya semua kelas negatif tidak dapat diprediksi oleh model. Berdasarkan Tabel
5.21 dihasilkan ketepatan klasifikasi dengan performance terbaik pada jumlah neuron 4,
sehingga dalam penelitian ini menggunakan jumlah neuron 4. Hasil klasifikasi untuk 10-fold
cross validation dengan satu hidden layer dengan jumlah neuron 4 disajikan pada Tabel 5.21
untuk data training dan Tabel 5.22 untuk data testing.
Tabel 5.22 Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network
Backpropagation Pada Data Training dengan 1 hidden Layer
Actual
Classification
Model
Classification Total
0 1
Fold 1
0 1574 7
1581 99,56% 0,44%
1 45409 188
45597 99,59% 0,41%
Fold 2
0 0 1582
1582 0% 100%
1 0 45596
45596 0% 100%
Fold 3
0 0 1581
1581 0% 100%
1 0 45597
45597 0% 100%
Fold 4
0 0 1581
1581 0% 100%
1 0 45596
45596 0% 100%
Fold 5
0 0 1581
1581 0% 100%
1 0 45597
45597 0% 100%
Fold 6
0 0 1582
1582 0% 100%
1 0 45597
45597 0% 100%
51
Actual
Classification
Model
Classification Total
0 1
Fold 7
0 0 1581
1581 0% 100%
1 0 45597
45597 0% 100%
Fold 8
0 0 1581
1581 0% 100%
1 3 45594
45597 0,01% 100%
Fold 9
0 1581 0
1581 100% 0%
1 45596 0
45596 100% 0%
Fold 10
0 0 1582
1582 0% 100%
1 15 45582
45597 0,03% 100%
Tabel 5.22 disajikan Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network
Backpropagation pada data training dengan jumlah hidden layer 1 dan 4 neuron. Diketahui
bahwa pada Fold 1 dari 1581 status penerimaan Beasiswa Bidikmisi pada kategori 0 (tidak
diterima Beasiswa Bidikmisi) terdapat 99,56% atau tidak ada status penerimaan Beasiswa
Bidikmisi yang tepat diklasifikasikan masuk dalam katagori null oleh model yang dibentuk, 7
atau 0,44% status peneriman Beasiswa Bidikmisi diklasifikasikan kedalam katagori 2 (dua).
Untuk katagori 1 (satu), dari 45597 status penerimaan Beasiswa Bidikmisi terdapat 99,59%
status penerimaan Beasiswa Bidikmisi yang diklasifikasikan masuk kedalam katagori 0 (null),
188 atau 0,41% status penerimaan Beasiswa Bidikmisi tepat diklasifikasikan masuk dalam
katagori 1 (diterima Beasiswa Bidikmsi). Dan begitu seterusnya untuk fold 2 sampai dengan
fold 10. Rata-rata hasil klasifikasi disajikan pada Tabel 5.23.
Tabel 5.23 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data Training Pada Model Neural
Network Backpropagation (1 Hidden Layer)
Actual Classification Model Classification
Akurasi
Tidak Diterima (0) Diterima (1)
Tidak Diterima (0) 3155
19,95%
12658
80,05% 78,02%
Diterima (1) 91023
19,96%
364944
80,04%
52
Sehingga dapat dihitung nilai akurasi atau ketepatan klasifikasi sebagai berikut.
Akurasi =364944 + 3155
364944 + 91023 + 3155 + 12658X100% = 78,02%
Tabel 5.10 disajikan Rata-rata ketepatan klasifikasi perkatagori untuk 10-Fold Data
Training pada model Neural Network Backpropagation dengan 1 hidden layer. Diketahui hasil
rata-rata ketepatan klasifikasi yang dibangun oleh model adalah sebesar 78,02%. Status
penerimaan Beasiswa Bidikmisi yang berada pada katagori 0 (null) dapat tepat diklasifikasikan
oleh model yaitu rata-rata sebesar 19,95%, sedangkan status penerimaan Beasiswa Bidikmisi
yang berada pada katagori 1 (satu) tepat diklasifikasikan oleh model yaitu rata-rata sebesar
80,04%. Sebaran rata-rata klasifikasi yang dibangun oleh model Neural Network
Backpropagation disajikan pada Gambar 5.21.
Gambar 5.21 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan 1 Hidden layer 10-
fold Data Training
Sebaran rata-rata hasil klasifikasi Neural Network Backpropagation pada Gambar 5.21
menunjukkan bahwa pada katagori 0, model memprediksi atau mengklasifikasikan sebagain
besar status Penerimaan Beasiswa Bidikmisi masuk pada katagori 1 (satu). Katagori 1, model
memprediksi sebagian besar status penerimaan Beasiswa Bidikmisi masuk pada katagori 1
(satu).
Tabel 5.24 Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network Backpropagation Pada Data
Testing dengan 1 Hidden Layer
Actual
Classification
Model Classification Total
0 1
Fold 1
0 176 0
176 100% 0%
1 5055 11
5066 99,78% 0,22%
19,95 19,96
80,05 80,04
0
20
40
60
80
100
0 1
Pe
rse
nta
se
Katagori
Prediksi Kategori 0
Prediksi Kategori 1
53
Actual
Classification
Model Classification Total
0 1
Fold 2
0 0 175
175 0% 100%
1 0 5067
5067 0% 100%
Fold 3
0 0 176
176 0% 100%
1 0 5066
5066 0% 100%
Fold 4
0 0 176
176 0% 100%
1 0 5067
5067 0% 100%
Fold 5
0 0 176
176 0% 100%
1 0 5066
5066 0% 100%
Fold 6
0 0 175
175 0% 100%
1 0 5066
5066 0% 100%
Fold 7
0 0 176
176 0% 100%
1 0 5066
5066 0% 100%
Fold 8
0 0 176
176 0% 100%
1 5 5061
5066 0,10% 99,90%
Fold 9
0 176 0
176 100% 0%
1 5066 1
5067 99,98% 0,02%
Fold 10
0 0 175
175 0% 100%
1 2 5064
5066 0,04% 99,96%
54
Tabel 5.24 disajikan Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network
Backpropagation pada data testing dengan jumlah hidden layer 1, dengan jumlah neuron 4.
Diketahui bahwa pada Fold 8 dari 176 status penerimaan Beasiswa Bidikmisi pada kategori 0
(tidak diterima Beasiswa Bidikmisi) tidak terdapat status penerimaan Beasiswa Bidikmisi yang
tepat diklasifikasikan masuk dalam katagori 0 (null) oleh model yang dibentuk, 176 atau 100%
status penerimaan Beasiswa Bidikmisi diklasifikasikan kedalam katagori 1 (satu). Untuk
katagori 1 (satu), dari 5066 status penerimaan Beasiswa Bidikmisi terdapat 5 atau 0,10% status
penerimaan Beasiswa Bidikmisi yang diklasifikasikan masuk kedalam katagori 0 (null), 5061
atau 99,90% status penerimaan Beasiswa Bidikmisi tepat diklasifikasikan masuk dalam
katagori 1 (diterima Beasiswa Bidikmsi). Dan begitu seterusnya untuk fold-fold yang lain.
Rata-rata hasil klasifikasi disajikan pada Tabel 5.25.
Tabel 5.25 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data Testing Pada Model Neural
Network Backpropagation (1 Hidden Layer)
Actual Classification Model Classification
Akurasi Tidak Diterima (0) Diterima (1)
Tidak Diterima (0)
352
20,03%
10128
1405
79,97%
40535 78,00%
Diterima (1) 19,99% 80,01%
Sehingga dapat dihitung nilai akurasi atau ketepatan klasifikasi sebagai berikut.
Akurasi =352 + 40535
40535 + 10128 + 352 + 1405X100% = 78,00%
Tabel 5.25 disajikan Rata-rata ketepatan klasifikasi perkatagori untuk 10-Fold Data
Testing pada model Neural Network Backpropagation dengan 1 hidden layer. Diketahui hasil
rata-rata ketepatan klasifikasi yang dibangun oleh model adalah sebesar 78,00%. Status
penerimaan Beasiswa Bidikmisi yang berada pada katagori 0 (null) dapat tepat diklasifikasikan
oleh model yaitu rata-rata sebesar 20,03%, sedangkan status penerimaan Beasiswa Bidikmisi
yang berada pada katagori 1 (satu) tepat diklasifikasikan oleh model yaitu rata-rata sebesar
80,01%. Sebaran rata-rata klasifikasi yang dibangun oleh model Neural Network
Backpropagationi disajikan pada Gambar 5.22.
55
Gambar 5.22 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan 1 Hidden layer 10-
fold Data Testing.
Sebaran rata-rata hasil klasifikasi Neural Network Backpropagation pada Gambar 5.22
menunjukkan bahwa pada katagori 0, model memprediksi atau mengklasifikasikan sebagain
besar status Penerimaan Beasiswa Bidikmisi masuk pada katagori 1 (satu). Katagori 1, model
memprediksi sebagian besar status penerimaan Beasiswa Bidikmisi masuk pada katagori 1
(satu).
Tabel 5.26 Hasil Kinerja Kasifikasi dengan Jumlah Neuron 4 Pada 1 hidden layer
Fold Data AUC G-mean Akurasi %
1 Training 0,52 0,06 3,73
Testing 0,56 0,05 3,57
2 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,66
3 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,64
4 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,64
5 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,64
6 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,66
7 Training 0,53 0,00 96,65
Testing 0,50 0,00 96,64
8 Training 0,51 0,00 96,64
Testing 0,51 0,00 96,55
9 Training 0,51 0,01 3,35
Testing 0,49 0,01 3,38
10 Training 0,52 0,00 96,65
Testing 0,50 0,00 96,62
Rata-Rata Training 0,51 0,007 78,03
Testing 0,51 0,006 78,00
29,99 29,93
70.1 70,07
0
20
40
60
80
0 1P
erse
nta
se
Katagori
Prediksi Kategori 0
Prediksi Kategori 1
56
Tabel 5.26 merupakan hasil kinerja klasifikasi dengan arsitektur yang paling baik yaitu
dengan jumlah neuron 4 pada 1 hidden layer. Hasil analisis pada Tabel 5.13 menunjukkan
bahwa ketepatan klasifikasi pada data training adalah 78,03% dan data testing sebesar 78,00%.
Diketahui bahwa ketepatan klasifikasi dari model Neural Network Backpropagation yang
terbentuk ditinjau dari akurasi sebesar 78,00%, ditinjau dari AUC sebesar 0.51 dan ditinjau
dari G-mean sebesar 0,006. Dalam hal ini hasil dari data training dan data testing menghasilkan
selisih yang hampir sama menunjukkan model yang dibentuk cukup baik.
5.9.2 Model Prediksi Neural Network Backpropagation 2 Hidden Layer
Seperti halnya penjelasan pada 1 hidden layer, pada 2 hidden layer juga digunakan trial
and error untuk mendapatkan hasil prediksi yang baik yaitu dengan menggunakan trial and
error dengan jumlah neuron 2-6, 4-2, 4-8, 5-9, 6-10, 10-4, 12-6, 12-8, 24-12, dan 24-30 dengan
menggunakan fungsi aktivasi sigmoid biner pada hidden layer dan output layer.
Tabel 5.27 Tingkat Kinerja AUC, G-Mean, dan Akurasi Data Testing dan Data Training dengan 2 Hidden
Layer
Jumlah
Neuron
Data Testing Data Training
AUC G-mean Akurasi AUC G-mean Akurasi
10-4 0,51 0,01 68,73 0,50 0,01 68,72
4-8 0,51 0,00 87,31 0,50 0,00 87,32
12-8 0,50 0,05 83,28 0,50 0,00 77,99
5-9 0,50 0,01 68,6 0,50 0,01 68,58
12-6 0,50 0,01 87,18 0,50 0,00 87,31
6-10 0,50 0,00 87,32 0,50 0,00 87,32
24-12 0,50 0,00 87,32 0,50 0,00 87,32
4-2 0,50 0,02 68,89 0,50 0,02 68,88
24-30 0,50 0,00 77,99 0,50 0,00 77,99
2-6 0,49 0,01 68,59 0,49 0,01 68,61
Berdsarkan Tabel 5.27 disajikan tingkat kinerja AUC, G-Mean, dan Akurasi data
testing dan data training dengan 2 hidden layer. Untuk medapatkan
performance yang terbaik dari hasil kinerja klasifikasi pada Tabel 5.14, yaitu dengan
mengurutkan (sort) dari nilai tertinggi sampai terrendah. Kriteria AUC yang paling utama
digunakan dalam pemilihan model, karena data imbalance sehingga AUC lebih tepat untuk
memilih model yang terbaik. Terdapat nilai G-mean 0,00 artinya semua kelas negatif tidak
dapat diprediksi oleh model. Berdsarkan Tabel 5.27 dihasilkan ketepatan klasifikasi dengan
57
performance terbaik pada jumlah neuron 10 pada hidden layer pertama dan jumlah neuran 4
pada hidden layer kedua, sehingga dalam penelitian ini menggunakan jumlah neuron 12 dan 4
untuk masing-masing hidden.
Hasil klasifikasi untuk 10-fold cross validation dengan 2 hidden layer dihasilkan
performence yang terbaik dengan (10-4) jumlah neuron pada 2 hidden layer. Tabel 5.28
merupakan klasifikasi dengan dua hidden layer, dimana menggunkan sigmoid biner pada 2
hidden layer dan output layer dengan jumlah 10 neuron pada hidden layer pertama dan 4
neuron pada hidden layer kedua.
Tabel 5.28 Ketepatan Klasifikasi dengan 2 Hidden layer 10-Fold Cross Validation Neural Network
Backpropagation Pada Data Training
Actual
Classification
Model Classification Total
0 1
Fold 1
0 1581 0
1581 100% 0%
1 45596 1
45597 99,998% 0,002%
Fold 2
0 1576 6
1582 99,62% 0,38%
1 45295 301
45596 99,34% 0,66%
Fold 3
0 0 1581
1581 0% 100%
1 0 45597
45597 0% 100%
Fold 4
0 0 1581
1581 0% 100%
1 0 45596
45596 0% 100%
Fold 5
0 0 1581
1581 0% 100%
1 0 45597
45597 0% 100%
Fold 6
0 0 1582
1582 0% 100%
1 0 45597
45597 0% 100%
58
Actual
Classification
Model Classification Total
0 1
Fold 7
0 0 1581
1581 0% 100%
1 0 45597
45597 0% 100%
Fold 8
0 1581 0
1581 100% 0%
1
45596 1
45597 99,99% 0,002%
0% 100%
Fold 9
0 0 1581
1581 0% 100%
1 0 45596
45596 0% 100%
Fold 10 0
0 1582 1582
0% 100%
1 0 45597 45597
Tabel 5.28 disajikan Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network
Backpropagation pada data training dengan jumlah hidden layer 2, hidden layer pertama
berjumlah 10 neuron, hidden layer kedua berjumlah 4 neuron. Diketahui bahwa pada Fold 2
dari 1582 status penerimaan Beasiswa Bidikmisi pada kategori 0 (tidak diterima Beasiswa
Bidikmisi) terdapat 99,62% atau 1576 status penerimaan Beasiswa Bidikmisi yang tepat
diklasifikasikan masuk dalam katagori 0 (null) oleh model yang dibentuk, 6 atau 0,38% status
peneriman Beasiswa Bidikmisi diklasifikasikan kedalam katagori 1 (satu). Untuk katagori 1
(satu), dari 45596 status penerimaan Beasiswa Bidikmisi terdapat 45295 atau 99,34% status
penerimaan Beasiswa Bidikmisi yang diklasifikasikan masuk kedalam katagori 0 (null), 301
atau 0,66% status penerimaan Beasiswa Bidikmisi tepat diklasifikasikan masuk dalam katagori
1 (diterima Beasiswa Bidikmsi). Dan begitu seterusnya untuk fold-fold yang lain. Rata-rata
hasil klasifikasi disajikan pada Tabel 5.29.
59
Tabel 5.29 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data Training Pada Model Neural
Network Backpropagation (2 Hidden Liayer)
Actual Classification Model Classification
Akurasi Tidak Diterima (0) Diterima (1)
Tidak Diterima (0)
4738
29,96%
136487
11075
70,04%
319480 68,72%
Diterima (1) 29,93% 70,07%
Sehingga dapat dihitung nilai akurasi atau ketepatan klasifikasi sebagai berikut.
Akurasi =4738 + 319480
319480 + 136487 + 4738 + 11075X100% = 68,72%
Tabel 5.29 disajikan Rata-rata ketepatan klasifikasi perkatagori untuk 10-Fold Data
Training pada model Neural Network Backpropagation pada 2 hidden layer. Diketahui hasil
rata-rata ketepatan klasifikasi yang dibangun oleh model adalah sebesar 68,72%. Status
penerimaan Beasiswa Bidikmisi yang berada pada katagori 0 (null) dapat tepat diklasifikasikan
oleh model yaitu rata-rata sebesar 29,96%, sedangkan status penerimaan Beasiswa Bidikmisi
yang berada pada katagori 1 (satu) tepat diklasifikasikan oleh model yaitu rata-rata sebesar
70,07%. Sebaran rata-rata klasifikasi yang dibangun oleh model Neural Network
Backpropagationi disajikan pada Gambar 5.23.
Gambar 5.23 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan 2 Hidden
layer 10-fold Data Training
Sebaran rata-rata hasil klasifikasi Neural Network Backpropagation pada Gambar 5.25
menunjukkan bahwa pada katagori 0, model memprediksi atau mengklasifikasikan sebagain
besar status Penerimaan Beasiswa Bidikmisi masuk pada katagori 1 (satu). Katagori 1, model
memprediksi sebagian besar status penerimaan Beasiswa Bidikmisi masuk pada katagori 1
(satu).
29,99 29,93
70,01 70,07
0
20
40
60
80
0 1
Per
sen
tase
Katagori
Prediksi Kategori 0
Prediksi Kategori 1
60
Tabel 5.30 Ketepatan Klasifikasi denga 2 Hidden layer 10-Fold Cross Validation Neural Network
Backpropagation Pada Data Testing
Actual Classification Model Classification
Total 0 1
Fold 1
0 176 0
176 100% 0%
1 5065 1
5066 100% 0%
Fold 2
0 175 0
175 100% 0%
1 5034 33
5067 99,35% 0,65%
Fold 3
0 0 176
176 0% 100%
1 0 5066
5066 0% 100%
Fold 4
0 0 176
176 0% 100%
1 0 5067
5067 0% 100%
Fold 5
0 0 176
176 0% 100%
1 0 5066
5066 0% 100%
Fold 6
0 0 175
175 0% 100%
1 0 5066
5066 0% 100%
Fold 7
0 0 176
176 0% 100%
1 0 5066
5066 0% 100%
Fold 8
0 176 0
176 100% 0%
1 5065 1
5066 100% 0%
Fold 9 0 0 176
176 0% 100%
61
Actual Classification Model Classification
Total 0 1
1 0 5067
5067 0% 100%
Fold 10
0 0 175
175 0% 100%
1 0 5066
5066 0% 100%
Tabel 5.30 disajikan Ketepatan Klasifikasi 10-Fold Cross Validation Neural Network
Backpropagation pada data testing dengan jumlah hidden layer 2, hidden layer pertama
berjumlah 10 neuron, hidden layer kedua berjumlah 4 neuron. Diketahui bahwa pada Fold 2
dari 175 status penerimaan Beasiswa Bidikmisi pada kategori 0 (tidak diterima Beasiswa
Bidikmisi) terdapat 100% atau 175 status penerimaan Beasiswa Bidikmisi yang tepat
diklasifikasikan masuk dalam katagori 0 (null) oleh model yang dibentuk, 0% status peneriman
Beasiswa Bidikmisi diklasifikasikan kedalam katagori 1 (satu). Untuk katagori 1 (satu), dari
5067 status penerimaan Beasiswa Bidikmisi terdapat 5034 atau 99,35% status penerimaan
Beasiswa Bidikmisi yang diklasifikasikan masuk kedalam katagori 0 (null), 33 atau 0,65%
status penerimaan Beasiswa Bidikmisi tepat diklasifikasikan masuk dalam katagori 1 (diterima
Beasiswa Bidikmsi). Dan begitu seterusnya untuk fold-fold yang lain. Rata-rata hasil klasifikasi
disajikan pada Tabel 5.31.
Tabel 5.31 Rata-rata Ketepatan Klasifikasi Perkatagori Untuk 10-Fold Data Testing Pada Model Neural
Network Backpropagation (2 Hidden Layer)
Actual Classification Model Classification
Akurasi Tidak Diterima (0) Diterima (1)
Tidak Diterima (0)
527
29,99%
15164
1230
70,01%
35499 68,73%
Diterima (1) 29,93% 70,07%
Sehingga dapat dihitung nilai akurasi atau ketepatan klasifikasi sebagai berikut.
Akurasi =527 + 35499
35499 + 15164 + 527 + 1230X100% = 68,73%
Tabel 5.31 disajikan Rata-rata ketepatan klasifikasi perkatagori untuk 10-Fold Data
Testing pada model Neural Network Backpropagation dengan 2 hidden layer. Diketahui hasil
62
rata-rata ketepatan klasifikasi yang dibangun oleh model adalah sebesar 68,73%. Status
penerimaan Beasiswa Bidikmisi yang berada pada katagori 0 (null) dapat tepat diklasifikasikan
oleh model yaitu rata-rata sebesar 29,99%, sedangkan status penerimaan Beasiswa Bidikmisi
yang berada pada katagori 1 (satu) tepat diklasifikasikan oleh model yaitu rata-rata sebesar
70,07%. Sebaran rata-rata klasifikasi yang dibangun oleh model Neural Network
Backpropagationi disajikan pada Gambar 5.24.
Gambar 5.24 Sebaran Hasil Klasifikasi Neural Network Backpropagation dengan 2 Hidden layer 10-fold Data
Testing
Sebaran rata-rata hasil klasifikasi Neural Network Backpropagation pada Gambar 5.26
menunjukkan hasil yang hampir sama dengan sebaran rata-rata klasifikasi pada data testing,
diketahui bahwa pada katagori 0, model memprediksi atau mengklasifikasikan sebagain besar
status Penerimaan Beasiswa Bidikmisi masuk pada katagori 1 (satu). Katagori 1, model
memprediksi sebagian besar status penerimaan Beasiswa Bidikmisi masuk pada katagori 1
(satu).
Hasil analisis pada Tabel 5.31 menunjukkan bahwa ketepatan klasifikasi pada data
training adalah 68,72% dan data testing sebesar 68,73%. diketahui bahwa ketepatan klasifikasi
dari model Neural Network Backpropagation yang terbentuk ditinjau dari akurasi sebesar
68,73%, ditinjau dari AUC sebesar 0,51 dan ditinjau dari G-mean sebesar 0,01. Dalam hal ini
hasil dari data training dan data testing menghasilkan selisih yang hampir sama, sehingga dapat
dikatakan model yang dibentuk cukup baik.
29,99 29,93
70,01 70,07
0
10
20
30
40
50
60
70
80
0 1
Per
sen
tase
Katagori
Prediksi Kategori 0
Prediksi Kategori 1
63
Tabel 5.32 Hasil Kinerja Klasifikasi 10-Fold dengan Jumlah Neuron (10-4) dengan 2 Hidden Layer Pada Data
Training Dan Testing
Fold Data AUC G-mean Akurasi
%
1 Training 0,51 0,00 3,35
Testing 0,51 0,01 3,38
2 Training 0,51 0,08 3,98
Testing 0,56 0,08 3,97
3 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,64
4 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,64
5 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,64
6 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,66
7 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,64
8 Training 0,52 0,00 3,35
Testing 0,52 0,01 3,38
9 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,64
10 Training 0,50 0,00 96,65
Testing 0,50 0,00 96,66
Rata-Rata Training 0,50 0,01 68,72
Testing 0,51 0,01 68,73
5.9.3 Optimasi Parameter Neural Network Backpropagation Menggunakan Algoritma
Genetika (GA)
Neural Network (NN) dan Algoritma Genetika keduanya adalah alat yang kuat yang
dimodelkan setelah fenomena alam. Neural Network dimodelkan seperti otak, dimana sangat
paralel dan banyak menawarkan keuntungan ketika dalam pemecahan pengenalan pola dan
masalah klasifikasi. Genetic Algorithm didasarkan pada teori evolusi dan kelangsungan hidup
dan telah diterapkan untuk menyelesaikan banyak masalah pengoptimalan.
Neural Network memberikan banyak kelebihan dalam berbagai aplikasi, tetapi tidak
efektif jika tidak dirancang dengan benar. Terdapat banyak pilihan dalam mendesain NN tetapi
dengan memilih salah satu parameter yang tidak baik dapat menghasilkan hasil NN yang
64
kurang baik. Untuk mendapatkan struktur parameter yang optimal pada Neural Network
Backpropagation akan dilakukan optimasi menggunakan Genetic Alghoritm (GA) untuk
mendapatkan parameter yang optimum pada model Neural Network Backpropagation,
sehingga didapatkan tingkat kinerja klasifikasi yang lebih baik.
Pada penelitian ini Genetika Algoritma digunakan untuk menemukan bobot dan bias
awal yang optimal dari Backpropagation. Seperti yang disebutkan dalam Y.Du & Y.Li Tahun
2008, Algoritma Genetika baik digunakan untuk pengoptimalan global, sedangkan Neural
Network baik digunkan dalam pengoptimalan lokal. Menggunakan kombinasi algoritma
genetika untuk menentukan bobot dan bias awal dalam proses pelatihan Backpropagation
untuk kesalahan lebih rendah dan untuk menghindari minimum lokal.
Seperti yang telah dijelaskan pada sub bab sebelumnya, langkah- langkah untuk
mengoptimasi bobot dan bias awal pada Backpropagation hal pertama yang dilakukan adalah
menentukan variabel-variabel yang dibutuhkan oleh Algoritma Genetika yaitu populasi, batas
iterasi, peluang terjadinya pindah silang, peluang terjadinya mutasi dan kromosom untuk
elitisim. Dalam penelitian ini jumlah populasi yang digunakan sebanyak 50 kromosom dengan
batas iterasi sebanyak 100, sebesar 0.8 peluang yang digunakan dalam pidah silang dan sebesar
0.1 peluang yang digunakan dalam mutasi. Kromosom yang terpilih sebanyak bobot yang
digunakan sesuai dengan jumlah input, jumlah neuron pada jumlah hidden layer yang digunkan
dan jumlah output.
Selanjutnya yang kedua yaitu inisialisasi kromosom, pada peneltian ini dilakukan
optimasi parameter bobot Neural Network yaitu inisialisasi pengkodean dengan menggunakan
real valued atau bilangan real. Proses yang dilakukannya yaitu dengan merepresentasikan bias
dan bobot pada Neural Network kedalam bentuk kromosom GA. Gambar 5.27 (a). menyajikan
contoh struktur Neural Network dengan 3 input dan 2 neuron pada hidden layer. Pembentukan
kromosom yang direpresentasikan disajikan pada Gambar 5.25 (b).
(a)
⋮
X
2
X
14
Z
1
Z
2
1
1
Y
V12
V21
V22
V141
V142 b11
b12
W1
W2
b2
X
1
65
(b).
V11 V21
V141 V12 V22
V142 W1 W2 b11 b12 b2
Gambar 5.25 Pembentukan Kromosom Algoritma Genetika
Selanjutnya terbentuk 50 kromosom dengan menggeneret sejumlah populasi dengan nilai
parameter yang bervariasi didalamnya. Nilai kromosom di generate diantara nilai range dari
parameter (bias dan bobot).
Tahap ketiga fungsi fitness function yang digunakan adalah nilai dari AUC. Dari 50
kromosom yang telah degenerate kemudian dihitung nilai AUC dari tiap kromosomnya. Nilai
AUC yang tinggi menghasilkan kromosom yang baik dan dapat bertahan hidup. Setelah
mendapatkan kromosom yang baik kemudian tahap keempat menyeleksi dengan menggunakan
roulette wheel yaitu tiap kromosom akan diseleksi untuk dijadikan sebagi calon orang tua.
Pemilihan calon orang tua didasarkan pada nilai fitness yang telah didapatkan pada tahapan
sebelumnya. Nilai frekuensi adalah fitness kumulatif yang dibagi dengan total fitness. Nilai
tersebut akan menjadi batas terpilihnya kromosom. Kromosom yang terpilih jika nilai dari
bilangan random terletak pada range nilai frekuensi kromosom sebelumnya dan kromosom
tersebut.
Tahapan kelima yaitu proses pindah silang :
V11_1 V21_1
V141_1 V12_1 V22_1
V142_1 W1_1 W2_1 b11_1 b12_1 b2_1
V11_2 V21_2
V141_2 V12_2 V22_2
V14_2 W1_2 W2_2 b11_2 b12_2 b2_2
V11_2 V21_2
V141_2 V12_2 V22_2
V142_1 W1_1 W2_1 b11_1 b12_1 b2_1
V11_1 V21_1
V141_1 V12_1 V22_1
V14_2 W1_2 W2_2 b11_2 b12_2 b2_2
diberi nilai random bilangan uniform (0.1) di kromosom yang telah terpilih sebagai calon orang
tua. Jika nilai random bilangan uniform (0.1) kurang dari peluang pindah silang (Pc=0.8)
sehingga kromosom tersebut terpilih menjadi orang tua dan terjadilah proses pindah silang
66
yaitu kromosom satu melakukan pertukaran informasi (isi parameter) dengan kromosom 2
yang menghasilkan sebuah kromosom baru yang dihitung juga nilai fitnessnya.
Tahapan keenam yaitu mutasi dimana mutasi dilakukan pada kromosom yang terpilih
dengan mengubah salah satu nilai parameter dengan suatu bilangan random. Kromosom dipilih
dengan memberikan bilangan uniform (0.1) pada kromosom, jika bilangan random uniform
(0.1) kurang dari nilai peluang mutasi (Pm = 0.1) sehinggga kromosom tersebut menjadi
kromosom yang terpilih.
Tahapan ketujuh yaitu dengan mengurutkan nilai fitness dari semua kromosom yang
terbentuk, dari 50 kromosom awal, kromosom hasil pindah silang, dan kromosom pada saat
mutasi dari nilai fitness paling rendah sampai nilai fitness paling tinggi. Kromosom dengan
nilai fitness tertinggi disimpan dan selanjutnya digunakan sebagai orang tua pada generasi
selanjutnya. Tahapan berikutnya menggenerate 50 kromosom yang merupakan populasi baru
dengan nilai fitness tertinggi dan dilakukan iterasi hingga iterasi ke 100.
Setelah mendapatkan parameter pada pelatihan Backpropagation yang paling optimal,
kemudian dibentuk model untuk mengetahui kinerja klasifikasi pada data status penerimaan
Bidikmisi. Tabel 5.33 merupakan 10-fold cross-validation hasil kinerja klasifikasi dari data
status penerimaan beasiswa Bidikmisi. Berikut hasil pengoptimalan bobot dengan 4 neuron
pada 1 hidden layer.
Tabel 5.33 Hasil Kinerja Klasifikasi BPN-GA dengan 4 Neuron Pada 1 Hidden Layer
Fold Cross
ke-
Data Testing Data Training
AUC G-mean Akurasi AUC G-mean Akurasi
1 0,50 0,00 96,62 0,51 0,00 96,63
2 0,51 0,13 96,05 0,50 0,08 96,09
3 0,52 0,00 96,60 0,50 0,00 96,65
4 0,53 0,11 96,66 0,52 0,04 96,59
5 0,48 0,00 96,62 0,53 0,00 96,64
6 0,50 0,00 96,64 0,51 0,00 96,64
7 0,52 0,00 96,43 0,52 0,00 96,65
8 0,50 0,18 93,34 0,51 0,21 93,28
9 0,50 0,00 96,62 0,51 0,00 96,63
10 0,52 0,50 39,11 0,51 0,50 39,31
Rata-rata 0,51 0,10 90,47 0,51 0,10 90,51
Hasil analisis pada Tabel 5.33 menunjukkan bahwa ketepatan klasifikasi pada data
training adalah 90,51% dan data testing sebesar 90,47%, diketahui bahwa ketepatan klasifikasi
67
dari model Neural Network Backpropagation yang terbentuk ditinjau dari akurasi sebesar
90,47%, ditinjau dari AUC sebesar 0,51 dan ditinjau dari G-mean sebesar 0,10. Dalam hal ini
hasil dari data training dan data testing menghasilkan selisih yang hampir sama sehingga dapat
dikatakan model yang dibentuk cukup baik.
5.9.4 Tingkat Kinerja Klasifikasi Neural Network Backpropagation Tanpa dan dengan
Optimasi Bobot dan Bias Backpropagation
Berikut akan diuraikan tentang perbandingan dari ketiga metode yang telah dilakukan,
yaitu analisis klasifikasi dengan satu hidden layer, dan dengan dua hidden layer menggunakan
Neural Network Backpropagation serta optimasi parameter bobot dan bias awal
Backpropagation. Tabel 5.34 menyajikan Kinerja Hasil klasifikasi Neural Network
Backpropagation Tanpa dan dengan Optimasi Bobot dan Bias Backpropagation.
Tabel 5.34 Kinerja Hasil Klasifikasi Tanpa dan dengan Optimasi Bobot dan Bias Pada Neural Network
Backpropagation
Struktur NN Data Testing Data Training
AUC G-mean Akurasi (%) AUC G-mean Akurasi (%)
23-4-1 (Tanpa Optimasi) 0,51 0,01 78,00 0,51 0,01 78,02
23-4-1 (Dengan Optimasi) 0,51 0,09 90,47 0,51 0,08 90,51
23-10-4-1 (Tanpa Optimasi) 0,51 0,01 68,73 0,50 0,01 68,72
Berdasarkan Tabel 5.34 dapat diketahui bahwa bobot dan bias awal yang dioptimasi
menggunakan Algoritma Genetika mampu meningkatkan hasil kinerja klasifikasi untuk AUC,
G-mean dan Akurasi. Dapat dilihat hasil dari kinerja Backpropagation dengan struktur NN (23-
4-1) sebelum dioptimasi atau parameter bobot dan bias yang dilakukan secara acak manual
pada data testing menghasilkan nilai akurasi sebesar 78,00% , nilai G-mean sebesar 0,01 dan
nilai AUC 0,51. Setelah dilakukan optimasi mengggunakan Algoritma Genetika dihasilkan
nilai akurasi sebesar 90,47%, nilai G-mean sebesar 0,09, nilai AUC sebesar 0,51 walaupun
tidak meningkat secara signifikan tetapi dapat dikatakan bahwa optimasi bobot dan bias awal
menggunakan algoritma genetika mampu meningkatkan kinerja klasifikasi dan untuk hasil data
testing DLNN (23-10-4) menghasilkan nilai akurasi sebesar 68,73%, nilai G-mean sebesar
0,01, nilai AUC sebesar 0,51 sehingga dalam hal ini dapat dikatakan bahwa hasil klasifikasi
yang terbaik yaitu klasifikasi dengan optimasi bobot dan bias pada Neural Network
Backpropagation.
68
Berdasarkan analisis klasifikasi yag telah dibahas diketahui bahwa hasil nilai akurasi yang
tinggi tetapi menghasilkan nilai G-mean yang rendah dikarenakan data yang tidak seimbang
yaitu proporsi kelas status penerimaan Beasiswa Bidikmisi data positif (diterima) sebesar
0,96648 atau 96,648% sedangkan data negatif (tidak diterima) sebesar 0,0335 atau 3,35% dan
jika dilihat dari sebaran data status Beasiswa Bidikmisi Jawa Tengah Tahun 2017 terjadi
overlapping antar kelas.
69
BAB 6
RENCANA TAHAPAN BERIKUTNYA
Rencana tahap berikutnya yang akan dilakukan sampai dengan Laporan Akhir hibah
Penelitian Disertasi Doktor (PDD) pasca Laporan Kemajuan disajikan melalui Diagram 6.2.
Roadmap PDD Tahun 2018 disajikan pada Gambar 6.2, pelaksanaan diberikan sebagai berikut:
Roadmap PDD Tahun 2018 (Gambar 6.2)
1. Berdasarkan fenomena di lapangan mengenai Program Beasiswa Bidikmisi dilakukan
pencarian data Bidikmisi di Kemenristekdikti, Direktorat Pembelajaran dan
Kemahasiswaan, kanal Bidikmisi.
2. Pre-processing data Bidikmisi, langkah-langkahnya diberikan sebagai berikut:
a. Teknik data reduction: mereduksi data dengan cara mem-filter data berdasarkan
Kabupaten/Kota seluruh provinsi di Indonesia pada database data Bidikmisi.
b. Teknik data cleaning: membersihkan data dengan cara memperbaiki inkonsistensi
data dengan mengisi missing value pada covariate variable.
c. Teknik data integration: mengintegrasikan masing-masing variabel yaitu variabel
respon (Y) dan covariate variable (X)
d. Teknik data transformation: mentrasformasikan data untuk proses identifikasi
Bernoulli mixture distribution
3. Eksplorasi data Bidikmisi dilakukan analisis deskriptif karakteristik status penerimaan
siswa pendaftar beasiswa Bidikmisi seluruh Kabupaten/Kota Provinsi Jawa Tengah di
Indonesia. Deskripsi data Bidikmisi meliputi:
a. Deskripsi siswa pedaftar beasiswa Bidikmisi seluruh Kabupaten/Kota Provinsi Jawa
Tengah di Indonesia.
b. Deskripsi data rekapitulasi penerimaan beasiswa Bidikmisi seluruh Kabupaten/Kota
Provinsi Jawa Tengah di Indonesia.
4. Analisis-1: Ketepatan klasifikasi model level-1 penerimaan Bidikmisi per seluruh
Kabupaten/Kota Provinsi Jawa Tengah:
a. Model Regresi Dummy adalah sebagai berikut:
0 1 11 2 12 3 13 4 14 5 21 6 22 7 23 8 24 9 31 10 32 11 33 12 41 13 42 14 43+ d + d + d + d + d + d + d + d + d d + d d d dg x
Persamaan untuk menentukan nilai peluang (odds ratio) adalah sebagai berikut:
eˆ
1 e
g x
g xx
70
atau
exp + d + d + d + d + d + d + d + d + d d + d d d d5 70 1 11 2 12 3 13 4 14 21 6 22 23 8 24 9 31 10 32 11 33 12 41 13 42 14 43
ˆ1 exp + d + d + d + d + d + d + d + d + d d + d d5 70 1 11 2 12 3 13 4 14 21 6 22 23 8 24 9 31 10 32 11 33 12 41
x
d d13 42 14 43
b. Model Regresi Polytomous
2
1
1
10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32
111 33 112 41 113 42 114 43
Pr 2 | Pln ln
Pr 1| P
= + d + d + d + d + d + d + d + d + d d +
d d d d
Y xZ x
Y x
3
2
1
20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32
211 33 212 41 213 42 214 43
Pr 3 | Pln ln
Pr 1| P
= + d + d + d + d + d + d + d + d + d d +
d d d d
Y xZ x
Y x
4
3
1
30 31 11 32 12 33 13 34 14 35 21 36 22 37 23 38 24 39 31 310 32
311 33 312 41 313 42 314 43
Pr 4 | Pln ln
Pr 1| P
= + d + d + d + d + d + d + d + d + d d +
d d d d
Y xZ x
Y x
c. Pendekatan Model Regresi Bernoulli Mixture Bayesian-Level_1
Pada regresi Bernoulli Mixture Bayesian-Level_1 untuk memodelkan status
penerimaan beasiswa Bidikmisi dilakukan dengan membuat doodle yang disajikan
dalam Gambar 6.1.
71
Gambar 6.1 Doodle Regresi Bernoulli Mixture Bayesian-Level_1
Model Regresi Bernoulli Mixture Bayesian-Level_1 berdasarkan doodle Gambar 6.1
adalah sebagai berikut:
- -1 -1 -2 -2f x g x g xB mix mix mix mix mix
,
dengan
1 10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32
111 33 112 41 113 42 114 43
+ d + d + d + d + d + d + d + d + d d +
d d d d
mixg x
,
2 20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32
211 33 212 41 213 42 214 43
+ d + d + d + d + d + d + d + d + d d +
d d d d
mixg x
,
sehingga
10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32
111 33 112 41 113 42 114 43
20 21 11 22 12
- -1
-2
+ d + d + d + d + d + d + d + d + d d +
d d d d
+ d + d +
f xB mix mix
mix
23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32
211 33 212 41 213 42 214 43
d + d + d + d + d + d + d d +
d d d d
Persamaan untuk menentukan nilai peluang (odds ratio) model Regresi Bernoulli Mixture
Bayesian-Level_1 adalah sebagai berikut:
72
-1 -2
-1 -2
10 11 11 12 12 13 13 14 14 15 21 16 22
- -1 -1 -2 -2
-1 -2
-1
ˆ ˆ
e e =
1 e 1 e
+ d + d + d + d + d + dexp
=
mix mix
mix mix
g x g x
g x g x
f xB mix mix mix mix mix
mix mix
mix
x x
17 23 18 24 19 31 110 32
111 33 112 41 113 42 114 43
10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32
111 33
+ d + d + d d +
d d d d
+ d + d + d + d + d + d + d + d + d d + 1 exp
d
112 41 113 42 114 43
10 11 11 12 12 13 13 14 14 15 21 16 22 17 23 18 24 19 31 110 32
111 33 112 41 113 42 114
-2
d d d
+ d + d + d + d + d + d + d + d + d d + exp
d d d d
mix
43
20 21 11 22 12 23 13 24 14 25 21 26 22 27 23 28 24 29 31 210 32
211 33 212 41 213 42 214 43
+ d + d + d + d + d + d + d + d + d d +
1 exp d d d d
5. Analisis-2: Komparasi model level-1 penerimaan Bidikmisi per seluruh Kabupaten/Kota
Provinsi Jawa Tengah dilakukan analisa dengan metode klasifikasi Random Forest,
SMOTE-Bagging, and Bernoulli Mixture berdasarkan AUC dan G-Mean diperoleh hasil
klasifikasi terbaik dengan menggunakan metode Bernoulli Mixture.
6. Luaran penelitian PDD, progress diberikan sebagai berikut:
Progress target capaian tahunan sesuai luaran penelitian yang dihasilkan disajikan pada
Tabel 6.1.
Tabel 6.1 Target Capaian Luaran PDD
No Jenis Luaran Indikator Capaian Tahun-1
TS1)
1 Publikasi ilmiah Internasional accepted/published
- dilaksanakan bulan November, sebelum
laporan akhir PDD, akan submit 1 (satu)
jurnal Internasional
Nasional
Terakreditasi
-
2 Pemakalah dalam
pertemuan ilmiah
Internasional sudah dilaksanakan
- menghasilkan 2 (dua) artikel ilmiah yang
dimuat pada Proceeding Internasional,
dilaksanakan bulan Agustus, tanggal 9-12
Agustus 2018 dan 26-27 November 2018
Nasional sudah dilaksanakan
- Akselerasi Seminar Internasional
73
Roadmap PDD Tahun 2018
Tahap-Eksplorasi-1 Tahap-Analisis-1 Tahap-Evaluasi
Gambar 6.2 Roadmap PDD Tahun 2018
Fenomena Beasiswa Bidikmisi
Pre-processing data Bidikmisi
Eksplorasi data Bidikmisi
Analisis cluster
Evaluasi model peneriman
level-1 dan model cluster
Hasil analisis deskripsi data respon status penerimaan Bidikmisi
menunjukkan bahwa penerimaan Bidikmisi kabupaten/kota provinsi
Jawa Tengah di Indonesia diterima hanya sebesar sekitar 25%-40%
Analisis ketepatan klasifikasi model penerimaan Bidikmisi
Respon level-1:
- Analisis regresi dummy
- Analisis regresi polytomous
- Analisis regresi Bernoulli Mixture dengan pendekatan Bayesian
- Hasil analisis menunjukkan:
1. Ketepatan klasifikasi model regresi dummy adalah 20,75%
2. Ketepatan klasifikasi model regresi polytomous adalah 62,95
3. Ketepatan klasifikasi model Bernoulli Mixture dengan
pendekatan Bayesian adalah 76,85 %
Kesimpulan: model Bernoulli Mixture dengan pendekatan Bayesian
lebih representative untuk pemodelan penerimaan Bidikmisi pada
respon level-1
Analisis cluster penerimaan Bidikmisi kabupaten/kota provinsi Jawa
Tengah di Indonesia dengan metode Cluster Ensemble, K-prototype,
Cluster Ensemble algoritma Squeezer dan Bernoulli Mixture.
Untuk basis penentuan analisis
pemodelan pada level-1 Hirarki
Peta tematik Bidikmisi
Model cluster level-1 penerimaan
Bidikmisi abupaten/kota provinsi
Jawa Tengah di Indonesia dengan
menggunakan pendekatan Cluster
Ensemble, K-prototype, Cluster
Ensemble algoritma Squeezer dan
Bernoulli Mixture. yang dihasilkan
dijadikan sebagai bahan untuk
menyusun dashboard peta tematik
PDD.
Analisis Deskripsi data respon
status penerimaan Bidikmisi
seluruh kabupaten/kota provinsi
Jawa Tengah di Indonesia
Analisis ketepatan klasifikasi
model penerimaan Bidikmisi
seluruh kabupaten/kota provinsi
Jawa Tengah untuk pemodelan
pada level-1
Validasi cluster
Final Report
1. Laporan Akhir
2. Proceeding International
3. Jurnal International
4. Peta Tematik Bidikmisi
Propinsi Jawa Tengah
74
BAB 7
KESIMPULAN DAN SARAN
7.1 Kesimpulan
Berdasarkan hasil analisis data Bidikmisi Kabupaten/Kota Provinsi Jawa Tengah di
Indonesia dapat simpulkan sebagai berikut:
1. Diperoleh ketepatan proses klasifikasi melalui model regresi mixture Bernoulli
Bayesian dibandingkan dengan prosentase klasifikasi penerimaan dari model regresi
dummy dan model regresi polytomous. Hasil perbandingan menunjukkan bahwa
pendekatan model regresi mixture Bernoulli Bayesian memberikan prosentase
ketepatan klasifikasi penerimaan lebih tinggi dibanding model regresi dummy dan
model regresi polytomous.
2. Model yang dibentuk pada Neural Network Backpropagation dengan 1 hidden layer
menghasilkan prediksi status penerimaan Beasiswa Bidikmisi di Jawa Tengah dengan
akurasi sebesar 78,00%, nilai G-mean sebesar 0,01, nilai AUC 0,51 sedangkan untuk 2
hidden layer menghasilkan nilai akurasi sebesar 68,73%, nilai G-mean sebesar 0,01,
nilai AUC sebesar 0,51.
3. Optimasi Parameter Bobot dan Bias Backpropagation mampu memperbaiki terhadap
proses pelatihan Neural Network dengan meningkatkan kinerja klasifikasi
Backpropagation yang dapat dianalisi dari hasil kinerja Backpropagation dengan
arsitektur NN (23-4-1) sebelum dioptimasi atau parameter bobot dan bias yang
dilakukan secara acak manual pada data testing menghasilkan nilai akurasi sebesar
78,00% , nilai G-mean sebesar 0,01 dan nilai AUC 0,51, Setelah dilakukan optimasi
mengggunakan Algoritma Genetika dihasilkan nilai akurasi sebesar 90,47%, nilai G-
mean sebesar 0,10, nilai AUC sebesar 0,51 walaupun tidak meningkat secara signifikan
tetapi dapat dikatakan bahwa optimasi bobot dan bias awal menggunakan algoritma
genetika mampu meningkatkan kinerja klasifikasi.
4. Berdasarkan dari analisis yang telah diuraikan dapat disimpulkan hasil klasifikasi yang
terbaik yaitu klasifikasi dengan optimasi bobot dan bias pada Neural Network
Backpropagation karna dapat meningktkan kinerja klasifikasi, yaitu hasil nilai akurasi
sebesar 90,51%, nilai G-mean sebesar 0,10, dan nilai AUC sebesar 0,51.
75
DAFTAR PUSTAKA
Abel, L., Golmard, J.L. dan Mallet, A. (1993), "An Autologistic Model for The Genetic
Analysis of Familial Binary Data", American Journal of Human Genetics, Vol. 53, p.
894.
Agrawal, R. dan Srikant, R. (1994), "Fast Algorithms for Mining Association Rules", VLDB,
vol. 1215, pp. 487–499.
Bishop, C. (2006), "Pattern Recognition and Machine Learning", Information Science and
Statistics, Springer.
Bouguila, N. (2010), "On Multivariate Binary Data Clustering and Feature Weighting",
Comput. Stat.Data Anal, Vol. 54, pp. 120-134.
Carlin, B.P. dan Chib, S. (1995), "Bayesian Model Choice Via Markov Chain Monte Carlo
Methods", Journal of the Royal Statistical Society, pp. Ser. B, 57(3): 473-484.
Celeux, G. dan Govaert, G. (1991), "Clustering Criteria for Discrete Data and Latent Class
Models", Journal of Classification, Vol. 8, pp. 157–176.
Direktorat Jenderal Pembelajaran dan Kemahasiswaan, K.R.T.d.P.T. (2016), Pedoman
Penyelenggaraan Bantuan Biaya Pendidikan Bidikmisi Tahun 2016, Belmawa,
Kemeristek Dikti, Jakarta.
Duda, R.O. dan Hart, P.E. (1973), Pattern Classification and Scene Analysis, Wiley.
Fränti, P., Xu, M. dan Kärkkäinen, I. (2003), "Classification of Binary Vectors by Using
Distance to Minimize Stochastic Complexity", Pattern Recognition Letters, Vol. 24, pp.
65 – 73.
Gelman, A., Carlin, J.B., Stern, H.S., Dunson, D.B., Vehtari, A. dan Rubin, D.B. (2014),
Bayesian Data Analysis, Third Edition ed., CRC Press, Boca Raton.
Goldstein , H. (1995), Multilevel Statistical Models, 2nd ed., Edward Arnold, London.
González, J., Juan, A., Dupont, P., Vidal, E. dan Casacuberta, F. (2001), "A Bernoulli Mixture
Model for Word Categorization", Proceedings of the IX Spanish Symposium on Pattern
Recognition and Image Analysis, Benicassim, Spain.
Grim, J., Pudil, P. dan Somol, P. (2000), "Multivariate Structural Bernoulli Mixtures for
Recognition", Proceedings. 15th International Conference on, vol. 2, pp. 585–589.
Gyllenberg, M., Koski, T. dan Verlaan, M. (1997), "Classification of Binary Vectors by
Stochastic Complexity", Journal of Multivariate Analysis, Vol. 47 – 72, p. 63.
Hardin, J.M., Anderson, B.S., Woodby, L.L., Crawford, M.A. dan Russell, T.V. (2008), "Using
an Empirical Binomial Hierarchical Bayesian Model as an Alternative to Analyzing Data
From Multisite Studies", Sage Publications, Vol. 32, pp. 143-156.
Hollmen, J. dan Tikka, J. (2007), "Compact and Understandable Descriptions of Mixture of
Bernoulli Distributions", Proceedings of the 7th International Symposium on Intelligent
Data Analysis (IDA2007), Springer-Verlag, Berlin, Heidelberg.
Hox, J.J. (1995), Applied Multilevel Analysis, TT-Punlikaties, Amsterdam.
Hox, J. (2002), Multilevel Analysis: Techniques and Applications, Lawrence Erlbaum
Associates Publishers, New Jersey.
Iriawan, N. (2000), Computationally Intensive Approaches to Inference in Neo-Normal Linear
Models, Thesis Ph.D., Australia.
Iriawan, N. (2001), Studi Tentang Bayesian Mixture Normal dengan Menggunakan Metode
MCMC, Lemlit ITS, Surabaya.
Juan, A. dan Vidal, E. (2002), "On The Use of Bernoulli Mixture Models for Text
Classification", Pattern Recognition, Vol. 35, No. 12, pp. 2705–2710.
76
Juan, A. dan Vidal, E. (2004), "Bernoulli Mixture Models for Binary Images", Proceedings of
the 17th International Conference on Pattern Recognition (ICPR’04).
Kamthe, A., Carreira-Perpinán, M.A. dan Cerpa, A. (2011), "Adaptation of A Mixture of
Multivariate Bernoulli Distributions", IJCAI Proceedings-International Joint Conference
on Artificial Intelligence, vol. 22, p. 1336.
Li, T. (2006), "A Unified View on Clustering Binary Data", Machine Learning, Vol. 62, pp.
199–215.
Morgan, C.J., Lenzenweger, M.F., Rubin, D.B. dan Levy, D.L. (2014), "A Hierarchical Finite
Mixture Model that Accommodates Zero-Inflated Counts, Non-Independence, and
Heterogeneity", Statistic in Medicine, Vol. 33, pp. 2238–2250.
Myllykangas, S., Tikka, J., Böhling, T., Knuutila, S. dan Hollmén, J. (2008), "Classification of
Human Cancers Based on DNA Copy Number Amplification Modelling", BMC Med.
Genomics, Vol. 1, pp. 1-13.
Ntzoufras, I. (2009), Bayesian Modeling Using WinBUGS, Wiley, New Jersey, USA.
Park, J. dan Kim, K. (2015), "Internal Migration of The Elderly in Korea: A Multilevel Logit
Analysis of Their Migration Decision", Asian and Pacific Migration Journal, Vol. 24(2)
, pp. 187–212.
Park, J. dan Kim, K. (2016), "The Residential Location Choice of The Elderly in Korea: A
Multilevel Logit Model", Journal of Rural Studies, Vol. 44, pp. 261-271.
Patrikainen, A. dan Mannila, H. (2004), "Sub Space Clustering of High-Dimensional Binary
Data-A Probabilistic Approach", SIAM International Conference on Data Mining,
Workshop on Clustering High-Dimensional Data and Its Applications.
Raftery, A.E. (1988), "Inference for The Binomial N Parameter: A Hierarchical Bayes
Approach", Biometrika, Vol. 75, No. 2, pp. 223-228.
Saeed, M., Javed, K. dan Babri, H.A. (2013), "Machine Learning Using Bernoulli Mixture
Models: Clustering,Rule Extraction and Dimensionality Reduction", Neurocomputing,
Vol. 119, pp. 366–374.
Shkedy, Z., Molenberghs, G., Craenendonck, H.V., Steckler, T. dan Bijnens, L. (2005), "A
Hierarchical Binomial-Poisson Model for The Analysis of A Crossover Design for
Correlated Binary Data When The Number of Trials is Dose-Dependent", Journal of
Biopharmaceutical Statistics, Vol. 15, pp. 225–239.
Sun, Z., Rosen, O. dan Sampson, A. (2007), "Multivariate Bernoulli Mixture Models with
application to Postmortem Tissue Studies in Schizophrenia", Biometrics, Vol. 63, pp.
901-909.
Tikka, J., Hollmen, J. dan Myllykangas, S. (2007), "Mixture Modelling of DNA Copy Number
Amplification Patterns in Cancer", Proceedings of the 9th International Work-
Conference on Artificial Neural Networks (IWANN' 2007), Springer-Verlag, Berlin,
Heidelberg.
Wang, X. dan Kabán, A. (2005), "Finding Uninformative Features in Binary Data", Intelligent
Data Engineering and Automated Learning - IDEAL 2005, Vol. 3578, pp. 40–47.
Zhu, S., Takigawa, I., Zhang, S. dan Mamitsuka, H. (2007), "A Probabilistic Model for
Clustering Text Documents with Multiple Fields", Advances in Information Retrieval,
29th European Conference on IR Research (ECIR2007) , Berlin, Heidelberg.