model data mining dalam pengklasifikasian …eprints.binadarma.ac.id/2333/1/semnas.pdf ·...
TRANSCRIPT
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-7
MODEL DATA MINING DALAM PENGKLASIFIKASIANKETERTARIKAN BELAJAR MAHASISWA MENGGUNAKAN
METODE CLUSTERING
Marlindawati1), Andri2)
1), 2) Sistem Informasi UNIVERSITAS BINA DARMA PalembangJl, Jend. A.Yani No. 12, Palembang, 30264
Email : [email protected]), [email protected]
Abstrak
Perkembangan teknologi informasi terutama yangberhubungan dengan media penyimpanan saat iniberkembang begitu pesat. Dari waktu ke waktu datadalam sebuah perguruan tinggi, terutama yangberhubungan dengan data mahasiswa akan terusmengalami peningkatan. Hal ini tentu saja akanmenyebabkan data yang tersimpan akan terusbertambah, terutama data akademik mahasiswa. Jikadata yang bertumpuk tidak dimanfaatkan dengansemaksimal mungkin, maka akan terjadi kemubaziranterhadap data tersebut. Dengan memanfaatkan teknikdata mining maka dari data yang banyak tadi akandidapat informasi yang berguna. Data Miningmerupakan proses analisis data yang menggunakanperangkat lunak untuk menemukan pola atau aturantertentu dari sejumlah data dalam jumlah besar yangdiharapkan dapat menemukan pengetahuan gunamendukung keputusan. Dalam penelitian ini akandilakukan mining data yang berhubungan denganakademik mahasiswa untuk dapat mengetahuiketertarikan belajar dari mahasiswa yang ada dalamperguruan tinggi dengan metode clustering. Data daripenelitian ini berasal dari mahasiswa Sistem Informasiangkatan 2011-2013 Universitas Bina Darma yaitu1.000 record data dari tb_mhs, 4.1367 record datadari tb_khs dan 417 record dari tb_mk. Proses miningmenggunakan tools SSAS (SQL Sever 2008 AnalysisService). Setelah melakukan beberapa tahapan dari datamining, Hasil analisis menunjukkan terdapat tiga clusteryang terbentuk berdasarkan konsentrasi matakuliahpilihan. Cluster 1 klasifikasi minat untuk konsetrasi Asebanyak 400 mahasiswa. Cluster 2 klasifikasi minatuntuk matakuliah konsentrasi B sebanyak 186mahasiswa, dan cluster 3 klasifikasi minat matakuliahkonsentrasi C sebanyak 188 mahasiswa.
Kata kunci: teknologi informasi, data mining,clustering.
1. PENDAHULUAN
Sumber utama yang dapat dimanfaatkan untukmenghasilkan suatu informasi adalah data. Informasiyang dihasilkan sangatlah penting bagi sebuah perguruan
tinggi. Pengolahan data yang maksimal akanmenghasilkan informasi yang berkualitas dan bermanfaatbagi perguruan tinggi. Dari waktu ke waktu, data dalamsebuah perguruan tinggi akan terus mengalamipeningkatan dan menjadi tumpukan data yangmenggunung. Jika data tersebut tidak dikelola denganbaik maka data tidak ada manfaatnya. Denganmemanfaatkan teknik data mining dalam pengolahandata, maka dari data tersebut akan didapatkan informasiyang berguna dan bermanfaat bagi perguruan tinggi.
Data mining merupakan penambangan ataupenemuan informasi baru dengan mencari pola atauaturan tertentu dari sejumlah data yang sangat besar(Davies, 2004) [2]. Menurut Pramudiono (2007) [3] datamining dapat juga disebut sebagai serangkaian prosesuntuk menggali nilai tambah berupa pengetahuan yangselama ini tidak diketahui secara manual dari kumpulandata. Data mining dapat dimanfaatkan untuk menggaliinformasi dari tumpukan data akademik yangberhubungan dengan mahasiswa untuk mendapatkaninformasi atau pola dari ketertarikan belajar mahasiswa.Informasi yang didapat dari teknik mining data inimerupakan sebuah keputusan yang dapat dimanfaatkanoleh pihak yang berwenang dalam sebuah perguruantinggi dalam mengarahkan konsentrasi mahasiswatersebut.
Menurut Davies (2004) [1], data mining memilikibeberapa karakteristik, yaitu:a. Data mining ysng berhubungan dengan penemuan
sesuatu yang tersembunyi dan pola data tertentu yangtidak diketahui sebelumnya.
b. Data mining biasanya menggunakan data yang sangatbesar yang digunakan untuk membuat hasil yanglebih dipercaya.
c. Data mining berguna untuk membuat keputusa yangkritis, terutama dalam strategi
Data mining juga disebut dengan KnowledgeDiscovery in Database (KDD), yaitu kegiatan yangmeliput pengumpulan, pemakaian data untukmenemukan keteraturan, pola dan hubungan dalam set
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-8
data yang berukuran besar. Keluaran data mining dapatdipakai untuk pengambilan suatu keputusan.
Menurut Han (2006) [2] terdapat enam tahap dalamdata mining:a. Pembersihan data (cleaning)
Merupakan proses untuk menghilangkan noise sertadata yang tidak konsisten atau tidak relevan.
b. Integrasi data (integration)Bertujuan untuk menggabungkan data dari berbagaisumber basisdata dalam satu basisdata yang baru.
c. Seleksi data (selection)Bertujuan untuk memilih data-data apa saja yangakan diproses selanjutnya.
d. Transformasi data (transformation)Bertujuan untuk mengubah data kedalam formattertentu yang sesuai untuk proses selanjutnya.
e. Proses mining (data mining)Proses untuk menerapkan metode data mining yangbertujuan untuk menemukan pengetahuan yang baru.
f. Evaluasi pola (pattern evaluation)Bertujuan untuk mengidentifikasi pola-pola yangmenarik kedalam knowledge base yang ditemukan.
g. Presentasi pengetahuan (knowledge presentation)Merupakan penyajian pengetahuan untukmemperoleh pengetahuan yang diperoleh pengguna.
Tujuan dari penelitian ini membuat model datamining untuk melakukan pengelompokan mahasiswaberdasarkan ketertarikan mereka terhadap mata kuliahyang disenanginya. Dan diharapkan dapat menghasilkansebuah model data mining yang dapat dimanfaatkanuntuk menentukan konsentrasi minat belajar mahasiswayang ada pada program studi Sistem Informasi FakultasIlmu Komputer Universitas Binadarma Palembang
Metode penelitian yang digunakan adalah metodepengembangan sistem SDLC (system development lifecycle). Metode pengembangan sistem ini memilikibeberapa tahap, yaitu;a. Tahap Perencanaan
Tahap yang digunakan untuk melakukan identifikasimasalah, menentukan tujuan sistem, identifikasikendala sistem dan membuat analisis kelayakan.
b. Tahap AnalisisTahapan untuk melakukan analisis terhadappermasalahan yang akan dihadapi dalam penelitian.Pada tahap ini akan dilakukan identifikasi penyebabmasalah dan analisis kebutuhan sistem.
c. Tahap ParancanganDalam tahap ini akan dilakukan proses perancanganberdasarkan data yang didapat dari tahap analisiskebutuhan sistem.
d. Tahap Penerapan
Pada tahap ini dilakukan penerapan dari hasilrancangan dengan menggunakan tools yang ada.
e. Tahap PenggunaanPada tahap ini dilakukan uji coba terhadap hasilrancangan yang telah dibuat.
Agar mendapatkan bahan-bahan yang relevan,akurat dan reliable dalam penelitan ini, maka penulismelakukan pengumpulan data dengan cara sebagaiberikut:a. Observasi
Penulis melakukan pengamatan dan pencatatan data-data mahasiswa serta data-data yang berhubungandengan nilai akademik fakultas ilmu komputerprogram studi Sistem Informasi angkatan 2011 s.d.2013, Universitas Binadarma Palembang.
b. Studi pustakaTeknik pengumpulan data dilakukan denganmengumpulkan bahan-bahan, referensi, dandokumen yang berhubungan dengan penelitian ini.
2. PEMBAHASAN
Dalam pengelompokan minat mahasiswa denganmodel data mining menggunakan metodeClustering, dibuatlah rancangan dari databasenyasebagai berikut :2.1 Rancangan Database
a. Tb_mhsTabel 1. Tabel Mahasiswa
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-9
b. Tb._khs
Tabel 2. Tabel Kartu Hasil Studi (KHS)
c. Tb_mk
Tabel 3. Tabel Mata Kuliah
2.2 ETL (Extract, Transform and Load)Proses ETL bertujuan melakukan pembentukan
data warehouse yang berasal dari data mentah dalamformat database MySQL. Data yang di ekstrak akandilakukan proses transform dan load kedalam formatbaru yaitu format mdb. Proses ETL dilakukanmenggunakan tools SQL Server Integration Service(SSIS) yang ada dalam Business IntelligenceDevelopment Studio (BIDS). ETL yang dilakukan dalampenelitian dapat dilihat pada gambar berikut ini:
1. Pembuatan Control Objek
Gambar 1. Pembuatan Control Objek2. Proses ETL
Gambar 2. Proses ETL
2.3 Seleksi Data (Data Selection)Data yang digunakan dalam penelitian berasal dari
data mahasiswa Sistem Informasi Universitas BinaDarma tahun angkatan 2011 sampai dengan 2013.Selain data mahasiswa, data IPK juga digunakan untukpenelitian ini, dikarenakan informasi yang terkandungdi dalamnya sudah mewakili informasi yangdibutuhkan untuk dijadikan indikator penentu dalampengelompokan data keluaran yang diinginkan.
Data yang diperoleh adalah sebanyak 1.000 recorddata dari tb_mhs, 4.1367 record data dari tb_khs dan417 record dari tb_mk. Dataset mahasiswa terdiri dari23 atribut yang menjelaskan identitas diri mahasiswadan informasi tentang keadaan mahasiswa yangbersangkutan. Atribut data mahasiswa diambil daripenggabungan beberapa tabel yang terdiri dari tb_mhs,tb_khs, dan tb_mk. Atribut tersebut diantaranya adalahnim, nama, jenis_kelamin, temp_lahir, tgl_lahir,kd_progdi, alamat, asal_sek, kota, pek_ortu, kd_mk,sms, sms_pendek, tahun_akademik, kelas, kd_dosen,kd_progdi, tugas, kuis, mid, semester, nilai_angka,nilai_huruf, dan sks. Sedangkan dataset IPK hanyaterdiri dari 5 atribut yang memberikan informasimengenai prestasi akademik dan beban studi yangdiambil mahasiswa yang bersangkutan. Atribut tersebutdiantaranya adalah nim, nama, sum(sks), total_nilai, danIPK.
Tahap-tahap yang akan digunakan dalampenelitian ini :
1. Proproses DataData yang digunakan dalam penelitian ini terdiri dari
tabel mahasiswa, tabel mata kuliah, dan tabel khs.a. Tb_mhs
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-10
Gambar 3. Record Tbel Mahasiswab. Tb_khs
Gambar 4. Record Tabel Kartu Hasil Studic. Tb_mk
Gambar 5. Record Tabel Mata Kuliah2. Pembersihan Data (Data Cleaning)
Tahap berikutnya pada proses data mining adalahcleaning data yaitu melakukan pembersihan dataterhadap noise yang ditemukan berupa missing value,inkonsisten data, dan redundant data.
Gambar 6. Record Tabel Praproses Data
Gambar diatas merupakan hasil proses data yangsudah di cleaning, sehingga sudah tidak ada lagi datayang missing value. Hal ini dilakukan karena data yangmissing value tidak memberikan informasi apapun jikadipertahankan keberadaannya. Dari tahap cleaning datayang telah dilakukan diatas diperoleh jumlah data daritb_mhs sebanyak 996 record, 4.1367 record data daritb_khs dan 417 record data dari tb_mk.
3. Integrasi Data
Tahap ketiga adalah tahap integrasi data yangmerupakan penggabungan data bertujuanmemindahkan seluruh data yang telah di-cleaning kedalam satu tabel. Pada tahap ini, ketiga tabel mhs, khs,dan mk akan di integrasikan untuk mendapatkan datasource mahasiswa dan data source IPK. Untukmendapatkan data source mahasiswa prosespenggabungan data dilakukan dengan merelasikantb_khs dan tb_mk dengan join antar table.
Proses selanjutnya merelasikan tb_mhs dan tabelhasil integrasi atau join dari tb_khs dan tb_mk, denganjoin antar tabel dengan key nim. Hasil dari integrasiatau join antar tabel diatas maka didapat data sourcemahasiswa, seperti pada gambar berikut 7 berikut.
Gambar 7. Tabel Data Source Mahasiswa
4. Transformasi Data
Proses selanjutnya adalah tahap tranformasi datayaitu data diubah menjadi bentuk yang sesuai untuk
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-11
diproses dalam data mining. Dalam penelitian ini datayang akan diproses dari database mysql untukdigunakan di tool SSIS maka format tersebut diubahmenjadi mdf.
Setelah melakukan proses transformasi data, makaakan dilanjutkan ke proses selanjutnya yaitu prosesmining data.
Data mining merupakan proses mencari pola atauinformasi menarik dalam data yang terpilih denganmenggunakan teknik atau metode tertentu. Pemilihanteknik dan algoritma yang tepat sangat bergantung padaproses KDD secara keseluruhan. Pada penelitian inipenerapan data mining menggunakan teknik clusteringdan algoritma K-Means.
2.4 Analisis Data MiningAnalisis data mining yang digunakan dalam
penelitian ini adalah teknik clustering ataupengelompokkan yang bertujuan untuk mengelompokanmahasiswa berdasarkan konsentrasi matakuliah yangtelah dipilih dengan acuan nilai ipk yang didapat olehmahasiswa tersebut.
Data yang digunakan untuk proses analisis datamining adalah data warehouse yang didapat dari prosesawal dalam tahap data mining. Data warehouseberisikan data tentang nilai ipk dan konsentrasi pilihanmatakuliah yang diambil oleh mahasiswa program studisistem informasi.
Terdapat 700 data mahasiswa yang tersedia dalamdata warehouse yang selanjutnyadigunakan sebagaipembentukan model data mining dalam penelitian ini.Informasi yang terdapat dalam data warehouse yaituinformasi tentang nim, nama, ipk dan konsentrasi yangdiambil oleh mahasiswa tersebut.
2.5 Implementasi Tools SSASImplementasi merupakan tahapan penerapan hasil
perancangan data warehouse yang telah dilakukanmenggunakan SSAS (SQL Server 2008 AnalysisService). Hasil dari perancangan datawarehosemenggunakan tools SSIS dapat dilihat pada gambarberikut ini:
Gambar 8. Data Warehouse DB_Mhs
1. Koneksi Sumber DataLangkah awal dalam analisis data mining
menggunakan tools SSAS adalah dengan mendefinisikansumber data yang digunakan sebagai data source untukproses data mining. yang disimpan dalam database SQLServer 2008 dengan nama dbMahasiswa. Dalamdb_Mahasiswa terdapat sebuah tabel yang diberi namatable_mhs yang berisi field-field seperti; Nim, Nama,Jumlah SKS, Jumlah Nilai, Jenis Kelamin, Angkatan,IPK dan Konsenstrasi Matakuliah yang dipilih. Proseskoneksi ke sumber data dalam penelitian ini dapat dilihatpada gambar 9 berikut.
Gambar 9. Koneksi Sumber Data2. Pembentukan Datasource View
Langkah berikutnya dalam proses SSAS adalahmenentukan Data Source View dari sumber datayang telah dikoneksikan. Data source viewdatabase DB_Mahasiswa dapat dilihat pada gambar10.
Gambar 10. Data Source View DatabaseDB_Mahasiswa
3. Data Mining StructureLangkah terakhir dari proses SSAS dalam
adalah proses analisis data mining, yang merupakantahapan untuk melakukan analisis terhadap dataakademik mahasiswa untuk menghasilkan sebuahmodel yang dapat digunakan untuk melakukan
Seminar Nasional Teknologi Informasi dan Multimedia 2015STMIK AMIKOM Yogyakarta, 6-8 Februari 2015
ISSN : 2302-3805
2.1-12
prediksi minat atau ketertarikan matakuliah pilihanterhadap mahasiswa Program Studi SistemInformasi Fakultas Ilmu Komputer UniversitasBina Darma.
Teknik data mining yang digunakan dalampenelitian menggunakan teknik clustering(pengelompokan). Dalam teknik clusteringdilakukan proses pengelompokan sejumlah objekyang memiliki kemiripan dalam suatu kelompokyang sama.
Dari hasil proses mining menggunakan toolsSSAS didapatkan hasil pengelompokan databerdasarkan minat konsentrasi matakuliah pilihanyang ada pada Program Studi Sistem Informasimenjadi tiga kelompok (cluster). Hasilpengelompokan (cluster) dapat dilihat pada gambar11 berikut.
Gambar 11. Cluster Hasil Analisis
Berdasarkan hasil analisis terdapat tiga clusteryang terbentuk berdasarkan konsentrasi matakuliahpilihan. Cluster 1 merupakan pengelompokan minatuntuk konsetrasi A. Cluster 2 merupakan kelompokminat untuk matakuliah konsentrasi B, dan cluster 3merupakan pengelompokan untuk minat matakuliahkonsentrasi C.
Gambar 12. Pengelompokkan Data MahasiswaBerdasarkan Konsentrasi
Dari data hasil analisis dapat dihitung jumlahmahasiswa yang mengambil konsentrasi Asebanyak 400 mahasiswa, konsentrasi B sebanyak186 mahasiswa dan konsentrasi C sebanyak 188mahasiswa.KESIMPULAN
Berdasarkan hasil penelitian yang telah dilakukanmaka dapat disimpulkan:
1. Penelitian yang dilakukan telah menghasilkansebuah model data mining pengelompokanminat matakuliah konsentrasi mahasiswa.
2. Model data mining yang dihasilkan dapatdigunakan untuk memprediksi minat matakuliahkonsentrasi mahasiswa program
Dan selanjutnya pada penelitian ini diharapkan datayang digunakan untuk proses analasis data miningmenggunakan jumlah data mahasiswa yang cukup besaruntuk menghasilkan keakuratan dalam prediksi, dantidak saja dari program studi Sistem Informasi tapi jugadari semua program studi yang terdapat pada fakultasilmu komputer.
Daftar Pustaka
[1] Davies, and Paul Beynon, 2004, “Database SystemThird Edition”, Palgrave macmillan, New York.
[2] Han, J. And Kamber, M, 2006, “Data MiningConcept and Techniques Second Edition”, MorganKauffma, San Fransisco
[3] Pramudiono, I. 2007. Pengantar Data Mining :Menambang Permata Pengetahuan di Gunung Data.http://www.ilmukomputer.org/wp-content/upload/2006/iko-datamining.zip Diaksespada tanggal 5 September 2014.
Biodata Penulis
Marlindawati, memperoleh gelar Sarjana Komputer(S.Kom), Jurusan Manajemen Informatika UniversitasGunadarma Jakarta, lulus tahun 1997. Memperolehgelar Magister Komputer (M.Kom) Program PascaSarjana Magister Teknik Informatika Universitas BinaDarma Palembang, lulus tahun 2011.Saat ini menjadiDosen di Universitas Bina Darma Palembang.
Andri, memperoleh gelar Sarjana Komputer (S.Kom),Jurusan Sistem Informasi di Uiversitas BinaDarmaPalembang, lulus tahun 2002. Memperoleh gelar M. Cs.Program Pasca Sarjana, Ilmu Komputer pada UniversitasGajah Mada Yogyakarta, lulus tahun 2011.Saat inimenjadi Dosen di Universitas Bina Darma Palembang.