66130381 bab 2 kajian teori

24
BAB II TINJAUAN PUSTAKA 2.1 Sistem Informasi Klasifikasi Tingkat Prestasi Mahasiswa Berdasarkan Seleksi Ujian Masuk Ke Perguruan Tinggi. Sistem informasi klasifikasi tingkat prestasi mahasiswa berdasarkan seleksi ujian masuk ke perguruan tinggi dengan algoritma k-means dari teknik clustering adalah sistem informasi yang nantinya mengelompokkan data mahasiswa berdasarkan tingkat prestasi dan jalur masuk ke perguruan tinggi. Sistem ini bertujuan untuk mengklasifikasikan tingkat prestasi mahasiswa berdasarkan seleksi ujian masuk ke perguruan tinggi sehingga dapat dijadikan acuan dalam menganalisa, memahami dan memvisualisasikan data tingkat prestasi mahasiswa, serta dapat dijadikan acuan dalam proses penerimaan mahasiswa baru. Sistem dapat membaca data set tingkat prestasi mahasiswa dan jenis ujian masuk ke perguruan tinggi. Sistem dapat mengklasifikasikan dengan menggunakan algoritma k-means, teknik clustering berdasarkan tingkat prestasi mahasiswa dan jenis ujian masuk ke perguruan tinggi. Berdasarkan data yang dibaca, akan dihasilkan grafik tingkat prestasi mahasiswa berdasarkan seleksi ujian masuk ke perguruan tinggi. Sistem informasi klasifikasi tingkat prestasi mahasiswa berdasarkan seleksi ujian masuk ke perguruan tinggi dengan teknik clustering diharapkan dapat dijadikan acuan dalam menganalisa, memahami serta memvisualisasikan data tingkat prestasi mahasiswa yang nantinya menjadi acuan dalam proses penerimaan mahasiswa baru. 2.2 Data Mining. Perkembangan data mining (DM) yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, toko swalayan merekam setiap penjualan barang dengan memakai alat POS (point of sales). Database data penjualan tersebut bisa 4

Upload: deni-rudiana

Post on 16-Aug-2015

6 views

Category:

Documents


1 download

TRANSCRIPT

BAB IITINJAUAN PUSTAKA2.1 SistemInformasi Klasifikasi Tingkat Prestasi MahasiswaBerdasarkan Seleksi Ujian Masuk Ke Perguruan Tinggi.Sisteminformasi klasifikasi tingkat prestasi mahasiswa berdasarkan seleksi ujianmasukkeperguruantinggi denganalgoritmak-meansdari teknik clusteringadalah sistem informasi yang nantinya mengelompokkan data mahasiswaberdasarkantingkat prestasi danjalur masukkeperguruantinggi. Sistem ini bertujuan untuk mengklasifikasikan tingkat prestasi mahasiswa berdasarkanseleksi ujianmasukkeperguruantinggi sehinggadapat dijadikan acuan dalam menganalisa, memahami dan memvisualisasikan data tingkat prestasi mahasiswa, serta dapat dijadikan acuandalamproses penerimaan mahasiswa baru. Sistem dapat membaca data set tingkat prestasi mahasiswa dan jenis ujian masuk ke perguruan tinggi.Sistem dapat mengklasifikasikandenganmenggunakanalgoritma k-means, teknik clustering berdasarkan tingkat prestasi mahasiswa dan jenis ujian masuk ke perguruan tinggi. Berdasarkan data yang dibaca, akan dihasilkan grafik tingkat prestasi mahasiswa berdasarkan seleksi ujian masuk ke perguruan tinggi. Sistem informasi klasifikasi tingkat prestasi mahasiswa berdasarkan seleksi ujian masuk ke perguruan tinggi dengan teknik clusteringdiharapkan dapat dijadikan acuan dalammenganalisa, memahami serta memvisualisasikan data tingkat prestasi mahasiswa yang nantinya menjadi acuan dalamproses penerimaan mahasiswa baru.2.2 ata Mining.erkembangandata mining!"#$ yang pesat tidak dapat lepas dari perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar terakumulasi. Sebagai contoh, tokoswalayanmerekamsetiappenjualanbarang dengan memakai alat POS (point of sales). "atabase data penjualan tersebut bisa %mencapai beberapa &Bsetiap harinya untuk sebuah jaringan toko swalayan berskalanasional. erkembanganinternet jugapunyaandil cukupbesar dalam akumulasi data. 'etapi pertumbuhanyangpesat dari akumulasi dataitutelah menciptakan kondisi yangsering disebut sebagairichof data but poor ofinformation karena data yang terkumpul itu tidak dapat digunakan untuk aplikasi yang berguna. 'idak jarang kumpulan data itu dibiarkan begitu saja seakan-akan (kuburandata)(datatombs)!*ko, 2++,-1$."#itusendiri adalahserangkaian prosesuntukmenggali nilai tambahberupapengetahuanyangselamaini tidak diketahui secaramanual dari suatukumpulandata.Miningberarti usahauntuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. .arena itu "#sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic dan database !*ko, 2++,-1$. "efinisi sederhana daridata mining adalah ekstraksi informasi atau pola yangpentingataumenarikdaridatayangadadidatabaseyang besar!/udho, 2++,-1$. "alam jurnal ilmiah, data mining juga dikenal dengan nama Knowledge Discoer! inDatabases!.""$.#enurut'aufik 0bidin, data mining atau juga dikenal dengan sebutan "nowledge discoer! in databaselahir karena data yang terkumpul sekarang ini sudah mencapai terrabyte !1+++ gigabytes$. "ata mining merupakan proses mencari pola-pola menarik dalam data.Beberapa teknik yang sering disebut-sebut dalam literatur "# antara lain - #lustering, #lassification, $ssociation %ule Mining ($%M), &eural &etwor",'enetic $lgorithm dan lain-lain. 2., !lassifi"ation.#lassificationadalahprosesuntukmenemukanmodel ataufungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakankelasdarisuatu objek yang labelnya tidak diketahui. #odel itu sendiri bisa berupa aturan (jika-maka), berupa decision tree, formula matematis atau neural networ".Decision tree adalah salah satu metode classification yang paling populer karenamudahuntukdiinterpretasi olehmanusia. 0lgoritmadecisiontreeyang 1paling terkenal adalah 2%.1, tetapi akhir-akhir ini telah dikembangkan algoritma yangmampumenangani dataskalabesaryangtidakdapat ditampungdimain memori seperti%ain(orest. #etode-metodeclassificationyang lain adalah )a!esian,neural networ", genetic algorithm, fu**!, case+based reasoning,dan"+nearest neighbor.roses classification biasanya dibagi menjadi dua fase - learning dan test. ada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. .emudian pada fase testmodel yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. 2.% !lustering.Berbeda dengan association rule mining dan classification dimana kelas data telahditentukansebelumnya,clusteringmelakukanpengelompokandatatanpa berdasarkankelas datatertentu.#lusteringdapat didefinisikansebagai proses mengelompokkansekumpulanobjeksedemikianhinggaobjekdalamsatugrup lebih serupa karakteristiknya dibandingkan dengan objek-objek di grup-grup yang lain. Bahkanclusteringdapat dipakai untukmemberikanlabel padakelasdata yang belum diketahui..arena itu clusteringsering digolongkan sebagai metode unsuperisedlearning. 0nalisagrupsangat bermanfaat untukmengetahui dan memahami distribusi data dan sering sekali digunakan sebagai proses awal sebelum teknik-teknik data mining lain digunakan.rinsip dari clusteringadalah memaksimalkan kesamaan antar anggota satu kelasdanmeminimumkankesamaanantar kelasataucluster.#lusteringdapat dilakukan pada data yang memiliki beberapa atribut yangdipetakan sebagai multidimensi. Secara garis besar teknik-teknikclusteringdapat dikategorikan dalam 2 kelompok. 'eknik clusteringberdasarkan hirarki(hierarch!+based)dan berdasarkanpartisi !Distance+based$. Banyakalgoritmaclusteringmemerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacamatribut yangdimiliki data. Beberapakategori algoritma clusteringyangbanyakdikenal adalahmetode partisi dimana pemakai harus 3menentukan jumlah"partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi.2.%.1 ,ierarch!+based clustering,ierarch!+based clustering terbagi menjadi 2 jenis yaitu agglomeratie dan diisie. endekatan secaraagglomeratie(bottom+up)memulaiclustering denganmengambil setiapobjeksebagai objekyangterpisahsatusamalainnya danmenggabungkannyasatupersatuberdasarkansuatumetric!measurement$ atau lebih singkatnya menggabungkanclusterkecil menjadiclusterlebih besar. Sebaliknya,diisie(top+down)memulaiclusteringdengan menganggap bahwa semuaobjekberadadalamsatuclusterkemudianmemecahkannyasatupersatu sehingga pada akhirnya setiapobjek merupakan suatuclustertersendiri atau dengan kata lain memecah cluster besar menjadi cluster yang lebih kecil. .elemahan metode ini adalah bila salahsatupenggabunganataupemecahan dilakukan pada tempat yang salah, tidak akan didapatkan cluster yang optimal.Sebuah pohon struktur data yang disebutdendrogram, dapat digunakan untuk mengilustrasikan teknik,ierarchical $lgorithmdan pengaturan dari clusters yang berbeda. 0kar didalam pohon dendrogram mengandung satu cluster dimana semua elemen menjadi satu elemencluster. Simpul internal dalam dendrogrammewakili cluster baru yang dibentuk melalui penggabungan cluster yang muncul sebagai anaknya didalampohon. #asing-masing level didalam pohon adalah dihubungkan dengan ukuran jarak yang digunakan untuk menggabungkancluster. Semua cluster dihasilkan pada level utama yang dirangkaikan karena anak cluster memiliki jarak antara mereka kurang dari jarak nilai yang dihubungkan dengan level ini dalam pohon. 'eknik hierarchicalbaik dijajarkan untuk banyak aplikasi clustering yang memang menunjukkan hubungan antaraclusters. Sebagai contohdalambiologi taksonomi, tanamandanhewan dapat dengan mudah dipandang sebagai hierarch! dari cluster.2.%.1.1 $gglomeratie $lgorithm-$gglomeratie $lgorithmdimulai dengan itemindividu masing-masing cluster-nyadandenganpengulanganpenghubunganclustersampai semuaitem 4termasuk ke dalamsatuclusters.$gglomeratie $lgorithmberbeda dalam bagaimana cluster dihubungkan pada masing-masing level. "iasumsikan bahwa set dari elemen danjarak antara mereka diberikan masukan. "igunakann5nerte. ad/acenc!matri., 0, sebagai input."i sini ad/acenc!matri., 0, berisi suatunilai jarak, bukansuatubooleansederhana- 06*,j7 8 dis!ti,tj$. Output dari algoritma ini adalah dendrogram. "9, yang mewakili sebagai set dari ,persamaan(d,",K)dimanadadalahjarakambangpintu, k adalahjumlahcluster, dan.adalahset daricluster. engeluarandendrogram menghasilkan set dari banyak cluster bukan hanya satu clustering. emakai dapat menentukan yang mana daricluster!berdasarkan jarak ambang pintu$ yang diharapkan untuk digunakan.0lgoritma ini menggunakanprocedureyang disebut&ew#lusteruntuk menentukan bagaimana untuk kreasi level berikutnya dariclusterdari level sebelumnya. 'eknik single lin", complete lin", dan aerage lin" merupakan yang palingterkenal diantara teknikagglomeratieberdasarkankonsepteori graph terkenal.$gglomeratie $lgorithm-0nput1D23t4, t5,6-tn7 88set of element$ 88 $d/acenc! matri. showing distance between elementsOutput1D9 88Dendogram represented as a set of ordered triples $gglomeratie algorithm1d 2 :;" 2 n;K233 t476-3tn77;D9 2 (d,",K);88 initiall! dendrogram contains each element in its own clusterM 2 MSerte. ad/acenc! matri. for graph with threshold distance of d;(",K) 2 &ew#luster($d,D);0f old" ? " thenD9 2 D9 (d,",K);88&ew set of clusters added to dendogramuntil " 2 4:Semua algoritma mendekati pengalaman pelanggaran waktu dan ruang penemuanan. ;uang yang dikehendaki untukad/acenc!matrik adalah find i.h where '2ih is the smallest>if '2ih I +, thenreplace medoid ti with th>until '2ih J +-for each ti " doassign ti to .j, where dis !ti.tj$ is the smallest over all medoids>2.%.2.3 )ond 9nerg! $lgorithm ()9$).B90 telah dikembangkan dan digunakan dalam area desain database untuk menentukan bagaimana cara menggolongkan data dan bagaimana cara fisik menempatkan data pada suatu disk. "engan B90,affinit! (bond)antar database didasarkanpadapemakaianumum.)onddigunakanolehalgoritmaclustering sebagai persamaan ukur. ?kuran yang nyata menghitung seringnya atribut keduanya digunakan bersama-sama dalamwaktu yang ditentukan. Kangkah-langkah dasar algoritma ini adalah-1. buat suatu matrik atribut dimana masing-masing masukan menandai adanyahubunganantar duarekanan. *si persamaanmatrikdidasarkan pada frekuensi dari pemakaian pasangan atribut umum.2. B90kemudian mengkonversi persamaan matrik ke matrik B until termination criteria is met>2.%., #lustering @arge Database.#lusteringalgorithmyangdisebutkansebelumnyaadalahbeberapateknik clustering classic. Saat clustering digunakan dengan database dinamik, algoritma ini mungkin tidak dimiliki dengan tidak sah. ertama, mereka semua menerima bahwa!karenakebanyakanO(n5))cukup, adamemori utamauntukmenguasai data untuk menjadiclusterdan struktur data diperlukan untuk mendukung mereka. "engan database besar yang mengandung seribu item atau lebih, asumsi ini tidak realitis. Selain itu, penampilan *G