data management (data mining klasifikasi)
TRANSCRIPT
Manajemen
DATAAdamMukharil Bachtiar, M.T.
Data Mining Klasifikasi
Pemahaman Awal Data Mining Klasifikasi
apa itu Data Mining Klasifikasi?
Ekstraksi pengetahuan berupa nilai (berbentuk label kelas) dari sebuah atribut/variabel berdasarkan nilai dari
atribut/variabel lainnya (Supervised Learning)
Gambaran Umum Data Mining Klasifikasi
Gambaran Umum Data Mining Klasifikasi (2)
Data mining klasifikasi bisadigunakan untuk memprediksikelas data dari data yang baruberdasarkan predetermined class dari data yang sudah ada
Pada proses klasifikasi akan dikenaldua jenis data yaitu data latih (training data) dan data uji (testing data)
Data latih adalah data yang sudahada sebelumnya berdasarkan faktayang sudah terjadi (predefined class)
Data uji adalah data yang sudahberkelas/berlabel yang digunakanuntuk menghitung akurasi model klasifikasi yang dibentuk
Bagaimana proses untuk melakukanData Mining Klasifikasi?
1. Model Construction:Merepresentasikan rule klasifikasi, decision tree, atau pun formula matematika berdasarkan data latih
2. Model Usage:Mengestimasi akurasi dari model menggunakan data uji kemudian apabilaakurasi dapat diterima maka berikutnyamelabelkan data baru yang belum berlabel
Terdapat beberapa algoritmayang bisa digunakan untukklasifikasi di antaranya algoritmanaïve bayes, K-NN, dan C.45
Penjelasan Algoritma Klasifikasi
Section 1:Algoritma Naïve Bayes
Metode Naïve Bayes menggunakan konsepteorema Bayesian dalammelakukan proses klasifikasi
Contoh Kasus Klasifikasiage income student credit_rating buys_computer
youth high no fair noyouth high no excellent no
middle_age high no fair yessenior medium no fair yessenior low yes fair yessenior low yes excellent no
middle_age low yes excellent yesyouth medium no fair noyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes
middle_age high yes fair yesmiddle_age medium no excellent no
youth medium yes fair ?X:
Langkah 1:Cari P(Ci) dimana i adalah kelas data yang ada pada data latih
•P(buys_computer = “yes”) = 9/14 = 0.643•P(buys_computer = “no”) = 5/14= 0.357
buys_computer
nonoyesyesyesnoyesnoyesyesyesyesyesno
Langkah 2:Hitung P(X|Ci) dimana X dengan persamaan:
)|(...)|()|(1
)|()|(
21CixPCixPCixP
n
kCixPCiP
n
k
´´´=
Õ=
=X
1. Hitung P(x|Ci) untuk “buys_computer” = yes• P(age = “youth” | buys_computer = “yes”) = 2/9 = 0.222• P(income = “medium” | buys_computer = “yes”) = 4/9 = 0.444• P(student = “yes” | buys_computer = “yes) = 6/9 = 0.667• P(credit_rating = “fair” | buys_computer = “yes”) = 6/9 = 0.667
P(X|Ci) : P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044
age income student credit_rating buys_computer
middle_age high no fair yessenior medium no fair yessenior low yes fair yes
middle_age low yes excellent yesyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes
middle_age high yes fair yes
youth medium yes fair ?
2. Compute P(X|Ci) for “buy_computer” = no• P(age = “youth” | buys_computer = “no”) = 3/5 = 0.6• P(income = “medium” | buys_computer = “no”) = 2/5 = 0.4• P(student = “yes” | buys_computer = “no”) = 1/5 = 0.2• P(credit_rating = “fair” | buys_computer = “no”) = 2/5 = 0.4
P(X|Ci) : P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019
youth medium yes fair ?
age income student credit_rating buys_computer
youth high no fair noyouth high no excellent nosenior low yes excellent noyouth medium no fair no
middle_age medium no excellent no
Langkah 3:Hitung P(Ci|X) dengan persamaan:
)()|()|( iCPiCPiCP XX =
1. P(X|Ci) : P(X|buys_computer = “yes”) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044
P(X|Ci)*P(Ci) : P(X|buys_computer = “yes”) * P(buys_computer = “yes”) = 0.028
2. P(X|Ci) : P(X|buys_computer = “no”) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019
P(X|Ci)*P(Ci) : P(X|buys_computer = “no”) * P(buys_computer = “no”) = 0.007
Langkah 4:Pilih kelas berdasarkan aturan:
X termasuk dalam class Ci jika𝑷 𝑪𝒊 𝑿 > 𝑷 𝑪𝒋 𝑿 𝒖𝒏𝒕𝒖𝒌𝟏 ≤ 𝒋 ≤ 𝒎; 𝒋 ≠ 𝒊
X merupakan anggota class (“buys_computer = yes”) karenaP(X|C=yes) > P(X|C=no)
age income student credit_rating buys_computer
youth high no fair noyouth high no excellent no
middle_age high no fair yessenior medium no fair yessenior low yes fair yessenior low yes excellent no
middle_age low yes excellent yesyouth medium no fair noyouth low yes fair yesyouth medium yes fair yessenior medium yes excellent yesyouth medium no excellent yes
middle_age high yes fair yesmiddle_age medium no excellent no
youth medium yes fair yesX:
Section 2:Algoritma k-NN(Coming Soon)
Section 3:Algoritma C.45(Coming Soon)
Exercise Time
Nomor Tingkat Perekonomian Jenis Kelamin Pekerjaan Punya Deposito?1 Menengah Ke Atas Pria Tetap Ya
2 Menengah Ke Atas Pria Tetap Tidak
3 Menengah Ke Atas Pria Tetap Ya
4 Menengah Ke Bawah Pria Tetap Tidak
5 Menengah Ke Bawah Pria Honorer Ya
6 Menengah Ke Bawah Wanita Honorer Tidak
7 Menengah Ke Bawah Wanita Honorer Ya
8 Menengah Ke Bawah Wanita Tetap Tidak
9 Menengah Ke Atas Wanita Honorer Tidak
10 Menengah Ke Atas Pria Honorer Ya
X Menengah Ke Atas Pria Tetap ?