lkp7 lab1 klp8
TRANSCRIPT
Lembar Kerja Pratikum 7
Hari/Tanggal : Selasa/25 Maret 2014
Lab : 1
Kelompok : 8
Anggota : - Rudi Hartomo (G64110013)
- Weni Handayani (G64110058)
- Albert Sebastian (G64110075)
- M. Fuad Makarim (G64110113)
Dengan menggunakan dataset trees:
1. Lakukan pengklusteran dengan K-Means (k= 3) ! Tampilkan dan jelaskan hasil
clustering tersebut!
Gambar 1.1 Hasil Clustering dengan K-Means
a. Jumlah data
Cluster Jumlah Data
1 10
2 4
Jumlah data pada cluster 1 adalah 10, jumlah data pada cluster 2 adalah 4, dan jumlah data pada cluster 3 adalah 7.
3 7
b. Hasil rata data
- Hasil rata data class 1
Atribut Class 1
Grith 10.6900
Height 699.40000
volume 16.62000
- Hasil rata data class 2
Atribut Class 1
Grith 12.72857
Height 78.21429
volume 26.97143
- Hasil rata data class
Atribut Class 1
Grith 17.94286
Height 81
volume 155.92857
c. Hasil clustring vector : 1 1 1 1 2 2 1 1 2 1 2 2 2 1 1 2 2 2 2 1 2 2 2 2 3 3 3 3 3 3 3
d. Akurasi hasil kluster sebesar 78,2%
e. Variabel yang tebentuk dari hasil cluster adalah cluster, centers, totss, withinss,
tot.withinss, betweens dan size
2. Lakukanlah pengklusteran dengan K-Medoids dengan menggunakan fungsi pamk()
dan pam() (k = 3)!
a. Tampilkan dan jelaskan hasil clustering plot dan silhouettes nya.
Gambar 2.1 Hasil Clustering dengan K-Medoids
Berdasarkan gambar 2.1 di atas, dengan menggunakan R kita menggunakan data
trees2 yang telah dihilangkan atribut spesiesnya. Kemudian, kita melakukan
pengklusteran dengan menggunakan fungsi pamk() dan menyimpan hasilnya
pada pamk.result. Dan untuk menampilkan jumlah kluster yang terbentuk kita
menggunakan pamk.result$nc.
Gambar 2.2 Hasil silhouettes
Berdasarkan gambar 2.2, ada dua kluster. Gambar sebelah kanan menunjukkan silhouettes. Dalam silhouettes, nilai silhouettes
(Si) yang besar (bisa dikatakan hampir 1) berarti pengamatan yang sesuai itu terkelompok dengan sangat baik. Jika nilai Si yang mendekati 0 berarti pengamatan terletak di antara dua kelompok. Sedangkan pengamatan dengan Si negatif terdapat kemungkinan kesalahan penempatan objek di suatu cluster. Jadi, dapat disimpulkan bahwa kedua kelompok ini baik, karena Si rata-ratanya, masing-masing adalah 0,6 dan 0,64 pada silhouettes di atas
Gambar sebelah kiri adalah clusplot 2-dimensi (clustering plot) dari dua kelompok dan garis menunjukkan jarak antara cluster.
b. Bandingkan hasilnya dengan hasil clustering K-Means pada soal nomor 1.
Gambar 2.3 hasil K-Means pada soal no.1
Kita membandingkan hasil pengklusteran K-Medoids pamk() dengan atribut species
pada data K-Means soal no1. Maka akan muncul hasilnya seperti pada gambar 2.3.
Artinya, pamk menghasilkan dua kelompok, satu adalah campuran class 2 (Heigth) dan
class 3 (Volume) , sedangkan yang lainnya adalah class 1 (Grith).
3. Lakukan pengklusteran dengan Hierachical Clustering dengan fungsi jarak average!
Tampilkan hasil visualisasinya dengan melakukan pelabelan berdasarkan hasil
clustering K-Means pada soal nomor 1 dan jelaskan hasil clustering tersebut!
Hierachical Clustering adalah algoritma klustering yang mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan.
a. Hasil Clustering
Gambar 3.1 Hasil Clustering dengan Hierachical Clustering
Berdasarkan gambar 3.1. Pada R untuk melakukan pengklusteran dengan menggunakan Hierachical Clustering dapat dilakukan dengan menggunakan fungsi hclust(dist(data), method=”linkType”) dimana :
- data : data yang akan di-clustering- linkType : untuk menentukan tipe penentuan pemilihan jarak yang dipakai.
Dengan menggunakan R, ambil 20 dataset pada trees, simpan pada trees2 dan hapus variabel Species. Kemudian, kita melakukan pengklusteran hierachical
clustering dengan menggunakan metode average linked dan hasilnya disimpan pada hc.
Untuk melihat hasil clustering plot dengan pelabelan berdasarkan atribut Species pada data trees.
Gambar 3.2 Hasil Clustering dengan Hierachical Clustering
Gambar 3.1 Hasil Clustering dengan Hierachical Clustering
4. Perhatikan data berikut!
Lakukanlah clustering dengan K-medoids dengan k = 2, dan iterasi maksimum 3!
SepalLength PetalLength5.1 1.44.9 1.47 4.7
6.4 4.56.3 65.8 5.1
K=2, (C1=4.9,1.4), (C2=6.3,6)
i C1 Data Objek (Xt) Cost Distance euclid1 4.9 1.4 5.1 0.23 4.9 1.4 7 3.91152144314 4.9 1.4 6.4 3.44383507156 4.9 1.4 5.1 3.8078865529
i C1 Data Objek (Xt) Cost Distance euclid1 6.3 6 5.1 1.4 4.75394572963 6.3 6 7 4.7 1.4764823064 6.3 6 6.4 4.5 1.50332963786 6.3 6 5.8 5.1 1.0295630141
Cluster terbentuk: C1={(5.1,1.4),(4.9,1.4)},C2={(7.0,4.7),(6.4,4.5),(6.3,6.0),(5.8,5.1)}
Total jarak Euclid = 4.209374958
i C1 Data Objek (Xt) Cost Distance euclid1 4.9 1.4 5.1 1.4 0.23 4.9 1.4 7 4.7 3.91152144314 4.9 1.4 6.3 6 3.44383507156 4.9 1.4 5.8 5.1 3.8078865529
i C1 Data Objek (Xt) Cost Distance euclid1 6.4 4.5 5.1 1.4 3.36154726283 6.4 4.5 7 4.7 0.6324555324 6.4 4.5 6.3 6 1.50332963786 6.4 4.5 5.8 5.1 0.8485281374
Cluster terbentuk: C1 = {(5.1,1.4),(4.9,1.4)}, O' = {(7.0,4.7),(6.4,4.5),(6.3,6.0),(5.8,5.1)}
Total jarak Euclid = 3.1843133073S=3.18431330-4.2093749=-1.0250616507S<0, Pertukaran C2 ke O' merupakan ide bagus
i C1 Data Objek (Xt) Cost Distance euclid1 4.9 1.4 5.1 1.4 0.23 4.9 1.4 7 4.7 3.91152144314 4.9 1.4 6.4 4.5 3.44383507156 4.9 1.4 6.3 6 4.8083261121
i C1 Data Objek (Xt) Cost Distance euclid1 5.8 5.1 5.1 1.4 3.76563407683 5.8 5.1 7 4.7 1.26491106414 5.8 5.1 6.4 4.5 0.84852813746 5.8 5.1 6.3 6 1.0295630141
Cluster terbentuk: C1={(5.1,1.4),(4.9,1.4)}, O'={(7.0,4.7),(6.4,4.5),(6.3,6.0),(5.8,5.1)}Total jarak Euclid = 3.3430022156S = 3.3430022156-3.1843133073=0.1586889083S>0, Pertukaran C2 ke O' merupakan ide buruk
Jadi Cluster akhir yang terbventuk yaitu: C1={(5.1,1.4),(4.9,1.4)}, C2={(7.0,4.7),(6.4,4.5),(6.3,6.0),(5.8,5.1)}SepalLength PetalLength
5.1 1.44.9 1.47 4.7
6.4 4.56.3 65.8 5.1