lkp10 lab1 klp8

9
Lembar Kerja Pratikum 10 Hari/Tanggal : Selasa/29 April 2014 Lab : 1 Kelompok : 8 Anggota : - Rudi Hartomo (G64110013) - Weni Handayani (G64110058) - Albert Sebastian (G64110075) - M. Fuad Makarim (G64110113) Menggunakan data set vote.arff pada WEKA. 1. Gunakan algoritme apriori untuk menemukan aturan asosiasi dari data set, jelaskan hasil yang diperoleh! Dengan menggunakan algoritma Apriori diperoleh keterangan sebagai berikut. 1. Minimum Support untuk 196 instances adalah 0,45 2. Confidence (Minimum Metric), yaitu peluang sebuah transaksi x->y terhadap x adalah 0,9 3. Banyaknya “Cylce Performed” adalah 11 4. Dari large item set diketahui bahwa : a. Banyaknya dataset yang memiliki item set 1 adalah 20 b. Banyaknya dataset yang memiliki item set 2 adalah 17 c. Banyaknya dataset yang memiliki

Upload: weni-handayani

Post on 05-Dec-2014

230 views

Category:

Education


3 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Lkp10 lab1 klp8

Lembar Kerja Pratikum 10

Hari/Tanggal : Selasa/29 April 2014

Lab : 1

Kelompok : 8

Anggota : - Rudi Hartomo (G64110013)

- Weni Handayani (G64110058)

- Albert Sebastian (G64110075)

- M. Fuad Makarim (G64110113)

Menggunakan data set vote.arff pada WEKA.

1. Gunakan algoritme apriori untuk menemukan aturan asosiasi dari data set, jelaskan hasil yang diperoleh!

Dengan menggunakan algoritma Apriori diperoleh keterangan sebagai berikut.

1. Minimum Support untuk 196 instances adalah 0,452. Confidence (Minimum Metric), yaitu peluang sebuah transaksi x->y terhadap x adalah 0,93. Banyaknya “Cylce Performed” adalah 114. Dari large item set diketahui bahwa :

a. Banyaknya dataset yang memilikiitem set 1 adalah 20

b. Banyaknya dataset yang memilikiitem set 2 adalah 17

c. Banyaknya dataset yang memilikiitem set 3 adalah 6

d. Banyaknya dataset yang memilikiitem set 4 adalah 1

Page 2: Lkp10 lab1 klp8

Best Rule yang ditemukan adalah sebagai berikut.1. JIKA “Adoption of the budget resolution” = Ya, DAN “Physician fee freeze” = No, dengan total instances

adalah 219, MAKA Class nya adalah democrat dengan jumlah instances adalah 219.2. JIKA “Adoption of the budget resolution” = Ya, “Physician fee freeze” = No, DAN “Aid to nicaraguan

contras” = Ya dengan total instances adalah 219, MAKA Class nya adalah democrat dengan jumlah instances adalah 198.

3. JIKA “Physician fee freeze” = No, “Aid to nicaraguan contras” = Ya dengan total instances adalah 211, MAKA Class nya adalah democrat dengan jumlah instances adalah 210.

4. JIKA “Physician fee freeze” = No, “Education Spending” = No dengan total instances adalah 202, MAKA Class nya adalah democrat dengan jumlah instances adalah 201.

5. JIKA “Physician fee freeze” = No dengan total instances adalah 247, MAKA Class nya adalah democrat dengan jumlah instances adalah 245.

6. JIKA “El Savador aid” = No, DAN Class-nya adalah democrat dengan total instances adalah 200, MAKA “Aid to nicaraguan contras” = Ya dengan jumlah instances adalah 197.

7. JIKA “El Savador aid” = No dengan total instances adalah 208, MAKA “Aid to nicaraguan contras” = Ya dengan jumlah instances adalah 204.

8. JIKA “Adoption of the budget resolution” = Ya, “Aid to nicaraguan contras” = Ya, DAN Class-nya adalah democrat dengan total instances adalah 203, MAKA “Physician fee freeze” = No dengan jumlah instances adalah 198.

9. JIKA “El Savador aid” = No, “Aid to nicaraguan contras” = Ya dengan total instances adalah 204, MAKA Class nya adalah democrat dengan jumlah instances adalah 197.

10. JIKA “Aid to nicaraguan contras” = Ya, DAN Class nya adalah democrat dengan total instances adalah 218 , MAKA “Physician fee freeze” = No dengan jumlah instances adalah 210.

2. Gunakan algoritme FPGrowth untuk menemukan aturan asosiasi dari data set, jelaskan hasil yang diperoleh!

Page 3: Lkp10 lab1 klp8

Dengan menggunakan algoritma Apriori diperoleh keterangan sebagai berikut.1. Relation = vote2. Banyaknya instance adalah 4353. Banyaknya atribut adalah 17, yaitu :

a) handicapped-infantsb) water-project-cost-sharingc) adoption-of-the-budget-

resolutiond) physician-fee-freezee) el-salvador-aidf) religious-groups-in-schoolsg) anti-satellite-test-banh) aid-to-nicaraguan-contras

i) mx-missilej) immigrationk) synfuels-corporation-cutbackl) education-spendingm)superfund-right-to-suen) crimeo) duty-free-exportsp) export-administration-act-south-africaq) Class

Page 4: Lkp10 lab1 klp8

Rule yang didapatkan dengan menggunakan FPGrowth adalah sebagai berikut.1. JIKA el-savador-aid = Ya DAN Class=republican dengan jumlah instances adalah 157, MAKA

physician fee freeze = Ya dengan jumlah instances adalah 156.confidence = 0.99lift = 2.44lev = 0.21conv = 46.56

2. JIKA crime = Ya DAN Class=republican dengan jumlah instances adalah 158, MAKA physician fee

freeze = Ya dengan jumlah instances adalah 155.confidence = 0.98lift = 2.41lev = 0.21conv = 23.43

3. JIKA religious-groups-in-schools= Ya DAN physician fee freeze = Ya dengan jumlah instances adalah 160, MAKA el-savador-aid = Ya dengan jumlah instances adalah 156.confidence = 0.98lift = 2lev = 0.18conv = 16.4

4. JIKA Class = republican dengan jumlah instances adalah 168, MAKA physician fee freeze = Ya dengan jumlah instances adalah 163.confidence = 0.97lift = 2.38lev = 0.22conv = 16.61

Page 5: Lkp10 lab1 klp8

5. JIKA adoption-of-the-budget-resolution=Ya, anti-satelite-test-ban=Ya, DAN mx-missile=Ya dengan jumlah instances adalah 161, MAKA aid-to-nicaraguan-contras=Ya dengan jumlah instances adalah 155.confidence = 0.96lift = 1.73lev = 0.15conv = 10.2

6. JIKA physician fee freeze = Ya, Class = republican dengan jumlah instances adalah 163, MAKA el-savador-aid = Ya dengan jumlah instances adalah 156.confidence = 0.96lift = 1.96lev = 0.18conv = 10.45

7. JIKA religious-groups-in-schools= Ya, el-savador-aid = Ya, DAN superfund-right-to-sue = Ya dengan jumlah instances adalah 160, MAKA crime = Ya dengan jumlah instances adalah 153.confidence = 0.96lift = 1.68lev = 0.14conv = 8.6

8. JIKA el-savador-aid = Ya DAN superfund-right-to-sue = Ya dengan jumlah instances adalah 170, MAKA crime = Ya dengan jumlah instances adalah 162.confidence = 0.95lift = 1.67lev = 0.15conv = 8.12

Page 6: Lkp10 lab1 klp8

9. JIKA crime = Ya DAN physician fee freeze = Ya dengan jumlah instances adalah 168, MAKA el-savador-aid = Ya dengan jumlah instances adalah 160.confidence = 0.95lift = 1.95lev = 0.18conv = 9.57

10. JIKA el-savador-aid = Ya, physician fee freeze = Ya dengan jumlah instances adalah 168, MAKA crime = Ya dengan jumlah instances adalah 160.confidence = 0.95lift = 1.67lev = 0.15conv = 8.02

Keterangan : a) Support : proporsi transaksi dalam data set yang mengandung Zb) Frequent item set : itmes dalam item set yang memiliki support lebih dari minimum

supportnyac) Confidence : peluang sebuah transaksi x->y terhadap xd) Conviction : alternatif menghitung confidencee) Leverage : ukuran x dan y muncul tidak bersamaan pada data set dan diharapkan x dan y

adalah independenf) Lift : ukuran seringnya x dan y muncul bersamaan jika x dan y independen

3. Ukuran kemenarikan apa saja yang digunakan kedua algroritme tersebut? Jelaskan! - Confidence adalah peluang kemunculan sebuah transaksi x setelah melakukan transaksi y

terhadap transaksi x- Lift adalah ukuran keseringan x dan y muncul bersamaan jika x dan y saling independen - Leverageadalah ukuran x dan y muncul tidak bersamaan pada data set dan diharapkan x dan

y saling independen- Conviction adalah alternative lain untuk menghitung confidence

Page 7: Lkp10 lab1 klp8

4. Apakah pengaruh nilai minimum support terhadap aturan yang diperoleh? Jelaskan!

Jika minimum support tinggi maka persaingan akan semakin ketat sehingga aturan yang diperoleh akan semakin sedikit, jika minimum support semakin tinngi maka semakin tinggi batas support ketersediaan kombinasi data yang harus dicapai sehingga semakin sedikit aturan yang dapat mencapai batasan untuk menjadi frequent itemset

5. Berapa batasan minimum nilai support sehingga aturan yang dihasilkan baik? Apakah dampaknya terhadap aturan yang dihasilkan! Berapa batasan minimum nilai support sehingga aturan yang dihasilkan baik? Apakah dampaknya terhadap aturan yang dihasilkan!Batasan nilai support minimum yang dapat digunakan adalah 0. Meski begitu, tidak ada jumlah minimum support sehingga aturan yang dihasilkan di anggap baik. Penggunaan minim um support yang baik tergantung pada informasi yang mau kita ambil dari data. Nilai minimum support yang kecil membuat terbentuknya frequent itemset dalam jumlah banyak. Hal tersebut membuat akurasi berkurang, namun rule yang di hasilkan lebih banyak, hal tersebut berguna dalam melihat asosiasi data dalam jumlah besar. Sedangkan jika minimum support yang dipakai tinggi, maka frequent itemset yang terbentuk hanya sedikit, hal ini mempersingkat proses komputasi, memperbesar akurasi, namun rule yang di hasilkan sedikit. Hal ini dimanfaatkan apabila kita ingin asosiasi data dengan akurasi yang baik.

6. Apakah maksud dari aturan dengan nilai support dan confidence yang tinggi? Jelaskan!

Nilai support yang tinggi berarti jumlah barang yang di beli sekaligus mendekati jumlah seluruh transaksi. Sedangkan nilai confidence yang tinggi berarti jumlah pembelian benda kedua dibeli apabila diketahui benda pertama dibeli hampir sama dengan jumlah total pembelian yang mengandung barang pertama. Jadi aturan dengan nilai support dan confidence yang tinggi adalah sebuah aturan yang memiliki akurasi tinggi. Maksudnya, aturan tersebut menjelaskan bahwa asosiasi antara kedua benda tinggi (contoh: jika benda A dibeli pasti B dibeli).

7. Untuk data set seperti apakah algoritme Apriori dan FPGrowth cocok digunakan?

Apriori akan melakukan scanning database setiap kali ada data untuk dicocokkan. Proses utama yang dilakukan dalam algoritma Apriori, yaitu Join (Penggabungan) dan Prune (Pemangkasan). Yaitu dengan terlebih dahulu mengkombinasikan setiap item dengan item yang lainnya sampai tidak terbentuk kombinasi lagi, hasil dari item yang telah dikombinasikan tersebut lalu dipangkas dengan menggunakan minimum support yang ditentukan sendiri oleh user. Setiap melakukan kombinasi, item apriori akan menscan database berulang kali menyebabkan banyaknya waktu yang dibutuhkan untuk melakukan scanning database tersebut, apalagi bila jumlah datanya cukup besar. Oleh karena itu algoritma apriori cocok digunakan untuk dataset berukuran kecil.

Sedangkan algoritma FP Growth cocok digunakan bila dataset atau jumlah data cukup besar, karena algoritma ini hanya melakukan 2 kali proses scanning database untuk menentukan frequent itemset dan juga tidak membutuhkan generate candidate seperti yang ada di apriori. Sebagai

Page 8: Lkp10 lab1 klp8

gantinya FP-Growth menggunakan konsep pembangunan tree disebut dengan FP-Tree dalam pencarian frequent itemset, sehingga pemrosesan pun lebih cepat karena frequent itemset dapat langsung diekstrak dari hasil tree tadi.