datamining vi - 0908605041

26
SUMMARY ASSOCIATION ANALYSIS BASIC CONCEPS and ALGORITHM Oleh : Putu Asry Yundari 0908605041 Program Studi Teknik Informatika Jurusan Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Udayana

Upload: asry-yundari

Post on 24-Jul-2015

165 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Datamining Vi - 0908605041

SUMMARY

ASSOCIATION ANALYSIS

BASIC CONCEPS and ALGORITHM

Oleh :

Putu Asry Yundari

0908605041

Program Studi Teknik Informatika

Jurusan Ilmu Komputer

Fakultas Matematika dan Ilmu Pengetahuan Alam

Universitas Udayana

2012

Page 2: Datamining Vi - 0908605041

ASSOCIATION RULE MINING

Pada bagisn ini akan dijelaskan tentang metodelogi yang dikenal dengan

Association analysis dimana ini berguna untuk menemukan hubungan yang

tersembunyi dari data set yang besar. Hubungan ini dapat direpresentasikan

sebagai Association Rule sebagai contoh pada Gambar 6.1* pada gambar tersebut

dapat dilihat association rules yang didapat dari kumpulan data tersebut misalnya:

{Diaper}{Beer}

6.1 Problem Definition

Binary Representation Data transaksi dapat direpresentasikan dalam format

biner dimana setiap baris sesuai dengan transaksi dan setiap kolom sesuai dengan

item barang. Item dapat diperlakukan sebagai variable biner yang mana bernilai 1

jika barangnya ada dan sebaliknya.

Itemset and Support Count Dimana itemset adalah kumpulan dari satu atau

lebih item. Misalnya {Beer, Diaper, Milk} ini adalah contoh dari 3-itemset.

Bagian yang penting dari itemset adalah support count yaitu dimana ini

menunjukkan jumlah (frekuensi) dari transaksi yang mengandung item yang

khusus. Misalnya {Beer, Diaper, Milk} jumlahnya adalah 2.

Association Rule Pernyataan implikasi dari form XY, dimana X dan Y adalah

Item. Jumlah dari Association Rule dapat mengukur Support dan Confident.

support , s⟶ ( X , Y )=σ ( X∪Y )N

confident , c⟶ ( X , Y )=σ ( X∪Y )σX

Why use Support and Confident? Support sangat penting karena rule yang

mempunyai support sangat rendah dapat simply occur dengan chance. Support

digunakan untuk mengelimenasi rule uninteresting. Disisi lain confident

mengukur kehandalah dari inference made dengan rule. Hasil dari association

analysis dipresentasikan dengan caution.

Page 3: Datamining Vi - 0908605041

Formulation of Association Rule Mining Problem association rule mining

dapar diformulasikan seperti dibawah ini

Definition 6.1 (Association Rule Discovery) Diberikan suatu transaksi T, akhir

dari association rule ini adalah mencari semua rule yang dimiliki support ≥

minsup threshold dan confident ≥ minconf threshold. Dimana minsup dan mincof

sesuai dengan support dan confident threshold.

Pendekatan Brute-force untuk mining association rule adalah semua daftar

association rule yang mungkin selanjutnya menghitung support dan confident

untuk setiap. Untuk menghindari perhitungan kinerja yang tidak berguna, akan

sangat berguna untuk memotong aturan awal tanpa harus menghitung nilai dari

support dan confident. Langkah awal untuk memperbaiki kinerja association rule

mining algorithm adalah dengan memisahkan support dan confident.

Strategi umum yang diadopsi dari banyak algoritma association rule adalah

menguraikan masalah kedalam dua bub-tugas yaitu:

1. Frequent Itemset Generation tujuannya adalah menemukan semua itemset

yang memenuhi minsup threshold.

2. Rule Generation tujuannya adalah untuk mengekstrak semua high-

confident rule frequent itemset yang sering ditemukan pada langkah

sebelumnya.

6.2 Frequent Itemset Generation

Untuk mencari frequent itemset dengan pendekatan brute-force adalah dengan

menentukan jumlah support untuk setiap candidate itemset dalam struktur lattice.

Selajutnya jumlah dari support setiap candidate discanning pada database seperti

pada Gambar 6.2*.

Ada beberapa cara untuk mengurangi kompleksitas computational dari frequent

itemset generation:

1. Mengurangi jumlah dari candidate itemset (M), menggunakan teknik

pruning untuk menguranginya.

Page 4: Datamining Vi - 0908605041

2. Mengurangi jumlah dari comparisons (NM), menggunakan struktur data

efficient untuk menyimpan candidate atau transaksi

6.2.1 The Apriori Principle

Theorem Apriori principle if an itemset is frequent, then all of its subsets must

also be frequent.

Apriori principle memiliki hak untuk mengikuti property dari support measures

yaitu:

∀ X , Y :(X⊆Y )⇒ f ( X)≥ f (Y )

Support dari itemset tidak pernah melebihi support dari subsets. Ini dikenal

dengan anti-monotone property dari support. Prinsip apriori dapat dilustrasikan

seperti Gambar 6.3*

6.2.2 Frequent Itemset Generation in the Apriori Algorithm

Apriori adalah association rule mining algorithm pertama menggunakan support

berdasarkan pruning untuk mengontrol sistematis pertumbuhan eksponensial dari

candidate item. Metodenya adalah:

- Anggap k=1

- Generate frequent itemsets dari jarak 1

- Ulangi hingga tidak ada identifikasi baru dari frequent itemsets

Generate jarak (k+1) candidate subsets dari jarak k frequent itemsets

Prune candidate itemsets berisi subsets dari jarak k infrequent

Jumlahkan support dari setiap candidate pada scanning database

Eliminasi candidate yang tidak frequent, hingga hanya meninggalkan

frequent saja.

Dapat dilustrasikan pada gambar 6.5*

6.2.3 Candidate Generation and Pruning

Page 5: Datamining Vi - 0908605041

Candidate Generation operasi ini menghasilkan candidate k baru

berdasarkan pada frequent (k-1) itemset yang ditemukan pada iterasi

sebelumnya.

Candidate Pruning operasi ini menghilangkan beberapa candidate k

itemset menggunakan support berdasarkan stategi pruning

Pada prinsispnya bayak cara yang dapat digunakan untuk menghasilkan candidate

item, slah satunya adalah :

- Harus menghindari menghasilkan banyak candidate

- Harus memastikan candidate item telah selesai yaitu tidak ada item set

yang meninggalkan prosedur candidate generation

- Tidak menghasilkan candidate itemset yang sama lebih dari sekali

Beberapa prosedur candidate generation yang mencakup fungsi apriori-gen

Metode Brute-Force menganggap setiap k item sebagai candidate potensial dan

menerapkan langkah pruning untuk menghapus candidate yang tidak diperlukan.

Kompleksitas keseluruhan dari metode ini adalah

O(∑k =1

d

k×(dk ))=O(d .2d−1)

Metode Fk-1×F1 metode alternative untuk candidate generation untuk

memperpanjang setiap frequent (k-1)-itemset dengan frequent item lainnya.

Kompleksitas dari metode ini adalah O∑k

k|F k−1|∨F1∨¿¿

Metode F k−1× Fk−1 prosedur candidate generation dari fungsi apriori-gen yang

menggabungkan bagian dari frequent (k-1) itemset hanya jika item pertama (k-2)

adalah identic.

6.2.4 Support Counting

Adalah proses menentukan frekuensi terjadinya untuk setiap candidate itemset

yang bertahan pada candidate pruning step dari fungsi apriori-gen. Untuk

melakukan ini hal pertama yang dilakukan adalah scanning database dari data

Page 6: Datamining Vi - 0908605041

transaksi untuk menentukan support dari setiap candidate itemset. Untuk

mengurangi jumlah perbandingan, tempat penyimpanan candidate dalam struktur

hash. Seperti dapat dijelaskan dari Gambar 6.9*

Dari gambar tesebut diberikan t={1,2,3,4,5,6 } harus dibangun dengan 3-itemset

dan hsrus terkandung t item 1, 2, atau 3. Hal ini tidak mungkin membangun

dengan item 5 atau 6 karena hanya ada 2 item yang lebih besar dan sama dengan

item tersebut. Pertama bagi levelnya menjadi level 1,2 dan 3. Pada level 1 untuk

mengetahui jumlah cara yang dapat digunakan untuk menentukan item pertama

dari 3-itemset yang diketahui. Level 2 mewakili sejumlah cara untuk memilih

item yang kedua. Level 3 mewakili set yang lengkap dari 3-itemset yang

terkandung dalam t. Misal dari level 1 telah didapat 1 [2 3 4 5 6] maka Level 2

didapat 1 2 [3 5 6], 1 3 [5 6], dan 1 5 [6] selanjutnya pada level 3 didapat [123,

125, 126], [135,136], dan [156].

Support Counting Using a Hash Tree

Dalam algoritma Apriori, candidate item set dipisahkan menjadi bucket dan

disimpan dalam hash tree. Pada gambar 6.11 menunjukkan hash tree. Setiap

internal node dari tree menggunakan fungsi hash yaitu h ( p )=pmod 3 untuk

menentukan cabang dari current node menjadi pengikut selanjutnya. Contoh item

1, 4 dan 7 adalah hash untuk disamakan cabangnyakarena mereka mempunyai sisa

yang sma setelah dilakukan mod 3. Semua candidate item set disimpan dalam leaf

none pada hash tree. Hash tree yang ditunjukkan pada gambar 6.11 mempunyai 15

candidate 3-itemset dan diuraikan menjadi 9 leaf node.

6.2.5 Computational Complexity

Computational complexity dari algoritma apriori dapat dibuat dari beberapa factor

dibawah ini :

Support Threshold menurunkan hasil support threshold dari frequent item

lainnya. Ini dapat menaikan jumlah dari candidate dan jarak maksimal dari

frequent itemsets.

Page 7: Datamining Vi - 0908605041

Number of Items (Dimensionality) ruang lainnya diperlukan untuk menyimpan

jumlah support dari setiap item. Jika jumlah dari frequent item naik juga maka

kedua perhitungan dan cost I/O dapat dinaikkan juga.

Number of Transaction karena apriori dibuat multiple passes, run time dari

algoritma dapat dinaikkan dengan jumlah dari transaksi.

Average Transaction Width transaction width dinaikkan dengan kepadatan

dataset. Ini dapat menaikan jarak maksimal dari frequent itemset dan traversals

dari hash tree (jumlah subset pada transaksi dinaikkan dengan lebarnya).

Detail analisis dari waktu kompleksitas dari algoritma apriori adalah :

Generation of Frequent 1-itemset untuk setiap transaksi dibutuhkan update

jumlah support dari semua item yang ada pada data transaksi. Asumsikan w

adalah rata-rata transaction width operasi ini memerlukan O(Nw), dimana N

adalah jumlah total dari transaksi.

Candidate Generation untuk menghasilkan candidate k-itemset, bagian dari

frequent (k-1)-itemset digabung untuk menentukan apakah memiliki (k-2) yang

sama. Jadi semua jumlah penggabungan item set adalah

∑k =2

w

(k−2)|C2|<cost of merging<∑k=2

w

(k−2)¿ Fk−1∨¿2 ¿

Cost untuk population candidate item pada hash tree adalah O ¿ karena

mempunyai maksimum depth dari tree adalah k.

Support Counting setiap transaksi dari jarak |t| menghasilkan (¿ t∨¿k ) itemset

dari ukuran k. ini juga merupakan jumlah efektif dari hash tree untuk setiap

transaksi. Cost support countingnya adalah O(N ∑k

(wk)α k). Dimana w adalah

maksimum transaction width dan α k adalah update dari jumlah support dari

candidate k-item pada hash tree.

6.3 Rule Generation

Page 8: Datamining Vi - 0908605041

Cara mengekstrak association rule yang efisien dari frequent item. Setiap frequent

k-itemset, Y, dapat menghasilkan 2k−2 association rules. Association rule dapat

diekstraksi dengan mempartisi y membagi 2 himpunan bagian yang tidak kosong

{}.

6.3.1 Confidence based Pruning

Confidence tidak banyak memiliki monotone property. Theorem dari Confidence

ini adalah

if a rule X Y –X does not satisfy the confidence threshold, then any rule X’ Y-

X’, where X’ is a subset of X, must not satisfy the confidence threshold as well

6.3.2 Rule Generation in Algorithm Apriori

Algoritma Apriori menggunakan pendekatan level-wise untuk menghasilkan

association rule, dimana setiap level yang sesuai untuk jumlah dari item termasuk

untuk rule consequent. Awalnya, high-confidence rules hanya mempunyai satu

rule consequent yang diekstrak. Kemudian rule ini yang digunakan untuk

membuat association rule yang baru. Jika banyak node yang mempunyai lattice

yang low confidence maka menurut Theorem 6.2 seluruh subgraf merentang ke

node yang dapat menjadi pruned immediately. Theorem 6.2 ditunjukkan pada

Table 6.1 *

6.4 Compact Representation of Frequent Itemsets

Pada prakteknya, frequent item menghasilkan data transaksi yang sangat besar. Ini

berguna untuk mengidentifikasi wakil set yang kecil dari itemset dimana frequent

itemset lainnya berasal.

6.4.1 Maximal Frequent Itemsets

Adalah frequent itemset yang tidak memeiliki superset terdekat dari frequent.

Maximal Frequent Itemset memberikan gambaran yang jelas untuk data set yang

diproduksi sangat lama. Namun pendekatan ini hanya dapat digunakan jika

algoritma efficient eksis untuk menemukan maximal frequent itemset tanpa

menghitung subset lainya. Meskipun memberikan gambaran yang baik maximal

Page 9: Datamining Vi - 0908605041

frequent itemsets tidak mengandung support informasi dari suset mereka sendiri.

Contohnya support dari maximal frequent itemset {a,c,e}, {a,d}, dan {b,c,d,e}

tidak memberikan petunjuk yang banyak tentang support dari subset mereka.

6.4.2 Closed Frequent Itemsets

Memberikan gambaran minimal dari itemset tanpa menghilangkan support

informasinya.

Definition 6.4 Closed Item adalah sebuah itemset X ditutup jika tidak ada superset

yang memiliki jumlah support yang sama.

Dengan kata lain, X tidak ditutup jika paling tidak salah satu superset terdekat

memeiliki jumlah yang sama dengan X. Gambar 6.17* menunjukkan contoh dari

closed frequent itemsets.

Definition 6.5 Closed Frequent Itemsets adalah itemset adalah closed frequent

item jika ditutup dan support lebih besar atau sama dengan minsup.

6.5 Alternative Method for Generating Frequent Item

Apriori adalah salah satu algoritma paling awal yang berhasil membahas

kombinatorial explosion dari frequent itemset generation. Beberapa metode

alternative yang telah dikembangkan untuk mengatasi keterbatasan dari ini dan

memperbaiki effisiensi dari algoritma apriori. Berikut ini adalah diskripsi high-

level dari metode ini :

Traversal of Itemsets Lattice pencarian untuk itemset sering menjadi konsep

yang dipandang sebagai tranversal dari itemset lattice. Stategi pencarian yang

digunakan oleh algoritma untuk menentukan bagaimana itemset lattice

menunjukkan proses dari frequent itemset generation.

General to Specific vs Specific to General algoritma Apriori menggunakan

strategi pencarian general to specific dimana bagian dari frequent (k-1)-itemsets

digabungkan untuk menghasilkan candidate k-items. Strategi pencarian General to

specific adalah efektif, menampilkan maximum length dari frequent itemset yang

tidak terlalu panjang. Strategi pencarian Specific to general alternative untuk

Page 10: Datamining Vi - 0908605041

melihat frequent item pertama sebelum mencari frequent item yang lebih umum.

Strategi ini berguna untuk menemukan maksimal frequent item dalam transaksi

dense, dimana batas dari frequent item adalah terletak dibawah dengat dengan

lattice. Gambar 6.19* menunjukkan General to specific dan Specific to Gerenal.

Equivalence Classes cara lain untuk envision transversal adalah pertama partisi

lattice kedalam kelompok yang menguraikan node. Algoritma pencarian frequent

itemsets generation dari frequent itemset dalam keterangan class ekuivalen

pertama sebelum memindahkan klas ekuivalen lainnya. Equivalen class juga dapat

menegaskan menurut label prefix atau suffix dari itemset. Gambar 6.20*

menunjukkan Equivalen Class.

Breadth-first vs Depth-first algoritma apriori yang melewati cara breadth first

ditunjukan pada gambar 6.21(a)*. Hal pertama yang dilakukan adalah menemukan

semua semua frequent 1-itemset, selanjutnya 2-itemset dan begitu seterusnya

sampai tiidak ada itemset baru yang dihasilkan. Itemset lattice juga dapat

melewati cara depth first seperti yang ditunjukan pada Gambar 6.21(b)*.

Pendekatan ini sering digunakan oleh algoritma designed untuk mencari maximal

frequent item. Pendekatan ini memungkinkan batas frequent itemset menjadi

dteksi yang lebih cepat dari Breadth first.

Representation of Transaction of Data set ada banyak cara untuk

merepresentasikan transaksi data set. Pemilihan representasi dapat sebuah I/O

yang timbul ketika menghitung support dari candidate itemsets. Gambar 6.23*

menunjukan perbedaan dari keranjang belanja transaksi. Gambar sebelah kiri

desebut dengan horizontal data layout yang mana diadopsi oleh banyak algoritma

association rule mining dan sebelah kanan disebut vertical data layout. Support

dari setiap candidate itemset adalah memperoleh TID-list dari subset items.

6.6 FP-Growth Algorithm

6.6.1 FP Tree Representation

Page 11: Datamining Vi - 0908605041

FP tree adalah kompres representasi dari input data. Hal ini dibangun dengan

membaca data dan menetapkan transaksi pada suatu waktu dan memetakannya.

Sperti transaksi berbeda yang dapat mempunyai beberapa kesamaan pada item

yang ini mungkin akan tumpang tindih. Jika ukuran FP tree lebih kecil untuk

memori utama ini akan memungkinkan untuk mengekstrak frequent itemset secara

langsung dari struktur memori untuk membuat mengulang dara store yang lewat

dari disk. Ukuran dari FP tree biasanya lebih kecil dari ukuran komprensi data

karena banyak data transaksi dari keranjang belanja mempunyai item yang sama.

Dari scenario terbaik dimana semua transaksi memiliki itemset yang sama, FP tree

hanya berisi 1 cabang node.

6.6.2 Frequent Itemset Generation in FP-Growth Algorithm

FP grow adalah algoritma yang menghasilkan frequent item dari FP tree dengan

menjelajahi pohon dari bawah ke atas. Untuk contoh yang lebih konkret tentang

cara untuk memecahkan submasalah dari mencari akhir frequent item dengan e:

Langkah pertama adalah mengathet semua node yang dilewati e.

Inisialisasi dari path disebut dengan prefix path.

Dari prefix path didapat jumlah support dari e adalah penambahan jumlah

support associated dengan node e.

Karena e adalah frequent maka harus mengkonvert prefix path kedalam

conditional FP tree dengan aturan ;

Pertama jumlah support harus mendekati prefix path, karena

beberapa jumlah transaksi tidak mengandung item e.

Prefix path menghilangkan node dari e.

Setelah mengupdate jumlah support dari prefix path, beberapa

yang dari frequent item tidak begitu panjang.

FP grow menggunakan conditional FP Tree untuk e memecahkan sub

masalah dari mencari akhir dari frequent item.

FP-pertumbuhan menggunakan syarat FP-pohon untuk memecahkan

submasalah dan menemukan itemset frequent berakhir dengan de, ce, dan

ae.

6.7 Evaluation of Association Patterns

Page 12: Datamining Vi - 0908605041

Algoritma analisis asosiasi memiliki potensi untuk menghasilkan sejumlah besar

pola. Berikut ini adalah beberapa pendekatan untuk menggabungkan subjektif

pengetahuan ke dalam tugas penemuan pola. Set pertama kretiria dapat dibentuk

memalui argument statistic. Dan set kedua kriteria dapat dibentuk melalaui

argument subjektif.

Visualisasi : Pendekatan ini memerlukan lingkungan yang user-friendly untuk

menjaga pengguna.

Template-based Approach : Pendekatan ini memungkinkan pengguna untuk

membatasi jenis pola yang diekstraksi oleh algoritma data mining.

Pengukuran Subyektif Interestingness : Pengukuran subjektif dapat

didefinisikan berdasarkan informasi domain seperti hirarki konsep. Hal ini

digunakan untuk menyaring pola yang jelas dan yang tidak jelas sehingga dapat

dilakukan proses selanjutnya.

6.7.1 Objective Measures of Interestingness

Objective measures adalah pendekatan berbasis data untuk mengevaluasi kualitas

recognition association. Ini adalah domain independen dan membutuhkan

minimal input dari pengguna, selain untuk menentukan ambang batas untuk

penyaringan pola berkualitas rendah. Ukuran yang objektif biasanya dihitung

menggunakan frekuensi jumlah yang ditabulasikan.

Keterbatasan pada Support-Confidence Framework : Aturan asosiasi

formulasi data mining yang bergantung pada support dan langkah-langkah

confidence untuk menghilangkan pola menarik. Kelemahan dari support ini

dijelaskan pada subbab 6.8, dimana pola yang menarik banyak perhatian

menyertakan support item yang rendah dihapuskan oleh support threshold.

Interest Factor : Contoh teh-kopi menunjukkan bahwa tinggi aturan confidence

kadang-kadang bisa menyesatkan karena ukuran confidence mengabaikan support

dari itemset yang muncul dalam aturan konsekuen.

Keterbatasan pada Interest Factor : Dalam domain teks, adalah wajar untuk

menganggap bahwa hubungan antara sepasang kata tergantung pada jumlah

dokumen yang mengandung kedua kata.

Page 13: Datamining Vi - 0908605041

Correlation Analysis : Analisis korelasi adalah teknik statistik berbasis untuk

menganalisis hubungan antara sepasang variabel. Untuk terus menerus

variabelkorelasi didefinisikan menggunakan korelasi Pearson koefisien.

Limitations of Correlation Analysis : Meskipun kata-kata yang muncul

bersama-sama lebih sering daripada r dan s, φ-koefisien adalah identik, yaitu, φ

(p, q) =φ (r, s) = 0,232. Hal ini karena φ-koefisien memberikan sama pentingnya

dengan kehadiran rekan-rekan dan tidak adanya item dalam tindakan.

IS Measures : adalah alternative measures yang mempunyai usulan dari variable

asimetris biner. Persamaannya yaitu IS ( A , B )=√I ( A ,B )+s ( A , B )= s ( A ,B )√s ( A ) s (B )

Limitations of IS Measures : nilai IS dari dari bagian nilai independent s(A) dan

s(B). persamaannya yaitu I Sindependent=s ( A , B )

√s ( A ) s ( B )=√s ( A )∗s ( B )

Alternative Objective Interestingness Measures : Selain langkah-langkah yang

diatas, ada langkah alternatif lain diusulkan untuk menganalisis hubungan antara

pasangan variabel biner. Langkah-langkah ini dapat dibagi menjadi dua kategori,

simetris dan asymmetrik tindakan.

Consistency among Objective Measures : Mengingat berbagai tindakan yang

tersedia, adalah wajar untuk mempertanyakan apakah tindakan dapat

menghasilkan hasil yang sama ketika memesan diterapkan untuk satu set pola

asosiasi. Jika langkahnya konsisten maka dilakukan dengan evaluation matric.

Selain itu ini sangat penting untuk dimengerti dimana pengukuran ini cocok untuk

menganalisis berbagai tipe dari pola.

Properties of Object Measures

Memeriksa property dari pengukuran yang dilakukan dengan :

- Inversi Properti : Ukuran yang obyektif M adalah invarian bawah operasi

inversi jika nilainya tetap sama ketika bertukar penghitungan frekuensi f11

dengan f00 dan f10 dengan f01 .

- Null Addition Properti : Ukuran yang obyektif M adalah lain di bawah

operasi penjumlahan null jika itu tidak efektif dengan meningkatkan f00.

Sementara semua frekuensi lainnya dalam tabel kontingensi tetap sama.

Page 14: Datamining Vi - 0908605041

- Scaling Properti : Ukuran yang obyektif M adalah invarian dalam operasi

skala baris / kolom jika M(T) = M(T), dimana T adalah tabel kontingensi

dengan jumlah frekuensi [f11, f10, f01, f00 ], dengan jumlah frekuensi skala

[k1k3f11 ; k2k3f10 ; k1k4f01 ; k2k4f00 ], dimana k1,k2,k3,k4 adalah konstanta

positif.

6.7.2 Measures beyond Pairs of Binary Variable

Langkah-langkah, seperti interest factor, IS, P S, dan Jaccard koefisien, cukup

dapat menjadi cenderung lebih dari dua variabel menggunakan tabel frekuensi

ditabulasikan dalam multidimensi kontingensi meja.

6.7.3 Simpson Paradox

Sangat penting untuk berhati-hati ketika menafsirkan hubungan antara variabel

karena hubungan yang diamati mungkin dipengaruhi oleh kehadiran faktor-faktor

lain, yaitu, variabel tersembunyi yang tidak termasuk dalam analisis. Dalam

beberapa kasus, variabel tersembunyi dapat menyebabkan hubungan antara

sepasang variabel menghilang atau membalikkan arahnya, ini dikenal sebagai

Simpson Paradox. Standarfikasi yang tepat diperlukan untuk menghindari

membangkitkan pattern palsu dari simpson paradox. Contohnya adalah keranjang

belanja dari sebuah rantai supermarket besar yang harus di kelompokkan

berdasarkan lokasi toko.

6.8 Effect of Skewed Support Distribution

Kinerja dari algoritma analisis asosiasi banyak dipengaruhi oleh sifat data masukan.

Contohnya, kompleksitas komputasi Algoritma Apriori tergantung pada properti seperti

jumlah item dalam data dan lebar rata-rata transaksi. Bagian ini membahas property

penting yang memiliki pengaruh signifikan pada kinerja algoritma asosiasi analisis serta

kualitas pola diekstraksi. Lebih spesifik, kita fokus pada titik data dengan distribusi

dukungan miring, di mana sebagian besar item memiliki relatif rendah untuk frekuensi

sedang, tetapi sejumlah kecil memiliki frekuensi sangat tinggi.

LAMPIRAN

1. Contoh transaksi

Page 15: Datamining Vi - 0908605041

2. Menjumlahkan support dari candidate itemset

3. Ilustrasi prinsip Apriori

4. Ilustrasi algoritma Apriori

Page 16: Datamining Vi - 0908605041

5. Ilustrasi dari Support Counting

6. Hash Tree

Page 17: Datamining Vi - 0908605041

7. Tabel theorem 6.2

8. Contoh Closed Frequent Itemsets

Page 18: Datamining Vi - 0908605041

9. General to Specific dan Specific to General

10. Equivalen Class

11. Breadth first dan Depth first

Page 19: Datamining Vi - 0908605041

12. Vertical dan Horizontal data format