10-clustering dokumen (k-means) a sa1250 5.0 v2.08

8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

1/23

Clustering Dokumen (K-Means)


2/23

Table Of Contents

1. Konsep Dasar Clustering2. Tahapan Clustering3. K-Means Clustering

Algoritma K-MeansRumus Umum K-Means. Case !tu"#


3/23

• Klusterisasi Data, atau Data Clustering jugadisebut sebagai analisis klaster, analisissegmentasi, analisis taxonomi, atauunsupervised classification .

• Metode yang digunakan untuk mem$angungrup dari objek-objek, atau klaster-klaster,dimana objek-objek dalam satu kluster tertentu

memiliki kesamaan %iri #ang tinggi dan objek-objek pada kluster #ang $er$e"a memilikikesamaan %iri #ang ren"ah .

Konsep Dasar


4/23

• Tujuan dari klasterisasi data adalamengelompokkan "ata yang memilikikesamaan %iri dan memisahkan "ata ke dalamklaster yang berbeda untuk objek-objek yangmemiliki %iri #ang $er$e"a .

• !erbeda dengan klasi&ikasi , yang memilikikelas yang telah "i"e&inisikan sebelumnya.

Dalam klasterisasi , klaster akan ter$entuksen"iri berdasarkan "iri objek yang dimiliki dankriteria pengelompokan yang tela ditentukan.

Konsep Dasar


5/23

#. $eature %ele"tion & 'enentuan informasi fitur yang digunakan.(. 'roximity Measure

& Ta ap kuantifikasi item kemiripan data.

). Clustering Criterion & 'enentuan fungsi pembobotan * tipe aturan.

+. Clustering lgorit m & Metode klaster berdasarkan ukuran kemiripan data dan kriteria

klasterisasi.

. alidation of t e /esult0. 1nterpretation of t e /esult

Ta apan Klasterisasi


6/23

'roximity Measure

• Koefisien kemiripan menunjukkan kekuatanubungan antara dua data.

• %emakin banyak kemiripan titik data satu samalain, maka semakin besar koefisien kesamaan.

• Misalkan x 2 3x # , x ( , ..., x d 4 dan y 2 3y # , y ( , ..., y d 4adala dua titik data pada d dimensi. Maka nilaikoefisien kemiripan antara x dan y adala

beberapa nilai atribut fungsi s3x,y4 2 s3x # , x ( , ..., x d ,y# , y ( , ..., y d 4.


7/23

'roximity Measure• 'emili an jarak pada "lustering adala sangat penting, dan pili an yang

terbaik sering diperole melalui pengalaman, kemampuan, pengeta uan.• 'engukuran 5arak Data 6

& 7umerik dengan banyak fitur atau dimensi 3d4 6- 8u"lidean Distan"e 6 - Minko9ski Distan"e 6

- Man attan Distan"e 6 - Ma alanobis Distan"e 6

- Maximum Distan"e 6 - :erage Distan"e 6

& Kategorikal 6- %imple Mat" ing Distan"e

( ) 2

1

1

2),(

−= ∑=

d

j j jeuclid y x y xd

∑=

−=d

j j jman y x y xd

1

),(

j jd j y x y xd −=

= ..1max max),(

1,),(

1

1minkow ≥−= ∑=r y x y xd

r d

j

r

j j

( ) ( )∑ −−= − T mah y x y x y xd 1),(

( ) 21

1

21),(

−= ∑

=

d

j j jave y xd

y xd

≠==

y xif

y xif y x

1

0),(δ ( )∑

=

=d

j

j j sim y x y xd 1

,),( δ


8/23

'roximity Measure• 5ika x # 23#,(4 dan x ( 23(,)4. ;itungla 5arak x # dan x ( dengan 8u"lidean<

• 5ika ;itungla 5arak x # dan x ( dengan Ma alanobis<

37ote 6 Ma alanobis biasanya digunakan untuk meng itung jarak antar "luster4

& ;itung Mean Core"ted Matrix

& ;itung Matrik Co:arian 3C i4

( ) ( ) ( )[ ] ( ) ( )[ ] [ ] 4.122113221),( 2121

2221

2221

1

22121 ===+=−+−=−= ∑

=

d

j j jeuclid x x x xd

( )0i x

=32

43

21

1 x = 1755

2 x

[ ]323

342

3

2311

= ++++= x µ [ ]362

15

2

752

= ++= x µ

−−=

−−−−−−

=

00

11

11

3322

3423

32210

1 x −−=−−

−−=21

21316735650

2 x

== −−

−−

==7.07.0

7.07.0

22

22

31

00

11

11

011

011

311 0

10

11

1 x xnC

T

−−

=−

−=

−−

−−

==42

21

84

42

21

21

21

22

11

211 0

202

2

2 x xnC

T


9/23

'roximity Measure• 5ika ;itungla 5arak x # dan x ( dengan ma alanobis<

& ;itung Matrik Co:arian 3C i4

=324321

1 x =17

552 x

== −−

−−

==7.07.0

7.07.0

22

22

31

00

11

11

011

011

311 0

10

11

1 x xnC

T

−

−=

−

−=

−

−

−

−==

42

21

84

42

2

1

21

21

22

11

2

11 02

02

22 x x

nC

T

−−

=−

−+=

−−

+==+

== ∑∑∑∑===

24.0

4.08.0

6.18.0

8.04.0

4.04.0

4.04.0

42

21

52

7.07.0

7.07.0

53

5111 2

1

2

1211 iii

iii

n

iii C nC nnn

C nn

group

( )( ) ( )

==−−−

=ΣΣ

=∑ −6.03.0

3.04.1

8.04.0

4.02

44.11

8.04.0

4.02

4.0*4.02*8.0111 Adj


10/23

'roximity Measure• 5ika ;itungla 5arak x # dan x ( dengan ma alanobis<

& ;itung Mean Different 3= #,= ( 4 6

( ) ( ) [ ]

[ ] 7.42.220

41.16.5

0

4

6.03.0

3.04.1

04,,),( 211

2121

==−−−=

−−=∆∆= ∑

− T mah x x x x x xd

=324321

1 x =17

552 x

( )( ) ( )

==−−−

=ΣΣ

=∑ −6.03.0

3.04.1

8.04.0

4.02

44.11

8.04.0

4.02

4.0*4.02*8.0111 Adj

( ) [ ] [ ]043362, 21 −=−−=∆ x x[ ]

362

15

2

75

2

= ++= x µ [ ]323

342

3

2311 =

++++

= x µ

( ) ( )∑ −−= − T mah x x x x x xd 2112121 ),(


11/23

Clustering lgorit m

Clustering lgorit m

%e>uential ;ierar" i"al

gglomerati:e 3bottom-up4

Di:isi:e 3top-do9n4

Combinations

;ard Clustering

$u??y Clustering

'ossibilisti" Clustering


12/23

Klasterisasi K-Means• K-Means merupakan sala satu metode pengelompokan data non irarki yang

digunakan untuk mempartisi 7 objek data ke dalam K kelompok.• lgoritma K-Means 3Ma"@ueen, #A0B4 6

#. Tentukan jumla "luster, lalu alokasikan data ke dalam "luster se"ara a"ak.(. ;itung pusat "luster 3C4 dari data yang ada di masing-masing "luster.

). ;itung jarak 3D4 semua data ter adap masing-masing "luster, lalu alokasikan masing-masing data ke "entroid terdekat 3a4.

+. Kembali ke langka ), jika masi ada data yang berpinda "luster atau ada peruba annilai "entroid, misal dengan batasan iterasi max atau dengan obje"ti:e fun"tion.

atau

∑==

m

j ji xmC 1

1

==

lainnya

C x Dd a i j ji

,0

)),(min(,1

'ote 6 m menyatakan jumla data padasuatu kelompok, dan i menyatakan fiturke-i dalam sebua kelompok.

∑∑= =

=datan

j

k

i

i j ji C x Da F 1 1

),( ( ) ( )∑∑∑∑

= == =

=−=

k

j

n

i j

ji

k

j

n

i j

ji

datadata

C x DC x J 1 1

2

1 1

),(

( ) 2

1

1

2dim

),( −=

∑=n

j j jeuclid y x y x D


13/23

Conto %tudi Kasus• 'er atikan dataset berikut 6

• !entuk isualisasi data 6

Data itur itur # Kelompok 1 Kelompok 2 Kelompok 3# # #( + # ) 0 # + # (

( ) 0 ) B (

) A ( 0

#E )

1nisialisasi 6K 2 ),1terasiMax 2 (,$ungsi Objektif 3$ 1nit4 2 E,T res old 3T4 2 E. .

Tentukan ;asil k irClusteringnya <


14/23

Conto %tudi Kasus 3Cont.4• Meng itung Centroid %etiap Cluster 6

• ;asil Centroid %etiap Cluster 6

Data # K 1 K 2 K 3 K 1 K 1 # K 2 K 2 # K 3 K 3 ## # # 1 1( + # 4 1) 0 # 6 1+ # ( 1 2

( ) 2 3

0 ) 5 3B ( 2 5

) 3 5A ( 0 2 6

#E ) 3 8

Total 2 5 3 2 3 21 18 6 14

Kelompok Centroi" itur Centroi" itur #

# Total K#$x * Total K# 2 ( * ( 2 # Total K#$y * Total K# 2 ) * ( 2 #.

( Total K($x * Total K( 2 (# * 2 +.( Total K($y * Total K( 2 # * 2 ).0

) Total K)$x * Total K) 2 0 * ) 2 ( Total K)$y * Total K) 2 #+ * ) 2 +.000B


15/23

Conto %tudi Kasus 3Cont.4• Meng itung 5arak Data Ke Centroid 38u"lidian Distan"e4 6

%e ingga, $ baru 2 #.EEEE F #).#B+0 F ).)))) 2 #B. EBA Delta 2 G $ baru & $ lama G 2 G #B. EBA & E G 2 #B. EBA 3 H T4 , Ianjutkan <

Data # *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok+aruKelompok

!e$elumn#a# # # 0.5000 4.1231 3.8006 0.5000 1 1( + # 3.0414 2.6077 4.1767 2.6077 2 2) 0 # 5.0249 3.1623 5.4263 3.1623 2 2+ # ( 0.5000 3.5777 2.8480 0.5000 1 1

( ) 1.8028 2.2804 1.6667 1.6667 3 30 ) 4.2720 1.0000 3.4319 1.0000 2 2

B ( 3.6401 2.6077 0.3333 0.3333 3 3) 4.0311 1.8439 1.0541 1.0541 3 2

A ( 0 4.6098 3.2558 1.3333 1.3333 3 3#E ) 6.8007 4.5607 3.4801 3.4801 3 2

Total 1.0000 13.1746 3.3333(Total berdasarkan kelompok

sebelumnya)

( ) ( )( ) ( ) ( ) ( ) ( ) 5.025.05.005.11115.1,1,1,1 22221 ==−+=−+−=== C x D

( ) ( )( ) ( ) ( ) ( ) ( ) 1231.41776.624.106.22.36.312.416.3,2.4,1,1 22222 ==+=−+−=−+−=== C x D

( ) ( )( ) ( ) ( ) ( ) ( ) 8006.36667.314.66671214.6667,2,1,1 22223 =−+=−+−=== C x D


16/23

Conto %tudi Kasus 3Cont.4• 1terasi # 6 3Mengalokasikan %etiap Data 'ada Centroid Terdekat4

Data # K 1 K 2 K 3 *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok +aru# # # 0.5000 4.1231 3.8006 0.5000 1( + # 3.0414 2.6077 4.1767 2.6077 2) 0 # 5.0249 3.1623 5.4263 3.1623 2+ # ( 0.5000 3.5777 2.8480 0.5000 1

( ) 1.8028 2.2804 1.6667 1.6667 30 ) 4.2720 1.0000 3.4319 1.0000 2B ( 3.6401 2.6077 0.3333 0.3333 3

) 4.0311 1.8439 1.0541 1.0541 3A ( 0 4.6098 3.2558 1.3333 1.3333 3

#E ) 6.8007 4.5607 3.4801 3.4801 3Total 2 3 5 1.0000 13.1746 3.3333


17/23



Data # K 1 K 2 K 3 K 1 K 1 # K 2 K 2 # K 3 K 3 ## # # 1 1( + # 4 1) 0 # 6 1+ # ( 1 2

( ) 2 3

0 ) 5 3B ( 2 5

) 3 5A ( 0 2 6

#E ) 3 8

Total 2 3 5 2 3 15 5 12 27



( Total K($x * Total K( 2 # * ) 2 Total K($y * Total K( 2 * ) 2 #.000B

) Total K)$x * Total K) 2 #( * 2 (.+ Total K)$y * Total K) 2 (B * 2 .+


18/23

Conto %tudi Kasus 3Cont.4• ;asil Centroid %etiap Cluster 6

• Meng itung 5arak Data Ke Centroid 6

%e ingga, $ baru 2 #.EEEE F ).B)BE F B.#EA) 2 ##. +0+ Delta 2 G $ baru & $ lama G 2 G ##. +0+ & #B. EBA G 2 .00# 3 H T4 ,

Ianjutkan <

Data # *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok+aru

Kelompok!e$elumn#a

# # # 0.5000 4.0552 4.6174 0.5000 1 1( + # 3.0414 1.2019 4.6819 1.2019 2 2) 0 # 5.0249 1.2019 5.6851 1.2019 2 2+ # ( 0.5000 4.0139 3.6770 0.5000 1 1

( ) 1.8028 3.2830 2.4331 1.8028 1 30 ) 4.2720 1.3333 3.5384 1.3333 2 2B ( 3.6401 4.4845 0.5657 0.5657 3 3

) 4.0311 3.8873 0.7211 0.7211 3 3

A ( 0 4.6098 5.2705 0.7211 0.7211 3 3#E ) 6.8007 6.6416 2.6683 2.6683 3 3


sebelumnya)




) Total K)$x * Total K) 2 #( * 2 (.+ Total K)$y * Total K) 2 (B * 2 .+


19/23

Conto %tudi Kasus 3Cont.4• 1terasi ( 6 3Mengalokasikan %etiap Data 'ada Centroid Terdekat4

Data # K 1 K 2 K 3 *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok +aru# # # 0.5000 4.0552 4.6174 0.5000 1( + # 3.0414 1.2019 4.6819 1.2019 2) 0 # 5.0249 1.2019 5.6851 1.2019 2+ # ( 0.5000 4.0139 3.6770 0.5000 1

( ) 1.8028 3.2830 2.4331 1.8028 10 ) 4.2720 1.3333 3.5384 1.3333 2B ( 3.6401 4.4845 0.5657 0.5657 3

) 4.0311 3.8873 0.7211 0.7211 3A ( 0 4.6098 5.2705 0.7211 0.7211 3

#E ) 6.8007 6.6416 2.6683 2.6683 3Total 2 3 5 1.0000 3.7370 7.1093


20/23



Data # K 1 K 2 K 3 K 1 K 1 # K 2 K 2 # K 3 K 3 ## # # * 1 1( + # * 4 1) 0 # * 6 1+ # ( * 1 2

( ) * 2 30 ) * 5 3B ( * 2 5

) * 3 5A ( 0 * 2 6

#E ) * 3 8

Total 3 3 4 4 6 15 5 10 24


# Total K#$x * Total K# 2 + * ) 2 #.)))) Total K#$y * Total K# 2 0 * ) 2 (


) Total K)$x * Total K) 2 #E * + 2 (. Total K)$y * Total K) 2 (+ * + 2 0


21/23

Conto %tudi Kasus 3Cont.4• ;asil Centroid %etiap Cluster 6

• Meng itung 5arak Data Ke Centroid 6

Cek 6 1terasi 2 1terasiMax. %top 1terasi < tau Cek 6 $ baru 2 (. A) F ).B)BE F +.BAB0 2 ##.#()A

Delta 2 G $ baru & $ lama G 2 G ##.#()A & ##. +0+ G 2 E.B((+ 3 J T2E. 4 , %top 1terasi <5ika kondisi stop, maka buat Tabel ;asil k ir Clustering Data dan isualisasinya.

Data # *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok

+aru

Kelompok

!e$elumn#a# # # 1.0541 4.0552 5.2202 1.0541 1 1( + # 2.8480 1.2019 5.2202 1.2019 2 2) 0 # 4.7726 1.2019 6.1033 1.2019 2 2+ # ( 0.3333 4.0139 4.2720 0.3333 1 1

( ) 1.2019 3.2830 3.0414 1.2019 1 10 ) 3.8006 1.3333 3.9051 1.3333 2 2B ( 3.0732 4.4845 1.1180 1.1180 3 3

) 3.4319 3.8873 1.1180 1.1180 3 3

A ( 0 4.0552 5.2705 0.5000 0.5000 3 3#E ) 6.2272 6.6416 2.0616 2.0616 3 3


sebelumnya)


# Total K#$x * Total K# 2 + * ) 2 #.)))) Total K#$y * Total K# 2 0 * ) 2 (


) Total K)$x * Total K) 2 #E * + 2 (. Total K)$y * Total K) 2 (+ * + 2 0


22/23

Conto %tudi Kasus 3Cont.4• ;asil k ir Clustering Data 6

• isualisasi ;asil k ir Clustering 6

Data # Kelompok +aru# # # 1( + # 2) 0 # 2+ # ( 1

( ) 10 ) 2B ( 3

) 3A ( 0 3

#E ) 3


23/23

!elesai

10-clustering dokumen (k-means) a sa1250 5.0 v2.08

Documents