10-clustering dokumen (k-means) a sa1250 5.0 v2.08

Upload: christy-ariestyani

Post on 05-Jul-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    1/23

    Clustering Dokumen (K-Means)

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    2/23

    Table Of Contents

    1. Konsep Dasar Clustering2. Tahapan Clustering3. K-Means Clustering

    Algoritma K-MeansRumus Umum K-Means. Case !tu"#

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    3/23

    • Klusterisasi Data, atau Data Clustering jugadisebut sebagai analisis klaster, analisissegmentasi, analisis taxonomi, atauunsupervised classification .

    • Metode yang digunakan untuk mem$angungrup dari objek-objek, atau klaster-klaster,dimana objek-objek dalam satu kluster tertentu

    memiliki kesamaan %iri #ang tinggi dan objek-objek pada kluster #ang $er$e"a memilikikesamaan %iri #ang ren"ah .

    Konsep Dasar

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    4/23

    • Tujuan dari klasterisasi data adalamengelompokkan "ata yang memilikikesamaan %iri dan memisahkan "ata ke dalamklaster yang berbeda untuk objek-objek yangmemiliki %iri #ang $er$e"a .

    • !erbeda dengan klasi&ikasi , yang memilikikelas yang telah "i"e&inisikan sebelumnya.

    Dalam klasterisasi , klaster akan ter$entuksen"iri berdasarkan "iri objek yang dimiliki dankriteria pengelompokan yang tela ditentukan.

    Konsep Dasar

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    5/23

    #. $eature %ele"tion & 'enentuan informasi fitur yang digunakan.(. 'roximity Measure

    & Ta ap kuantifikasi item kemiripan data.

    ). Clustering Criterion & 'enentuan fungsi pembobotan * tipe aturan.

    +. Clustering lgorit m & Metode klaster berdasarkan ukuran kemiripan data dan kriteria

    klasterisasi.

    . alidation of t e /esult0. 1nterpretation of t e /esult

    Ta apan Klasterisasi

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    6/23

    'roximity Measure

    • Koefisien kemiripan menunjukkan kekuatanubungan antara dua data.

    • %emakin banyak kemiripan titik data satu samalain, maka semakin besar koefisien kesamaan.

    • Misalkan x 2 3x # , x ( , ..., x d 4 dan y 2 3y # , y ( , ..., y d 4adala dua titik data pada d dimensi. Maka nilaikoefisien kemiripan antara x dan y adala

    beberapa nilai atribut fungsi s3x,y4 2 s3x # , x ( , ..., x d ,y# , y ( , ..., y d 4.

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    7/23

    'roximity Measure• 'emili an jarak pada "lustering adala sangat penting, dan pili an yang

    terbaik sering diperole melalui pengalaman, kemampuan, pengeta uan.• 'engukuran 5arak Data 6

    & 7umerik dengan banyak fitur atau dimensi 3d4 6- 8u"lidean Distan"e 6 - Minko9ski Distan"e 6

    - Man attan Distan"e 6 - Ma alanobis Distan"e 6

    - Maximum Distan"e 6 - :erage Distan"e 6

    & Kategorikal 6- %imple Mat" ing Distan"e

    ( ) 2

    1

    1

    2),(

    −= ∑=

    d

    j j jeuclid y x y xd

    ∑=

    −=d

    j j jman y x y xd

    1

    ),(

    j jd j y x y xd −=

    = ..1max max),(

    1,),(

    1

    1minkow ≥−= ∑=r y x y xd

    r d

    j

    r

    j j

    ( ) ( )∑ −−= − T mah y x y x y xd 1),(

    ( ) 21

    1

    21),(

    −= ∑

    =

    d

    j j jave y xd

    y xd

    ≠==

    y xif

    y xif y x

    1

    0),(δ ( )∑

    =

    =d

    j

    j j sim y x y xd 1

    ,),( δ

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    8/23

    'roximity Measure• 5ika x # 23#,(4 dan x ( 23(,)4. ;itungla 5arak x # dan x ( dengan 8u"lidean<

    • 5ika ;itungla 5arak x # dan x ( dengan Ma alanobis<

    37ote 6 Ma alanobis biasanya digunakan untuk meng itung jarak antar "luster4

    & ;itung Mean Core"ted Matrix

    & ;itung Matrik Co:arian 3C i4

    ( ) ( ) ( )[ ] ( ) ( )[ ] [ ] 4.122113221),( 2121

    2221

    2221

    1

    22121 ===+=−+−=−= ∑

    =

    d

    j j jeuclid x x x xd

    ( )0i x

    =32

    43

    21

    1 x = 1755

    2 x

    [ ]323

    342

    3

    2311

    = ++++= x µ [ ]362

    15

    2

    752

    = ++= x µ

    −−=

    −−−−−−

    =

    00

    11

    11

    3322

    3423

    32210

    1 x −−=−−

    −−=21

    21316735650

    2 x

    == −−

    −−

    ==7.07.0

    7.07.0

    22

    22

    31

    00

    11

    11

    011

    011

    311 0

    10

    11

    1 x xnC

    T

    −−

    =−

    −=

    −−

    −−

    ==42

    21

    84

    42

    21

    21

    21

    22

    11

    211 0

    202

    2

    2 x xnC

    T

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    9/23

    'roximity Measure• 5ika ;itungla 5arak x # dan x ( dengan ma alanobis<

    & ;itung Matrik Co:arian 3C i4

    =324321

    1 x =17

    552 x

    == −−

    −−

    ==7.07.0

    7.07.0

    22

    22

    31

    00

    11

    11

    011

    011

    311 0

    10

    11

    1 x xnC

    T

    −=

    −=

    −==

    42

    21

    84

    42

    2

    1

    21

    21

    22

    11

    2

    11 02

    02

    22 x x

    nC

    T

    −−

    =−

    −+=

    −−

    +==+

    == ∑∑∑∑===

    24.0

    4.08.0

    6.18.0

    8.04.0

    4.04.0

    4.04.0

    42

    21

    52

    7.07.0

    7.07.0

    53

    5111 2

    1

    2

    1211 iii

    iii

    n

    iii C nC nnn

    C nn

    group

    ( )( ) ( )

    ==−−−

    =ΣΣ

    =∑ −6.03.0

    3.04.1

    8.04.0

    4.02

    44.11

    8.04.0

    4.02

    4.0*4.02*8.0111 Adj

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    10/23

    'roximity Measure• 5ika ;itungla 5arak x # dan x ( dengan ma alanobis<

    & ;itung Mean Different 3= #,= ( 4 6

    ( ) ( ) [ ]

    [ ] 7.42.220

    41.16.5

    0

    4

    6.03.0

    3.04.1

    04,,),( 211

    2121

    ==−−−=

    −−=∆∆= ∑

    − T mah x x x x x xd

    =324321

    1 x =17

    552 x

    ( )( ) ( )

    ==−−−

    =ΣΣ

    =∑ −6.03.0

    3.04.1

    8.04.0

    4.02

    44.11

    8.04.0

    4.02

    4.0*4.02*8.0111 Adj

    ( ) [ ] [ ]043362, 21 −=−−=∆ x x[ ]

    362

    15

    2

    75

    2

    = ++= x µ [ ]323

    342

    3

    2311 =

    ++++

    = x µ

    ( ) ( )∑ −−= − T mah x x x x x xd 2112121 ),(

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    11/23

    Clustering lgorit m

    Clustering lgorit m

    %e>uential ;ierar" i"al

    gglomerati:e 3bottom-up4

    Di:isi:e 3top-do9n4

    Combinations

    ;ard Clustering

    $u??y Clustering

    'ossibilisti" Clustering

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    12/23

    Klasterisasi K-Means• K-Means merupakan sala satu metode pengelompokan data non irarki yang

    digunakan untuk mempartisi 7 objek data ke dalam K kelompok.• lgoritma K-Means 3Ma"@ueen, #A0B4 6

    #. Tentukan jumla "luster, lalu alokasikan data ke dalam "luster se"ara a"ak.(. ;itung pusat "luster 3C4 dari data yang ada di masing-masing "luster.

    ). ;itung jarak 3D4 semua data ter adap masing-masing "luster, lalu alokasikan masing-masing data ke "entroid terdekat 3a4.

    +. Kembali ke langka ), jika masi ada data yang berpinda "luster atau ada peruba annilai "entroid, misal dengan batasan iterasi max atau dengan obje"ti:e fun"tion.

    atau

    ∑==

    m

    j ji xmC 1

    1

    ==

    lainnya

    C x Dd a i j ji

    ,0

    )),(min(,1

    'ote 6 m menyatakan jumla data padasuatu kelompok, dan i menyatakan fiturke-i dalam sebua kelompok.

    ∑∑= =

    =datan

    j

    k

    i

    i j ji C x Da F 1 1

    ),( ( ) ( )∑∑∑∑

    = == =

    =−=

    k

    j

    n

    i j

    ji

    k

    j

    n

    i j

    ji

    datadata

    C x DC x J 1 1

    2

    1 1

    ),(

    ( ) 2

    1

    1

    2dim

    ),( −=

    ∑=n

    j j jeuclid y x y x D

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    13/23

    Conto %tudi Kasus• 'er atikan dataset berikut 6

    • !entuk isualisasi data 6

    Data itur itur # Kelompok 1 Kelompok 2 Kelompok 3# # #( + # ) 0 # + # (

    ( ) 0 ) B (

    ) A ( 0

    #E )

    1nisialisasi 6K 2 ),1terasiMax 2 (,$ungsi Objektif 3$ 1nit4 2 E,T res old 3T4 2 E. .

    Tentukan ;asil k irClusteringnya <

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    14/23

    Conto %tudi Kasus 3Cont.4• Meng itung Centroid %etiap Cluster 6

    • ;asil Centroid %etiap Cluster 6

    Data # K 1 K 2 K 3 K 1 K 1 # K 2 K 2 # K 3 K 3 ## # # 1 1( + # 4 1) 0 # 6 1+ # ( 1 2

    ( ) 2 3

    0 ) 5 3B ( 2 5

    ) 3 5A ( 0 2 6

    #E ) 3 8

    Total 2 5 3 2 3 21 18 6 14

    Kelompok Centroi" itur Centroi" itur #

    # Total K#$x * Total K# 2 ( * ( 2 # Total K#$y * Total K# 2 ) * ( 2 #.

    ( Total K($x * Total K( 2 (# * 2 +.( Total K($y * Total K( 2 # * 2 ).0

    ) Total K)$x * Total K) 2 0 * ) 2 ( Total K)$y * Total K) 2 #+ * ) 2 +.000B

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    15/23

    Conto %tudi Kasus 3Cont.4• Meng itung 5arak Data Ke Centroid 38u"lidian Distan"e4 6

    %e ingga, $ baru 2 #.EEEE F #).#B+0 F ).)))) 2 #B. EBA Delta 2 G $ baru & $ lama G 2 G #B. EBA & E G 2 #B. EBA 3 H T4 , Ianjutkan <

    Data # *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok+aruKelompok

    !e$elumn#a# # # 0.5000 4.1231 3.8006 0.5000 1 1( + # 3.0414 2.6077 4.1767 2.6077 2 2) 0 # 5.0249 3.1623 5.4263 3.1623 2 2+ # ( 0.5000 3.5777 2.8480 0.5000 1 1

    ( ) 1.8028 2.2804 1.6667 1.6667 3 30 ) 4.2720 1.0000 3.4319 1.0000 2 2

    B ( 3.6401 2.6077 0.3333 0.3333 3 3) 4.0311 1.8439 1.0541 1.0541 3 2

    A ( 0 4.6098 3.2558 1.3333 1.3333 3 3#E ) 6.8007 4.5607 3.4801 3.4801 3 2

    Total 1.0000 13.1746 3.3333(Total berdasarkan kelompok

    sebelumnya)

    ( ) ( )( ) ( ) ( ) ( ) ( ) 5.025.05.005.11115.1,1,1,1 22221 ==−+=−+−=== C x D

    ( ) ( )( ) ( ) ( ) ( ) ( ) 1231.41776.624.106.22.36.312.416.3,2.4,1,1 22222 ==+=−+−=−+−=== C x D

    ( ) ( )( ) ( ) ( ) ( ) ( ) 8006.36667.314.66671214.6667,2,1,1 22223 =−+=−+−=== C x D

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    16/23

    Conto %tudi Kasus 3Cont.4• 1terasi # 6 3Mengalokasikan %etiap Data 'ada Centroid Terdekat4

    Data # K 1 K 2 K 3 *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok +aru# # # 0.5000 4.1231 3.8006 0.5000 1( + # 3.0414 2.6077 4.1767 2.6077 2) 0 # 5.0249 3.1623 5.4263 3.1623 2+ # ( 0.5000 3.5777 2.8480 0.5000 1

    ( ) 1.8028 2.2804 1.6667 1.6667 30 ) 4.2720 1.0000 3.4319 1.0000 2B ( 3.6401 2.6077 0.3333 0.3333 3

    ) 4.0311 1.8439 1.0541 1.0541 3A ( 0 4.6098 3.2558 1.3333 1.3333 3

    #E ) 6.8007 4.5607 3.4801 3.4801 3Total 2 3 5 1.0000 13.1746 3.3333

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    17/23

    Conto %tudi Kasus 3Cont.4• Meng itung Centroid %etiap Cluster 6

    • ;asil Centroid %etiap Cluster 6

    Data # K 1 K 2 K 3 K 1 K 1 # K 2 K 2 # K 3 K 3 ## # # 1 1( + # 4 1) 0 # 6 1+ # ( 1 2

    ( ) 2 3

    0 ) 5 3B ( 2 5

    ) 3 5A ( 0 2 6

    #E ) 3 8

    Total 2 3 5 2 3 15 5 12 27

    Kelompok Centroi" itur Centroi" itur #

    # Total K#$x * Total K# 2 ( * ( 2 # Total K#$y * Total K# 2 ) * ( 2 #.

    ( Total K($x * Total K( 2 # * ) 2 Total K($y * Total K( 2 * ) 2 #.000B

    ) Total K)$x * Total K) 2 #( * 2 (.+ Total K)$y * Total K) 2 (B * 2 .+

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    18/23

    Conto %tudi Kasus 3Cont.4• ;asil Centroid %etiap Cluster 6

    • Meng itung 5arak Data Ke Centroid 6

    %e ingga, $ baru 2 #.EEEE F ).B)BE F B.#EA) 2 ##. +0+ Delta 2 G $ baru & $ lama G 2 G ##. +0+ & #B. EBA G 2 .00# 3 H T4 ,

    Ianjutkan <

    Data # *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok+aru

    Kelompok!e$elumn#a

    # # # 0.5000 4.0552 4.6174 0.5000 1 1( + # 3.0414 1.2019 4.6819 1.2019 2 2) 0 # 5.0249 1.2019 5.6851 1.2019 2 2+ # ( 0.5000 4.0139 3.6770 0.5000 1 1

    ( ) 1.8028 3.2830 2.4331 1.8028 1 30 ) 4.2720 1.3333 3.5384 1.3333 2 2B ( 3.6401 4.4845 0.5657 0.5657 3 3

    ) 4.0311 3.8873 0.7211 0.7211 3 3

    A ( 0 4.6098 5.2705 0.7211 0.7211 3 3#E ) 6.8007 6.6416 2.6683 2.6683 3 3

    Total 1.0000 3.7370 7.1093(Total berdasarkan kelompok

    sebelumnya)

    Kelompok Centroi" itur Centroi" itur #

    # Total K#$x * Total K# 2 ( * ( 2 # Total K#$y * Total K# 2 ) * ( 2 #.

    ( Total K($x * Total K( 2 # * ) 2 Total K($y * Total K( 2 * ) 2 #.000B

    ) Total K)$x * Total K) 2 #( * 2 (.+ Total K)$y * Total K) 2 (B * 2 .+

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    19/23

    Conto %tudi Kasus 3Cont.4• 1terasi ( 6 3Mengalokasikan %etiap Data 'ada Centroid Terdekat4

    Data # K 1 K 2 K 3 *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok +aru# # # 0.5000 4.0552 4.6174 0.5000 1( + # 3.0414 1.2019 4.6819 1.2019 2) 0 # 5.0249 1.2019 5.6851 1.2019 2+ # ( 0.5000 4.0139 3.6770 0.5000 1

    ( ) 1.8028 3.2830 2.4331 1.8028 10 ) 4.2720 1.3333 3.5384 1.3333 2B ( 3.6401 4.4845 0.5657 0.5657 3

    ) 4.0311 3.8873 0.7211 0.7211 3A ( 0 4.6098 5.2705 0.7211 0.7211 3

    #E ) 6.8007 6.6416 2.6683 2.6683 3Total 2 3 5 1.0000 3.7370 7.1093

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    20/23

    Conto %tudi Kasus 3Cont.4• Meng itung Centroid %etiap Cluster 6

    • ;asil Centroid %etiap Cluster 6

    Data # K 1 K 2 K 3 K 1 K 1 # K 2 K 2 # K 3 K 3 ## # # * 1 1( + # * 4 1) 0 # * 6 1+ # ( * 1 2

    ( ) * 2 30 ) * 5 3B ( * 2 5

    ) * 3 5A ( 0 * 2 6

    #E ) * 3 8

    Total 3 3 4 4 6 15 5 10 24

    Kelompok Centroi" itur Centroi" itur #

    # Total K#$x * Total K# 2 + * ) 2 #.)))) Total K#$y * Total K# 2 0 * ) 2 (

    ( Total K($x * Total K( 2 # * ) 2 Total K($y * Total K( 2 * ) 2 #.000B

    ) Total K)$x * Total K) 2 #E * + 2 (. Total K)$y * Total K) 2 (+ * + 2 0

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    21/23

    Conto %tudi Kasus 3Cont.4• ;asil Centroid %etiap Cluster 6

    • Meng itung 5arak Data Ke Centroid 6

    Cek 6 1terasi 2 1terasiMax. %top 1terasi < tau Cek 6 $ baru 2 (. A) F ).B)BE F +.BAB0 2 ##.#()A

    Delta 2 G $ baru & $ lama G 2 G ##.#()A & ##. +0+ G 2 E.B((+ 3 J T2E. 4 , %top 1terasi <5ika kondisi stop, maka buat Tabel ;asil k ir Clustering Data dan isualisasinya.

    Data # *arak Ke C 1 *arak Ke C 2 *arak Ke C 3 Min Kelompok

    +aru

    Kelompok

    !e$elumn#a# # # 1.0541 4.0552 5.2202 1.0541 1 1( + # 2.8480 1.2019 5.2202 1.2019 2 2) 0 # 4.7726 1.2019 6.1033 1.2019 2 2+ # ( 0.3333 4.0139 4.2720 0.3333 1 1

    ( ) 1.2019 3.2830 3.0414 1.2019 1 10 ) 3.8006 1.3333 3.9051 1.3333 2 2B ( 3.0732 4.4845 1.1180 1.1180 3 3

    ) 3.4319 3.8873 1.1180 1.1180 3 3

    A ( 0 4.0552 5.2705 0.5000 0.5000 3 3#E ) 6.2272 6.6416 2.0616 2.0616 3 3

    Total 2.5893 3.7370 4.7976(Total berdasarkan kelompok

    sebelumnya)

    Kelompok Centroi" itur Centroi" itur #

    # Total K#$x * Total K# 2 + * ) 2 #.)))) Total K#$y * Total K# 2 0 * ) 2 (

    ( Total K($x * Total K( 2 # * ) 2 Total K($y * Total K( 2 * ) 2 #.000B

    ) Total K)$x * Total K) 2 #E * + 2 (. Total K)$y * Total K) 2 (+ * + 2 0

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    22/23

    Conto %tudi Kasus 3Cont.4• ;asil k ir Clustering Data 6

    • isualisasi ;asil k ir Clustering 6

    Data # Kelompok +aru# # # 1( + # 2) 0 # 2+ # ( 1

    ( ) 10 ) 2B ( 3

    ) 3A ( 0 3

    #E ) 3

  • 8/16/2019 10-Clustering Dokumen (K-Means) a SA1250 5.0 V2.08

    23/23

    !elesai