Download - nips勉強会_Toward Property-Based Classification of Clustering Paradigms

@tksakaki 榊　剛史

#nipsreading

 東京大学　松尾研究室　博士課程1年

 株式会社　ホットリンク　特任研究員

  Twitter上で、よく教授と間違われます。 ◦ 海外でも間違えられてた・・・・

 本論文の目的   Properties of Clustering Functions   A taxonomy of k-clustering fucntions   その他の拡張  結論

Clustering:データマイニングにおいて、基本的な手法 ↓

・多数のClustering手法が存在＋手法によって、結果が大きく異なる・手法の選び方はAd-hocである

○Clustering手法を選択をサポートするためのツール開発のための第一ステップ ○既存Clustering手法のpropertyを定義し分類する

現状の問題点

本論文の目的

Clusteringは経験的に提案されている手法が多いため、統一の基準で評価するのは有用っぽい

上記のような研究はあまり他で見たことがない

個人的に、clusteringへの興味が大きい

  A Impossibility Theorem for Clustering ◦  Jon Kleinberg, NIPS 2002

  Measures of Clustering Quality: A Working Set of Axioms for Clustering ◦  M.Ackerman and S.Ben-David, NIPS 2008

  Characterization of Linkage-based Clustering. ◦  M.Ackerman and S.Ben-David, COLT 2010

€

d : X × X →R+,d x,x( ) = 0 ∀x ∈ X( )X:有限領域　　全てのデータ点集合

距離関数

データセット：

€

X,d( )

€

C = F X,d,k( )

C1,C2,Ck{ } Cii = X,1≤ k ≤ X⎛

⎝ ⎜

⎞

⎠ ⎟

clustering結果

clustering関数：

€

F X,d,k( )

Input: Output:

Input: Output:

€

F X,d( )

€

C = C1,C2,Ck{ } Cii = X,1≤ k ≤ X⎛

⎝ ⎜

⎞

⎠ ⎟

€

F X,d,k( ), 1≤ k ≤ X( )

€

C = C1,C2,Ck{ } Cii = X,1≤ k ≤ X⎛

⎝ ⎜

⎞

⎠ ⎟

general clustering function F

k-clustering function F

不変性

iso. invariance 同型写像

scale invariance スケーリングしても不変

order invariance 距離順序が一定なら不変一貫性

outer consistency cluster間距離を伸ばしても不変 inner consistency cluster内距離を縮めても不変

richn

ess

k-rich 距離関数を決めれば、k個の任意の分割可能 inner rich データセット内距離を決めれば、（同上）

outer rich データセット間距離を決めれば、（同上）

threshold rich 距離関数の閾値を決めれば、（同上）

locality clustering集合内要素のみに依存 refinement-confined kが多い方が、clustering結果が良い

入力が同型写像の時、出力されるclusteringも同型

€

φ : X → ʹ′ X x,y ∈ X,d x,y( ) = ʹ′ d φ(x),φ(y)( )F X,d,k( ),F ʹ′ X , ʹ′ d ,k( ) : isomorphic(∀k)

€

x,y : same→φ(x),φ(y) : same

均等なスケーリングを行ったとき、clusteringが不変

均等なスケーリングを行ったとき、clusteringが不変

€

x,y ∈ X,d x,y( ) = c ʹ′ d x,y( )→F X,d,k( ) = F ʹ′ X , ʹ′ d ,k( )

2点間距離の順序が不変の時、clusteringが不変

€

x1,x2,x3,x4 ∈ X,

d x1,x2( ) < d x3,x4( ), ʹ′ d x1,x2( ) < ʹ′ d x3,x4( )→F X,d,k( ) = F ʹ′ X , ʹ′ d ,k( )

2点間距離の順序が不変の時、clusteringが不変

0 1 4 9 10 12 15 19 20

最短距離法(Single-linkage clustering）

clusteringが、そのcluster集合に含まれる要素のみに依存他のclusterの要素には依存しない

C’

clusteringが、そのcluster集合に含まれる要素のみに依存他のclusterの要素には依存しない

€

C = F(X,d,k),

€

ʹ′ C ⊆ CF( ʹ′ C ,d,| ʹ′ C |)= ʹ′ C

cluster内距離を縮めた時、またはcluster間距離を伸ばしたとき、clusteringは不変同一cluster内が密で、複数cluster間が疎であることを表す

d(x,y)

d(x,y) d’(x,y)

d’(x,y)

cluster内距離を縮めた時、またはcluster間距離を伸ばしたとき、clusteringは不変同一cluster内が密で、複数cluster間が疎であることを表す

€

ʹ′ d : C,d( ) − consistent

€

x,y : same → ʹ′ d x,y( ) ≤ d x,y( )x,y : different → ʹ′ d x,y( ) ≥ d x,y( )

cluster間距離を伸ばしたとき、clusteringは不変複数cluster間が疎であることを表す

d(x,y)

d’(x,y)

cluster間距離を伸ばしたとき、clusteringは不変複数cluster間が疎であることを表す

€

ʹ′ d : C,d( ) − outerconsistent

€

x,y : same → ʹ′ d x,y( ) = d x,y( )x,y : different → ʹ′ d x,y( ) ≥ d x,y( )

cluster内距離を縮めたとき、clusteringは不変同一cluster内が密であることを表す

d(x,y)

d’(x,y)

cluster内距離を縮めたとき、clusteringは不変同一cluster内が密であることを表す

€

ʹ′ d : C,d( ) − innterconsistent

€

x,y : same → ʹ′ d x,y( ) ≤ d x,y( )x,y : different → ʹ′ d x,y( ) = d x,y( )

距離関数を適切に定義することで任意のclustering可能

€

any : X1,X2Xk

ʹ′ X = X1,X2Xk{ }→∃d :F ʹ′ X ,d,k( ) = X1,X2Xk{ }

以下により任意のclustering可能データセット間の距離：定義するデータセット内の距離：定義不要

※各データセット間が十分疎で、データセット間の距離はclusteringに影響しない

€

any : (X1,d1),(X2,d2)(Xk,dk )

→∃ ˆ d : F Xii=1

k

, ˆ d ,k⎛

⎝ ⎜

⎞

⎠ ⎟ = X1,X2Xk{ }

ˆ d : entends − di(i ≤ k)

以下により任意のclustering可能データセット間の距離：定義不要データセット内の距離：定義する

※各データセット内が十分密で、データセット間の距離はclusteringに影響しない

€

X,d( ),X = X1,X2Xk{ }→∃ ˆ d : d a,b( ) = ˆ d a,b( ) a∈ Xi,b∈ X j ,i ≠ j( )

F Xii=1

k

, ˆ d ,k⎛

⎝ ⎜

⎞

⎠ ⎟ = X1,X2Xk{ }

距離関数に閾値を設定することで任意のclustering可能

€

∃a < bx,y : same→d(x,y) ≤ a,x,y : different →d(x,y) ≥ b

F X,d,C( ) = C

k≦k’のとき、F(X,d,k’)はF(X,d,k)の改良クラスタ数が多い状態は少ない状態のrefinementである

€

1≤ k ≤ ʹ′ k ≤ X ,

O F X,d,k'( )( ) ≥O F X,d,k( )( )

k≦k’のとき、F(X,d,k’)はF(X,d,k)の改良クラスタ数が多い状態は少ない状態のrefinementである

不変性

iso. invariance 同型写像

scale invariance スケーリングしても不変

order invariance 距離順序が一定なら不変一貫性

outer consistency cluster間距離を伸ばしても不変 inner consistency cluster内距離を縮めても不変

richn

ess

k-rich 距離関数を決めれば、k個の任意の分割可能 inner rich データセット内距離を決めれば、（同上）

outer rich データセット間距離を決めれば、（同上）

threshold rich 距離関数の閾値を決めれば、（同上）

locality clustering集合内要素のみに依存 refinement-confined kが多い方が、clustering結果が良い

  Clusteringの不可能性理論（Kleinberg）以下の３つの公理を同時に満たす

clustering関数は存在しない（証明略）

・Scale-Invariance ・Richness ・Consistency

  single linkage clusteringでは、各公理２つずつの組み合わせにおいて、stop　conditionが存在する（らしい）

  Consistency + Richness: only link if distance is less than r ◦  クラスタ間・クラスタ内の距離関数を変えてもclustering結果一定・距離関数を決めると任意のclusterに分割

  Consistency + SI: stop when you have k connected components ◦  クラスタ間・クラスタ内の距離関数を変えてもclustering結果一定/距離関数をスケーリングしてもclustering結果一定

  Richness + SI: if x is the diameter of the graph, only add edges with weight βx ◦  距離関数を決めると任意のclusterに分割/距離関数をスケーリングしてもclustering結果一定

oute

r con

sist

ent

inne

r con

sist

ent

loca

l

refin

emen

t

orde

r inv

aria

nt

k-ric

h

out r

ich

inne

r ric

h

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○

Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○

k-median ○ × ○ × × ○ ○ ○ ○ ○ ○

k-means ○ × ○ × × ○ ○ ○ ○ ○ ○

Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○

Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○

Nomalize cut × × × × × ○ ○ ○ ○ ○ ○

oute

r con

sist

ent

inne

r con

sist

ent

loca

l

refin

emen

t

orde

r inv

aria

nt

k-ric

h

out r

ich

inne

r ric

h

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○

Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○

Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○

k-median ○ × ○ × × ○ ○ ○ ○ ○ ○

k-means ○ × ○ × × ○ ○ ○ ○ ○ ○

Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○

Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○

Nomalize cut × × × × × ○ ○ ○ ○ ○ ○

以下の３つが、clustering指標としてふさわしいのではないか？ scale invariance : natural isomorphism variance :natural threshold richness 　　　：近いデータ点は同じグループ/遠いデータ点は違うグループ　　　　＝clusteringの主目的に合致する

  Invariance properties   Consistency properties

  Richness properties

  Locality €

(C,d) − nicevar iant

P F X, ʹ′ d ,C( ) = C[ ] ≥ P F X,d,C( ) = C[ ]

€

∀ε > 0

∃d :P F X,d,k( ) = C( ) ≥1−ε

€

P F ʹ′ X ,d / ʹ′ X , ʹ′ C ( ) = ʹ′ C [ ]

=P ʹ′ C ⊆ C F X,d, j( ) = CandC / ʹ′ X isak − clustering[ ]

P ∃C1,C2Cks.t.Ci = ʹ′ X F X,d, j( ) = C[ ] ≠ 0

 代表的なk-meansアルゴリズム

 代表的なk-meansアルゴリズム

出力結果が初期段階に強く依存

初期クラスター中心の選び方

ランダムに選択

最も離れた中心群を選択

€

maximizemin1≤ j≤i−1 d c j ,ci( )

Random Centroids Lloyd

Furthest Centroids Lloyd

どちらがより良い手法であるかを評価

Clustering Algorithm

oute

r con

sist

ent

loca

l

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

k-ric

h

oute

r ric

h

Optimal k-means ○ ○ ○ ○ ○ ○ ○ Random Centroid Lloyd × × × ○ ○ ○ ○ Furthest Centroid Lloyd × × ○ ○ ○ ○ ○

Clustering Algorithm

oute

r con

sist

ent

loca

l

thre

shol

d ric

h

scal

e in

varia

nt

iso.

inva

riant

k-ric

h

oute

r ric

h

Optimal k-means ○ ○ ○ ○ ○ ○ ○ Random Centroid Lloyd × × × ○ ○ ○ ○ Furthest Centroid Lloyd × × ○ ○ ○ ○ ○

threshold richnessを満たしているため、Furthest Centroid Lloydの方がRandom Centroid Lloydより優れている

  Kleinbergの不可能性理論

以下の３つを同時に満たすclustering関数は存在しない

・Scale-Invariance ・Richness ・Consistency

 本論文での不可能性理論

以下の３つを同時に満たすclustering関数は存在しない

・Scale-Invariance ・Richness

・Outer-Consistency

Clustering Functionのpropertyについて整理・詳細化を行った

clustering axiomsとして、scale-invariance, isomorphism-invariance, threshold richnessを提案した

Kleinbergの不可能性理論について詳細化を行った

  Supervised Clustering ◦  2008年に提案された教師つきclusteringの拡張 ◦ 教師＝実際にユーザーがclustering結果を見て、merge/

splitのクエリをどんどん投げていく感じ

  Efficient Robust Feature Selection via Joint L2,1-Norms Minimization ◦  Bio Informaticsでの機械学習のFeature Selection ◦  L1,2-normのSVMで必要となるFeatureを選び、計算量を減らすのが目的

Download - nips勉強会_Toward Property-Based Classification of Clustering Paradigms

Top Related