@tksakaki 榊 剛史
#nipsreading
東京大学 松尾研究室 博士課程1年
株式会社 ホットリンク 特任研究員
Twitter上で、よく教授と間違われます。 ◦ 海外でも間違えられてた・・・・
本論文の目的 Properties of Clustering Functions A taxonomy of k-clustering fucntions その他の拡張 結論
本論文の目的 Properties of Clustering Functions A taxonomy of k-clustering fucntions その他の拡張 結論
Clustering:データマイニングにおいて、基本的な手法 ↓
・多数のClustering手法が存在+手法によって、結果が大きく異なる ・手法の選び方はAd-hocである
○Clustering手法を選択をサポートするためのツール開発のための第一ステップ ○既存Clustering手法のpropertyを定義し分類する
現状の問題点
本論文の目的
Clusteringは経験的に提案されている手法が多いため、統一の基準で評価するのは有用っぽい
上記のような研究はあまり他で見たことがない
個人的に、clusteringへの興味が大きい
A Impossibility Theorem for Clustering ◦ Jon Kleinberg, NIPS 2002
Measures of Clustering Quality: A Working Set of Axioms for Clustering ◦ M.Ackerman and S.Ben-David, NIPS 2008
Characterization of Linkage-based Clustering. ◦ M.Ackerman and S.Ben-David, COLT 2010
€
d : X × X →R+,d x,x( ) = 0 ∀x ∈ X( )X:有限領域 全てのデータ点集合
距離関数
データセット:
€
X,d( )
€
C = F X,d,k( )
C1,C2,Ck{ } Cii = X,1≤ k ≤ X⎛
⎝ ⎜
⎞
⎠ ⎟
clustering結果
clustering関数:
€
F X,d,k( )
Input: Output:
Input: Output:
€
F X,d( )
€
C = C1,C2,Ck{ } Cii = X,1≤ k ≤ X⎛
⎝ ⎜
⎞
⎠ ⎟
€
F X,d,k( ), 1≤ k ≤ X( )
€
C = C1,C2,Ck{ } Cii = X,1≤ k ≤ X⎛
⎝ ⎜
⎞
⎠ ⎟
general clustering function F
k-clustering function F
本論文の目的 Properties of Clustering Functions A taxonomy of k-clustering fucntions その他の拡張 結論
不 変 性
iso. invariance 同型写像
scale invariance スケーリングしても不変
order invariance 距離順序が一定なら不変 一 貫 性
outer consistency cluster間距離を伸ばしても不変 inner consistency cluster内距離を縮めても不変
richn
ess
k-rich 距離関数を決めれば、k個の任意の分割可能 inner rich データセット内距離を決めれば、(同上)
outer rich データセット間距離を決めれば、(同上)
threshold rich 距離関数の閾値を決めれば、(同上)
locality clustering集合内要素のみに依存 refinement-confined kが多い方が、clustering結果が良い
入力が同型写像の時、出力されるclusteringも同型
€
φ : X → ʹ′ X x,y ∈ X,d x,y( ) = ʹ′ d φ(x),φ(y)( )F X,d,k( ),F ʹ′ X , ʹ′ d ,k( ) : isomorphic(∀k)
€
x,y : same→φ(x),φ(y) : same
均等なスケーリングを行ったとき、clusteringが不変
均等なスケーリングを行ったとき、clusteringが不変
€
x,y ∈ X,d x,y( ) = c ʹ′ d x,y( )→F X,d,k( ) = F ʹ′ X , ʹ′ d ,k( )
2点間距離の順序が不変の時、clusteringが不変
€
x1,x2,x3,x4 ∈ X,
d x1,x2( ) < d x3,x4( ), ʹ′ d x1,x2( ) < ʹ′ d x3,x4( )→F X,d,k( ) = F ʹ′ X , ʹ′ d ,k( )
2点間距離の順序が不変の時、clusteringが不変
0 1 4 9 10 12 15 19 20
最短距離法(Single-linkage clustering)
clusteringが、そのcluster集合に含まれる要素のみに依存 他のclusterの要素には依存しない
C’
clusteringが、そのcluster集合に含まれる要素のみに依存 他のclusterの要素には依存しない
€
C = F(X,d,k),
€
ʹ′ C ⊆ CF( ʹ′ C ,d,| ʹ′ C |)= ʹ′ C
cluster内距離を縮めた時、 またはcluster間距離を伸ばしたとき、clusteringは不変 同一cluster内が密で、複数cluster間が疎であることを表す
d(x,y)
d(x,y) d’(x,y)
d’(x,y)
cluster内距離を縮めた時、 またはcluster間距離を伸ばしたとき、clusteringは不変 同一cluster内が密で、複数cluster間が疎であることを表す
€
ʹ′ d : C,d( ) − consistent
€
x,y : same → ʹ′ d x,y( ) ≤ d x,y( )x,y : different → ʹ′ d x,y( ) ≥ d x,y( )
cluster間距離を伸ばしたとき、clusteringは不変 複数cluster間が疎であることを表す
d(x,y)
d’(x,y)
cluster間距離を伸ばしたとき、clusteringは不変 複数cluster間が疎であることを表す
€
ʹ′ d : C,d( ) − outerconsistent
€
x,y : same → ʹ′ d x,y( ) = d x,y( )x,y : different → ʹ′ d x,y( ) ≥ d x,y( )
cluster内距離を縮めたとき、clusteringは不変 同一cluster内が密であることを表す
d(x,y)
d’(x,y)
cluster内距離を縮めたとき、clusteringは不変 同一cluster内が密であることを表す
€
ʹ′ d : C,d( ) − innterconsistent
€
x,y : same → ʹ′ d x,y( ) ≤ d x,y( )x,y : different → ʹ′ d x,y( ) = d x,y( )
距離関数を適切に定義することで任意のclustering可能
€
any : X1,X2Xk
ʹ′ X = X1,X2Xk{ }→∃d :F ʹ′ X ,d,k( ) = X1,X2Xk{ }
以下により任意のclustering可能 データセット間の距離:定義する データセット内の距離:定義不要
※各データセット間が十分疎で、データセット間の距離はclusteringに影響しない
€
any : (X1,d1),(X2,d2)(Xk,dk )
→∃ ˆ d : F Xii=1
k
, ˆ d ,k⎛
⎝ ⎜
⎞
⎠ ⎟ = X1,X2Xk{ }
ˆ d : entends − di(i ≤ k)
以下により任意のclustering可能 データセット間の距離:定義不要 データセット内の距離:定義する
※各データセット内が十分密で、データセット間の距離はclusteringに影響しない
€
X,d( ),X = X1,X2Xk{ }→∃ ˆ d : d a,b( ) = ˆ d a,b( ) a∈ Xi,b∈ X j ,i ≠ j( )
F Xii=1
k
, ˆ d ,k⎛
⎝ ⎜
⎞
⎠ ⎟ = X1,X2Xk{ }
距離関数に閾値を設定することで任意のclustering可能
€
∃a < bx,y : same→d(x,y) ≤ a,x,y : different →d(x,y) ≥ b
F X,d,C( ) = C
k≦k’のとき、F(X,d,k’)はF(X,d,k)の改良 クラスタ数が多い状態は少ない状態のrefinementである
€
1≤ k ≤ ʹ′ k ≤ X ,
O F X,d,k'( )( ) ≥O F X,d,k( )( )
k≦k’のとき、F(X,d,k’)はF(X,d,k)の改良 クラスタ数が多い状態は少ない状態のrefinementである
不 変 性
iso. invariance 同型写像
scale invariance スケーリングしても不変
order invariance 距離順序が一定なら不変 一 貫 性
outer consistency cluster間距離を伸ばしても不変 inner consistency cluster内距離を縮めても不変
richn
ess
k-rich 距離関数を決めれば、k個の任意の分割可能 inner rich データセット内距離を決めれば、(同上)
outer rich データセット間距離を決めれば、(同上)
threshold rich 距離関数の閾値を決めれば、(同上)
locality clustering集合内要素のみに依存 refinement-confined kが多い方が、clustering結果が良い
Clusteringの不可能性理論(Kleinberg) 以下の3つの公理を同時に満たす
clustering関数は存在しない (証明略)
・Scale-Invariance ・Richness ・Consistency
single linkage clusteringでは、各公理2つずつの組み合わせにおいて、stop conditionが存在する(らしい)
Consistency + Richness: only link if distance is less than r ◦ クラスタ間・クラスタ内の距離関数を変えてもclustering結果一定・距離関数を決めると任意のclusterに分割
Consistency + SI: stop when you have k connected components ◦ クラスタ間・クラスタ内の距離関数を変えてもclustering結果一定/距離関数をスケーリングしてもclustering結果一定
Richness + SI: if x is the diameter of the graph, only add edges with weight βx ◦ 距離関数を決めると任意のclusterに分割/距離関数をスケーリングしてもclustering結果一定
本論文の目的 Properties of Clustering Functions A taxonomy of k-clustering fucntions その他の拡張 結論
oute
r con
sist
ent
inne
r con
sist
ent
loca
l
refin
emen
t
orde
r inv
aria
nt
k-ric
h
out r
ich
inne
r ric
h
thre
shol
d ric
h
scal
e in
varia
nt
iso.
inva
riant
Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○
Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○
k-median ○ × ○ × × ○ ○ ○ ○ ○ ○
k-means ○ × ○ × × ○ ○ ○ ○ ○ ○
Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○
Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○
Nomalize cut × × × × × ○ ○ ○ ○ ○ ○
oute
r con
sist
ent
inne
r con
sist
ent
loca
l
refin
emen
t
orde
r inv
aria
nt
k-ric
h
out r
ich
inne
r ric
h
thre
shol
d ric
h
scal
e in
varia
nt
iso.
inva
riant
Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○
Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○
k-median ○ × ○ × × ○ ○ ○ ○ ○ ○
k-means ○ × ○ × × ○ ○ ○ ○ ○ ○
Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○
Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○
Nomalize cut × × × × × ○ ○ ○ ○ ○ ○
oute
r con
sist
ent
inne
r con
sist
ent
loca
l
refin
emen
t
orde
r inv
aria
nt
k-ric
h
out r
ich
inne
r ric
h
thre
shol
d ric
h
scal
e in
varia
nt
iso.
inva
riant
Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○
Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○
k-median ○ × ○ × × ○ ○ ○ ○ ○ ○
k-means ○ × ○ × × ○ ○ ○ ○ ○ ○
Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○
Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○
Nomalize cut × × × × × ○ ○ ○ ○ ○ ○
oute
r con
sist
ent
inne
r con
sist
ent
loca
l
refin
emen
t
orde
r inv
aria
nt
k-ric
h
out r
ich
inne
r ric
h
thre
shol
d ric
h
scal
e in
varia
nt
iso.
inva
riant
Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○
Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○
k-median ○ × ○ × × ○ ○ ○ ○ ○ ○
k-means ○ × ○ × × ○ ○ ○ ○ ○ ○
Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○
Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○
Nomalize cut × × × × × ○ ○ ○ ○ ○ ○
oute
r con
sist
ent
inne
r con
sist
ent
loca
l
refin
emen
t
orde
r inv
aria
nt
k-ric
h
out r
ich
inne
r ric
h
thre
shol
d ric
h
scal
e in
varia
nt
iso.
inva
riant
Singe Linkage ○ ○ ○ ○ ○ ○ ○ ○ ○ ○ ○
Average Linkage ○ × ○ ○ × ○ ○ ○ ○ ○ ○
Complete Linkage ○ × ○ ○ ○ ○ ○ ○ ○ ○ ○
k-median ○ × ○ × × ○ ○ ○ ○ ○ ○
k-means ○ × ○ × × ○ ○ ○ ○ ○ ○
Min sum ○ ○ ○ × × ○ ○ ○ ○ ○ ○
Ratio cut × ○ × × × ○ ○ ○ ○ ○ ○
Nomalize cut × × × × × ○ ○ ○ ○ ○ ○
以下の3つが、clustering指標としてふさわしいのではないか? scale invariance : natural isomorphism variance :natural threshold richness :近いデータ点は同じグループ/遠いデータ点は違うグループ =clusteringの主目的に合致する
本論文の目的 Properties of Clustering Functions A taxonomy of k-clustering fucntions その他の拡張 結論
Invariance properties Consistency properties
Richness properties
Locality €
(C,d) − nicevar iant
P F X, ʹ′ d ,C( ) = C[ ] ≥ P F X,d,C( ) = C[ ]
€
∀ε > 0
∃d :P F X,d,k( ) = C( ) ≥1−ε
€
P F ʹ′ X ,d / ʹ′ X , ʹ′ C ( ) = ʹ′ C [ ]
=P ʹ′ C ⊆ C F X,d, j( ) = CandC / ʹ′ X isak − clustering[ ]
P ∃C1,C2Cks.t.Ci = ʹ′ X F X,d, j( ) = C[ ] ≠ 0
代表的なk-meansアルゴリズム
代表的なk-meansアルゴリズム
出力結果が初期段階に強く依存
初期クラスター中心の選び方
ランダムに選択
最も離れた中心群を選択
€
maximizemin1≤ j≤i−1 d c j ,ci( )
Random Centroids Lloyd
Furthest Centroids Lloyd
どちらがより良い手法であるかを評価
Clustering Algorithm
oute
r con
sist
ent
loca
l
thre
shol
d ric
h
scal
e in
varia
nt
iso.
inva
riant
k-ric
h
oute
r ric
h
Optimal k-means ○ ○ ○ ○ ○ ○ ○ Random Centroid Lloyd × × × ○ ○ ○ ○ Furthest Centroid Lloyd × × ○ ○ ○ ○ ○
Clustering Algorithm
oute
r con
sist
ent
loca
l
thre
shol
d ric
h
scal
e in
varia
nt
iso.
inva
riant
k-ric
h
oute
r ric
h
Optimal k-means ○ ○ ○ ○ ○ ○ ○ Random Centroid Lloyd × × × ○ ○ ○ ○ Furthest Centroid Lloyd × × ○ ○ ○ ○ ○
threshold richnessを満たしているため、Furthest Centroid Lloydの方がRandom Centroid Lloydより優れている
Kleinbergの不可能性理論
以下の3つを同時に満たすclustering関数は存在しない
・Scale-Invariance ・Richness ・Consistency
本論文での不可能性理論
以下の3つを同時に満たすclustering関数は存在しない
・Scale-Invariance ・Richness
・Outer-Consistency
本論文の目的 Properties of Clustering Functions A taxonomy of k-clustering fucntions その他の拡張 結論
Clustering Functionのpropertyについて 整理・詳細化を行った
clustering axiomsとして、scale-invariance, isomorphism-invariance, threshold richnessを提案した
Kleinbergの不可能性理論について詳細化を行った
Supervised Clustering ◦ 2008年に提案された教師つきclusteringの拡張 ◦ 教師=実際にユーザーがclustering結果を見て、merge/
splitのクエリをどんどん投げていく感じ
Efficient Robust Feature Selection via Joint L2,1-Norms Minimization ◦ Bio Informaticsでの機械学習のFeature Selection ◦ L1,2-normのSVMで必要となるFeatureを選び、計算量を減らすのが目的