林琛 博士 , 副 教授

23
聚聚 聚聚 聚聚 聚聚聚

Upload: edalene-meighan

Post on 02-Jan-2016

127 views

Category:

Documents


0 download

DESCRIPTION

聚类. 林琛 博士 , 副 教授. 本讲要点. 聚类概念 聚类方法 划分法: k-means 层次聚类 基于密度的方法: DBScan 聚类的效果评估. 什么是聚类分析. 把对象分成若干个簇 同簇内的对象彼此相似 不同簇内的对象彼此相异 聚类的作用 独立应用 论文作者消歧 可视化 展现微博区域 预处理. 聚类分析的几种方法. 划分方法 将数据对象分为几组 每 组至少包含一个对象 每个 对象属于一组 层次 方法 凝聚:自底向上 分裂:自顶向下 基于密度 的方法 根据邻域中的对象数量聚类. 聚类分析的一般准备. 向量化. - PowerPoint PPT Presentation

TRANSCRIPT

聚类

林琛博士,副教授

本讲要点• 聚类概念• 聚类方法– 划分法: k-means– 层次聚类– 基于密度的方法: DBScan

• 聚类的效果评估

什么是聚类分析• 把对象分成若干个簇– 同簇内的对象彼此相似– 不同簇内的对象彼此相异

• 聚类的作用– 独立应用• 论文作者消歧

– 可视化• 展现微博区域

– 预处理

聚类分析的几种方法• 划分方法– 将数据对象分为几组– 每组至少包含一个对象– 每个对象属于一组

• 层次方法– 凝聚:自底向上– 分裂:自顶向下

• 基于密度的方法– 根据邻域中的对象数量聚类

聚类分析的一般准备属性 颜色 长宽比1 255106106 1.2

2 25511486 1.0

3 255239219 0.5

1 2 3

1 0

2 0

3 0

向量化 相异度矩阵

相似度 / 相异度( Lecture 5 )• 明氏距离 Minkowski Distance– 曼哈顿距离(城市街区距离): p=1– 欧式距离 :p=2

• 余弦相似度 Cosine Similarity

• 皮尔逊积矩相关系数 Pearson Correlation

• 杰卡德相似度 Jaccard Similarity

• 编辑距离 Edit Distance

K-means 方法将每个对象指派到最相似的簇

更新簇中心(均值)

更新簇中心

重新指派对象1. 任意选择 k 个对象作为簇中心

重复

簇中心均值: k-means中位数: k-median不连续 -> 众数: k-mode

停止条件• 我们希望,同一个簇中的对象是相近的,而不同

簇中对象是相异的

• 准则带来问题– 局部最优– 球状簇– 离群点

• 算法带来问题– 依赖于初始点选择

K-means 问题( 1 )较好的初始点 不好的初始点局部最优

K-means 问题( 2 )• 球状簇

• 离群点(噪声)

层次聚类

• 使用相异度矩阵• 自顶向下或自底向上

Step 0 Step 1 Step 2 Step 3 Step 4

b

d

c

e

a a b

d e

c d e

a b c d e

Step 4 Step 3 Step 2 Step 1 Step 0

agglomerative(AGNES)

divisive(DIANA)

类间距离• 单链接 Single link: 最小距离 dist(Ki, Kj) = min(tip, tjq)

• 全链接 Complete link: 最大距离 dist(Ki, Kj) = max(tip, tjq)

• 平均 Average: 平均距离 dist(Ki, Kj) = avg(tip, tjq)

• 质心 Centroid: 簇质心距离 dist(Ki, Kj) = dist(Ci, Cj)

• Medoid: dist(Ki, Kj) = dist(Mi, Mj)

– Medoid: 选择簇中的一个点,到簇内其他点的距离之和最小

X X

层次聚类问题• 扩展性– O(n2) , n 是数据对象数目

• 不可回溯– 已经聚类的数据对象不能重新计算

基于密度的聚类• 参数

– Eps :点 p 的半径 Eps 内范围成为 p 的 Eps- 邻域– MinPts :邻域内数据对象最小数目( p 为核心对象)

• 直接密度可达– 如果 p 在 q 的 Eps 邻域内,且 q 的 Eps 邻域内至少包含 MinPts

个对象,则 p 是 q 直接密度可达的• 密度可达

– 如果存在对象链 p1,p2,…pn,pi+1 是从 pi 直接密度可达的,则p1 是从 pn 出发密度可达的

• 密度相连– 如果 p 和 q 都是从 o 出发密度可达的,则 p 和 q 是密度相连的

密度可达和密度相连

p q

o

p

qp1

MinPts = 5

Eps = 1 cm

p

q

1. 请指出上图中 p 是从 q 出发直接密度可达的吗 ?2. 请指出右边两个图中直接密度可达、密度可达、

密度相连的点对

DBSCAN: Density-Based Spatial Clustering of Applications with Noise

• 算法– 检查每个点的 Eps 邻域

• 如果是核心对象,则建立新簇• 迭代的聚集直接密度可达的对象,合并密度可达簇

– 当不存在新点时,算法结束• 对参数敏感• 簇形状不限

Core

Border

Outlier

Eps = 1cm

MinPts = 5

DBSCAN: Sensitive to Parameters

17

聚类评估• 聚类评估的天然准则– 内部准则(聚类算法本身使用的准则)– 高簇内相似度,低簇间相似度– 一般评估意义不大

• 聚类评估的挑战– 主观性

– 由于聚类通常作为预处理 /后处理的一部分,和应用有关

水果聚类按种类:苹果 /梨子 /草莓按味道:甜 /酸 /多汁 / 干按大小:小 / 中 / 大按季节:春 /夏 /秋 /冬按产地:热带 /温带 /寒带按性质:热性 /凉性 /温性

命名实体消歧检索结果聚类

聚类评估方法• 直接评估– 大规模的 user study

• 几种典型的外部评估准则–纯度 Purity–归一化互信息量 Normalized mutual information–约当指数 Rand index– F-measure

聚类评估方法:纯度• 需要一个分类的基准 (benchmark)

1. 对于每一个簇,指定在簇内出现最多的类别为这个簇的类别

2. 计算上述指定的正确率,即正确分类的实例 /总数• 聚类效果好,纯度接近 1 ,否则接近 0

分类基准: x,o, ◇

课堂小 quiz :评估上图聚类结果的 purity

结果:Cluster1: x: 5/6Cluster2:o:4/6Cluster 3: :3/5◇取平均: 0.71

聚类评估方法:归一化互信息• 纯度缺点– 和聚类数目有关,每个实例一个簇,纯度 =1

• 引入互信息的概念

• 标准化互信息 NMI– 范围 [0,1] ,可以在不同聚类数目比较

互信息经常用于分类的特征选择,量化了特征对于类别的指示程度。简单的说互信息 I(x;y)就是 y 对于 x 的信息量增加I(X;Y)=H(x)-H(x|Y)

分类基准: x,o, ◇

课堂小 quiz :评估上图聚类结果的 NMI

p(x=1,y=“x”)=5/17, p(x=2,y=“x”)=1/17p(x=1)=6/17p(y=“x”)=8/17

聚类评估方法Rand 指数 &F-measure

• 聚类结果是一系列对实例对的决策• 其中每一个决策可以是– TP :把相似对放在了同一个簇里– TN :把不相似对放在了不同簇里– FP :把不相似对放在了同一个簇里– FN :把不相似对放在了不同簇里

• Rand index= (TP+TN)/(TN+TP+FP+FN)– 即精度

• F-measure考虑 TP 和 TN 的重要性是不同的– 通常把相似对分开在不同簇里是更糟糕的决策

β>1

例子分类基准: x,o, ◇

课堂小 quiz :评估上图聚类结果的 RI 和 F-measure

1, 计算聚类结果中决策总数(即实例对总数)C17

2=1362, 计算 TPCluseter 1 “x” C5

2 Cluseter 2 “o” C42 Cluseter 3 “x” C2

2 Cluseter 3 “ ” C◇ 32

=203, 计算 FPCluseter 1 C6

2 Cluseter 2 C62 Cluseter 3 C5

2

=40 – TP =204, 计算 TN136-40-FN=725, 计算 FN“x” 5x1+5x2+1x2=17 “o” 1x4=4 “ ” 1x3=3◇=246, 计算 RI7, 计算 F-measure (需给定 β )