聚类分析 cluster analysis

33
毛毛毛 2010.08.27 聚聚聚聚 聚聚聚聚 Cluster Analysis

Upload: yardley-shannon

Post on 02-Jan-2016

84 views

Category:

Documents


11 download

DESCRIPTION

聚类分析 Cluster Analysis. 内容提要. 聚类分析简介 聚类分析有关统计量 分层聚类法步骤 K 均值聚类法步骤 两步聚类法步骤 案例分析. 聚类分析的定义. 依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。 各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。 各指标之间具有一定的相关关系。 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 聚类分析 Cluster Analysis

毛本清 2010.08.27

聚类分析聚类分析Cluster Analysis

Page 2: 聚类分析 Cluster Analysis

毛本清 2010.08.27

内容提要内容提要

聚类分析简介聚类分析有关统计量分层聚类法步骤K 均值聚类法步骤两步聚类法步骤案例分析

Page 3: 聚类分析 Cluster Analysis

毛本清 2010.08.27

聚类分析的定义

依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。

各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。

各指标之间具有一定的相关关系。 聚类分析聚类分析 (cluster analysis)(cluster analysis) 是一组将研究对象分是一组将研究对象分

为相对同质的群组为相对同质的群组 (clusters)(clusters) 的统计分析技术。 的统计分析技术。 聚类分析也叫分类分析聚类分析也叫分类分析 (classification analysis)(classification analysis)或数值分类或数值分类 (numerical taxonomy)(numerical taxonomy)

变量类型:定类变量、定量(离散和连续)变量

Page 4: 聚类分析 Cluster Analysis

毛本清 2010.08.27

聚类方法聚类方法

层次聚类( Hierarchical Clustering ) 合并法 分解法 树状图

非层次聚类 K 均值聚类法( K-means Clustering )

智能聚类法

Page 5: 聚类分析 Cluster Analysis

毛本清 2010.08.27

聚类分析的有关统计量

聚合过程表聚合过程表群重心群重心群中心群中心群间距离群间距离

Page 6: 聚类分析 Cluster Analysis

毛本清 2010.08.27

分层聚类分析的步骤

定义问题与选择分类变量定义问题与选择分类变量 聚类方法聚类方法确定群组数目确定群组数目聚类结果评估聚类结果评估结果的描述、解释结果的描述、解释

Page 7: 聚类分析 Cluster Analysis

毛本清 2010.08.27

K-means Cluster( 快速样品聚类 ) 过程

属于非层次聚类法的一种 方法原理

选择(或人为指定)某些记录作为凝聚点 按就近原则将其余记录向凝聚点凝集 计算出各个初始分类的中心位置(均值) 用计算出的中心位置重新进行聚类 如此反复循环,直到凝聚点位置收敛为止

Page 8: 聚类分析 Cluster Analysis

毛本清 2010.08.27

K-means Cluster 过程

方法特点 要求已知类别数 可人为指定初始位置 节省运算时间 样本量大于 100 时有必要考虑 只能使用连续性变量

Page 9: 聚类分析 Cluster Analysis

毛本清 2010.08.27

K 均值聚类法分析步骤

定义问题定义问题确定群组数目确定群组数目结果的描述、解释结果的描述、解释

Page 10: 聚类分析 Cluster Analysis

毛本清 2010.08.27

TwoStep Cluster 过程 特点:

处理对象:分类变量和连续变量 自动决定最佳分类数 快速处理大数据集

前提假设: 变量间彼此独立 分类变量服从多项分布,连续变量服从正态分布 模型稳健

算法原理: 第一步:逐个扫描样本,每个样本依据其与已扫描过的样本的距离,被

归为以前的类,或生成一个新类 第二步,对第一步中各类依据类间距离进行合并,按一定的标准,停止

合并

Page 11: 聚类分析 Cluster Analysis

毛本清 2010.08.27

判别分析 判别分析 Discriminant AnalysisDiscriminant Analysis

介绍: 判别分析 分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。

Page 12: 聚类分析 Cluster Analysis

毛本清 2010.08.27

判别分析判别分析 DADA

概述DA 模型DA 有关的统计量两组 DA案例分析

Page 13: 聚类分析 Cluster Analysis

毛本清 2010.08.27

判别分析判别分析

判别分析是根据表明事物特点的变量值和它们所属的类,求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。核心是考察类别之间的差异。

Page 14: 聚类分析 Cluster Analysis

毛本清 2010.08.27

不同:判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值,并且已知各个体的分类。

DA 适用于定类变量(因)、任意变量(自)两类:一个判别函数;多组:一个以上判别函数

判别分析判别分析

Page 15: 聚类分析 Cluster Analysis

毛本清 2010.08.27

DADA 目的目的 建立判别函数 检查不同组之间在有关预测变量方面是否有显著差异

决定哪个预测变量对组间差异的贡献最大 根据预测变量对个体进行分类

Page 16: 聚类分析 Cluster Analysis

毛本清 2010.08.27

二、判别分析模型二、判别分析模型

要先建立判别函数 Y=a1x1+a2x2+...anxn,其中 :Y为判别分数 (判别值 ), x1 x2...

xn为反映研究对象特征的变量, a1 a2...an为系数

Page 17: 聚类分析 Cluster Analysis

毛本清 2010.08.27

三、有关统计量三、有关统计量

判别系数判别系数 标准化判别系数标准化判别系数 结构相关系数结构相关系数

Page 18: 聚类分析 Cluster Analysis

毛本清 2010.08.27

三、有关统计量三、有关统计量 典型相关系数典型相关系数 特征值特征值 Wilk's Wilk's (0, 1) = SSw/SSt for X(0, 1) = SSw/SSt for X 组重心组重心 分类矩阵分类矩阵

Page 19: 聚类分析 Cluster Analysis

毛本清 2010.08.27

四、两组判别四、两组判别

定义问题估计 DA 函数系数确定 DA 函数的显著性解释结果评估有效性

Page 20: 聚类分析 Cluster Analysis

毛本清 2010.08.27

定义问题定义问题判别分析的第一步第二步就是将样本分为:

分析样本 验证样本

Page 21: 聚类分析 Cluster Analysis

毛本清 2010.08.27

估算判别函数系数 估算判别函数系数

直接法( direct method )就是同时用所有的预测变量估计判别函数,此时每个自变量都包括在内,而不考虑其判别能力。这种方法适用于前期研究或理论模型显示应包括哪些自变量的情况。

逐步判别分析( stepwise discriminant analysis ),预测变量依据其对组别的判别能力被逐步引入。

Page 22: 聚类分析 Cluster Analysis

毛本清 2010.08.27

确定显著性确定显著性

零假设:总体中各组所有判别函数的均值相等。

特征值典型相关系数Wilk‘s Wilk‘s (0, 1) (0, 1) 转换成卡方值检验转换成卡方值检验见见 travel.spo

Page 23: 聚类分析 Cluster Analysis

毛本清 2010.08.27

解释结果解释结果

系数的系数的符号符号无关紧要,但能够表示每个变量对判无关紧要,但能够表示每个变量对判别函数值的影响,以及与特定组的联系。 别函数值的影响,以及与特定组的联系。

我们可以通过我们可以通过标准化判别函数系数标准化判别函数系数的绝对值初步的绝对值初步判断变量的相对重要性。 判断变量的相对重要性。

通过考察通过考察结构相关系数结构相关系数,也可以对预测变量的相,也可以对预测变量的相对重要性进行判断。对重要性进行判断。

组重心组重心

Page 24: 聚类分析 Cluster Analysis

毛本清 2010.08.27

评估判别分析的有效性 评估判别分析的有效性 根据分析样本估计出的判别权数,乘以保留样本

中的预测变量值,就得出保留样本中每个样本的判别分。

可以根据判别分及适当的规则划分为不同的组别。

命中率( hit ratio )或称样本正确分类概率,就是分类矩阵对角线元素之和与总样本数的比例。

比较样本正确分类百分比与随机正确分类百分比。

Page 25: 聚类分析 Cluster Analysis

毛本清 2010.08.27

因子分析因子分析Factor Analysis

Page 26: 聚类分析 Cluster Analysis

毛本清 2010.08.27

因子分析因子分析

因子分析模型因子分析有关统计量因子分析步骤案例分析

Page 27: 聚类分析 Cluster Analysis

毛本清 2010.08.27

一、因子分析模型(一、因子分析模型( FAFA ))

基本思想因子分析模型

Page 28: 聚类分析 Cluster Analysis

毛本清 2010.08.27

FAFA 的基本思想的基本思想

“因子分析”于 1931年由Thurstone提出,概念起源于 Pearson和 Spearmen的统计分析

FA用少数几个因子来描述多个变量之间的关系,相关性较高的变量归于同一个因子;

FA利用潜在变量或本质因子(基本特征)去解释可观测变量

Page 29: 聚类分析 Cluster Analysis

毛本清 2010.08.27

FAFA 模型模型

X1=a11F1+a12F2+ …+a1pFp+v1

X2=a21F1+a22F2+ …+a2pFp+v2 X= AF+V

Xi=ai1F1+ai2F2+ …+aipFp+vi

Xm=ap1F1+ap2F2+ …+ampFm+vm

Xi — 第i个标准化变量 aip — 第i个变量对第p个公因子的标准回归系数F — 公因子Vi — 特殊因子

Page 30: 聚类分析 Cluster Analysis

毛本清 2010.08.27

公因子模型公因子模型

F1=W11X1+W12X2+ …+W1mXm

F2=W21X1+W22X2+ …+W2mXm

Fi=Wi1X1+Wi2X2+ …+WimXm

Fp=Wp1X1+Wp2X2+ …+WpmXm

Wi — 权重,因子得分系数 Fi — 第 i个因子的估计值(因子得分)

Page 31: 聚类分析 Cluster Analysis

毛本清 2010.08.27

二、有关统计量二、有关统计量

Bartlett氏球体检验 :各变量之间彼此独立 KMO值: FA合适性因子负荷:相关系数因子负荷矩阵公因子方差(共同度) 特征值 方差百分比(方差贡献率)累计方差贡献率因子负荷图碎石图

Page 32: 聚类分析 Cluster Analysis

毛本清 2010.08.27

三、三、 FAFA 步骤步骤

定义问题检验 FA 方法的适用性确定因子分析方法因子旋转解释因子计算因子得分

Page 33: 聚类分析 Cluster Analysis

毛本清 2010.08.27

注意事项注意事项样本量不能太小变量相关性公因子有实际意义