聚类分析 cluster analysis

毛本清 2010.08.27

聚类分析聚类分析Cluster Analysis

毛本清 2010.08.27

内容提要内容提要

聚类分析简介聚类分析有关统计量分层聚类法步骤K 均值聚类法步骤两步聚类法步骤案例分析

毛本清 2010.08.27

聚类分析的定义

依据研究对象（样品或指标）的特征，对其进行分类的方法，减少研究对象的数目。

各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。

各指标之间具有一定的相关关系。聚类分析聚类分析 (cluster analysis)(cluster analysis) 是一组将研究对象分是一组将研究对象分

为相对同质的群组为相对同质的群组 (clusters)(clusters) 的统计分析技术。的统计分析技术。聚类分析也叫分类分析聚类分析也叫分类分析 (classification analysis)(classification analysis)或数值分类或数值分类 (numerical taxonomy)(numerical taxonomy)

变量类型：定类变量、定量（离散和连续）变量

毛本清 2010.08.27

聚类方法聚类方法

层次聚类（ Hierarchical Clustering ）合并法分解法树状图

非层次聚类 K 均值聚类法（ K-means Clustering ）

智能聚类法

毛本清 2010.08.27

聚类分析的有关统计量

聚合过程表聚合过程表群重心群重心群中心群中心群间距离群间距离

毛本清 2010.08.27

分层聚类分析的步骤

定义问题与选择分类变量定义问题与选择分类变量聚类方法聚类方法确定群组数目确定群组数目聚类结果评估聚类结果评估结果的描述、解释结果的描述、解释

毛本清 2010.08.27

K-means Cluster( 快速样品聚类 ) 过程

属于非层次聚类法的一种方法原理

选择（或人为指定）某些记录作为凝聚点按就近原则将其余记录向凝聚点凝集计算出各个初始分类的中心位置（均值）用计算出的中心位置重新进行聚类如此反复循环，直到凝聚点位置收敛为止

毛本清 2010.08.27

K-means Cluster 过程

方法特点要求已知类别数可人为指定初始位置节省运算时间样本量大于 100 时有必要考虑只能使用连续性变量

毛本清 2010.08.27

K 均值聚类法分析步骤

定义问题定义问题确定群组数目确定群组数目结果的描述、解释结果的描述、解释

毛本清 2010.08.27

TwoStep Cluster 过程特点：

处理对象：分类变量和连续变量自动决定最佳分类数快速处理大数据集

前提假设：变量间彼此独立分类变量服从多项分布，连续变量服从正态分布模型稳健

算法原理：第一步：逐个扫描样本，每个样本依据其与已扫描过的样本的距离，被

归为以前的类，或生成一个新类第二步，对第一步中各类依据类间距离进行合并，按一定的标准，停止

合并

毛本清 2010.08.27

判别分析判别分析 Discriminant AnalysisDiscriminant Analysis

介绍：判别分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法，广泛地应用于自然科学、社会科学、工农业生产的各个领域。

毛本清 2010.08.27

判别分析判别分析 DADA

概述DA 模型DA 有关的统计量两组 DA案例分析

毛本清 2010.08.27

判别分析判别分析

判别分析是根据表明事物特点的变量值和它们所属的类，求出判别函数。根据判别函数对未知所属类别的事物进行分类的一种分析方法。核心是考察类别之间的差异。

毛本清 2010.08.27

不同：判别分析和聚类分析不同的在于判别分析要求已知一系列反映事物特征的数值变量的值，并且已知各个体的分类。

DA 适用于定类变量（因）、任意变量（自）两类：一个判别函数；多组：一个以上判别函数

判别分析判别分析

毛本清 2010.08.27

DADA 目的目的建立判别函数检查不同组之间在有关预测变量方面是否有显著差异

决定哪个预测变量对组间差异的贡献最大根据预测变量对个体进行分类

毛本清 2010.08.27

二、判别分析模型二、判别分析模型

要先建立判别函数 Y=a1x1+a2x2+...anxn，其中 :Y为判别分数 (判别值 )， x1 x2...

xn为反映研究对象特征的变量， a1 a2...an为系数

毛本清 2010.08.27

三、有关统计量三、有关统计量

判别系数判别系数标准化判别系数标准化判别系数结构相关系数结构相关系数

毛本清 2010.08.27

三、有关统计量三、有关统计量典型相关系数典型相关系数特征值特征值 Wilk's Wilk's (0, 1) = SSw/SSt for X(0, 1) = SSw/SSt for X 组重心组重心分类矩阵分类矩阵

毛本清 2010.08.27

四、两组判别四、两组判别

定义问题估计 DA 函数系数确定 DA 函数的显著性解释结果评估有效性

毛本清 2010.08.27

定义问题定义问题判别分析的第一步第二步就是将样本分为：

分析样本验证样本

毛本清 2010.08.27

估算判别函数系数估算判别函数系数

直接法（ direct method ）就是同时用所有的预测变量估计判别函数，此时每个自变量都包括在内，而不考虑其判别能力。这种方法适用于前期研究或理论模型显示应包括哪些自变量的情况。

逐步判别分析（ stepwise discriminant analysis ），预测变量依据其对组别的判别能力被逐步引入。

毛本清 2010.08.27

确定显著性确定显著性

零假设：总体中各组所有判别函数的均值相等。

特征值典型相关系数Wilk‘s Wilk‘s (0, 1) (0, 1) 转换成卡方值检验转换成卡方值检验见见 travel.spo

毛本清 2010.08.27

解释结果解释结果

系数的系数的符号符号无关紧要，但能够表示每个变量对判无关紧要，但能够表示每个变量对判别函数值的影响，以及与特定组的联系。别函数值的影响，以及与特定组的联系。

我们可以通过我们可以通过标准化判别函数系数标准化判别函数系数的绝对值初步的绝对值初步判断变量的相对重要性。判断变量的相对重要性。

通过考察通过考察结构相关系数结构相关系数，也可以对预测变量的相，也可以对预测变量的相对重要性进行判断。对重要性进行判断。

组重心组重心

毛本清 2010.08.27

评估判别分析的有效性评估判别分析的有效性根据分析样本估计出的判别权数，乘以保留样本

中的预测变量值，就得出保留样本中每个样本的判别分。

可以根据判别分及适当的规则划分为不同的组别。

命中率（ hit ratio ）或称样本正确分类概率，就是分类矩阵对角线元素之和与总样本数的比例。

比较样本正确分类百分比与随机正确分类百分比。

毛本清 2010.08.27

因子分析因子分析Factor Analysis

毛本清 2010.08.27

因子分析因子分析

因子分析模型因子分析有关统计量因子分析步骤案例分析

毛本清 2010.08.27

一、因子分析模型（一、因子分析模型（ FAFA ））

基本思想因子分析模型

毛本清 2010.08.27

FAFA 的基本思想的基本思想

“因子分析”于 1931年由Thurstone提出，概念起源于 Pearson和 Spearmen的统计分析

FA用少数几个因子来描述多个变量之间的关系，相关性较高的变量归于同一个因子；

FA利用潜在变量或本质因子（基本特征）去解释可观测变量

毛本清 2010.08.27

FAFA 模型模型

X1=a11F1+a12F2+ …+a1pFp+v1

X2=a21F1+a22F2+ …+a2pFp+v2 X＝ AF+V

Xi=ai1F1+ai2F2+ …+aipFp+vi

Xm=ap1F1+ap2F2+ …+ampFm+vm

Xi — 第i个标准化变量 aip — 第i个变量对第p个公因子的标准回归系数F — 公因子Vi — 特殊因子

毛本清 2010.08.27

公因子模型公因子模型

F1=W11X1+W12X2+ …+W1mXm

F2=W21X1+W22X2+ …+W2mXm

Fi=Wi1X1+Wi2X2+ …+WimXm

Fp=Wp1X1+Wp2X2+ …+WpmXm

Wi — 权重，因子得分系数 Fi — 第 i个因子的估计值（因子得分）

毛本清 2010.08.27

二、有关统计量二、有关统计量

Bartlett氏球体检验 :各变量之间彼此独立 KMO值： FA合适性因子负荷：相关系数因子负荷矩阵公因子方差（共同度）特征值方差百分比（方差贡献率）累计方差贡献率因子负荷图碎石图

毛本清 2010.08.27

三、三、 FAFA 步骤步骤

定义问题检验 FA 方法的适用性确定因子分析方法因子旋转解释因子计算因子得分

毛本清 2010.08.27

注意事项注意事项样本量不能太小变量相关性公因子有实际意义

聚类分析 cluster analysis

Documents