基于 canoco 的数据分析

基于基于 CANOCOCANOCO 的数据分析的数据分析

生态熊2010.6.25

Multivariate Analysis of Ecological Data using CANOCO

内容内容第一章排序基础第二章认识软件第三章操作示范第四章排序图解第五章经典实例第六章阅读推荐后记

群落学物种组成数据的分析方法通常有两种：梯度分析（排序）和分类方法（聚类、 TWINSPAN 等）。这里的梯度分析是广义的梯度分析，泛指任何以揭示物种组成数据与实测或潜在的环境因子之间关系的方法。

第一章梯度分析基础1 什么是梯度分析？

2 为什么排序？

当考察植物或动物群落沿着一系列环境条件下的变化情况，我们经常发现在不同条件的群落不仅物种组成变化很大，而且这些变化往往具有连续性和可预测性。通过排序分析，我们可以认识群落格局，也可以将排序轴跟我们已知的环境条件联系起来，看是否代表某一环境梯度。当然，也许我们必须用统计手段来检验排序轴到底是否真能代表环境因子的梯度。

3 专业术语生态学原始数据一般由两个部分构成，一组是响应变量 (response variable) ，另外一组是解释变量（ explanatory variables ）。

（ 1 ）解释变量：相当于自变量，又称预测变量，经常分为主环境变量和协环境变量。

（ 2 ）响应变量：相当于因变量，又称物种数据。

（ 3 ）梯度分析：即通常所说的排序分析，是揭示物种组成数据与实测或潜在环境因子之间关系的方法的总称。包括约束性排序和非约束性排序。

（ 4 ）约束性排序（直接排序）：在特定的梯度上（环境轴）上探讨物种的变化情况。例如： RDA ， CCA ， DCCA 等。

（ 5 ）非约束性排序（间接排序）：寻求潜在的或在间接的环境梯度来解释物种数据的变化。

（ 6 ）偏分析：预先剔除物种变化中由协变量产生的效应，再通过排序揭示剩下物种变化的排序方法。

（ 7 ）混合排序分析：前面若干轴采用约束排序，而剩下的轴是非约束性排序的梯度分析方法。

（ 8 ）非约束性排序方法主成分分析（ Principal components analysis, PCA ）对应分析（ Correspondence analysis, CA ）去趋势对应分析（ Detrended Correspondence analysis, DC

A ）主坐标分析（ Principal coordinates analysis, PCO ）（ 9 ）约束性排序冗余分析（ Redundancy analysis, RDA ）典范对应分析（ Canonical Correspondence analysis, CCA ）去趋势典范对应分析（ Detrended Canonical Correspondence

analysis, DCCA ）典型变量分析（ Canonical variate analysis, CVA, db-RDA ）（ 10 ）物种响应环境梯度模型

物种响应环境梯度模型

线性响应模型经常可以通过传统的方法（最小二乘法）回归拟合。

但对于单峰响应模型，估计物种在环境梯度上最适值最简单的方法就是通过基于所有包含该物种的 n个样方中环境因子值的加权平均得到。具体算法如下：

上式中， Envi 是第 i个样方的环境因子值， Abundi是物种在 i样方的多度。

4 4 排序类型排序类型

梯度分析

间接排序直接排序

RDA CCA PCA CA

DCCA DCA

梯度分析

直接排序

单峰模型线性模型

间接排序直接排序间接排序

RDA PCA CCA CA

DCCA DCA

第二章认识第二章认识 CANOCOCANOCO 软件软件CANOCO (CANonical Community Ordination)

能够洞察：（ 1 ）生物群落结构（ 2 ）生物群落与环境间的关系（ 3 ）生态学的假设检验（ 4 ）在生物群落中进行的复杂生态学和生

态毒理实验的相关处理所产生的影响

1 1 软件模块软件模块（ 1 ） CANOCO for Window 4.5

这个程序是 CANOCO 的核心。通过使用它，你可以指定要分析的数据和排序模型，选择分析的类型。 CANOCO for Window带有比较全面的排序方法。核心部分是基于线性模型的 PCA 和 RDA ，基于单峰的模型的 CA ， DCA 和 CCA 。在这些基本排序方法基础上， CANOCO 也可以做 CVA（典范变量分析）， PCoA （主坐标分析）。但NMDS并没有被包括，因为的确用得很少。

（（ 22 ）） WCanoImpWCanoImp 这个程序的功能构建数据。但这个程序用

法受到了 window 的剪贴板和电子表格文件的限制。比如在 Excel2003 以前的版本，列数仅有 256 列，这就意味着样方数或物种数不能两个同时超过 256 个，否则需要分割。当然行数宽松点，但不能超过 65536行。如果你的数据超过这个限制，你可以将你的数据分割为几个部分，经过 WCanoImp转化后，再用 CanoMerge程序拼接起来。

（ 3 ） CanoMerge 1) 首要的任务是连接两个或多个包含相同样方但

不同变量的数据文件。2) 可以用来将您的数据文件输出带制表符分隔的

ASCII （文本）文件。3) 最后一个功能是可以过滤掉一些低频率的物种。

（（ 44 ）） CanoDraw for Windows用来做排序图的程序。

2 2 分析流程分析流程

3 CANOCO3 CANOCO 中的排序方法中的排序方法（ 1 ）描述单个数据集结构的方法 --- 排

序 / 间接梯度分析。例如描述一个生物群落的结构或者环境变量间的相关结构。

（ 2 ）用一个数据集解释另一个数据集 --- 典范排序 / 直接梯度分析。例如使用环境数据解释或预测物种的多度。

（ 3 ）一个数据集被另一个数据集解释后，再被第三个数据解释 --- 偏典范排序。例如季节效应被校正后，使用环境数据解释或预测物种多度。

（ 4 ）描述一个被一个数据集解释后的数据集结构 --- 偏排序。例如描述季节效应校正后的群落结构。

4 CANOCO4 CANOCO 中的响应模型中的响应模型

（ 1 ）线性模型（ 2 ）单峰模型（ 3 ）去趋势的单峰模型

5 CANOCO5 CANOCO 的结果的结果（ 1 ）排序图和一些变异解释的数量描述。

（ 2 ）环境变量解释的变异量。（ 3 ）环境变量的显著性检验。（ 4 ）第一排序轴及总体排序轴的显著

性检验。

第三章操作示范1 重点与难点（ 1 ）决定排序的模型：单峰还是线性？（ 2 ） PCA 或 RDA 排序：中心化和标准化

（ 3 ） DCA 排序：除趋势对应分析（ 4 ）排序得分（坐标）的尺度比例

2 2 分类示范分类示范2.1 非限制性排序（只有物种数据）2.1.1 PCA(1) 排序尺度比例

这一步的目的是决定样方得分是如何尺度化？这一步操作的效应是样方和物种的得分范围相对于另一尺度而言，是扩大或者是缩小，对于特征值相似的轴，这一步的选择是不重要的。

对于名义环境变量定义的样方，样方尺度可以通过样方组间的距离解释样方组间的相似性。

对于数量型环境变量，物种尺度可以反映环境数据间的相关性。但是环境的效应大小最好通过样方尺度解释。

对于既有名义型环境变量又有数量型环境变量的数据，任何一种尺度都是合理的。

无论你选择何种尺度，排序图展示如下信息：物种的主要格局、物种和数量型环境变量间的关系以及对于名义型的环境变量，每个组中物种的平均值。

（ 1 ）在线性模型中，你需要决定物种的箭头所要表示的意义：物种的多度（多度大的箭头长）或者是要反映由物种多度转化的可比较尺度（所能解释的百分比）。

（ 2 ）如果你选择“ divided by the standard deviation”, 物种箭头表示在排序空间内展示的物种变化量的比例，是个相对值；如果你选择“ do not post-transform”, 物种箭头表示的是物种在排序空间内的多度变化量，是个绝对值。

（ 2 ）数据转化

（ 3 ）中心化与标准化

（ 1 ）基于线性模型的排序方法都涉及数据的中性化与标准化。

（ 2 ）样方的中心化是让每个样方的平均值为 0 ，物种中性化是让每个物种的平均值为 0 。

（ 3 ）样方（或物种）的标准化是让每行（或列）的范数等于 1 。在数值上，范数等于列或行内各值平方和的平方根。

（ 4 ）中心化和标准化不是必须都得进行。几乎基于线性模型的数据都需要中性化，但不一定标准化；如果都进行，中心化必须先进行；物种数据的量纲不同，物种数据必须标准化（样方数据可能不需要）。

（ 4 ）结果

2.1.2 DCA

(1) DCA 一般都用区间去趋势“ by segments ” ； DCCA 一般用多项式去趋势 “ by polynomials” 。

(2) 多项式去趋势阶数的选择标准：环境因子小于 10 个，选 2阶；小于 13 个，选 3阶，大于 13 个，选 4阶。

(3) 注意：对于约束排序，去趋势一般是不必要的。

2.2 2.2 限制性排序限制性排序2.2.1 相关知识 ---蒙特卡罗检验（ 1 ）主要作用是检验限制性排序模型

的显著性。（ 2 ）置换检验和传统检验的区别是，

前者利用自己产生的分不作为零假设的分布，后者利用现成已知的分布作为零假设的分布。

（（ 33 ）置换检验的原理）置换检验的原理

上式 nx 表示产生的置换数不低于随机置换分析的数量。N 代表总的置换数。

这的 λ1 代表第一轴的特征根，也代表第一轴所能解释的变化量。而 RSS 是残差平方和（ the residual sum of square ）缩写，代表不能被第一轴所能解释的物种变化量。 n是轴的数量， p代表主环境变量的数量， q代表协环境变量的个数。

2.2.2 CCA

在样方尺度中，样方得分是物种得分的加权平均，即出现在某个样方中的物种分布于该样方的周围；在物种尺度上，物种得分是样方得分的加权平均，即物种点在该物种生态位的中央。加权平均法的解释采用中心法则。

尺度的类型 (Hill's scaling Vs. biplot scaling)是解决这样的问题：除了使用中性法则，如何从物种 - 样方的排序图中推论物种数据？

如果你选择物种距离，排序图可以准确显示不同物种发生格局的相异性。如果是 biplot scaling ，相异性通过卡方距离度量；如果是 Hill's scaling ，相异性通过 the generalized Mahalanobis distance 度量。

“Hill's scaling” 适用于物种梯度较长的类型（距离法则）；“ biplot scaling” 适用于物种比较集中，梯度较短的类型。一般用后者即可，它能通过 biplot rule 为排序图提供一个更量化的解释。

第四章排序图的解读第四章排序图的解读一个物种与与样方的双序图，将以最佳的方

式要么展示物种间的关系或者样方间的关系，而不是两者都展示。两种排序的差异是简单的：一个排序图是另一种排序图的重新线性标度。当然，二者折中的尺度也是可能的（如下图）。

在样方关系图中，每个轴样方得分的变异反映了每个轴的重要性，通过特征值来度量，而每个轴的物种得分都是相等的（或者在 Hill's scaling ）。因此，第一轴的样方得分较第二轴的分散程度较大。

在物种关系图中，每个轴的物种得分变异反映了每个轴的重要性，而该轴上的样方得分都是相等的（或者在 Hill's scaling ）。因此，第一轴的物种得分较第二轴的分散程度较大。

如何解释排序图呢？这可以通过样方、物种、环境在每个轴上的得分间的关系实现。这有两种重要的相关关系：中心相关（ centroid relations ）和回归相关（ regression relations ），对应的法则叫做 centroid principle 和 biplot rule 。

（ 1 ） Centroid principle: 在默认的 CA 或 CCA 中，物种的得分是样方的加权平均。因此，在 CA 或 CCA 排序图中，物种的点在包含该物种的样方点的中央，这样包含该物种的样方点散步在该物种的周围，这种图就叫做 joint plots 。

（ 2 ） Regression rule: 在 PCA 或 RDA 中，物种的得分是物种数据对样方得分的回归，这样，物种得分就是一个斜率参数，连接原点与物种点，可以得到物种在每个轴拟合多度值的变化速率。将样方投射到物种线上，可以的得到每个样方中物种的拟合多度值。

（ 3 ） Distance rule: 距离规则是中心法则的扩展。距离规则说明靠近该物种的样方较远离该物种的样方包含该物种的可能性更大。样方中物种的多度的排序值可以通过样方和物种点间的距离获得。距离法则适用于长梯度的 DCA 排序（ >3-4SD ）。

在线性排序图（ PCA 或 RDA ）中物种和数量型环境因子用箭头表示，定性环境因子和样方用符号表示（质心）。

在线性排序图中（如 PCA 排序图），如果我们从代表每个样方的点投影到某一物种的箭头，投影点的相对位置可以代表该物种这些样方中多度值排序情况。如果是在 RDA 图中，投影点代表的是拟合的多度值 ( 即能够被排序模型所解释的部分，非观测值）的排序情况。在 PCA 图中，物种箭头的起始点的位置表示物种多度平均值位置，如果样方的投影点在箭头的反向延长线上，则表示该物种在此样方内多度小于平均值；反之，则大于平均值。

1 线性排序图的解读

（（ 11 ）物种和样方间的关系）物种和样方间的关系

样方中物种样方中物种 22 的多度值排序：的多度值排序： Sa4>Sa2>Sa3>SSa4>Sa2>Sa3>Sa1>Sa5a1>Sa5

（（ 22 ）样方间关系）样方间关系

样方间的距离为欧几里得距离，长度越短表示差样方间的距离为欧几里得距离，长度越短表示差异越小，反之越大。异越小，反之越大。

（（ 33 ）物种间关系）物种间关系

夹角的余弦值夹角的余弦值

（（ 44 ）物种与数量型环境变量间关系）物种与数量型环境变量间关系

夹角的余弦值夹角的余弦值

（（ 55 ）样方与数量型环境变量间关）样方与数量型环境变量间关系系

（（ 66 ）数量型环境变量间关系）数量型环境变量间关系

尺度不同，意义不同。若为样方间距离尺度，环尺度不同，意义不同。若为样方间距离尺度，环境箭头表示：境箭头表示： Marginal effects of environmental vMarginal effects of environmental variables on sample scoresariables on sample scores ；若为物种相关性尺；若为物种相关性尺度，度， AA 和和 BB 之间夹角的余弦值表示二者的相关性。之间夹角的余弦值表示二者的相关性。

（（ 77 ）物种与名义环境变量间关）物种与名义环境变量间关系系

（（ 88 ）样方与名义环境变量间关）样方与名义环境变量间关系系

线段的长度代表了该样方属于某一形式变线段的长度代表了该样方属于某一形式变量类型的概率。量类型的概率。

（（ 99 ）数量型环境变量与名义型环境变量）数量型环境变量与名义型环境变量

2 单峰模型排序图的解读单峰模型排序图和线性排序图的解读有很多

相同的地方。但有几点的区别还是比较明显。最主要的不同的是，在线性排序图中，物种是用箭头表示，而在单峰模型排序图中，物种是用点表示。

还有另外一个重要的不同的是，在单峰排序图中，样方中的相异度（ dissimilarity ）是以卡方距离（ chi-square ）依据，也就是说，如果两个样方内各个物种的相对多度一样，那么这两个样方在图上的位置是一样的。

（ 1 ）物种与样方间的关系

线段的长短代表了相应样方中目标物种的相线段的长短代表了相应样方中目标物种的相对多度值高低，越短多度值越大，反之越小。对多度值高低，越短多度值越大，反之越小。

（中心法则）（中心法则）

（（ 22 ）物种间关系）物种间关系

物种点间的距离为卡方距离，可以代表不物种点间的距离为卡方距离，可以代表不同物种空间分布差异。同物种空间分布差异。

（（ 3 3 ）物种与数量型环境变量间关系）物种与数量型环境变量间关系

从物种点到数量型环境因子箭头的投影点的位置从物种点到数量型环境因子箭头的投影点的位置次序可以代表这些物种在该环境因子上的最适值。次序可以代表这些物种在该环境因子上的最适值。

（（ 44 ）物种与名义环境变量间关）物种与名义环境变量间关系系

距离代表了该物种在相应类别中的出现的相对频率距离代表了该物种在相应类别中的出现的相对频率平均值的大小，距离越大，频率越小，反之越大。平均值的大小，距离越大，频率越小，反之越大。

（ 5 ）样方和名义型环境变量间关系、名义型环境变量与数量型环境变量间关系、数量型环境变量间关系的解读同线性模型。

（ 6 ）样方间关系因关注的尺度而异，若关注的尺度为样方间距离，样方间的距离为 Turnover distance；若关注的是物种间距离尺度，则为卡方距离。

（ 7 ）名义变量间的关系解读同样方间的关系，不同的尺度表示不同的距离。

第六章经典实例第六章经典实例实例 1 群落组成格局与环境的关系

—以春季草地植被为例1 研究目的：描述基本的植被格局及其与

环境的关系（ Hajek et al. 2002 ）；2 数据： 70 个样方， 285 个物种， 15 个

环境因子；

实例 2 完全随机区组设计

1 研究目的：幼苗更新实验，四种处理 (control, litter removal, Nardus removal, moss and litter removal) ，每个处理 2 个水平，目的验证更新生态位假说（ Spackova et al. 1998 ）；

2 数据： 4 个区组 16 个样方， 23 个物种的幼苗多度数据，环境均为名义变量；

3 3 实验设计实验设计

4 4 零假设零假设（ 1 ）处理对幼苗没有影响。拒绝零假设的条件：不同处理下，幼苗总数、幼苗组成比例或者二者都有变化即可拒绝零假设。

（ 2 ）处理对幼苗组成的比例没有影响。拒绝零假设意味着不同物种的幼苗对不同处理的响应不同，进而保证了物种的共存（更新生态位假说）。

实例实例 3 3 群落物种变异的多层次分群落物种变异的多层次分解解

1 数据： 567 samples = 7 WS· 3 ST · 3 RE · 3RU· 3 replicates.

2 研究目的：

后记后记1 1 需要关注的理论需要关注的理论

（ 1 ）实验设计（ 2 ）相似性的测度（ 3 ）聚类分析（ 4 ）回归模型 ( 广义线性模型，广义可加模型 ,Loess 等 )

2 2 软件功能的拓展软件功能的拓展（ 1 ） Principal response curves (PRC)（ 2 ） Liner discriminant analysis (LDA, CVA)（ 4 ） db-RDA（ 3 ） Console version of CANOCO1 ） you cannot transform the species by piece-wise liner

transformations;2 ） you cannot obtain more than 4 ordination axes3 ） when you use restricted permutation types within blo

cks, you cannot have different layouts in different blocks

3 3 阅读推荐与网站阅读推荐与网站（ 1 ） Multivariate analysis of ecological data（ 2 ） Multivariate analysis of ecological data usi

ng Canoco（ 3 ） CANOCO Reference Manual and CanoDra

w for Windows User's Guide（ 4 ）数量生态学 .张金屯著 .（ 5 ） http://www.planta.com（ 6 ） http://regent.jcu.cz/maed/

4 4 致谢致谢

中科院赖江山博士以及普兰塔的塔友等作者给予了免费的第一手资料，在此一并致谢！

基于 canoco 的数据分析

Documents