典范对应分析(CCA)在群落结构分析中的应用---

Download Report

Transcript 典范对应分析(CCA)在群落结构分析中的应用---

基于CANOCO的数据分析
Multivariate Analysis of Ecological
Data using CANOCO
生态熊
2010.6.25
内容
第一章 排序基础
 第二章 认识软件
 第三章 操作示范
 第四章 排序图解
 第五章 经典实例
 第六章 阅读推荐
 后记

第一章 梯度分析基础
1 什么是梯度分析?
群落学物种组成数据的分析方法通常
有两种:梯度分析(排序)和分类方法
(聚类、TWINSPAN等)。这里的梯度分
析是广义的梯度分析,泛指任何以揭示物
种组成数据与实测或潜在的环境因子之间
关系的方法。
2 为什么排序?
当考察植物或动物群落沿着一系列环境条件
下的变化情况,我们经常发现在不同条件的群落
不仅物种组成变化很大,而且这些变化往往具有
连续性和可预测性。
通过排序分析,我们可以认识群落格局,也
可以将排序轴跟我们已知的环境条件联系起来,
看是否代表某一环境梯度。当然,也许我们必须
用统计手段来检验排序轴到底是否真能代表环境
因子的梯度。
3 专业术语
生态学原始数据一般由两个部分构成,一
组是响应变量 (response variable),另外一组是解
释变量(explanatory variables)。
(1)解释变量:相当于自变量,又称预测变量,
经常分为主环境变量和协环境变量。
(2)响应变量:相当于因变量,又称物种数据。
(3)梯度分析:即通常所说的排序分析,是揭
示物种组成数据与实测或潜在环境因子之间关系
的方法的总称。包括约束性排序和非约束性排序。
(4)约束性排序(直接排序):在特定的梯度上
(环境轴)上探讨物种的变化情况。例如:RDA,
CCA,DCCA等。
(5)非约束性排序(间接排序):寻求潜在的或
在间接的环境梯度来解释物种数据的变化。
(6)偏分析:预先剔除物种变化中由协变量产生
的效应,再通过排序揭示剩下物种变化的排序方
法。
(7)混合排序分析:前面若干轴采用约束排序,
而剩下的轴是非约束性排序的梯度分析方法。
(8)非约束性排序方法
 主成分分析(Principal components analysis, PCA)
 对应分析(Correspondence analysis, CA)
 去趋势对应分析(Detrended Correspondence analysis, DCA)
 主坐标分析(Principal coordinates analysis, PCO)
 (9)约束性排序
 冗余分析(Redundancy analysis, RDA)
 典范对应分析(Canonical Correspondence analysis, CCA)
 去趋势典范对应分析( Detrended Canonical Correspondence
analysis, DCCA)
 典型变量分析(Canonical variate analysis, CVA, db-RDA)
(10)物种响应环境梯度模型

物种响应环境梯度模型

线性响应模型经常可以通过传统的方
法(最小二乘法)回归拟合。

但对于单峰响应模型,估计物种在环
境梯度上最适值最简单的方法就是通过
基于所有包含该物种的n个样方中环境因
子值的加权平均得到。具体算法如下:
上式中,Envi是第i个样方的环境因子值,Abundi是
物种在i样方的多度。
4 排序类型
梯度分析
直接排序
RDA
CCA
DCCA
间接排序
PCA
CA
DCA
梯度分析
线性模型
单峰模型
直接排序
间接排序
直接排序
间接排序
RDA
PCA
CCA
CA
DCCA
DCA
第二章 认识CANOCO软件

CANOCO (CANonical Community Ordination)
能够洞察:
 (1)生物群落结构
 (2)生物群落与环境间的关系
 (3)生态学的假设检验
 (4)在生物群落中进行的复杂生态学和生态
毒理实验的相关处理所产生的影响
1 软件模块
(1 )CANOCO for Window 4.5
这个程序是CANOCO的核心。通过使用它,你
可以指定要分析的数据和排序模型,选择分析的
类型。
CANOCO for Window带有比较全面的排序方
法。核心部分是基于线性模型的PCA和RDA,基
于单峰的模型的CA,DCA和CCA。在这些基本排
序方法基础上,CANOCO也可以做CVA(典范变
量分析),PCoA(主坐标分析)。但NMDS并没
有被包括,因为的确用得很少。
(2) WCanoImp
这个程序的功能构建数据。但这个程序用
法受到了window的剪贴板和电子表格文件的限
制。比如在Excel2003以前的版本,列数仅有
256列,这就意味着样方数或物种数不能两个
同时超过256个,否则需要分割。当然行数宽
松点,但不能超过65536行。如果你的数据超
过这个限制,你可以将你的数据分割为几个部
分,经过WCanoImp转化后,再用CanoMerge程
序拼接起来。
(3)CanoMerge
1) 首要的任务是连接两个或多个包含相同样方但
不同变量的数据文件。
2) 可以用来将您的数据文件输出带制表符分隔的
ASCII(文本)文件。
3) 最后一个功能是可以过滤掉一些低频率的物种。
(4)CanoDraw for Windows
用来做排序图的程序。
2 分析流程
3 CANOCO中的排序方法
(1)描述单个数据集结构的方法---排序/
间接梯度分析。例如描述一个生物群落
的结构或者环境变量间的相关结构。
 (2)用一个数据集解释另一个数据集--典范排序/直接梯度分析。例如使用环境
数据解释或预测物种的多度。

(3)一个数据集被另一个数据集解释后,
再被第三个数据解释---偏典范排序。例
如季节效应被校正后,使用环境数据解
释或预测物种多度。
 (4)描述一个被一个数据集解释后的数
据集结构---偏排序。例如描述季节效应
校正后的群落结构。

4 CANOCO中的响应模型

(1)线性模型

(2)单峰模型

(3)去趋势的单峰模型
5 CANOCO的结果
(1)排序图和一些变异解释的数量描述。
 (2)环境变量解释的变异量。
 (3)环境变量的显著性检验。
 (4)第一排序轴及总体排序轴的显著性
检验。

第三章 操作示范
1 重点与难点
 (1) 决定排序的模型:单峰还是线性?
 (2) PCA或RDA排序:中心化和标准化
 (3) DCA排序:除趋势对应分析
 (4) 排序得分(坐标)的尺度比例

2 分类示范
2.1 非限制性排序(只有物种数据)
 2.1.1 PCA
 (1) 排序尺度比例


这一步的目的是决定样方得分是如何尺度化?这一步操作
的效应是样方和物种的得分范围相对于另一尺度而言,是扩
大或者是缩小,对于特征值相似的轴,这一步的选择是不重
要的。

对于名义环境变量定义的样方,样方尺度可以通过样方组
间的距离解释样方组间的相似性。

对于数量型环境变量,物种尺度可以反映环境数据间的相
关性。但是环境的效应大小最好通过样方尺度解释。

对于既有名义型环境变量又有数量型环境变量的数据,任
何一种尺度都是合理的。

无论你选择何种尺度,排序图展示如下信息:物种的主要
格局、物种和数量型环境变量间的关系以及对于名义型的环
境变量,每个组中物种的平均值。

(1)在线性模型中,你需要决定物种的箭头所要
表示的意义:物种的多度(多度大的箭头长)或者是
要反映由物种多度转化的可比较尺度(所能解释的百
分比)。

(2)如果你选择“divided by the standard deviation”,
物种箭头表示在排序空间内展示的物种变化量的比例,
是个相对值;如果你选择“do not post-transform”,物种
箭头表示的是物种在排序空间内的多度变化量,是个
绝对值。
(2)数据转化
(3)中心化与标准化
(1)基于线性模型的排序方法都涉及数据的中性
化与标准化。

(2)样方的中心化是让每个样方的平均值为0,
物种中性化是让每个物种的平均值为0。

(3)样方(或物种)的标准化是让每行(或列)
的范数等于1。在数值上,范数等于列或行内各值平
方和的平方根。

(4)中心化和标准化不是必须都得进行。几乎基
于线性模型的数据都需要中性化,但不一定标准化;
如果都进行,中心化必须先进行;物种数据的量纲
不同,物种数据必须标准化(样方数据可能不需
要)。


(4)结果
2.1.2 DCA

(1) DCA一般都用区间去趋势“by
segments ” ;DCCA一般用多项式去趋势
“by polynomials” 。
 (2) 多项式去趋势阶数的选择标准:环境因子
小于10个,选2阶;小于13个,选3阶,大于
13个,选4阶。
 (3) 注意:对于约束排序,去趋势一般是不必
要的。
2.2 限制性排序
2.2.1 相关知识---蒙特卡罗检验
 (1)主要作用是检验限制性排序模型的
显著性。
 (2)置换检验和传统检验的区别是,前
者利用自己产生的分不作为零假设的分
布,后者利用现成已知的分布作为零假
设的分布。

(3)置换检验的原理
上式nx表示产生的置换数不低于随机置换分析的数量。N
代表总的置换数。
这的λ1代表第一轴的特征根,也代表第一轴所能解释的变
化量。而RSS是残差平方和 (the residual sum of square)缩
写,代表不能被第一轴所能解释的物种变化量。n是轴的数
量,p代表主环境变量的数量,q代表协环境变量的个数。
2.2.2 CCA

在样方尺度中,样方得分是物种得分的加
权平均,即出现在某个样方中的物种分布于该
样方的周围;在物种尺度上,物种得分是样方
得分的加权平均,即物种点在该物种生态位的
中央。加权平均法的解释采用中心法则。

尺度的类型(Hill's scaling Vs. biplot scaling)
是解决这样的问题:除了使用中性法则,如何
从物种-样方的排序图中推论物种数据?

如果你选择物种距离,排序图可以准确显
示不同物种发生格局的相异性。如果是biplot
scaling,相异性通过卡方距离度量;如果是
Hill's scaling ,相异性通过the generalized
Mahalanobis distance度量。
“Hill's scaling”适用于物种梯度较长的
类型(距离法则);“biplot scaling”适
用于物种比较集中,梯度较短的类型。
一般用后者即可,它能通过biplot rule为
排序图提供一个更量化的解释。
第四章 排序图的解读
一个物种与与样方的双序图,将以最佳的方
式要么展示物种间的关系或者样方间的关系,而
不是两者都展示。两种排序的差异是简单的:一
个排序图是另一种排序图的重新线性标度。当然,
二者折中的尺度也是可能的(如下图)。
在样方关系图中,每个轴样方得分的变异反
映了每个轴的重要性,通过特征值来度量,而
每个轴的物种得分都是相等的(或者在Hill's
scaling)。因此,第一轴的样方得分较第二轴
的分散程度较大。

在物种关系图中,每个轴的物种得分变异反
映了每个轴的重要性,而该轴上的样方得分都
是相等的(或者在Hill's scaling)。因此,第一
轴的物种得分较第二轴的分散程度较大。


如何解释排序图呢?
这可以通过样方、物种、环境在每个轴上的得
分间的关系实现。这有两种重要的相关关系:中心
相关(centroid relations)和回归相关(regression
relations),对应的法则叫做centroid principle 和
biplot rule。

(1)Centroid principle: 在默认的CA或CCA中,物
种的得分是样方的加权平均。因此,在CA或CCA
排序图中,物种的点在包含该物种的样方点的中央,
这样包含该物种的样方点散步在该物种的周围,这
种图就叫做joint plots。

(2) Regression rule: 在PCA或RDA中,物种的得
分是物种数据对样方得分的回归,这样,物种得分
就是一个斜率参数,连接原点与物种点,可以得到
物种在每个轴拟合多度值的变化速率。将样方投射
到物种线上,可以的得到每个样方中物种的拟合多
度值。

(3)Distance rule: 距离规则是中心法则的扩展。
距离规则说明靠近该物种的样方较远离该物种的样
方包含该物种的可能性更大。样方中物种的多度的
排序值可以通过样方和物种点间的距离获得。距离
法则适用于长梯度的DCA排序(>3-4SD)。
1 线性排序图的解读
在线性排序图(PCA或RDA)中物种和数量
型环境因子用箭头表示,定性环境因子和样方用
符号表示(质心)。
在线性排序图中(如PCA排序图),如果我
们从代表每个样方的点投影到某一物种的箭头,
投影点的相对位置可以代表该物种这些样方中多
度值排序情况。如果是在RDA图中,投影点代表
的是拟合的多度值(即能够被排序模型所解释的部
分,非观测值)的排序情况。在PCA图中,物种
箭头的起始点的位置表示物种多度平均值位置,
如果样方的投影点在箭头的反向延长线上,则表
示该物种在此样方内多度小于平均值;反之,则
大于平均值。
(1)物种和样方间的关系
样方中物种2的多度值排序:
Sa4>Sa2>Sa3>Sa1>Sa5
(2)样方间关系
样方间的距离为欧几里得距离,长度越短表示差
异越小,反之越大。
(3)物种间关系
夹角的余弦值
(4)物种与数量型环境变量间关系
夹角的余弦值
(5)样方与数量型环境变量间关系
(6)数量型环境变量间关系
尺度不同,意义不同。若为样方间距离尺度,环
境箭头表示:Marginal effects of environmental
variables on sample scores;若为物种相关性尺
度,A和B之间夹角的余弦值表示二者的相关性。
(7)物种与名义环境变量间关系
(8)样方与名义环境变量间关系
线段的长度代表了该样方属于某一形式变
量类型的概率。
(9)数量型环境变量与名义型环境变量
2 单峰模型排序图的解读
单峰模型排序图和线性排序图的解读有很多
相同的地方。但有几点的区别还是比较明显。
最主要的不同的是,在线性排序图中,物种是
用箭头表示,而在单峰模型排序图中,物种是
用点表示。

还有另外一个重要的不同的是,在单峰排
序图中,样方中的相异度(dissimilarity)是以
卡方距离(chi-square)依据,也就是说,如果
两个样方内各个物种的相对多度一样,那么这
两个样方在图上的位置是一样的。

(1)物种与样方间的关系
线段的长短代表了相应样方中目标物种的相
对多度值高低,越短多度值越大,反之越小。
(中心法则)
(2)物种间关系
物种点间的距离为卡方距离,可以代表不
同物种空间分布差异。
(3 )物种与数量型环境变量间关系
从物种点到数量型环境因子箭头的投影点的位置
次序可以代表这些物种在该环境因子上的最适值。
(4)物种与名义环境变量间关系
距离代表了该物种在相应类别中的出现的相对频率
平均值的大小,距离越大,频率越小,反之越大。

(5)样方和名义型环境变量间关系、名义型
环境变量与数量型环境变量间关系、数量型环
境变量间关系的解读同线性模型。

(6)样方间关系因关注的尺度而异,若关注
的尺度为样方间距离,样方间的距离为
Turnover distance;若关注的是物种间距离尺度,
则为卡方距离。

(7)名义变量间的关系解读同样方间的关系,
不同的尺度表示不同的距离。
第六章 经典实例
实例1 群落组成格局与环境的关系
—以春季草地植被为例
1 研究目的:描述基本的植被格局及其与
环境的关系(Hajek et al. 2002);
2 数据:70个样方,285个物种,15个环境
因子;
实例2 完全随机区组设计
1 研究目的:幼苗更新实验,四种处理
(control, litter removal, Nardus removal,
moss and litter removal),每个处理2个水
平,目的验证更新生态位假说
(Spackova et al. 1998);
2 数据:4个区组16个样方,23个物种的幼
苗多度数据,环境均为名义变量;
3 实验设计
4 零假设
(1)处理对幼苗没有影响。拒绝零假设
的条件:不同处理下,幼苗总数、幼苗
组成比例或者二者都有变化即可拒绝零
假设。
 (2)处理对幼苗组成的比例没有影响。
拒绝零假设意味着不同物种的幼苗对不
同处理的响应不同,进而保证了物种的
共存(更新生态位假说)。

实例3 群落物种变异的多层次分解
1 数据:567 samples = 7 WS· 3 ST · 3
RE · 3RU· 3 replicates.
2 研究目的:
后记
1 需要关注的理论
(1) 实验设计
(2) 相似性的测度
(3) 聚类分析
(4) 回归模型(广义线性模型,广义可加模
型,Loess等)
2 软件功能的拓展
(1)Principal response curves (PRC)
(2)Liner discriminant analysis (LDA, CVA)
(4)db-RDA
(3)Console version of CANOCO
1)you cannot transform the species by piece-wise liner
transformations;
2)you cannot obtain more than 4 ordination axes
3)when you use restricted permutation types within
blocks, you cannot have different layouts in different
blocks
3 阅读推荐与网站
(1) Multivariate analysis of ecological data
(2) Multivariate analysis of ecological data using
Canoco
(3) CANOCO Reference Manual and CanoDraw
for Windows User's Guide
(4)数量生态学.张金屯 著.
(5) http://www.planta.com
(6 )http://regent.jcu.cz/maed/
4 致谢
中科院赖江山博士以及普兰塔的塔友
等作者给予了免费的第一手资料,在此
一并致谢!