新闻中心
News Center
三分钟绘制一张优美的RDA/CCA图 | 天昊云
发布时间:2023-10-31

天昊云官网:

http://cloud.geneskybiotech.com/

RDA/CCA图绘制:

http://cloud.geneskybiotech.com/#/tools/all/RDA_CCA


本文主要为您迅速绘制一张优美的RDA/CCA图提供步骤指导(1-4),另附细节优化方法(5),可后期慢慢研究调整,同时提供相关分析方法说明和参考文献,为您深入了解提供支持。

1.jpg

示例图

冗余分析(RDA)和典范对应分析(CCA)是当今生物学两种常用的约束性排序方法,RDA是基于线性模型,CCA是基于单峰模型。

相对于PCA、PCoA、NMDS等非约束排序(只基于样本的物种组成数据),约束性排序可以同时使用物种组成和环境因子数据进行排序分析,从而解释环境因子对于样本中物种组成的影响。

RDA或CCA选择原则:首先对物种组成数据进行决策曲线分析(DCA),看分析结果中Axis lengths的第一轴的大小:如果大于4.0,选择CCA;如果在3.0-4.0之间,选RDA和CCA均可,默认选择CCA;如果小于3.0,则应该选择RDA分析。



01、RDA/CCA工具预览

2.jpg




02、了解输入数据格式

可以通过点击下图的“示例”按钮进行示例文件的下载,查看输入数据格式:

3.jpg

云平台数据输入


样本丰度文件:通常输入的是样本信息矩阵,输入文件必须是.txt后缀的UTF-8纯文本,且必须有表头。每一行是一个特征(通常代表某个物种),每一列是一个样本,列之间用制表符(Tab键\t)分隔。丰度数据必须为数值型,若某个样本存在丰度为空值,分析时将剔除该样本;若某一特征的丰度在所有样本中都为0,则剔除该特征。筛选后至少存在3个有效特征才能继续运行。4.jpg


环境因子文件:通常输入的是环境因子矩阵,输入文件必须是.txt后缀的UTF-8纯文本,且必须有表头每一行是一个环境因子,每一列是一个样本,列之间用制表符(Tab键\t)分隔。环境因子数据必须为数值型,非数值型也请转化为数值型,若某个样本存在环境因子为空值,分析时将剔除该样本。筛选后至少存在3个有效样本,2个环境因子才能继续运行。5.jpg


样本分组文件:输入样本分组矩阵,输入文件必须是.txt后缀的UTF-8纯文本,且必须有表头。第一列为样本名,第二列为分组(仅用于区分绘图时样本点的颜色),列之间用制表符(Tab键\t)分隔,多于两列则只取前两列;若只有一列样本,则样本点均采用相同颜色。

注:只有出现在分组文件中的样本才会进行处理

6.jpg




03、上传数据并分析

(以示例数据为例)


上传完成后,自动开始分析,等待十几秒即可完成。分析完成后即可预览、下载分析结果高清图。

7.jpg

运行完成示意图



04、RDA/CCA分析结果列表

8.jpg

运行结果一览


concont.csv:

RDA/CCA分析约束轴信息

其中包含各个约束轴的包括特征值,解释度,累计解释度等数据


DCA.txt:

决策曲线分析(DCA)结果

该结果是判定使用RDA或CCA的分析依据

其中包含各个约束轴的特征值,轴长度等数据


variance_proportion.txt:

RDA/CCA模型承载的方差比例

Type: 轴的不同类型(约束和无约束轴)

Inertia: 方差     Proportion: 方差占比

Rank: 轴的数量

其中 Constrained的Proportion方差占比(约束轴的方差解释度),类似于多元回归模型的R2值,取值范围[0, 1],值越大,说明RDA/CCA的模型越可靠。


sample_with_env_relationship.xls:

样本与环境因子的相关性信息

ID: 样本名     Env: 环境因子名

Degree: 样本与环境因子之间的夹角大小

Type: 相关关系(正/负相关)


feature_with_env_relationship.xls:

特征与环境因子的相关性信息

ID: 特征名     Env: 环境因子名

Degree: 特征与环境因子之间的夹角大小

Type: 相关关系(正/负相关)


sample.position.csv:

样本在坐标轴上的位置


feature.position.csv:

特征在坐标轴上的位置


environmentfactors.position.csv:

环境因子在坐标轴上的位置


RDA/CCA.png:

RDA/CCA绘图结果


横纵坐标为两个排序轴;彩色点/字体代表不同样本;黑色星号代表特征

红色箭头射线代表不同的环境因子,射线越长表示该环境因子影响越大

样本-虚线中心连线与箭头之间的夹角 代表了样本与环境因子之间的相关关系(夹角为锐角时表示呈正相关关系,钝角时呈负相关关系,直角表示不相关)。




05参数调整

5.1样本/特征/环境因子绘制

这三个参数决定了绘制RDA/CCA图时样本点/特征点/环境因子的展示状态。

其中样本方面默认只绘制散点,不添加样本名标签;特征方面默认绘制丰度占比在1%以上特征的散点,同时展示各个点的特征名;环境因子方面默认绘制从(0, 0)出发的向量箭头,同时展示各个向量的环境因子名。

5.2丰度/环境因子数据处理

这两个参数决定了是否以样本为单位,对数据进行相对计算处理。

其中对丰度数据的处理表现为样本某特征占所有特征的相对数量,而对环境因子的处理则表现为样本某环境因子占所有环境因子的相对数量。默认均不进行相对计算处理。

5.3数据标准化

该参数决定在对所给数据进行RDA/CCA计算时是否对数据进行标准化处理。

5.4配色的指定

客户可自行选择所需要的颜色,可以通过两种方式进行指定:

(一)从所提供的不同调色板中选取,绘图颜色将会自动从该调色板中随机取出。9.jpg

(二)自行指定颜色,需要使用6位的十六进制颜色代码。

颜色个数不能少于颜色分组的个数,当指定颜色个数多于分组数时,就前读取,多种颜色用英文逗号隔开。

图片

5.5优化结果

10.jpg




06、注意事项

输入文件必须是.txt后缀的UTF-8纯文本,列之间用制表符(Tab键\t)分隔。




07、参考文献

[1] Oksanen J, Simpson G, Blanchet F, et al. (2022) vegan: Community Ecology Package https://CRAN.R-project.org/package=vegan

[2] Paradis E, Schliep K (2019). ape 5.0: an environment for modern phylogenetics and evolutionary analyses in R, *35*, 526-528. doi:10.1093/bioinformatics/bty633







copyright © 2008-2023 昊为泰 reserved. ICP备案序号:沪ICP备18028200号-1沪公网安备 31011502016782号