天昊生物多年专注于深耕遗传学和基因组学等领域科研特色技术的开发,不断跟进国际先进的科研成果及技术发展,创新研发了许多特色专利技术和领域内前沿的检测服务项目,受到广大专业科研用户的认可和好评。
天昊云官网:
http://cloud.geneskybiotech.com/
t-SNE图绘制:
http://cloud.geneskybiotech.com/#/tools/all/t-SNE
本文主要为您迅速绘制一张优美的t-SNE图提供步骤指导(1-4),另附细节优化方法(5),可后期慢慢研究调整,同时提供相关分析方法说明和参考文献,为您深入了解提供支持。
示例图
t-分布随机邻域嵌入分析(t-SNE)是一种非线性的降维技术。本质是一种嵌入模型,能够将高维空间中的数据映射到低维空间中,并保留数据集的局部特性,适合用于高维数据的可视化。
t-SNE分析不同于其他的降维算法,它主要是将欧氏距离转化为条件概率来表征点间相似度,并使用梯度下降算法来使低维分布去尽可能地拟合高维分布。t-SNE对于原始数据的相对相似性比较好,而且较为巧妙地解决了降维出现的拥挤问题,即当两个点相距相对近的时候,低维空间中比高维空间中相对更近;反之则远者更远。若t-SNE分析结果不好,则后续差异分析结果不可靠;若存在离群样本,可剔除该样本再进行后续分析,以确保后续结果有意义。
一、t-SNE工具预览
二、了解输入数据格式
可以通过点击下图的“示例”按钮进行示例文件的下载,查看输入数据格式:
云平台数据输入
数据矩阵:文件必须是.txt后缀的UTF-8纯文本。每一行是一个特征,每一列是一个样本,列之间用制表符(Tab键 \t)分隔。其中,第一列是特征名称,第一行是样本名称,必须包含分组文件中所有样本。
样本分组:文件必须是.txt后缀的UTF-8纯文本。第一列是样本名,用于指定需要分析的样本,第二列用于指定样本分组,第一行为表头。分组信息可用于给样本设置不同的颜色,便于区分。可以附加第三列用于指定样本在绘图中的形状。
三、上传数据并分析(以示例数据为例)
上传完成后,自动开始分析,等待十几秒即可完成。分析完成后即可预览、下载分析结果高清图。
运行完成示意图
四、t-SNE分析结果列表
运行结果一览
t-SNE.site.txt:
t-SNE坐标矩阵
每行是一个样本,矩阵的列信息包括t-SNE的x、y坐标与样本所对应的分组
t-SNE.pdf:
绘制的t-SNE图
横坐标为t-SNE1,纵坐标为t-SNE2
点的不同颜色及不同形状代表样本的不同分组
五,参数调整
5.1困惑度的选择
困惑度参数默认为空,即采用的是工具的默认参数。
t-SNE高斯分布的困惑度,通常情况下,困惑度大于0,且小于等于(样本数量-1)/3。困惑度大致表示如何在局部或者全局位面上平衡关注点,低困惑度更注重局部视角,高困惑度则更注重全局视角。
5.2速度精度比
速度/精度比值参数θ,用于权衡程序运行的速度与精度,设置为0以获得精确的t-SNE结果,但会较大增加运行时间。
5.3迭代次数
提高迭代次数,有可能进一步变准确,但是运行速度会变慢。
5.4 PCA预处理
在数据量较大的时候,对数据进行pca降维预处理可显著提升程序运行速度。
5.5 椭圆的绘制
客户可以规定t-SNE图是否绘制椭圆。
5.6配色的指定
客户可自行选择所需要的颜色,可以通过两种方式进行指定:
(一) 从所提供的不同调色板中选取,绘图颜色将会自动从该调色板中随机取出。
(二) 自行指定颜色,需要使用6或8位的十六进制颜色代码,前六位表示颜色,后两位表示透明度(透明度范围从00全透明—FF不透明),6位则默认不透明。
颜色个数不能少于颜色分组的个数,当指定颜色个数多于分组数时,就前读取,多种颜
色用英文逗号隔开。
5.7优化结果
六、注意事项
输入文件必须是.txt后缀的UTF-8纯文本,列之间用制表符(Tab键 \t)分隔。
七、参考文献
[1]Kassambara A (2023). ggpubr: 'ggplot2' Based Publication Ready Plots. R package version 0.6.0, https://CRAN.R-project.org/package=ggpubr
[2]Jesse H. Krijthe (2015). Rtsne: T-Distributed Stochastic Neighbor Embedding using a Barnes-Hut Implementation,
copyright © 2008-2023 天昊生物 reserved. ICP备案序号:沪ICP备18028200号-1沪公网安备 31011502016782号