新闻中心
News Center
绘制一张优美的t-SNE图 | 天昊云
发布时间:2023-09-05

天昊云官网:

http://cloud.geneskybiotech.com/

t-SNE图绘制:

http://cloud.geneskybiotech.com/#/tools/all/t-SNE


本文主要为您迅速绘制一张优美的t-SNE图提供步骤指导(1-4),另附细节优化方法(5),可后期慢慢研究调整,同时提供相关分析方法说明和参考文献,为您深入了解提供支持。

图片

示例图


t-分布随机邻域嵌入分析(t-SNE)是一种非线性的降维技术。本质是一种嵌入模型,能够将高维空间中的数据映射到低维空间中,并保留数据集的局部特性,适合用于高维数据的可视化。

t-SNE分析不同于其他的降维算法,它主要是将欧氏距离转化为条件概率来表征点间相似度,并使用梯度下降算法来使低维分布去尽可能地拟合高维分布。t-SNE对于原始数据的相对相似性比较好,而且较为巧妙地解决了降维出现的拥挤问题,即当两个点相距相对近的时候,低维空间中比高维空间中相对更近;反之则远者更远。若t-SNE分析结果不好,则后续差异分析结果不可靠;若存在离群样本,可剔除该样本再进行后续分析,以确保后续结果有意义。



一、t-SNE工具预览

图片



二、了解输入数据格式


可以通过点击下图的“示例”按钮进行示例文件的下载,查看输入数据格式:

图片

云平台数据输入


数据矩阵:文件必须是.txt后缀的UTF-8纯文本。每一行是一个特征,每一列是一个样本,列之间用制表符(Tab键 \t)分隔。其中,第一列是特征名称,第一行是样本名称,必须包含分组文件中所有样本。

图片


样本分组:文件必须是.txt后缀的UTF-8纯文本。第一列是样本名,用于指定需要分析的样本,第二列用于指定样本分组,第一行为表头。分组信息可用于给样本设置不同的颜色,便于区分。可以附加第三列用于指定样本在绘图中的形状。

图片



三、上传数据并分析(以示例数据为例)


上传完成后,自动开始分析,等待十几秒即可完成。分析完成后即可预览、下载分析结果高清图。

图片

运行完成示意图




四、t-SNE分析结果列表

图片

运行结果一览


t-SNE.site.txt:

t-SNE坐标矩阵

每行是一个样本,矩阵的列信息包括t-SNE的x、y坐标与样本所对应的分组

t-SNE.pdf:

绘制的t-SNE图

横坐标为t-SNE1,纵坐标为t-SNE2

点的不同颜色及不同形状代表样本的不同分组




五,参数调整

5.1困惑度的选择

困惑度参数默认为空,即采用的是工具的默认参数。

t-SNE高斯分布的困惑度,通常情况下,困惑度大于0,且小于等于(样本数量-1)/3。困惑度大致表示如何在局部或者全局位面上平衡关注点,低困惑度更注重局部视角,高困惑度则更注重全局视角。

5.2速度精度比

速度/精度比值参数θ,用于权衡程序运行的速度与精度,设置为0以获得精确的t-SNE结果,但会较大增加运行时间。

5.3迭代次数

提高迭代次数,有可能进一步变准确,但是运行速度会变慢。

5.4 PCA预处理

在数据量较大的时候,对数据进行pca降维预处理可显著提升程序运行速度。

5.5 椭圆的绘制

客户可以规定t-SNE图是否绘制椭圆。

5.6配色的指定

客户可自行选择所需要的颜色,可以通过两种方式进行指定:

(一)   从所提供的不同调色板中选取,绘图颜色将会自动从该调色板中随机取出。

图片


(二)   自行指定颜色,需要使用6或8位的十六进制颜色代码,前六位表示颜色,后两位表示透明度(透明度范围从00全透明—FF不透明),6位则默认不透明。

颜色个数不能少于颜色分组的个数,当指定颜色个数多于分组数时,就前读取,多种颜

色用英文逗号隔开。

图片


5.7优化结果

图片




六、注意事项

输入文件必须是.txt后缀的UTF-8纯文本,列之间用制表符(Tab键 \t)分隔。



七、参考文献


[1]Kassambara A (2023). ggpubr: 'ggplot2' Based Publication Ready Plots. R package version 0.6.0, https://CRAN.R-project.org/package=ggpubr

[2]Jesse H. Krijthe (2015). Rtsne: T-Distributed Stochastic Neighbor Embedding using a Barnes-Hut Implementation,






copyright © 2008-2023 天昊生物 reserved. ICP备案序号:沪ICP备18028200号-1沪公网安备 31011502016782号