1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 作图丨数据降维方法①——主成分分析PCA

作图丨数据降维方法①——主成分分析PCA

时间:2019-06-11 00:15:29

相关推荐

作图丨数据降维方法①——主成分分析PCA

PCA是什么?

主成分分析算法(PCA)是最常用的线性降维方法,它的目标是通过某种线性投影,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的信息量最大(方差最大),以此使用较少的数据维度,同时保留住较多的原数据点的特性。PCA降维的目的,就是为了在尽量保证“信息量不丢失”的情况下,对原始特征进行降维,也就是尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到这些维度上,使降维后信息量损失最小。

PCA和PCoA的区别

PCoA(Principal Co-ordinates Analysis)分析即主坐标分析,可呈现研究数据相似性或差异性的可视化坐标,是一种非约束性的数据降维分析方法,可用来研究样本群落组成的相似性或相异性。它与PCA类似,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值,找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样本点之间的相互位置关系,只是改变了坐标系统。两者的区别为PCA是基于样本的相似系数矩阵(如欧式距离)来寻找主成分,而PCoA是基于距离矩阵(欧式距离以外的其他距离)来寻找主坐标。

如何不使用R语言在线生成一个PCA图?

小编和他的小伙伴们开发了一个在线的作图小网站——云图图(,免费的哦~),操作步骤如下:

①登录网址:(推荐使用360或者谷歌浏览器)

②输入用户名和密码(小编已经为大家填好了,如果不显示可添加文末二维码添加小编获取),输入验证码后即可登录;

③登录后在工具一栏(高级分析)里找到微生物曼哈顿图,点击进入;

④请按照界面右侧的说明书或者下文进行操作,即可在2分钟内获得一张精美的PCA图喽~

话不多说,我们开始行动吧~

Step 1上传文件

※目前平台仅支持.txt(制表符分隔)文本文件或者.csv文件的文件上传;

平台可对不规范的数据格式进行部分处理,但还是请您尽量按照示例数据的格式调整数据,以便机器可以识别。数据形式见示例数据:

a) 准备一个数据矩阵(如微生物物种丰度表、基因表达量矩阵、代谢物含量表,也可以是测量数据,例如身高、体重、表型等);

b) 表格需要带表头和列名,每一列为样本名,每一行为各种指标名,例如OTU,基因ID、身高、代谢物名称等。

Step 2设置参数

2.1方法选择:

a) hellinger,hellinger转化,就是总和标准化数据的平方根(default MARGIN=1),hellinger转化后的数据使用欧氏距离函数计算将得到hellinger距离矩阵。

b) normalize,模标准化,将数据除以每行或者每列的平方和的平方根(default MARGIN=1),模标准化后每行、列的平方和为1(向量的模为1),也即在笛卡尔坐标系中到原点的欧氏距离为1,样品分布在一个圆弧上,彼此之间的距离为弦长,因此也称为弦转化。在基于欧氏距离的PCA、RDA中分析群落数据可以将每个样方弦转化可以弥补欧氏距离的缺陷。弦转化后的数据使用欧氏距离函数计算将得到弦距离矩阵。

c) standardize,z-score标准化,最常用的标准化方法之一,将数据减去均值比上标准差(default MARGIN=2),z-score标准化后数据均值为0,方差为1,服从正态总体的数据标准化后服从标准正态分布。z-score标准化可以去除不同环境因子量纲的影响。

d) total,总和标准化,将数据除以该行或者列的总和,也即求相对丰度(default MARGIN=1),总和标准化后数据全部位于0到1之间。

e) max,最大值标准化,将数据除以该行或者列的最大值(defaultMARGIN=2)。若数据非负,最大值标准化后数据全部位于0到1之间。

f) freq,数据矩阵除以行或列的最大值,并乘以非零值的个数

g) range,Min-max标准化,将数据减去该行或者列的最小值,并比上最大值与最小值之差(defaultMARGIN=2),Min-max标准化后的数据全部位于0到1之间。

h) pa, 将数据转换为有-无(1-0)类型,若分析不加权的情况群结构下可以使用。

i) chi.square",卡方转化,在默认(defaultMARGIN=1)的情况下是数据除以行的和再除以列的和的平方根,卡方转化后的数据使用欧氏距离函数计算将得到卡方距离矩阵。

j) log, 将数据(样本观察值)取自然对数(或者其他数为底的对数),可以使用log()函数来实现(log1p()可以将数据加1后取自然对数)。若是数据中有0或负值,可以全部数据加上一个数转换为正数。一般来说自然对数转换可以使0~1范围内的数据范围变大,可以使>1范围内数据范围变紧凑。

2.2 横/纵坐标字体大小:根据需求酌情选择。

2.3 元素大小:图中代表样品的图表的大小。

2.4 是否添加椭圆:

椭圆一:按照正常计算方式得到分组椭圆(有些数据可能加不上分组椭圆)

椭圆二:对无法添加正常椭圆的数据强行添加分组椭圆。

否:不添加分组椭圆

2.5 椭圆的粗细:调节椭圆边界线条的宽度,选择“0”则没有椭圆边框。

2.6 是否显示标签:是否在元素旁边显示样品名称。

2.7 分组信息:整个页面的右下角(图片的下方)

需要对所有样品进行分组,本网站支持在线修改分组名称和样品名称的功能。

2.8 筛选显示种类:根据自己的需要,可以选择需要用的样品进行作图。

Step 3 下载文件

根据个人需求进行参数调整后点击运行后等待5-10秒即可下载结果,平台提供PDF格式的矢量图下载。

Step 4 作图后处理

TUTU云平台提供的是PDF格式的矢量图,可通过矢量图处理软件(Inkscape或AI)进行编辑和调整(如:文字字体,文字大小,图片分辨率等)。图形处理软件和使用方法可扫描文后的二维码添加小编微信获取。

Step 5 写作建议

PCA analysis was performed on Tutools platform (), a free online data analysis website.

Principal component analysis (PCA) of the profiling data from the intestinal metabolome. C57BL/6 mice from three breeders were divided into two groups: untreated mice (Clea, Charles river (Cr), and Slc) and antibiotic-treated mice (CleaA, CrA, and SlcA). CE-TOFMS-based metabolomics was performed.

END

尊敬的用户,如果图图云平台在您的科研中有幸提供了些许帮助,我们期望您能在方法学或者致谢中提及我们,引用方法如下:XXXX analysis was performed on Tutools platform (), a free online data analysis website. 目前平台还处于测试阶段,使用过程中有任何疑问或者报错欢迎随时联系小编反馈。您的反馈和建议是我们最大的动力~

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。