解读文献里的那些图——主成分分析图(PCA)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

解读⽂献⾥的那些图——主成分分析图(PCA)PCA全名principal component analysis,即主成分分析,看到这个名字的时候,第⼀次深刻的
体会到了什么是每个字都认识,合在⼀起却不知道是什么意思……
看⼀下主流的解释:主成分分析是⼀组变量通过正交变换转变成另⼀组变量的分析⽅法,来实
现数据降维的⽬的。

转换后得到的这⼀组变量,即是我们所说的主成分。

Emmmm,还是不懂……
拆开了,⼀个字⼀个词的来看:主成分分析的字⾯意思就是⽤主成分来分析数据呗!
⾸先,什么是主成分?
举两个简单的例⼦:
①评价⼀个研究⽣的综合能⼒有哪些指标呢:绩点、考研分数、科研能⼒、笔试成绩、⾯试表
现、英语⽔平、奖学⾦等等等等……
②评价⼀座城市的发展⽔平有哪些指标呢:⼈⼝、GDP、⾯积、⼈均寿命、⼈均⼯资、⼈均受
教育年份、性别⽐例、宗教⼈⼝、汽车保有量、⼈均住房⾯积等等等等……
⼀个指标就是⼀个变量⼀个维度啊,把他们画在图上直观的表⽰⼀下吧……
好家伙,超过三个我就画不出来了,那些基因、蛋⽩成千上万的,咋办?怎样⽤简单的⽅法来
表⽰复杂的数据呢?
降维!
降维是通过减少数据中的指标(或变量)以化简数据的过程。

这⾥的减少指标,并不是随意加
减,⽽是⽤复杂的数理知识,得到⼏个“综合指标”来代表整个数据。

⽽这⾥的综合指标就是所谓
的主成分!它不是原来的指标中的任何⼀个,⽽是由所有原有指标数据线性组合⽽来。

为什么主成分可以代表这些指标呢?其实我们仔细看⼀下,这⾥的许多指标是有相关性的,⽐
如绩点与奖学⾦、考研分数等有关联性,通过降维就可以帮助我们去除这些指标中重叠、多余
的信息,把数据最本质和关键的信息提取出来。

那么我们就可以表⽰为:
将n个指标降维成r个主成分(r<n)后,这些个主成分会依据⽅差的⼤⼩进⾏排序,称作主成分(PC)1、主成分2、……主成分r。

⽽每个主成分的⽅差在这⼀组变量中的总⽅差中所占的⽐
例,即是主成分的贡献度。

通常来说,我们仅考察贡献度前2或者前3的主成分,经过可视化
后,即得到了⼆维或三维PCA散点图。

通过这样的可视化处理之后,可以帮助我们对数据做出清晰的了解:
1、各样本点连线的距离:体现每个学⽣之间的相似性,距离越短,相似性越⼤。

2、主成分与原变量之间的关系:箭头对应的原始变量在投影到⽔平和垂直⽅向上后的值,可以
分别体现该变量与PC1和PC2的相关性(正负相关性及其⼤⼩)(例如,绩点对PC1具有较⼤
的贡献,⽽⾯试则与PC1之间呈较⼤的负相关性)。

3、样本点和箭头之间的距离:反映样本与原始变量的关系。

(对于3号样本点⽽⾔,各个指标
都趋近于0,即各个指标都不是那么优秀)。

这样看下来,3、4号学⽣较为相似,1号2号5号有各⾃突出的特点。

所以,看PCA图抓住⼀点:样本点连线距离长=样本之间差异性⼤,样本点连线距离短=样本之
间差异性⼩。

这样可以让我们⾮常直观地看出各个样本之间的相似性。

例如在⼀张PCA散点图中,数个样本的点聚在⼀起,那么就说明这⼏个样本之间的相似性⾮常
⾼;反之,如果⼏个样本的点⾮常分散,则说明这⼏个样本之间的相似性⽐较低。

例如下图,
⼏个组的样本对应的散点在组内呈现相互聚集的情况,说明组内的重复性⽐较好,样本数据⾮
常相似,⽽组间则有较好的区分度。

有的时候为了说明组内样本的相似程度,还会⽤⼀个椭圆
将同⼀组的样本对应的散点全部囊括起来。

所以,通过PCA后,我们既可以直观的了解到到每个样本的特征,⼜可以将样本进⾏聚类,看他们之间的相关性和差异性。

在医学领域中,我们可以⽤PCA图来进⾏疾病危险因素分析,肠道菌群聚类分析,推断肿瘤亚群之间的进化关系......还⽤它来观察样本的分组、趋势、剔除异常数据,在⽂献中出现率还是很⾼的!
2.https:///weixin_39532754/article/details/110160445。

相关文档
最新文档