主成分分析PPT幻灯片
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
-0.0860
-0.4196
-0.1976
0.2135 0.1609 0.8509
1.5712
-1.4049
-1.3933
1.0785
4.8850 -0.9718
sc -1.0158
-0.0299
0.0015
-0.8653
-1.0122
主成分分析
组长:郭圣锐 小组成员:罗琳 张玉峰 石小丰
2020/3/10
1
背景
在许多领域的研究与应用中,通常需要对含有多个变量 的数据进行观测,收集大量数据后进行分析寻找规律。 多变量大数据集无疑会为研究和应用提供丰富的信息, 但是也在一定程度上增加了数据采集的工作量。更重要 的是在很多情形下,许多变量之间可能存在相关性,从 而增加了问题分析的复杂性。如果分别对每个指标进行 分析,分析往往是孤立的,不能完全利用数据中的信息, 因此盲目减少指标会损失很多有用的信息,从而产生错 误的结论。
降维具有如下一些优点: ·使得数据集更易使用。 ·降低算法的计算开销。 ·去除噪声。 ·使得结果容易理解。
降维的算法有很多,比如主成分分析(PCA)、奇异值分解 (SVD)、因子分析(FA)、独立成分分析(ICA)。
2020/3/10
3
PCA原理详解
PCA的概念 PCA(Principal Component Analysis),即主成分分析方法,是一种 使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射 到k维上,这k维是全新的正交特征也被称为主成分,是在原有 n维特征的基础上重新构造出来的k维特征。PCA的工作就是从 原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的 选择与数据本身是密切相关的。其中,第一个新坐标轴选择是 原始数据中方差最大的方向,第二个新坐标轴选取是与第一个 坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴 正交的平面中方差最大的。依次类推,可以得到n个这样的坐 标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方 差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎 为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有 绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部 分方差的维度特征,而忽略包含方差几乎为0的特征维度,实 现对数据特征的降维处理。
5
协方差和散度矩阵
样本均值: 样本方差:
1 n
x n i1 xi
S 2 1 n
n 1 i1
xi x 2
样本X和样本Y的协方差:
Cov
X
,Y
E
X
E
X
Y
E
Y
1 n
n 1 i1 xi
x
yi
y
பைடு நூலகம்
2020/3/10
因此需要找到一种合理的方法,在减少需要分析的指标 同时,尽量减少原指标包含信息的损失,以达到对所收 集数据进行全面分析的目的。由于各变量之间存在一定 的相关关系,因此可以考虑将关系紧密的变量变成尽可 能少的新变量,使这些新变量是两两不相关的,那么就 可以用较少的综合指标分别代表存在于各个变量中的各 类信息。主成分分析与因子分析就属于这类降维算法。
6
由上面的公式,我们可以得到以下结论
(1) 方差的计算公式是针对一维特征,即针对同一特 征不同样本的取值来进行计算得到;而协方差则必 须要求至少满足二维特征;方差是协方差的特殊情 况。
(2) 方差和协方差的除数n ,1这是为了得到方差和协
方差的无偏估计。协方差为正时,说明 和 是正相关 关系;协方差为负时,说明 和 是负相关关系;协方
差为0时,说明X和Y是相互独立。Cov X , X就 是X的方
差。当样本是n维数据时,它们的协方差实际上是协 方差矩阵(对称方阵)。
2020/3/10
7
2020/3/10
8
PCA的几何意义
2020/3/10
9
图中, B点表示样例, A点表示在 u上的投影, u是直线
的斜率也是直线的方向向量,而且是单位向量。蓝色点 是在 上u 的投影点,离原点的距离是 x,u
17
MATLAB方法
可得结果
0.5554 -0.1120 -0.0801
0.5434
-0.1287
-0.1339
0.5706 -0.0082 -0.1437
p3
0.1329 -0.0017
0.5069
-0.0012
0.4714 -0.4304
-0.0003 0.5382 -0.0812
-0.8894 0.0465
-0.3295 -2.1531 -3.0397 0.7000 -1.3776 -1.4625 0.6317 3.3411 1.3915 0.6680 0.0353 0.9725 0.6225
-0.4955
-0.3382
-0.5234
0.9286
-0.3443
-0.0493
-0.3900
-1.3748
-0.5289
2020/3/10
4
思考:我们如何得到这些包含最大差异性 的主成分方向呢?
答案:事实上,通过计算数据矩阵的协 方差矩阵,然后得到协方差矩阵的特征 值特征向量,选择特征值最大(即方差 最大)的k个特征所对应的特征向量组成 的矩阵。这样就可以将数据矩阵转换到 新的空间当中,实现数据特征的降维。
2020/3/10
2020/3/10
2
数据降维
降维就是一种对高维度特征数据预处理方法。降维是将 高维度的数据保留下最重要的一些特征,去除噪声和不 重要的特征,从而实现提升数据处理速度的目的。在实 际的生产和应用中,降维在一定的信息损失范围内,可 以为我们节省大量的时间和成本。降维也成为应用非常 广泛的数据预处理方法。
2020/3/10
10
从总体相关系数矩阵出发求解主成分
2020/3/10
11
记
2020/3/10
12
样本的主成分
2020/3/10
13
实例操作
2020/3/10
14
试计算这8个指标的主成分及对13个工业部门进行排序。
2020/3/10
15
经过因子分析可得到
2020/3/10
16
2020/3/10