第五章 主成分分析
第五节 主成分分析
•
•
其中Li为p维正交化向量(Li*Li=1),zi之间互 不相关且按照方差由大到小排列,则称Zi为X的第 I个主成分。设X的协方差矩阵为Σ,则Σ必为半正 定对称矩阵,求特征值λi(按从大到小排序)及 其特征向量,可以证明,λi i所对应的正交化特征 向量,即为第I个主成分Zi所对应的系数向量Li, 而Zi的方差贡献率定义为λi/Σλj,通常要求提取的主 成分的数量k满足Σλk/Σλj>0.85。
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
68.337 95.416 62.901 86.624 91.394 76.912 51.274 68.831 77.301 76.948 99.265 118.505 141.473 137.761 117.612 122.781
0.408 0.255 -0.755 0.069 -0.93 -0.046 0.156 -0.078 -0.109 -0.031 0.744 0.094 -0.924 0.073
(2)由相关系数矩阵计算特征值,以及各个 主成分的贡献率与累计贡献率(见表 3.5.2)。由表3.5.2可知,第一,第二,第 三主成分的累计贡献率已高达86.596% (大于85%),故只需要求出第一、第二、 第三主成分z1,z2,z3即可。
8.128 8.135 18.352 16.861 18.279 19.793 4.005 9.11 19.409 11.102 4.383 10.706 11.419 9.521 18.106 26.724
4.065 4.063 2.645 5.176 5.643 4.881 4.066 4.484 5.721 3.133 4.615 6.053 6.442 7.881 5.789 7.162
主成分分析
引言:主成分分析也称主分量分析,是由霍特林于1933 年首先提出的。
主成分分析是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。
通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。
这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使得问题得到简化,提高分析效率。
本文用主成分分析的方法对某市14 家企业的经济效益进行分析。
[1] 在处理涉及多个指标问题的时候,为了提高分析的效率可以不直接对p 个指标构成的P维随机向量X=(X1, X2, X3, , Xp)进行分析,而是先对向量x进行线性变换,形成少数几个新的综合变量,使得个综合变量之间相互独立且能解释原始变量尽可能多的信息,这样在意损失很少部分信息为代价的前提下,达到简化数据结构,提高分析效率的目的。
主成分的基本思想就是在保留原始变量尽可能多的前提下达到降维的目的,从而简化问题的复杂性并抓住问题的主要矛盾。
而这里对于随机变量X1,X2,X3,……,Xp而言,其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反映,而相关矩阵不过是将原始变量标准化后的协方差矩阵我们所说的保留原始变量尽可能多的信息,也就是指生成的较少的综合变量 (主成分)的方差和尽可能接近原始变量方差的总和。
因此在实际求解主成分的时候,总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。
一般来说从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的本文我们用从原始变量的相关矩阵出发求得的主成分进行分析。
[5]一、材料与方法1.1数据材料表1 14 家企业的利润指标的统计数据1.2分析方法本文采用多元统计学方法,选取14家企业作为样本收集每家企业的8个不同的利润指标,利用spss统计软件做主成分分析,给出载荷阵,并通过载荷阵给出主成分系数表,写出主成分表达式以此给出14个企业的得分值,最后根据主成分构造一个综合性评价指标,对14个企业进行综合排名。
第五章主成分分析资料
2020/11/11
5
目录 上页 下页 返回 结束
利用主成分分析得到的主成分与原始变量之 间有如下基本关系:
1.每一个主成分都是各原始变量的线性组合 2.主成分的数目大大少于原始变量的数目
3.主成分保留了原始变量绝大多数信息 4.各主成分之间互不相关
2020/11/11
6
目录 上页 下页 返回 有意义。我们将线性变换约束在下面的原则之下:
1.
,即:
2.
3. 是
的一切满足原则1的线性组合中方差最
大者; 是与 不相关的
所有线性组合中方差最
大者;…, 是与
都不相关的
的所有
线性组合中方差最大者。
2020/11/11
9
目录 上页 下页 返回 结束
基于以上三条原则决定的综合变量 Y1,Y2 ,,YP分
义,所得结论可以很容易地扩展到多维的情况。
2020/11/11
11
目录 上页 下页 返回 结束
设有 个样品,每个样品有两个观测变量 ,这样, 在由变量 组成的坐标空间中, 个样品点散布的情况如 带状,见图5-1。
2020/11/11
图5-1
12
目录 上页 下页 返回 结束
由图可以看出这 个样品无论沿 轴方向还是沿 轴方向均 有较大的离散性,其离散程度可以分别用观测变量 的方差和 的方差定量地表示,显然,若只考虑 和 中的任何一个,原 始数据中的信息均会有较大的损失。我们的目的是考虑 和 的线性组合,使得原始样品数据可以由新的变量 和 来刻画。 在几何上表示就是将坐标轴按逆时针方向旋转 角度,得到新坐 标轴 和 ,坐标旋转公式如下:
•主成分分析是利用降维的思想,在损失很少信息的 前提下把多个指标转化为几个综合指标的多元统计 方法。
主成分分析
但是这种线性组合,如果丌加限制,则可以有很多,应 该如何去选取呢?
对a加以限制
对组合系数ai' = (a1i,a2i,…,api)作如下要求:
a a ... a
2 1i 2 2i
2 pi
1,
i 1, 2 ,..., p
即:ai为单位向量。 此外,
对F限制
1) Fi不Fj(i≠j, i, j = 1, …, p)互丌相关,即 协方差:Cov(Fi,Fj) = 0
2) F1是X1,X2,…,Xp的一切线性组合(系数满足上述要 求)中方差最大的,即
Var ( F1 ) max Var ( c i X i )
c ' c 1 i 1 p
其中c = (c1,c2,…,cp)' 3)F2是不F1丌相关的X1,X2,…,Xp一切线性组合中方差最 大的,…,Fp是不F1,F2,…,Fp-1都丌相关的X1,X2,… ,Xp的一切线性组合中方差最大的。 满足上述要求的综合指标向量F1,F2,…,Fp就是主成分。
i 1 k 1
达到足够大(一般在85%以上)为原则。
3.5 计算主成分得分
计算n个样品在m个主成分上的得分:
Fi a1i X 1 a 2 i X 2 ... a pi X p
i = 1,2,…,m
主成分分析程序代码
例 输出原始数据矩阵x x=[7.47,1.73,7.20,0.13,0.40,1.33,1.07,36.05;6.67,1.67,18.00,0.67,4.67,19. 00,5.50,26.00;3.32,2.48,36.43,2.17,7.15,22.99,11.95,60.95;3.00,2.29,19.0 2,1.62,6.90,3.57,18.50,49.14;1.67,3.08,48.98,3.69,29.66,31.50,65.53,272. 23;1.96,3.23,14.44,1.64,18.02,33.12,33.10,68.73;1.25,3.69,42.00,4.25,22. 22,19.94,53.50,70.00;1.47,9.87,49.15,3.48,4.11,22.37,19.92,67.10;2.02,0. 97,16.99,12.29,18.00,17.36,3.66,16.59;2.41,1.56,2.81,15.79,3.42,21.61,2. 44,24.26;1.00,2.15,40.16,14.27,5.74,53.90,9.24,27.90;1.70,0.77,3.13,5.00, 6.32,11.48,10.23,30.77;0.97,0.12,2.39,21.16,8.08,16.21,41.26,18.84;2.86, 3.29,29.70,1.91,17.04,41.90,12.05,31.90;1.41,5.58,44.18,6.51,10.88,31.98 ,12.92,31.69;1.02,0.86,13.08,1.59,11.15,21.91,26.67,22.28;0.84,0.24,2.16, 21.14,3.56,24.94,18.73,25.61;1.00,0.23,6.11,13.95,4.59,17.19,26.95,18.01 ;0.74,1.39,14.21,20.55,4.29,15.54,54.11,38.96;0.49,0.83,9.03,13.69,1.39,2 4.35,59.15,49.86;1.20,0.23,2.01,20.99,1.06,25.23,23.84,52.05;1.38,0.31,0. 71,5.27,0.98,3.97,68.88,33.79;1.79,0.63,8.00,4.67,4.58,6.92,65.92,61.50;1. 53,2.84,17.27,3.06,18.51,11.59,19.65,49.50;0.78,2.33,33.11,2.78,18.17,7. 28,75.46,51.56;3.83,1.00,53.83,3.53,3.50,0.17,52.67,111.67;2.50,2.67,49. 88,3.14,3.83,8.33,48.33,43.33;1.48,4.32,27.61,1.68,47.29,1.81,69.42,443. 10]
主成分分析
一、主成分分析基本原理概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法。
从数学角度来看,这是一种降维处理技术。
思路:一个研究对象,往往是多要素的复杂系统。
变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。
原理:假定有 n 个样本,每个样本共有p 个变量,构成一个n ×p 阶的数据矩阵,x11x12 x1px21 x22 x2p Xxn 1xn2xnp记原变量指标为x1,x2,,,xp ,设它们降维处理后的综合指标,即新变量为 z1,z2,z3,,,zm(m ≤p),则z 1l11x 1 l 12x 2l1p xpz 2 l 21x1 l22x2l2p xp ............ z mlm1x 1 l m2x 2lmp xp系数lij 的确定原则:①zi 与zj (i ≠j ;i ,j=1,2,,,m )相互无关;②z 是x 1 ,x ,,,x 的一切线性组合中方差最大者,z 是与z 不相关的x ,x ,,,1 2P2 1 1 2 xP 的所有线性组合中方差最大者;zm 是与z1,z2,,,, zm -1都不相关的x1,x ,,x P ,的所有线性组合中方差最大者。
2新变量指标z1,z2,,,zm 分别称为原变量指标x1,x2,,,xP 的第1,第2,,,第m 主成分。
从以上的分析可以看出,主成分分析的实质就是确定原来变量xj (j=1,2 ,,,p )在诸主成分zi (i=1,2,,,m )上的荷载lij (i=1,2,,,m ;j=1,2,,,p )。
从数学上可以证明,它们分别是相关矩阵m个较大的特征值所对应的特征向量。
二、主成分分析的计算步骤1、计算相关系数矩阵r11 r12 r1 pr21 r22 r2 pRrp1 rp2 rpprij(i,j=1,2,,,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为n(x ki x i)(x kj x j)r ijk1n n(x ki2(x kj x j)2 x i)k1k12、计算特征值与特征向量解特征方程I R0,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列1 2 p0;p 分别求出对应于特征值i的特征向量e i(i1,2,L,p),要求ei=1,即e ij21j1其中e ij表示向量e i的第j 个分量。
主成分分析法原理及应用
主成分分析法原理及应用主成分分析的基本思想是将高维数据转化为一个新的低维坐标系,新的坐标系由特征向量构成。
特征向量是通过对数据矩阵进行特征值分解得到的,每一个特征向量都代表数据的一个主成分,同时也代表了原始数据在该主成分上的投影。
通过选择前N个主成分,可以将原始数据的维度从D维降低到N维。
1.对原始数据进行标准化处理,即将每个维度上的数据减去其均值并除以标准差;2.构建数据的协方差矩阵;3.对协方差矩阵进行特征值分解,得到特征向量和特征值;4.将特征值按降序排列,选择前N个特征向量作为主成分。
1.数据降维:主成分分析可以将高维数据降低到低维空间中,从而减少数据的维度。
这对于处理高维数据而言非常重要,可以减少计算复杂度,并且有助于解决维度灾难问题。
2.特征提取:主成分分析可以通过选择前N个主成分来提取最具代表性的特征。
这对于处理大规模数据集、挖掘数据的基本模式和结构非常有用。
3.数据可视化:主成分分析可以将多维数据映射到二维或三维的空间中。
这样做可以简化数据的可视化和分析过程,帮助人们更好地理解数据的结构和关系。
4.噪声过滤:主成分分析可以通过去除数据的主成分中的低方差部分来剔除数据中的噪声。
这对于提高数据质量和预测性能非常有帮助。
5.数据预处理:主成分分析可以用于数据的预处理,比如去除冗余特征、去除缺失值等。
通过去除无关和缺失的特征,可以提高后续分析的准确性和效率。
总之,主成分分析是一种非常实用的数据分析技术。
它可以帮助人们更好地理解数据的结构和关系,并从中提取有用的信息。
在实际应用中,人们可以根据具体的需求和问题选择适当的主成分数目,以获得最佳的结果。
《主成分分析》课件
投资组合优化
通过主成分分析,找到不同投 资标的之间的关系,优化投资 组合的效益。
主成分分析在市场调研中的应用
1
偏好分析
通过主成分分析,找到消费者的特征
产品定位
2
和偏好,精准制定相应的市场策略。
通过主成分分析,找到消费者对产品
的不同评价因素,合理确定产品的定
位。
3
竞品分析
通过主成分分析,评估竞争对手的优 势和劣势,为企业提供相应的决策依 据。
慕课在线学习行业民调
通过主成分分析,找到影响学 习者的因素,比如课程质量、 师资水平、学习难度等方面。
降水量分析和气候变化
通过主成分分析和时间序列分 析,找到影响气象预测和气候 变化的主要原因和特征。
食品市场调查分析
通过主成分分析,找到影响消 费者购买健康食品的因素,制 定相应的市场营销策略。
标准化数据
通过Z-score标准化数据,去除不同变 量的量纲影响。
提取主成分
根据协方差矩阵的特征值和特征向量, 提取主成分。
如何选择主成分数量
特征值
根据特征值大于1的原则,选择主成分的数量。
累计贡献率
当累计贡献率到达一定阈值后,选择主成分数量。
图形分析
通过屏幕图和贡献率图来选择主成分数量。
主成分分析的优点和缺点
应用
主成分分析适用于变量之间没有明确因果关系 的情况下,提取它们的主成分;而因子分析需 要基于理论或先验知识,对变量进行选择和定 量,发现变量间的潜在因子。
主成分分析在金融分析中的应用
股票指数分析
通过主成分分析,找到影响整 个股票市场的因素,快速判断 股票市场的健康状况。
信用卡违约风险评估
通过主成分分析,找到导致信 用卡违约的因素,提高信用卡 贷款的质量。
什么是主成分分析精选全文
可编辑修改精选全文完整版主成分分析(principal component analysis, PCA)如果一组数据含有N个观测样本,每个样本需要检测的变量指标有K个, 如何综合比较各个观测样本的性质优劣或特点?这种情况下,任何选择其中单个变量指标对本进行分析的方法都会失之偏颇,无法反映样本综合特征和特点。
这就需要多变量数据统计分析。
多变量数据统计分析中一个重要方法是主成份分析。
主成分分析就是将上述含有N个观测样本、K个变量指标的数据矩阵转看成一个含有K维空间的数学模型,N个观测样本分布在这个模型中。
从数据分析的本质目的看,数据分析目标总是了解样本之间的差异性或者相似性,为最终的决策提供参考。
因此,对一个矩阵数据来说,在K维空间中,总存在某一个维度的方向,能够最大程度地描述样品的差异性或相似性(图1)。
基于偏最小二乘法原理,可以计算得到这个轴线。
在此基础上,在垂直于第一条轴线的位置找出第二个最重要的轴线方向,独立描述样品第二显著的差异性或相似性;依此类推到n个轴线。
如果有三条轴线,就是三维立体坐标轴。
形象地说,上述每个轴线方向代表的数据含义,就是一个主成份。
X、Y、Z轴就是第1、2、3主成份。
由于人类很难想像超过三维的空间,因此,为了便于直观观测,通常取2个或者3个主成份对应图进行观察。
图(1)PCA得到的是一个在最小二乘意义上拟合数据集的数学模型。
即,主成分上所有观测值的坐标投影方差最大。
从理论上看,主成分分析是一种通过正交变换,将一组包含可能互相相关变量的观测值组成的数据,转换为一组数值上线性不相关变量的数据处理过程。
这些转换后的变量,称为主成分(principal component, PC)。
主成分的数目因此低于或等于原有数据集中观测值的变量数目。
PCA最早的发明人为Karl Pearson,他于1901年发表的论文中以主轴定理(principal axis theorem)衍生结论的形式提出了PCA的雏形,但其独立发展与命名是由Harold Hotelling于1930年前后完成。
主成分分析(principal component analysis)
一、主成分分析的思想主成分分析是数据处理中常用的降维方法。
我们需要处理的数据往往是高维数据,把它看成是由某个高维分布产生。
高维分布的不同维之间可能具有较强的相关性,这也就为数据降维提供了可能。
为了叙述清楚主成分分析的思想,我们通过二维数据进行叙述,即数据是由随机向量 (X_1,X_2) 产生,并假设X_1=X_2 。
通过该分布得到的样本点如图下所示:如果我们把每个数据点用 (x_1,x_2) 表示,那么,每个数据是二维的。
实际上,容易发现,我们只需要将坐标系进行旋转,旋转到红色坐标系位置,此时,每个数据点在新坐标系下的表示形式为为 (x_1^{'},0) ,由于每个数据点的第二维坐标都是 0 ,所以每个数据点只需要用一个数表示就行了,这样就把数据的维数从二维降到了一维。
接下来考虑不是完全线性关系,但是具有强相关性的情况,如下图所示:在这种情况下,我们不可能通过坐标系的平移与旋转,使所有点都落在一根轴上,即不可能精确地把数据用一维表示。
但是注意到 (X_1,X_2) 仍然有强相关性,我们仍然将坐标轴旋转到红色位置,可以看出,将数据在 x_1^{'} 上的投影近似代表原数据,几乎可以完全反映出原数据的分布。
直观看,如果要将数据投影到某根轴,并用投影来表示原数据,将数据压缩成一维,那么投影到 x_1^{'} 是最好的选择。
因为投影到这跟轴,相比于投影到其他轴,对原数据保留的信息量最多,损失最小。
如何衡量保留的信息量呢?在主成分分析中,我们用数据在该轴的投影的方差大小来衡量,即投影后方差越大(即投影点越分散),我们认为投影到该轴信息保留量最多。
从这种观点看,投影到 x_1^{'} 确实是最好的选择,因为投影到这根轴,可使得投影点最分散。
我们将数据的中心平移到原点(即新坐标轴的原点在数据的中心位置),为了消除单位的影响,我们将数据的方差归一化。
进一步考虑如下数据分布:根据上述,如果要将数据压缩为一维的,那么应该选择 F_1 轴进行投影,如果用该投影表示原数据的损失过大,我们可以再选择第二根轴进行投影,第二根轴应该与 F_1 垂直(保证在两根轴上的投影是不相关的)并且使得数据在该轴上投影方差最大,即图中的 F_2 轴(如果是二维情况,第一根轴确定后,第二根轴就确定了。
第5章 主成分分析及应用
主成分分析是设法将原来众多具有一定相关性(比如p个指标),重新组合成一组新的互相无关的综合指标 来代替原来的指标。通常数学上的处理就是将原来p个指标作线性组合,作为新的综合指标。最经典的做法就 是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息 越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代 表原来p个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需 要再出现再F2中,用数学语言表达就是要求 ,则称F2为第二主成分,依此类推可以构造出第三、第四,……, 第p个主成分。
5.1.4主成分分析法的基本原理
主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机 向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换 成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最
开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成
目录
Байду номын сангаасCONTENTS
5.1主成分分 析法概概述
5.2主成分分 5.3主成分分析法 2.4主成分分析法 5.5主成分分 5.6用Python实
析法代数模型 的步骡和方法
的操作流程
析举例
主 成 分 分 析
主成分分析主成分分析(Principal Component Analysis,PCA)是一种常用的数据降维方法,它可以将高维度数据转换成低维度数据,并尽量保留数据的信息。
主成分分析的思想是通过对原始数据的线性变换,将其转换为一组新的变量,这些新变量是原始变量的线性组合。
这些新变量被称为主成分,它们可以解释原始数据的大部分方差,从而将原始数据的维度降低。
主成分分析的作用主成分分析可以用于数据预处理、数据压缩、数据可视化和模型建立等方面。
在数据预处理阶段,主成分分析可以用于去除数据中的冗余信息,减少数据噪声,提高数据的质量。
在数据压缩阶段,主成分分析可以将高维度数据压缩成低维度数据,从而节省存储空间和计算时间。
在数据可视化阶段,主成分分析可以将高维度数据转换成低维度数据,进行可视化展示,帮助用户更直观地理解数据和发现数据中隐藏的规律。
在模型建立阶段,主成分分析可以用于特征提取,减少维度的同时又不失去数据的重要特征,帮助用户更准确地建立模型,提高模型的预测准确率。
主成分分析的应用主成分分析广泛应用于各个领域,例如金融、医学、环境、工业等。
在金融领域,主成分分析可以用于建立风险评估模型,帮助投资者了解投资组合的风险。
在医学领域,主成分分析可以用于进行疾病预测,帮助医生快速准确地诊断疾病。
在环境领域,主成分分析可以用于分析空气质量和水质,帮助政府和公众了解环境状况。
在工业领域,主成分分析可以用于质量控制和生产优化,帮助企业降低成本和提高效率。
主成分分析的注意事项要注意主成分分析的前提条件,即原始数据必须为线性数据,在进行主成分分析前需要先对数据进行标准化处理。
此外,在进行主成分分析时,应根据实际问题选择合适的主成分数量,不能盲目追求降维程度,以免丢失重要信息。
同时,主成分分析的结果需要进行解释和验证,以确保分析结果的可靠性和有效性。
结语主成分分析是一种十分常用且十分有效的数据降维方法,它能够将高维度数据转换成低维度数据,并尽量保留数据的信息。
主成分分析
主成分分析法主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。
在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。
这些涉及的因素一般称为指标,在多元统计分析中也称为变量。
因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。
在用统计方法研究多变量问题时,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。
主成分分析正是适应这一要求产生的,是解决这类题的理想工具。
主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。
在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。
依次类推,I 个变量就有I个主成分。
这种方法避免了在综合评分等方法中权重确定的主观性和随意性,评价结果比较符合实际情况;同时,主成份分量表现为原变量的线性组合,如果最后综合指标包括所有分量,则可以得到精确的结果,百分之百地保留原变量提供的变差信息,即使舍弃若干分量,也可以保证将85%以上的变差信息体现在综合评分中,使评价结果真实可靠。
是在实际中应用得比较广的一种方法。
由于其第一主成份(因子)在所有的主成分中包含信息量最大,很多学者在研究综合评价问题时常采用第一主成分来比较不同实体间的差别。
综上所述,该方法的优点主要体现在两个方面:1.权重确定的客观性;2.评价结果真实可靠。
1.主成分分析的基本原理主成分分析:把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。
)记原来的变量指标为x1,x2,…,xP,它们的综合指标——新变量指标为z1,z2,…,zm(m≤p),则z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m 主成分,在实际问题的分析中,常挑选前几个最大的主成分。
第五章 主成分分析课件
0
p
性质2 主成分的总方差等于原始变量的总方
差, p
p
i
2 i
i 1
i 1
性质3 主成分 Yk 与原始变量 X i 的相关系数
Yk , X i
k i
uki, k, i 1,2,
,
p
为并称其为主成分载
荷。
§5.3 主成分的选取
称
k
k i
为第
i 个主成分的方差贡献率
m
称
m
i
i
i1 p
X1, X 2 , , X p 的线性组合中方差最大者(即
cov Yp ,Yi 0,i p, DYp 最大)。
其中: DYi DUiX UiDX Ui Ui Ui
DX 协方差阵
cov Yi ,Yj cov U iX ,U j X U i covX , X U j U i U j
Y1,Y2 , ,Yp 分别称为原始变量 X 的第 一主成分、第二主成分、…、第 p 主成分。
二、主成分的推导
第一主成分:构造目标函数
1U1, U1 U1 U1U1 1
对 U1 求导
1
U 1
2 U1
2U1
0
得 U1 U1 即 U 为正交阵, 为 Y1 的方差值,
若 的特征根为 1 2 p 0,Y1的最大 方差值为 1,相应的单位化特征向量为 U1 。
u22 X 2
u2p X p
Yp u p1 X1 u p2 X 2 u pp X p
其中
即 Y U X
uk21 uk22 uk2p 1,即UkUk 1, k 1,2, , p
原则:
1、Yi 与 Y j 不相关 i j,i, j 1,2, , p 2、 Y1 是 X1, X 2 , , X p 的线性组合中方差最大者 (即 DY1 最大);Y2 与 Y1不相关的 X1, X 2 , , X p 的线性组合中方差最大者(即 covY1,Y2 0, DY2 最大);…;Y p 与 Y1,Y2 , ,Yp1 都不相关的
主成分分析全
• 根据因子载荷矩阵中的数据计算特征向量 矩阵。
方法1:Transform—Compute 方法2:在Excel中计算
主成分表达式
Y1
0.075 X 1*
0.441X
* 2
0.450
X
* 3
0.544
X
* 4
0.550
X
* 5
Y2
0.787
X
* 1
0.519
X
* 2
0.106
X
* 3
0.254
X
F1
u11 X 1*
u21
X
* 2
F2
u12
X
* 1
u22
X
* 2
u
p1
X
* p
u
p
2
X
* p
Fp
u1
p
X
* 1
u2
p
X
* 2
u
pp
X
* p
• 这些系数称为主成分载荷(loading),它表示 主成分和原先各变量的线性相关系数。
解析主成分的实际意义
• 从系数的大小、系数的符号上进行分析。 • 系数绝对值较大,则表明该主成分主要综合了绝
2.576
51.520
51.520
1.389
27.790
79.310
.961
19.222
98.532
.047
.932
99.465
.027
.535
100.000
Co mp one nt Ma tri xa
Component
1
2
3
4
x1
主成分分析法的原理和步骤
主成分分析法的原理和步骤
主成分分析(Principal Component Analysis,PCA)是一种常用的降维技术,主要用于数据预处理和特征提取。
其原理是通过线性变换将原始数据转换为具有特定性质的新坐标系,使得转换后的坐标系上数据的方差最大化。
主成分分析的步骤如下:
1. 标准化数据:对原始数据进行标准化处理,即对每个特征进行零均值化。
这是为了消除不同量纲的影响。
2. 计算协方差矩阵:计算标准化后的数据的协方差矩阵。
协方差矩阵描述了不同特征之间的相关性。
3. 计算特征值和特征向量:对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。
特征值表示新坐标系上每个特征的方差,而特征向量则表示原始特征在新坐标系上的投影。
4. 选择主成分:按照特征值的大小排序,选择前k个特征值对应的特征向量作为主成分。
选择的主成分应该能够解释数据中大部分的方差。
5. 构造新的特征空间:将选择的主成分组合起来,构成新的特征空间。
这些主成分通常被视为数据的“重要”特征,用于表示原始数据。
通过主成分分析,可以将原始数据降维到低维度的子空间上,并且保留了原始数据中的信息。
这样做的好处是可以减少数据维度,简化模型,降低计算复杂度。
同时,通过选择合适的主成分,还可以实现数据的压缩和特征的提取。
主成分分析
表1是某市工业部门13个行业的8项重要经济指标的数
主成分分析实例 2
据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。
主成分分析的目的与功能
在多变量分析中,分析者所面临的最大难题是
解决众多变量之间的关系问题。进行数据降维 可以用尽可能少的新指标取代原来较多的指标 变量,并能包含原来指标变量所包含的大部分 信息 。 解决多元回归分析中的多重共线性问题。 综合评价中,人们总是尽可能多地选取评价指 标,而这些评价指标之间往往相互重叠,信息 冗余是不可避免的。主成分分析则可以把这众 多指标所蕴含的信息压缩到少数几个主成分指 标,然后给出这几个主成分指标的权重,综合 到一个评价指标中。
y1 是反映学生身材魁梧与否的综合指标
y2 是反映学生体形特征的综合指标。
表1是某市工业部门13个行业的8项重要经济指标的数 据,这8项经济指标分别是: X1:年末固定资产净值,单位:万元; X2:职工人数据,单位:人; X3:工业总产值,单位:万元; X4:全员劳动生产率,单位:元/人年; X5:百元固定资产原值实现产值,单位:元; X6:资金利税率,单位:%; X7:标准燃料消费量,单位:吨; X8:能源利用效果,单位:万元/吨。
表1 某市工业部门13个行业8项指标
X1 冶金 电力 煤炭 化学 机器 建材 森工 食品 纺织 缝纫 皮革 造纸 文教 90342 4903 6735 49454 139190 12215 2372 11062 17111 1206 2150 5251 14341 X2 52455 1973 21139 36241 203505 16219 6572 23078 23907 3930 5704 6155 13203 X3 101091 2035 3767 81557 215898 10351 8103 54935 52108 6126 6200 10383 19396 X4 19272 10313 1780 22504 10609 6382 12329 23804 21796 15586 10870 16875 14691 X5 82 34.2 36.1 98.1 93.2 62.5 184.4 370.4 221.5 330.4 184.2 146.4 94.6 X6 16.1 7.1 8.2 25.9 12.6 8.7 22.2 41 21.5 29.5 12 27.5 17.8 X7 197435 592077 726396 348226 139572 145818 20921 65486 63806 1840 8913 78796 6354 X8 0.172 0.003 0.003 0.985 0.628 0.066 0.152 0.263 0.276 0.437 0.274 0.151 1.574
第五讲 主成分分析(PCA)
Clementine中 PCA/Factor 的应用主成分分析P C A(P r i n c i p a lc o m p o n e n t sa n a l y s i s )主成 分分析 主成分分析思想和作用 主成分分析的数学模型 主成分分析的性质 主成分分析的分析步骤1主成分分析的基本思想主成分分析的实质:降维,即用较少的变量来 代替原来较多的变量。
基本思想:由于多个变量之间存在着一定程度 的相关性,可以通过对原始变量相关矩阵或协 方差矩阵内部结构关系的研究,利用原始变量 的线性组合形成几个综合指标(主成份),在 保留原始变量主要信息的前提下起到降维和简 化问题的作用。
作用:处理多变量(多指标)问题,减少分析 问题的复杂性。
2主成分分析的数学模型设p 个变量构成的p 维随机向量为 设随机向量均值为 µ ,变异系数矩阵为 Σ 。
对X 进行线性变换,可以形成新的综合变量Y 。
Y1 = µ11 X 1 + µ12 X 2 + … + µ1 p X pY2 = µ 21 X 1 + µ 22 X 2 + … + µ 2 p X p…………Yp = µ p1 X 1 + µ p 2 X 2 + … + µ pp X p3主成分分析的数学模型用矩阵表示为 Y = µ ′X ,对上述方程组加以约束: 1 . ,即 ( i = 1 , 2 , …p ) 2 . 与 不相关( ; i ,j= 1 , 2 , …p ) 3 . 是 的一切满足原则1 的线性组合中方 差最大者; 是与 不相关的所有线性组合中方差 次大者;以此类推。
基于以上三条原则决定的综合变量 分别称 为原始变量的第一、第二、……、第p 个主成分。
4主成分分析的性质性质1 主成分的协方差矩阵是由特征根组成的 对角阵 性质2 主成分的总方差等于原始变量的总方差 性质3 主成分与原始变量的相关系数与特征根 有关,称之为因子载荷量 性质4 忽略一些带有较小方差的主成分不会给 总方差带来太大的影响。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
讨论p个指标的线性组合的问题,而这些新的指标F1,
F2,…,Fk(k≤p),按照保留主要信息量的原则充分
反映原指标的信息,并且相互独立。
这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分析通 常的做法是,寻求原指标的线性组合Fi。
F1 u11 X 1 u21 X 2 u p1 X p F2 u12 X 1 u22 X 2 u p 2 X p Fp u1 p X 1 u2 p X 2 u pp X p
12 12 1 p 2 2 2p 21 Σx 2 p1 p 2 p
由于Σ x为非负定的对称阵,则有利用线性代 数的知识可得,必存在正交阵U,使得
0 1 U ΣXU p 0
为了方便,我们在二维空间中讨论主成分的几 何意义。设有n个样品,每个样品有两个观测变量xl 和x2,在由变量xl和x2所确定的二维平面中,n个样 本点所散布的情况如椭圆状。
主 平移、旋转坐标轴 x2 成 • • 分 • • • • • 分 •••• • • 析 • • •• • • • •• 的 • • 几 • •• • • 何 • • • • 解 •• •• 释 •
i
U i u1i, u 2 i, , u pi
i 1, 2 , , P
下面我们来看,是否由U的第一列元素所构成为原始 变量的线性组合是否有最大的方差。
设有P维正交向量 a1 a11 , a 21 , , a p1
F1 a11 X 1 a p1 X p a X
u1 0 所以 a 2
则,对p维向量 a2 ,有
p
u i )2 a 2 i a 2 u i u i a 2 i ( a 2 u i ) 2 2 ( a 2 V ( F2 ) a 2
p
p
u i u i a 2 2 a 2
第五章
主成分分析
汇报什么?
• 假定你是一个公司的财务经理,掌握了公司的所有 数据,比如固定资产、流动资金、每一笔借贷的数 额和期限、各种税费、工资支出、原料消耗、产值、 利润、折旧、职工人数、职工的分工和教育程度等 等。 • 如果让你向上面介绍公司状况,你能够把这些指标 和数字都原封不动地摆出去吗? • 当然不能。 • 你必须要把各个方面作出高度概括,用一两个指标 简单明了地把情况说清楚。
三、精度分析
1)贡献率:第i个主成分的方差在全部方差中所占
比重 i
的信息,有多大的综合能力 。 2)累积贡献率:前k个主成分共有多大的综合能力, 用这k个主成分的方差和在全部方差中所占比重
u11 u12 u1 p u u u 22 2p 令 U (u1 ,, u p ) 21 u u u p2 pp p1
则实对称阵A属于不同特征根所对应的特征向量 是正交的,即有U’U=UU’=I
二、主成分的推导
(一) 第一主成分 设X的协方差阵为
满足如下的条件:
1.每个主成分的系数平方和为1,即:
u u u 1
2 1i 2 2i 2 pi
2.主成分之间相互独立,即无重叠的信息,即:
Cov ( Fi, F j) 0, i j , i , j 1, 2 , , p
3.主成分的方差依次递减,重要性依次递减,即:
Var( F1) Var ( F2 ) Var ( F p )
F1
x1
如果我们将xl 轴和x2轴先平移,再同时按逆时针方向 旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。
根据旋转变换的公式:
y1 x1 cos x2 sin y1 x1 sin x2 cos y1 cos y2 sin sin x1 Ux cos x2
息起到了浓缩作用。
Fl,F2除了可以对包含在Xl,X2中的信息起着 浓缩作用之外,还具有不相关的性质,这就使得
在研究复杂的问题时避免了信息重叠所带来的虚
假性。二维平面上的各点的方差大部分都归结在
Fl轴上,而F2轴上的方差很小。
Fl和F2称为原始变量x1和x2的综合变量。F1简
化了系统结构,抓住了主要矛盾。
1 2 Ua1 a1 a1 U V ( F1 ) a1 p 1 u 1 2 u2 a a u ,u , ,u 1 1 2 p 1 p u p
(2)选择几个主成分。主成分分析的目的是 简化变量,一般情况下主成分的个数应该小于原 始变量的个数。关于保留几个主成分,应该权衡 主成分个数和保留的信息。 (3)如何解释主成分所包含的经济意义。
§2
数学模型与几何解释
假设我们所讨论的实际问题中,有p个指标,我 们把这p个指标看作p个随机变量,记为X1,X2,…, Xp,主成分分析就是要把这p个指标的问题,转变为
U为旋转变换矩阵,它是正交矩阵,即有
U U1 , UU I
旋转变换的目的是为了使得n个样品点
在Fl轴方向上的离散程度最大,即Fl的方差
最大。
变量Fl代表了原始数据的绝大部分信息,
在研究某经济问题时,即使不考虑变量F2也
无损大局。经过上述旋转变换原始数据的大
部分信息集中到Fl轴上,对数据中包含的信
§3
主成分的数学解释及性质
一、两个线性代数的结论
1.若A是p阶实对称阵,则一定可以找到正交阵U,使
1 0 0 2 1 U AU 0 0
0 0 p p p
其中 i , i 1 .2 . p 是A的特征根。
2.若上述矩阵A的特征根所对应的单位特征向量 为 u 1 , , u p
载荷 矩阵
X ( X 1 , X 2 , , X p )
§4
一、均值
主成分的性质
E ( U x ) U
二、方差为所有特征根之和
i 1
Var ( Fi )
p
2 2 2 1 2 p 1 2 p
说明主成分分析把P个随机变量的总方差分解成为 P个不相关的随机变量的方差之和。 协方差矩阵的对角线上的元素之和等于特征根之和。
i
Δi
t
1 0 -0.041 0.948 1 0.057 -0.124 l -0.102 -0.414 l -0.112 1
-0.282 -0.836
主成分分析是把各变量之间互相关联的复
杂关系进行简化分析的方法。
在社会经济的研究中,为了全面系统的分
析和研究问题,必须考虑许多经济指标,这些
指标能从不同的侧面反映我们所研究的对象的
主成分分析的基本思想
• 每个人都会遇到有很多变量的数据。 • 比如全国或各个地区的带有许多经济和社会变量的数据;各 个学校的研究、教学等各种变量的数据等等。 • 这些数据的共同特点是变量很多,在如此多的变量之中,有 很多是相关的。人们希望能够找出它们的少数“代表”来对 它们进行描述。 • 本章和下一章就介绍两种把变量维数降低以便于描述、理解 和分析的方法:主成分分析(principal component analysis) 和因子分析(factor analysis)。实际上主成分分析可以说是 因子分析的一个特例。
§1
主成分分析基本思想
一项十分著名的工作是美国的统计学家斯
通 (stone) 在 1947 年关于国民经济的研究。他曾利
用美国1929一1938年各年的数据,得到了17个反
映国民收入与支出的变量要素,例如雇主补贴、
消费资料和生产资料、纯公共支出、净增库存、
股息、利息外贸平衡等等。
在进行主成分分析后,竟以 97.4%的精度,用 三新变量就取代了原17个变量。 根据经济学知识,斯通给这三个新变量分别命
特征,但在某种程度上存在信息的重叠,具有
一定的相关性。
主成分分析试图在力保数据信息丢失
最少的原则下,对这种多变量的截面数据表
进行最佳综合简化,也就是说,对高维变量
空间进行降维处理。
很显然,识辨系统在一个低维空间要
比在一个高维空间容易得多。
在力求数据信息丢失最少的原则下,对高维的 变量空间降维,即研究指标体系的少数几个线性组 合,并且这几个线性组合所构成的综合指标将尽可 能多地保留原来指标变异方面的信息。这些综合指 标就称为主成分。 要讨论的问题是: (1)基于相关系数矩阵还是基于协方差矩阵做主 成分分析。当分析中所选择的经济变量具有不同的 量纲,变量水平差异很大,应该选择基于相关系数 矩阵的主成分分析。
i au iu ia
i 1
p
i (au i ) 2
i 1
p
1 (au i ) 2
p
1 au i u ia
i 1
i 1 p
1aU U a 1a a 1
当且仅当a1 =u1时,即 F1 u11 X 1 u p1 X p 时, 有最大的方差1。因为Var(F1)=U’1xU1=1。 如果第一主成分的信息不够,则需要寻找第二
主成分。
(二) 第二主成分
在约束条件 cov( F1 , F2 ) 0 下,寻找第二主成分
F2 u12 X 1 u p 2 X p
因为 cov( F1 , F 2 ) cov( u 1 x , a 2 x) a2 u 1 1 a 2 u1 0
由图可以看出这n个样本点无论是沿着xl轴方向或x2轴方向都
x1
具有较大的离散性,其离散的程度可以分别用观测变量xl的方差和 x2的方差定量地表示。显然,如果只考虑xl和x2中的任何一个,那 么包含在原始数据中的经济信息将会有较大的损失。