主成分分析也称主分量分析

合集下载

主成分分析

引言：主成分分析也称主分量分析，是由霍特林于1933 年首先提出的。

主成分分析是利用降维的思想，在损失很少信息的前提下，把多个指标转化为几个综合指标的多元统计方法。

通常把转化生成的综合指标称为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分之间互不相关，使得主成分比原始变量具有某些更优越的性能。

这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息，从而更容易抓住主要矛盾，揭示事物内部变量之间的规律性，同时使得问题得到简化，提高分析效率。

本文用主成分分析的方法对某市14 家企业的经济效益进行分析。

[1] 在处理涉及多个指标问题的时候，为了提高分析的效率可以不直接对p 个指标构成的P维随机向量X=(X1, X2, X3, , Xp)进行分析，而是先对向量x进行线性变换，形成少数几个新的综合变量，使得个综合变量之间相互独立且能解释原始变量尽可能多的信息，这样在意损失很少部分信息为代价的前提下，达到简化数据结构，提高分析效率的目的。

主成分的基本思想就是在保留原始变量尽可能多的前提下达到降维的目的，从而简化问题的复杂性并抓住问题的主要矛盾。

而这里对于随机变量X1，X2，X3,……,Xp而言，其协方差矩阵或相关矩阵正是对各变量离散程度与变量之间的相关程度的信息的反映，而相关矩阵不过是将原始变量标准化后的协方差矩阵我们所说的保留原始变量尽可能多的信息，也就是指生成的较少的综合变量 (主成分)的方差和尽可能接近原始变量方差的总和。

因此在实际求解主成分的时候，总是从原始变量的协方差矩阵或相关矩阵的结构分析入手。

一般来说从原始变量的协方差矩阵出发求得的主成分与从原始变量的相关矩阵出发求得的主成分是不同的本文我们用从原始变量的相关矩阵出发求得的主成分进行分析。

[5]一、材料与方法1.1数据材料表1 14 家企业的利润指标的统计数据1.2分析方法本文采用多元统计学方法，选取14家企业作为样本收集每家企业的8个不同的利润指标，利用spss统计软件做主成分分析，给出载荷阵，并通过载荷阵给出主成分系数表，写出主成分表达式以此给出14个企业的得分值，最后根据主成分构造一个综合性评价指标，对14个企业进行综合排名。

主成分分析法

主成分分析法什么事主成分分析法:主成分分析（principal components analysis , PCA 又称：主分量分析，主成分回归分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是，这也不是一定的，要视具体应用而定。

主成分分析的基本思想：在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具同样，在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。

如上所述，主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。

根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。

(完整版)主成分分析在STATA中的实现以及理论介绍

第十二章主成分分析主成分分分析也称作主分量分析，是霍特林(Hotelling)在1933年首先提出。

主成分分析是利用降维的思想，在损失较少信息的前提下把多个指标转化为较少的综合指标。

转化生成的综合指标即称为主成分，其中每个主成分都是原始变量的线性组合，且各个主成分互不相关。

Stata 对主成分分析的主要内容包括：主成分估计、主成分分析的恰当性（包括负偏协方差矩阵和负偏相关系数矩阵、KMO(Kaiser-Meyer-Olkin)抽样充分性、复相关系数、共同度等指标测度）、主成分的旋转、预测、各种检验、碎石图、得分图、载荷图等。

p j n i b a y ij j i ij ,,2,1,,2,1,' ==+=ε 主成分的模型表达式为：pp j i i i i diag v v v v i p V V C λλλλλλλ≥≥≥=∧=''==∧=∑ 2121),,,,(01其中，a 称为得分，b 称为载荷。

主成分分析主要的分析方法是对相关系数矩阵（或协方差矩阵）进行特征值分析。

Stata 中可以通过负偏相关系数矩阵、负相关系数平方和KMO 值对主成分分析的恰当性进行分析。

负偏相关系数矩阵即变量之间两两偏相关系数的负数。

非对角线元素则为负的偏相关系数。

如果变量之间存在较强的共性，则偏相关系数比较低。

因此，如果矩阵中偏相关系数较高的个数比较多，说明某一些变量与另外一些变量的相关性比较低，主成分模型可能不适用。

这时，主成分分析不能得到很好的数据约化效果。

Kaiser-Meyer-Olkin抽样充分性测度也是用于测量变量之间相关关系的强弱的重要指标，是通过比较两个变量的相关系数与偏相关系数得到的。

KMO介于0于1之间。

KMO越高，表明变量的共性越强。

如果偏相关系数相对于相关系数比较高，则KMO比较低，主成分分析不能起到很好的数据约化效果。

根据Kaiser（1974），一般的判断标准如下：0.00-0.49,不能接受（unacceptable）;0.50-0.59,非常差（miserable）；0.60-0.69，勉强接受（mediocre）；0.70-0.79,可以接受（middling）；0.80-0.89，比较好（meritorious）；0.90-1.00,非常好（marvelous）。

主成分分析

主成分分析
又称主分量分析，是将多个变量通过线性变换以选出较少个数重要变量的一种方法。

设原来有p个变量x1,x2,…,xp,为了简化问题，选一个新变量z，要求z尽可能多地反映p个变量的信息，以此来选择l1,l2,…,lp,当l1,l2,…,lp选定后,称z为x1,x2,…,xp的主成分(或主分量)。

有时仅一个主成分不足以代表原来的p个变量，可用q(<p)个互不相关的呈上述形式的主成分来尽可能多地反映原p个变量的信息。

用来决定诸系数的原则是，在的约束下，选择l1,l2,…,lp使z的方差达到最大。

在根据样本进行主成分分析时又可分为R型分析与Q型分析。

前者是用样本协差阵(或相关阵)的特征向量作为线性函数的系数来求主成分;后者是由样品之间的内积组成的内积阵来进行类似的处理，其目的是寻找出有代表性的"典型"样品，这种方法在地质结构的分析中常使用。

主成分分析法概念及例题

主成分分析法主成分分析（principal components analysis，PCA）又称：主分量分析，主成分回归分析法目录[显示]1 什么是主成分分析法2 主成分分析的基本思想3 主成分分析法的基本原理4 主成分分析的主要作用5 主成分分析法的计算步骤6 主成分分析法的应用分析o案例一：主成分分析法在啤酒风味评价分析中的应用[1]1 材料与方法2 主成分分析法的基本原理3 主成分分析法在啤酒质量一致性评价中的应用4 结论7 参考文献[编辑]什么是主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。

它是一个线性变换。

这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是，这也不是一定的，要视具体应用而定。

[编辑]主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具。

同样，在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。

主成分分析法

主成分分析法什么事主成分分析法：主成分分析（principal components analysis，PCA）又称：主分量分析，主成分回归分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。

它是一个线性变换。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是，这也不是一定的，要视具体应用而定。

主成分分析的基本思想：在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具。

同样，在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。

如上所述，主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。

根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。

主成分分析(principalcomponentsanalysis,PCA)又称：主分量分析,主成分回归分析法

主成分分析（principal components analysis，PCA）又称：主分量分析，主成分回归分析法什么是主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。

它是一个线性变换。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是，这也不是一定的，要视具体应用而定。

[编辑]主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具。

同样，在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。

如上所述，主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。

根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。

常用统计方法

主成分分析主成分分析（principal component analysis）将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。

又称主分量分析。

在实际课题中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个课题的某些信息。

但是，在用统计分析方法研究这个多变量的课题时，变量个数太多就会增加课题的复杂性。

人们自然希望变量个数较少而得到的信息较多。

在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题的信息有一定的重叠。

主成分分析是对于原先提出的所有变量，建立尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

主成分分析首先是由K.皮尔森对非随机变量引入的，尔后H.霍特林将此方法推广到随机向量的情形。

信息的大小通常用离差平方和或方差来衡量。

（1）主成分分析的原理及基本思想。

原理：设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析，也是数学上处理降维的一种方法。

基本思想：主成分分析是设法将原来众多具有一定相关性（比如P个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。

通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。

最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var(F1)越大，表示F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现再F2中，用数学语言表达就是要求Cov(F1, F2)=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

化学计量学常用的多元分析方法

化学计量学常用的多元分析方法计算机联用技术实现了仪器分析的自动化，随之而来的是实验数据的大规模增加，采用更高阶的数学与统计工具从海量的实验数据中提取信息比以往任何时期更加迫切。

化学计量学中各种新的模型与方法正在被大量提出，但其中最重要，同时也是最基本的就是主成分分析 (Principal Component Analysis PCA)，偏最小二乘回归(Partial Least Squares RegressigriPLS)方法。

除了这两种多元分析方法，本节还介绍后面将涉及的一种基于 PCA 的重要分类方法一一柔性独立建模类类比(Soft Independent Modeling of Class Analogy SIMCA)分类方法。

1.1主成分分析主成分分析也称主分量分析，是一种利用降维的思想把多个变量转化成少数几个综合性变量(即主成分)的多元统计分析方法。

要求各主成分都是原始变量的线性组合，且各主成分之间互不相关(线性无关)，这些主成分能够反映始变量的绝大部分信息，所含信息互不重叠。

不妨假设用p 个变量X i , X 2,…,X p 来描述研究对象，那么，这p 个变量就构成了 p 维随机向量X=(X i ,X 2,…,X p )T .设随机向量X 的均值向量为(=(似,…，e )T ，协方差矩阵为工.在实际问题中，卩和工未知，需要估计。

假设p 维随机向量X 的一组(n 次)随机观测(样本)矩阵X=(X ij )nR, (X ii ,…,X ip )T 表示X 的第i 次观测向量，i =1,2,…,n.首先用X (X j ,,X p )T 估计总体X 的计总体X 的协方差矩阵为工其中然后求出A 特征值M=1,…,p )0因A 是非负定的，记m 为其秩，即m trac (A)，则A 有m 个大于零的特征值(允许重复)，设入滋A •羽m >0,入对应的标准化(单位化)特征向量为PC i, i =1,…,n.由线性代数知识可知：PC 1, ,PC p 相互正交。

主成分分析法

11.2 主成分分析主成分分析（Principal Components Analysis ）也称主分量分析，是由Hotelling 于1933年首先提出的。

主成分分析是利用降维的思想，把多个指标转化为少数几个综合指标的多元统计分析方法。

本节主要介绍主成分分析的基本理论和方法，并结合实例讨论该方法在社会、经济研究中的应用。

11.2.1主成分分析的基本思想在经济实证问题研究中，为了全面、系统地分析问题，必须考虑众多对某经济过程有影响的因素。

所涉及的因素称为指标。

在多元统计分析中也称为变量。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得到的统计数据反映的信息在一定程度上有重叠。

在用统计方法研究多变量问题时，变量太多会增大计算量和增加分析问题的复杂性，人们自然希望在进行定量分析的过程中涉及的变量较少，而得到的信息量又较多。

主成分分析是解决这一问题的理想工具。

因为经济问题涉及的众多变量之间既然有一定的相关性，就必然存在着支配作用的共同因素，找出影响某一经济过程的几个综合指标，使综合指标为原来变量的线性组合。

综合指标不仅保留了原始变量的主要信息，彼此之间又不相关，又比原始变量具有某些更优越的性质，使得在研究复杂的经济问题时容易抓住主要矛盾。

(1)主成分的几何意义与一般数学模型1．主成分的几何意义为了方便，在二维空间中讨论主成分的几何意义。

设有n 个样本单位，每个样本单位有两个观测变量21x x 和，在由变量21x x 和所确定的二维平面中，n 个样本点所散布的情况如带状，可以看出这n 个样本点无论是沿着1x 轴方向或2x 轴方向都具有较大的离散性，其离散的程度可以分别用观测变量1x 的方差和2x 的方差定量地表示。

显然，如果只考虑1x 和2x 中的任何一个，那么包含原始数据中的经济信息将会有较大的损失。

如果将1x 轴和2x 轴同时按逆时针方向旋转角度，得到新坐标轴1y 和2y 是两个新变量。

主成分分析法简介

主成份分析法（Principal Component Analysis,PCA ）也称主分量分析或矩阵数据分析，是统计分析常用的一种重要的方法，在系统评价、质量管理和发展对策等许多方面都有应用。

它利用数理统计方法找出系统中的主要因素和各因素之间的相互关系，由于系统地相互关系性，当出现异常情况时或对系统进行分析时，抓住几个主要参数的状态，就能把握系统的全局，这几个参数放映了问题的综合的指标，也就是系统的主要因素。

主成分分析法是一种把系统的多个变量转化为较少的几个综合指标的统计分析方法，因而可将多变量的高维空间转化为低维的综合指标问题，能放映系统信息量最大的综合指标为第一主成分，其次为第二主成分。

主成分的个数一般按需放映的全部信息的百分比来决定，几个主成分之间是互不相关的。

主成分分析法的主要作用是：发现隐含于系统内部的结构，找出存在于原有各变量之间的内在联系，并简化变量；对变量样本进行分类，根据指标的得分值在指标轴空间进行分类处理。

主成分分析是数学上对数据降维的一种方法。

其基本思想是设法将原来众多的具有一定相关性的指标X 1，X 2，…，X P （比如p 个指标），重新组合成一组较少个数的互不相关的综合指标F m 来代替原来指标。

那么综合指标应该如何去提取，使其既能最大程度的反映原变量X P 所代表的信息，又能保证新指标之间保持相互无关（信息不重叠）。

设F 1表示原变量的第一个线性组合所形成的主成分指标，即11112121...p p F a X a X a X =+++,由数学知识可知，每一个主成分所提取的信息量可用其方差来度量，其方差Var(F 1)越大，表示F 1包含的信息越多。

常常希望第一主成分F 1所含的信息量最大，因此在所有的线性组合中选取的F 11应该是X 1，X 2，…，X P 的所有线性组合中方差最大的，故称F 1为第一主成分。

如果第一主成分不足以代表原来p 个指标的信息，再考虑选取第二个主成分指标F 2，为有效地反映原信息，F 1已有的信息就不需要再出现在F 2中，即F 2与F 1要保持独立、不相关，用数学语言表达就是其协方差Cov(F 1, F 2)=0，所以F 2是与F 1不相关的X 1，X 2，…，X P 的所有线性组合中方差最大的，故称F 2为第二主成分，依此类推构造出的F 1、F 2、……、F m 为原变量指标X 1，X 2，…，X P 第一、第二、……、第m 个主成分。

4遥感图像变换——主成分分析(教案).docx

实验四遥感图像变换——主成分分析一、主成分分析的思想与原理主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数儿个综合指标。

在实证问题研究中，为了全面、系统地分析问题，必须考虑众多影响因素。

这些涉及的因索一•般称为指标，在多元统计分析屮也称为变最。

因为每个变量都在不同程度上反映了所研究问题的某些信息，并R指标Z间彼此冇一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。

在实际中研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具。

而把主成分方法用在遥感图像的变换处理上称为遥感图像的主成分变换（K ・L变换）。

原理如下：有矩阵：T-其中，m和n分別为波段数（或称变量数）和每幅图像中的像元数；矩阵中每一行矢量表示一个波段的图像。

对于一般的线性变换Y二TX,如果变换矩阵T是正交矩阵，并且它是由原始图像数据矩阵X 的斜方差矩阵S的特征向量所组成，则此式的变换称为K-L变换。

K-L变换的具体过程如F:第一步，根据原始图像数据矩阵X,求出它的协方差矩阵S, X的协方差矩阵为：■冈］—式中：I-QX--；（即为笫i个波段的均值）；113 ；S是一个实对称矩阵。

笫二步，求S矩阵的特征值X和特征向量，并H成变换矩阵T。

考虑特征方程:式中，I为单位矩阵,U为特征向量。

解上述的特征方程即可求出协方差矩阵S的各个特征值人比坷3・心/排列，求得各特征值对应的单位特征向量（经归一化）UJ：若以各特征方虽为列构成矩阵，即u・・［气1—U矩阵满足:U T U=UU T=I （单位矩阵），则U矩阵是正交矩阵。

U矩阵的转置矩阵即为所求的K-L变换的变换矩阵To有了变换矩阵T,将其代入Y=TX,则:式中Y矩阵的行向护为第j主成分。

经过K-L变换后，得到一组5个）新的变量（即Y的各个行向量），它们依次被称为第一主成分、第二主成分、…第m主成分。

主成分分析

主成分的几何解释
主成分分析用数学模型表达，即对X进行正交变换，在几何上就是作一个坐标旋转。因此，主成分分析在二维空间中有明显的几何意义。假设共有n个样品，每个样品都测量了两个指标（X1，X2），它们大致分布在一个椭圆内：
事实上，散点的分布总有可能沿着某一个方向略显扩张，这个方向就把它看作椭圆的长轴方向。显然，在坐标系 x1Ox2中，单独看这n个点的分量X1和X2，它们沿着x1方向和x2方向都具有较大的离散性，其离散的程度可以分分别用的X1方差和X2的方差测定。如果仅考虑X1或X2中的任何一个分量，那么包含在另一分量中的信息将会损失，因此，直接舍弃某个分量不是“降维”的有效办法。
Y1 = T1′ X 。
第一主成分的约束条件
第二主成分为，第二主成分为，满足 T2′T2 = 1 ，且 Cov(Y2 , Y1 ) = Cov(T2′ X, T1′ X) = 0 ，使得 D(Y2 ) = T2′ ΣT2 达到最大的 Y2 = T2′ X 。一般情形，主成分为，一般情形，第 k 主成分为，满足 Tk ′Tk = 1 ，到最大的 Yk = Tk ′ X 。，使得且 Cov(Yk , Yi ) = Cov(Tk ′ X, Ti′ X) = 0 （ i < k ）使得 D(Yk ) = Tk ′ ΣTk 达，
在这p个新变量Y中可以找到m个（m<p）的变量（y1,y2,…,ym）能解释原始数据中大部分方差所包含的信息。此时我们将原始的p个变量X缩减为m个新变量y，通过m个新变量来传递原始变量的大部分信息，同时缩减了数据的维数。
如何找到新变量Y及正交阵T
之前说过，这一组新的变量y1,y2,…,yp 要充分反映原变量的信息，且相互独立。信息能否反映充分，我们用变量的离异程度来衡量，即标准差或方差。因此寻找主成分Y的问题转化为，在保证新变量 y1,y2,…,yp相互独立的条件下，求某一个线性组合T，使D(Y)达到最大。

主成分分析

求第一主成分，构造目标函数为：
1(T1, ) T1ΣT1 (T1T1 1)
对目标函数 1(T1, ) 求导数有：
1
T1
2ΣT1
2T1
0
即
(6.5) (6.6)
(Σ I)T1 0
(6.7)
由 6.7 式两边左乘 T1 得到
T1ΣT1
(6.8)
由于 X 的协差阵 Σ 为非负定的，其特征方程(6.7)的根均大于零，
p
变量 Y1,Y2 , ,Yp 的方差之和 k 。主成分分析的目的是 k 1
减少变量的个数，所以一般不会使用所有 p 个主成分的，
忽略一些带有较小方差的主成分将不会给总方差带来太
大的影响。这里我们称
p
k k
k
k 1
(6.23）
为第k 个主成分 Yk 的贡献率。第一主成分的贡献率最大，这表
明 Y1 T1X 综合原始变量 X1, X 2 , , X p 的能力最强，而
图6.1 主成分的几何意义
如标果系我y1们Oy将2 ，该这坐里标y系1 是按椭逆圆时的针长方轴向方旋向转，某y2个是角椭度圆的变短成轴新方坐向。
旋转公式为
YY21
X1 cos X1 sin
X2 sin X2 cos
(6.1）
我们看到新变量 Y1 和 Y2 是原变量 X1 和 X 2 的线性组合，它的
主成分分析的基本思想
人们为了避免遗漏重要的信息而考虑尽可能多的指标
随着考虑指标的增多增加了问题的复杂性由于各指标均是对同一事物的反映，不可
避免地造成信息的大量重叠，这种信息的重叠有时甚至会抹杀事物的真正特征与内在规律。希望在定量研究中涉及的变量较少，而得到的信息量又较多。主成分分析正是研究如何通过原来变量的少数几个线性组合来解释原来变量绝大多数信息的一种多元统计方法。

主成分分析法-EmpowerStats

主成分分析法主成分分析（Principal Component Analysis，PCA）是将多个变量通过线性变换以选出较少个数重要变量，并尽可能多地反映原来变量信息的一种多元统计分析方法，又称主分量分析。

也是数学上处理降维的一种方法。

主成分分析是设法将原来众多具有一定相关性的指标（比如P 个指标），重新组合成一组新的互相无关的综合指标来代替原来的指标。

通常数学上的处理就是将原来P个指标作线性组合，作为新的综合指标。

最经典的做法就是用F1（选取的第一个线性组合，即第一个综合指标）的方差来表达，即Var（F1）越大，表示F1包含的信息越多。

因此在所有的线性组合中选取的F1应该是方差最大的，故称F1为第一主成分。

如果第一主成分不足以代表原来P个指标的信息，再考虑选取F2即选第二个线性组合，为了有效地反映原来信息，F1已有的信息就不需要再出现在F2中，用数学语言表达就是要求cov（F1, F2）=0，则称F2为第二主成分，依此类推可以构造出第三、第四，……，第P个主成分。

主要作用1. 主成分分析能降低所研究的数据空间的维数。

即用研究m维的Y空间代替p维的X空间(m＜p)，而低维的Y空间代替高维的X空间所损失的信息很少。

即使只有一个主成分Yl（即 m ＝1）时，这个Yl仍是使用全部X变量（p个）得到的，例如要计算Yl的均值也得使用全部x 的均值。

在所选的前m个主成分中，如果某个Xi的系数全部近似于零的话，就可以把这个Xi删除，这也是一种删除多余变量的方法。

2. 有时可通过因子负荷aij的结论，弄清X变量间的某些关系。

3. 多维数据的一种图形表示方法。

当维数大于3时不能画出几何图形，多元统计研究的问题大都多于3个变量。

要把研究的问题用图形表示出来是不可能的。

然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画出n个样品在二维平面上的分布，由图形可直观地看出各样品在主分量中的地位，进而还可以对样本进行分类处理，可以由图形发现远离大多数样本点的离群点。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。

在统计学中，主成分分析（principal components analysis,PCA）是一种简化数据集的技术。

它是一个线性变换。

主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。

这是通过保留低阶主成分，忽略高阶主成分做到的。

这样低阶成分往往能够保留住数据的最重要方面。

但是，这也不是一定的，要视具体应用而定。

[编辑]主成分分析的基本思想在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。

这些涉及的因素一般称为指标，在多元统计分析中也称为变量。

主成分分析正是适应这一要求产生的，是解决这类题的理想工具。

同样，在科普效果评估的过程中也存在着这样的问题。

科普效果是很难具体量化的。

在实际评估工作中，我们常常会选用几个有代表性的综合指标，采用打分的方法来进行评估，故综合指标的选取是个重点和难点。

如上所述，主成分分析法正是解决这一问题的理想工具。

因为评估所涉及的众多变量之间既然有一定的相关性，就必然存在着起支配作用的因素。

根据这一点，通过对原始变量相关矩阵内部结构的关系研究，找出影响科普效果某一要素的几个综合指标，使综合指标为原来变量的线性拟合。

这样，综合指标不仅保留了原始变量的主要信息，且彼此间不相关，又比原始变量具有某些更优越的性质，就使我们在研究复杂的科普效果评估问题时，容易抓住主要矛盾。

上述想法可进一步概述为：设某科普效果评估要素涉及个指标，这指标构成的维随机向量为。

对作正交变换，令，其中为正交阵，的各分量是不相关的，使得的各分量在某个评估要素中的作用容易解释，这就使得我们有可能从主分量中选择主要成分，削除对这一要素影响微弱的部分，通过对主分量的重点分析，达到对原始变量进行分析的目的。

的各分量是原始变量线性组合，不同的分量表示原始变量之间不同的影响关系。

由于这些基本关系很可能与特定的作用过程相联系，主成分分析使我们能从错综复杂的科普评估要素的众多指标中，找出一些主要成分，以便有效地利用大量统计数据，进行科普效果评估分析，使我们在研究科普效果评估问题中，可能得到深层次的一些启发，把科普效果评估研究引向深入。

例如，在对科普产品开发和利用这一要素的评估中，涉及科普创作人数百万人、科普作品发行量百万人、科普产业化（科普示范基地数百万人）等多项指标。

经过主成分分析计算，最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标，变量数减少，并达到一定的可信度，就容易进行科普效果的评估。

[编辑]主成分分析法的基本原理主成分分析法是一种降维的统计方法，它借助于一个正交变换，将其分量相关的原随机向量转化成其分量不相关的新随机向量，这在代数上表现为将原随机向量的协方差阵变换成对角形阵，在几何上表现为将原坐标系变换成新的正交坐标系，使之指向样本点散布最开的p 个正交方向，然后对多维变量系统进行降维处理，使之能以一个较高的精度转换成低维变量系统，再通过构造适当的价值函数，进一步把低维系统转化成一维系统。

[编辑]主成分分析的主要作用概括起来说，主成分分析主要由以下几个方面的作用。

1．主成分分析能降低所研究的数据空间的维数。

即用研究m维的Y空间代替p维的X 空间(m＜p)，而低维的Y空间代替高维的x空间所损失的信息很少。

即：使只有一个主成分Y l(即m＝1)时，这个Y l仍是使用全部X变量(p个)得到的。

例如要计算Yl的均值也得使用全部x的均值。

在所选的前m个主成分中，如果某个X i的系数全部近似于零的话，就可以把这个X i删除，这也是一种删除多余变量的方法。

2．有时可通过因子负荷a ij的结论，弄清X变量间的某些关系。

3．多维数据的一种图形表示方法。

我们知道当维数大于3时便不能画出几何图形，多元统计研究的问题大都多于3个变量。

要把研究的问题用图形表示出来是不可能的。

然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画出n个样品在二维平面上的分布况，由图形可直观地看出各样品在主分量中的地位，进而还可以对样本进行分类处理，可以由图形发现远离大多数样本点的离群点。

4．由主成分分析法构造回归模型。

即把各主成分作为新自变量代替原来自变量x做回归分析。

5．用主成分分析筛选回归变量。

回归变量的选择有着重的实际意义，为了使模型本身易于做结构分析、控制和预报，好从原始变量所构成的子集合中选择最佳变量，构成最佳变量集合。

用主成分分析筛选变量，可以用较少的计算量来选择量，获得选择最佳变量子集合的效果。

[编辑]主成分分析法的计算步骤1、原始指标数据的标准化采集p 维随机向量x= (x1,X2,...,X p)T)n 个样品x i= (x i1,x i2,...,x ip)T，i=1,2,…,n，n＞p，构造样本阵，对样本阵元进行如下标准化变换：其中，得标准化阵Z。

2、对标准化阵Z 求相关系数矩阵其中,。

3、解样本相关矩阵R 的特征方程得p 个特征根,确定主成分按确定m 值，使信息的利用率达85%以上，对每个λj, j=1,2,...,m,解方程组Rb= λj b得单位特征向量。

4、将标准化后的指标变量转换为主成分U1称为第一主成分,U2称为第二主成分,…,U p称为第p 主成分。

5 、对m 个主成分进行综合评价对m 个主成分进行加权求和，即得最终评价值，权数为每个主成分的方差贡献率。

[编辑]主成分分析法的应用分析[编辑]案例一：主成分分析法在啤酒风味评价分析中的应用[1]啤酒是个多指标风味食品, 为了全面了解啤酒的风味, 啤酒企业开发了大量的检测方法用于分析啤酒的指标, 但是面对大量的指标数据, 大多数企业又感到茫然,不知道如何利用这些大量的数据, 由上面的介绍可知,在这种情况下,主成分分析法能够派上用场。

近年来,科研人员为了获得对啤酒风味更好的理解, 多元统计技术的使用越来越多。

这主要有以下两方面的原因:①在啤酒领域里, 几乎没有一个问题能够使用单变量(单指标)就能反映事物的属性, 例如啤酒的好坏、一致性, 不能通过双乙酰一个指标说明问题;②另一个重要的原因就是, 近年来大量数学统计软件的不断出现和个人电脑的普及促进了多元统计分析技术的应用。

多元统计技术在啤酒风味研究中的一个重要任务就是找出啤酒风格和啤酒理化指标(风味成分指标也属于理化指标)之间的相关性。

例如可以用多元统计技术来找出啤酒的风味指标和啤酒风味的关系或不同啤酒的风味差异性。

经常使用的多元统计技术有聚类分析、判别分析、主成分分析和回归分析等。

其中主成分分析能够用于多指标产品, 主成分分析可以按照事物的相似性区分产品, 结果可用一维、二维或三维平面坐标图标示, 特别直观。

使用主成分分析法可以研究隐藏在不同变量背后的关系,而且根据这些变量能够获得主成分的背景解释。

鉴于主成分分析在啤酒风味质量应用中的强大作用, 本文简单介绍主成分分析的基本原理及其在啤酒一致性监控中的应用,以引起我国啤酒同行的广泛关注。

[编辑]1 材料与方法1.1 仪器HP 6890 毛细管气相色谱仪(美国安捷伦公司),FID 检测器, HP 7694E 顶空自动进样器, HP 气相色谱化学工作站。

1.2 分析方法1.2.1 样品制备啤酒于5 ℃冷藏, 量取 5 mL 酒液于20 mL 顶空瓶中, 添加2.0 g/L 正丁醇溶液0.10 mL, 加密封垫及铝盖密封,振荡混匀以供顶空气相色谱测定。

1.2.2 色谱条件毛细管色谱柱(DB- W AXETR 30 m×0.53 mm i.d,膜厚1.0 μm);柱温:起始温度为35 ℃, 以10 ℃/min 程序升温至150 ℃, 再以20 ℃/min 升温到180 ℃, 并继续恒温5 min;进样口温度150 ℃; 检测器温度200 ℃; 载气为高纯氮气, 流速为5 mL/min;氢气30 mL/min;空气400 mL/min;采用分流进样,分流比为1∶1。

[编辑]2 主成分分析法的基本原理2.1 主成分分析法在啤酒研究中应用的必要性这里通过一个例子说明, 主成分分析在啤酒研究中的必要性。

假如有6 个啤酒样品,分别标为A- F,每个啤酒样品用3 个指标来描述。

这些指标可以是仪器的分析数据、感官分析数据或两者都用。

为了便于讨论,假设这3 个指标分别为苦味值(BU)、DMS和酒精浓度。

为了解这6 个样品两两之间的相似性, 便于将这6 个样品进行分类,可以把这6 个样品画在三维空间中,见图1。

显然在这个简单的例子中, 这6 个样品倾向于形成两类, 即分别是A- C 和D- F。

通过所测的指标可以解释这种分类, 例如, 第一组(A- C)有较高的苦味值和较低的酒精浓度。

这个例子中只涉及到6 个样品和3 个指标。

但是实际上, 样品数量和指标数量都会很大, 例如, 有20 个指标, 这时, 样品不能在20 维的坐标系中画出。

为了解决多指标的样品的比较问题,可以使用主成分分析法。

2.2 主成分分析法的基本原理主成分分析的第一步是将所有的指标数据进行标准化, 标准化的一般方法为: (x ij− x j mean) / δj, 这里x ij是样品j 的第i 个指标, x j mean和δj是第j 个指标的平均值和标准偏差, 通过标准化后, 每个变量的平均值变成0,标准偏差为1。

标准化的好处是可以消除不同指标间的量纲差异和数量级间的差异。

第二步求出指标间的相关矩阵, 通过相关矩阵, 可以确定具有高度相关性的指标, 这些指标间的协方差可以通过另一个变量替代, 这个变量叫作第一成分。

去掉第一成分后, 计算残留相关阵, 通过残留相关阵, 第二组高度相关的变量也可以发现, 它们的协方差可以用第二成分替代, 第二成分和第一成分是正交的。

第二成分对原始数据的贡献去除后, 可以提取第三成分。

此过程一直继续, 直到原始数据的所有方差都被提取后结束。

结果是原数据转化成了同样数量的新变量, 但是, 这些新变量之间是正交的。

因此, 每个样品的原始变量的标准化数据就被转换成一系列成分的计算值。

每一个样品, 原始数据能够表达成新成分的线性组合值, 例如一个有9 个指标的数据集就可转换成:………………是原始数据的标准化值。