主成分分析法的原理应用及计算步骤 (2)

合集下载

主成分分析方法及其应用效果评估

主成分分析方法及其应用效果评估主成分分析（Principal Component Analysis，简称PCA）是一种常用的数据降维技术，被广泛应用于数据分析、模式识别和机器学习等领域。

本文将介绍主成分分析的基本原理、具体方法以及其在实际应用中的效果评估。

一、主成分分析的基本原理主成分分析是一种统计分析方法，旨在将具有相关性的多个变量转化为一组线性无关的新变量，称为主成分。

通过降维，主成分分析可以有效减少数据的维度，并保留原始数据中的大部分信息。

主成分分析的基本原理是通过找到数据中的最大方差方向来构建主成分。

具体步骤如下：1. 标准化数据：对原始数据进行标准化处理，使得每个变量具有相同的尺度。

2. 计算协方差矩阵：计算标准化后数据的协方差矩阵。

3. 计算特征值与特征向量：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

4. 选择主成分：根据特征值的大小排序，选择前k个特征值对应的特征向量作为主成分。

5. 构建主成分：将选择的主成分按权重线性组合，得到原始数据的主成分。

二、主成分分析的具体方法主成分分析可以通过多种计算方法实现，其中最常用的是基于特征值分解的方法。

下面介绍主成分分析的具体计算步骤：1. 标准化数据：对原始数据进行标准化处理，使得每个变量具有均值为0、方差为1的特性。

2. 计算协方差矩阵：将标准化后的数据计算协方差矩阵。

3. 特征值分解：对协方差矩阵进行特征值分解，得到特征值和对应的特征向量。

4. 选择主成分：根据特征值的大小选择前k个特征向量作为主成分。

5. 构建主成分：将选择的主成分按权重线性组合，得到原始数据的主成分。

三、主成分分析在实际应用中的效果评估在应用主成分分析时，我们需要对其效果进行评估，以确保选择的主成分能够充分保留原始数据的信息。

常用的效果评估方法有以下几种：1. 解释方差比（Explained Variance Ratio）：解释方差比可以衡量每个主成分对原始数据方差的贡献程度。

主成分分析法例子剖析-PPT

…… zm是与z1，z2，……，zm－1都不相关的x1，x2，…xP，的所有线性组合中方差最大者。则新变量指标z1，z2，…，zm分别称为原变量指标x1，x2，…，xP 的第一，第二，…，第m主成分。
从以上的分析可以看出，主成分分析的实质就是确定原来变量xj（j=1，2 ，…， p）在诸主成分zi（i=1，2，…，m）上的载荷 lij （ i=1，2，…，m； j=1，2 ，…，p）。
分z2代表了人均资源量。
③第三主成分z3，与x8呈显出的正相关程度最高，其次是x6，而与x7呈负相关，因此可以认为第三主成分在一定程度上代表了农业经济结构。
显然，用三个主成分z1、z2、z3代替原来9个变量（x1， x2，…，x9），描述农业生态经济系统，可以使问题更进
一步简化、明了。
rij
n
(xki xi )(xkj x j )
k 1
n
n
(xki xi )2 (xkj x j )2
k 1
k 1
（4）
（二）计算特征值与特征向量：
① 解特征方程 I R 0 ，求出特征值，并使其按大小顺序排列；
1 2 , p 0
② 分别求出对应于特征值 i的特征向量
大家好
1
一、主成分分析的基本原理
❖ 假定有n个样本，每个样本共有p个变量，构成一个n×p阶的数据矩阵
x11 x12 x1 p
X
x21
x22
x2
p
xn1
xn 2
xnp
（1）
❖降维处理！！！
当p较大时，在p维空间中考察问题比较麻烦。降维是用较少的几个综合指标代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息，同时它们之间又是彼此独立的。

主成分分析方法

k1
k1
（3.5.4）
（二）计算特征值与特征向量:
① 解特征方程 I R 0 ,常用雅可比法（Jacobi）求出特征值，并使其按大小顺序排
列 12 ,m0；
②
分别求出对应于特征值
的特征向量
i
ei(i1,2, ,m),要求 e i =1，即
，
其中m e表i2j 示 1向量的e i第j j个分量。e i
n
yij
n
2
yij yj
yj
i1 n
,s2j i1
n1
得标准化矩阵Z:
z1T Z= z2T =
znT
z11 z12 ┅ z1m z21 z22 ┅ z2m
┇┇┇ ┇
zn1 zn2 ┅ znm
一、主成分分析的基本原理
假定有n个样本,每个样本共有m个变量，构成一个n×m阶的数据矩阵(标准化后的数据)
x11 x12 ┅ x1m x21 x22 ┅ x2m ┇┇ ┇
xnT
xn1 xn2 ┅ xnm
1.对样本阵X中的元进行如下变换 x ij , 对正指标
Y ij = - x ij, 对逆指标
得 Y= Y ij n×p
其中
2 对Y中元进行如下标准化变换
ij yij y j i 1 ,2 , ,n ;j 1 ,2 , ,m sj
② F1是x1,x2，…，xm的一切线性组合中方差最大者，F2是与F1不相关的x1，x2，…，xm的所有线性组合中方差最大者；
…… Fp是与F1，F2，……，Fp－1都不相关的x1， x2，…xm，的所有线性组合中方差最大者。
则新变量指标F1，F2，…，Fp分别称为原变量指标x1，x2，…，xm的第一，第二，…，第p 主成分。

主成分分析分析法

第四节主成分分析方法地理环境是多要素的复杂系统，在我们进行地理系统分析时，多变量问题是经常会遇到的。

变量太多，无疑会增加分析问题的难度与复杂性，而且在许多实际问题中，多个变量之间是具有一定的相关关系的。

因此，我们就会很自然地想到，能否在各个变量之间相关关系研究的基础上，用较少的新变量代替原来较多的变量，而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息？事实上，这种想法是可以实现的，本节拟介绍的主成分分析方法就是综合处理这种问题的一种强有力的方法。

第一节主成分分析方法的原理主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法，从数学角度来看，这是一种降维处理技术。

假定有n 个地理样本，每个样本共有 p 个变量描述，这样就构成了一个 n xp 阶的地理数据矩阵：如何从这么多变量的数据中抓住地理事物的内在规律性呢？要解决这一问题，自然要在p 维空间中加以考察，这是比较麻烦的。

为了克服这一困难，就需要进行降维处理，即用较少的几个综合指标来代替原来较多的变量指标，而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息，同时它们之间又是彼此独立的。

那么，这些综合指标(即新变量 )应如何选取呢？显然，其最简单的形式就是取原来变量指标的线性组合，适当调整组合系数，使新的变量指标之间相互独立且代表性最好。

如果记原来的变量指标为X i ，为 X i ，X 2，…，zm (mep)。

贝U坷"】內+G 衍++l]p%X 2，…，X P ，它们的综合指标新变量指标在(2)式中，系数l j由下列原则来决定:(1)乙与z j (i工j ；i , j=1 , 2,…,m)相互无关;(2) ............................................................................................................... z i是x i，X2，…，X P的一切线性组合中方差最大者；Z2是与z i不相关的X i, X2，…，X P的所有线性组合中方差最大者；；Z m是与Z i，乙， ..................................... Z m-1都不相关的X i, X2，…，X P的所有线性组合中方差最大者。

(完整版)主成分分析法的步骤和原理

（一）主成分分析法的基本思想主成分分析（Principal Component Analysis ）是利用降维的思想，将多个变量转化为少数几个综合变量（即主成分），其中每个主成分都是原始变量的线性组合，各主成分之间互不相关，从而这些主成分能够反映始变量的绝大部分信息，且所含的信息互不重叠。

[2]采用这种方法可以克服单一的财务指标不能真实反映公司的财务情况的缺点，引进多方面的财务指标，但又将复杂因素归结为几个主成分，使得复杂问题得以简化，同时得到更为科学、准确的财务信息。

（二）主成分分析法代数模型假设用p 个变量来描述研究对象，分别用X 1，X 2…X p 来表示，这p 个变量构成的p 维随机向量为X=(X 1，X 2…X p )t 。

设随机向量X 的均值为μ，协方差矩阵为Σ。

对X 进行线性变化，考虑原始变量的线性组合： Z 1=μ11X 1+μ12X 2+…μ1p X pZ 2=μ21X 1+μ22X 2+…μ2p X p…… …… ……Z p =μp1X 1+μp2X 2+…μpp X p主成分是不相关的线性组合Z 1，Z 2……Z p ，并且Z 1是X 1，X 2…X p 的线性组合中方差最大者，Z 2是与Z 1不相关的线性组合中方差最大者，…，Z p 是与Z 1，Z 2 ……Z p-1都不相关的线性组合中方差最大者。

（三）主成分分析法基本步骤第一步：设估计样本数为n ，选取的财务指标数为p ，则由估计样本的原始数据可得矩阵X=(x ij )m ×p ，其中x ij 表示第i 家上市公司的第j 项财务指标数据。

第二步：为了消除各项财务指标之间在量纲化和数量级上的差别，对指标数据进行标准化，得到标准化矩阵（系统自动生成）。

第三步：根据标准化数据矩阵建立协方差矩阵R ，是反映标准化后的数据之间相关关系密切程度的统计指标，值越大，说明有必要对数据进行主成分分析。

其中，R ij （i ，j=1，2，…，p ）为原始变量X i 与X j 的相关系数。

主成分分析法的原理应用及计算步骤

主成分分析法的原理应用及计算步骤1.计算协方差矩阵：首先，我们需要将原始数据进行标准化处理，即使每个特征都有零均值和单位方差。

假设我们有m个n维样本，数据集为X，标准化后的数据集为Z。

那么，计算协方差矩阵的公式如下：Cov(Z) = (1/m) * Z^T * Z其中，Z^T为Z的转置。

2.计算特征向量：通过对协方差矩阵进行特征值分解，可以得到特征值和特征向量。

特征值表示了新坐标系中每个特征的重要性程度，特征向量则表示了数据在新坐标系中的方向。

将协方差矩阵记为C，特征值记为λ1, λ2, ..., λn，特征向量记为v1, v2, ..., vn，那么特征值分解的公式如下：C*v=λ*v计算得到的特征向量按特征值的大小进行排序，从大到小排列。

3.选择主成分：从特征向量中选择与前k个最大特征值对应的特征向量作为主成分，即新坐标系的基向量。

这些主成分可以解释原始数据中大部分的方差。

我们可以通过设定一个阈值或者看特征值与总特征值之和的比例来确定保留的主成分个数。

4.映射数据：对于一个n维的原始数据样本x，通过将其投影到前k个主成分上，可以得到一个k维的新样本，使得新样本的方差最大化。

新样本的计算公式如下：y=W*x其中，y为新样本，W为特征向量矩阵，x为原始数据样本。

PCA的应用：1.数据降维：PCA可以通过主成分的选择，将高维数据降低到低维空间中，减少数据的复杂性和冗余性，提高计算效率。

2.特征提取：PCA可以通过寻找数据中的最相关的特征，提取出主要的信息，从而减小噪声的影响。

3.数据可视化：通过将数据映射到二维或三维空间中，PCA可以帮助我们更好地理解和解释数据。

总结：主成分分析是一种常用的数据降维方法，它通过投影数据到一个新的坐标系中，使得投影后的数据具有最大的方差。

通过计算协方差矩阵和特征向量，我们可以得到主成分，并将原始数据映射到新的坐标系中。

PCA 在数据降维、特征提取和数据可视化等方面有着广泛的应用。

PCA(主成分分析)的原理与应用

PCA(主成分分析)的原理与应用简介主成分分析（PCA）是一种常用的多变量数据降维技术，用于发现数据中的主要模式与关系。

通过PCA，可以将高维数据转换为低维表示，从而减少计算复杂度、去除冗余信息、提取关键特征等。

本文将介绍PCA的基本原理和常见的应用场景。

1. PCA的基本原理PCA的基本思想是通过线性变换将原始数据投影到新的坐标系中，新的坐标系由一组互相正交的基向量构成。

这些基向量被称为主成分，每个主成分都是原始数据的一个线性组合。

通过保留最重要的主成分，可以实现数据降维。

1.1 数据标准化在应用PCA之前，通常需要对原始数据进行标准化处理。

标准化可以使不同特征的数据具有相同的尺度，避免某些特征对PCA结果的影响过大。

常见的标准化方法有均值方差标准化和最大最小值标准化。

1.2 协方差矩阵与特征值分解PCA的核心是通过计算协方差矩阵来确定主成分。

协方差矩阵反映了不同维度之间的相关性。

通过对协方差矩阵进行特征值分解，可以得到特征值和特征向量。

特征值表示了数据在对应特征向量方向上的方差，特征向量则表示了变换后的坐标系中各维度的方向。

1.3 选择主成分在进行特征值分解后，主成分的选择是根据特征值的大小进行的。

通常保留较大的特征值对应的特征向量作为主成分，因为这些特征值表示了数据的主要变化模式。

1.4 重构数据通过选取主成分，可以将原始数据投影到新的坐标系中。

重构数据可以通过将原始数据乘以选取的主成分对应的特征向量来实现。

2. PCA的应用场景PCA有广泛的应用场景，以下列举一些常见的应用领域。

2.1 降维与特征选择在高维数据中，存在大量冗余和噪音信息。

通过使用PCA，可以将高维数据降低到较低的维度，并保留重要的特征，从而提高数据的表示效果和计算效率。

2.2 数据压缩与图像处理PCA在数据压缩和图像处理中也有广泛的应用。

通过PCA，可以用较少的数据表示信息量较大的图像，从而实现图像的压缩和存储。

同时，还可以对图像进行去噪、增强和特征提取等操作。

主成分分析( principal components analysis,PCA )

主成分分析的主要作用
3．多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形，多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画出n个样品在二维平面上的分布况，由图形可直观地看出各样品在主分量中的地位，进而还可以对样本进行分类处理，可以由图形发现远离大多数样本点的离群点。 4．由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。
主成分分析（ PRINCIPAL COMPONENTS ANALYSIS，PCA ）
主成分分析介绍基本思想基本原理作用计算主成分个数选取原则例题 SPSS操作

主成分分析介绍

在统计学中，主成分分析（principal components analysis, PCA）是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中，使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上，第二大方差在第二个坐标(第二主成分)上，依次类推。主成分分析经常用减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。
x3
的
例题
1. 求样本均值和样本协方差矩阵
46.67 S 17.12 21.11 30.00 32.58 55.53 2. 求解协方差矩阵的特征方程 S I 0
46.67 17.12 30.00 17.12 30.00 21.11 32.பைடு நூலகம்8 0 32.58 55.53

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一、概述
在处理信息时，当两个变量之间有一定相关关系时，可以解释为这两个变量反映此课题得信息有一定得重叠，例如，高校科研状况评价中得立项课题数与项目经费、经费支出等之间会存在较高得相关性；学生综合评价研究中得专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高得相关性。

而变量之间信息得高度重叠与高度相关会给统计方法得应用带来许多障碍。

为了解决这些问题，最简单与最直接得解决方案就是削减变量得个数，但这必然又会导致信息丢失与信息不完整等问题得产生。

为此，人们希望探索一种更为有效得解决方法，它既能大大减少参与数据建模得变量个数，同时也不会造成信息得大量丢失。

主成分分析正式这样一种能够有效降低变量维数，并已得到广泛应用得分析方法。

主成分分析以最少得信息丢失为前提，将众多得原有变量综合成较少几个综合指标，通常综合指标（主成分）有以下几个特点：
↓主成分个数远远少于原有变量得个数
原有变量综合成少数几个因子之后，因子将可以替代原有变量参与数据建模，这将大大减少分析过程中得计算工作量。

↓主成分能够反映原有变量得绝大部分信息
因子并不就是原有变量得简单取舍，而就是原有变量重组后得结果，因此不会造成原有变量信息得大量丢失，并能够代表原有变量得绝大部分信息。

↓主成分之间应该互不相关
通过主成分分析得出得新得综合指标（主成分）之间互不相关，因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来得诸多问题。

↓主成分具有命名解释性
总之，主成分分析法就是研究如何以最少得信息丢失将众多原有变量浓缩成少数几个因子，如何使因子具有一定得命名解释性得多元统计分析方法。

二、基本原理
主成分分析就是数学上对数据降维得一种方法。

其基本思想就是设法将原来众多得具有一定相关性得指标X1，X2，…，XP （比如p 个指标），重新组合成一组较少个数得互不相关得综合指标Fm 来代替原来指标。

那么综合指标应该如何去提取，使其既能最大程度得反映原变量Xp 所代表得信息，又能保证新指标之间保持相互无关（信息不重叠）。

设F1表示原变量得第一个线性组合所形成得主成分指标，即11112121...p p F a X a X a X =+++,由数学知识可知，每一个主成分所提取得信息量可用其方差来度量，其方差Var(F1)越大，表示F1包含得信息越多。

常常希望第一主成分F1所含得信息量最大，因此在所有得线性组合中选取得F1应该就是X1，X2，…，XP 得所有线性组合中方差最大得，故称F1为第一主成分。

如果第一主成分不足以代表原来p 个指标得信息，再考虑选取第二个主成分指标F2，为有效地反映原信息，F1已有得信息就不需要再出现在F2中，即F2与F1要保持独立、不相关，用数学语言表达就就是其协方差Cov(F1, F2)=0，所以F2就是与F1不相关得X1，X2，…，XP 得所有线性组合中方差最大得，故称F2为第
二主成分，依此类推构造出得F1、F2、……、Fm 为原变量指标X1、X2……XP 第一、第二、……、第m 个主成分。

11111221221122221122...............p p p p m m m mp p
F a X a X a X F a X a X a X F a X a X a X =+++⎧⎪=+++⎪⎨⎪⎪=+++⎩ 根据以上分析得知：
(1) Fi 与Fj 互不相关，即Cov(Fi ，Fj) = 0,并有Var(Fi)=ai’Σai ，其中Σ为X 得协方差阵
(2)F1就是X1，X2，…，Xp 得一切线性组合（系数满足上述要求）中方差最大得,……,即Fm 就是与F1，F2，……，Fm －1都不相关得X1，X2，…，XP 得所有线性组合中方差最大者。

F1，F2，…，Fm （m ≤p ）为构造得新变量指标，即原变量指标得第一、第二、……、第m 个主成分。

由以上分析可见，主成分分析法得主要任务有两点：
（1）确定各主成分Fi （i=1，2，…，m ）关于原变量Xj （j=1，2 ，…， p ）得表达式，即系数ij a （ i=1，2，…，m ； j=1，2 ，…，p ）。

从数学上可以证明，原变量协方差矩阵得特征根就是主成分得方差，所以前m 个较大特征根就代表前m 个较大得主成分方差值；原变量协方差矩阵前m 个较大得特征值i λ（这样选取才能保证主成分得方差依次最大）所对应得特征向量就就是相应主成分Fi 表达式得系数i a ，为了加以限制，系数i a 启用得就是i λ对应得单位化得特征向量，即有'ai ai = 1。

（2）计算主成分载荷，主成分载荷就是反映主成分Fi 与原变量Xj 之间得相互关联程度：
(,)(,1,2,,;1,2,,)k i ki P Z x i p k m ===L L
三、主成分分析法得计算步骤
主成分分析得具体步骤如下：
（1）计算协方差矩阵
计算样品数据得协方差矩阵：Σ=(s ij )p ⨯p ，其中
1
1()()1n
ij ki i kj j k s x x x x n ==---∑ i ，j=1，2，…，p （2）求出Σ得特征值i λ及相应得正交化单位特征向量i a
Σ得前m 个较大得特征值λ1≥λ2≥…λm>0,就就是前m 个主成分对应得方差，i λ对应得单位特征向量i a 就就是主成分Fi 得关于原变量得系数，则原变量得第
i 个主成分Fi 为：
Fi ='i a X
主成分得方差（信息）贡献率用来反映信息量得大小，i α为：
1/m
i i i i αλλ==∑
（3）选择主成分
最终要选择几个主成分，即F1,F2,……,Fm 中m 得确定就是通过方差（信息）累计贡献率G(m)来确定
11()/p
m i k i k G m λλ===∑∑
当累积贡献率大于85%时，就认为能足够反映原来变量得信息了，对应得m 就就是抽取得前m 个主成分。

（4）计算主成分载荷
主成分载荷就是反映主成分Fi 与原变量Xj 之间得相互关联程度，原来变量Xj （j=1，2 ，…， p ）在诸主成分Fi （i=1，2，…，m ）上得荷载 lij （ i=1，2，…，m ； j=1，2 ，…，p ）。

：
(,)(1,2,,;1,2,,)i j ij l Z X i m j p ===L L
在SPSS 软件中主成分分析后得分析结果中，“成分矩阵”反应得就就是主成分载荷矩阵。

（5）计算主成分得分
计算样品在m 个主成分上得得分：
1122...i i i pi p F a X a X a X =+++ i = 1，2，…，m
实际应用时，指标得量纲往往不同，所以在主成分计算之前应先消除量纲得影响。

消除数据得量纲有很多方法，常用方法就是将原始数据标准化，即做如下数据变换：
*
1,2,...,;1,2,...,ij j ij j x x x i n j p s -=== 其中：11n j ij i x x n ==∑，221
1()1n j ij j i s x x n ==--∑ 根据数学公式知道，①任何随机变量对其作标准化变换后，其协方差与其相关系数就是一回事，即标准化后得变量协方差矩阵就就是其相关系数矩阵。

②另一方面，根据协方差得公式可以推得标准化后得协方差就就是原变量得相关系数，亦即，标准化后得变量得协方差矩阵就就是原变量得相关系数矩阵。

也就就是说，在标准化前后变量得相关系数矩阵不变化。

根据以上论述，为消除量纲得影响，将变量标准化后再计算其协方差矩阵，就就是直接计算原变量得相关系数矩阵，所以主成分分析得实际常用计算步骤就
是：
☆计算相关系数矩阵
☆求出相关系数矩阵得特征值i λ及相应得正交化单位特征向量i a
☆选择主成分
☆计算主成分得分
总结：原指标相关系数矩阵相应得特征值λi 为主成分方差得贡献，方差得贡献率为 1/p
i i i i αλλ==∑，i α越大，说明相应得主成分反映综合信息得能力越强，
可根据λi 得大小来提取主成分。

每一个主成分得组合系数（原变量在该主成分上得载荷）i a 就就是相应特征值λi 所对应得单位特征向量。