B.第七章 主成分分析概述

合集下载

主成分分析讲义

主成分分析讲义
总收入F1、总收入变化率F2和经济发展或衰退的趋势F3
相关分析
F1
ቤተ መጻሕፍቲ ባይዱ
F2
F3
i
i
t
F1
1
F2
0
1
F3
0
0
1
i 0.995 -0.041 0.057
l
Δi -0.056 0.948 -0.124 -0.102 l
t -0.369 -0.282 -0.836 -0.414 -0.112 1
在力求数据信息丢失最少的原则下,对高维的变 量空间降维,即研究指标体系的少数几个线性组 合,并且这几个线性组合所构成的综合指标将尽 可能多地保留原来指标变异方面的信息。这些综 合指标就称为主成分。要讨论的问题是: (1)原指标(自变量)组合的原则? (2)选取多少个组合? (3)组合的结果怎么解释?
一、两个线性代数的结论
1、若A是p阶实对称阵,则一定可以找到正交阵U,使
1 0 0
U1AU


0
2


0



0
0


p

p p
其中i ,i 1.2. p 是A的特征根。
2、若上述矩阵的特征根所对应的单位特征向量 为 u1,,up
u11 u12 u1p
协方差矩阵的对角线上的元素之和等于特征根 之和。
三、精度分析
1)贡献率:第i个主成分的方差在全部方差中所占
比重
i
p

i 1
i
,称为贡献率 ,反映了原来P个指标多大
的信息,有多大的综合能力 。
2)累积贡献率:前k个主成分共有多大的综合能力, 用这k个主成分的方差和在全部方差中所占比重

主成分分析原理

主成分分析原理

第七章主成分分析(一)教学目的通过本章的学习,对主成分分析从总体上有一个清晰地认识,理解主成分分析的基本思想和数学模型,掌握用主成分分析方法解决实际问题的能力。

(二)基本要求了解主成分分析的基本思想,几何解释,理解主成分分析的数学模型,掌握主成分分析方法的主要步骤。

(三)教学要点1、主成分分析基本思想,数学模型,几何解释2、主成分分析的计算步骤及应用(四)教学时数3课时(五)教学内容1、主成分分析的原理及模型2、主成分的导出及主成分分析步骤在实际问题中,我们经常会遇到研究多个变量的问题,而且在多数情况下,多个变量之间常常存在一定的相关性。

由于变量个数较多再加上变量之间的相关性,势必增加了分析问题的复杂性。

如何从多个变量中综合为少数几个代表性变量,既能够代表原始变量的绝大多数信息,又互不相关,并且在新的综合变量基础上,可以进一步的统计分析,这时就需要进行主成分分析。

第 - 213 - 页第一节 主成分分析的原理及模型一、主成分分析的基本思想及数学模型(一)主成分分析的基本思想主成分分析是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。

这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。

主成分分析所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。

通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为1F ,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望)(1F Var 越大,表示1F 包含的信息越多。

因此在所有的线性组合中所选取的1F 应该是方差最大的,故称1F 为第一主成分。

如果第一主成分不足以代表原来p 个变量的信息,再考虑选取2F 即第二个线性组合,为了有效地反映原来信息,1F 已有的信息就不需要再出现在2F 中,用数学语言表达就是要求0),(21 F F Cov ,称2F 为第二主成分,依此类推可以构造出第三、四……第p 个主成分。

第七章 主成分分析

第七章 主成分分析

a1 a1 a1 a1 1
(1)
欲使方程组(3)有非零解,其充要条件是 I 0 是协方差阵 的特征根。又由 由此可见, a (2)式知,欲使 1 a1 的值最大,就是要 的 值最大。也就是说, 应取为 的最大的特 征根 1 。再由(1)式知,我们所要求的 a1 , 应该是 的最大的特征根 1所对应的单位化 特征向量。这样,我们就求得第一个综合 指标 ( a1 a1 1) y1 a1 X , 并称y1为第一个主成分。
a1 X , , a k X
就分别是第一,…,第k个主成分。
由于协方差阵 是对称阵,根据线性代数知,
的不同特征根所对应的特征向量是正交的。 所以,如果上面求得的k个特征根全不相同 时,则它们所对应的特征向量a1 ,… ak ,是相 互正交的,于是有 cov(ai X , a j X ) ai a j ai j a j j ai a j 0 这表明上面所求得的主成分y1,…,yk之间互 不相关。
y1,…,yq既能充分反映原来p个指标x1,…,xp所反
映的信息,又能使这q个综合指标之间互不相关。
首先,考虑第一个综合指标y1如何求得。它应该
是由原来p个指标x1,…,xp综合而成的,通常将其 取为原来p个指标的线性组合: y1 a1 X a11 x1 a1 p x p 其中a1 (a11 ,, a1 p ) ,是一个p维非零常向量。我
即 a2 也是协方差阵 的特征根所对应的单 位化特征向量。
a 2 a 2 1
为了使y2的方差尽量地大,自然a2 应为 的仅次于 1第二大特征根2 所对应的单位化 特征向量。这样,我们也求得了第二个综 合指标

《主成分分析》课件

《主成分分析》课件

投资组合优化
通过主成分分析,找到不同投 资标的之间的关系,优化投资 组合的效益。
主成分分析在市场调研中的应用
1
偏好分析
通过主成分分析,找到消费者的特征
产品定位
2
和偏好,精准制定相应的市场策略。
通过主成分分析,找到消费者对产品
的不同评价因素,合理确定产品的定
位。
3
竞品分析
通过主成分分析,评估竞争对手的优 势和劣势,为企业提供相应的决策依 据。
慕课在线学习行业民调
通过主成分分析,找到影响学 习者的因素,比如课程质量、 师资水平、学习难度等方面。
降水量分析和气候变化
通过主成分分析和时间序列分 析,找到影响气象预测和气候 变化的主要原因和特征。
食品市场调查分析
通过主成分分析,找到影响消 费者购买健康食品的因素,制 定相应的市场营销策略。
标准化数据
通过Z-score标准化数据,去除不同变 量的量纲影响。
提取主成分
根据协方差矩阵的特征值和特征向量, 提取主成分。
如何选择主成分数量
特征值
根据特征值大于1的原则,选择主成分的数量。
累计贡献率
当累计贡献率到达一定阈值后,选择主成分数量。
图形分析
通过屏幕图和贡献率图来选择主成分数量。
主成分分析的优点和缺点
应用
主成分分析适用于变量之间没有明确因果关系 的情况下,提取它们的主成分;而因子分析需 要基于理论或先验知识,对变量进行选择和定 量,发现变量间的潜在因子。
主成分分析在金融分析中的应用
股票指数分析
通过主成分分析,找到影响整 个股票市场的因素,快速判断 股票市场的健康状况。
信用卡违约风险评估
通过主成分分析,找到导致信 用卡违约的因素,提高信用卡 贷款的质量。

因子分析与主成分分析

因子分析与主成分分析
k 1 n k 1
n
ki
xi )(xkj xj )
n
2 2 ( x x ) ( x x ) ki i kj j k 1
(二)计算特征值与特征向量:
① 解特征方程 I R 0 ,常用雅可比法 (Jacobi)求出特征值,并使其按大小顺序排 , 0 列 ; 1 2 p ② 分别求出对应于特征值 i的特征向量
3、确定抽取因子的数目 • 两个标准: – 特征值(Eigenvalalue)准则,特征值大于1有 多少个因子。 – 碎石图(Scree test)准则,取曲线开始转折前 的因子个数。 • 补充原则: – 有些情况下,分析人员事先确定因子的个数 (number of factors)。这种做法适合检验因 子的理论或重复某些工作。总之,采取最容易 解释且最简单的因子结构为好。
(i 1,2, , p )
k
, , , 一般取累计贡献率达85—95%的特征值 1 2 m 所对应的第一、第二、…、第m(m≤p)个主成分。
④ 计算主成分载荷
l p ( z , x ) e ( i , j 1 , 2 , , p ) ij i j i ij
⑤ 各主成分的得分:
因子抽取(Extraction)的方法 • • • 主成分分析法(Principal Components):一般 选这个方法就行。 普通最小二乘法, 广义最小二乘法(generalized least squares) , 最大似然法(Maximum likelihood), 主轴因子法(Principle Axis Factoring), α 因子提取法(Alpha), 映像分析法(image)
4、因子旋转(Rotation)方法 与选择 • • 因子旋转一般在因子分析的第二步进行 旋转方法: – 不旋转(None) – 方差最大法(Varimax) – 等量最大法(Equamax) – 四次方最大法(Quartimax) – 斜交旋转法(Direct Oblimin) • 选择标准: – 一般选Varimax(正交旋转法),为更容易解 释,选斜交旋转法

第七章 主成分分析he因子分析

第七章 主成分分析he因子分析

第七章主成分分析和因子分析实验报告下表为2012年全国31个省、直辖市和自治区城镇居民家庭平均每人全年消费性支出的八个主要变量数据。

X1 食品支出(元/人)X5家庭日用杂品(元/人)X2衣着支出(元/人) X6交通通信(元/人)X3居住支出(元/人) X7文教娱乐(元/人)X4家庭设备及用品(元/人) X8医疗保健(元/人)表7-1 2012年全国城镇居民平均每人全年消费性支出数据单位(元/人)资料来源:2013《中国统计年鉴》根据上述八个指标,下面用spss17.0对全国各地区城镇居民消费构成进行主成分分析和因子分析。

一、软件操作(一)操作步骤1.定义变量,输入数据。

2.在SPSS窗口中选择Analyze/Dimension Reduction /Factor,调出主成分分析主界面,并将变量X1至X8八个数据变量移入Variables框中,如图7-1所示。

图 7-1 因子分析主对话框3.单击【Descriptives】按钮,展开描述统计量对话框。

(1)在“Statistics”中选择要输出的统计量:Univariate Descriptives 输出单变量描述统计量和Initial solution,输出初始因子分析结果。

(2)在“Correlation Matrix”中,选择要输出的相关矩阵:①Coefficients,输出原始变量间的相关系数矩阵;②Significance levels,输出显著性检验的P值;③KMO and Bartlett’s test of sohericity 输出KMO测度和巴特利特球体检验。

图 7-2 选择描述统计量的子对话框4.点击【Extraction】按钮,展开因子提取对话框。

(1)在Method (因子提取方法)参数框中,选择Principal Components:主成分法。

(2)在Analyze(分析矩阵)中,选择Correlation matrix(分析矩阵)。

主成分分析课件ppt课件

主成分分析课件ppt课件
主成分分析
•§1 主成分分析的基本思想与理论 •§2 主成分分析的几何意义 •§3 总体主成分及其性质 •§4 样本主成分的导出 •§5 有关问题的讨论 •§6 主成分分析步骤及框图 •§7 主成分分析的上机实现
2020/5/28
11
主成分分析
主成分分析(principal components analysis)也称主分量 分析,是由霍特林(Hotelling)于1933年首先提出的。主成 分分析是利用降维的思想,在损失很少信息的前提下把多个 指标转化为几个综合指标的多元统计方法。通常把转化生成 的综合指标称之为主成分,其中每个主成分都是原始变量的 线性组合,且各个主成分之间互不相关,这就使得主成分比 原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更 容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时 使问题得到简化,提高分析效率。本章主要介绍主成分分析 的基本理论和方法、主成分分析的计算步骤及主成分分析的 上机实现。
2020/5/28
1100
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
由第一节的介绍我们知道,在处理涉及多个指标问题的时 候,为了提高分析的效率,可以不直接对 p个指标构成的 p维 随机向量X (X1, X 2 , , X p )'进行分析,而是先对向量 X 进行线
性变换,形成少数几个新的综合变量Y1,Y2, ,YP ,使得各综
2020/5/28
99
目录 上页 下页 返回 结束
§1.2 主成分分析的基本理论
基于以上三条原则决定的综合变量 Y1,Y2, ,YP 分
别称为原始变量的第一、第二、…、第p 个主成分。

(完整版)主成分分析法的步骤和原理.doc

(完整版)主成分分析法的步骤和原理.doc

(一)主成分分析法的基本思想主成分分析( Principal Component Analysis )是利用降 的思想,将多个 量 化 少数几个 合 量(即主成分) ,其中每个主成分都是原始 量的 性 合,各主成分之 互不相关, 从而 些主成分能 反映始 量的 大部分信息,且所含的信息互不重叠。

[2]采用 种方法可以克服 一的 指 不能真 反映公司的 情况的缺点,引 多方面的 指 , 但又将复 因素 几个主成分, 使得复 得以 化,同 得到更 科学、准确的 信息。

(二)主成分分析法代数模型假 用 p 个 量来描述研究 象,分 用 X 1, X 2⋯X p 来表示, p 个 量构成的 p 随机向量 X=(X 1,X 2⋯X p )t 。

随机向量 X 的均 μ, 方差矩 Σ。

X 行 性 化,考 原始 量的 性 合:Z 1=μ11 X 1+μ12 X 2+⋯μ 1p X p Z 2=μ21 X 1+μ22 X 2+⋯μ 2p X p ⋯⋯ ⋯⋯ ⋯⋯Z p =μp1 X 1+μp2 X 2+⋯μ pp X p主成分是不相关的 性 合 Z 1,Z 2⋯⋯ Z p ,并且 Z 1 是 X 1,X 2 ⋯X p 的 性 合中方差最大者, Z 2 是与 Z 1 不相关的 性 合中方差最大者,⋯, Z p 是与 Z 1, Z 2 ⋯⋯ Z p-1 都不相关的 性 合中方差最大者。

(三)主成分分析法基本步第一步: 估 本数 n , 取的 指 数 p , 由估 本的原始数据可得矩 X=(x ij ) m ×p ,其中 x ij 表示第 i 家上市公司的第 j 指 数据。

第二步: 了消除各 指 之 在量 化和数量 上的差 , 指 数据 行 准化,得到 准化矩 (系 自 生成) 。

第三步:根据 准化数据矩 建立 方差矩 R ,是反映 准化后的数据之 相关关系密切程度的 指 , 越大, 明有必要 数据 行主成分分析。

主成分分析法原理及应用

主成分分析法原理及应用

一、概述 在处理信息时,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠,例如,高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性;而变量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍;为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会导致信息丢失和信息不完整等问题的产生;为此,人们希望探索一种更为有效的解决方法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失;主成分分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法;主成分分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,通常综合指标主成分有以下几个特点:主成分个数远远少于原有变量的个数原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将大大减少分析过程中的计算工作量;主成分能够反映原有变量的绝大部分信息因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有变量信息的大量丢失,并能够代表原有变量的绝大部分信息;主成分之间应该互不相关通过主成分分析得出的新的综合指标主成分之间互不相关,因子参与数据建模能够有效地解决变量信息重叠、多重共线性等给分析应用带来的诸多问题;主成分具有命名解释性总之,主成分分析法是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子,如何使因子具有一定的命名解释性的多元统计分析方法;二、基本原理主成分分析是数学上对数据降维的一种方法;其基本思想是设法将原来众多的具有一定相关性的指标X1,X2,…,XP 比如p 个指标,重新组合成一组较少个数的互不相关的综合指标Fm 来代替原来指标;那么综合指标应该如何去提取,使其既能最大程度的反映原变量Xp 所代表的信息,又能保证新指标之间保持相互无关信息不重叠;设F1表示原变量的第一个线性组合所形成的主成分指标,即11112121...p p F a X a X a X =+++,由数学知识可知,每一个主成分所提取的信息量可用其方差来度量,其方差VarF1越大,表示F1包含的信息越多;常常希望第一主成分F1所含的信息量最大,因此在所有的线性组合中选取的F1应该是X1,X2,…,XP 的所有线性组合中方差最大的,故称F1为第一主成分;如果第一主成分不足以代表原来p 个指标的信息,再考虑选取第二个主成分指标F2,为有效地反映原信息,F1已有的信息就不需要再出现在F2中,即F2与F1要保持独立、不相关,用数学语言表达就是其协方差CovF1, F2=0,所以F2是与F1不相关的X1,X2,…,XP 的所有线性组合中方差最大的,故称F2为第二主成分,依此类推构造出的F1、F2、……、Fm 为原变量指标X1、X2……XP 第一、第二、……、第m 个主成分;根据以上分析得知:1 Fi 与Fj 互不相关,即CovFi,Fj = 0,并有VarFi=ai ’Σai,其中Σ为X 的协方差阵2F1是X1,X2,…,Xp 的一切线性组合系数满足上述要求中方差最大的,……,即Fm 是与F1,F2,……,Fm -1都不相关的X1,X2,…,XP 的所有线性组合中方差最大者;F1,F2,…,Fmm ≤p 为构造的新变量指标,即原变量指标的第一、第二、……、第m 个主成分;由以上分析可见,主成分分析法的主要任务有两点:1确定各主成分Fii=1,2,…,m 关于原变量Xjj=1,2 ,…, p 的表达式,即系数ij a i=1,2,…,m ; j=1,2 ,…,p;从数学上可以证明,原变量协方差矩阵的特征根是主成分的方差,所以前m 个较大特征根就代表前m 个较大的主成分方差值;原变量协方差矩阵前m 个较大的特征值i λ这样选取才能保证主成分的方差依次最大所对应的特征向量就是相应主成分Fi 表达式的系数i a ,为了加以限制,系数i a 启用的是i λ对应的单位化的特征向量,即有'ai ai = 1;2计算主成分载荷,主成分载荷是反映主成分Fi 与原变量Xj 之间的相互关联程度:(,)(,1,2,,;1,2,,)k i ki P Z x i p k m ===三、主成分分析法的计算步骤主成分分析的具体步骤如下:1计算协方差矩阵计算样品数据的协方差矩阵:Σ=s ij pp,其中11()()1nij ki i kj j k s x x x x n ==---∑ i,j=1,2,…,p 2求出Σ的特征值i λ及相应的正交化单位特征向量i aΣ的前m 个较大的特征值12…m>0,就是前m 个主成分对应的方差,i λ对应的单位特征向量i a 就是主成分Fi 的关于原变量的系数,则原变量的第i 个主成分Fi 为:Fi ='i a X主成分的方差信息贡献率用来反映信息量的大小,i α为:3选择主成分最终要选择几个主成分,即F1,F2,……,Fm 中m 的确定是通过方差信息累计贡献率Gm 来确定当累积贡献率大于85%时,就认为能足够反映原来变量的信息了,对应的m 就是抽取的前m 个主成分;4计算主成分载荷主成分载荷是反映主成分Fi 与原变量Xj 之间的相互关联程度,原来变量Xjj=1,2 ,…, p 在诸主成分Fii=1,2,…,m 上的荷载 lij i=1,2,…,m ; j=1,2 ,…,p;:在SPSS 软件中主成分分析后的分析结果中,“成分矩阵”反应的就是主成分载荷矩阵;5计算主成分得分计算样品在m 个主成分上的得分:1122...i i i pi p F a X a X a X =+++ i = 1,2,…,m实际应用时,指标的量纲往往不同,所以在主成分计算之前应先消除量纲的影响;消除数据的量纲有很多方法,常用方法是将原始数据标准化,即做如下数据变换: 其中:11n j ij i x x n ==∑,2211()1n j ij j i s x x n ==--∑ 根据数学公式知道,①任何随机变量对其作标准化变换后,其协方差与其相关系数是一回事,即标准化后的变量协方差矩阵就是其相关系数矩阵;②另一方面,根据协方差的公式可以推得标准化后的协方差就是原变量的相关系数,亦即,标准化后的变量的协方差矩阵就是原变量的相关系数矩阵;也就是说,在标准化前后变量的相关系数矩阵不变化;根据以上论述,为消除量纲的影响,将变量标准化后再计算其协方差矩阵,就是直接计算原变量的相关系数矩阵,所以主成分分析的实际常用计算步骤是:☆计算相关系数矩阵☆求出相关系数矩阵的特征值i λ及相应的正交化单位特征向量i a☆选择主成分☆计算主成分得分总结:原指标相关系数矩阵相应的特征值i 为主成分方差的贡献,方差的贡献率为 1/pi i i i αλλ==∑,i α越大,说明相应的主成分反映综合信息的能力越强,可根据i 的大小来提取主成分;每一个主成分的组合系数原变量在该主成分上的载荷i a 就是相应特征值i 所对应的单位特征向量;。

主成分分析简介课件

主成分分析简介课件
取值在0.5 ~ 1之间
4、如未收敛则回到步骤3
注:其中 k和 k 是两个待调整的参数;
函数g(y)的选择见参考文献[2]P68
逐次提取独立成分
—投影追踪方法
度量非正态性(非高斯性):
可以认为,两个独立变量之和形成的分布比两 个原始变量中的任意一个都更接近于正态分布
由于Z是Y的线性组合,只要找到一个度 量非正态性的量,使达到最大,就可以 使Y中各分量独立性最大
所找到的矩阵起到将 Qz (M ) 对角化的作 用
基于四阶累积量的JADE法
步骤: 1、取一组矩阵 M i , 由定义分别求 Qz (M i ) (矩阵的简单取法:取N*N个矩阵,分别
只有一个元素为1,或取一组对称/反对 称的基矩阵,引自[2]P53) 通过优化求解U,使各 Qz (M i ) 联合 对角化(使 (M i ) 中非对角元素的平方 和最小)
此法的矩阵集合可取为 Z [K ijkliikk ijkl (Z )]2
分解结果:
Aˆ W U , Bˆ Aˆ 1 U W , Y BX U WX
非线性PCA的自适应算法
以均方误差最小作为收敛判据, 非线性PCA引入非线性因素等效于考虑高
阶矩 算法具体步骤为: 1、对观测值求均值,用递归法求白化阵
—投影追踪方法
5、归一化: ui (k 1) ui (k 1) 2
ui (k 1)
如果 u p 未收敛,回到步骤3;
令p加1,当p<=m时,回到步骤3。
参考文献
[1] A.Hyvarinen等著,周宗潭等译,独 立成分分析,北京:电子工业出版社, 2007年
[2]杨福生、洪波著,独立分量分析的原 理与应用,北京:清华大学出版社, 2006年

主成分分析完整版

主成分分析完整版
很显然,识辨系统在一个低维空间要比在一个高维空间容 易得多。
在力求数据信息丢失最少的原则下,对高维的变量空间降 维,即研究指标体系的少数几个线性组合,并且这几个线性 组合所构成的综合指标将尽可能多地保留原来指标变异方面 的信息。这些综合指标就称为主成分。要讨论的问题是:
(1) 基于相关系数矩阵/协方差矩阵做主成分分析? (2) 选择几个主成分? (3) 如何解释主成分所包含的实际意义?
5. 主成分的含义 F1表示学生身材大小。 F2反映学生的体形特征
三个主成分的方差贡献率分别为:
31 i 9.8 1 592.8 1 .3 65 01.56 192 .8 .1 335 1 7.9 6%
i1
2 23.6019.1%
3
i
123.31
i1
3 3 i
1.56 1.3% 123.31
0.105 -0.84 0.33 -0.9931
在F1的表达式中,只有第三个指标Z3(万元产值流动资金占用 率)的系数为负值(-0.45),而Z5的系数最大,Z5与Z3是刻画 企业经营水平高低的。当Z3取值较小,Z5取值较大时,F1就较 大。于是F1在此突出地反映了一个企业经营水平的高低。
4. 写出主成分的表达式
F k a 1 k ( x 1 x 1 ) a 2 k ( x 2 x 2 ) . .a p .( x k p x p ) 或 F k a 1 k x 1 a 2 k x 2 . .a .px k p
主成分个数的选取原则
根据累积贡献率的大小取前面m 个(m<p)主成分
例1 下表是10位学生的身高 x1 、胸围x2、体重 x3
的数据。
身高x1(cm)
149.5 162.5 162.7 162.2 156.5 156.1 172.0 173.2 159.5 157.7

主成分分析法

主成分分析法
第七章 主成分分析
§7.1
引言 §7.2 总体的主成分 §7.3 样本的主成分
§7.1 引言
主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来 被霍特林(Hotelling,1933)发展了。 主成分分析是一种通过降维技术把多个变量化为少 数几个主成分(即综合变量)的统计分析方法。这些 主成分能够反映原始变量的绝大部分信息,它们通 常表示为原始变量的某种线性组合。 主成分分析的一般目的是:(1)变量的降维;(2)主成 分的解释。

现比较本例中从R 出发和例7.2.2中从 Σ 出发的主成 分计算结果。从R 出发的 y1* 的贡献率0.705明显小于 从 Σ 出发的 y1的贡献率0.938,事实上,原始变量方 差之间的差异越大,这一点也就倾向于越明显, * * * (7.2.15)式有助于我们理解之。 y1 , y2 , y3 可用标准 化前的原变量表达如下: x3 3 x1 1 x2 2 *
Cov y1 , y2 0 我们在此条件和约束条件 a2a 2 1 下寻求向量a 2 ,使 得 V y2 a2 Σa2 达到最大,所求的 y2 称为第二主成
分。求得的第二主成分为
y2 t12 x1 t22 x2 t p 2 x p t x 2

3.原始变量 xi 与主成分 yk 之间的相关系数 k xi , yk tik , i, k 1, 2,, p ii
在实际应用中,通常我们只对 xi (i 1, 2,, p) 与 yk (k 1, 2,, m) 的相关系数感兴趣。

三、从相关阵出发求主成分
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


3.主成分的命名:由显著相关的临界值检验,将与主成分 Y j 显著相关的变量归为 Y j 一类,由这类变量的意义和符号对 主成分 Y j 进行命名。 4.主成分的正向化: 如果归为 Y j 一类的变量与 Y j 的相关系 数表明该类变量的意义是正向的,Y j 不变符号;如果意义是反 向的, Y j 乘上负号(注意有些变量,可能与两个主成分显著相 关,命名、确定符号、分析中也要同时考虑好这些变量的联系 性影响)。 为使主成分分析能够均等地对待每一个原始变量,消除由 于单位的不同可能带来的影响,常常将各原始变量作标准化处 理,此时协方差矩阵是 X 的相关系数矩阵 R 。 实际应用中,X 的相关系数矩阵 R 是不知道的, 常用样本 相关系数矩阵来估计。
p 0 ,相应的单
T1 , T2 ,
, Tp ,T =( T1 , T2 ,
, Tp ), T′T =Ip。
那么,由此所确定的主成分为
Y1 T1X , Y2 T2 X , , Yp Tp X ;
其方差分别为 Σ 的特征根:
D(Y1)=λ 1, ,D(Yp)=λ p。
性质 3 主成分 Yk 与原始变量 X i 的相关系数为
第二节 主成分的数学模型

主成分的数学模型 设 X ( X1 , , X p ) 为一个 p 维标准化随机向量, 其协 差阵记为: Σ D ( X) 考虑如下的线性变换 Y t X t X t X T X 1p p 1 1 11 1 12 2 Y2 t21 X 1 t22 X 2 t2 p X p T2 X Yp t p1 X 1 t p 2 X 2 t pp X p Tp X 用矩阵表示为 Y TX 其中 Y (Y1 , Y2 , Yp ) , T (T1 , T2 , , Tp ) 。 (6.3)
主成分分析概述
已有知识和局限性:研究多变量(多指标)问题是经 常遇到的。由于变量多,变量之间可能存在高度的相关性, 单变量分析不解决问题。 问题的提出:如何找到少数互相无关的综合变量代替原 来较多的变量?得到可靠的数据分析结论? 主成分分析就是设法将具有相关性的多个变量化为少数 互相无关的综合变量的一种统计方法。 主成分分析也称主分量分析,是由Hotelling于1933年首 Y1 ,, Yp 互相无关的条件下,即
Cov(Yi , Yj ) 0, i j ,且
2 ti2 t , i 1,, p. 1 ip 1
求 Yi :使得 D(Yi ) Ti ΣTi 达到最大, i 1, , p. 定理:设 Σ 的其特征根为 1 2 位正交特征向量为
k (Yk , X i ) tki ii
(6.22)
原始变量作标准化处理时,σii=1。 主成分 Y1 , , Ym 与变量 X 的相关系数阵: B0 = ( T1√λ 1,T2√λ 2 ,… ,Tm√λ m )。 1.主成分分析进行数据分析的条件:B0 每行至少有一个 元素绝对值较靠近 1,其余元素绝对值小到中等,则可用主 成分进行数据分析。 2.主成分个数 m 的确定:用显著相关的临界值,确定与 变量显著相关的主成分,主成分个数 m,m 个主成分的累计 方差贡献率随之确定。
相关文档
最新文档