《主成分分析》PPT课件
合集下载
《主成分分析》幻灯片PPT
PCA的实质——简化数据
用尽可能少的变量〔主成分〕反映原始数据中尽 可能多的信息,以简化数据,突出主要矛盾。
反映原始数据特征的指标:方差-离散度 主成分:原始变量的最优加权线性组合 最优加权:
第一主成分:寻找原始数据的一个线性组合,使 之具有最大方差〔数据离散度最大的方向〕
第二主成分:寻找原始数据的一个线性组合,使 之具有次大方差,且与第一主成分无关
12.00
14.00
16.00
run100m
18.00
20.00
二、PCA的模型与算法
设:x为标准化变量, 原始数据阵 X s [x 1 ,x 2 , x p ] PCA目标:找到原始数据方差最大的线性组合
❖设:线性组合系数为p×1=[1, 2, … p]T
❖即:要找一个 使z=Xs= 1x1+ 2x2 +…+ pxp具有
What does PCA do?
Original data matrix, say n by p 正交旋转
New data matrix, say n by q, with q < p:
例:研究55个国家运发动径赛 能力,用8项径赛成绩
经PCA得到新数据阵: z55×2:选取2个主成分, 其中第一主成分表示综合
0.0
1
第一主成分-1.0包0 含的信0.0息0 量显然1.00
-21..000
售 电 量
Z2
大于第二主成分,因而忽略s 第
二主成分信息损失不大 -2.0
-2
-1
Ma Xin, North China Electric Power University
0
1
2
3
主成分分析方法PPT课件
X
x21
x22
x2
p
xn1
xn 2
xnp
❖ 当p较大时,在p维空间中考察问题比较麻烦。 为了克服这一困难,就需要进行降维处理. 要求:较少的几个综合指标尽量多地反映原来较 多变量指标所反映的信息,同时它们之间又是彼 此独立的
例,成绩数据
❖ 100个学生的数学、物理、化学、语文、历 史、英语的成绩如下表(部分)。
p
lk2j 1, (k 1,2,, m)
j 1
Rlk lk (R E)lk 0
计算主成分贡献率及累计贡献率
▲贡献率:
k
p
i
(k 1,2,, p)
i 1
▲累计贡献率:
k
p
j1 j / i1 i
一般取累计贡献率达85—95%的特征值 1, 2 ,, m 所对应的第一、第二、…、第m(m≤p)个主成分
6
6
样方
1
物种X1 1
物种X2 5
2 3 4 5 6 总和 2 0 2 -4 -1 0 2 1 0 -4 -4 0
种X2
X2
12
10
8
6
4
2
0
0
1
2
3
4
5
6
7
种X1
6 5 4 3 2 1 0 -5 -4 -3 -2 -1-1 0 1 2 3 4 5 6 -2 -3 -4 -5
X1
中心化后的原始数据矩阵
X
1 5
2 2
0 1
2 0
4 4
1 4
❖ 把坐标轴X1、 X2刚性地旋转 一个角度,得
到图中新坐标
轴Y1和Y2
X2
6
主成分分析与因子分析法ppt课件
9
事实上,以上问题在平时的研究中,也会经 常遇到。它所涉及的问题可以推广到对企业、 对学校、对区域进行分析、评价、排序和分 类等。
比如对n个样本进行综合评价,可选的描述样 本特征的指标很多,而这些指标往往存在一 定的相关性(既不完全独立,又不完全相 关),这就给研究带来很大不便。若选指标 太多,会增加分析问题的难度与复杂性,选 指标太少,有可能会漏掉对样本影响较大的 指标,影响结果的可靠性。
在各种线性组合中方差达到最大者。
满足上述约束得到的合成变量Y1, Y2, …, Yp分别称为 原始变量的第一主成分、第二主成分、…、第 p 主成分,
而且各成分方差在总方差中占的比重依次递减。在实际研究
工作中,仅挑选前几个方差较大的主成分,以达到简化系统
结构的目的。
24
24
三、主成分分析的计算步骤
25
21
(二) 主成分分析的基本思想
假如对某一问题的研究涉及 p 个指标,记为X1,X2, …,
Xp,由这 p 个随机变量构成的随机向量为X=(X1, X2, …,
Xp),设 X 的均值向量为,协方差矩阵为。设Y=(Y1, Y2 ,
… , Yp)为对 X 进行线性变换得到的合成随机向量,即
Y1 11
主成分分析法与因子分析法
1
主要内容
➢ 主成分分析法 ➢ 因子分析法 ➢ 附:主成分分析法与因子分析法的区别
2
主成分分析法
(Principal Components Analysis,PCA) ➢ 主成分分析法概述 ➢ 主成分分析的基本原理 ➢ 主成分分析的计算步骤
3
一、主成分分析概述
4
引子
假定你是一个公司的财务经理,掌握了公 司的所有数据,这包括众多的变量,比如 固定资产、流动资金、每一笔借贷的数额 和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分 工和教育程度等等。
事实上,以上问题在平时的研究中,也会经 常遇到。它所涉及的问题可以推广到对企业、 对学校、对区域进行分析、评价、排序和分 类等。
比如对n个样本进行综合评价,可选的描述样 本特征的指标很多,而这些指标往往存在一 定的相关性(既不完全独立,又不完全相 关),这就给研究带来很大不便。若选指标 太多,会增加分析问题的难度与复杂性,选 指标太少,有可能会漏掉对样本影响较大的 指标,影响结果的可靠性。
在各种线性组合中方差达到最大者。
满足上述约束得到的合成变量Y1, Y2, …, Yp分别称为 原始变量的第一主成分、第二主成分、…、第 p 主成分,
而且各成分方差在总方差中占的比重依次递减。在实际研究
工作中,仅挑选前几个方差较大的主成分,以达到简化系统
结构的目的。
24
24
三、主成分分析的计算步骤
25
21
(二) 主成分分析的基本思想
假如对某一问题的研究涉及 p 个指标,记为X1,X2, …,
Xp,由这 p 个随机变量构成的随机向量为X=(X1, X2, …,
Xp),设 X 的均值向量为,协方差矩阵为。设Y=(Y1, Y2 ,
… , Yp)为对 X 进行线性变换得到的合成随机向量,即
Y1 11
主成分分析法与因子分析法
1
主要内容
➢ 主成分分析法 ➢ 因子分析法 ➢ 附:主成分分析法与因子分析法的区别
2
主成分分析法
(Principal Components Analysis,PCA) ➢ 主成分分析法概述 ➢ 主成分分析的基本原理 ➢ 主成分分析的计算步骤
3
一、主成分分析概述
4
引子
假定你是一个公司的财务经理,掌握了公 司的所有数据,这包括众多的变量,比如 固定资产、流动资金、每一笔借贷的数额 和期限、各种税费、工资支出、原料消耗、 产值、利润、折旧、职工人数、职工的分 工和教育程度等等。
主成分分析完整ppt课件
的系数向量。对于多维的情况,上面的结论依然成立。
这样,我们就对主成分分析的几何意义有了一个充分的了解。 主成分分析的过程无非就是坐标系旋转的过程,各主成分表达 式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐 标轴的方向就是原始数据变差最大的方向。
2021/6/12
1199
目录 上页 下页 返回 结束
其中,U为旋转变换矩阵,由上式可知它是正交阵, 即满足
U'U1 , U'UI
2021/6/12
1144
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
经过这样的旋转之后,N个样品点在 Y 1 轴上的离散程度最
大,变量 Y 1 代表了原始数据绝大部分信息,这样,有时在研
究实际问题时,即使不考虑变量 Y 2 也无损大局。因此,经过
指标转化为几个综合指标的多元统计方法。通常把转化生成
的综合指标称之为主成分,其中每个主成分都是原始变量的
线性组合,且各个主成分之间互不相关,这就使得主成分比
原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更
容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时
上述旋转变换就可以把原始数据的信息集中到
Y
轴上,对数
1
据中包含的信息起到了浓缩的作用。进行主成分分析的目的
就是找出转换矩阵 U ,而进行主成分分析的作用与几何意义
也就很明了了。下面我们用遵从正态分布的变量进行分析,
以使主成分分析的几何意义更为明显。为方便,我们以二元
正态分布为例。对于多元正态总体的情况,有类似的结论。
1.每一个主成分都是各原始变量的线性组合;
这样,我们就对主成分分析的几何意义有了一个充分的了解。 主成分分析的过程无非就是坐标系旋转的过程,各主成分表达 式就是新坐标系与原坐标系的转换关系,在新坐标系中,各坐 标轴的方向就是原始数据变差最大的方向。
2021/6/12
1199
目录 上页 下页 返回 结束
其中,U为旋转变换矩阵,由上式可知它是正交阵, 即满足
U'U1 , U'UI
2021/6/12
1144
目录 上页 下页 返回 结束
§2 主成分分析的几何意义
经过这样的旋转之后,N个样品点在 Y 1 轴上的离散程度最
大,变量 Y 1 代表了原始数据绝大部分信息,这样,有时在研
究实际问题时,即使不考虑变量 Y 2 也无损大局。因此,经过
指标转化为几个综合指标的多元统计方法。通常把转化生成
的综合指标称之为主成分,其中每个主成分都是原始变量的
线性组合,且各个主成分之间互不相关,这就使得主成分比
原始变量具有某些更优越的性能。这样在研究复杂问题时就 可以只考虑少数几个主成分而不至于损失太多信息,从而更
容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时
上述旋转变换就可以把原始数据的信息集中到
Y
轴上,对数
1
据中包含的信息起到了浓缩的作用。进行主成分分析的目的
就是找出转换矩阵 U ,而进行主成分分析的作用与几何意义
也就很明了了。下面我们用遵从正态分布的变量进行分析,
以使主成分分析的几何意义更为明显。为方便,我们以二元
正态分布为例。对于多元正态总体的情况,有类似的结论。
1.每一个主成分都是各原始变量的线性组合;
【2024版】主成分分析PPT课件
协方差矩阵的对角线上的元素之和等于特征根 之和。
三、精度分析
1)贡献率:第i个主成分的方差在全部方差中所占
比重
i
p
i 1
i
,称为贡献率
,反映了原来P个指标多大
的信息,有多大的综合能力 。
2)累积贡献率:前k个主成分共有多大的综合能力, 用这k个主成分的方差和在全部方差中所占比重
k
p
i i
i1
主成分分析试图在力保数据信息丢失最少 的原则下,对这种多变量的截面数据表进行 最佳综合简化,也就是说,对高维变量空间 进行降维处理。
很显然,识辨系统在一个低维空间要比 在一个高维空间容易得多。
在力求数据信息丢失最少的原则下,对高维的变 量空间降维,即研究指标体系的少数几个线性组合, 并且这几个线性组合所构成的综合指标将尽可能多 地保留原来指标变异方面的信息。这些综合指标就 称为主成分。要讨论的问题是:
四、原始变量与主成分之间的相关系数
Fj u1 j x1 u2 j x2 upj xp j 1,2,, m, m p
F UX UF X
x1 u11 u12 L u1p F1
x2
M
u21 M
u22 M
L
u2
p
F2
M M
x
p
u p1
up2
L
u
pp
Fp
Cov(xi , Fj ) Cov(ui1F1 ui2F2 L uipFp , Fj ) uij j
u11 u12 u1p
U
(u1
,,
up
)
u21
u22
u2
p
u p1
up2
u
pp
《主成分分析法》课件
目的
主成分分析法的目的是减少数据的维 度,同时保留数据中的主要信息,以 便更好地理解和分析数据。
历史与发展
1901年
由英国统计学家Karl Pearson提出主成分的概 念。
1933年
美国统计学家Harold Hotelling将主成分分析 法应用于心理学和教育学领域。
20世纪70年代
随着计算机技术的发展,主成分分析法在各个领域得到广泛应用。
04
主成分分析法的步骤
数据标准化
总结词
消除量纲和数量级对分析的影响
详细描述
在进行主成分分析之前,需要对数据进行标准化处理,即将各指标的均值调整为0,标准差调整为1, 以消除不同量纲和数量级对分析的影响。
计算相关系数矩阵
总结词
衡量变量间的相关性
VS
详细描述
通过计算原变量之间的相关系数矩阵,可 以了解各变量之间的相关性。相关系数矩 阵中的元素表示各指标之间的相关系数, 用于衡量变量间的线性关系。
详细描述
市场细分是主成分分析法在市场营销领域中的重要应 用。通过对市场数据进行主成分分析,可以提取出影 响市场需求的共同因素,进而将市场划分为不同的子 市场。这种分析方法有助于企业识别不同子市场的需 求特点、消费行为和竞争状况,为制定针对性的营销 策略提供依据。
实例二:客户分类
要点一
总结词
利用主成分分析法对客户进行分类,有助于企业更好地了 解客户群体特征,提高客户满意度和忠诚度。
01
数学模型
主成分分析通过线性变换将原始 变量转换为彼此独立的主成分, 这种变换是线性的。
变换矩阵
02
03
特征向量
线性变换需要一个变换矩阵,该 矩阵由原始变量和主成分之间的 系数构成。
主成分分析法的目的是减少数据的维 度,同时保留数据中的主要信息,以 便更好地理解和分析数据。
历史与发展
1901年
由英国统计学家Karl Pearson提出主成分的概 念。
1933年
美国统计学家Harold Hotelling将主成分分析 法应用于心理学和教育学领域。
20世纪70年代
随着计算机技术的发展,主成分分析法在各个领域得到广泛应用。
04
主成分分析法的步骤
数据标准化
总结词
消除量纲和数量级对分析的影响
详细描述
在进行主成分分析之前,需要对数据进行标准化处理,即将各指标的均值调整为0,标准差调整为1, 以消除不同量纲和数量级对分析的影响。
计算相关系数矩阵
总结词
衡量变量间的相关性
VS
详细描述
通过计算原变量之间的相关系数矩阵,可 以了解各变量之间的相关性。相关系数矩 阵中的元素表示各指标之间的相关系数, 用于衡量变量间的线性关系。
详细描述
市场细分是主成分分析法在市场营销领域中的重要应 用。通过对市场数据进行主成分分析,可以提取出影 响市场需求的共同因素,进而将市场划分为不同的子 市场。这种分析方法有助于企业识别不同子市场的需 求特点、消费行为和竞争状况,为制定针对性的营销 策略提供依据。
实例二:客户分类
要点一
总结词
利用主成分分析法对客户进行分类,有助于企业更好地了 解客户群体特征,提高客户满意度和忠诚度。
01
数学模型
主成分分析通过线性变换将原始 变量转换为彼此独立的主成分, 这种变换是线性的。
变换矩阵
02
03
特征向量
线性变换需要一个变换矩阵,该 矩阵由原始变量和主成分之间的 系数构成。
第三章第5节主成分分析PPT课件
第5节 主成分分析
❖主成分分析的基本原理 ❖主成分分析的解法 ❖主成分分析方法应用实例
1
整体概述
概况一
点击此处输入相关文本内容 点击此处输入相关文本内容
概况二
点击此处输入相关文本内容 点击此处输入相关文本内容
概况三
点击此处输入相关文本内容 点击此处输入相关文本内容
2
问题的提出
❖ 地理系统是多要素的复杂系统。在地理学研究中,多变量 问题是经常会遇到的。变量太多,无疑会增加分析问题的 难度与复杂性,而且在许多实际问题中,多个变量之间是 具有一定的相关关系的。
❖ 那么这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少;在极端的情况,短轴如果退化成一点, 那只有在长轴的方向才能够解释这些点的变化了;这样, 由二维到一维的降维就自然完成了。
6
❖ 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就 描述了数据的主要变化,而代表短轴的变量就描述了数 据的次要变化。
y13 y23
y14 y24
y15 y25
y16 y26
c so in c sio n s x x 1 21 1x x 1 22 2x x 1 23 3x x 1 24 4x x 1 25 5x x 1 2 6 6
UX
❖ U是坐标旋转的变换矩阵,它是正交矩阵,有UT=U-1,即 UUT=I(I为单位矩阵)
❖ 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需 要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆 的长短轴平行。
❖ 如果长轴变量代表了数据包含的大部分信息,就用该变 量代替原先的两个变量(舍去次要的一维),降维就完 成了。
❖ 椭圆(球)的长短轴相差得越大,降维也越有道理。
7
❖主成分分析的基本原理 ❖主成分分析的解法 ❖主成分分析方法应用实例
1
整体概述
概况一
点击此处输入相关文本内容 点击此处输入相关文本内容
概况二
点击此处输入相关文本内容 点击此处输入相关文本内容
概况三
点击此处输入相关文本内容 点击此处输入相关文本内容
2
问题的提出
❖ 地理系统是多要素的复杂系统。在地理学研究中,多变量 问题是经常会遇到的。变量太多,无疑会增加分析问题的 难度与复杂性,而且在许多实际问题中,多个变量之间是 具有一定的相关关系的。
❖ 那么这个椭圆有一个长轴和一个短轴。在短轴方向上, 数据变化很少;在极端的情况,短轴如果退化成一点, 那只有在长轴的方向才能够解释这些点的变化了;这样, 由二维到一维的降维就自然完成了。
6
❖ 当坐标轴和椭圆的长短轴平行,那么代表长轴的变量就 描述了数据的主要变化,而代表短轴的变量就描述了数 据的次要变化。
y13 y23
y14 y24
y15 y25
y16 y26
c so in c sio n s x x 1 21 1x x 1 22 2x x 1 23 3x x 1 24 4x x 1 25 5x x 1 2 6 6
UX
❖ U是坐标旋转的变换矩阵,它是正交矩阵,有UT=U-1,即 UUT=I(I为单位矩阵)
❖ 但是,坐标轴通常并不和椭圆的长短轴平行。因此,需 要寻找椭圆的长短轴,并进行变换,使得新变量和椭圆 的长短轴平行。
❖ 如果长轴变量代表了数据包含的大部分信息,就用该变 量代替原先的两个变量(舍去次要的一维),降维就完 成了。
❖ 椭圆(球)的长短轴相差得越大,降维也越有道理。
7
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3、主成分的方差依次递减,重要性依次递减,即
Var(F1) Var(F2 ) Var(Fp )
F1,F2,…,Fp分别称为原变量的第一、第二、…、第p个主成分。
2019/5/5
江西理工大学理学院
了解了主成分分析的基本思想、数学模型后,问 题的关键: 1、如何进行主成分分析?(主成分分析的方法) 基于相关系数矩阵还是基于协方差矩阵做主成分 分析。当分析中所选择的经济变量具有不同的量 纲,变量水平差异很大,应该选择基于相关系数 矩阵的主成分分析。 2、如何确定主成分个数? 主成分分析的目的是简化变量,一般情况下主成 分的个数应该小于原始变量的个数。关于保留几 个主成分,应该权衡主成分个数和保留的信息。 3、如何解释主成分所包含的经济意义?
j 'C j j
若矩阵 ,是由特征向量 j 所构成的,则有:
1
j'C j
0
0
k
2019/5/5
江西理工大学理学院
主成分分析的目标:
1、量从(相主关成的分X1), XY2,1…,Y2,X,…k ,,求Yk。出相互独立的新综合变 2、或Y=损(失Y的1,指Y2标,…—,方Yk差),’等所于反X映=信(息X的1,X含2,量…无,X遗k)漏’
2
1
a1 u1 , u2 ,
下面我们来看,是否由U的第一列元素所构成为 原始变量的线性组合是否有最大的方差。
2019/5/5
江西理工大学理学院
证明:设有P维正交向量 a1 a11 , a21 ,, a p1
F1 a11X1 ap1X p aX
1
V (F1 )
a1a1
a1U
2019/5/5
江西理工大学理学院
主成分分析的运用:
1、对一组内部相关的变量作简化的描述 2、用来削减回归分析或群集分析(Cluster)中变量 的数目 3、用来检查异常点 4、用来作多重共线性鉴定 5、用来做原来数据的常态检定
2019/5/5
二、数学模型
江西理工大学理学院
假设我们所讨论的实际问题中,有p个指标,我 们把这p个指标看作p个随机变量,记为X1, X2,…,Xp,主成分分析就是要把这p个指标的问 题,转变为讨论p个指标的线性组合的问题,而 这些新的指标F1,F2,…,Fk(k≤p),按照保留 主要信息量的原则充分反映原指标的信息,并
江西理工大学理学院
主成分分析:将原来较多的指标简化为少数 几个新的综合指标的多元统计方法。
主成分:由原始指标综合形成的几个新指标。 依据主成分所含信息量的大小成为第一主成 分,第二主成分等等。
2019/5/5
江西理工大学理学院
主成分分析得到的主成分与原始变量之间的关 系: 1、主成分保留了原始变量绝大多数信息。 2、主成分的个数大大少于原始变量的数目。 3、各个主成分之间互不相关。 4、每个主成分都是原始变量的线性组合。
且相互独立。
2019/5/5
江西理工大学理学院
这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分 析通常的做法是,寻求原指标的线性组合 Fi。
F1 u11 X1 u21 X 2 up1 X p F2 u12 X1 u22 X 2 up2 X p
11 12 1P
设X的协方差阵为 X
21
22
2P
P1
P2
PP
由的于知Σ识x为可非得负,定必的存对在称正阵交,阵则U,有使利得用线性代数
2019/5/5
1 0
UΣXU
0 p
江西理工大学理学院
其1中21,…2, p…。,而pU为恰Σ好X的是特由征特根征,根不相妨对假应设的
特征向量所组成的正交阵。
u11 u12 u1 p
U
(u1 ,,up
)
u21
u22
u2
p
u
p1
up2
u
pp
Ui u1i,u2i,,upi i 1,2,, P
k
j tr(C ) 矩阵C对角线上的元素之和
2019/5/5 j1
江西理工大学理学院
(3)任一k阶的实对称矩阵C的性质:
A、实对称矩阵C的非零特征根的数目=C的秩
B、k阶的实对称矩阵存在k个实特征根
C、实对称矩阵的不同特征根的特征向量是正交的
D、若 j 是实对称矩阵C的单位特征向量,则
的方差 。
X与Y之间的计算关系是:
Y1 a11 a1k X1
即Y=AX
Yk ak1 akk Xk
如何求解主成分?
2019/5/5
江西理工大学理学院
一、从协方差矩阵出发求解主成分 (一)第一主成分:
2019/5/5
江西理工大学理学院
四、总体主成分的求解及其性质
矩阵知识回顾: (1)特征根与特征向量
A、若对任意的k阶方阵C,有数字 与向量 满
足: C ,则称 为C的特征根, 为C的相 应于 的特征向量。 B、同时,方阵C的特征根 是k阶方程 C I 0
的根。 (2)任一k阶方阵C的特征根 j 的性质:
第一章 主成分分析
2019/5/5
主成分分析的重点
江西理工大学理学院
1、掌握什么是主成分分析; 2、理解主成分分析的基本思想; 3、理解主成分求解方法:协方差矩阵与相
关系数矩阵的差异; 4、掌握运用数学软件求解主成分; 5、对软件输出结果进行正确分析.
2019/5/5
一、主成分分析的基本思想
Fp u1 p X1 u2 p X 2 upp X p
2019/5/5
江西理工大学理学院
满足如下的条件:
1、每个主成分的系数平方和为1。即
u2 1i
u2 2i
u2 pi
1
2、主成分之间相互独立,即无重叠的信息。即
Cov(Fi,Fj) 0,i j,i,j 1, 2, ,p
Var(F1) Var(F2 ) Var(Fp )
F1,F2,…,Fp分别称为原变量的第一、第二、…、第p个主成分。
2019/5/5
江西理工大学理学院
了解了主成分分析的基本思想、数学模型后,问 题的关键: 1、如何进行主成分分析?(主成分分析的方法) 基于相关系数矩阵还是基于协方差矩阵做主成分 分析。当分析中所选择的经济变量具有不同的量 纲,变量水平差异很大,应该选择基于相关系数 矩阵的主成分分析。 2、如何确定主成分个数? 主成分分析的目的是简化变量,一般情况下主成 分的个数应该小于原始变量的个数。关于保留几 个主成分,应该权衡主成分个数和保留的信息。 3、如何解释主成分所包含的经济意义?
j 'C j j
若矩阵 ,是由特征向量 j 所构成的,则有:
1
j'C j
0
0
k
2019/5/5
江西理工大学理学院
主成分分析的目标:
1、量从(相主关成的分X1), XY2,1…,Y2,X,…k ,,求Yk。出相互独立的新综合变 2、或Y=损(失Y的1,指Y2标,…—,方Yk差),’等所于反X映=信(息X的1,X含2,量…无,X遗k)漏’
2
1
a1 u1 , u2 ,
下面我们来看,是否由U的第一列元素所构成为 原始变量的线性组合是否有最大的方差。
2019/5/5
江西理工大学理学院
证明:设有P维正交向量 a1 a11 , a21 ,, a p1
F1 a11X1 ap1X p aX
1
V (F1 )
a1a1
a1U
2019/5/5
江西理工大学理学院
主成分分析的运用:
1、对一组内部相关的变量作简化的描述 2、用来削减回归分析或群集分析(Cluster)中变量 的数目 3、用来检查异常点 4、用来作多重共线性鉴定 5、用来做原来数据的常态检定
2019/5/5
二、数学模型
江西理工大学理学院
假设我们所讨论的实际问题中,有p个指标,我 们把这p个指标看作p个随机变量,记为X1, X2,…,Xp,主成分分析就是要把这p个指标的问 题,转变为讨论p个指标的线性组合的问题,而 这些新的指标F1,F2,…,Fk(k≤p),按照保留 主要信息量的原则充分反映原指标的信息,并
江西理工大学理学院
主成分分析:将原来较多的指标简化为少数 几个新的综合指标的多元统计方法。
主成分:由原始指标综合形成的几个新指标。 依据主成分所含信息量的大小成为第一主成 分,第二主成分等等。
2019/5/5
江西理工大学理学院
主成分分析得到的主成分与原始变量之间的关 系: 1、主成分保留了原始变量绝大多数信息。 2、主成分的个数大大少于原始变量的数目。 3、各个主成分之间互不相关。 4、每个主成分都是原始变量的线性组合。
且相互独立。
2019/5/5
江西理工大学理学院
这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分 析通常的做法是,寻求原指标的线性组合 Fi。
F1 u11 X1 u21 X 2 up1 X p F2 u12 X1 u22 X 2 up2 X p
11 12 1P
设X的协方差阵为 X
21
22
2P
P1
P2
PP
由的于知Σ识x为可非得负,定必的存对在称正阵交,阵则U,有使利得用线性代数
2019/5/5
1 0
UΣXU
0 p
江西理工大学理学院
其1中21,…2, p…。,而pU为恰Σ好X的是特由征特根征,根不相妨对假应设的
特征向量所组成的正交阵。
u11 u12 u1 p
U
(u1 ,,up
)
u21
u22
u2
p
u
p1
up2
u
pp
Ui u1i,u2i,,upi i 1,2,, P
k
j tr(C ) 矩阵C对角线上的元素之和
2019/5/5 j1
江西理工大学理学院
(3)任一k阶的实对称矩阵C的性质:
A、实对称矩阵C的非零特征根的数目=C的秩
B、k阶的实对称矩阵存在k个实特征根
C、实对称矩阵的不同特征根的特征向量是正交的
D、若 j 是实对称矩阵C的单位特征向量,则
的方差 。
X与Y之间的计算关系是:
Y1 a11 a1k X1
即Y=AX
Yk ak1 akk Xk
如何求解主成分?
2019/5/5
江西理工大学理学院
一、从协方差矩阵出发求解主成分 (一)第一主成分:
2019/5/5
江西理工大学理学院
四、总体主成分的求解及其性质
矩阵知识回顾: (1)特征根与特征向量
A、若对任意的k阶方阵C,有数字 与向量 满
足: C ,则称 为C的特征根, 为C的相 应于 的特征向量。 B、同时,方阵C的特征根 是k阶方程 C I 0
的根。 (2)任一k阶方阵C的特征根 j 的性质:
第一章 主成分分析
2019/5/5
主成分分析的重点
江西理工大学理学院
1、掌握什么是主成分分析; 2、理解主成分分析的基本思想; 3、理解主成分求解方法:协方差矩阵与相
关系数矩阵的差异; 4、掌握运用数学软件求解主成分; 5、对软件输出结果进行正确分析.
2019/5/5
一、主成分分析的基本思想
Fp u1 p X1 u2 p X 2 upp X p
2019/5/5
江西理工大学理学院
满足如下的条件:
1、每个主成分的系数平方和为1。即
u2 1i
u2 2i
u2 pi
1
2、主成分之间相互独立,即无重叠的信息。即
Cov(Fi,Fj) 0,i j,i,j 1, 2, ,p