数据挖掘之主成分分析与因子分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在社会经济的研究中,为了全面系统地分 析和研究问题,必须考虑许多经济指标,这些 指标能从不同的侧面反映我们所研究的对象的 特征,但在某种程度上存在信息的重叠,具有 一定的相关性。
主成分分析是考察多个数值变量间相关性的一 种多元统计方法。对所导出几个主成分(综合指 标),要求尽可能多地保留原始变量的信息,且 彼此间不相关。它是研究如何通过少数几个主成 欧姆龙贸分易来(上解海)释有限多公司变量的方差—协方差结构。
一般地,利用主成分分析得到的主成分与原始变 量之间有下列关系:
➢每一个主成分都是原始变量的线性组合 ➢主成分的数目大大少于原始变量的数目
➢主成分保留了原始变量绝大多数信息 源自文库各主成分之间互不相关
欧姆龙贸易(上海)有限公司
5.1 数学描述
随机向量的方差-协方差矩阵
所谓随机向量是指其各分量中至少有一个是随机
x2 5 7 9
协方差矩阵的意义在于它刻画
由极大似然法估计的协方差矩阵为了变量之间的相关性
Cov( X
)
1 3
2 4
4 8
而由矩估计得到的协方差矩阵就是将上面矩阵中将系 欧姆龙贸易(上海)有限数公司换成1/2后的矩阵。
主成分分析的目标就是求原来变量的线性组合Yi:
Y1 a11 X1 a12 X 2 a1k X k
或者用这k个指标来评价n个对象),就可得到数据矩
对象:1 阵2Xk..n.: n
X1 x11 x12 x1n
X
2
x21
x22
x2n
Xk
xk1
xk 2
xkn
对样本也可计算相应的协方差矩阵为
C11 C12 C1n
Cov(X)
C21
C22
C2n
欧姆龙贸易(上海)有限公司Ck1
变量的向量。由于在计量经济分析中不可避免地
会涉及随机向量,因此下面简单介绍随机向量的
特征。
X1
设X
X2
是随机向量。则它的期望值为
X
k
E(X1)
E(X)
E
(
X
2
)
欧姆龙贸易(上海)有限公司
E(
X
k
)
X的方差(方差—协方差矩阵)为
Var(X) E[(X E(X))(X E(X))T ]
Ck 2
Ckn
其中
Cij
1 n
n
( xis
s 1
xi.)( x js
x j .)
是Cov(Xi, Xj)=E[(Xi – E(Xi))(Xj – E(Xj))]的极大似然估 计量,也可使用矩估计量,只需将上面的表达式中的
系数由1/n换成1/(n – 1)即可。
例如 对于二维数据
x1 1 2 3
注:主成分分析的目标
• 1) 从相关的X1, X2,…, Xk,求出相互独立的(对于 样本而言是相互正交的) Y1, Y2, …, Yk,同时
• 2) Y=(Y1,Y2, …,Yk)T的方差(反映变化的能力)不损失,
Y2 a21X1 a22 X 2 a2k X k
Yk ak1X1 ak 2 X 2 akk X k
写成矩阵形式就是
Y1 a11 a12 a1k X1
Y2
a21
a22
a2k
X
2
Yk
ak1
ak 2
akk
X
k
或
Y AX
欧姆龙贸易(上海)有限公司
Y而 且Y1 使Y得2 Yk T
第三章 统计分析与SPSS应用
(五、六) 主成分分析与因子分析
欧姆龙贸易(上海)有限公司
5. 主成分分析
➢ 主成分概念首先由 Karl Pearson在1901年引进, 当时只对非随机变量来讨论的。1933年 Hotelling将这个概念推广到随机变量。
➢ 在多数实际问题评估中,不同指标之间是有一 定相关性。由于指标较多及指标间有一定的相 关性,势必增加分析问题的复杂性。
在进行主成分分析后,竟以97.4%的精度,用三 新变量就取代了原17个变量。根据经济学知识,斯 通给这三个新变量分别命名为总收入F1、总收入变 化率F2和经济发展或衰退的趋势F3。更有意思的是 ,这三个变量其实都是可以直接测量的。斯通将他 得到的主成分与实际测量的总收入i、总收入变化率 欧姆i龙以贸及易(时上间海)t有因限素公司做相关分析,得到下表:
X1 E(X1)
E
X
2
E(
X
2
)X
1
E(
X1)
X2 E(X2)
X k E( X k )
X
k
E(Xk
)
Var( X1) Cov( X1, X 2 ) Cov( X1, X k )
Cov(
X
2
,
X1
)
Var( X 2 )
Cov( X 2 , X k )
Cov( X k , X1) Cov( X k , X 2 )
满足
Y的协方差矩阵Cov(Y)为对角矩阵,即诸Yi互不 相关。
Y的方差尽可能大(即,对n个对象的分辨率尽可 能强,或者说信息损失尽可能少)。比如使
trCov(Y)=trCov(X),就没有“辨识能力”方面的 损失。
然后,从Y1, Y2, …, Yk中选出对方差贡献最大的部分指 标作为主成分。
欧姆龙贸易(上海)有限公司
➢ 主成分分析就是设法将原来指标重新组合成一 组新的互不相关的几个综合指标来代替原来指 标。同时根据实际需要从中选取几个较少的综 合指标尽可能多地反映原来的指标的信息。
欧姆龙贸易(上海)有限公司
引例
一项十分著名的工作是美国的统计学家斯通 (Stone)在1947年关于国民经济的研究。他曾利用 美国1929一1938年各年的数据,得到了17个反映国 民收入与支出的变量要素,例如雇主补贴、消费资 料和生产资料、纯公共支出、净增库存、股息、利 息外贸平衡等等。
Var( X k )
由于通过这一表达式计算得到的矩阵不仅包括方差也
包括协方差,所以常称它为方差—协方差矩阵,记为
Var-Cov(X)(在不引起混淆的情况下也称为方差矩阵 欧姆龙贸易或(上协海方)有差限矩公司阵,记为Var(X) 或Cov(X)).
样本描述
调查n个个体(样本)在这k (k < n)个指标下的数值(
F1
F2
F3
i
△i
t
F1
1
F2
0
1
F3
0
0
1
i 0.995 -0.041 0.057
l
Δi -0.056 0.948 -0.124 -0.102 l
t -0.369 -0.282 -0.836 -0.414 -0.112 1
欧姆龙贸易(上海)有限公司
主成分分析是把各变量之间互相关联的复 杂关系进行简化分析的方法。
主成分分析是考察多个数值变量间相关性的一 种多元统计方法。对所导出几个主成分(综合指 标),要求尽可能多地保留原始变量的信息,且 彼此间不相关。它是研究如何通过少数几个主成 欧姆龙贸分易来(上解海)释有限多公司变量的方差—协方差结构。
一般地,利用主成分分析得到的主成分与原始变 量之间有下列关系:
➢每一个主成分都是原始变量的线性组合 ➢主成分的数目大大少于原始变量的数目
➢主成分保留了原始变量绝大多数信息 源自文库各主成分之间互不相关
欧姆龙贸易(上海)有限公司
5.1 数学描述
随机向量的方差-协方差矩阵
所谓随机向量是指其各分量中至少有一个是随机
x2 5 7 9
协方差矩阵的意义在于它刻画
由极大似然法估计的协方差矩阵为了变量之间的相关性
Cov( X
)
1 3
2 4
4 8
而由矩估计得到的协方差矩阵就是将上面矩阵中将系 欧姆龙贸易(上海)有限数公司换成1/2后的矩阵。
主成分分析的目标就是求原来变量的线性组合Yi:
Y1 a11 X1 a12 X 2 a1k X k
或者用这k个指标来评价n个对象),就可得到数据矩
对象:1 阵2Xk..n.: n
X1 x11 x12 x1n
X
2
x21
x22
x2n
Xk
xk1
xk 2
xkn
对样本也可计算相应的协方差矩阵为
C11 C12 C1n
Cov(X)
C21
C22
C2n
欧姆龙贸易(上海)有限公司Ck1
变量的向量。由于在计量经济分析中不可避免地
会涉及随机向量,因此下面简单介绍随机向量的
特征。
X1
设X
X2
是随机向量。则它的期望值为
X
k
E(X1)
E(X)
E
(
X
2
)
欧姆龙贸易(上海)有限公司
E(
X
k
)
X的方差(方差—协方差矩阵)为
Var(X) E[(X E(X))(X E(X))T ]
Ck 2
Ckn
其中
Cij
1 n
n
( xis
s 1
xi.)( x js
x j .)
是Cov(Xi, Xj)=E[(Xi – E(Xi))(Xj – E(Xj))]的极大似然估 计量,也可使用矩估计量,只需将上面的表达式中的
系数由1/n换成1/(n – 1)即可。
例如 对于二维数据
x1 1 2 3
注:主成分分析的目标
• 1) 从相关的X1, X2,…, Xk,求出相互独立的(对于 样本而言是相互正交的) Y1, Y2, …, Yk,同时
• 2) Y=(Y1,Y2, …,Yk)T的方差(反映变化的能力)不损失,
Y2 a21X1 a22 X 2 a2k X k
Yk ak1X1 ak 2 X 2 akk X k
写成矩阵形式就是
Y1 a11 a12 a1k X1
Y2
a21
a22
a2k
X
2
Yk
ak1
ak 2
akk
X
k
或
Y AX
欧姆龙贸易(上海)有限公司
Y而 且Y1 使Y得2 Yk T
第三章 统计分析与SPSS应用
(五、六) 主成分分析与因子分析
欧姆龙贸易(上海)有限公司
5. 主成分分析
➢ 主成分概念首先由 Karl Pearson在1901年引进, 当时只对非随机变量来讨论的。1933年 Hotelling将这个概念推广到随机变量。
➢ 在多数实际问题评估中,不同指标之间是有一 定相关性。由于指标较多及指标间有一定的相 关性,势必增加分析问题的复杂性。
在进行主成分分析后,竟以97.4%的精度,用三 新变量就取代了原17个变量。根据经济学知识,斯 通给这三个新变量分别命名为总收入F1、总收入变 化率F2和经济发展或衰退的趋势F3。更有意思的是 ,这三个变量其实都是可以直接测量的。斯通将他 得到的主成分与实际测量的总收入i、总收入变化率 欧姆i龙以贸及易(时上间海)t有因限素公司做相关分析,得到下表:
X1 E(X1)
E
X
2
E(
X
2
)X
1
E(
X1)
X2 E(X2)
X k E( X k )
X
k
E(Xk
)
Var( X1) Cov( X1, X 2 ) Cov( X1, X k )
Cov(
X
2
,
X1
)
Var( X 2 )
Cov( X 2 , X k )
Cov( X k , X1) Cov( X k , X 2 )
满足
Y的协方差矩阵Cov(Y)为对角矩阵,即诸Yi互不 相关。
Y的方差尽可能大(即,对n个对象的分辨率尽可 能强,或者说信息损失尽可能少)。比如使
trCov(Y)=trCov(X),就没有“辨识能力”方面的 损失。
然后,从Y1, Y2, …, Yk中选出对方差贡献最大的部分指 标作为主成分。
欧姆龙贸易(上海)有限公司
➢ 主成分分析就是设法将原来指标重新组合成一 组新的互不相关的几个综合指标来代替原来指 标。同时根据实际需要从中选取几个较少的综 合指标尽可能多地反映原来的指标的信息。
欧姆龙贸易(上海)有限公司
引例
一项十分著名的工作是美国的统计学家斯通 (Stone)在1947年关于国民经济的研究。他曾利用 美国1929一1938年各年的数据,得到了17个反映国 民收入与支出的变量要素,例如雇主补贴、消费资 料和生产资料、纯公共支出、净增库存、股息、利 息外贸平衡等等。
Var( X k )
由于通过这一表达式计算得到的矩阵不仅包括方差也
包括协方差,所以常称它为方差—协方差矩阵,记为
Var-Cov(X)(在不引起混淆的情况下也称为方差矩阵 欧姆龙贸易或(上协海方)有差限矩公司阵,记为Var(X) 或Cov(X)).
样本描述
调查n个个体(样本)在这k (k < n)个指标下的数值(
F1
F2
F3
i
△i
t
F1
1
F2
0
1
F3
0
0
1
i 0.995 -0.041 0.057
l
Δi -0.056 0.948 -0.124 -0.102 l
t -0.369 -0.282 -0.836 -0.414 -0.112 1
欧姆龙贸易(上海)有限公司
主成分分析是把各变量之间互相关联的复 杂关系进行简化分析的方法。