多元统计分析——主成分分析法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Var(C1)+Var(C2)+ … +Var(Cp) =
信息总量不增不减Var(x1)+Var(x2)+ … +Var(xp)=p
主成分的计算和解释
?
a
2 24
?
a 225
?
a 226
?
1
(3)找第3个最佳的综合变量
C3 ? C1, C2 C3 ? a31x1 ? a32 x2 ? ... ? a36 x6
Var ?C3??最大
限定 a
2 31
?
a 232
?
a
2 33
?
a
2 34
?
a
2 35
?
a
2 36
?
1
原有6个变量,最多可找到6个独立的综合变量
故限定
a
2 11
?
a
2 12
?
a
2 13
?
a
2 14
?
a
2 15
?
a
2 16
?
1
(2)找第2个最佳的综合变量
C2 ? C1
找适宜的 a21, a22 ,..., a26 使得
C2 ? a21x1 ? a22 x2 ? ... ? a26 x6
Var ?C2 ??最大
限定
a 221
?
a 2 22
?
a 2 23
X2:人均GDP X4:人均出口额 X6:人均社会消费品零售额 X8:每万人高等学校在校生数 X10:人均货运总量 X 12 :每万人电话机装机数 X 14 :人均实际利用外资 X16:每万人科研机构数
分析全国31个地区的社会经济发展水平。
思考2
为了对常用的100种食品的生产进行 经营决策,需要就消费者对食品的嗜好 程度进行调查。要求每个消费者对食品 进行评价,按对食品的喜好程度评分, 最受欢迎的给予最高分9分,最不受欢迎 的给予最低分1分。
主成分的一般定义
一般地, X1, X 2 ,... X P
样本均数 X1, X 2,... X P
样本标准差 S1, S2 ,...SP
标准化 xi ?
Xi ? Xi Si
i ? 1,2,..., P
(1)在所有线性组合
C1 ? a11 x1 ? a12 x2 ? ... ? a1P xP
中,限定 a
思考3——服装的定型分类问题
为了较好地满足市场的需要,服装 生产厂要了解所生产的一种服装究竟设 计几种型号合适?这些型号的服装应按 怎样的比例分配生产计划才能达到较好 的经济效益?
大纲
1.基本思想 2.定义 3.主成分的性质、计算等 4.案例 5.主成分回归
E.g.Hotelling(1939)用两个主成分 反映入学考试成绩:
2 11
?
a
2 12
?
... ?
a 21 P
?
1
使得 Var ?C1? 最大的便是第1主成分。
(2)在所有线性组合
C2 ? a21 x1 ? a22 x2 ? ... ? a2 P xP
中,限定 a221 ? a222 ? ... ? a22P ? 1
P
? a1i a 2i ? 0
C2 ? C1
I ?1
使得Var ?C1?最大的便是第2主成分.
………………
类似地,我们可以定义第3,第4,直到第p个
主成分。
主成分的性质
(1)主成分之间不相关 Corr(Ci,Cj)=0
(2)系数(ai1,ai2,…,aip)是单位向量 ai12+ai22+ … +aip2=1
(3)方差递降
Var(C1)≥Var(C2)≥…≥Var(Cp) (4)主成分的方差之和等于原变量的方差之和
x2 的均数=0
x2 ? X 2 ? X 2
预备知识:向量
x2
2b b
a
2a
X1
aX ? bY,2aX ? 2bY,...,KaX? KbY,.等.. 方向都是同一个方向
(1)创建 C1
C1 ? a11x1 ? a12 x2 ? ... ? a16 x6
a
2 11
?
a
2 12
?
1
使得 VarC 1 尽可能大, 即寻找一个方向,使得所有点在 此方向上的投影的方差尽可能大
主成分分析
Principal Component Analysis
思考1
反映地区社会经济发展的指标体系
X1:国内生产总值(GDP) X3:第三产业产值占GDP比重 X5:工业企业劳动生产率 X7:每万人拥有卫生技术人员数 X9:教育经费投入占GDP比重 X 11 :人均邮电业务总量 X 13 :人均固定资产投资 X 15 :地方财政收入占 GDP比重 X 17:科研经费占 GDP比重
例 1985年中国人口普查资料:各省汉族青年( 1922岁)形态学指标的平均值。
如何综合多个随机变量?
我们想要一个或几个综合变量,概括6个 形态指标的大部分信息.
注意:若某指标在人群中方差较大, 它就是一个好的指标。
寻找综合变量
标准化
xi ?
Xi ? Xi Si
i ? 1,2,...,6
xi ? 0
文科能力
数理能力
预备知识: ? 方差为零的变量不能区分总体中的个体
成员;
? 可以用一个变量的方差来度量其所传递 的信息量。
主成分分析的基本概念
一个假设的例子:N=100
均数
X1
101.63
X2 50.71
方差 109.63 55.40
标准差 10.47 7.44
x1 ? X1 ? X1
x1 的均数=0
C2 ? ? 0.539 x1 ? 0.841x2
?? 0.539?2 ? 0.8412 ? 1
VarC 2 ? 17.59
x2
C1
C2
?? ? ? ?
?? ? ?
??
?
??
?
??
? ??
??
? ??
?? ?
x1
?
?
?? ? ? ?
??
VarC 1 ? VarC 2 ? 147.44 ? 17.59 ? 165.03 VarX 1 ? VarX 2 ? 109.63 ? 55.40 ? 165.03 VarC 1 ? VarC 2 ? VarX 1 ? VarX 2
C1 ? 0.841x1 ? 0.539 x2
0.8412 ? 0.5392 ? 1
VarC 1 ? 147.44
(2)创建
C2
C2 ? a21 x1 ? a22 x2
a
2 21
?
a 222
?
1
使得 C2 与C1不相关
VarC 2尽可能大。
即寻找另一个方向 C2
垂直于 C1
所有点在 C2 上的投影方差最大。
SiBiblioteka Baidu? 1
(1)找第1个最佳的综合变量 C1
找适宜的系数 a11, a12 ,..., a16 ,使得
C1 ? a11 x1 ? a12 x2 ? ... ? a16 x6
与其他线性组合相比,有最大的方差
Var ?C1 ?最大
我们关心的是 a11, a12 ,..., a16 之间的比值 a11 : a12 :...: a16
信息总量不增不减Var(x1)+Var(x2)+ … +Var(xp)=p
主成分的计算和解释
?
a
2 24
?
a 225
?
a 226
?
1
(3)找第3个最佳的综合变量
C3 ? C1, C2 C3 ? a31x1 ? a32 x2 ? ... ? a36 x6
Var ?C3??最大
限定 a
2 31
?
a 232
?
a
2 33
?
a
2 34
?
a
2 35
?
a
2 36
?
1
原有6个变量,最多可找到6个独立的综合变量
故限定
a
2 11
?
a
2 12
?
a
2 13
?
a
2 14
?
a
2 15
?
a
2 16
?
1
(2)找第2个最佳的综合变量
C2 ? C1
找适宜的 a21, a22 ,..., a26 使得
C2 ? a21x1 ? a22 x2 ? ... ? a26 x6
Var ?C2 ??最大
限定
a 221
?
a 2 22
?
a 2 23
X2:人均GDP X4:人均出口额 X6:人均社会消费品零售额 X8:每万人高等学校在校生数 X10:人均货运总量 X 12 :每万人电话机装机数 X 14 :人均实际利用外资 X16:每万人科研机构数
分析全国31个地区的社会经济发展水平。
思考2
为了对常用的100种食品的生产进行 经营决策,需要就消费者对食品的嗜好 程度进行调查。要求每个消费者对食品 进行评价,按对食品的喜好程度评分, 最受欢迎的给予最高分9分,最不受欢迎 的给予最低分1分。
主成分的一般定义
一般地, X1, X 2 ,... X P
样本均数 X1, X 2,... X P
样本标准差 S1, S2 ,...SP
标准化 xi ?
Xi ? Xi Si
i ? 1,2,..., P
(1)在所有线性组合
C1 ? a11 x1 ? a12 x2 ? ... ? a1P xP
中,限定 a
思考3——服装的定型分类问题
为了较好地满足市场的需要,服装 生产厂要了解所生产的一种服装究竟设 计几种型号合适?这些型号的服装应按 怎样的比例分配生产计划才能达到较好 的经济效益?
大纲
1.基本思想 2.定义 3.主成分的性质、计算等 4.案例 5.主成分回归
E.g.Hotelling(1939)用两个主成分 反映入学考试成绩:
2 11
?
a
2 12
?
... ?
a 21 P
?
1
使得 Var ?C1? 最大的便是第1主成分。
(2)在所有线性组合
C2 ? a21 x1 ? a22 x2 ? ... ? a2 P xP
中,限定 a221 ? a222 ? ... ? a22P ? 1
P
? a1i a 2i ? 0
C2 ? C1
I ?1
使得Var ?C1?最大的便是第2主成分.
………………
类似地,我们可以定义第3,第4,直到第p个
主成分。
主成分的性质
(1)主成分之间不相关 Corr(Ci,Cj)=0
(2)系数(ai1,ai2,…,aip)是单位向量 ai12+ai22+ … +aip2=1
(3)方差递降
Var(C1)≥Var(C2)≥…≥Var(Cp) (4)主成分的方差之和等于原变量的方差之和
x2 的均数=0
x2 ? X 2 ? X 2
预备知识:向量
x2
2b b
a
2a
X1
aX ? bY,2aX ? 2bY,...,KaX? KbY,.等.. 方向都是同一个方向
(1)创建 C1
C1 ? a11x1 ? a12 x2 ? ... ? a16 x6
a
2 11
?
a
2 12
?
1
使得 VarC 1 尽可能大, 即寻找一个方向,使得所有点在 此方向上的投影的方差尽可能大
主成分分析
Principal Component Analysis
思考1
反映地区社会经济发展的指标体系
X1:国内生产总值(GDP) X3:第三产业产值占GDP比重 X5:工业企业劳动生产率 X7:每万人拥有卫生技术人员数 X9:教育经费投入占GDP比重 X 11 :人均邮电业务总量 X 13 :人均固定资产投资 X 15 :地方财政收入占 GDP比重 X 17:科研经费占 GDP比重
例 1985年中国人口普查资料:各省汉族青年( 1922岁)形态学指标的平均值。
如何综合多个随机变量?
我们想要一个或几个综合变量,概括6个 形态指标的大部分信息.
注意:若某指标在人群中方差较大, 它就是一个好的指标。
寻找综合变量
标准化
xi ?
Xi ? Xi Si
i ? 1,2,...,6
xi ? 0
文科能力
数理能力
预备知识: ? 方差为零的变量不能区分总体中的个体
成员;
? 可以用一个变量的方差来度量其所传递 的信息量。
主成分分析的基本概念
一个假设的例子:N=100
均数
X1
101.63
X2 50.71
方差 109.63 55.40
标准差 10.47 7.44
x1 ? X1 ? X1
x1 的均数=0
C2 ? ? 0.539 x1 ? 0.841x2
?? 0.539?2 ? 0.8412 ? 1
VarC 2 ? 17.59
x2
C1
C2
?? ? ? ?
?? ? ?
??
?
??
?
??
? ??
??
? ??
?? ?
x1
?
?
?? ? ? ?
??
VarC 1 ? VarC 2 ? 147.44 ? 17.59 ? 165.03 VarX 1 ? VarX 2 ? 109.63 ? 55.40 ? 165.03 VarC 1 ? VarC 2 ? VarX 1 ? VarX 2
C1 ? 0.841x1 ? 0.539 x2
0.8412 ? 0.5392 ? 1
VarC 1 ? 147.44
(2)创建
C2
C2 ? a21 x1 ? a22 x2
a
2 21
?
a 222
?
1
使得 C2 与C1不相关
VarC 2尽可能大。
即寻找另一个方向 C2
垂直于 C1
所有点在 C2 上的投影方差最大。
SiBiblioteka Baidu? 1
(1)找第1个最佳的综合变量 C1
找适宜的系数 a11, a12 ,..., a16 ,使得
C1 ? a11 x1 ? a12 x2 ? ... ? a16 x6
与其他线性组合相比,有最大的方差
Var ?C1 ?最大
我们关心的是 a11, a12 ,..., a16 之间的比值 a11 : a12 :...: a16