第6章-主成分分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2015/10/9
主编:费宇
16
例6.1 六门课程成绩的主成分分析
表6.1给出了52名学生的数学(xu12)、物理(x2)、化学 (x3)、语文(x4)、历史(x5)和英语(x6)成绩,对其进行 主成分分析. #打开数据文件eg6.1.xls, 选取A1:F53区域后复制 > data6.1<-read.table("clipboard", header=T) #将 eg6.1.xls数据读入到data6.1中 > R=round(cor(data6.1), 3) ; R #求样本相关系数矩阵并显示, 保留三位小数 > PCA6.1=princomp(data6.1, cor=T); PCA6.1 > summary(PCA6.1, loadings=T) • 前两个主成分的累积贡献率82.9%.
n 1 k 1
* * T X X (k ) (k ) (rij ) p p .
T
n
X (*k )
x x x x x x sij kp p k1 1 k2 2 , rij , , , , i, j 1,, p. s22 s pp sii s jj s11
2015/10/9
主编:费宇
17
例6.1(续) 六门课程成绩的主成分分析
• 第一主成分和第二主成分分别为
z1 0.412 x1 0.381x2 0.332x3 0.461x4 0.421x5 0.430x6
z2 0.376 x1 0.357 x2 0.563x3 0.279x4 0.415x5 0.407x6
2015/10/9
主编:费宇
4
6.2 总体主成分
6.2.1 主成分的含义
• 以二维正态分布样本点来直观说明:如图,设有n 个样品点大致分布在平面上一个椭圆内:
2015/10/9
主编:费宇
5
二维情形主成分的解释
样本点之间的差异是由x1和x2的变化引起的,两者变 动的相差不大,但如果用新坐标y1和y2来代替,易见, 这些样本点的差异主要体现在y1轴上,n个点在y1轴 方向上的方差达到最大,即在此方向上包含了有关n 个样品的最多的信息. 将这些点投影到 y1轴方向能使信息的损失最小,如 果y1轴方向的差异占了全部样本点差异的绝大部分, 那么将y2忽略是合理的,这样就把两个变量简化为 一个,显然这里的y1轴代表了数据变化最大的方向, 称之为第一主成分.y2称为第二主成分,并要求已 经包含在y1中的信息不出现在y2中,即 cov( y1 , y1 ) 0.
2015/10/9
主编:费宇
9
6.2.3 主成分的主要性质
X 的p个主成分所成向量为:
T T T y (y1,, y p )T (e1T X ,, eT X ) ( e , , e ) X P X p 1 p
性质1 :Var ( y) Λ diag (1, 2 ,, p ).
性质2:Var ( yi ) i ii Var ( xi ).
p p p p
k Cov( yk , xi ) eki . 性质3: ( yk , xi ) Var ( yk )Var ( xi ) ii
2015/10/9
i 1
i 1
i 1
i 1
主编:费宇
10
6.2.4 主成分个数的确定
• 第 i 个主成分 yi 的方差贡献率为:
i i

j 1
p
j
, i 1,, p.
• 通常取前k (k< p) 个主成分,使得的累积贡 献率 p k k i j j 80%
i 1 j 1 j 1
即可.
2015/10/9
• 实际统计分析中,经常处理多变量、大维数 数据分析问题,分析过程较复杂,难度较大. • 全部变量中可能存在信息的重叠.为去除这 些信息重叠,希望用个数较少,但是保留了 原始变量的大部分信息几个不相关的综合变 量(即主成分)来代替原来较多的变量,达到 降维的目的, 从而进行简明有效的统计分析. • 主成分分析中的信息,就是指变量的变异性, 常用标准差或方差来表示它.
2015/10/9
主编:费宇
7
一般, 总体 X (x1,, xp ) ~ ( , ) 的p个主成分为:
T
y1 a11 x1 a12 x2 a1 p x p a1T X , T y2 a21 x1 a22 x2 a2 p x p a2 X , y a x a x a x aT X . p1 1 p2 2 pp p p p
性质1 : Var ( zi ) = i , i 1,, p. 性质2 : Cov( zi , z j ) = 0, i, j 1,, p, i j. 性质3 : sii
i 1
2015/10/9

p
r . 性质4 :
i 1 i
主编:费宇
p
ki
r ( zk , xi )
• 将它们分别理解为课程差异因子和课程均衡因子. > round(predict(PCA6.1),3) #作预测 > screeplot (PCA6.1, type="lines") #画碎石图 > PCA6.1$scores #可计算主成分得分 > load=loadings(PCA6.1) #提取主成分载荷矩阵 > plot(load[,1:2], xlim=c(-0.6,0.6), ylim=c(-0.6,0.6)) > text(load[,1], load[,2], adj=c(0.5, -0.5)) #为散点标号 > abline(h=0); abline(v=0) #划分象限
2015/10/9
主编:费宇
15
6.3.2 主成分相关的R函数
1. princomp函数 (这是主成分分析最常用的函数) princomp(x, cor =FALSE, score =TRUE, …) 2. summary函数 (提取主成分的信息) summary(object, loadings =FALSE, …) 3. loadings函数 (显示主成分的载荷) loadings(object) 4. predict函数 (预测主成分的值) predict(object, newdata, …) 5. screeplot函数 (画出主成分的碎石图) screeplot(object, type = c( “barplot”, “lines”, …)百度文库
主编:费宇 中国人民大学出版社
2015/10/9
主编:费宇
1
第6章 主成分分析
• 主成分分析:也称主分量分析,是由Hotelling 于1933年提出的一种常用的多元统计方法. • 基本思想:用个数较少,但是保留了原始变 量的大部分信息几个不相关的综合变量(即 主成分)来代替原来较多的变量,从而可以 简化数据,对原来复杂的数据关系进行简明 有效的统计分析. • 主成分分析的本质就是“降维”,将高维数 据有效地转化为低维数据来处理.
2015/10/9
主编:费宇
12
6.3 样本主成分(续)
• 实际问题中 Σ 和 ρ 往往是未知的, 需要用样本的协 方差矩阵 S 和样本的相关系数矩阵 R 来估计:
S
1 n 1 k 1
X ( k ) X X (k ) X (sij ) p p .
n T
R
1
2015/10/9
主编:费宇
18
6.4 案例: 主成分综合分析
案例6.1(数据文件为case6.1) 表6.2给出了某市
工业部门13个行业8项重要经济指标数据, 其中 X1为年末固定资产净值(万元);X2为职工人数 据(人);X3为工业总产值(万元);X4为全员劳动 生产率(元/人年);X5为百元固定资产原值实现 产值(元);X6为资金利税率(%);X7为标准燃料 消费量(吨); X8为能源利用效果(万元/吨).根 据这些数据进行主成分分析.
k ii
qki .
14
6.3.2 主成分分析的步骤
实际问题中更常用的是从样本相关系数矩阵R 出发进行主成分分析, 方法是用 R 替换 S , 其 余操作不变, 其步骤可归纳为:
(1) 将原始数据标准化; (2) 求样本的相关系数矩阵 R ; * * (3) 求 R 的特征值 1 p 0 , 对应的特征向量 为 a1 , a2 ,, a p. (4) 按主成分累积贡献率超过80% 确定主成分的个数 k , 并写出主成分表达式为 zi = aiT x, i 1,, k. (5) 对分析结果做统计意义和实际意义两方面的解释.
主编:费宇
11
6.3 样本主成分
• 主成分分析倾向于反映方差大的变量的信息,为 避免“大数吃小数”的现象,均等地对待每一个 原始变量,常常将各原始变量作标准化处理 xi E ( xi ) * xi , i 1,, p. Cov( xi )
* * * T X ( x , , x • 标准化后的总体 1 p ) 的协方差矩阵ρ就 是原总体X 的相关系数矩阵. • 既可从Σ出发,也可以从 ρ出发作主成分分析,考 虑到现实经济意义,后者用得更多.
主编:费宇
13
2015/10/9
6.3.1 样本主成分的性质和计算
设S 的p个特征值为 1 2 p 0 , 对应 的单位正交特征向量为 a1, a2 ,, a p , 则样本 的第 i 个主成分为 zi = aiT x, i 1,, p.
z = ( z1,, z p )T = (a1,, a p )T x QT x.
第 i 个主成分 yi 的方差为 Var ( yi ) a ai i 1,, p. • y1 是 X 的一切线性组合中方差最大者; • y2 是与 y1 不相关是 X 的一切线性组合中方差最大者; • · · · · · ·
T i
2015/10/9
主编:费宇
8
6.2.2 主成分的计算
2015/10/9
主编:费宇
6
二维情形主成分的解释(续)
注意两个主成分y1和y2都是x1和x2的线性组合:
y1 cos y sin 2 sin x1 T P X cos x2
其中P为旋转变换矩阵,它是正交矩阵. 极端情形1:椭圆变成圆,第一主成分y1只体现了约一 半的信息,若此时将y2忽略,则将损失约50%的信息, 这显然是不可取的. 极端情形2:椭圆扁平到了极限, 变成y1轴上一条线段, 第一主成分y1几乎包含有二维样品点的全部信息, 仅 用y1代替原始数据几乎不会有任何的信息损失, 此时降 维效果是非常理想的.
2015/10/9
主编:费宇
19
2015/10/9
主编:费宇
20
案例6.1求解过程:
(1) 计算样本相关系数阵 #打开数据文件case6.1.xls, 选取B2:J15后复制. > case6.1<-read.table("clipboard", header=T) #将case6.1.xls数据读入到R中. > R=round(cor(case6.1), 3) #求样本相关系数阵 > > R #显示样本相关系数阵. • 易见前三个指X1,X2,X3之间的相关性很强, X4,X5,X6 之间的相关性较强.
2015/10/9
主编:费宇
2
本章主要内容
6.1 主成分分析的基本思想 6.2 总体主成分 主成分的含义、计算、主要性质; 主成分个数的确定. 6.3 样本主成分 样本主成分的性质和计算; 主成分分析的步骤和相关R 函数. 6.4 案例:主成分综合分析
2015/10/9
主编:费宇
3
6.1 主成分分析的基本思想
2015/10/9
主编:费宇
21
(2) 作主成分分析:计算R的特征值画, 碎石图
> PCAcase6.1=princomp(case6.1, cor=T)
> PCAcase6.1 > summary(PCAcase6.1, loadings=T) > screeplot (PCAcase6.1, type="lines") > plot(load[,1:2],xlim=c(-0.6,0.5), ylim=c(-0.6,0.5)) > text(load[,1], load[,2], adj=c(-0.8, 0.5),cex=1.2) > abline(h=0); abline(v=0)
相关文档
最新文档