关于主成分分析的几种常用改进方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
参考文献: [1]余 锦 华,杨 维 权.多 元 统 计 分 析 与 应 用[M].广 州 ; 中 山 大 学 出 版 社 ,
2005. [2]徐 雅 静 , 汪 远 征.主 成 分 分 析 应 用 方 法 的 改 进[J].数 学 的 实 践 与 认
识,2006,(6). [3]候 文.应 用 主 成 分 分 析 进 行 综 合 评 价 的 一 种 改 进 方 法[J],辽 宁 师 范
大学学报( 自然科学版) , 2004,(12). ( 责任编辑 /亦 民)
168 统计与决策 2007 年第 21 期( 总第 249 期)
j=1
j=1
定 k, 从而建立前 k 个主成分:
Zj=lj' Z=l1jY1+…+lpjYp,j=1,2,…,k
1.6 计算前个主成分的样本值
p
( Zij= Yitltj i=1,2,…,n, j=1,2,…,k j=1
2 运用传统主成分分析方法易出现的误区 及改进方法
在实际应用中, 为了消除变量量纲的影响, 往往对原始
Zj=lj'log(X /g(X)) =l1jlogX1+l2jlogX2+…+ld+1jlogXd+1
( 注: lj'·(- logg(X))=- [l1j+l2j+…+ld+1j]·logg(x)=0)
3 其它改进方法
除了上述改进方法之外, 近来不少学者又提出了新的改 进方法, 如主成分聚类法。主成分聚类即先做主成分分析, 再 取若干主成分对样品进行聚类分析, 结合第一主成分得分排 序对样品进行分类排名。由此得到一种新的综合评价方法, 具 体 操 作 方 法 详 见 文 献[2]。另 外 还 有 分 组 主 成 分 分 析 方 法[5]等 。 在实际应用当中, 如果不考虑具体问题条件, 一味采取同一 个模式, 难免有失偏颇, 甚至与现实大相径庭。因此, 根据不 同的问题采用不同的改进方法, 对解决具体问题是很有必要 的。
主成分分析是一种常用的多元统计分析( 即多指标的统 计方法) 方法。是一种化繁为简, 将指标数尽可能压缩的降维 ( 即空间压缩) 技术, 也是一种综合评价方法。目前已广泛应 用于许多领域, 如: 城市生态系统可持续发展的分析, 工业企 业经济效益的分析, 公司财务评价, 学习成绩的比较评价等 等。但是, 传统的主成分分析法在综合评价当中已暴露出很 多缺陷, 很多学者也提出了不同的改进方法, 这些改进方法 是与一定的现实条件相关联的, 因此也不乏出现误用。本文 将对常用的改进方法作进一步探讨。
在概率统计教学中应跟时代背景, 注重实际应用。在日 常教学中, 在使学生获得系统的概率统计概念和方法推理的 基础上, 引入统计实验, 把概率统计教学与统计实验有机地 结合起来, 同时在教学的各个环节中注意加强学生实际应用 能力的培养, 这样能使学生主动应用概率统计概念和推理方 法去观察、分析、解决实际生活中的许多问题, 并掌握一种实 用 的 技 能 , 让 课 堂 教 学 能 “回 归 ”到 实 践 中 , 进 一 步 提 高 学 生 的综合素质。
线性结构。这时, 若采用线性方法, 效果往往很差。这就需要
进 一 步 的 改 进 。本 文 将 介 绍 几 种 简 单 的 对 原 始 数 据 进 行 处 理
的 方 法 以 及 “对 数 — 线 性 比 ”[1]主 成 分 方 法 。
改进方法操作如下:
2.1 对原始数据的处理
2.1.1 数据的均值化
4 加强实践教学, 激发学生数据分析能力
结合市场经济背景, 加强概率统计的应用实践环节, 这 无疑是提高学生概率统计兴趣的有效途径, 更是弥补概率统 计理论知识教学不足的有效途径。
一方面, 我们利用概率统计讨论课, 分析数据建模中的
一些经典示例, 再次强化数据建模的思想方法, 数据建模步 骤。另一方面, 我们发动学生参与社会实践活动, 深入实际、 调查研究, 收集实验数据的素材, 并鼓励他们通过建立相应 的概率统计模型来解决一般性问题。
若散点图呈现抛物线特征时, 令 yij= )xij 然后以 yij 作为新的数据代替原始数据进行分析即可。 当上述三种变换仍然不能很好的解决问题, 而原始数据
又明显呈现非线性特征时, 还可以采用下述方法。
2.2 “对数—线性比”主成分方法
原香港大学统计系主任 Aitchison 教授( 1981 年) 提 出 用
2000,29(9). ( 责任编辑 /浩 天)
统计与决策 2007 年第 21 期( 总第 249 期) 167
知识丛林
1.4 求 R 的 P 特征值 λ1,λ2,…,λp 及对应的特征向量
"lij % lj=##┇&&,j=1,2,…,p
$lpl ’
1.5 建立主成分
k
p
( ( 按累积方差贡献率 λ1 rjj>85%(或 80%)的 准 则 , 确
得标准化数据阵 Y=(Yij)n×p
n
" rij=
1 n
Yi·j Yik
i=1
" = 1 n Xij- X!j ·Xik- X!k
n i = 1 Sj
Sk
R=(rij)p×p (其中 rij=1, rik=rkj)
表2
方差分析过程
Source
DF Sum of Squares Mean Square F Value Pr > F
知识丛林
关于主成分分析的几种常用改进方法
李莉娟, 张 娜
( 洛阳理工学院 数理部, 河南 洛阳 471003)
摘 要: 针对传统主成分分析方法的缺点和应用当中可能出现的误区, 总结几种常用的主成分
分析改进方法。
关键词: 主成分改进; 综合评价
中图分类号: F224.7
文献标识码: A 文章编号: 1002- 6487(2007)21- 0167- 02
对数—比( logratio) 变换
Yi=log(Xi /g(X)), i=1,2,…, d+1 亦 即 Y=log(X /g(X)),其 中 g(X)为 成 分 向 量 的 任 一 恒 正 函
数。为简便起见, 一般可取
g(X)=(X1X2…Xd+1)1 /d+1(即各指标之几何平均), 这时
d+1
数据标准化, 但是标准化在消除量纲或数量级影响的同时,
也抹杀了各指标变异程度的差异信息, 在此种情况下, 我们 通 常 可 采 用 对 原 始 数 据 进 行 均 值 化 处 理[2], 该 方 法 已 得 到 广
泛采用。另外, 主成分分析对于处理线性结构有很好的效果,
然而对于许多实际问题, 其观测数据阵并非线性结构而呈非
1 传统 PCA 评价模型的算法:
1.1 输入样本观测值: X=(Xij)x×p
1.2 计算各指标的样本均值和样本标准差:
n
n
" # " X!j=
1 n
Xij,
i=1
Sj=
1 n- 1
(Xij- X!j)2
i=1
,
j=1,2,…,p
1.3 对标准化, 计算样本相关阵:
令 Yij= Xij- X!j , i=1,2,…,n, j=1,2,…,p X!j
在日常教学中在使学生获得系统的概率统计概念和方法推理的基础上引入统计实验把概率统计教学与统计实验有机地结合起来同时在教学的各个环节中注意加强学生实际应用能力的培养这样能使学生主动应用概率统计概念和推理方法去观察分析解决实际生活中的许多问题并掌握一种实用的技能让课堂教学能回归到实践中进一步提高学生的综合素质
( Yi=logXi-
1 d+1
j
logXi
=1
相应的 Y 的“观测数据阵”
d+1
( Yi=(logXi-
1 d+1
logXij)n×(d+1)
j=1
为“对数- 中心化”协方差阵。
可以证明 D( Y) 为奇异阵, 至多有 d 个非零特征值。对其
作谱分解:
d
( D(Y)= λiljlj' j=1
便可以求得其广义主成分
Model
5
554
110.8
6.16 0.023
Error
6
108
18
Corrected Total 11
662
表3 Source A B
方差分析
DF Sum of Squares Mean Square F Value Pr > F
3
498
166
9.22 0.012
2
56
28
1.56 0.286
输 出 的 表 2 表 明 两 个 因 子 方 差 分 析 模 型 是 显 著 的 ,F= 6.16,p=0.023<0.05; 表 3 中因素 A 的效应平方和为 498, 因 素 B 的效应平方和为 56, 两者的 F 值 分 别 为 9.22 和 1.56, 显 著 性 水 平 分 别 为 0.012 和 0.286, 结 果 表 明 , 施 肥 种 类 对 产 量 的 影响显著; 而三个小麦品种对产量的影响不显著。
参考文献: [1]张德培,罗蕰玲.应用概率统计[ M] .北京: 高等教育出版社, 2000. [2]胡 良 剑 , 孙 晓 君 .MATLAB 数 学 实 验 [M]. 北 京 : 高 等 教 育 出 版 社 ,
2006. [3]邓华玲. 概率统计方法与应用[ M] .北京: 中国农业出版社, 2006. [4]冯 珍 珍.数 学 实 验 教 学 新 路 初 探[J].上 海 师 范 大 学 学 报(教 育 版 ),
设原始数据: X=(xij)n×p,,2,…,n; j=1,2,…,p
n
( 其中
Xj=
1 n
Xkj, j=1,2,…,p, 得均值化数据阵
k=1
Y=(yij)n×p
2.1.2 对数变换法
描绘原始数据 xij 的散点图, 若散点图呈现对数曲线特征 时, 令
yij=lnxij 或 yij=lgxij 2.1.3 平方根变换法