主成分综合评价模型中权重系数的改进
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
34.419 ⎞
36.196 61.696
⎟ ⎟ ⎟⎠
,观察其对角线元素差异不大,可用协方差型主成分分
析。特征根 λ1 = 110.004 , λ2 =25.324, λ3 = 1.568 及对应的单位正交化特征向量。按照主
成分个数选取原则,前两个主成分的累计贡献率已达 98.855%,因此只取前两个主成分。按
λ1 = 0.115, λ2 = 0.025, λ3 = 0.001 ,按照主成分个数选取原则,第一个主成分贡献率为
81.264%,第二个为 17.691%,前两个主成分的累计贡献率达到 98.955%,因此取前两个主成分
已足够,信息效率估计
β2
=
3
0.5 ×
3−2 3−1
+
0.5 ×
81.264 98.955
http://www.paper.edu.cn
主成分综合评价模型中权重系数的改进
程莹,陈希镇
温州大学数学与信息科学学院,浙江温州(325035)
E-mail:chengy60@126.com
摘 要:针对主成分分析中权重系数的客观性,对原始数据中矩阵向量进行赋权,使评价模
型兼顾主观和客观性,以信息估计率作为判断方法有效性的标准,并且将此方法运用到实际
× 98.955%
= 0.8618
4. 结论
由 β2 大于 β1 ,即认为后种方法反映信息量比前者多,因此后者具有一定的使用价值,
在客观性基础上体现了主观性。但是后者中若赋权不合理,出现后一种方法差于前一种情形 也是可能的。因此该方法要求主观权重系数的确定与实际很贴切才能体现出其实用性。
另外,实际生活中若只为了解情况,不要求精确的情况下,后种方法由于计算数据较多, 其应用可能会受到限制。
Biblioteka Baidu
n
n
(1)将
p
个指标进行标准化变换,即: xi*j
=
( xij
−
xj) sj
,其中 x j
=
∑ xij
i=1
n
,
s
2 j
=
∑( xij − x j )2
i=1
n−1
,
得标准化矩阵 (xi*j )n× p
=
⎛ ⎜ ⎜ ⎜
x1*1 x2*1 ...
x1*2 x2*2 ...
... ... ...
x1*p x2* p ...
1. 传统主成分分析方法
对于 n 个样本点,每个样本点均由 p 个指标变量描述,原始数据构成 n× p 维的矩阵。
⎛ x11 x12 ... x1p ⎞
( ) (xij )n×p
=
⎜ ⎜ ⎜
x21 ...
x22 ...
... ...
x2 p ...
⎟ ⎟ ⎟
=
x1, x2 ,..., xp
⎜⎜⎝ xn1 xn2 ... xnp ⎟⎟⎠
-2-
http://www.paper.edu.cn
7
172.0 76.5 51.0 .2089 -0.0341 -.0037 .3134 -.0455 -.0043
8
173.2 81.5 59.5 .2321 0.1791 .1340 .3481 .2387 .1564
9
159.5 74.5 43.5 -.0327 -0.1194 -.1253 -.0490 -.1592 -.1462
-3-
http://www.paper.edu.cn
Improvement of weight coefficient of the principal component Evaluation model
Cheng ying, Chen xizhen
College of Mathematics and Information science of Wenzhou University, Wenzhou, Zhejiang (325035) Abstract
10
157.7 79.0 53.5 -.0674 0.0725 .0368 -.1012 .0966 .0429
用 SPSS 对原始数据进行分析,得三个指标的均指向量为 (161.90, 77.30,51.23)′ 及协方
⎛ 51.745
差
S
=
⎜⎜18.987 ⎜⎝ 34.419
18.987 23.456 36.196
Take account of the objectivity of weight coefficient of principal component analysis, empower the vector of standard matrix, then the evaluation models can express subjectivity and objectivity, take the information estimated rate as the standard for decision it’s effectiveness . Then apply the method in actual data. Keywords: Evaluation model, Cumulative contribution rate, weight, SPSS
参考文献
[1]胡永宏等,综合评价方法[M],科学出版社,2000年10月 [2]李因果等,综合评价模型权重确定方法研究,辽东学院学报(社会科学版)[J],2007年4月,9(2) [3]祁洪全,综合评价的多元统计分析方法,,湖南大学硕士学位论文[N],2001 年 [4]范金城等,数据分析[M],科学技术出版社,2002 年 7 月 [5]王璐等,主成分分析中的信息损失及其效率估计,统计与信息论坛[J],2003 年 5 月,18(3)
⎞ ⎟ ⎟ ⎟
=
( xi*1 ,
xi*2
,...,
xi*p
),
i
=
1,...,
n
⎜⎜⎝ xn*1 xn*2 ... xn*p ⎟⎟⎠
(2)计算标准化矩阵的相关矩阵 R(或 S),得 R(或 S)的 p 个特征根为 λ1 ≥ λ2 ≥ ... ≥ λp ≥ 0 ,
相应的正交单位化特征向量 l j = (l1 j ,..., lpj )′, j = 1,..., p
数据。
关键词:评价模型;累计贡献率;权重;SPSS 中图分类号:O212.1
文献标识码:A
在传统主成分分析评价模型中,由于其权重完全依赖于原始数据,客观性太强,一些学 者尝试对其加以改进,如文献[1~2]。文献[3]提出变量加权主成分综合评价模型,却未将其 用于实际数据。
本文主要思路:1 介绍传统主成分分析法 2 利用专家调查法对矩阵中向量赋权,使权重 的确定体现一定的主观性 3 将改进方法运用到实例中,依据文献[5]中信息效率估计公式对 两种方法加以比较,得出结论
1)。再对标准化后的
数据向量分别赋以权重
3 6
,
2 6
,
1 6
,同样按照操作“Transform
Compute”得赋权后的数据向
⎛ 0.043
量
。
对
新
数
据
求
出
协
方
差
矩
阵
S%
=
⎜ ⎜⎜⎝
0.031 0.019
0.031 0.076 0.039
0.019 ⎞
0.039 0.022
⎟ ⎟⎟⎠
,然后得
到特征根
E(x*j ) = 0,Var(x*j ) = 1( j = 1, 2,..., p) 。利用专家调查法根据变量的重要程度,分别赋以权
数α1,α2 ,...,α p
,得到新数据表:
X* n× p
= [(1+ α1)x1*, (1+ α2 )x2*,..., (1+ α p )x*p ]
于是Var((1+ α j )x*j ) = (1+ α j )2Var(x*j ) = (1+ α j )2 即被赋予更大权数的那些重要变量的变
-4-
差被相应拉长,这样在进行主成分分析时,这些指标就会得到更多的重视。最后根据
X
* n×
p
的
协方差矩阵 S p×p ,得到特征值和对应的特征向量。根据主成分个数选取原则,得到主成分
y%1, y%2 ,..., y%m 的表达式,根据信息效率估计公式计算该主成分分析的信息反映率。
可以归纳为如下几个步骤:
1 对原数据 (xij )n× p 进行标准化处理得到 (xi*j )n× p
2
对标准化后的矩阵
( xi*j
)n×
p
中指标按照重要性程度赋权
α1 , α 2
,...,α
p
,得到新数据表
X
* n×
p
3
计算新数据表
X
* n×
p
的协方差矩阵,求出主成分
y%1,
y%2
,
...,
y%m
,构造主成分评价模型
4 按照主成分分析中信息有效率的估计公式 β = 3 (0.5γ + 0.5η)Q ,其中 γ = p − m , p 表 p −1
照信息效率估计公式,则
β1
=
3
0.5 ×
3−2 3−1
+
0.5 ×
80.356 98.855
× 98.855%
=
0.8591 。
采 用 后 一 种 方 法 , 用 SPSS 中 菜 单 “Transform
Compute” , 按 照 标 准 化 公 式
xi*j
=
( xij
−
xj) sj
输入各向量对应表达式,得到标准化后的数据(见表
编号
1 2 3 4 5 6
表 1 十名男生身高、胸围、体重的原始数据和标准化后及赋权后数据
身 高 胸 围 体 重 标准化 标准化 标准化 赋权后 赋权后 赋权后 (cm) (cm) (kg) 后身高 后胸围 后体重 身高 胸围 体重 149.5 69.5 38.5 -0.2259 -.3325 -.2063 -.3389 -.4434 -.2407 162.5 77.0 55.5 0.0253 -.0128 .0692 .0380 -.0171 .0807 162.7 78.5 50.8 0.0292 .0512 -.0070 .0438 .0682 -.0081 162.2 87.5 65.5 .0195 .4349 .2313 .0293 .5798 .2698 156.5 74.5 49.0 -.0906 -0.1194 -.0361 -.1360 -.1592 -.0422 156.1 74.5 45.5 -.0984 -0.1194 -.0929 -.1476 -.1592 -.1084
k
∑Qi
示原始变量的个数, m
表示选出的主成分的个数,η
=
i=0
Q
,其中 Qi 表第 i 主成分对应的
k
k −1
∑ ∑ 贡献率,若 Qi ≥ 50%, Qi < 50% 则称前 k 个主成分为核心主成分,Q 为累积贡献率。
i=0
i=0
β 越大,表示主成分分析效果越好。
3. 实际应用
以文献[4]150 面数据(表 1)为例,对十名男同学的身高、胸围、体重进行测量,对其作主 成分分析。
∑ ∑ m
m
(3)按照累计贡献率 α j =
λj
p
达到一定数值(如 ≥ 85% )选取前 m 个主成分,有
j =1
∑ j=1 λk
k =1
y j = l1 j x1* + ... + lpj x*p , j = 1,..., m ≤ p ,称为变量的第 j 主成分,达到了降维目的。
(4) 求 前 m 个 样 本 主 成 分 的 线 性 加 权 值 , 构 造 综 合 评 价 函 数
-1-
http://www.paper.edu.cn
m
∑ F = (F1, F2 ,..., Fn )′,其中F = α j y j ,将数据代入,根据 Fi (i = 1, 2,..., n) 值的大小对对样 j =1
本进行排序、作出评价。
2. 主成分分析的改进
( ) 对 原 始 数 据 表 中 的 数 据 X n× p = xij n×p 进 行 标 准 化 处 理 后 , 有