因子分析中数据正向化处理的必要性及其软件实现

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

因子分析中数据正向化处理的必要性及其软件实现
第23卷Vol. 23 第9期No. 9 重庆工学院学报(自然科学) Journal of Chongqing Institute of Technology(Natural Science) 2009年9月Sep. 2009 3 收稿日期: 2009 - 04 - 22 作者简介:刘新华(1956—) ,女,山东德州人,教授,主要从事精细化工和农产品深加工研究. 因子分析中数据正向化处理的必要性及其软件实现 3 刘新华(德州学院化学系,山东德州253023) 摘要:从应用角度,用实例阐明了因子分析过程中对逆向指标正向化处理的必要性. 论述了逆向指标对综合评价的影响,并给出了逆向指标正向化处理的SPSS软件实现方法. 关键词:因子分析; 正向化;综合评价中图分类号: O21文献标识码: A 文章编号: 1671 - 0924 (2009) 09 - 0152 - 04 Necessity and Software Operation of Positive Management in Factor Analysis L IU Xin2hua (Department of Chemistry, Dezhou University, Dezhou 253023, China) Abstract: From the perspective of application, the necessity of converting reverse index into positive index is illustrated with an example. The influence of reverse index on synthetic evaluation is expounded, and the method of converting reverse index into positive index using SPSS software is introduced. Key words: factor analysis; positive; synthetic evaluation 因子分析方法是一种重要的多变量统计方法,广泛地应用于农业科学、市场调查、企业经营、科研教育、通讯、医疗、银行、证券、金融等领域,已成为极普遍和实用的统计分析方法之一. 近年来在我国公开出版的期刊中,运用因子分析或主成分分析方法进行综合统计评价的论文迅速增加,但笔者发现,在许多相关的论文中应用因子分析或主成分分析方法进行综合评价时忽略了一个重要的问题,即没有对逆向指标进行正向化处理,从而导致得出的分析结果可靠性差,这必然对决策的正确性带来不良影响. 此问题虽有人提及,但没有从应用的角度详细阐明,因此没有引起人们的足够重视,以至于在最近发表的有关文章中,时常看到该正向化处理的数据没有处理而直接用来进行因子分析的情况. 为使人们看到对逆向指标不做正向化处理有可能出现的严重后果,本文中从应用的角度,用实例来说明对逆向指标进行正向化处理的必要性. 1正向化处理的必要性下面用一实例说明在因子分析前对逆向指标正向化处理的必要性. 例如设有7个环保指标: X 1 为人均绿地面积(m 2 ) ; X 2 为建成区绿化覆盖率( %) ; X 3 为治污科研和治污投资占GDP的比例( %) ; X 4 为三废综合利用产值(万元) ; X 5 为工业二氧化硫排放量( t / km 2 ) ; X 6 为工业烟尘排放量( t / km 2 ) ; X 7 为工业废水排放量(万吨). 要求根据这7个指标对8个城市(样本)进行环保质量好坏的评价,并给出8个城市的综合得分和总排名. 具体数据见表1. 表1各城市7个指标的原始数据城市人均绿地面积(X 1 ) 建成区绿化覆盖率(X 2 ) 治污科研和治污投资占GDP的比例(X 3 ) 三废综合利用产值(X 4 ) 工业二氧化硫排放量(X 5 ) 工业烟尘排放量(X 6 ) 工业废水排放量(X 7 ) A 35. 00 45. 00 2. 30 41 000. 00 21. 00 3. 50 4 200. 00 B 61. 00 61. 00 2. 60 85 000.
00 5. 00 1. 50 700. 00 C 48. 00 56. 00 2. 60 35 000. 00 25. 00 5. 00 4 100. 00 D 24. 00 35. 00 2.
10 35 000. 00 23. 00 5. 10 4 600. 00 E 19. 00 25. 00 1. 50 38 000. 00 23. 00 4. 50 3 500. 00 F 29.
00 27. 00 1. 70 28 000. 00 22. 00 2. 80 4 800. 00 G 18. 00 31. 00 1. 90 15 000. 00 26. 00 5. 50 5 200. 00 H 16. 00 19. 00 0. 80 9 000. 00 31. 00 8. 00 6 600. 00 由表1可看出,这7个指标中X 1 ~X 4 是正向指标, 正向指标的数值越大城市环境就越好. X 5 ~X 7 是逆向指标,逆向指标的数值越大城市环境就越差. 从表1中的数据可看出一个不争的事实:城市B的正向指标X 1 ~X 4 均为8个城市中的最大值, 它的逆向指标X 5 ~X 7 均为8个城市中的最小值, 因此城市B的环保质量最好而应总排名第一;而城市H的正向指标X 1 ~X 4 均为8个城市中的最小值, 它的逆向指标X 5 ~X 7 均为8个城市中的最大值,因此城市H的环保质量最差而应总排名最后. 下面运用表1的原始数据做因子分析,看所得结果是否与事实一致. 对表1中的原始数据运用SPSS15. 0软件进行因子分析, KMO检验值为0. 703,根据累计方差贡献率达到85%以上选择主因子个数为3,再由方差贡献率加权平均得到综合得分和综
合排名,见表2和表 3. 表2总方差解释因子初始旋转后特征值贡献率/ % 累计/ % 特征值贡献率/ % 累计/ % 因子权重*1 5. 769 82. 409 82. 409 3. 166 45. 236 45. 236 0. 465 3 2 0. 745 10. 642 93. 050 2. 701 38. 592 83. 828 0. 397 0 3 0. 292 4. 170 97. 220 0. 937 13. 392 97. 220 0. 137 7 3 因子权重=λ i / 6 3 j =1 λ j ,λ i 为旋转后的特征值3 5 1 刘新华:因子分析中数据正向化处理的必要性及其软件实现表3各城市的因子得分、综合得分和总排名城市因子 1 因子 2 因子 3 综合得分*总排名 A 0. 299 5 0. 505 8 - 0. 696 7 0. 244 2 3 B - 2. 223 1 0. 711 5 0. 079 0 - 0. 741 1 7 C 0. 735 6 1. 812 2 0. 574 9 1. 140 9 1 D 0. 333 2 0. 361 0 - 0. 130 9 0. 151 3 4 E - 0. 582 3 - 1. 164 0 - 0. 072 9 - 0. 743 1 8 F 0. 224 6 - 0. 780 3 - 1. 416 2 - 0. 400 3 6 G 0. 915 5 - 0. 136 2 - 0. 345 0 0. 324 4 2 H 0. 297 1 - 0. 985 0 2. 007 7 0. 023 6 5 3 综合得分= 6 (因子得分ⅹ因子权重) 由表3可知,环保指标较差的城市C排名第1,环保指标最差的城市H却排在了第5位,而环保指标最好的城市B却排名第7,这与表1中的实际情况严重不符,从而导致分析结果没有任何价值. 为什么用原始数据做因子分析会出现如此错误的综合得分和总排名呢? 其原因就是没有对表1中的逆向指标进行正向化处理,因此,要使本例的因子分析结果正确须对逆向指标做正向化处理. 下面对表1中的后3项逆向指标分别采用2种正向化方法进行处理:方法1是把逆向指标的数据加负号,方法2是把逆向指标的数据取倒数,然后用已正向化的数据分别做因子分析. 分析后的综合得分和总排名见表4,用原始数据(表1)做因子分析的综合得分和总排名也列入表4,以便对照. 表4逆向指标的数据正向化后因子分析结果城市原始数据综合得分加负号正向化综合得分取倒数正向化综合得分原始数据总排名加负号正向化总排名取倒数正向化总排名A 0. 244 2 0. 157 4 0. 095 3 3 3 3 B - 0. 741 1 1. 306 0 1. 568 3 7 1 1 C 1. 140 9 0. 298 0 0. 151 8 1 2 2 D 0. 151 3 - 0. 122 7 - 0. 169 2 4 4 4 E - 0. 743 1 - 0. 181 2 - 0. 292 4 8 5 6 F - 0. 400 3 - 0. 219 3 - 0. 170 1 6 6 5 G 0. 324 4 - 0. 432 5 - 0. 408 3 2 7 7 H 0. 023 6 - 0. 805 7 - 0. 775 4 5 8 8 表4中的第3、4两列是对逆向指标的数据正向化后因子分析的8个城市综合得分,右边两列是8个城市相应总排名. 由表4可知,对逆向指标的数据正向化后城市B综合得分最高,总排名理所当然为第1,城市H综合得分最低,总排名为第8,这就纠正了用原始数据做因子分析所得结果的严重错误. 所以在使用因子分析方法对指标数据进行综合分析,并按照综合评价函数计算综合得分和总排名时,对逆向指标必须进行正向化处理. 最后指出表4中后两列对于城市E、城市F的排名不一致,这主要是不同的正向化方法造成的区别, 4 5 1 重庆工学院学报观察表1的原始数据,难以说明E、F 2城市谁前谁后,即2城市的环保状况差别很小,当正向化方法不同时,会对差别很小的城市排名产生误差. 2指标正向化的SPSS软件实现逆向指标数据的正向化可用SPSS软件来完成. 以本文中表1为例说明具体操作. 如图1所示输入数据,单击菜单栏上的Transform,在弹出的详细菜单上单击Compute Variable, 即出现Compute Variable窗口,在此窗口的Target Variable白色框中输入需要正向化的变量名,如输入“工业二氧化硫排放量”,再在type&label按钮下方的白色矩形框中选中需要正向化的变量名,如选中“工业二氧化硫排放量”,再单击此白色矩形框右上方的按钮,变量名就进入名为Numeric Expression的白色框内,在此框内即可对变量“工业二氧化硫排放量”进行运算. 如加负号的运算式为:工业二氧化硫排放量 3 ( - 1) ;如取倒数运算式为: 1 /工业二氧化硫排放量. 如图2所示,运算式输入后单击Compute Variable窗口下面的OK, 最后在弹出的窗口上单击确定,即完成正向化操作. 关闭Compute Variable窗口,返回数据编辑窗口,即可发现变量“工业二氧化硫排放量”的数据加上了负号或取了倒数. 用同样的方法可把其他2个逆向指标的数据正向化,用已正向化了的数据进行因子分析就会得出对8个城市正确的综合评价. 参考文献: [ 1 ] 唐志丹, 张加奇, 田晓雨. 基于因子分析的钢铁城市可持续发展的实证研究[ J ]. 辽宁科技大学学报, 2008, 31 (5) : 485 - 491. [ 2 ] 李冰. 黑龙江省工业企业绿色管理影响因素的因子分析[ J ]. 统计与决策, 2008 (14) : 45 - 46. [ 3 ]
傅涌. 高校排名的因子分析法研究[ J ]. 数学的实践与认识, 2007 , 37 (22) : 66 - 67. [ 4 ] 陈军. 主成分与因子分析中指标同趋势化方法探讨[ J ]. 统计与信息论坛, 2005, 20 (2) : 19 - 23. (责任编辑刘舸) 5 5 1 刘新华:因子分析中数据正向化处理的必要性及其软件实现。

相关文档
最新文档