主成分分析法在水资源评价中的应用

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

278
河南大学学报 (自然科学版) ,2007 年 ,第 37 卷第 3 期
m
m
∑ ∑ 其中 , Yj
=
1 m
i =1
Y ij
;
S
2 j
=
1 m-
1 i = 1 ( Y ij
-
Yj ) 2 ; S j 为样本标准差 ; i = 1 , 2 , …, m ; j = 1 , 2 , …, n.
原始数据中第 6 第 7 两个为逆向指标 ,其余为正向指标. 运用式 (4) 、式 (5) 、式 (6) 可得全国 29 个省
y1 , y2 , …,源自文库yn 的第一个或前几个变量的方差和可能达到总方差的 85 % 或 90 % 以上 ,二是 y1 , y2 , …, yn 不线
性相关 ,它们反映了指标的不同方面. 因此 , 选取几个主要成分作为 x1 , x2 , …, x n 的代表是合理的. 这也正
是我们在水资源评价指标筛选时 ,希望筛选方法能够做到的.
n
∑ X ,能否找到反映 n 个指标 x 1 , x2 , …, xn 的线性函数 y = αi x i ,它能最好地反映这些指标的变化情况. 换 i =1
句话说 ,把 n 个变量在 m 个样本上的差异 ,用它们的一个线性函数的差异来综合表示 , 这个线性函数就是一
个代表性很好的指标 ,它就是这 n 个变量的主要成分 ,找出这个主要成分的方法就叫做主成分分析法[1] .
Abstract : In int roducing essential t hought and calculating met hods of t he p rincipal compo nent analysis , t he reducing dimension calculatio n is applied to t he evaluatio n indicators of water reso urces allocation. Result s show t hat t he screened indicators is t ypical of t he initial indicato rs , and t he difficulty of water resources evaluation is reduced. Key words : evaluation of water reso urces ;p rincipal component analysis ; multiple att ribute decisio n ;indicators screen
很小 ,此时在方案评价时 ,该指标的参考价值会很小. y1 , y2 , …, yn 全面反映了 x 1 , x2 , …, xn 的变化情况. 所
以可称 y1 , y2 , …, yn 为 x 1 , x2 , …, x n 的全部主成分分量. 将 x1 , x2 , …, x n 转换为 y 1 , y2 , …, yn 的原因 ,一是
摘 要 : 在介绍主成分分析方法的基本思想及计算方法基础上 ,对水资源调配评价指标进行了降维计算. 结果显 示筛选出的指标对原指标具有较好的代表性 ,简化了水资源评价问题的难度. 关键词 : 水资源评价 ;主成分分析 ;多属性决策 ;指标筛选
中图分类号 : P964 文献标识码 : A
文章编号 : 1003 - 4978 (2007) 03 - 0276 - 04
第 37 卷 第 3 期 2007 年 5 月
河南大学学报 (自然科学版) Journal of Henan U niversity (Nat ural Science)
Vol. 37 No . 3 May 2007
主成分分析法在水资源评价中的应用
叶晓枫 ,王志良
(华北水利水电学院 数学与信息科学系 ,河南 郑州 450008)
1 主成分分析方法简介
1. 1 主成分分析方法的基本思想
评价指标可以看成是指标变量 ,每一变量都不同程度地反映了该类指标的信息 ,变量之间难免存在重
叠 、相关的关系. 在用现代多元统计方法研究多变量问题时 ,变量太多会增大计算量和增加问题的复杂性 ,
人们自然希望在进行定量分析的过程中涉及的变量应尽可能的少 ,而信息量尽可能的多. 主成分分析是解
n
∑ 和 x 1 , x2 , …, xn 的总方差 y = V ii 相比 ,令 i =1
n
∑ γ = λ V ii .
(2)
i =1
称γ为主成分 y 的贡献率. γ越大 , y 的代表性越好.
就特征方程 | V - λE | = 0 而言 ,特征根可能不止一个. 设方程的 n 个特征根为λ1 ,λ2 , …,λn . 注意到 V 非负定 ,所以不妨设λ1 ≥λ2 ≥ … ≥λn ≥0. 可以证明
2 实例分析
根据 2000 年城市供水统计年鉴[2] ,反映城镇供水能力和供水状况的指标共有 16 项 ,它们是 :水厂数 ,生
产能力 ,供水管道总长度 ,年度供水总量 ,平均日供水总量 ,年度售水总量 ,漏失水量 ,漏失率 ,用水人口总数 , 普及率 ,年度耗电总量 ,平均单位供水耗电量 ,年度销售收入 ,年度利润总额 ,年末固定资产原值 ,年末固定资 产净值. 由于有些省市某些指标值年鉴中没有反映 ,所以我们只是选择了其中的 11 个指标 ,为了研究的需
1. 54 0. 74 2. 52 1. 11 0. 66 0. 33 - 0. 42 - 0. 14 - 0. 35 - 0. 44 - 0. 02 - 0. 51 - 0. 44 - 0. 44 - 0. 45 - 0. 99 0. 44 0. 66 1. 08 1. 06 1. 03 0. 83 0. 90 1. 30 1. 37 0. 73 0. 21 0. 87 0. 41 0. 38 - 0. 13 - 0. 17 - 0. 39 - 0. 12 - 0. 13 - 0. 18 - 0. 18 - 0. 29 - 0. 15 - 0. 08 - 0. 10 - 0. 42 0. 13 - 0. 34 - 0. 32 2. 53 0. 36 1. 52 0. 60 0. 65 1. 32 0. 09 0. 31 0. 24 0. 24 0. 60 3. 69 0. 51 1. 06 1. 02 - 0. 10 0. 12 - 0. 04 0. 42 0. 47 2. 10 2. 27 2. 99 3. 92 4. 00 - 0. 08 - 0. 29 - 0. 51 - 0. 28 - 0. 16 - 0. 77 - 0. 66 - 0. 85 - 0. 84 - 0. 80 - 1. 10 - 0. 64 - 0. 91 - 0. 71 - 0. 64 0. 73 - 0. 24 0. 04 - 0. 19 - 0. 14 - 0. 59 - 0. 69 - 0. 84 - 0. 76 - 0. 73 - 0. 51 - 0. 71 - 0. 59 - 0. 64 - 0. 57 - 0. 91 - 0. 60 - 0. 87 - 0. 55 - 0. 57 - 1. 10 - 0. 76 - 0. 97 - 0. 67 - 0. 88 - 0. 88 - 0. 81 - 0. 98 - 0. 90 - 0. 90 - 1. 12 - 0. 76 - 0. 99 - 0. 97 - 0. 78
水厂数 综合生 管道直 平均日 年度售 总计 产能力 径长度 供水总量 水总量 - 1. 04 - 0. 32 0. 27 - 0. 20 - 0. 06 - 1. 21 - 0. 51 - 0. 43 - 0. 55 - 0. 95
0. 46 1. 25 - 0. 34 - 0. 08 - 0. 02 - 0. 10 - 0. 60 - 0. 42 - 0. 59 - 0. 49 - 0. 43 - 0. 73 - 0. 73 - 0. 81 - 0. 74
x11 … x1n
X m×n = ⁝
⁝.
(1)
x m1 … x mn
收稿日期 : 2006204206 基金项目 : 河南省创新基金项目 (CX2002 - 01) ;教育厅科技攻关课题 (20025700003) ;河南省高校新世纪优秀人才支持计 划 (2006 HANCET - 04) 作者简介 : 叶晓枫 (1957 - ) ,女 ,河南郑州人 ,副教授 , 研究领域 :现代预测 、决策理论及其应用.
矛盾.
1. 2 主成分分析方法的计算步骤
主成分分析的基本原理可以用数学语言描述如下 :
设有 n个指标 x 1 , x2 , …, xn ,这 n个指标反映了客观对象的各个特性 ,因此每个被评价对象对应的 n个指
标值是一个样本值 ,它是一个 n 维向量. 如果有 m 个对象 ,就有 m 个 n 维向量 ,用矩阵表示为
主成分分析的步骤分两大步 : 1) 求出样本的协方差矩阵 V ;2) 求 V 的最大特征根λ及相应的特征向量
n
∑ α,则 y = αi x i 即是所求的主成分分量. i =1
1. 3 关于主成分分析算法的一些讨论
求得的主成分分量的代表性如何呢 ?回答这个问题需要对方差的大小进行分析 , 比如可以用 y 的方差λ
Principal Component Analysis in the Evaluation of Water Resources
YE Xiao2feng , WAN G Zhi2liang
( De p a rt ment of M at hem atics an d I n f orm ation S ciences , N ort h Chi na I nsti t ute of W ater Conservancy an d H y d roelect ric Pow er , Zhen gz hou 450008 ,Chi na)
决这一问题的理想工具. 因为在水资源多属性决策问题中 ,反映某类指标特征的变量较多 ,这些变量之中或
许存在着起支配作用的变量. 如果事情果真如此 ,就可以通过对原始变量相关矩阵内部结构关系的研究 ,找
出起主要作用的几个综合指标 ,这几个综合指标是原始变量的线性组合. 综合指标不仅保留了原始变量的
主要信息 ,彼此之间又不相关 ,又比原始变量具有某些更优越的性质 ,使得评价工作易于进行且能抓住主要
X ij - mi n X ij
Y ij
= max X ij
-
i
mi n
X ij
;
(4)
i
i
当指标 X ij 越小越好时 ,令
max X ij - X ij
Y ij
=
i
max X ij
-
. min X ij
(5)
i
i
标准化公式为
Zij
=
Y ij - Yj . Sj
(6)
' 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
' 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
叶晓枫 ,等 :主成分分析法在水资源评价中的应用
277
矩阵中的每一行就是一个方案的指标值. 从统计学的角度来看 ,主成分分析的降维的思路是 , 已知数据矩阵
n
n
∑ ∑ λ1 =
V ii .
(3)
i =1
i =1
式 (3) 表示 y1 , y2 , …, yn 的方差和正好是 x 1 , x2 , …, xn 的方差和. 某指标变量的方差表示该变量取值的离散
程度 ,就本文而言 ,方差表示各种方案关于某一指标取值的离散程度 ,如果取值没有区别的话 ,指标的方差会
要 ,另外加上了职工总人数共计 12 个指标[3 - 4] (如表 1 所示) ,因篇幅所限 ,具体数据此处不再列出 ,具体数
据可参考文献[5 ] . 指标的预处理方法分两步[6] :1) 将“逆向指标”转为“正项指标”,同时进行归一化处理 ,采用式 (4) 、式
(5) ;2) 将所有指标进行标准化处理 ,采用式 (6) . 当指标 X ij 越大越好时 ,令
(市) 指标的标准值 (计算中未考虑台 、港 、澳的情况 ,内地陕西及西藏数据不全 ,处理后的数据不包括二者) ,
结果见表 1.
表 1 处理后指标值
Tab. 1 Handled index value
北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 甘肃 青海 宁夏 新疆
相关文档
最新文档