基于信息论的熵值法的算法改进——以陕西省环境规制强度评价为例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于信息论的熵值法的算法改进——以陕西省环境规制强度
评价为例
王卓;高丛
【摘要】From the perspective of information theory,the principle of entropy method,namely,the basis ofempowerment,isexpounded and verified. It is proved that the index weight is actually the proportion of the in-formation conveyed by the index in all indices,based on which,the traditional algorithm is improved. Then five indices are selected to assess the environmental regulation intensity of Shannxi province from 2005 to 2013 by the improved entropy method. Finally it is explained that the limitation of entropy method is related to the size of the weight,but is not directly linked to its own importance.%基于信息论的视角对熵值法的原理——赋权依据进行了论证,证明了指标的权重实际上是指标所传递的信息量占所有指标所传递的总信息量的比例,并基于此对传统算法进行了改进,由此选取了 5 个指标以改进的熵值法对陕西省 2005—2013 年环境规制强度进行了评价,最后说明了熵值法的局限性与权重的大小有关,并非与其自身的重要性直接相关.
【期刊名称】《西安石油大学学报(社会科学版)》
【年(卷),期】2016(025)001
【总页数】5页(P22-26)
【关键词】熵值法;算法改进;环境规制;差异性系数
【作者】王卓;高丛
【作者单位】西安石油大学油气资源经济与管理研究中心,陕西西安 710065;西安石油大学油气资源经济与管理研究中心,陕西西安 710065
【正文语种】中文
【中图分类】F224
在决策评价的过程中确定指标权重,一般采用两种方法:主观赋权法和客观赋权法[1]9,熵值法则属于客观赋权法的一种。

由于较少受主观因素影响,熵值法近年来得到了广泛的应用。

熵值法中指标权重的大小是基于指标数据所提供的信息多少而定的[2]99-103。

尽管这一原理早被提出,但现有文献并未对此进行严格的证明就直接给出了算法,同时传统算法是从构建差异性系数的角度进行的,使得一部分学者在使用这一方法时对其原理及适用范围产生了一些疑问。

为此,本文在回顾了熵值法提出的背景及其演变过程之后,直接以熵值法的原理对其算法进行了改进,以便更好地理解熵值法的思想。

熵最开始是作为一个热力学概念出现的,它是由德国物理学家Clausius于1865年提出,并用以衡量能量的不可用程度的方法。

在此之后,奥地利物理学家Boltzmann从分子运动论角度证明了表征系统宏观状态的熵与该宏观状态对应微观态数W的对数值lnW成正比。

即:
S=klnW
(1)式中,k为玻尔兹曼常数。

熵成为了衡量分子运动混乱水平的物理量[3] 24。

1948年,信息论创始人Shannon发表了《通信的数学理论》,提出了用熵来度量离散信息源(当然在数学上也就是离散型随机变量)的不确定程度[4] 16。

为此,本文设离散型随机变量X有n个可能取值,对应概率分别为pi,i=1,2,…n,且
pi=1,则X的熵*习惯上,在热力学中,熵用S表示;而在信息论中,熵用H表示。

有些应用熵值法的论文中使用S表示熵是一种误用。

为:
(2)式中,C=常数>0。

事实上,如果令C=1/lna,则:
可见常数C的不同取值只是改变了熵函数对数的底,这样信息量被定义为熵的减
少量,即:不确定程度的减少量。

一般进行理论推导时都使用自然对数为底,而对应不同的底,信息量的单位也不同,详见表1所示。

20世纪90年代以来,熵理论逐渐进入决策过程中。

1991年,顾昌耀和邱菀华第一次定义了复熵,且在决策分析过程中对其进行了应用[5]206。

1994年,郭显光提出了熵值法可以应用于指标赋权[6]56-60,1998年,他又提出了改进的熵值法,但这只是对原始极端数据的改进。

之后出现的大量文献,都是直接采用熵值法对不同对象进行评价。

然而,也有极少数文献探讨了熵值法的原理。

如:郭秀英依据客观赋权的原理和序列信息熵的含义给出了确定各区间数指标权重的一种熵值法[7]32-34,朱喜安和魏国栋对熵值法中无量纲化方法进行了探讨[8]12-15。

由此
可以看出,自熵值法提出后绝大部分文献都是基于某种方法而进行了实证,部分文献虽探讨了数据处理等方面的改进意见,但都未直接对其原理进行详细论证。

因此,这些文献在探讨熵值法的适用性的时候,往往难以进行详细说明。

本文试图对熵值法的算法从原理方面进行改进,并在此基础上达到对其适用性能更好地理解的目的。

为了对熵值算法进行改进,现将传统熵值法*熵值法由郭显光教授提出,熵权法由
邱菀华教授提出,但是其算法基本上一致,为统一本文记号遵照郭显光教授的定义。

的算法介绍如下:
假设有m个待评方案,n个评价指标,构造原始决策矩阵X=(xij)m×n。

首先对某项指标j进行列向量比例化,得到比例列向量(p1j,p2j,…,pmj)T,之后计算比例列
向量的熵,并采用除以最大值*关于最大值,事实上是需要严格证明的,可以参见
式(4)至式(10)的证明。

lnm的方法进行归一化*这里隐含着,熵函数是非负的,且最小值为0。

事实上,由于0pij1,故lnpij0,所以,pijlnpij≥0。

如果我们定义函
数f(x)=xlnx在区间[0,1]上是连续函数,由。

则当任一pij=1,且其余值为0时,熵函数取得最小值0。

有些文献中称pij不能为0,则是一种误解。

,得到ej,接着定义差异性系数:gi=1-ej,然后对差异性系数进行比例化,得到权重aj。

最后即可计算第i个方案的得分ajpij。

由表1可知,对熵归一化的过程本质上相当于将对数的底由e换成常数m,虽使熵的单位改变了。

但之后构造的差异性系数与熵值法原理的直接联系并不是很大,也不利于从根本上把握熵值法的本质。

接下来证明差异性系数gj实质上是指标j的份额列向量所传递的信息量。

本文以Nat为信息量的单位,并记指标j的份额列向量的熵为Hj。

根据最大熵原理*E.T.Jaynes于1957年提出的最大熵原理的主旨思想:在对未知分布的全部信息了解不多时,应该在满足所有约束条件的情况下选择使其熵值最大的分布。

,在未观测到比例列向量(p1j,p2j,…,pmj)T时,最可能的情况就是T。

事实上,求解列向量(p1j,p2j,…,pmj)T最可能分布的数学模型为:
建立拉格朗日方程:
根据库恩-塔克定理[9]162,其一阶必要条件为:
Lpij=-lnpij-1-λ≤0,pij≥0满足互补松弛条件
若∃i∈m使pij=0,则-lnpij=+,明显不满足Lpij≤0,故∀i∈m,pij>0,且
Lpij=0。

由此得到:
联系式(8)得到:
由此可以证明熵函数H是定义域上的上凸函数,因此,(10)式也是最大化H的充分条件。

综上可知,熵函数H最大的充要条件为T。

由此观测到指标j所传递的信息量就等于观测前后列向量熵的减少量,即:
得到:
参考(3)式可知,如果将份额列向量传递给我们的信息量Ij(以Nat为单位),并转化为一个未定义单位的信息量,即得到传统算法所定义的差异性系数gj。

可见传统算法中的差异性系数gj在本质上也是信息量,但却采用了一个未定义的单位。

由此可见,传统算法中,将差异性系数gj进行比例化的过程,实际上正是在计算指标j所传递的信息占所有指标所传递总信息的份额。

为了更好地体现熵值法原理,下面从信息论的角度对其算法进行改进,改进后的算法如下:
第一,对原始数据预处理得到归一化矩阵:Y=(yij)m×n。

由于指标列向量的量纲不同,需要先对列向量进行归一化处理。

若为越大越优指标,则按照(13)式进行处理,若为越小越优指标,则按照(14)式进行处理。

第二,对列向量比例化得到列比例矩阵:P=(pij)m×n,其中,
第三,计算各指标所传达的信息量Ij,其中,
第四,将信息量比例化得到各指标权重aj,其中:
第五,计算各个待评方案得分vi,其中:
由于环境规制的主体是政府,但政府并没有单一的规制工具,这就造成了在实证研究中对环境规制强度测定的困难。

早期的研究多采用单一指标来衡量规制强度,但是单一的指标往往被质疑选取的标准过于随意。

鉴于此,近年来很多研究都采用了多指标综合评价的方法,如:傅京燕等利用废水排放达标率、二氧化硫去除率、烟尘去除率、粉尘去除率、固体废物综合利用率等5个指标构建了环境规制综合指数[10]87-98,187,尤济红等以环保投入为出发点,选取了治理工业污染项目投资额等10项指标来构建规制强度系数[11]1211-1219,韩晶等选取了工业废水、废气、废渣作为评价指标层,建立了环境规制评价体系[12]61-67。

本文根据以上学者的研究方法,在考虑数据可得性的基础上,从对工业三废的处理强度和环保投
入的角度出发,构建出新的环境规制强度评价指数。

本文结合陕西省实际情况选取了5个指标,并采用改进后的熵值法对陕西省2005—2013年的环境规制强度进行了评价,其具体指标分别为:
X1:废水治理设施本年运行费用;
X2:废气治理设施本年运行费用;
X3:工业固体废物综合利用率;
X4:环境污染治理投资额;
X5:排污费征收额。

其中,X1及X2以原始值所占第二产业增加值的比例表示,X4及X5以原始值所
占国内生产总值的比例表示。

本文数据选自2006—2014年的《中国环境统计年鉴》和《陕西统计年鉴》。


于2011年以后,环境统计口径进行了大幅度修订,对指标的选取和数据的处理则做一些说明。

废水排放达标率和二氧化硫去除率等数据不再公布,因此,本文选用了对应的治理设施本年的运行费用。

工业固体废物综合利用率在修订之后不再公布,改为公布一般工业固体废物综合利用率,而工业固体废物可分为一般工业固体废物和危险工业固体废物,由于新的统计年鉴对工业固体废物的两种成分的数据均进行了披露,为前后口径一致,本文合成了2011—2013年的工业固体废物综合利用
率*工业固体废物综合利用率=工业固体废物综合利用量/(工业固体废物产生量+综合利用往年贮存量)。

2011年之后未披露的综合利用往年贮存量可用如下公式合成:综合利用往年贮存量=一般工业固体废物综合利用往年贮存量+危险工业固体废物
综合利用往年贮存量=一般工业固体废物综合利用往年贮存量+[(工业固体废物综
合利用量-危险工业固体废物综合利用量)/一般工业固体废物综合利用率-(工业固体废物产生量-危险工业固体废物产生量)+危险工业固体废物综合利用往年贮存量]。

本文所选取的5个指标均为越大越优,即数据越大,说明环境规制强度越强,再
将陕西省2005—2013年各项指标数据分别代入(13)、(15)、(17)式,由此得到各个指标所传递的信息量及其权重,详见表2所示。

表2中所得到的各项指标所传递的信息量是以Nat为单位的。

根据(15)式可以得
到各数据的列比例矩阵*由于篇幅所限,本文未报告此矩阵。

,将此矩阵与表2的各项指标的权重代入(18)式,可以得到2005—2013年陕西省环境规制强度指数,并对环境规制强度指数进行排名,详见表3所示。

为了清楚地看出2005—2013年陕西省环境规制强度的变化情况,本文再利用以
上年份指数绘制折线图,详见图1所示。

由图1可以看出,2005—2013年陕西省的环境规制强度并不是想象中逐年增大的,而是在经历了2005年的最强规制之后,规制出现了下降的趋势,并在2009
年下降到低谷,与此同时,规制强度伴随着轻微的波动并在2013年达到最低。

在对环境规制强度进行评价时,最为关键的两步是规制指标的选取和指标权重的确定。

由于熵值法是目前使用最广泛的确权方法,本文对指标权重的确定进行了重点讨论,并在回顾了熵值法提出的历史后,从决策矩阵中各个指标列向量所传达的信息量出发对熵值法原理进行了论证。

由此可以看出,决定指标权重大小的并不是熵,而是熵的减少,即信息量。

因此从本质上讲,熵值法或者熵权法都不如信息量权法更为确切。

这也从另一个角度反映了熵值法的局限性,即某项指标的权重小并不意味着该指标不重要,只是数据所传递给我们的信息比较少,这也是我们在应用熵值法进行评价时需要特别注意的问题。

熵值法本质上属于客观赋权法,如果仅仅依靠数据来确定权重,就有可能忽略了决策者的主观信息。

因此,熵值法对于某些十分重要但却不能从数据中获得信息的指标就显得无能为力了,这时候就必须发挥主观赋权法的作用,所以,我们在使用熵值法时应对其适用性准确把握。

相关文档
最新文档