第四章 灰色关联度评价法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第四章灰色关联度评价法
1982年,华中理工大学邓聚龙教授首先提出了灰色系统得概念,并建立了灰色系统理论.之后,灰色系统理论得到了较深入的研究,并在许多方面获得了成功得应用.灰色系统理论认为,人们对客观事物得认识具有广泛得灰色性,即信息的不完全性和不确定性,因而由客观事物所形成得是一种灰色系统,即部分信息已知、部分信息未知得系统.比如社会系统、经济系统、生态系统等都可以看作是灰色系统..人们对综合评价的对象—被评价事物的认识也具有灰色性,因而可以借助于灰色系统的相关理论来研究综合评价问题.下面首先介绍灰色关联分析方法,然后探讨其在综合评价中应用的一些问题.
一、灰色关联分析方法
灰色关联分析(GRA)是一种多因素统计分析方法,它是以各因素的样本数据为依据用灰色关联度来描述因素间关系得强弱、大小和次序的.如果样本数据列反映出两因素变化的态势(方向、大小、速度等)基本一致,则它们之间得关联度较大;反之,关联度较小.与传统的多因素分析方法(相关、回归等)相比,灰色关联分析对数据要求较低且计算量小,便于广泛应用.
GRA分析得核心是计算关联度,下面通过一个例子来说明计算关联度得思路和方法.表5-3是某地区1990~1995年国内生产总值得统计资料.现在提出这样得问题:该地区三次产业中,哪一产业产值得变化与该地区国内生产总值(GDP)的变化态势更一致呢?也就是哪一产业与GDP的关联度最大呢?这样得问题显然是很有实际意义的.一个很自然的想法就是分别将三次产业产值的时间序列与GDP 的时间序列进行比较,为了能够比较,先对各序列进行无量纲化,这里采用均值化法.各序列得均值分别为:2716,461.5,1228.83,1025.67,表5-3中每列数据除以其均值可
表5-3 某地区国内生产总值统计资料(百万元)
得均值化序列(如表5-4所示).粗略地想一下,两序列变化的态势是表现在其对应点的间距上.如果各对应点间距均较小,则两序列变化态势的一致性强,否则,一致性弱.分别计算各产业产值与GDP在对应期的间距(绝对差值),结果见表5-5.接下来
表5-4
表5-5
似乎应该是对三个绝对差值序列分别求平均再进行比较,就可以解决问题了.但如果仔细观察表5-5中数据就会发现绝对差值数据序列的数据间存在着较大的数量级差异(最大为0.1857,最小的为0.0006,相差300多倍),不能直接进行综合,还需要对其进行一次规范化.设(max)
∆分别表示表5-5中绝对差
∆和(min)
值)(0t i ∆的最大数和最小数,则
(m ax ))((m in)00∆≤∆≤∆≤t i
因而
1(max ))((max )(min)
00≤∆∆≤∆∆≤
t i
显然
(max )
)
(0∆∆t i 越大,说明两序列i x 和0x 变化态势一致性弱,反之,一致性强,
因此可考虑将
(max )
)
(0∆∆t i 取倒反向.为了规范化后数据在[0,1]内,可考虑
(max )
)((max )
(min)0∆∆∆∆t i
由于在一般情况下(min)∆可能为零(即某个)(0t i ∆为零),故将上式改进为
)((max ))((max )(min)00t t i i ερ
ρ∆
=+∆∆+∆∆
ρ在0和1之间取值.上式可变形为
1995
,,1990,3,2,1(max)
)((max)(min))(00 ==∆+∆∆+∆=
t i t t i i ρρε (5-6)
)(0t i ε称为序列i x 和序列0x 在第t 期的灰色关联系数(常简称为关联系数).由(5-6)式可以看出,ρ取值的大小可以控制(max)∆对数据转化的影响, ρ取较小的值,可以提高关联系数间差异的显著性,因而称ρ为分辨系数.利用(5-6)式对表5-5中绝对差值)(0t i ∆进行规范化,取ρ=0.4,结果见表5-6.以)1990(01ε计算为例:
4191
.01857.04.01044.01857
.04.00006.0)1990(1857
.0(max),0006.0(min)01=⨯+⨯+=
=∆=∆ε 同样可计算出表5-6中其余关联系数.
表5-6
最后分别对各产业与GDP 的关联系数序列求算术平均可得
7209
.0)4758.000.17338.05213.07257.08687.0(61
5760.0)3510.06141.08761.04903.05178.06067.0(61
4571.0)2881.03696.07055.05808.03796.04191.0(61
010101=+++++==+++++==+++++=
r r r
i r 0称为序列0x 和)3,2,1(=i x i 的灰色关联度.由于010203r r r >>,因而第三产
业产值与GDP 的关联度最大,其次是第二产业、第一产业.
从上例可以看出,灰色关联分析需要经过以下几个步骤:
1.
确定分析序列
在对所研究问题定性分析的基础上,确定一个因变量因素和多个自变量因素.
设因变量数据构成参考序列0
X ',各自变量数据构成比较序列1),,,2,1(+='n n i X i 个数据序列形成如下矩阵:
(5-7)
其中
n i N x x x X T i i i i ,,2,1,))(,,2(),1(( ='''=' N 为变量序列的长度.
)1(1
101
10
)()()()2()2()
2()1()1()1(),,,(+⨯⎥
⎥
⎥⎥⎦⎤⎢
⎢⎢⎢⎣⎡'''''''''='''n N n
n
n
n N x N x N x x x x x x x X X X
无论是时间序列数据、指标序列数据还是横向序列数据都可以用来作关联分析。
2. 对变量序列进行无量纲化
一般情况下,原始变量序列具有不同的量纲或数量级,为了保证分析结果的可靠性,需要对变量序列进行无量纲化.无量纲化后各因素序列形成如下矩阵:
)
1(1010
1010)()()()2()2()2()1()1()
1(),,,(+⨯⎥⎥⎥⎥
⎦⎤⎢⎢⎢⎢⎣⎡=n N n n n n N x N x N x x x x x x x X X X (5-8)
常用的无量纲化方法有均值化法、初值化法、区间值化法等. 均值化法:
∑=''=
N
k i i i k x N
k x k x 1
)
(1)()( (5-9)
初值化法:
N
k n i x k x k x i i i ,,2,1;,,1,0)
1()
()( ==''=
(5-10)
区间值化法: ()min
()max min
i i x k x k '-=
-
3.求差序列、最大差和最小差
计算(5-8)中第一列(参考序列)与其余各列(比较序列)对应期的绝对差值,形成如下绝对差值矩阵:
n
N n n n N N N ⨯⎥⎥⎥⎥
⎦⎤⎢⎢⎢⎢⎣⎡∆∆∆∆∆∆∆∆∆)()()()2()2()2()1()1()1(002010020100201
其中
N
k i k x k x k i i ,,2,1;,,2,1)()()(00 ==-=∆ (5-11)
绝对差值阵中最大数和最小数即为最大差和最小差:
{}(max))(max 11∆=∆∆
≤≤≤≤k oi N
k n i
{}(min))(min 11∆=∆∆
≤≤≤≤k oi N
k n i
4.计算关联系数
对绝对差值阵中数据作如下变换:
(max )
)((max )
(min))(00∆+∆∆+∆=
ρρεt t i i
得到关联系数矩阵:
n
N n n n N N N ⨯⎥⎥⎥⎥
⎦⎤⎢⎢⎢⎢⎣⎡)()()()2()2()2()1()1()1(002010020100201εεεεεεεεε
(5-15)
式中分辨系数ρ在(0,1)内取值,一般情况下依据(5-15)中数据情况多在0.1到0.5取值, ρ越小越能提高关联系数间的差异.关联系数)(0k i ε是不超过1的正数,)(0k i ∆越小,)(0k i ε越大,它反映第I 个比较序列i X 与参考序列0X 在第k 期的关联程度.
5.计算关联度
比较序列i X 与参考序列0X 的关联程度是通过N 个关联系数(即(5-15)中第I 个列)来反映的,求平均就可得到i X 和0X 的关联度
∑==
N
k i
i k N
r 1
00)(1
ε
(5-16)
6.依关联度排序
对各比较序列与参考序列的关联度从大到小排序,关联度越大,说明比较序列与参考序列变化的态势越一致。
从上边可以看出,关联度的几何含义为比较序列与参考序列曲线的相似性与
一致程度.如果两序列的曲线形状接近,则两者关联度就越大,反之,两者关联度就较小.
二、用灰色关联度分析进行综合评价
灰色关联分析的目的是揭示因素间关系的强弱,其操作对象是因素的时间序列,最终的结果表现为通过关联度对各比较序列做出排序.综合评价的对象也可以看作是时间序列(每个被评事物对应的各项指标值),并且往往需要对这些时间序列做出排序,因而可以借助于灰色关联度发现来进行.
比较序列自然是由被评事物的各项指标值构成的序列,那么参考序列是什么呢?考虑到要用比较序列与参考序列的关联度来对各比较序列排序,参考序列应该是一个理想的比较标准.一般可选最优样本数据作为参考序列,与其关联度越大则越好(各指标的最优值).
设用p 个指标p x x ,,1 (不失一般性,设其均为正向指标),对n 个样本进行评价,无量纲化后形成如下数据矩阵:
p
n np n n p p x x x x x x x x x ⨯⎥
⎥
⎥⎥
⎦
⎤⎢⎢⎢⎢⎣⎡ 212222111211
其中第i 个样本数据为()n i x x X T
ip i i ,,2,1,,,1 ==. 构造最优样本
()T
p o x x X 001,, =
其中
{}n j x x ij n
i j ,,2,1,max 10 ==≤≤
由以下公式可计算出样本),,2,1(n i X i =与最优样本0X 的关联度i r 0
j ij i x x j 00)(-=∆
(5-17)
)
(max )()(max )(min )(01100110110j j j j j i p
j n i i i p
j n i i p
j n
i i ∆+∆∆+∆=
≤≤≤≤≤≤≤≤≤≤≤≤ρρε (5-18)
∑=====p
j i j i n
i j r p
j n i 1
00,,2,1),(,,2,1;,,2,1 εω (5-19)
上式中,()p j j ,,2,1 =ω是指标),,2,1(p j x j =的归一化权重.最后由
),,2,1(0n i r i =即可对n 个样本排出优劣顺序.下面看一个完整的例子.
例5.2 麦棉两熟小麦配套品种(系)的灰色关联度评价.
评价对象是”鲁西北棉区麦棉两熟小麦配套品种筛选”课题中的10个小麦品种(系),依据1989~1993年度在山东省陵县进行的实验测试结果,数据见表5-7[28].评价指标即为小麦品种的一些性状,共11个.有些指标是逆指标,但表5-7中的数据均已作过正向化处理(见表下注).
首先构造最优样本━━理想品种,理想品种在各性状(指标)上要符合麦棉两熟小麦配套品种的要求,其各性质值要优于或同于参试品种性状的最优值.'
X 如表5-7中第一行所示.借助于理想品种的性状值对数据进行无量纲化,即每个指标数值除以”理想品种”相应的指标数值可得无量纲化数据(见表5-8).
表5-7各参试品种与理想品种的主要性状平均值
注:成熟期以供试品种最晚熟日期为零,每早熟1天记为1,以次类推;抗锈病、抗白粉病、抗冻病、抗到病均为5减去抗性级别;株高是以80减去实际株高
(cm);株型分松散、中间和紧凑型分别记作1,2,3.
表5-8 无量纲化数据
表5-9 计算关联系数
由(5-17)式可得绝对差序列)10,,2,1(),(0 =∆j j i 其中
.0(min),1(max)=∆=∆取5.0=ρ,由(5-18)式可得关联系数
,11,,2,1,10,,2,1),(0 ==j i j i ε结果见表5-9.最后由5-9式可得各参试品种与理想品种的关联度见表5-10.
表5-10 最终结果
注
:
各
指
标
权
数
分
别
为
0.12,0.11,0.08,0.20,0.08,0.07,0.10,0.03,0.06,0.08.
按照灰色关联分析的原则,关联度大得品种与理想品种最为接近,是最适宜的品种.从表5-10可以看出,不论是简单平均还是加权平均,品种6X (鲁麦15号)的关联度最大,这说明鲁麦15号与理想品种最为接近,是鲁西北棉区麦棉两熟条件下最适宜的小麦配套品种;品种4X 和3X 次之,也是该棉区麦棉两熟较适宜的小麦配套品种;其他品种与前边三个品种比较起来与理想品种的关联度较低,不适宜在该棉区麦棉两熟田推广.
通过对表5-9中的关联系数的进一步分析还可以了解到各品种的特点和存在的问题,如品种6X 之所以综合性质较好、关联度高,主要是由于该品种在亩穗数、产量及抗逆性等方面与理想品种关联系数较高;5X 虽然在穗粒数、产量等方面与理想品种关联系数高,但由于其在抗逆性及株高等方面与理想品种关联系数较低,因此关联度低,综合性质稍差.
为了说明权数在计算关联度中的作用,表5-10列出了关联度的两种计算结果,即关联系数的简单算术平均和加权算术平均.可以看出,加权后各品种的位次稍有改变,比如品种5X 超过了品种8X .这主要是由于5X 在两个权重指标(5X 和
2X )上与”理想品种”的关联系数较大的缘故.另外,为了对分辨系数的作用有
一个直观的认识,表5-10还列出4.0=ρ时的计算结果,可以看出,ρ取较小的值能够提高评价结果(即关联度)的区分能力,这是灰色关联度评价发的一个显著特点.。