灰色关联聚类剖析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
灰色关联聚类
灰色系统基本概念:我们将信息完全明确的系统称为白色系统,信息完全未知的系统称为黑色系统,部分信息明确、部分信息不明确的系统称为灰色系统。
灰色关联聚类是根据灰色关联矩阵将一些观测指标或观测对象聚集成若干个可以定义类别的方法。灰色关联聚类主要用于同类因素的归并,以使复杂系统简化。由此,我们可以检查许多因素中是否有若干个因素关系十分密切,使我们既能够用这些因素的综合平均指标或其中的某一个因素来代表这几个因素,又可以使信息不受到严重损失,从而使得我们在进行大面积调研之前,通过典型抽样数据的灰色关联聚类,可以减少不必要变量(因素)的收集,以节省成本和经费。
一、灰色关联聚类的基本方法
灰色关联聚类实际上是利用灰色关联的基本原理计算各样本之间的关联度,根据关联度的大小来划分各样本的类型。
其计算的原理和方法如下。
现设有m个样本,每个样本有n个指标,并得到如下序列:
X1 = ( x1(1), x1(2), …, x1(n))
X2 = ( x2(1), x2(2), …, x2(n))
……………………………. X m = ( x m (1), x m (2), …, x m (n))
对所有的i ≤j ,i, j=1,2,…,m ,计算出X i 与X j 的绝对关联度ij ε,从而得到上三角矩阵A 。
A=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡mm 2m 221m 1211 εεεεεε ,其中εii =1;i=1,2,…,m ;
灰色绝对关联度计算方法:
设母序列{X 0}与子序列{X i }长度相同,它们分别为:
))(,),2(),1((0000n x x x X =
))(,),2(),1((n x x x X i i i i =
则其相应的始点零化序列为:
))(,),2(),1((00000000n x x x X =
))(,),2(),1((0000n x x x X i i i i =
式中:)1()()(000
x k x k X -= )1()()(0i i i x k x k X -=
则X 0与X i 的灰色绝对关联度的计算公式为
00011s s s s s s i i i
i -+++++=
ε
式中:
∑-=+
=
1
2
0000)(21)(n k n x k x s ∑-=+
=
1
2
0)(2
1)(n k i i i n x k x s ∑-=-+-=
-1
2
000000)()((2
1))()((n k i i
i n x n x k x k x
s s
例:
现假设有母序列X 0和子序列X 1、X 2、X 3、X 4和X 5,求母序列与个子序列的绝对关联度。
第一步:进行始点零化
由)1()()(0i i i x k x k X -=可求得;
0)1()1()1(0000=-=x x x
08.064.272.2)1()2()2(0000=-=-=x x x
同理可获得其他零点化值,如下。
第二步:求0s 、i s 和0s s i -
=∑=+
=
6
20
00
0)7(2
1)(k x k x
s 0.19 =∑=+
=
6
20
1011)7(2
1)(k x k x s 83.59 =∑=+=
6
2
2022)7(2
1)(k x k x s 77.25
=∑=+
=
6
20
3033)7(2
1)(k x k x s 151.92 =∑=+
=
6
20
4044)7(2
1)(k x k x s 5.72 =∑=+
=
6
2
5055)7(2
1)(k x k x s 1.18 78.83)7()7((21))()((6
2
00100
0101=∑=-+-=
-k x x k x k x s s 06.77)7()7((21))()((6
2
00200
0202=∑=-+-=
-k x x k x k x s s 11.152)7()7((21))()((62
00300
0303=∑=-+-=
-k x x k x k x s s 91.5)7()7((21))()((62
00400
0404=∑=-+-=
-k x x k x k x s s 37.1)7()7((21))()((62
00500
0505=∑=-+-=
-k x x k x k x s s 第三步:求绝对关联度
50
.078
.8359.8319.0159
.8319.01110
1101
001=++++-+++++=
+=
s s s s s s ε
同理分别可求得:
50.002=ε;50.003=ε;54.004=ε;63.005=ε
若取临界值r ∈ [0,1],一般要求r > 0.5,当ij ε≥r 时,则可将X i 与X j 视为同类特征。
r 可根据实际问题的需要来确定,若r 越接近于1,则分类越细,每一组中的变量相对地越少;若r 越小,则分类越粗,这时每一组中的变量相对地越多。
二、举例分析
我们仍以上一节中的例子进行分析,利用灰色绝对关联度的计算方法进行聚类分析。在本例中,共有7个样本,每一个样本中有6个指标,为了节约今后调查和收集资料的成本,我们需要将指标进行归类,以达到精简指标的目的。
第一步:进行始点零化
利用)1()()(0i i i x k x k X -=可求得(见下表);