有序地质量最优分割法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第七章 有序地质量最优分割法
第一节 概 述
地层划分与对比是煤田地质勘探的主要任务之一。

在地质工作中,通常是寻找地层的
不整合或假整合界线,或者利用古生物化石、岩石矿物等地质特征对地层进行划分与对比。

这种划分方法比较直观,适用于较大地层单元的划分与对比。

当地质特征间的差异性不显著时,运用上述直观、定性的方法来解决较小地层单元的进一步划分就有一定的困难。

因此,近年来开始利用有序地质量,即运用数学方法,并借于电子计算机定量地划分地层,提出了“有序地质量最优分割法”。

地质数据中有相当多是有序的。

这些按一定顺序排列的地质变量,叫做有序地质量。

例如,沿地层露头剖面采集的岩石标本;钻孔取出的岩芯样品;与这些岩石、样品有关的岩性、物理化学和古生物数据;以及地球物理测井数据等。

它们都是有序地质量。

这类数据的特点是样品的前后次序不能变更。

所以,一些不考虑样品排列顺序的数学处理方法,对此不适用。

有序地质量最优分割法,就是对一批有序数据(地质体)进行分段的统计方法。

设有n 个按顺序排列的样品,每个样品测得p 个变量,这批数据可用数据矩阵的形式表示为
[]nxp
np n n p p il x x x x x x x x x x X ⎪⎪
⎪⎪

⎭⎫
⎝⎛== 2122221
11211 其中,il x 表示第i 个样品第l 个变量的取值。

若对以上n 个有序样品进行分割(分段),可能有
121
112211-=+++-----n n n n n c c c
种划分方法,每一种分法称为一种分割。

在所有这些分割中,存在这样一种分割,它使得各段(组)内部样品之间的差异性最小(即样品数据的组内离差平方和最小),而使段(组)之间的差异性最大(即样品数据的组间离差平方和最大)。

这种对n 个样品分段并使组内离差平方和最小的分割方法,称为最优分割法。

样品变量总离差平方和的分解式为
B W T += (7—1) 式中,T 为总离差平方和;W 为组内离差平方和;B 为组间离差平方和。

由式(7—1)可知,如果n 个样品分为K 段,每段的样品个数为k n ,若每个样品只取一个变量,则
∑∑==-=
K k n i k ik
k
x x
W 11
2)( (7—2)
∑∑∑===-=-=
K
k k k K
k n i k
x x n x x
B k
1
211
2
)()( (7—3)
因此,寻求最优分割,就是用计算的分法找出使组内离差平方和(W )最小的那些分割点。

这与判别分析中费歇准则相似,所以有序地质量最优分割法,有人又称为“F -分割法”或“有序样品的聚类分析”。

第二节 单元有序数据的最优分割
若有n 个有序样品,每个样品只取一个变量,则有n 个有序数据序列,为 {}n x x x X ,,,21 =
现在试图将这n 个样品按顺序分割为K 段,使段(组)内离平差和尽可能小,而组间离差平方和尽可能大。

为此,用{}
j i i x x x ,,,1 +表示从第i 个样品数据开始至第j 个样品数据为止的某段样品,其中
n j i ≤≤≤1 该段样品变量的离差平方和为 ()[]2
),(,∑=-=
j
i
j i j i x x d α
α (7-4) 式中 ()∑=+-=j
i
x i j j i x αα11
,
由于),(j i d 能够反映样品段{}
j i i x x x ,,,1 +内样品间差异的情况,),(j i d 愈小,表示段内各样品之间差异性愈小;反之,),(j i d 愈大,表示段内各样品之间差异性愈大。

因此,又把),(j i d 称为{}j i ,, 段的直径。

若n 个样品分为K 段:{
}111211,,,n x x x {}{}
k Kn K K n x x x x x x ,,,,,22222212 ,为最优K 段分割。

其各段离差平方和(段直径)分别为:),(1j i d ,),(),,(2j i d j i d K 。

根据最优分割的原则,其组内离差平方和必须满足
()
[]
()()()min
,.,,2111
2
=+++=-=∑∑==j i d j i d j i d j i x x W k K k n i k ik k
(7-5)
或 ()[]
∑==-=
K
k k k x j i x n B 1
2
max , (7-6)
在实际应用时,往往事先不知道n 个有序样品客观上究竟能划分为几段。

因此,必须从最优分成二段、三段、…、K 段进行分析。

一、最优二段分割
若把n 个有序样品{}n x x x ,,,21 分为两段,则有如下1-n 种不同的分法,即 {}1x {}n x x x ,,,32
{}21,x x {}n x x x ,,,43 {}321,,x x x {}n x x x ,,,54
{
} {} {}121,,,-n x x x {}n x
在上述1-n 种分法中,究竟哪一种方法最优?只须计算出每一种分割的组内离差平方和,并从其中找出组内离差平方和()W 最小的那一种分割,就是所求的最优二段分割。

在n 个有序样品中,对任意一个()11-≤≤n j j 都可以确定一个二段分割,即
{}j ,,1 {}n j ,,1 +。

若把对n 个样品在第j 个样品处进行的二段分割的组内离差平方和
记为
()()()n d d j W n ,21,1;2+= (7-7) 式中,n 表示被分割的样品数;2表示把n 个样品分为二段;j 表示以第j 个样品为分割点。

上述1-n 种分割的组内离差平方和分别为 ()()()n d d W n ,21,11;2+= ()()()n d d W n ,32,12;2+= …………………………… ()()()n n d n d n W n ,1,11;2+-=- 在{}j i ,, 中,当j i =时,则
()()()0,2,21,1====n n d d d 假设当1a j =时,()j W n ;2达到最小,即
()(){}j W a W n n j n ;2min ;21
11-≤≤=
则最优二段分割为{}1,,,21a x x x {}n a x x
,,1
+,其中i a x 为最优二段分割点。

二、最优三段分割
若把n 个有序样品{}n x x x ,,,21 分为三段,其中必有两个分割点。

假设第()j a 1和第j 个样品为分割点,则三段分割为
{}1
,,1a x x {}j
a x x
,,1
1 +{}n j x x
,,1
+
若把三段分割的组内离差平方和记为:()j a W n ,;31,其中j a ,1为两个分割点
()12;111-≤≤-≤
≤n j j a ,则
()()()()n j d j a d a d j a W n ,1,1,1,;3111++++= ()()n j d a W j ,1,21++=
显然,如果有()j a W n ,;31为最优三段分割,则()1;2a W j 必为最优二段分割,否则必存在另
一个最优二段分割()1
;2a W j ',使 ()()j a W j a W n n ,;3,;31
1'> 这与()j a W n ,;31为最优三段分割相矛盾。

因此,如果对n 个有序数据进行最优三段分割,必须对任意一个()12-≤≤n j j ,即前j 个数据先求出其最优二段分割,为 ()[]()[]()j a d j a d j a W j ,1,1;2111++= 若
()()()[]{}j a W a W j j j a j 11
11;2min ;21-≤≤=
则前j 个样品的最优二段分割与{}
n j x x ,,1 +构成一个三段分割。

最后,找出一个适当的j ,如2a j =,使得
()()(){}
n j d a W a a W j n ,1;2min ,;3121++= ()[]{}j j a W n n j ,;3min 11
2-≤≤=
则{
}j
a x x ,,1 {}2
,,1
a a x x
j +{}
n a x x
,,1
2 +为n 个样品的最优三段分割,其中1a 和2a 为最
优三段分割点。

三、最优K 段分割
若对n 个有序样品数据{}n x x x ,,,21 进行最优K 段分割,可先找出
()11-≤≤-n j K j 个样品的最优1-K 段最优分割,即
()221,,;1--k j a a a K W
从而得{
}21,,1a a x x +{}j a x x k ,,12 +-与{
}
n j x x ,,1 +构成K 段分割,但不一定是最优K 段分割。

可选择一个适当的()11-≤≤-n j K j ,如1-=K a j 时,使得
()()()[]{}j a j a j a K W a a a a K W K n n j K K K j ,,,;min ,,,;12211
11221--≤≤---=-
可得最优K 段分割为{
}1
,,1a x x {}21,,1
a a x x
+{}
n a x x K ,,11 +-,其中121,,,-K a a a x x x 为
最优K 段分割点。

应当指出,分割的段数K 一直可做到所要 求的段数K 为止;或者可以预先给定一个小正 数δ,使K 段分割的组内离差平方和
()δ<-121,,,;k n a a a K W 后为止。

这样得出的
K 就是最后的分割的段数。

由图17-所示,组 内离差平方和是随分段段数K 的增加而单调地 减少。

所以当n K =时,组内离差平方和
()0,,,;121=-n n a a a n W 。

因此,可根据组内离
差平方和随段数增加而下降到比较稳定的时候(即 图中曲线平缓时)再确定分段段数。

第三节 多元有序数据的最优分割
为了分层,有时需要汇集样品更多的信息,采用多个变量指标。

例如,采集n 个有序样品,每个样品测得p 个变量,原始数据可构成一个p n ⨯阶矩阵,为
p
n np n n p p x x x x x x x x x X ⨯⎪⎪



⎭⎫
⎝⎛= 2122221
11211
在多变量情况下,人们自然会联想到是否能将单元有序数据最优分割原理引申到多元
数据中来,以此对n 个有序样品进行分割,一般最简单有效的办法就是把一段样品多个变量合并为一个变量来处理,统一定义“段直径”。

但是,为了使不同变量间具有共同的数据基础,事先要对各个变量进行数据规范化处理,如使数据作正规化变换。

原始数据矩阵中元素记为:()p l n i x il ,,2,1;,,2,1 ===,则正规化数据为
{}(){}{}()
il n
i il n
i il n
i il il x x x x z ≤≤≤≤≤≤--=111min max min (7-8)
得正规化数据矩阵
p
n np n n p p z z z z z z z z z Z ⨯⎪⎪



⎭⎫
⎝⎛= 2122221
11211
根据正规化数据,将样品段{}j i ,, 的段直径定义为
()()[]2
1
,,∑∑==-=j i
p
j i z z j i d αβ
βαβ (7-9) 式中
()∑=+-=j
i
z i j j i z ααββ11
, ()p n j i ,,2,1,1 =≤≤≤β (7-10)
若n 个有序样品分为K 段,每段内有k n 个样品,则多元有序数据最优分割的原理与单元有序数据最优分割一样,使组内离差平方和
()()()()j i d j i d j i d a a a K W K K n ,,,,,,;21121+++=- ()[]2
1
1
,∑∑∑===-=K
k n i
p
k
k
k
j i z z αβ
βαβ
()()()[]{}j j a j a j a K w K n n j K ,,,,;min
2211
1--≤≤-=
(7-11)
应当指出,样品的段直径除了用式(7-9)定义外,还可用其他方法定义。

如用样品数
据绝对值距离来定义,即
()()∑∑==-=
j i
p
j i x x j i D αβ
βαβ1
,, ( 7-12) 也可用其他度量空间的距离来定义。

第四节 最优分割法的计算步骤
1. 数据正规化 设原始数据阵为
p
n np n n p p x x x x x x x x x X ⨯⎪⎪



⎭⎫
⎝⎛= 21
22221
11211
将X 中的元素il x 变换为
{}(
){}{}
[
)il n
i il n
i il n
i il il x x x x z ≤≤≤≤≤≤--=111min max min
()p l n i ,,2,1;,,2,1 ==
得正规化数据矩阵
p
n np n n p p z z z z z z z z z Z ⨯⎪⎪



⎭⎫
⎝⎛= 21
22221
11211
2. 计算段直径矩阵D
()()2
11,,∑∑==≤≤≤⎥⎦⎤
⎢⎣
⎡-=j
i p
n j i a j i z z j i d αβββ
其中
()∑=+-=i
z i j j i z ααββ11
,
因为
()()
⎩⎨⎧=i j d j i d ,0
, ()()j i j i ≠=
故必须计算
()2
1-n n 个()j i d ,,得
()()()()()()n
n n n d n d d n d d d D ⨯⎪⎪⎪⎪⎪
⎭⎫
⎝⎛=,,22,2,12,11,1
3. 计算全部分割的组内离差平方和(或段直径和)及各种分段的最优分割
1) 最优二段分割 由D 矩阵对每一个2,,1, -=n n m 计算相应的组内离差平方和, 为
()()()m j d j i d j W m ,1,;2++= ()1,,2,1-=m j 找出最小值,确定相应的最优二段分割点,即
()[](){}j W m a W m m j m ;2min ;21
11-≤≤=
分割点为()()()2,,1,111a n a n a -。

从而得到n 个样品()n m =的最优二段分割为
()
{}n a x x
x 1,,2
1
(){}
n n a x x
,,1
1 +,其中()n a 1为最优二段分割点。

2) 最优三段分割 根据D 矩阵及最优二段分割结果,对每一个3,,1, -=n n m 计算相应的三段分割的组内离差平方和,为
()()()()()m j d j a W j j a W j m ,1;2,;311++= ⎪
⎪⎭

⎝⎛-=-=3,,1,1,,3,2 n n m m j
然后求出最小值,并确定相应的最优三段分割点,为
()()[]()[]{}j j a W m a m a W m m j m ,;3min ,;311
221-≤≤=
()()()()()()3,3;;1,1;,212121a a n a n a n a n a -- 从而得到n 个样品()n m =的最优三段分割为()
{}n a x x x 1,,,21 ()(){}
n a n a x x
21,,1
+
(){}
n n a x x
,,1
2 +,其中()n a 1,()n a 2为最优三段分割点。

3)最优K 段分割 根据矩阵D 及最优1-K 段分割计算结果,对于每一个
K n n m ,,1, -=分别计算相应的K 段分割的组内离差平方和,为
()()[]()()()[]()
n j d j a j a j a K W j a j a j a K W K j K m ,1,,,;1,,,,;221221++-=-- ()K n n m m K K j ,,1,;1,,,1 -=--= 找出最小值,并确定相应的最优K 段分割点,即 ()()()[]()()()[]{}j j a j a j a K W m a m a m a K W K m m j K K m ,,,,;min
,,,;2211
1121--≤≤--=
从而得到n 个样品()n m =的最优K 段分割为()
{}n a x x 1,,1 ()(){}
n a n a x x
21,,1
+……
()()
()(){}n K a n K a x x
1221,,-- ()(){}
n n K a x x ,,111 +-,其中,()()()n K n n a a a 121,,,- 为最优K 段分割
点。

4. 绘制K W -曲线
在K W -曲线上,选择曲线拐点对应的K 值(取整)作为最终分段数。

例7·1 某煤矿所采煤层的煤质牌号为主焦煤,在煤巷中见一火成岩墙侵入煤层,致使煤质发生变化,为弄清楚煤质变化情况,从火成岩附近每隔5.0m 依次取一煤样,获得6个有序煤样的镜煤最大反射率数据为
(){},,,,,,%6543210x x x x x x R =
{}45.1,50.1,80.1,35.2,95.2,20.3= 试进行最优分割。

此样本最可能分割法共有31125
=-种,今要在这31种分割中找出一种最优的分割(类内差别小,类间差别大)。

其作法如下:
(1) 对原始数据进行正规化变换后得正规化数据,为
{
}0,0286.0,2000.0,5143.0,8571.0,0000.1=Z (2) 计算段直径矩阵D ,即
()()()()()()()()()()()()()
()()()()()()()()⎪⎪⎪⎪⎪⎪
⎪⎪⎭⎫

⎛=6,66,55,56,45,44,46,35,34,33,36,25,24,23,22,26,15,14,13,12,11,1d d d d d d d d d d d d d d d d d d d d d D ⎪⎪⎪⎪⎪⎪
⎪⎪⎭


⎛=00004.00
0234.00147.001673.01214.00494
.005280.04000.02161.00588.009133.06880.03861.01246.00102.00
(3) 最优二段分割。

由D 对于2,3,4,5,6=m 时,计算 ()()()n j d j d j W m ,1,1;2++= ()1,,2,1-=m j 当6=m 时,则
()()()3865.06,54,14;26=+=d d W ()()()1480.06,43,13;26=+=d d W ()()()1776.06,32,12;26=+=d d W ()()()5280.06,21,11;26=+=d d W 其中 ()[](){}()1480.03;2;2min 6;2665
116===≤≤W j W a W j
()361=a 当5=m 时,则
()()()3861.05,54,14;25=+=d d W ()()()1393.05,43,13;25=+=d d W ()()()1316.05,32,12;25=+=d d W ()()()4000.05,21,11;25=+=d d W 其中 ()[](){}()1316.02;2;2min 5;2554
115===≤≤W j W a W j
()251=a 当4=m 时,则
()()()1246.04,43,13;24=+=d d W ()()()0596.04,32,12;24=+=d d W ()()()2161.04,21,11;24=+=d d W 其中 ()[](){}()0596.02;2;2min 4;2443
114===≤≤W j W a W j
()241=a 当3=m 时,则
()()()0102.03,32,12;23=+=d d W ()()()0588.03,21,11;23=+=d d W 其中 ()[](){}()0102.02;2;2min 3;2332
113===≤≤W j W a W j
()231=a 当2=m 时,则
()[]()()()02,21,11;22,2212=+==d d W a W ()111=a
从而得到6个样品的最优二段分割为{}321,,x x x {}654,,x x x 。

其中,3x 为分割点。

(4) 最优三段分割。

即对于3,4,5,6=m 时,计算 ()[]()[]()n j d j a W j j a W j m ,1;2,;311++= ()1,,2,1-=m j
当6=m 时,则
()[]()[]()1316.06,65;25,5;31516=+=d a W a W ()[]()[]()0600.06,54;24,4;31516=+=d a W a W ()[]()[]()0336.06,43;23,3;31516=+=d a W a W ()[]()[]()1673.06,32;22,2;31516=+=d a W a W
其中 ()()[]()[]{}()[]0366.03,3,3,;3min 6,6;316165
2216===≤≤a W j j a W a a W j
分割点为: ()();23611==a a ()362=a 。

当5=m 时,则
()[]()[]()0596.05,54;24,4;31415=+=d a W a W ()[]()[]()0249.05,43;23,3;31315=+=d a W a W ()[]()[]()1214.05,32;24,4;31215=+=d a W a W
其中 ()()[]()[]{}()[]0249.03,3,3,;3min 5,5;315154
2215===≤≤a W j j a W a a W j
其分割点为:()();23511==a a ()352=a 。

当4=m 时,则
()[]()[]()0102.04,43;23,3;31314=+=d a W a W ()[]()[]()0494.04,32;22,2;31214=+=d a W a W
其中 ()()[]()[]{}()[]0102.03,3,3,;3min 4,4;314143
2214===≤≤a W j j a W a a W j
其分割点为:()();12311==a a ()342=a 。

从而得到6个样品的最优三段分割为:{}21,x x {}3x {}654,,x x x 。

(5) 最优四段分割。

即对于4,5,6=m 时,计算
()()[]()()[]()m j d j a j a W j j a j a W j m ,1,;3,,;42121++= ()1,,4,3-=m j 当6=m 时,则
()()[]()()[]()0249.06,65,5;35,5,5;4215216=+=d a a W a a W ()()[]()()[]()0106.06,54,4;34,4,4;4214216=+=d a a W a a W ()()[]()()[]()0234.06,43,3;33,3,3;4213216=+=d a a W a a W 其中
()()()[]()()[]{}()()[]0106.04,4,4;4,,;4min 6,6,6;42162165
33216===≤≤a a W j j a j a W a a a W j
其分割点为:()();24611==a a ()();34622==a a ()453=a 。

当5=m 时,则
()()[]()()[]()0102.05,54,4;34,4,4;4214215=+=d a a W a a W ()()[]()()[]()0147.05,43,3;33,3,3;4214215=+=d a a W a a W 其中 ()()()[]()()[]m in 0102.04,4,4;45,5,5;42153215===a a W a a a W 则分割点为:()();24511==a a ()();34522==a a ()453=a 。

当4=m 时,则
()()[]()()[]()04,43,3;33,3,3;4213214=+=d a a W a a W 即 ()()()[]()()[]03,3,3;44,4,4;42143214==a a W a a a W 则分割点为:()();13411==a a ()();23412==a a ()343=a 。

故得最优四段分割为:{}21,x x {}3x {}4x {}65,x x 。

(6) 最优五段分割。

即对于5,6=m 时,计算
()()()[]()()()[]()m j d j a j a j a W j j a j a j a W j m ,1,,;4,,,;5321321++=
()5,4=j
当6=m 时,则
()()()[]()()()[]()0102.06,65,5,5;45,5,5,5;532153216=+=d a a a W a a a W ()()()[]()()()[]()0004.06,54,4,4;44,4,4,4;532143216=+=d a a a W a a a W 其中 ()()()()[]()()()[]m in 0004.04,4,4,4;56,6,6,6;5321643216===a a a W a a a a W 故其分割点为:()();14611==a a ()();24622==a a ()();34633==a a ()464=a 。

从而得到6个样品的五段最优分割为:{}1x {}2x {}3x {}4x {}65,x x 。

当5=m 时,则
()()()[]()()()[]()05,54,4,4;44,4,4,4;532143215=+=d a a a W a a a W 其中 ()()()()[]()()()[]04,4,4,4;55,5,5,5;5321543215==a a a W a a a a W 则其分割点为:()();14511==a a ()();24522==a a ()();34533==a a ()454=a 。

由组内离差平方和()W 与分段段数()K 的关系图(图7-2)中看出,三段最优分割时最
终分段结果。

最优分割法可以用来对地质量进行分段(或分类)。

尤其在地层划分、水系中化学成分与水系沉积物化学分带、变质岩相带、蚀变带、矿化带等划分中用的最多。

有时对一组没有明显顺序的变量也给予一定的排列顺序进行最优分割。

例如把各种煤的镜煤最大平均反射率()
R排序进行最优分割,研究烟煤变质阶段的合理划分等。

相关文档
最新文档