多元统计分析课程报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
利用系统聚类分析为沉降史模拟结果分析
选取合适地震测点
-----以礼乐盆地05cpvc360测线为例
摘要:在对含油气盆地进行地震勘探时,得到的地震测线数据极为庞大。我们在研究南海礼乐盆地构造演化过程时,已经选取了十条测线进行沉降史模拟,而每条测线中均包含了数十个测点。然而,当我们根据模拟结果定量和动态描述盆地的拉伸沉降过程、对礼乐盆地的构造沉降和总沉降变化趋势进行了定量分析时,需要从这些数量众多的测点中选择其中极少的几个进行具体分析。因此,本文以礼乐盆地05cpvc360测线所包含的29个测点为例,借助最短距离、最长距离和重心法三种系统聚类方法,选取其中具有代表性的部分测点,同时保证得到的沉降史信息仍然足够大。
一、聚类分析概述
(一)聚类分析的原理及基本思想
聚类分析(cluster analysis)就是根据空间点群的“亲疏”关系进行分类的一种方法。为此要给出表示空间点与点之间“亲疏”关系的相似性度量,然后讨论根据相似性度量进行点群簇分的方法和应用。
聚类分析目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而使根据数据的特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于不相似。聚类分析根据对象不同可分为Q型聚类分析(对样本进行聚类)和R型聚类分析(对变量进行聚类)。
本文的目的在于减少样品数量(数据点),所以采用Q型聚类。在进行聚类分析时,可以用“距离”来度量各数据点的接近程度。两个数据点之间距离越小,表示两者之间共同点越多;距离越大,共同点越少。最终,本文确定采用系统聚类来解决问题。
(二)数据点层位界面的选择
一条测线上的数据点对应着盆地不同地质时期的界面深度。本文选取的测线05cpvc360在沉降史模拟过程中保留下29个数据点(样本),每个数据点对应八个层序界面的深度(变量)。我们借助这些各不同界面的深度值作为度量数据点之间相似程度的依据。
二、实证分析
(一)样本选择,数据来源及预处理
选取礼乐盆地05cpvc360地震测线(数据来自中海石油(中国)有限公司湛江分公司《礼乐盆地层序地层学分析及有利储层展布研究》项目)作为实例,选取的层序界面如下:
x1:T100 x2:T90 x3:T81 x4:T80
x5:T70 x6:T60 x7:T50 x8:T0
用X ij表示第i个数据点在层序界面j的数据,即可得X=(x ij)的原始数据矩阵,见表1
表1 层序界面深度表(单位:km)
续表1 层序界面深度表(单位km)
(二)利用SPSS进行聚类分析
用SPSS执行聚类分析过程,分别采用最短距离法、最长距离法和重心法,得到的谱系图结果如下:
a.最短距离法
案例处理汇总a,b
案例
有效缺失总计
N 百分比N 百分比N 百分比
29 100.0 0 .0 29 100.0
a. 平方Euclidean 距离已使用
b. 单个联结(最短距离)
b.最长距离法
案例处理汇总a,b
案例
有效缺失总计
N 百分比N 百分比N 百分比
29 100.0 0 .0 29 100.0
a. 平方Euclidean 距离已使用
b. 完整联结(最长距离)
c.重心法
案例处理汇总a,b
案例
有效缺失总计
N 百分比N 百分比N 百分比
29 100.0 0 .0 29 100.0
a. 平方Euclidean 距离已使用
b. 质心联结
群集成员表如下所示:
最短距离法最长距离法重心法
案例 4 群集 3 群集 2 群集
1 1 1 1
2 1 1 1
3 1 1 1
4 1 1 1
5 1 1 1
6 1 1 1
7 1 1 1
8 1 1 1
9 1 1 1
10 2 2 1
11 1 1 1
12 1 1 1
13 1 1 1
14 1 1 1
15 1 1 1
16 1 1 1
17 1 1 1
18 1 1 1
19 3 1 1
20 4 3 2
21 1 1 1
22 1 1 1
23 1 1 1
24 1 1 1
25 1 1 1
26 1 1 1
27 1 1 1
28 1 1 1
29 1 1 1 案例 4 群集 3 群集 2 群集
1 1 1 1
2 1 1 1
3 1 1 1
4 1 1 1
5 1 1 1
6 2 2 1
7 2 2 1
8 2 2 1
9 1 1 1
10 2 2 1
11 1 1 1
12 1 1 1
13 3 3 2
14 3 3 2
15 3 3 2
16 3 3 2
17 1 1 1
18 3 3 2
19 3 3 2
20 4 3 2
21 2 2 1
22 2 2 1
23 3 3 2
24 1 1 1
25 1 1 1
26 1 1 1
27 1 1 1
28 1 1 1
29 1 1 1
案例 4 群集 3 群集 2 群集
1 1 1 1
2 1 1 1
3 2 2 2
4 2 2 2
5 2 2 2
6 2 2 2
7 2 2 2
8 2 2 2
9 2 2 2
10 2 2 2
11 2 2 2
12 1 1 1
13 1 1 1
14 3 1 1
15 3 1 1
16 1 1 1
17 1 1 1
18 3 1 1
19 3 1 1
20 4 3 1
21 2 2 2
22 2 2 2
23 3 1 1
24 1 1 1
25 1 1 1
26 2 2 2
27 2 2 2
28 1 1 1
29 1 1 1
(三)综合评价
当最终保留4个测点时,由最短距离法可知选择测点10、19、20和其他中任选一个。但考虑到测点19和测点20在测线上距离太近,以及任选点也应尽量分散的实际要求,结合另外两种分析结果,最后确定保留测点6、10、14和20。
当最终保留三个测点样品时,三种系统分析法提供了一种共同的选择,即选择10、20和另外一点(如25)。
实际模拟井点(选取的地震测点)位置如下图红色测线上的绿色圆点所示。由图可知,保留的四个测点位置分布基本均匀,其中6号测点位于南部凹陷,10号测点位于中部隆起,20号虽然和14号都位于北一凹陷,但前者已经处于边缘