实用多元统计分析——ynh

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国地质大学研究生课程论文封面

课程名称实用多元统计分析

教师姓名

研究生姓名

研究生学号

研究生专业石油与天然气工程

所在院系资源学院

类别硕士

日期2013 年12月19日

一.聚类分析

聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。随着现代科学的发展,尤其是计算机的普及,利用数学方法研究分类问题不仅非常必要,也成为可能。因此,聚类分析作为多元分析的一个重要的分支,发展十分迅速。下面简单的介绍一下聚类分析在油藏分类方面的应用。

1.数据来源

根据导师油田项目中油层孔隙结构数据,整理一份excel表格。具体数据如下表1所示

表1:不同层位储层性质

2.聚类分析方法

按照聚类过程以及所使用的算法,可以将聚类分析分为快速聚类和系统聚类法(分层聚类)。快速聚类主要是大规模的样品进行有效的聚类。分层聚类既可以对样品进行聚类,又可以对指标进行聚类。本次作业分别利用两种方法来对表1所示的数据(变量)进行聚类。

3.1快速聚类法

基本思想:在待聚类的样品比较多时,先给出一个大致的初始分类,然后用某种原理进行修改,直到分类结果比较合理为止。

3.1.1快速聚类结果

表2:初始类中心表3:聚类结果表

表4:迭代过程中凝聚点(聚类中心)变化值结果表表5:最终凝聚点(聚类中心)表6:最终聚类中心距离表8:各类所含的样品数

表7:各聚类变量的方差分析结果

3.1.2快速聚类方法过程及分析

由输出结果可以得到以下结论:

1.确定凝聚点:因为凝聚点的选择采用了系统默认的方式,所以系统将枣74、张海2-2和王26-1三口井作为这三类的凝聚点,结果如表2所示;

2.计算聚类结束标准:按照欧式距离法,

()()()()()()()()

71

.37634.809.6542.1953.1401.022.04.1655.3927.179.627.016.66.1557.994.026.12

222

222212=-+-+-+-+-+-+-+-=

d 类似可得第二类和第三类之间的距离。则挑选一个较小距离,然后乘以0.01则得收敛标准(具体计算过程略)。

3.如表3所示,对样本的聚类结果将4.、8、9分为一类;将2、5、7分为一类;将1、3、6分为一类;

4.如表4所示,每次聚类都要计算凝聚点的变化,这组数据凝聚点变化值为:57.34、115.643、192.044;最终凝聚点则如表5所示。

5.表6为最终聚类中心距离,第一类与第二类的中心距离为203.905;第一类与第三类的中心距离为777.425;第二类与第三类的中心距离为981.273;

6.表8所示为每类样品所包含的样品数。

3.2系统聚类法(分层聚类法)

基本思想:先将待聚类的n类样品(或变量)各自看成一类,共n类,然后按选定的方法计算每两类之间的聚类统计量,将关系最密切的两类聚为一类,即有n-1类,在按前面的方法计算新类与其它类之间距离(或相似系数),在将关系密切的两类聚为一类,有n-2类,如此继续,每次重复都减少一类,直到所有样品(或变量)聚为一类

3.2.1聚类结果

表9:参与聚类分析的样品概述

表10:样品间的距离矩阵

表11:聚类步骤表

表12:聚类结果表

3.2.3系统聚类方法过程及分析

由输出结果得到以下结论:

1.从表9聚类分析样品的概述中可以看出,参与聚类分析的有效样品的变量数为9个,占所有样品100%;参与聚类分析的有效样品的变量所含有缺失值的样品数为0个,占所有样品的0%;参与聚类分析的总样品的变量数为9个;

2.表10变量间的距离矩阵,在聚类过程中最初将这9个变量各自看成一类,SPSS首先根据所设定的方法(马氏距离)计算各个变量之间的距离,得到此距离矩阵,然后从此矩阵中找到最小值0.897,可以看出这个值为汞孔隙度和孔隙度之间的距离,所以首先将这两类和为一类,然后在根据最小距离法,计算新类与其它未合并类之间的距离,如此继续,每次重复都减少一类,直到最后所有的变量都归为一类;

3.表11为聚类步骤表,第一列为聚类的步骤顺序,第二和第三列为每次合并的类的编号,第四列为被合并的类间距离,第五和第六列为参与合并的类上次被合并的步骤序号,第七列为合并的类下次又被合并的序号。可以得出:(1)变量2和7在0.897的水平上合并为一类(设此类为9),它们合并的新类9在第四步时又被重新合并;

(2)变量4和8在1.622的水平基础上合并为一类(设此类为10),它们合并的新类也在第四步时又被重新合并,即它们和变量2和7合并的新类9再次合并;

(3)变量3和6在2.926的水平上合并为一类(设此类为11),它们的新类11在第七步时被再次合并;

(4)步骤(1)和(2)中合并的两个新类9和10在3.265的水平上又被合并成一个新类(设此类为12);这个新类在第六步时又被再次合并;

(5)变量1和5在3.475的水平上合并为一类(设此类为13),这个新类在第六步时被合并,即和步骤(1)和(2)中合并的新类12再次合并;

(6)新类12和新类13在3.658的水平上合并为新类14,它在第七步时被再次合并;

(7)新类11和新类14在3.833的水平上被最终合并。

4.表12为聚类结果,词表分别显示了聚为三类、四类和五类时的不同情况。

图1:聚类树形图

二.回归分析

回归分析是统计学的一个重要分支,它基于观测数据建立变量之间的某种依赖关系,分析数据的内在规律,并可用于预报、控制等方面。下面用《实用多元统计分析》课本中第68页第5题对回归分析在国家财政收入因素分析的应用上作一下介绍。

1.数据来源

《实用多元统计分析》中第68页第5题:研究国家财政收入时,财政收入y为

:农业增加值(亿元);x2:工业增加值(亿元);因变量,考虑以下几个自变量,x

1

x

:建筑业增加值(亿元);x4:人口数(万人);x5:社会消费总额(亿元);x6:3

受灾面积(万公顷)。据《中国统计年鉴》获得1978—1998年共21个年份的统计数据,整理出一份excel表格,见表13,试用不同的方法来建立回归模型:

表13:财政收入影响因素数据表

相关文档
最新文档