实用多元统计分析研究生课程报告

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

中国地质大学研究生课程论文封面

课程名称多元统计分析

教师姓名

研究生姓名

研究生学号

研究生专业

所在院系

类别: 专业硕士

日期: 2014年12月29 日

评语

注:1、无评阅人签名成绩无效;

2、必须用钢笔或圆珠笔批阅,用铅笔阅卷无效;

3、如有平时成绩,必须在上面评分表中标出,并计算入总成绩。

水样分类之系统聚类法和判别分析

摘 要:地质工作者在野外工作分为很多内容,其中,研究一个地方的水环境情况如何,

则会在当地分散着取很多水样,对水样进行研究,然后得出当地整体水环境如何。而我们取的水样会有很多,主要是测定水样里的阴阳离子含量、pH 值和TDS (矿化度),其中也会有很多水样的成分与质量都差不多,这时,我们就要将水样进行分类,减少水样的个数,方便研究。本文主要采用系统聚类法对水样进行聚类,结果表明,系统聚类法对于水样分类这一问题有重要贡献。

关键词:水样分类 系统聚类法 判别分析法

一、 研究背景

1、阴阳离子含量

天然水是成分极其复杂的溶液。天然水中一般含有可溶性物质和悬浮物质(包括悬浮物、颗粒物、水生生物等)。可溶性物质的成分十分复杂,主要在岩石风化过程中,经水溶液迁移的地壳矿物物质。

天然水中主要离子组成:K+、Na+、Ca2+、Mg2+、HCO3-、Cl-、SO42-,占天然水中离子总量的95%~99%。水中这些主要的离子的分类,常用来作为表征水体主要的化学特征性指标。

2、pH 值

pH 值,亦称氢离子浓度指数、酸碱值,是溶液中氢离子活度的一种标度,也就是通常意义上溶液酸碱程度的衡量标准。有很多方法来计算pH 值:使用pH 试纸,其有广泛试纸和精密试纸,用玻棒沾一点待测溶液到试纸上,然后根据试纸颜色的变化并对照比色卡可以得到溶液的pH 值,但试纸不能够显示出油分的pH 值,由于pH 试纸以氢离子制成和以氢离子来量度待测溶液的pH 值,但油中没有含有氢离子,因此pH 试纸不能够显示出油分的pH 值;使用pH 计,pH 计是一种测量溶液pH 值的仪器,它通过pH 值选择电极(如玻璃电极)来测量出溶液的pH 值,可以精确到小数点后三位。

pH 值计算式为:

()

++=-=H

H pH 1log log 10

10 式中,()+

H 指的是溶液中氢离子的物质的量的浓度,单位为mol/L ,在稀溶液中,氢

离子活度约等于氢离子的浓度,也可以用氢离子浓度来进行近似计算。

人体血液的pH 值通常在7.35~7.45之间,地下水的pH 值通常在6~8.5之间。

3、TDS 矿化度

又称溶解性总固体,指水中溶解组分的总量,包括溶解于地下水中各种离子、分子、化

合物的总量,但不包括悬浮物和溶解气体。矿化度的单位以g/L表示。一般测定方法是将1L水加热到105~110℃,使水全部蒸发,剩下残渣质量即为地下水矿化度。

水中的TDS来源于自然界、下水道、城市和农业污水污水以及工业废水。为了防止结冰在路面上铺撒的盐类也可增加水中TDS的量。自然来源的TDS受不同地区矿石含盐量的影响差异十分巨大,可从300mg/L到多则6000mg/L[1]。

二、数据来源

由于我和导师的项目目前还处于未公开阶段,其中的水样数据我不能擅自公开,则一下数据我是摘自《水文地质学基础》的其中一个表格,内容对我采用系统分析法没有干扰,与我在实际项目中应用没有多大区别,在此向老师解释下。

水样的数据如下表所示:

表1 水样数据

现需将以上样本进行分类,确定各个样本的共同特征,进而由此样本估计出各地区的水样特征。为了将以上数据样品进行合理的分类,下面将采用系统聚类分析方法进行分类,并采用判别分析进行回判。

三、分析过程

1、问题分析

该问题利用SPSS系统聚类的Q型聚类方法,对10个地区的水样的调查数据进行分析。其中个案距离采用平方欧氏距离,由于不同变量间存在较大的数量级的差别,因此对数据变量采取Z得分值标准化的方法进行标准化,在输出结果设置中,选择显示冰挂图和树形图,并在数据文件中新建分类变量。

2、操作步骤

Step 1 读入数据文件;

Step 2 主对话框进行选择;

Step 3 “Statistics”对话框的选择;

Step 4 “Plots”对话框的选择;

Step 5 “Method”对话框的选择;

Step 6 “Save”对话框的选择;

Step 7 执行聚类分析。

3、聚类结果分析

(1)距离矩阵

下表列出的是10个个案的距离矩阵,这些矩阵的数值是系统聚类分析的基础。从距离矩阵中可以看出,第4个个案和第8个个案的距离最小,系统聚类分析时,4和8最先分在一类,也就是4号地区和8号地区的水样首先分为一类。当然,仅有距离矩阵是不能完全确定系统聚类的结果的,还必须知道个案和类之间的距离。

表2 距离矩阵(Proximity Matrix)

Squared Euclidean Distance

下表显示的是系统聚类分析的类成员聚类表,从表中可以知道,类数从2到5时个案所属的类别。例如类数为4时,根据图表可知,10号水样单独一类,1号、6号在一类,2号、3号在一类,4号、5号、7号、8号、9号在一类。

表3 系统聚类分析的类成员聚类表

(2)凝聚状态表

下表是系统聚类的凝聚状态表。表中,第一列表示聚类分析的第几步;第二、三列表示本步骤类中哪两个个案或者小类聚成一类;第四列是个案距离或小类距离;第五、第六列表示本步骤类中参与聚类的是个案还是小类,0表示个案,非0表示有第几步骤类生成的小类参与本步骤类;第七列标识本步聚类的结果将在以下第几步中用到。

此表显示了10个地区水样的聚类情况。在聚类分析的第一步中,个案序号为4和8的聚成一小类,它们之间的距离(平方欧氏距离)是0.289,这个小类将在下面第6步用到,同理,聚类分析的第6步,序号为5的个案再与第一步聚成的小类合并,又聚成一个小类,它们的距离(平均组间链锁距离)是6.586,形成的小类将在下面第7步用到。经过9个聚类过程,10个个案最后聚成了一个大类。

相关文档
最新文档