实用多元统计分析研究生课程报告
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中国地质大学研究生课程论文封面
课程名称多元统计分析
教师姓名
研究生姓名
研究生学号
研究生专业
所在院系
类别: 专业硕士
日期: 2014年12月29 日
评语
注:1、无评阅人签名成绩无效;
2、必须用钢笔或圆珠笔批阅,用铅笔阅卷无效;
3、如有平时成绩,必须在上面评分表中标出,并计算入总成绩。
水样分类之系统聚类法和判别分析
摘 要:地质工作者在野外工作分为很多内容,其中,研究一个地方的水环境情况如何,
则会在当地分散着取很多水样,对水样进行研究,然后得出当地整体水环境如何。而我们取的水样会有很多,主要是测定水样里的阴阳离子含量、pH 值和TDS (矿化度),其中也会有很多水样的成分与质量都差不多,这时,我们就要将水样进行分类,减少水样的个数,方便研究。本文主要采用系统聚类法对水样进行聚类,结果表明,系统聚类法对于水样分类这一问题有重要贡献。
关键词:水样分类 系统聚类法 判别分析法
一、 研究背景
1、阴阳离子含量
天然水是成分极其复杂的溶液。天然水中一般含有可溶性物质和悬浮物质(包括悬浮物、颗粒物、水生生物等)。可溶性物质的成分十分复杂,主要在岩石风化过程中,经水溶液迁移的地壳矿物物质。
天然水中主要离子组成:K+、Na+、Ca2+、Mg2+、HCO3-、Cl-、SO42-,占天然水中离子总量的95%~99%。水中这些主要的离子的分类,常用来作为表征水体主要的化学特征性指标。
2、pH 值
pH 值,亦称氢离子浓度指数、酸碱值,是溶液中氢离子活度的一种标度,也就是通常意义上溶液酸碱程度的衡量标准。有很多方法来计算pH 值:使用pH 试纸,其有广泛试纸和精密试纸,用玻棒沾一点待测溶液到试纸上,然后根据试纸颜色的变化并对照比色卡可以得到溶液的pH 值,但试纸不能够显示出油分的pH 值,由于pH 试纸以氢离子制成和以氢离子来量度待测溶液的pH 值,但油中没有含有氢离子,因此pH 试纸不能够显示出油分的pH 值;使用pH 计,pH 计是一种测量溶液pH 值的仪器,它通过pH 值选择电极(如玻璃电极)来测量出溶液的pH 值,可以精确到小数点后三位。
pH 值计算式为:
()
++=-=H
H pH 1log log 10
10 式中,()+
H 指的是溶液中氢离子的物质的量的浓度,单位为mol/L ,在稀溶液中,氢
离子活度约等于氢离子的浓度,也可以用氢离子浓度来进行近似计算。
人体血液的pH 值通常在7.35~7.45之间,地下水的pH 值通常在6~8.5之间。
3、TDS 矿化度
又称溶解性总固体,指水中溶解组分的总量,包括溶解于地下水中各种离子、分子、化
合物的总量,但不包括悬浮物和溶解气体。矿化度的单位以g/L表示。一般测定方法是将1L水加热到105~110℃,使水全部蒸发,剩下残渣质量即为地下水矿化度。
水中的TDS来源于自然界、下水道、城市和农业污水污水以及工业废水。为了防止结冰在路面上铺撒的盐类也可增加水中TDS的量。自然来源的TDS受不同地区矿石含盐量的影响差异十分巨大,可从300mg/L到多则6000mg/L[1]。
二、数据来源
由于我和导师的项目目前还处于未公开阶段,其中的水样数据我不能擅自公开,则一下数据我是摘自《水文地质学基础》的其中一个表格,内容对我采用系统分析法没有干扰,与我在实际项目中应用没有多大区别,在此向老师解释下。
水样的数据如下表所示:
表1 水样数据
现需将以上样本进行分类,确定各个样本的共同特征,进而由此样本估计出各地区的水样特征。为了将以上数据样品进行合理的分类,下面将采用系统聚类分析方法进行分类,并采用判别分析进行回判。
三、分析过程
1、问题分析
该问题利用SPSS系统聚类的Q型聚类方法,对10个地区的水样的调查数据进行分析。其中个案距离采用平方欧氏距离,由于不同变量间存在较大的数量级的差别,因此对数据变量采取Z得分值标准化的方法进行标准化,在输出结果设置中,选择显示冰挂图和树形图,并在数据文件中新建分类变量。
2、操作步骤
Step 1 读入数据文件;
Step 2 主对话框进行选择;
Step 3 “Statistics”对话框的选择;
Step 4 “Plots”对话框的选择;
Step 5 “Method”对话框的选择;
Step 6 “Save”对话框的选择;
Step 7 执行聚类分析。
3、聚类结果分析
(1)距离矩阵
下表列出的是10个个案的距离矩阵,这些矩阵的数值是系统聚类分析的基础。从距离矩阵中可以看出,第4个个案和第8个个案的距离最小,系统聚类分析时,4和8最先分在一类,也就是4号地区和8号地区的水样首先分为一类。当然,仅有距离矩阵是不能完全确定系统聚类的结果的,还必须知道个案和类之间的距离。
表2 距离矩阵(Proximity Matrix)
Squared Euclidean Distance
下表显示的是系统聚类分析的类成员聚类表,从表中可以知道,类数从2到5时个案所属的类别。例如类数为4时,根据图表可知,10号水样单独一类,1号、6号在一类,2号、3号在一类,4号、5号、7号、8号、9号在一类。
表3 系统聚类分析的类成员聚类表
(2)凝聚状态表
下表是系统聚类的凝聚状态表。表中,第一列表示聚类分析的第几步;第二、三列表示本步骤类中哪两个个案或者小类聚成一类;第四列是个案距离或小类距离;第五、第六列表示本步骤类中参与聚类的是个案还是小类,0表示个案,非0表示有第几步骤类生成的小类参与本步骤类;第七列标识本步聚类的结果将在以下第几步中用到。
此表显示了10个地区水样的聚类情况。在聚类分析的第一步中,个案序号为4和8的聚成一小类,它们之间的距离(平方欧氏距离)是0.289,这个小类将在下面第6步用到,同理,聚类分析的第6步,序号为5的个案再与第一步聚成的小类合并,又聚成一个小类,它们的距离(平均组间链锁距离)是6.586,形成的小类将在下面第7步用到。经过9个聚类过程,10个个案最后聚成了一个大类。