基于SPSS的主成分分析在水环境质量评价中的应用_李哲强

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

表 1 总方差解释
初始特征根 方 差 贡 献 率/%
43.382 14.514 9.741 8.203 6.887 6.405 3.820
3.016 1.561 1.216 1.030 0.224
方 差 累 计 贡 献 率/% 43.382 57.896 67.637 75.840 82.728 89.133 92.953 95.969 97.531 98.746 99.776 100.000
特征根 5.206 1.742 1.169 0.984 0.826 0.769
提取初始特征根
方 差 贡 献 率/%
方 差 累 计 贡 献 率/%
43.382
43.382
14.514
57.896
9.741
67.637
8.203
75.840
6.887
82.728
6.405
89.133
包含原有所有信息的 89.1%, 超过 85%, 特征值大于 0.7, 涵盖了分析数据的大部分信息, 所 以 确 定 主 成
收稿日期: 2008- 01- 30 作者简介: 李 哲 强 ( 1976- ) , 男 , 助 理 工 程 师 , 主 要 从 事 水 环 境 和 水 文
水资源方面的研究工作。
主要步骤为: ①指标的正向化。②指标数据标准化。 ③ 指 标 之 间 的 相 关 性 判 定 : 用 SPSS 软 件 中 表 “Correlation Matrix(相关系数矩阵) ”判定。④确定主 成 分 个 数 m : 用 SPSS 软 件 中 表 “Total Variance Explained (总方差解释) ”的主成分方差累计贡献 率≥85%、结合表“Component Matrix( 初始因子荷载 矩阵) ”中变量不出现丢失确定主成分个数 m。⑤主 成 分 Fi 表 达 式 : 将 SPSS 软 件 中 表 “Component Matrix”中的第 i 列向量除以第 i 个特征根的开根后 就 得 到 第 i 个 主 成 分 Fi 的 变 量 系 数 向 量 ( 在 “transform →compute”中进行计算) , 由此写出主成 分 Fi 表 达 式 。 用 Fm = A′m X 的 A′mAm = Im 检 验 。 ⑥ 主 成 分 Fi 命 名 : 用 SPSS 软 件 中 表 “Component Matrix”中的第 i 列中系数绝对值大的 对应变量对 Fi 命名。⑦主成分与综合主成分(评价)
息的绝大部分。
成分的得分, 各主成分得分与各主成分的方差贡献
3.2.2 主成分综合得分的计算
率相乘再求和, 即可得到各站点各测次的主成分的
主成分表达式系数用初始因子荷载矩阵第 i 列 综合得分。
向量除以 λi 开平方 就 得 到 第 i 个 主 成 分 的 系 数 向 3.3 主成分水质状况时空变化分析
类标准, 将水质分为 5 类, Ⅰ ̄Ⅳ类标准均有一个固 定的评价值, 超过Ⅳ标准的评价值即为Ⅴ。要想根据 PCA 分析结果进行水质分类, 各站点 PCA 分析结果 必须有相应的参照标准, 由于Ⅳ类和Ⅴ类均为同一 个评价值, 所以选取Ⅰ ̄Ⅳ类标准和各监测站点进行 前期处理过的数据组成同一数据序列, 统一进行标 准化, 然后进行 PCA 分析, 根据Ⅰ ̄Ⅳ类标准 PCA

# 率) ”中。Var F 综= ( !i3) /P2 。⑧检验:综合主成分 i=1
(评价) 值用实际结果、经验与原始数据做分析进行 检验。 3 主成分分析应用实例 3.1 资料选取
根据张家口水环境监测中心的监测资料, 分析 选取 1995—2003 年张家口地下水石匠夭、沈家屯等
·50·
李哲强, 侯美英, 白云鹏: 基于 SPSS 的主成分分析在水环境质量评价中的应用
主成分分析方法是一种将多个指标化为少数几 个 不 相 关 的 综 合 指 标 的 方 法 。 SPSS ( Statistical Package for the Social Science) 软件的基本功能包括 数据管理、统计分析、图表分析、输出管理等。主成分 分析是该软件中主要功能之一。
主成分的整个分析过程在 SPSS 软件中实现的

# 值: 综合主成分 ( 评价) 公式 F 综= ( !i /P) Fi ( 在 i=1
“transform→compute”中 进 行 计 算 ) , λi/p 在 SPSS 软 件 中 表 “Total Variance Explaine” 下 “Initial Eigrnvalues(主成分方差) ”栏的“% of Variance (方差
价, 根据全区 34 个站点的综合得分进行了排序, 选 山间盆地 6 个主要分区。
取了平水年份进行现状分析, 结果表明地下水水质
将 34 个水质监测站按照 6 个评价分区归类, 用
是随时间和空间在不断变化的。为了进一步说明区 各评价分区站点每年主成分综合得分的均值作为该
域内水质时空变化规律, 分别按照水资源评价分区、 分区的得分。具体结果见表 2, 根据表中数据制作各
1 引言 水质环境质量评价的主要内容是根据水体的用
途及水的物理、化学及生物的性质, 按照一定的水质 标准和评价方法, 将参数数据转化为水质状况信息, 获得水环境现状及其水质分布状况, 对水域的水质 或水体质量进行定性或定量的评定。为了对水环境 质量作出综合性评价, 目前已提出了几十种水环境 质量评价方法。由于影响水环境质量的因素较多, 而 水质系统是由多维因子组成的复杂系统, 每一因子 从某一方面反映了水体质量状况, 各因子对环境污 染又有着不同的贡献率, 并且因子间具有不同程度 的相关性, 依据它们作综合评价有一定难度。所以, 做好水环境质量评价工作, 选取一种有效而又实用 的 方 法 是 非 常 重 要 的 。 主 成 分 分 析 方 法 (Principal Components Analysis, 以下简称 PCA 法)正是一种将 多维因子纳入同一系统进行定性、定量化研究, 理论 比较完善的多元统计分析方法。该方法应用于水环 境质量评价中, 对客观、准确、全面地评价水环境质 量有很好的实用性。 2 基于 SPSS 的主成分分析
站点数 4 3 5 6 8 8
1995 1.79 0.76 0.75 0.95 1.22 2.12
表 2 各评价分区主成分综合得分
1996 2.38 0.98 0.8 0.83 1.31 2.13
1997 2.29 0.76 0.88 0.8 1.32 2.05
1998 3.38 1.21 0.85 1.09 1.33 2.36
2008 年 6 月
34 个水质监测站的监测资料。参照 地 下 水 评 价 项 分为主成分。三是根据运行 SPSS 软件所生成的碎石
目, 结合本地实际, 选取 pH、溶解性总固体、氯化物、 图( Scree Plot) 判断, Scree Plot 是以按照特征值排列
硫酸盐、总硬度、氨氮、亚硝酸盐氮、硝酸盐氮、高锰 的大小序号为横轴, 以特征值为纵轴的碎石图, 典型
( 5.206) ( B1 为第一主成分因子荷载矩阵系数, 5.206 为 第 一 主 成 分 特 征 值)可 以 计 算 出 第 一 主 成 分 系 数 ,
分个数为 6 个。由原来的 12 个分析项目缩减了一 同理可以确定 6 个主成分系数。根据主成分系数和
半, 仅用 6 个主成分表达原来 12 个指标所能表达信 标准化数据相乘再求和, 可以计算出各项目 6 个主
1999 2.17 0.77 0.75 1.25 1.45 2.2
2000 1.86 0.8 0.85 0.9 1.5 2.51
2001 2.13 2.23 0.87 0.93 1.61 3.01
2002 1.47 0.74 0.93 1.00 1.77 3.16
2003 1.82 0.68 0.95 0.83 1.69 3.18
河流水系、同一水系相邻站点进行时空变化分析。 3.3.1 评价分区水质时空变化分析
分区污染指数时空变化图, 结果见图 2。 根据图 2 可以看出 6 个评价分区水质总体状
根据《张家口市第二次水资源评价》成果, 区域 况, 最好的水质是内陆平原区, 次好的是山丘区和涿
分区 坝上高原区
山丘区 内陆平原区 涿怀山间盆地 张宣山间盆地 蔚阳山间盆地
河流水系 永定河
潮白河水系 内陆河水系
站点数 28 2 4
wenku.baidu.com
1995 1.35
1.79
表 3 各水系主成分综合得分
1996 1.36 0.63 2.38
1997 1.33 0.60 2.29
1998 1.48 1.28 3.38
1999 1.47 0.73 2.17
2000 1.53 0.71 1.86
确定主成分的个数可以综合考虑三方面因素。 及总方差解释表 1。
一是取所有特征值大于某一确定值的成分为主成
根 据 Scree Plot 到 第 三 个 主 成 分 特 征 值 出 现
分。此项目确定该值为 0.6。二是根据累计贡献率达 陡 峭 的 拐 点 , 由 表 1 可 知 , 前 2 个 主 成 分 特 征 值 约
量对方差影响很小, 我们认为可以接受, 取前 L 个成 以后各特征值变化很小。由表 1 可知, 前 6 个主成分
主成分
1 2 3 4 5 6 7 8 9 10 11 12
特征根 5.206 1.742 1.169 0.984 0.826 0.769 0.458 0.362 0.187 0.146 0.124 0.027
到的百分比值确定。选取 85%, 即累计贡献率达到 占 所 有 信 息 的 57.8%, 但 仍 不 能 占 据 所 有 信 息 的
85%以上, 其含义是此前 L 个主成分所包含的信息 大 部 分 。
占原始变量包含的总信息的 85%, 其余 M ̄L 个新变
图 1 显示, 到第 7 个主成分特征值又出现拐点,
2008. No.3
海河水利
·49·
基于 S P S S 的主成分分析在水环境质量评价中的应用
李哲强 1, 侯美英 2, 白云鹏 2
( 1.河北省水文水资源勘测局, 河北 石家庄 050031; 2.张家口市水文水资源勘测局, 河北 张家口 075000)
摘 要: 选定河北省张家口地区 34 个地下水质站点 9 年资料, 在 SPSS 统计软件的支持下, 将主成分分析方法应用于 水环境的综合评价之中。利用主成分综合得分从评价分区、河流水系、同一水系的相邻站点上进行时空变化分析 , 分 析结果理想, 体现了主成分分析在水环境质量评价中的实用性。 关键词: 主成分分析; 水环境综合评价; 时空变化分析 中图分类号: X824 文献标识码: B 文章编号: 1004- 7328( 2008) 03- 0049- 04
特征值
6 5 4 3 2 1 0
1 2 3 4 5 6 7 8 9 10 11 12
主成分
图 1 主成分碎石
分析结果确定水质分类范围, 以评价各站点的水质
根据以上三方面因素, 可以综合判断并确定分
状况。.
析区域的主成分个数。将处理好的数据在 SPSS 软件
3.2.1 主成分的确定
支持下进行主成分分析, 可以得到主成分碎石图 1
量。根据初始因子荷载矩阵表, 利用公式 A1=B1/SQR
在利用 SPSS 计算了 6 个主成分以后, 分析得到
2008. No.3
海河水利
·51·
了每个主成分所包含的水质参数的信息以及每个站 水资源二级评价分区主要分为: 坝上高原区、山丘
点的综合得分, 并对各个站点进行了水质质量的评 区、内陆平原区、蔚阳山间盆地、张宣山间盆地、涿怀
酸盐指数、溶解性铁、总锰、氟化物共 12 个监测项目 的碎石图有明显的拐点, 在拐点之前是与大因子连
作为分析项目。
接的陡峭的折线, 之后是与小因子相连的缓坡折线。
3.2 主成分分析
一般取拐点前所有的因子及拐点后的第一个因子作
参照 《地下水质量标准》( GB/T14848- 1993) 分 为主成分。
2001 1.74 2.53 2.13
2002 1.78 1.74 1.47
2003 1.74 0.68 1.82
主成分综合得分 主成分综合得分
4 3.5
3 2.5
2 1.5
1 0.5

1995 年 1996 年 1997 年 1998 年 1999 年 2000 年 2001 年 2002 年 2003 年
相关文档
最新文档