主成分分析PCA

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
鹿角沱和城陵矶监测断面的第三主成分得分值相对较高, 表明这 2个监测断面水质污染主要由农业面源污染导致 磷偏高引起
总结
本文运用主成分分析法对洞庭湖 2016 年水质进行了评价,从原始 10 个水 质数据中提取占总方差的 88%的 3 个主成分反映洞庭湖区水体的污染程度, 经过分析识别得到的 3 个主成分因子:六价铬、铜和砷;高锰酸盐指数、五 日生化需氧量和氨氮;总磷。该结论与与洞庭湖区实际污染来源基本吻合, 表明主成分分析是一种有效的水质评价方法。
Artur Szwalec, et al. Monitoring and assessment of cadmium, lead, zinc and copper concentrations in arable roadside soils in terms of different traffic conditions[J]. Environ Monit Assess (2020) 192: 155.
XX大学
主成分分析法(PCA)
论文主要内容
第一部分 主成分分析方法的
基本思想
第二部分 计算步骤
第三部分 应用实例
第四部分 应用改进
基本思想
主成分分析 Principal Component Analysis
• 找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。
• n=2,n'=1,也就是将数据从二维降维到一维 • 到某一个维度方向,它可以代表这两个维度的数据
李宝霞, 董双涛,马郑不同产地黄芫花中的 5 种有害元素测定及其无机元素的主成分分析和聚类分析[J].中国新药杂志 ,2019,28(22):2548-2552.
文献——PCA方法分析道路 旁表土中重金属的影响因素
ห้องสมุดไป่ตู้
PCA方法分析道路旁表土中重金属的影响因素
采用主成分分析法(PCA)对采样点土壤中重金属浓度相关 的环境因子进行评价。
√确定原始数据矩阵,假设每个样本有m个评价指标,共n个水样,构成n×m阶样 本举证X
√首先将各变量xij进行标准化处理, 对同一变量减去均值再除以标准差, 从而排除数 量级和量纲的差异
√以标准化数据矩阵 X = ( xij) 为基础,计算相关系数矩阵 R = ( rjk) √求 R 阵的特征值 λ1> λ2> λ3> λ4… > λp及单位特征向量 ej( e1 j,e2 j,…,epj) ,每个主成分的方差就是所求得的特征值
例如: 衡量一个地区经济发展水平的指标有: 人均GDP、第三产业比重、固定资产投入、城 市化率、人均寿命、新生儿死亡率、绿地覆 盖率、识字率、人均能源消费、基尼系数....
基本思想
基于上述问题,人们就希望在定量研究中涉及 的变量较少,而得到的信息量又较多。 主成分分析正是研究如何把原来多个变量转 化为少数几个综合指标的一种统计分析方法。
PCA方法分析道路旁表土中重金属的影响因素
结果:主成分分析(PCA)表明,研究区域11个环境条件中, 2个主要变量影响了相邻表土中重金属的分布
√选取主成分的个数取决于主成分的累计方差贡献率,通常选取累计贡献率大于 85% 以上等主成分
√在主成分的表达式中分别带入各个待评价水样点的标准化数据,计算得样点的 主成分得分 Fj,各项得分即为水质分析的定量化描述
计算步骤
文献——基于主成分分析法的 安庆市土地生态安全评价研究
运用实例
1、取得某地区生态安全评价各区域单元的有关数据 2、将其处理并进行协方差运算如下表所示
基于主成分分析法的洞庭湖水质评价
• 根据主成分分析法中主成分个数选取原则,从 表3 可见特征值λ>1 时有 3 个成分
• 图 2 分析特征根衰减的突变,可以确定应提取 3 个主成分
基于主成分分析法的洞庭湖水质评价
初始因子荷载矩阵计算,计算结果见 表4。从表4 中可知,铜、六价铬和 砷在第一主成分上荷载较大,说明第 一主成分基本反映了这些指标的信息 。从湖区实际污染来源看湖区水质受 工业废水污染最为严重。
• 两个向量方向,u1和u2,哪个向量可以更好的 代表原始数据集?
基本思想
• 人们在对某一事物进行实证研究中,为了更全面、 准确地反映出事物的特征及其发展规律,通常 会考虑尽可能多的指标,以避免遗漏重要的信 息
• 但过多的指标,会给研究带来一定困难,并且 众多的指标之间可能存在一定的相关性,这样 就造成了信息的重叠,给研究结果带来影响
文献——基于主成分分析法的 洞庭湖水质评价
基于主成分分析法的洞庭湖水质评价
利用2016 年洞庭湖9 个断面12 个月溶解氧、高锰酸盐指数、五日生化需氧量、氨氮、总磷、铜、 氟化物、六价铬和石油类等10 个水质监测指标的月均值作为计算数,对洞庭湖水质进行评价
基于主成分分析法的洞庭湖水质评价
从表2 相关系数矩阵中可以看出,大部分相关系数大于0.3,可见许多变量之间直接的相关性比较强,证明它们之 间存在信息上的重叠,则这些原始变量适合进行因子分析。其中六价铬与铜和砷之间也具有较强的相关性,相关 系数分别达到0.985,0.88 和0.863。高锰酸盐指数与五日生化需氧量及氨氮有很强的相关性,相关系数分别达到 0.951,0.861 和0.851。
PCA方法分析道路旁表土中重金属的影响因素
研究道路的重金属、pH值、泥沙、有机质含量情况
Artur Szwalec, et al. Monitoring and assessment of cadmium, lead, zinc and copper concentrations in arable roadside soils in terms of different traffic conditions[J]. Environ Monit Assess (2020) 192: 155.
主成分分析是由Hotelling于1933年首先 提出的,它是利用降维的思想,把多指标 转化为少数几个综合指标的多元统计分 析方法。
主成分分析方法的特点
主 成 分这之里添间加应标该题互 不 相 关
主成分个数远远少于原 有变量的个数
主成分具有命名解释性
主成分能够反 应原有变量的 绝大部分信息
主成分分析原理
文献——基于主成分分析的德 阳市平原区地下水质量评价
实验概述
假定已知 n 个待评价水体样点,每个水样点有x1,x2, x3…,xm共 m 污染指标变量,在构造地下水质质量评价的主 成分时,首先是研究这 m 个污染指标变量的相关性,再构造 y1,y2,…,ym共 m 个不相关的综合指标,每一 yi 都由各原 始指标 xj 组成的线性组合表示,因此统计数据所反映的信息 就不会重复,还能够把各单项指标的作用分离; 再者,在上 述 m 个综合指标中选取较少的 p( p < m) 个综合指标,原 始指标所提供的绝大部分信息都能被这选中的 p 的指标表示 出来,从而使系统得以简化。
采样点:分别距离公路边缘6、11、21、38、 70和125米,对称分布在道路两旁
目的:分析评估不同交通情况及使用期限的 道路对路边耕地表层土壤中Cd、Zn、Pb、 Cu的分布的影响
采样 道路
Jędrzejów-Kielce section (JK,已使用50年,平均交通量为每天2万辆) Eastern Jędrzejów Ring road (EJR,已使用10年,交通量为每日1.8万辆) Northern Jędrzejów Ring Road (NJR,已使用1年,日交通量1万辆)
贺密,贾杰,张敏.主成分分析法在地下水质量评价中的应用[J].地下水,2015,37(06):6-8.
文献——不同产地黄芫花中的 5 种有害元素测定及其无机元 素的主成分分析和聚类分析
实验方法
宏观元素:Mg、K、01Ca
半定量分析、 毒性元素元:素C删u选、As、Cd、Hg、Pb 微量元素:Se、Zn、Cr、Mn、Ni
稳定性一:系列RS精D密=3度.5、4%稳~定4.85%, 表明样品在性制实备验后 24 h 内稳定
加样回收率: 计算平均回收率在 95.24% ~101.21%, RSD均< 5.0% (n =6)
线性关系考察
以对照品质量浓度为横坐标,对照品峰强度为纵坐标,绘 制标准曲线得各元素的回归方程,相关系数和线性范围。
04
有害元素是中药安全性分 析的重要内容 。本文对我 国 7有个害产元地素的安黄全芫性花分中析的 有害元素进行了测定, 结 果均未超过限度。
02
线性关系考察
05
主成分分析
精密度: RSD =0. 55% ~2.60% 表明仪器的精密度良好
重复性: RSD = 1. 10%03~4.20%
表明方法的重复性良好
总结
地下水质量评价是一个复杂多变的系统,不能只简单依靠单一指标来确定污染程度。本文采用的主成 分分析法就是根据水质的污染情况,着重把地下水主要污染物进行类别分析,客观科学的确定权数。 主成分分析方法注重遵循原始数据, 尽量减少原始数据的损失, 实际客观的确定权数, 消除了指标选 择时因人为而造成的差异, 该评价方法科学严谨、体系完整, 有较高的可靠性 此次评价选择的 16 个评价指标存在一定的关联性,该方法的水环境质量分级标准还有待提高完善,导 致计算所得的综合主成分分值表现出的只是地下水质量的一种相对关系。
实例分析
本实验共收集79组水样,选取pH值、氯化物、氟 化物、总碱度、总硬度、TDS、Na+、K+、Ca2+、 Mg2+、HCO3-、硫酸盐、亚硝酸盐、硝酸盐、总铁 (Fe) 、锰 (Mn) 16项指标作为参评指标
计算矩阵的特征值和特征值的累计贡献率可见前 6 项的方差贡献率达到了85%,表明前 6 项主成分基 本上已经包含了原始指标所提供的绝大部分信息
表2 安庆市土地生态安全评价指标特征值与贡献率
运用实例
表3 安庆市土地生态安全评价因子对原始指标的荷载状况
4、将选定特征值对应的特征向量与原始值进行内积得到荷载状况。分析可以得出三个主成分中各指标变 量所占的权重,比如:在第一个主成分中,占比较大的是城市化水平、人均GDP、亏损规模企业占比和第三 产业占比,说明这四个因素对主成分1的作用较显著,说明人口快速增长和城市化进程快速推进的同时, 人类生产生活对资源的需求量变大,开发利用程度加深,无疑会给资源环境带来威胁和压力,一些企业高投 入低产出的生产模式也是导致资源浪费重要原因之一
表1 地区土地生态安全评价相关关系矩阵
运用实例
3、由相关系数矩阵计算特征值,以及各 个主成分的贡献率与累计贡献率。
由右表可知,前3项贡献率依次为 60.907%、12.963%、11.335%,其累计 贡献率85.205%,大于85%,表示前3项 主成分具有较高的可信度,能够基本涵 盖全部数据的信息,故将前三项作为主 成分分析因子
表4 主成分荷载值
主成分荷载值计算,计算结果如表4 所示。即初始因子荷载矩阵除以对应 成分特征值的平方根。
基于主成分分析法的洞庭湖水质评价
湘潭监测断面的第一主成分得分值远高于其他断面,说 明该断面受工业废水污染相对较严重
藕池口监测断面的第二主成分得分值最高,表明该断面 高锰酸盐指数、氨氮等有机物浓度较高,主要受生活污 水未经处理散排影响
返回
主成分分析
采用 SPSS 22.0 分析软件对数据进行标准化处理。 右图描述了主成分分析初始解对原有变量总体描述 的情况。 总方差的 92.996% 贡献来自 4 个因子。由主成分 因子载荷矩阵可知, 第 1 个主因子与 Fe 高度正 相关, 与 Cd 负相关, 与 Mn, K 相关;第 2 个 主成分因子表明与 Zn 高度正相关, 与 Fe负相关, 与 Se, Cd, Hg 相关。 总方差的63. 874% 来自第 1 和第 2 个主因子, 所以可将 Fe,Cd, Zn, Se, Mn, K 作为黄芫花 的特征元素。
表1 特征值与累计贡献率
实例分析
表2 主成分的特征向量
对于第一主成分其中最密切相关的是总硬度和 TDS, 相关系数分别为 0.404、0.396 第二主成分中贡献率最大的则是 HCO3-、总碱度 第三主成分贡献率最大的 是 F-、pH 的 第四主成分 Mn、Cl-指 标 贡 献 率 最大 第五主成分 SO42 -、K+指标贡献率最大 第六主成分主要为 Fe、Mn 指标
相关文档
最新文档