主成分分析及二次回归分析的

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于主成分分析及二次回归分析的城市生活垃圾热值建模

1. 引言

随着人们经济水平的提高、环保意识的增强、环保法规日益严格和国家垃圾处理产业化政策的实施,垃圾填埋处理的弊端将引起重视、运营费用将大大增加,而垃圾焚烧处理的优势将逐渐呈现出来并最终获得人们的认可。以城市生活垃圾为燃料而建立垃圾电站进行电力生产,很好的实现了生活垃圾的无害化、资源化利用。

而我国的城市生活垃圾成分复杂,用作为燃料时稳定性较差,因此分析垃圾的成分、计算垃圾的热值模型是垃圾焚烧发电的工艺设计和运营管理中必不可少的基础性工作。

因为我国不同地区人们生活习惯及生活条件差异较大,导致城市生活垃圾成分也存在很大的地域性差异,因此,本文以深圳市为例,对深圳市宝安区的生活垃圾采样数据进行分析,并建立其计算模型。

2. 回归分析及主成分分析理论

2.1. 回归分析

回归分析是一种应用极为广泛的数量分析方法。它用于分析事物之间的统计关系,通过回归方程的形式描述和反应这种关系。

2.2. 一般回归模型

如果变量与随机p 变量y 之间存在着相关关系,通常就意味着当x , x ....x 1 2 p x , x ....x取定值后y 便有相应的概率分布与之对应,其概率模型为:

= ( , ... ) +e (2-1)1 2 p y f x x x其中p为称自变量,y 称为因变量,为自变量的确定性关系,ε表示x , x ....x 1 2 ( , .... ) 1 2 p f x x x随机误差。

2.3. 线性回归模型

回归模型分为线性回归模型和非线性回归模型,线性回归又有一元线性回归和多元线性回归之分。当变量之间的关系是线性关系的模型都称为线性回归模

型,否则就称之为非线性回归模型。当概率模型(2-1)中的回归函数为线性函数时,有:

= b + b + b +e (2-2)p p y x ... x 0 1 1其中βi 是p+1 个未知参数,β0 称为回归常数,β1...βp 称为回归系数。

2.4. 主成分分析

上述的线性回归模型的应用前提是作为自变量的各指标之间相互独立,即不

存在相关性。但由于本文研究的对象是股价的技术指标,而对于实际的收集到得诸多变量在其提出及确定的过程中通常都会存在或多或少的相关性。我们将变量间信息的高度重叠和高度相关称为多重共线性,而这种多重共线性会对线性回归分析的结果产生较大的影响,出现较大的误差。

主成分分析的核心是用较少的相互独立的因子反映原有变量的绝大部分信息。主成份分析的主要思想是:从自变量中提取出新的变量,这些变量是原变量的适当的线性组合,并且互不相关。从这些新变量中,我们选择少数几个变量,它们含有尽可能多的原变量的信息,然后再对这些变量进行回归分析。

3. 模型建立与检验

3.1. 数据来源

本文收集深圳市宝安区不同地点的城市生活垃圾,按照四分法制备样品,对垃圾的物理组成进行了详细的分类,对各成分的含量和含水率进行了精确测定,

最后采用煤的发热量测定方法测定热值。分析整理后共得到37 组实验数据,如表3-1(由于数据量较大,只给出部分数据)符号G、PA、PL、TE、GD、W 和LHV 分别表示有机物、纸类、塑料橡胶、纺织物、木竹、含水率和低位热值。

3.2. 全变量线性回归模型

首先我们利用数据表中的全部变量进行回归分析,建立多元线性回归方程,

模型的建立过程和各类分析图表在SPSS 统计软件中完成。根据相关性分析,

得到简单相关系数分析表如下:

从残差分布直方图可以判断,样本残差基本上均匀的分布在正态分布曲线以内,可以认为样本残差服从标准正态分布。

将表3-1中的数据带入到模型Ⅰ中,得到闭集检验误差为9.77%,说明线性回归方程模拟实际情况的误差较大。分析表3-3中的多重共线性检验,从容忍度和方差膨胀因子看,自变量之间存在多重共线性,影响了线性回归的准确度。

3.3. 主成分分析

将标准化的数据进行spss 因子分析,得到因子载荷矩阵:

我们以y1,y2 来表示主成分分析出的因子。根据表3-4 的系数矩阵我们可以得到方程组Ⅰ:

y1 = 0.818TE + 0.741PL + 0.696G + 0.571PA + 0.316GD + 0.574Wy2 = 0.007TE - 0.620PL - 0.693G + 0.667PA + 0.638GD + 0.617W

3.4. 二次回归

此时我们可以以新提出的两个因子作为自变量进行回归分析,但考虑到实际的生活垃圾热值与各变量之间的关系不可能是简单的线性关系,因此为了提高精

度,我们建立二次回归方程,应用二次函数来拟合实际模型。即我们以y1,y2,y1y2,y12,y22 这5 个变量作为自变量进行回归分析,可以得到关于各组成成分的二次方程模型,并且这5 各自变量之间不存在多重共线性,可以保证回归分析的精度。

利用spss 进行回归分析得到:

这样根据表3-5 可以得到模型Ⅱ:

ZLHV = 0.456 y1+ 0.071 y2 + 0.02 y1y2 - 0.104 y12 - 0.188 y22 + 0.284(其中y1 与y2 以方程组Ⅰ计算)将表3-1 中的数据带入方程组Ⅰ,再将y1 与y2 带入模型Ⅱ中,计算得到闭集检验误差为6.27%,实验结果表明主成分分析

后再进行二次回归得到的模型比较好的去除了原自变量之间的多重共线性,得到了比较准确的垃圾热值计算模型。

4. 结论

城市生活垃圾焚烧发电处理是一种高效的垃圾处理技术,垃圾热值是影响垃圾焚烧处理可行性的重要因素之一。本文采用数据缩减及回归分析的方法,首先对原有变量进行主成分分析,提取公共因子,然后以主成分因子为自变量,建立了二次回归方程,利用二次方程拟合实际的热值模型。以深圳市的垃圾处理数据

为例,对主成分-二次回归模型进行了实际检验,并取得了较好的效果。

相关文档
最新文档