基于多元线性回归对AQI预测
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于多元线性回归模型对AQI研究与分析
摘要:目前中国大气污染形势严峻,以可吸入颗粒物、细颗粒物为特征污染物的区域性大气环境问题日益突出,损害人民群众的身体健康,影响社会和谐稳定。本文根据相关数据,选取了一部分影响因子:PM2.5、PM10、CO、NO2、SO2、温度和降雨量,对我国部分城市的空气质量进行评价,采用了多元线性回归模型方法,预测空气质量指数。通过回归分析发现,空气质量指数和PM2.5、PM10、CO、NO2和降雨量有关,并得到空气质量指数的预测模型,有利于我们对未来各城市空气质量的走势有所了解。
1研究背景和目的
空气是人类生活中不可或缺的一部分,是城市生产活动的基础。空气污染不仅会影响人的身体健康,还会对动植物的生长有非常不利的影响,损害农业和林业的发展,是城市所面临的最严峻的问题之一。现代医学研究表明,呼吸新鲜自然的空气能够增强免疫力、促进血液循环、消除疲劳、提高工作效率等;否则就会引起乏力、烦闷、头晕、注意力不集中、精神不振等不良症状,日积月累,将可能会导致多种人体疾病的发生。因此空气质量的好坏对我们的生活有着重大的影响。
为了研究空气的好坏,提出了空气质量的概念。空气质量指数(air quality)的好坏反映了空气污染程度,它是依据空气中污染物浓度的高低来判断的。空气质量问题始终是世界各国备受关注的一个问题。随着我国工业化、城镇化的深入推进,能源和资源消耗持续增加,大气污染防治压力继续加大。了解我国空气质量现状,及时采取有效措施进行治理,是改善空气质量的唯一途径。我国从1973年召开第一次全国环境保护会议开始,通过制定环境保护五年计划,对空气污染物排放进行约束与管理,为城市环境空气质量保护、工业污染防治等提供方向。为了改善环境空气质量,防止生态破坏,创造清洁适宜的环境,保护人体健康,研究影响空气质量的影响因子刻不容缓。本文运用多元线性回归模型,对影响空
气质量的因子进行分析,最终得到空气质量预测模型。
2研究方法与原理
回归分析研巧的主要对象是客观事物变量间的统计关系,它是建立在对客观事物进行大量实验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的统计方法。考察某一个变量(因变量)与其余多个变量(自变量)的相互依赖关系,便是多元回归问题。因此本文采用多元线性回归模型对空气质量指数进行预测。
空气质量指数AQI与巧染物浓度值间的多元线性回归模型建立为
Y=a0+a1X1+a2X2+a3X3+a4X4+a5X5+a6X6+a7X7其中,a0表示回归常数,a i为个回归系数X1表示PM2.5含量,X2表示PM10含量,X3表示一氧化碳含量,X4表示二氧化氮含量,X5表示二氧化硫的含量,X6温度,X7表示降雨量。
3研究区域与数据来源
主要选择2016年我国14个城市的PM2.5、PM10、CO、NO2、SO2、温度、降雨量等影响因子作为自变量对因变量AQI(空气质量指数)的影响分析。并且构建了多元线性回归方程模型,最终得出利用PM2.5、PM10、CO、NO2、降雨量反映AQI的多元线性方程。计算理论预测的AQI,利用获得的监测站的实际AQI,两者之间进行比较,来验证模型的准确性。
表1AQI及其影响因子
因子城市PM2.5PM10CO NO2SO2温度降雨量AQI 荆门370.551671309
萍乡7100.9678220.311
吕梁6111.3183912013
衢州10130.6672411230.714
襄阳9121.05265100.514
重庆32521.0543813230.551
沈阳34510.7332211051
拉萨29900.9543817070巴彦淖尔701091.2382713094银川65961.78391816088
泉州631950.8253827295.3123库尔勒2231.5615911053
和田4451.552210634130145喀什5191.4334472120152
4 过程与分析
4.1 过程1
从表2中可一看出,相关系数R为0.999,说明自变量与因变量之间有比较好的相关性,决定系数R方为0.998(R方反映总体的回归效果,越接近1越好),即在因变量的变异中,有99.8%可由自变量的变化来解释。
表3 回归系数及显著性检验表
从表中可以看出:常数项的t的显著性概率为0.512>0.05,表示常数项与0没有显著性差异,表名常数项不应该出现在方程中。而温度、NO2和SO2的t 的显著性概率为均大于0.05,表示几个参数与0没有显著性差异,则不应该出现在方程中。
PM2.5的t显著性概率为0.000<0.05,表示PM2.5的系数与0有显著性差异,PM2.5应当作为解释变量出现在方程中。同理可知,CO、PM10和降雨量的t显著性概率均小于0.05,表面这几个参数的系数与0均有显著性差异,所以应当作为解释变量出现在方程中。
由此可见,PM2.5、PM10、CO和降雨量可以作为解释变量存在于方程中,而由于SO2的Sig值太大,所以首先将其从“解释变量”中剔除。
4.2 过程2
表4 回归系数及显著性检验表
模型
非标准化系数标准系数
t Sig.
共线性统计量B标准误差试用版容差VIF
(常量) PM2.5 PM10
CO NO2温度降雨量2.2192.778.799.451
.312.0071.04042.937.000.2474.054 .614.017.69837.094.000.4082.449 -.350.063-.133-5.594.001.2563.901 .093.033.0472.834.025.5341.871 .121.157.014.774.464.4352.298 -4.756.779-.131-6.105.000.3123.204
模型
非标准化系数标准系数
t Sig.
共线性统计量B标准误差试用版容差VIF
(常量) PM2.5 PM10 CO NO2 SO2
温度
降雨量2.3163.327.696.512
.312.0081.04039.566.000.2444.094 .614.018.69834.295.000.4072.458 -.350.068-.133-5.178.002.2563.910 .095.040.0472.357.056.4202.382 -.005.074-.001-.068.948.5951.681 .118.178.014.663.532.3962.526 -4.742.867-.131-5.469.002.2943.405