从局部到整体的PM2.5指标对比分析方法——以北京市为例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在中国,空气质量问题始终是政府、环保有关部门以及全国人民关注的热点问题。

其中PM2.5是表征环境空气质量的一个重要污染物指标,是构成霾的主要“原材料”之一,同时也是导致雾霾天气的“罪魁祸首”。

近几年来,中国政府对大气污染控制持续加大力度,提出并实施了一系列治霾、防霾措施,在雾霾治理中扮演着相当重要的角色。

那么,在“重拳治霾”的这几年时间里,我国在治理雾霾方面究竟取得了怎样的成效?我们有必要对PM2.5指标的今昔变化进行对比分析。

倘若我们想比较任意两年间的PM2.5指标变化,通常的做法也许是直接比较二者的年均值或者月均值,以均值的增减来衡量污染程度的加深或减弱。

然而均值极易受到异常值的影响,若调查人员统计数据失实或是某日的PM2.5浓度由于某些不可控或无法预见的原因(如气候突然变化)而激增也许会导致我们得出的结论偏离事实甚至与事实完全相反。

因此,仅仅以均值的变化来衡量污染程度的变化是远远不够的。

我们不妨将每年的PM2.5浓度指标看做不同的随机变量,日均PM2.5浓度为其观测值,此时,比较这些总体的均值就需要用到假设检验。

传统的检测两组样本均值差异的t检验要求总体近似正态,我们的数据显然不能满足这样的前提条件。

因此本文将提出两种不依赖于总体分布的比较分析方法,一种可以应用于PM2.5指标的局部对比分析,另一种则可以用于描述该指标的整体变化,并将这两种方法同时应用于北京市2014年与2017年PM2.5指标纵向对比分析,以及北京市与其他一线城市(以上海市为例)2017年PM2.5指标的横向对比分析。

一、将置换检验应用于局部对比分析
(一)置换检验的基本思想
置换检验是一种统计检验方法,由Fisher于20世纪30年代所提出。

它需要根据一定的原则置换样本信息,将置换的一个结果称为一个置换样本。

对所有的置换样本逐个计算其检验统计量的值,得到的检验统计量的分布称为检验统计量的置换分布。

将置换前的样本称为初始样本,由初始样本计算得到的检验统计量的值称为检验统计量的初始值,根据检验统计量的初始值和置换分布进行的假设检验称为置换检验。

(二)置换检验的基本步骤
(1)提出原假设和备择假设;
(2)确定置换方法,获取置换样本;
(3)确定检验统计量,计算该检验统计量的初始值和置换分布;
(4)根据检验水平确定拒绝域,对假设作出推断。

置换检验不限制总体的分布,而且对于小样本资料、存在异常值的资料以及某些难以用常规方法分析的资料也有很好的检验效果。

本文将把置换检验分别应用于北京市2014年与2017年的月均PM2.5指标的对比分析以及北京市与上海市2017年月均PM2.5指标的对比分析。

二、将关联模型应用于整体趋势分析
关联模型是人口统计学中的一种死亡率年龄别模型,由Brass于1971年首次建立,它包含一套“标准”的死亡率函数和数学规则,用来将标准人口与任意人口的死亡率相关联。

其具体的想法是令q(x)为人口的x岁前死亡概率,对q(x)作logit 变换以便当q(x)在0与1之间变化时,其logit值Y(x)能够在∞
−与∞
+之间变化。

因而任何在∞
−与∞
+之间的q(x)的logit预测值都能够在0与1之间找到对应的q(x)值,其中:
))
(
exp(
1
))
(
exp(
)(
x
Y
x
Y
x
q



+
=
此时,该人口从出生到x岁的存活概率为:
))x(
exp(
1
1
)(
1
)(



+
=
-
=
Y
x
q
x
p
Brass提出可以用标准人口中的q(x)的logit值Y s(x)预测Y(x):
从局部到整体的PM2.5指标对比分析方法
——以北京市为例
南 翠 曹丽娜
(中央民族大学 理学院,北京 100081)
摘 要:本文将置换检验和关联模型分别应用于中国(以北京市为例)PM2.5浓度指标的局部差异分析和整体趋势变化分析,并用Bootstrap方法对所建立的关联模型进行了适配性检验。

结果显示,北京市近几年的雾霾治理工作取得了可观的成效,但治霾工作仍任重而道远。

关键词:PM2.5;置换检验;关联模型;Bootstrap方法
中图分类号:O212.7 文献标识码:A
文章编号:1674-537X(2018)05.0122-04
)
()(x Y x Y s βα+=∧
模型中的参数α
是死亡率水平的一个指标,当α增加时,
所有年龄的Y(x)都会上升,P(x)都会下降。

因此较高的α意味着该被预测人口有较高的死亡率(即存活到任意年龄x 的可能性较低,且在年龄x 和y 之间存活的可能性较低)。

而模型中的参数β对不同年龄的影响不同,较高的β提升了P(x)函数的斜率(即加速了随年龄的下降)。

因此β经常被称为死
亡率函数的斜率。

我们可以以之前某一年的PM2.5指标为标准与之后某一年的PM2.5指标建立关联模型,在这里我们只对比今昔差异而不考虑过程变化,因此我们实则损失了中间几年的指标数据,但我们所利用到的数据仍远多于仅以年均PM2.5浓度数据做线性回归。

当然将关联模型应用于PM2.5指标数据中是否可行还未知,因此在得到了模型参数的估计值后还需要对模型进行适配性检验。

本文将把关联模型分别应用于北京市2014年和2017年的PM2.5指标数据以及北京市与上海市2017年的PM2.5指标数据的整体趋势分析中,并用Bootstrap 法对所建立的关联模型进行适配性分析。

三、以北京市为例
本文以北京市2014年、2017年以及上海市2017年日均PM2.5浓度数据作为研究对象,数据来源于中国环境监测总站(),本例中所有分析结果均由r 软件实现。

(一)将置换检验应用于局部对比分析
1、纵向对比分析
设U 为北京市2014年日均PM2.5浓度随机变量,U i (i=1,...,12)为其月均值,u i (i=1,...12)为其月均值观察值;设V 为北京市2017年日均PM2.5浓度随机变量,V i (i=1,...12)为其月均值,v i (i=1,...,12)为其月均值观察值。

下面先检测一月的趋势:先计算d 1=u 1-v 1=-21.26<0,故此时令原假设和备择假设分别为:
H 0:U 1=V 1;H 1:U 1<V 1
将2014年与2017年1月日均PM2.5浓度数据合并,从中随机抽取31个数据并计算其均值u 1*,剩下的31个数据为另一组并计算其均值v 1*,最后计算置换样本的均值差d 1*=u 1*-v 1*。

重复这个步骤999次,得到999个置换样本以及999个d 1*,由此可以模拟出检验统计量U 1-V 1的抽样分布。

给定显著性水平α=0.05,得到统计抽样总体中小于检验统计量初始值的个数并由此估计出检验的p 值=0.244。

P 值大于0.05,故没有理由拒绝原假设,也即2014年1月和2017年1月的PM2.5月均浓度虽有差异,但是差异并不显著。

从具体数据来看,虽然2014年1月的月均浓度较2017年1月更低,但是其PM2.5浓度超标(PM2.5浓度>75ug/m 3)天数达到了19天,较2017年1月多了4天。

因此以置换检验对PM2.5指标做对比分析不仅考虑了其均值之间的差异,同时考量了其持续天数的差异。

相同的方法也可用于其他月份之间PM2.5浓度的对比分析,结果如表1所示。

表1:北京市2014年与2017年PM2.5指标置换检验局部对比分析结果
月份1月2月3月4月5月6月原假设H 0U 1=V 1U 2=V 2U 3=V 3U 4=V 4U 5=V 5U 6=V 6备择假设H 1
U 1<V 1U 2>V 2U 3>V 3U 4>V 4U 5>V 5U 6>V 6P值0.2240.0010.0370.0010.4290.035初始样本均值差-21.2676.1026.5836.03 3.2314.68置换检验分析结果
接受H 0拒绝H 0拒绝H 0拒绝H 0接受H 0拒绝H 0月份7月8月9月10月11月12月原假设H 0U 7=V 7U 8=V 8U 9=V 9U 10=V 10U 11=V 11U 12=V 12备择假设H 1
U 7>V 7U 8>V 8U 9>V 9U 10>V 10U 11>V 11U 12>V 12P值0.0010.0010.1540.0000.0010.116初始样本均值差37.5831.8713.3660.7742.9714.80置换检验分析结果
拒绝H 0
拒绝H 0
接受H 0
拒绝H 0
拒绝H 0
接受H 0
从置换检验的对比分析结果来看,除了1月、5月、9月和12月没有检测到显著差异外,在其他月份北京市2017年的PM2.5浓度指标均显著低于2014年。

这说明北京市历经三年的治霾措施在大部分月份都取得了不错的成绩。

2、横向对比分析
本文选取同为一线城市且地理位置较为接近的上海市为代表,以上海市2017年日均PM2.5浓度数据作为研究对象,与北京市2017年日均PM2.5指标做对比分析。

设W 为上海市2017年日均PM2.5浓度随机变量,W i (i=1,...12)为其月均值,w i (i=1,...,12)为其月均值观察值。

置换检验结果如表2所示。

表2的结果表明,2017年北京市的PM2.5浓度指标在1月、3月、5月、7月、9月和10月都显著高于上海市,在其他月份两市则没有表现出明显的差异。

这说明北京市的空气质量虽在近几年有了很大的改善,但在将近一半的月份中与上海市还是有显著差距。

表2:北京市与上海市2017年PM2.5指标置换检验局部对比分析结果
月份1月2月3月4月5月6月原假设H 0V 1=W 1V 2=W 2V 3=W 3V 4=W 4V 5=W 5V 6=W 6备择假设H 1
V 1>W 1V 2>W 2V 3>W 3V 4>W 4V 5>W 5V 6>W 6P值0.0000.1090.0310.1270.0000.277初始样本均值差68.7115.7918.497.2626.26 3.43置换检验分析结果
拒绝H 0接受H 0拒绝H 0接受H 0拒绝H 0接受H 0月份7月8月9月10月11月12月原假设H 0V 7=W 7V 8=W 8V 9=W 9V 10=W 10V 11=W 11V 12=W 12备择假设H 1
V 7>W 7V 8>W 8V 9>W 9V 10>W 10V 11>W 11V 12<W 12P值0.0010.0980.0000.0000.3600.124初始样本均值差18..457.0729.9533.00 3.99-12.00置换检验分析结果
拒绝H 0
接受H 0
拒绝H 0
拒绝H 0
接受H 0
接受H 0
计这些观测值中大于)12(2
05.0χ 的
个数,若次数大于50次,则拒绝所给模型,认为所建立的关联模型不适配。

R 软件的运行结
果显示1000个Z 的Bootstrap 观测值中大于)12(2
05.0χ 的
次数为0,也即该关联模型的拟合优度结果令人满意。

我们注意到该关联模型的截距项为负,这说明2017年北京市PM2.5的污染情况较3年前整体来说有很大改善,一次项系数小于1,说明2017年北京市PM2.5指标的变化幅度较3年前更小,总体控霾情况较为稳定。

2、横向对比分析
设P *(t)为上海市2017年直至t 月的污染天数比例,其中:365
t 2017)(*月的污染天数
年直至上海市=
t P ,t=1,...,12令:
)(1)
(ln
)(log )(****t P t P t itP t Y -==
,t=1,..,12
用最小二乘法得Y(t)与Y *(t)所建立的关联模型为:)
(830.1721.0)(*t Y t Y +=用如前所述的Bootstrap 法对所建立的关联模型做适配性检验,P 值为0,故模型通过拟合优度检验。

我们观察到该关联模型的截距项为正,这说明2017年北京市PM2.5的污染情况从整体上看较上海市更为严重,一次项系数大于1,说明2017年北京市PM2.5指标的起伏波动较上海市更大,更易出现重度污染情况,总体控霾情况不如上海市稳定。

四、结论
1、本文用置换检验对比分析了PM2.5指标的局部差异,相比于传统的t 检验,置换检验不限制总体的分布假设,也可
以在一定程度上减轻数据中异常值所带来的影响。

将置换检验
应用于PM2.5指标的差异分析,不仅比较了其均值的差异,同时也考量了其污染天数的差异。

2、本文建立关联模型用以描述任意两年间PM2.5指标的整体趋势变化,相比于仅利用年均PM2.5指标做线性回归,建
(二)将关联模型应用于整体趋势分析1、纵向对比分析
设P S
(t)为北京市2014年直至t 月的污染天数比例,其中:365
t 2014)(月的污染天数
年直至北京市=
t P S ,t=1,...,12设P(t)为北京市2017年直至t 月的污染天数比例,其中:365
t 2017)(月的污染天数
年直至北京市=
t P ,t=1,...,12令:
)(1)
(ln
)(log )(s
t P t P t itP t Y s s s
-== ,t=1,..,12
)(1)
(ln
)(log )(t P t P t itP t Y -==
,t=1,...,12
用最小二乘法得Y(t)与Y s (t)所建立的关联模型为:)
(719.0224.0)(t Y t Y s +−=下面用Bootstrap 方法对所建立的关联模型进行适配性分析:
令原假设为:
H 0:α=-0.224,β=0.719
设D n 为表示北京市2017年第n 月的污染天数的随机变量,N n 表示第n 月的天数,P n 表示第n 个月的污染比例,则有:
30
365
))1()((⨯--=n P n P P n
,n=1,...,12)(~n n n P N B D ,,n=1,...,12
当样本量较大时,由中心极限定理得:
)
10(~)1(,N P P N P N D Z n n n n
n n n −−=故有:
∑=12
1
n 2)12(2
~χn Z
给定显著性水平α=0.05,当∑=>12
1
n 205
.02
)12(χ
n Z 时,拒绝所
给模型。

对上述统计量∑==12
1
n 2
n Z Z Bootstrap 模拟1000次,可得到1000个Bootstrap 样本以及1000个Z 的Bootstrap 观测值,统
立关联模型所利用到的样本量更大,且其描述性能要优于一元线性回归模型。

其中,关联模型的截距项用以描述整体污染程度的差异,其一次项系数用以描述PM2.5指标的幅度差异。

3、从分析结果来看,从2014年到2017年,北京市历经三年的雾霾治理工作取得了可观的成效,无论是其PM2.5指标浓度还是其污染持续天数,在部分月份也许没有显著的差异,但是整体来说都存在一定程度的降低和减少。

但2017年的PM2.5数据显示,北京市的空气质量仍与同为一线城市的上海市有一定差距,且PM2.5指标的变化幅度更大,更易出现重度污染天气。

因此,治理雾霾是一场攻坚战和持久战,还需要我们继续砥砺前行。

参考文献:
[1]李丽珍,王浩宇,曹露.等.浅析中国城市PM2.5的污染现状及控制措施[J].能源与节能.2013(5):69-70.
[2]Arnold Janssen, Thorsten. A Monte Carlo comparison of studentized bootstrap and permutation tests for heteroscedastic two- sample problems[J].Computational Statistics.2005(20):369-383.
[3]谢益辉,朱钰.Bootstrap方法的历史发展和前沿研究[J].统计与信息论坛.2008(2):90-96.
[4]孙佳美,段白鸽.Bootstrap方法在死亡模型中的应用[J].统计研究.2010(6):100-105.
[5]Samuel H. Preston, Patrick Heuveline, Michel Guillot.Demography:Measuring and Modeling Population Process[M].北京:社会科学文
献出版社,2012.。

相关文档
最新文档