基于复杂网络的中国城市PM_(2_5)区域划分
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2 结果与讨论
2. 1 不同季节 PM2. 5 污染的区域划分概况 根据中国气候特点,本文以 2014 年 6—8 月代表夏季,2014 年 9—11 月代表秋季,
2014 年 12 月—2015 年 2 月代表冬季,2015 年 3 月和 4 月代表春季,以 2014 年 5 月— 2015 年 4 月代表全年.
关键词: PM2. 5 ; 复杂网络; GN 算法; 城市; 区域划分
近年来,随着中国经济社会的高速发展,大气污染问题日益严重. 京津冀、长三角和珠 三角等城市群的大气灰霾现象尤为严重,细颗粒物( Particulate Matter 2. 5,PM2. 5 ) 是造成 城市灰霾的主要因素. 2012 年,在中国新颁布的国家空气质量标准中,把 PM2. 5 纳入常规 检测指标,PM2. 5 成为当今大气污染研究的重点对象.
本文以复杂网络为基础,以城市为节点,以不同城市间 PM2. 5 质量浓度的相关性和距 离的比值作为边的权重,构建了包含全国 161 个城市的 PM2. 5 加权网络. 在此基础上,使用 GN 算法对加权网络进行划分,得到了不同季节中国 PM2. 5 的区域分布情况,并对划分结 果进行了对比分析.
1 研究方法
1. 1 数据及预处理
本研究所采用的 PM2. 5 数据取自中国环境监测总站全国城市空气质量实时发布平台,
共获得了 2014 年 5 月 1 日—2015 年 4 月 30 日一个顺延年内各监测点的逐小时数据,研
究时间段内共获得 161 个城市的连续监测数据. 经过对数据的处理,得到各个城市的日均
PM2. 5 质量浓度值,其中有 14 个城市缺少部分天数的数据,其中最多的缺少 6 天,最少的 缺少 1 天,对缺失数据采用内插法进行差值,
的联系越强.
1. 3 PM2. 5 加权网络的构建 对城市 PM2. 5 数据进行正态分布检验,数据总体符合正态分布特征,因此选用 Person
相关系数进行分析. 选取 PM2. 5 日均质量浓度值进行二元相关分析,得到城市之间两两的 相关系数.
将城市作为节点,城市间是否有边进行连接以其相关系数作为判别标准,当城市间的 相关系数 R > 0. 7 时,连接 2 个城市,否则不建立连接关系. 城市间 PM2. 5 质量污染的相关 程度受城市间的距离影响较大,因此以城市间 PM2. 5 质量浓度的相关系数与椭球距离的比 值归一化后的值记为边的权重. 至此构建了全国城市 PM2. 5 的加权网络. 1. 4 PM2. 5 加权网络的划分
图 1 复杂网络示意 Fig. 1 Schematic diagram of complex networks
70
应用基础与工程科学学报
Vol. 23
之间联系程度的强弱,本文中权重即为同一时间段内不同城市间 PM2. 5 质量浓度变化的相 关性和城市距离的比值.
度表示的是节点 Vi 邻边的数目,用字母 ki 表示. 集聚系数代表节点的集聚性,在无权 网络中其具体含义是当节点 Vi 与 ki 个节点相连时,ki 个节点间最多可能有 ki ( ki - 1) /2 条边,而 ki 个节点间实际存在的边数为 Mi ,此时定义节点 Vi 的集聚系数 Ci = 2Mi /[ki ( ki - 1) ]. 在加权网络中,因为边有权重值,故与无权网络中集聚系数的算法有所不同,本文 采用对权重因素考虑全面的 Holme 于 2007 年给出的加权集聚系数算法[27]
收稿日期: 2015-01-18; 修订日期: 2015-06-25 基金项目: 国家科技重大专项( 2013ZX07102-006) 作者简介: 薛 安( 1969—) ,男,博士,副教授. E-mail: xuean@ iee. pku. edu. cn
No. s1
薛 安等: 基于复杂网络的中国城市 PM2. 5 区域划分
本文采用 Girvan Newman 算法( GN 算法) 对加权网络进行划分. GN 算法是 Girvan 和 Newman 于 2001 年提出的一种基于边介数的无权网络分裂划分算法[28-29],在此基础上 2004 年 Newman 又将 GN 算法扩展到了加权网络上[30]. 为了衡量 GN 算法网络划分的质 量,Newman 等引入了模块性 Q 函数的概念[30],当模块性 Q 函数取最大值时表明网络划 分质量最好.
以连片度衡量不同季节中国 PM2. 5 污染的整体区域性强度,见表 1.
表 1 不同季节中国 PM2. 5 污染的连片度 Table 1 Contiguous degree of PM2. 5 of China in different period
71
式中,aij为网络邻接矩阵的元素,如果 Vi 和 Vj 两节点相连,则 aij为边的权重,否则等于 0; δ 为隶属函数,当节点 Vi 和 Vj 属于同一个社团时,即当 σi = σj 时,δ( σi ,σj) = 1,否则等于
0; M = 0. 5∑aij 为网络中边的权重之和. 在网络划分结构固定,两节点的边随机连接时,
1) 忽略边的权重,以无权网络计算网络中所有连接边的边介数; 2) 将边介数除以对应边的权重得到边权比; 3) 找到边权比最高的边将它移除,并计算网络的模块性 Q 函数; 4) 重复步骤 1) 、2) 计算剩余各边的边权比; 5) 重复步骤 3) 、4) 直到网络中所有的边均被移除. 在计算中当边权比最高的边有多条时,同时移除这些边.
∑ wij wjk wki
∑ Cw H,i
=源自文库
j,k
maxj( wij)
wij wki
( 1)
j,k
式中,maxj( wij) 表示与节点 Vi 相连边中权重的最大值.
中国 PM2. 5 污染已由点到面连成片发展,根据集聚系数的定义,其可衡量局部区域的
联系程度,因此可由集聚系数来体现中国 PM2. 5 污染区域的连片程度,称为连片度,区域的
连片度定义为
∑ ∑ ∑ LR
=
1 n
n i =1
wij wjk wki
j,k
maxj( wij)
wij wki
( 2)
j,k
式中,LR 表示区域 R 的连片度; n 为区域 R 内的城市个数. 区域的连片度即为区域内所有
城市的加权集聚系数的平均值,区域的连片度越大,表明区域内各个城市之间 PM2. 5 污染
中国的 PM2. 5 污染具有较强的区域性[1-2],当前国内学者对污染严重或经济发达的京 津冀、长三角、珠三角和成渝等区域的 PM2. 5 污染时空分布特征和来源解析进行了广泛的 研究[3-6],同时也有学者分析了温度、风速等气象因素对 PM2. 5 污染的影响[7]. 区域内或区 域间的污染状况是有相互联系的,一个区域的 PM2. 5 污染不仅受到本地污染源排放的影 响,同时还不同程度地接受区域外污染物的贡献,大量研究表明 PM2. 5 污染具有区域传输 的特性[8-14]. 因此对于 PM2. 5 污染,不能仅对单一的城市进行分析,而要将城市群以及整个 区域的污染状况考虑在内,国家大型赛会期间采取的空气保障措施也表明了区域联防联 控能取得较好的效果. 目前针对 PM2. 5 区域传输的研究多采用空气质量模型,其中利用 SMOKE 模型对污染源进行处理,MM5 模型或者 WRF 模型作为气象模型,将 CAMx 模 型[8,10,14]、NAQPMS 模型[9]、CMAQ 模型[11,13]等作为空气质量模型对 PM2. 5 的传输进行研
复杂网络是具 有 自 组 织、自 相 似、吸 引 子、小 世 界、无 标 度 中 部 分 或 全 部 性 质 的 网 络[17],自 20 世纪末,关于复杂网络的 研 究 越 来 越 多,已 广 泛 应 用 在 生 命 科 学[18]、社 会 学[19]、计算机科学[20]、交通[21]等领域的研究中,在环境科学研究中应用较少. 湛敏等[22] 基于复杂网络建立了水华爆发的数值模型,李淑敏等[23]构建了土壤重金属空间分布网 络,并对其特征进行了分析,张晓勇等[24]以复杂网络为基础建立了城市 PM2. 5 扩散网络模 型. 复杂网络也被应用在对城市群的研究中,吕康娟[25]建立了长三角城市群网络,从企业 关联业务的角度对城市间的关系进行了研究,赵渺希[26]也从企业的角度对京津冀城市群 进行了复杂网络研究.
节点间存在边的可能性为 ki kj / ( 2M) ,ki 为节点 Vi 的点权. Q 函数最大值为 1,一般情况下,当其值在 0. 3—0. 7 之间时即表示划分质量较好. GN 算法的关键是计算网络中的边介数,无权网络中节点 Vi 和 Vj 间经历边数最少的
路径为最短路径,网络中任意两点间都有最短路径,当边 eij 被多条最短路径经过时,经过 的最短路径的条数即为边的介数 Bij; 当网络中某两节点的最短路径有 n 条,通过该边的 有 m 条,此时的最短路径数计为 m / n. GN 算法的具体实现过程为:
文献标识码: A
Vol. 23,Supplement July 2015
基于复杂网络的中国城市 PM2. 5 区域划分
薛 安, 耿恩泽
( 北京大学环境科学与工程学院,北京 100871)
摘要: 根据中国环境监测总站发布的 2014 年 5 月—2015 年 4 月的中国城市各监 测站点细颗粒物( Particulate Matter 2. 5,PM2. 5 ) 质量浓度小时数据,将 161 座城 市作为节点,以城市间 PM2. 5 质量浓度的相关性与距离的比值作为边的权重,构 建了中国城市 PM2. 5 加权网络,并采用 Girvan Newman 算法( GN 算法) 对网络进 行划分,得到了不同季节中国 PM2. 5 污染的区域分布情况. 结果表明,不同季节划 分结果的模块性 Q 函数均在 0. 7 左右,可采用复杂网络对中国城市 PM2. 5 区域进 行划分; 全年和四季分别划分出 7、9、13、6、8 个区域,以具体划分结果和连片度 衡量中国不同季节的 PM2. 5 污染的区域性程度顺序如下: 冬季 > 秋季 > 春季 > 夏 季; 划分结果与大气污染防治规划提出的“三区六群”范围大致相同,但区域范 围在不同季节均存在不同程度的差异.
模块性是指连接网络内部节点的边所占的比例与另外一个随机网络中连接内部节点
的边所占的比例的期望值相减得到的差值. 据此,Q 函数可定义为
[ ( ) ] ∑ Q = 1 2M i,j
aij
- ki kj 2M
δ( σi ,σj )
( 3)
No. s1
薛 安等: 基于复杂网络的中国城市 PM2. 5 区域划分
69
究. 模型以详尽的污染源清单为基础数据,可获得较好的模拟效果,但资料收集难度较 大; 同时研究范围多局限在城市或局部区域,在全国范围内开展的 PM2. 5研究较少; 在进行 区域研究时多以行政区域为界限,这可能和实际的 PM2. 5污染区域范围有一定的差别.
因此有必要开展全国尺度的城市 PM2. 5 区域研究,划分出同步性较强的污染区域,确 定城市群范围. 目前对全国大气污染区域划分的研究较少,以空气污染指数( API) 为指 标,段玉森等[15]利用经验正交函数 EOF 法将中国 47 个环保重点城市分为了 10 个区域, 王斌[16]采用聚类分析的方法将全国分为南北两个大区和细分的 11 个小区.
第 23 卷增刊 2015 年 7 月
应用基础与工程科学学报 JOURNAL OF BASIC SCIENCE AND ENGINEERING
文章编号: 1005-0930( 2015) s1-0068-011 中图分类号: X511 doi: 10. 16058 / j. issn. 1005-0930. 2015. s1. 008
因缺 失 数 据 量 很 小,因 此 忽 略 其 对 城 市 间
PM2. 5 质量浓度相关性的影响. 1. 2 复杂网络
复杂网络包含了大量个体以及个体之间
相互作用的信息,可表示为图的形式: G = ( V,
E) ,式中 V 表示节点的集合,E 表 示边的集
合,如图 1 所示.
Vi 是图中的节点,代表复杂网络中的个 体,本文中为每个城市; Eij 是图中的边,代表 个体之间的联系; Wij 表示边的权重,代表个体
2. 1 不同季节 PM2. 5 污染的区域划分概况 根据中国气候特点,本文以 2014 年 6—8 月代表夏季,2014 年 9—11 月代表秋季,
2014 年 12 月—2015 年 2 月代表冬季,2015 年 3 月和 4 月代表春季,以 2014 年 5 月— 2015 年 4 月代表全年.
关键词: PM2. 5 ; 复杂网络; GN 算法; 城市; 区域划分
近年来,随着中国经济社会的高速发展,大气污染问题日益严重. 京津冀、长三角和珠 三角等城市群的大气灰霾现象尤为严重,细颗粒物( Particulate Matter 2. 5,PM2. 5 ) 是造成 城市灰霾的主要因素. 2012 年,在中国新颁布的国家空气质量标准中,把 PM2. 5 纳入常规 检测指标,PM2. 5 成为当今大气污染研究的重点对象.
本文以复杂网络为基础,以城市为节点,以不同城市间 PM2. 5 质量浓度的相关性和距 离的比值作为边的权重,构建了包含全国 161 个城市的 PM2. 5 加权网络. 在此基础上,使用 GN 算法对加权网络进行划分,得到了不同季节中国 PM2. 5 的区域分布情况,并对划分结 果进行了对比分析.
1 研究方法
1. 1 数据及预处理
本研究所采用的 PM2. 5 数据取自中国环境监测总站全国城市空气质量实时发布平台,
共获得了 2014 年 5 月 1 日—2015 年 4 月 30 日一个顺延年内各监测点的逐小时数据,研
究时间段内共获得 161 个城市的连续监测数据. 经过对数据的处理,得到各个城市的日均
PM2. 5 质量浓度值,其中有 14 个城市缺少部分天数的数据,其中最多的缺少 6 天,最少的 缺少 1 天,对缺失数据采用内插法进行差值,
的联系越强.
1. 3 PM2. 5 加权网络的构建 对城市 PM2. 5 数据进行正态分布检验,数据总体符合正态分布特征,因此选用 Person
相关系数进行分析. 选取 PM2. 5 日均质量浓度值进行二元相关分析,得到城市之间两两的 相关系数.
将城市作为节点,城市间是否有边进行连接以其相关系数作为判别标准,当城市间的 相关系数 R > 0. 7 时,连接 2 个城市,否则不建立连接关系. 城市间 PM2. 5 质量污染的相关 程度受城市间的距离影响较大,因此以城市间 PM2. 5 质量浓度的相关系数与椭球距离的比 值归一化后的值记为边的权重. 至此构建了全国城市 PM2. 5 的加权网络. 1. 4 PM2. 5 加权网络的划分
图 1 复杂网络示意 Fig. 1 Schematic diagram of complex networks
70
应用基础与工程科学学报
Vol. 23
之间联系程度的强弱,本文中权重即为同一时间段内不同城市间 PM2. 5 质量浓度变化的相 关性和城市距离的比值.
度表示的是节点 Vi 邻边的数目,用字母 ki 表示. 集聚系数代表节点的集聚性,在无权 网络中其具体含义是当节点 Vi 与 ki 个节点相连时,ki 个节点间最多可能有 ki ( ki - 1) /2 条边,而 ki 个节点间实际存在的边数为 Mi ,此时定义节点 Vi 的集聚系数 Ci = 2Mi /[ki ( ki - 1) ]. 在加权网络中,因为边有权重值,故与无权网络中集聚系数的算法有所不同,本文 采用对权重因素考虑全面的 Holme 于 2007 年给出的加权集聚系数算法[27]
收稿日期: 2015-01-18; 修订日期: 2015-06-25 基金项目: 国家科技重大专项( 2013ZX07102-006) 作者简介: 薛 安( 1969—) ,男,博士,副教授. E-mail: xuean@ iee. pku. edu. cn
No. s1
薛 安等: 基于复杂网络的中国城市 PM2. 5 区域划分
本文采用 Girvan Newman 算法( GN 算法) 对加权网络进行划分. GN 算法是 Girvan 和 Newman 于 2001 年提出的一种基于边介数的无权网络分裂划分算法[28-29],在此基础上 2004 年 Newman 又将 GN 算法扩展到了加权网络上[30]. 为了衡量 GN 算法网络划分的质 量,Newman 等引入了模块性 Q 函数的概念[30],当模块性 Q 函数取最大值时表明网络划 分质量最好.
以连片度衡量不同季节中国 PM2. 5 污染的整体区域性强度,见表 1.
表 1 不同季节中国 PM2. 5 污染的连片度 Table 1 Contiguous degree of PM2. 5 of China in different period
71
式中,aij为网络邻接矩阵的元素,如果 Vi 和 Vj 两节点相连,则 aij为边的权重,否则等于 0; δ 为隶属函数,当节点 Vi 和 Vj 属于同一个社团时,即当 σi = σj 时,δ( σi ,σj) = 1,否则等于
0; M = 0. 5∑aij 为网络中边的权重之和. 在网络划分结构固定,两节点的边随机连接时,
1) 忽略边的权重,以无权网络计算网络中所有连接边的边介数; 2) 将边介数除以对应边的权重得到边权比; 3) 找到边权比最高的边将它移除,并计算网络的模块性 Q 函数; 4) 重复步骤 1) 、2) 计算剩余各边的边权比; 5) 重复步骤 3) 、4) 直到网络中所有的边均被移除. 在计算中当边权比最高的边有多条时,同时移除这些边.
∑ wij wjk wki
∑ Cw H,i
=源自文库
j,k
maxj( wij)
wij wki
( 1)
j,k
式中,maxj( wij) 表示与节点 Vi 相连边中权重的最大值.
中国 PM2. 5 污染已由点到面连成片发展,根据集聚系数的定义,其可衡量局部区域的
联系程度,因此可由集聚系数来体现中国 PM2. 5 污染区域的连片程度,称为连片度,区域的
连片度定义为
∑ ∑ ∑ LR
=
1 n
n i =1
wij wjk wki
j,k
maxj( wij)
wij wki
( 2)
j,k
式中,LR 表示区域 R 的连片度; n 为区域 R 内的城市个数. 区域的连片度即为区域内所有
城市的加权集聚系数的平均值,区域的连片度越大,表明区域内各个城市之间 PM2. 5 污染
中国的 PM2. 5 污染具有较强的区域性[1-2],当前国内学者对污染严重或经济发达的京 津冀、长三角、珠三角和成渝等区域的 PM2. 5 污染时空分布特征和来源解析进行了广泛的 研究[3-6],同时也有学者分析了温度、风速等气象因素对 PM2. 5 污染的影响[7]. 区域内或区 域间的污染状况是有相互联系的,一个区域的 PM2. 5 污染不仅受到本地污染源排放的影 响,同时还不同程度地接受区域外污染物的贡献,大量研究表明 PM2. 5 污染具有区域传输 的特性[8-14]. 因此对于 PM2. 5 污染,不能仅对单一的城市进行分析,而要将城市群以及整个 区域的污染状况考虑在内,国家大型赛会期间采取的空气保障措施也表明了区域联防联 控能取得较好的效果. 目前针对 PM2. 5 区域传输的研究多采用空气质量模型,其中利用 SMOKE 模型对污染源进行处理,MM5 模型或者 WRF 模型作为气象模型,将 CAMx 模 型[8,10,14]、NAQPMS 模型[9]、CMAQ 模型[11,13]等作为空气质量模型对 PM2. 5 的传输进行研
复杂网络是具 有 自 组 织、自 相 似、吸 引 子、小 世 界、无 标 度 中 部 分 或 全 部 性 质 的 网 络[17],自 20 世纪末,关于复杂网络的 研 究 越 来 越 多,已 广 泛 应 用 在 生 命 科 学[18]、社 会 学[19]、计算机科学[20]、交通[21]等领域的研究中,在环境科学研究中应用较少. 湛敏等[22] 基于复杂网络建立了水华爆发的数值模型,李淑敏等[23]构建了土壤重金属空间分布网 络,并对其特征进行了分析,张晓勇等[24]以复杂网络为基础建立了城市 PM2. 5 扩散网络模 型. 复杂网络也被应用在对城市群的研究中,吕康娟[25]建立了长三角城市群网络,从企业 关联业务的角度对城市间的关系进行了研究,赵渺希[26]也从企业的角度对京津冀城市群 进行了复杂网络研究.
节点间存在边的可能性为 ki kj / ( 2M) ,ki 为节点 Vi 的点权. Q 函数最大值为 1,一般情况下,当其值在 0. 3—0. 7 之间时即表示划分质量较好. GN 算法的关键是计算网络中的边介数,无权网络中节点 Vi 和 Vj 间经历边数最少的
路径为最短路径,网络中任意两点间都有最短路径,当边 eij 被多条最短路径经过时,经过 的最短路径的条数即为边的介数 Bij; 当网络中某两节点的最短路径有 n 条,通过该边的 有 m 条,此时的最短路径数计为 m / n. GN 算法的具体实现过程为:
文献标识码: A
Vol. 23,Supplement July 2015
基于复杂网络的中国城市 PM2. 5 区域划分
薛 安, 耿恩泽
( 北京大学环境科学与工程学院,北京 100871)
摘要: 根据中国环境监测总站发布的 2014 年 5 月—2015 年 4 月的中国城市各监 测站点细颗粒物( Particulate Matter 2. 5,PM2. 5 ) 质量浓度小时数据,将 161 座城 市作为节点,以城市间 PM2. 5 质量浓度的相关性与距离的比值作为边的权重,构 建了中国城市 PM2. 5 加权网络,并采用 Girvan Newman 算法( GN 算法) 对网络进 行划分,得到了不同季节中国 PM2. 5 污染的区域分布情况. 结果表明,不同季节划 分结果的模块性 Q 函数均在 0. 7 左右,可采用复杂网络对中国城市 PM2. 5 区域进 行划分; 全年和四季分别划分出 7、9、13、6、8 个区域,以具体划分结果和连片度 衡量中国不同季节的 PM2. 5 污染的区域性程度顺序如下: 冬季 > 秋季 > 春季 > 夏 季; 划分结果与大气污染防治规划提出的“三区六群”范围大致相同,但区域范 围在不同季节均存在不同程度的差异.
模块性是指连接网络内部节点的边所占的比例与另外一个随机网络中连接内部节点
的边所占的比例的期望值相减得到的差值. 据此,Q 函数可定义为
[ ( ) ] ∑ Q = 1 2M i,j
aij
- ki kj 2M
δ( σi ,σj )
( 3)
No. s1
薛 安等: 基于复杂网络的中国城市 PM2. 5 区域划分
69
究. 模型以详尽的污染源清单为基础数据,可获得较好的模拟效果,但资料收集难度较 大; 同时研究范围多局限在城市或局部区域,在全国范围内开展的 PM2. 5研究较少; 在进行 区域研究时多以行政区域为界限,这可能和实际的 PM2. 5污染区域范围有一定的差别.
因此有必要开展全国尺度的城市 PM2. 5 区域研究,划分出同步性较强的污染区域,确 定城市群范围. 目前对全国大气污染区域划分的研究较少,以空气污染指数( API) 为指 标,段玉森等[15]利用经验正交函数 EOF 法将中国 47 个环保重点城市分为了 10 个区域, 王斌[16]采用聚类分析的方法将全国分为南北两个大区和细分的 11 个小区.
第 23 卷增刊 2015 年 7 月
应用基础与工程科学学报 JOURNAL OF BASIC SCIENCE AND ENGINEERING
文章编号: 1005-0930( 2015) s1-0068-011 中图分类号: X511 doi: 10. 16058 / j. issn. 1005-0930. 2015. s1. 008
因缺 失 数 据 量 很 小,因 此 忽 略 其 对 城 市 间
PM2. 5 质量浓度相关性的影响. 1. 2 复杂网络
复杂网络包含了大量个体以及个体之间
相互作用的信息,可表示为图的形式: G = ( V,
E) ,式中 V 表示节点的集合,E 表 示边的集
合,如图 1 所示.
Vi 是图中的节点,代表复杂网络中的个 体,本文中为每个城市; Eij 是图中的边,代表 个体之间的联系; Wij 表示边的权重,代表个体