我国主要城市空气质量面板数据聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我国主要城市空气质量面板数据聚类分析
我国的空气质量问题牵动着千千万万老百姓的心,为了深入了解全国31个重要城市的空气质量和空气污染方面的差异,根据地方的不同,制定不同的污染防范和治理措施,了解各地的环保态势和水平,运用面板数据的聚类分析方法对全国31个省会城市的从2006到2012年的空气质量达到及好于二级的天数,以及可吸入颗粒物这两个指标的地区差异进行实证分析。
标签:城市空气质量;面板数据;聚类分析
1引言
自从改革开发以来,我国的经济发展取得了显著的进步。但是,经济的发展也带来了一系列隐患,其中最重要的一条就是环境问题。目前,我国乃至全世界的环境污染问题都十分的严峻。最近,环境污染重最引人关注的一项就是空气质量问题。PM2.5、雾霾等等已经成为经常挂在嘴边的话语。今年我国空气质量标准的重新修订,特别把PM25纳入监测内容,并已经开始在多个试点城市开始运作,加强了政策实施的力度和强度,体现了国家对空气污染的高度关注。尽管我国政府制定并不断完善了法律法规体系,使环境保护取得了一定的进展。但环境形势非常严峻的状况仍然没有太多的改变,发达国家用了百年时间完成了工业化,相比之下我国完成现代化的时间非常之短,这也不可避免的引起环境污染在我国近20多年来集中出现,呈现复合型、结构型、压缩型的特点。表现为许多城市空气污染严重,雾霾出现频繁,主要污染物的大量排放量超过了环境承载能力,等诸多大气环境问题。由此我们可以认识到,污染的防治不仅仅是一个环境问题而且是重大的经济和政策问题,是一个关系到国计民生的问题。为了深入的了解全国各大城市空气污染的差异,更好的把握防治空气污染的力度,本文应用单指标面板数据的聚类分析方法对全国31个主要城市从2006到2012年的空气质量达到及好于二级的天数,以及可吸入颗粒物这两个指标的地区差异进行实证分析。
2单指标面板数据的聚类分析
计量经济学模型在分析经济问题的时候只是利用了时间序列或者截面数据中的二维数据的信息,例如使用一个或者若干经济指标的时间序列建模或不同样本的横截面数据建模。然而,在分析实际经济问题中,这种仅利用二维信息的模型在很多时候往往不能满足人们分析问题的需要。近些年来,面板数据的理论研究和应用研究得到了较为广泛的应用和发展,但是主要都是面板数据的模型参数估计方法的研究以及计量建模。但是很少学者能够把其应用到多元统计分析中来Bonzo D.C.和Hermosilla A.Y.(2002)将面板数据应用到多元统计分析中来。Bonzo D.C.运用概率连接函数(probability link function)和遗传算法改进聚类分析的算法,从而对面板数据进行聚类分析。本文试图结合了聚类分析的基本思想对单指标面板数据进行聚类分析的方法进行研究和实证分析。
2.1聚类分析原理
聚类分析(cluster analysis)是一类将数据所研究对象进行分类的统计方法。这是一种无监督的聚类方法。这一类方法的共同特点是:事先不知道类别的个数与结构;分析的依据是对象之间的相似性或者是相异性。把相似性或者相异性的大小或者差距看作是对象之间的“距离”远近的一种有效度量,将距离近的对象归为一类,并且不同类之间的对象距离较远,这是聚类分析的分析方法和共同思想。
面板数据也称作时间序列与截面混合数据,是截面上个体在不同时点的重复观测数据。面板数据用双下标变量yit表示,其中i=1,2,…,N;t=1,2,…,T。其中i对应面板数据中的不同个体。其中N表示这个面板数据中含有N个体总数。面板数据的聚类分析首先将不同个体独自成一类,一共分为N类。第二步是把相似程度最接近的两个的面板数据指标聚成一类,其他的仍独自为一类,共有N-1类。最后一步仍是将相似程度最为接近的两类聚成一类,这样一直进行下去直到最后得到的面板指标聚成一类。
2.2Ward方法
Ward方法的大体思想是这样的:首先我们确定一个关于每个类别聚类优劣的指标,也就是说,如果某一类聚集的越紧密,我们就认为聚合的越好,这些数据应该被聚合为一类,这时候我们引入离差平方和作为一个有效的指标,也就是说某一组的离差平方和越小,就说明这一类聚集的越紧密,反之说明某一类离散程度较高。同一类的离差平方和是:
wk=i∈Gk(xi-xk)T(xi-xk)
现在我们考虑的是如何确定哪两个组合成一类,假设有这两个类别:Gk和GL两个类别组合之后为:GM我们要使得增加的离差平方和最小,也就是说D2KL=WM-WK-WL最小,这就是,Ward方法,也就是离差平方和法的思路,但是我们首先需要对数据进行有效的预处理,也就是说,一般要进行标准化,和异常值处理,Ward的缺点之一就是对异常值过于敏感。
3实证分析
目前,关于空气质量问题的讨论在我国愈演愈烈,关于如何治理雾霾已经成为一个全国性的议题。中国将在北京建造全世界最大的雾霾实验室,初步预算为五亿,这也体现了国家对如何治理雾霾的探究的重视,本文试图应用面板数据聚类分析对中国31个主要城市的空气质量的地区性差异进行分析(数量来源:中国统计年鉴:2007-2013)。
通过分析2006到2012年的空气质量达到及好于二级的天数,以及可吸入颗粒物这两个指标的的直接面板数据,我们可以看出一个很很明显的趋势,就是空气质量的整体水平并没有在不断下降,因为空气质量达到及好于二级的天数,一直在一个稳定的水平,并没有减少的趋势,而且可吸入颗粒物这个指标也没有有
增加的趋势。但是这并不能反映我国空气质量的地区差异,所以我们有必要对其进行聚类分析。
从上面的聚类分析的原理,选择欧氏距离作为相似指标,并且根据公式二逐步聚类,对是2006到2012年的空气质量达到及好于二级的天数进行聚类分析,得到聚类树形图,如图1示。从图1中可以看出兰州、北京、乌鲁木齐的空气质量最差,所以被聚集在一起,这是由于在这些城市中经常有空气流动性不大的时候,特别是冬季的时候雾天出现频繁,气象学角度来看,有雾的时候往往意味着大气比较稳定,而稳定的大气又容易使污染物聚集,所以大雾天通常会伴随着或轻或重的污染情况。但是最根本的原因还是这些城市要么是工业区,要么就是冬季供暖需求非常大的城市,加上汽车,工业等原因,加强了空气质量的恶化。而空气质量比较好的海口、拉萨、昆明这些旅游城市由于绿化面积高,更加接近大自然,同时工业化程度并没有那么高,并且空气流动性大。所以全年的空气质量达到及好于二级的天数较多。
从图2中可以看出,聚类的结果很相似,但是可以更加直观的看到海口和拉萨这两个城市的空气质量独树一帜,风景这边独好,但是兰州、乌鲁木齐、西宁、北京、西安这五个城市的空气质量还是最差,这也与每年的中国城市空气质量的排名是重合的。那么处于中间阶层的南宁、福州、广州、昆明、呼和浩特、南昌、上海、贵阳市处于中上水平。合肥、济南、成都、南京、郑州、天津、银川、哈尔滨、杭州、重庆、长沙、太原、石家庄、沈阳、武汉处于中下水平。
图12006到2012年的空气质量达到及好于
二级的天数指标聚类分析图22006到2012年的空气质量PM10指标的聚类分析4结论与政策建议
空气质量不断下降,雾霾天气一直持续,并不是今年的新现象。最近几年,每到秋冬特别是入冬以后,我国中东部地区就不时会遇这样的情况,其中既有气象原因,也有污染排放原因。现在国内大多数城市中影响空气质量最重要的因素仍是可吸入颗粒物和PM2.5。那么这些污染物的源头从哪里来呢?从监控的数据和科学研究的成果来看,主要有以下几个重要来源:首先是来自工业生产,特别是水泥和化工能源产品的污染,这是最主要的造成PM2.5和PM10即可吸入颗粒的来源。燃煤也是一个导致雾霾的主要原因,在北方火力发电时主要的供电来源,但是燃煤必然会带来大量的灰尘和有毒气体。其次就是由于汽车和土地荒漠化带来的土壤尘。
为了减少空气中的可吸入颗粒物和减少雾霾的危害,从政府的环境报告和实际行动来看,近年来,政府采取了卓有成效的措施:例如:把燃煤和化工产业进行转移,搬到空气流动,人员密度较低的地区,下大力气关闭了大量市民反响强烈的水泥生产线和工业企业;在合理规划的基础上科学施工,加强了对沙石料厂的管理,有的甚至强行取缔或搬迁;大力发展公共交通,鼓励大家绿色出行;宣扬环保理念,发动全民植树造林,保护植被等等。