我国主要城市空气质量的聚类分析和判别分析

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

对我国主要城市空气质量的聚类分析和判

别分析

摘要

本文应用多元统计分析中聚类分析和判别分析的理论,使用SPSS17.0软件和spss13.0对我国主要城市的空气质量进行了聚类分析,将31个城市按照空气质量的类型分为了四类。在此基础上,对这些城市的空气质量归属进行了回报判别,结果令人满意。

关键词:spss,聚类分析,判别分析,回报判别,空气质量类型

Abstract:According to the theory of Cluster Analysis and Return Discrimination in the book of Multivariate Statistical Analysis and according to the software of SPSS17.0 and SPSS13.0 ,and processing the date of our mainly city in our county ,and classify 31 cities into four according to the air of quality .Based on the foundation ,according to Return Discrimination to make process about air quality to decide which rank belong to, the outcome is satisfactory.

Keyword: SPSS;Cluster Analysis;Discriminant Analysis;Return Discrimination Type of Air Quality

1引言

经济发展水平是衡量人民生活水平的重要指标。对各地区经济发展水平的充分认识与探究有利于调整经济发展战略,有利于各地区经济均衡发展。

聚类分析的基本思想是:在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或者变量之间的相似程度。按相似程度的大小,将样品逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品进行分类。一般地,根据分类对象的不

同,聚类分析可以分为Q型和R型两大类。Q型聚类分析是对样本进行分类处理,R型聚类分析是对变量进行分类处理。[2]

判别分析也是一种数据的分析方法。在事先已经建立了样品分类,需要将新样本归入到已知分类的样本组中时,就可以使用判别分析。

本文以8指标为变量,采用系统聚类分析Ward方法(离差平方和法),对我国31个主要城市的空气质量类型进行了聚类。并在此基础上,对这些城市的空气质量归属进行了回报判别。

2聚类分析和主要城市空气质量类型的划分

2.1指标的选取

本文选取了全国31个城市的2008年的四项空气质量指标作为对空气质量类型划分的依据,所选数据全部来自《中国统计年鉴》,具体见下表。

主要城市空气质量指标 (2008年)

单位:毫克/立方米

2.2解决问题的方法和计算结果

通过SPSS使用离差平和方法(Ward方法),计算样本的欧氏距离,样本变量按照Z得分进行标准化处理。

离差平方和法,也称沃尔德法.思想是同一类内案例的离差平方和应该较小,不同类之间案例的离差平方和应该较大.求解过程是首先使每个案例自成一类,每一步使离差平方和增加最小的两类合并为一类,直到所有的案例都归为一类为止.

采用欧氏距离,它倾向于把案例数少的类聚到一起,发现规模和形状大致相同的类.此方法效果较好,使用较广.

欧氏距离定义:欧氏距离(Euclidean distance)是一个通常的距离定义,它是在m维空间中两个点之间的真实距离。

在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是:d = sprt [ (x1-x2)^2 + (y1-y2)^2 ]

三维的公式是:

d = sprt [ (x1-x2)^2 + (y1-y2)^2 + (z1-z2)^2 ]

推广到n维空间,欧式距离的公式是:

d = sprt [ ∑(xi1-xi2)^ 2 ] 这里i=1,2..n

xi1表示第一个点的第i 维坐标, xi2表示第二个点的第i 维坐标

n维欧氏空间是一个点集,它的每个点可以表示为(x(1),x(2),...x(n)),其中x(i) (i=1,2...n) 是实数,称为x的第i 个坐标,两个点x 和y = ( y(1), y(2)... y(n) )之间的距离d(x,y)定义为上面的公式.

聚类结果将31个城市分成四种空气质量类型。聚类分析得到的聚类分析图谱如下图1所示。

表1

表2

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

11 -+

27 -+

3 -+

4 -+

15 -+

29 -+

17 -+-----+

22 -+ |

8 -+ |

9 -+ +-------------+

18 -+ | |

30 -+ | |

2 -+-----+ |

10 -+ |

6 -+ +---------------------------+

16 -+ | |

23 -+ | |

21 -+---+ | |

25 -+ | | |

13 -+ +---------------+ |

26 -+ | |

20 -+---+ |

5 -+ |

7 -+ |

14 -+ |

19 -+ |

24 -+ |

12 -+ |

31 -+-----------------------------------------------+

1 -+

28 -+

表 3

类型城市

第一类合肥,兰州,太原,呼和浩特,郑州,银川,长沙,上海,成都

第二类南京,广州,乌鲁木齐,石家庄,杭州,武汉,长春,贵阳

第三类拉萨,重庆,南昌,西安,海口,哈尔滨,沈阳,济南,南宁,昆明

第四类天津,西宁,福州,北京

从图1,2中可以看出,全国31个城市可以分为四种空气质量类型,如表3所示。

2.3结果讨论

按照表3聚类分析的分类结果,可以将我国31个城市的空气质量类型分为四类:优、良、污染和轻微污染。

第一类型的城市空气质量良好。

第二类型的城市属于轻微污染型,这些城市的工业类型多以轻工业为主,对大气环境的污染较轻。

第三类型的城市空气质量优,尤其是拉萨,作为我国独具特色的一个旅游城市,在发展经济的同时,特别需要将环境保护的重要性提上日程,不可再走先污染后治理的道路。

第四类型的城市属于污染型城市,这些城市人口密集、交通拥挤、工业发达,像北京是全国的政治文化中心,汽车拥有量很大,汽车尾气的排放对环境的污染

相关文档
最新文档