空间大数据挖掘和异常点分析

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

空间大数据挖掘和异常点分析
作者：陈文婧叶雪媛刘万华邱晨罗田
来源：《科学与财富》2018年第12期
摘要：为了进一步研究空间数据，本文决定以pm2.5数据为例来进行处理。

首先基于南京、扬州、无锡三个城市pm2.5数据的横向比较，可知2017年11月30号的异常点是由于空气湿度或节假日的影响。

然后对影响空气质量的多个因素进行聚类，发现PM2.5与PM10，风速具有显著相关关系。

使用时间序列模型ARIMA（2，1，0）对pm2.5数据作出了短期预测，预测结果与实际结果趋势相同，但不够精确，分析模型的不足，最终提出了改善方法。

关键词：空间数据，异常点，聚类分析，ARIMA模型
一、引言
空间大气数据具有来源广，类型格式复杂且相互之间不兼容的特点。

本文着重研究大气空间数据的挖掘和异常点分析以及后期的研究路径。

二、数据清洗及异常点分析
11.27-3.12期间（除春节假期外）我们统计了南京，扬州，无锡三个城市24小时的，3000多条空气指标数据。

考虑到此次空气指标数据是由团队协作统计得来，数据记录习惯的差异使得整体数据的质量很难达到数据仓库的要求，因此首先要进行数据清洗。

2.1空缺值的填充
首先极大可能的填写空缺值，为了保证空缺值与其他数据之间的联系，必须选择依靠现有的数据进行处理得到缺失值，是一种有用的背景知识，它使得原始数据可以在较高的、一般化的抽象层上进行处理，可以用最常出现的概念填充空缺值。

如以南京环境监测站对南京空气污染物检测的数量为例，数据中PM2.5属性列中有一个空缺值，假设已知有三个模糊概念Low， medium， nigh。

对于这三个概念分别计算己有数据的平均隶属函数值，然后我们选择medium进行空缺值填充。

2.2 错误数据的筛选
范围检验是数据清洗的最简单形式，它是指检验一个字段中的数据以保证它落在预期范围之内，通常是数字范围或日期范围。

在气象数据中，有时会存在超标的数值，这些对于分析气象信息会起到误导的作用，因此针对这些数据通过有效值检验来清洗。

例如，可以通过浓度分布分析来确定错误值，来确定需要删除记录的错误值。

2.3 数据属性值的统一
数据源来自于多个数据库，数据的格式，属性或维的命名都不一样，可能是由于表示、编码、比例的不同引起的。

为了避免无法匹配与识别的问题，将不同存储格式的数据进行格式统一，最后将多组数据进行数据合并。

2.4 PM2.5的浓度异常值分析
根据该数据的趋势变化以及浓度值的分析，判断PM2.5在无锡地区的2017年12月4号和7号出现异常数据，出现异常峰值。

而在2017年11月30号的南京出现异常负值，可能原因为PM2.5分析仪是采用微量振荡天平法测量，随着空气中湿度的增加，从某日凌晨开始，随着降雨量的逐渐增加，空气中颗粒物先逐渐降低，随着雨量进一步增加，环境空气中的颗粒物已经趋于较低水平，此时滤膜上水汽的挥发量远大于颗粒物浓度的增加量，导致测量值出现负数。

在日常数据审核中，除了一些记录仪器的故障外还会存在某一天由于节假日影响和政府政策发生较大的变化而出现异常偏高的现象，因而该类数据在有效性审核中还不能予以剔除，应予以保留。

三、聚类算法
4.1聚类思想
聚类分析主要是根据实体的特征对其进行聚类，将描述个体的数据集划分成一系列相互区分的组，使得属于同一类别的个体之间的差异尽可能小，不同类别的个体之间的差异性尽可能大，从而发现数据集的整个空间分布规律和典型模式。

根据空间聚类采用的不同思想，空间聚类算法主要可以归纳为以下几种：基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及其他形式的聚类算法。

本篇主要以基于划分的聚类算法为主要研究方法。

空间聚类的内部度量原则主要有两个：聚类内部距离和聚类间的距离。

聚类内部距离是指聚类内部间的平均距离，它反映了聚类的紧凑性和聚类算法的有效性；而聚类间的距离是指两个聚类间所有会话的平均距离。

对于良好的聚类算法来说，聚类内部距离应较小，聚类间的距离应较远。

聚类间距离：假设n个空间对象被聚类为K个簇，定义聚类间距离为所有分中心到全域中心的距离之和：，式中，L表示聚类间距离，m为全部空间对象的均值，为簇所含空间对象的均值K为聚类个数及聚类区间。

聚类内部距离：假设n个空间对象被聚类为K个簇，定义聚类内部距离为所有聚类内部距离的总和：其中D为内距离，p为任一空间研究对象，为簇C所含空间对象的均值。

4.2 结果分析
以最短距离法为例，对采集到的南京的空间数据做聚类分析，得到以下类谱图：
当分为五类时，湿度与SO2显著相关，PM10和PM2.5显著相关，O3和NO2显著相关，CO，风速各为一类。

可见聚类结果合理，因为PM2.5与PM10为同一类污染物，通常为伴生
关系，而SO2可溶于水，因此控制SO2浓度可从增加空气湿度入手，可有效降低空气中SO2
浓度，防止酸雨的形成，而居民也可以通过放置加湿器来净化空气质量。

四、短期预测
以南京地区PM2.5为例进行短期预测，我们考虑使用时间序列建模：首先对不平稳数据
进行一阶差分，再对差分后数据拟合ARIMA模型，其中ARIMA（2，1，0）拟合程度最高。

模型如下：
采用该模型预测未来10期数据并与真实值比较，结果如下：
可见预测值与真实值有出入，预测值波动范围小（方差0.08），真实值波动范围大（方差29.43）但是趋势和真实值一样，都是先下降再上升。

下面我们对模型不准确的原因作出推测：
1）数据有24期的周期性，ARIMA模型没有和好的拟合周期性。

2）没有考虑到PM2.5数据的特殊性（受其他天气因素影响大）
五、结论与展望
三座城市中，无锡和南京的PM2.5分布情况高度相似，扬州的PM2.5浓度偏高，变化趋
势与无锡南京相同，但是有约3天的滞后。

三座城市的PM2.5浓度都有轻微的下降趋势。

通过聚类分析，我们发现PM2.5与PM10有显著的相关关系，，浓度与风速相关，浓度与湿度相关。

最终，本文提出了一种基于时间序列模型ARIMA（2，1，0）的PM2.5预测模型，该模
型简单实用便于操作。

但是精度尚需提高，预测期数也较短。

可筛选一半数据用x-11模型或
引入风速因子加以完善。

参考文献：
[1] 董彦磊，申德荣，寇月，等. 数据空间中数据组织模型以及关联关系发现模型的研究[J]. 计算机研究与发展. 2009， 46（z2）： 566-574.
[2] 孔令彦，关丽，丁燕杰，等. 空间大数据支持下的城市区域评估及其关键技术[J]. 测绘通报. 2017（8）： 100-105.
[3] 谭鹤毅. 大数据背景下的空间数据挖掘研究[J]. 消费电子. 2014（24）： 181。