基于POI数据的城市功能区识别方法研究

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于POI数据的城市功能区识别方法研究
蒋云良;董墨萱;范婧;高少文;刘勇;马新强
【摘要】提出了基于兴趣点数据对城市不同区域的功能进行识别的思想,根据手机基站位置将城市划分为基本单元,对基本单元中的兴趣点统计数据提出3种处理方案,并进行了模糊聚类分析,通过带有明显类别特征的兴趣点分布与聚类结果进行重叠率计算,从而确定了区域功能.为验证方法的有效性,选取浙江省杭州市一定范围内的城市区域进行实验.实验结果表明:根据兴趣点数据对城市功能区进行识别,能较好地实现城市区域的功能划分与特征分析,有助于对城市发展作出建设性规划.%Due to the rapid development and evolution of cities , the functional area of city became different from early planning .Decision makers often did not know the current spatial structure of the city quickly and
accurately .However , the data gathered from city brought some new thoughts of understanding the city life to people, people could identify urban regions of different functions from POI (Point of Interest) data.First, one could divide urban space with the locations of mobile base
stations .Second , fuzzy clustering could be used to analyze the POI data which could deal with three different plans .At last, one could identify the function of the result from fuzzy clustering by the distribution of POI data with noticeable features .The method was evaluated in a certain area of Hangzhou , Zhejiang Province .The results justified that identifying urban regions of differ-ent functions from POI data succeded in dividing urban regions and feature analysis , and provided technical support for urban
structure layout and land use , and provided realistic basis for effective use of urban space .
【期刊名称】《浙江师范大学学报（自然科学版）》
【年(卷),期】2017(040)004
【总页数】8页(P398-405)
【关键词】城市计算;城市功能区;兴趣点;归一化;模糊聚类
【作者】蒋云良;董墨萱;范婧;高少文;刘勇;马新强
【作者单位】浙江师范大学数理与信息工程学院,浙江金华 321004;湖州师范学院信息工程学院,浙江湖州 313000;浙江师范大学数理与信息工程学院,浙江金华321004;湖州师范学院信息工程学院,浙江湖州 313000;浙江大学控制科学与工程学院,浙江杭州 310027;浙江大学控制科学与工程学院,浙江杭州 310027;浙江大学控制科学与工程学院,浙江杭州 310027;重庆文理学院机器视觉与智能信息系统重点实验室,重庆 402160
【正文语种】中文
【中图分类】TP391
随着城市化进程的日益加快及城市规模的飞速膨胀，一系列城市问题接踵而至，特别对于一些省会城市或者大都市来说，城市问题尤为严重.“城市病”主要表现为交通拥堵、住房紧张、供水不足、能源紧缺、环境恶化、就业困难等，给城市造成了负担，甚至制约了城市的发展，还容易引发市民的身心疾病等[1].近年来，一些专家学者利用各种异构大数据进行“城市计算”，以解决城市化带来的问题.城市计算是一个交叉学科，是计算机科学中以城市为背景，与城市规划、交通、能源、
环境、社会学和经济学等学科融合的新兴领域，通过不断获取、整合和分析城市中多种异构大数据来解决城市所面临的挑战(如环境恶化、交通拥堵、能耗增加、规
划落后等)[2].其中，城市规划是城市计算主要涉及的应用之一，进行城市规划需要了解城市各功能区域的分布情况.城市功能区指的是土地使用功能、使用强度、土
地利用方向、基准地价大体一致的区域，它们的集约利用程度和使用潜力也基本相同，比如文教区、商业区和住宅区等[3].
虽然，通过现场实际调查可以更为准确地了解城市各功能区域的分布情况，但需耗费巨大的人力、物力资源，且调查结果不全面，成本过高.基于人们在城市生活中
产生的数据分析功能区更加快速、有效，且节省了人力、物力成本.因此，本文着
眼于“功能区”这一概念，设计了一种基于兴趣点(Point of Interest，POI)数据
识别城市功能区的算法,使用POI数据对城市的各个区域进行了功能识别，并使用
手机基站位置信息划分城市基本单元.
目前，国内外学者对于城市功能区的研究主要为利用手机数据[4-9]、浮动车数据[4,9-10]及POI数据[4,8,10-11]等.其中，POI数据被广泛地用于城市功能区的发
现中.在GIS系统中，一条POI数据可以是一个小区、一个店铺、一个公交车站等，其内容包括名称、经纬度、详细地址、POI类别及联系电话等参数[12].袁晶等[4]
提出了一个利用出租车GPS轨迹数据和区域POI数据构成的Discovers Regions of Different Functions框架；杜润强等[8]在解决无规律切换的手机停驻点时使用了POI数目最多的主题类作为小区的主题对相邻小区进行合并；于翔[10]使用公
交IC卡刷卡数据及POI数据构建了城市功能区识别模型.POI数据包括的类型全面，涉及各个层面，且抓取十分方便，这也是POI数据被广泛使用的原因之一[12].
现有研究利用手机基站的位置画Voronoi泰森多边形用于分割城市基本单元：在
利用手机用户产生的动态数据识别土地使用和动态人口关系时，Toole等[5]提出
了利用基站位置信息对地图进行区域划分的思想；在使用手机基站网络产生的信息
来自动识别划分土地使用情况的技术时，Soto等[6]也提出了使用基站的位置信息对地图进行区域划分的思想.
目前，也有学者按照网格划分城市区域，基于此划分方法的聚类结果受网格粒度的影响，粒度过大，单个网格可能会合并2个或2个以上的功能区域，例如城市中
心区域；粒度过小，单个网格中可能会出现兴趣点数量过少或不存在兴趣点的情况，例如城市边缘区域.利用基站划分城市区域具有一定的自适应性.中国三大运营商的
手机基站已基本实现城市区域的无缝覆盖，基站位置主要根据人口密集度、是否有阻碍物和城市规划确定，居民小区、商务楼或是学校等普遍拥有该区域专属的一个或几个基站，单个专属基站覆盖的区域具有单一功能.所以，本文选用手机基站位
置信息划分城市基本单元，并提出了3种不同的方案处理POI数据，根据3种结
果对城市单元区域(基站)进行聚类，使用带有明显类别特征的兴趣点在城市空间的分布与聚类结果进行重叠率计算，从而识别各单元区域(基站)的功能.最后，根据城市实际的分布情况对3种处理POI类别分布矩阵的方案进行对比，并根据区域吻
合度对本文提出的识别城市功能区的方法进行评价.
本文基于Voronoi泰森多边形的思想，使用手机基站的地理信息，将城市划分为
各个基本单元，并通过POI数据对城市不同区域的功能进行识别，其具体识别过
程如算法1所示.
算法1 使用POI数据识别城市功能区
输入:基站经纬度；POI经纬度；POI类别.
输出:城市功能区识别结果.
步骤1:地图分割：将地图栅格化，寻找离各栅格最近的基站，得到各基站覆盖的
栅格号列表，即以基站的经纬度信息利用Voronoi泰森多边形的思想将研究区域
划分为各个基本单元.
步骤2:基站POI分布：根据基站经纬度、POI经纬度，得到各基站下的所有POI
分布情况.
步骤3:基站POI分布特征：根据POI的类别参数得出各基站不同类别的POI分布矩阵，并采用3种不同方案对其进行处理.
步骤4:聚类：对处理后的POI分布矩阵进行聚类分析.
步骤5:识别城市功能区：对聚类后各基站的功能进行识别，即识别研究范围内各
区域的功能.
1.1 地图分割
用手机基站的经纬度数据划分城市的基本单元.
首先，将地图进行栅格化处理.取经纬度0.000 1°×0.000 1°(在纬度30°附近约为9.6 m×11.1 m)作为一个单位栅格对地图进行分割，并对所有栅格进行编号.其次，根据手机基站位置分割地图.基于Voronoi泰森多边形的思想，利用手机基站位置分割地图，即计算每个栅格与基站的距离，并规定该栅格属于离它最近的基站，得到各基站所覆盖的栅格号列表，这一计算结果与Voronoi泰森多边形的计算结果
基本相符.
1.2 POI数据处理
首先，寻找POI所属的基站，其方法类似栅格归属计算，即通过计算各个POI与
各个基站的位置距离，找到离该POI最近的基站，并判定此POI属于该基站，得
到各个基站范围内的所有POI列表.其次，根据POI数据中“POI类别”这一参数对各基站范围内不同类别的POI个数进行统计，得到基站POI类别分布矩阵D.最后，由于现有的基站POI类别分布矩阵D并没有考虑基站的面积因素，所以还需
要对矩阵D进行进一步处理.考虑到面积因素，本文提出了3种处理POI类别分布矩阵的方案.
方案1 按计算各基站单位面积的POI分布密度的方式处理矩阵D，得到用于聚类
的矩阵U.
根据式(1)计算基站的单位面积的POI分布密度矩阵
式(1)中：U为最终用于分析的矩阵，维数为n×m；uij∈U为类别为i的POI在第j个基站的单位面积的个数；D为POI类别分布矩阵，维数为n×m；E为维数是m×1的单位向量，其每个元素都为1；S为基站面积向量，维数为1×n；n为基站数;m为兴趣点类别数.
方案2 直接对矩阵D进行归一化处理，得到用于聚类的矩阵A.
归一化是一种无量纲处理手段，使物理系统数值的绝对值变成某种相对值关系，它能简化计算，是缩小量值的有效办法.使用式(2)[13]将POI类别分布矩阵D归一化到[0,1]的区间内，所得结果矩阵为A，A的维数为n×m，n为基站数，m为兴趣点类别数.
式(2)中：x*i为归一化后的第i个样本值;xi为样本中第i个样本值;xmax为样本中的最大值;xmin为样本中的最小值.
方案3 结合基站面积因素，以归一化的方式处理矩阵D，得到用于聚类的矩阵Y. 考虑到基站POI类别分布矩阵D与基站的面积向量S的量纲不同，使用式(2)分别对两者进行归一化处理，将矩阵D与基站面积向量S归一化到[0,1]的区间内，得到归一化后的矩阵A与向量X，并通过式(3)将矩阵A与向量X进行结合,即
式(3)中：Y为最终用于分析的矩阵，维数为n×m；A为POI类别分布矩阵D根据式(2)归一化后的矩阵，维数为n×m；X为基站面积向量S根据式(2)归一化后的向量，维数为1×n；n为基站数;m为兴趣点类别数.
1.3 聚类
采用模糊聚类方法中的C均值聚类算法分别对矩阵U、A和Y进行聚类分析，并进行聚类结果可视化.模糊聚类分析一般是指根据研究对象本身的属性构造模糊矩阵，并在此基础上根据一定的隶属度确定聚类关系.模糊C均值聚类算法将n个向量分成c个模糊组，并求得每组的聚类中心，使得非相似指标的价值函数达到最
小[14-15].
利用FCM聚类算法，设置聚类类别参数c，将基站划分为c种不同的类，得到各基站隶属于各类的可能性列表.然后，提取各基站在各类可能性中的最大值所属的类，定义该类为该基站所属的类别，得到各基站所属类别列表，并对聚类结果进行可视化.
1.4 功能识别
将具有一定类别属性的POI和基站的聚类结果在地图上进行重叠，并通过计算重叠率来识别各基站功能，进而确定城市相应区域的功能，详细计算过程如算法2所示.算法2中:pi表示“POI类别”中特征比较明显的一个类别，如“居住”或“工作”等；聚类类别为cj的基站表示聚类结果中划分为cj类的基站；步骤2中的放大倍数由pi本身的特征所决定，如“居住”类别的兴趣点一般为一栋房子，而一栋房子的覆盖面积约为30 m×30 m =900 m2，若按纬度30°附近的0.000 1°×0.000 1°，即9.6 m×11.1 m为一个栅格的面积计算，则类别为“居住”的兴趣点应以该兴趣点所在的栅格为中心放大9倍，即以该兴趣点所在的栅格为中心的3个栅格×3个栅格的长方形区域.
算法2 计算POI类别为pi的POI与聚类类别为cj的基站在地图上的分布的重叠率
输入:POI类别为pi的POI经纬度；聚类类别为cj的基站号；各基站所覆盖的栅格号列表.
输出:重叠率overlapRatio.
步骤1:根据POI类为pi的各个POI经纬度，找出它们所在栅格号.
步骤2:根据pi的特征放大面积，即以步骤1得到的栅格号为中心向东南西北4个方向将面积放大到一个长方形区域，并得到此长方形区域覆盖的所有栅格号.
步骤3:统计步骤2得到的所有不重复的栅格号，此集合记为Pi.
步骤4:根据聚类类别为cj的基站号和各基站所覆盖的栅格号列表，找到聚类类别
为cj所覆盖的栅格号，此集合记为Cj.
步骤5:根据式(4)计算栅格重叠率(overlapRatio).
选取浙江省杭州市一定范围内的矩形区域为研究对象，以单个手机基站范围为单位区域，使用百度2016年2月杭州市一定区域的POI数据对功能区识别方法进行
验证.
2.1 划分区域
选取浙江省杭州市如图1所示经度120.040°～120.410°、纬度30.090°～30.400°范围内的矩形区域作为研究对象，将区域划分为0.000 1°×0.000 1°(约为9.6
m×11.1 m)的栅格，并根据杭州市某运营商的手机基站经纬度数据，使用栅格归
属计算方法划分城市单位区域，划分结果如图2所示.
2.2 POI数据处理
百度POI数据在国内被普遍使用，在城市空间分布上和实际情况基本吻合，保证
了数据的准确性与可靠性，故提取百度在研究范围内的POI数据进行研究.该数据
包括研究范围内大于11万条的POI信息，包含POI的名称、经纬度、详细地址、POI类别及联系电话等参数.
根据“POI类别”参数将POI数据分为购物、工作、居住、旅游、高校文教、小
学幼儿园、中学、医疗、文化娱乐、生活服务、金融服务、汽车服务、车站、停车场、美食及酒店16大类.将研究区域内各基站范围内的POI数据根据16大类进行统计，建立POI类别分布矩阵D.POI类别分布矩阵D如下所示:
其中:pi表示POI类别;i=1,2,…,16.最后，根据3种方案分别对分布矩阵D进行处理，得到3个不同的矩阵(U,A和Y).
2.3 聚类
采用FCM聚类方法对3个矩阵(U,A和Y)进行聚类分析.设置参数c=4，即将研究
区域分为4类不同的功能区域，聚类结果如图3所示.对聚类结果进行可视化时，若基站6被定义为第2类，而可视化中定义第2类的颜色为颜色1，则属于基站6的所有栅格都被标记为颜色1.
从图3的3张图来看，3种方案的聚类结果基本相似，特别是颜色1区域的一致性非常高.颜色3区域和颜色2区域的分布也比较吻合.不同的是，相比图3(b)和图3(c)，图3(a)的颜色4区域占整个面积的比重较大，而图3(b)和图3(c)只有极少部分不相同.
2.4 功能识别
选取“POI类别”参数中的“居住”、“工作”和“旅游”3大特征值进行基站功能识别.根据重叠率的计算方法，对3种聚类结果进行重叠率计算，计算结果如表1～表3所示.在放大兴趣点面积时，结合实际情况，对类别为“居住”和“工作”的兴趣点的面积放大至以每个兴趣点所属栅格为中心的3个栅格×3个栅格的长方形区域；而对类别为“旅游”的兴趣点放大至以每个兴趣点所属栅格为中心的9个栅格×9个栅格的长方形区域.
根据表1～表3的计算结果，首先可以判定图3(a)、图3(b)和图3(c)中的颜色1区域的功能应为“居住区”，颜色3区域的功能应为“旅游区”，因为它们的重叠率比其他颜色的高出很多.其次，3种方案中，“POI类别”为“工作”的重叠率计算结果的最大值也是在颜色1区域，但由于“居住”与颜色1区域的重叠率远高出它与其他颜色区域的重叠率，显然颜色1区域应为“居住区”，而非“工作区”.另外,“工作”与颜色4区域和颜色2区域的重叠率相对也不低，故颜色4区域和颜色2区域中必定有一个的功能为“工作”.在实际情况中，“居住区”往往与“工作区”密不可分，两者在地理位置上往往是相邻的，且图3中与颜色1区域相邻最多的为颜色2区域，颜色4区域大多与颜色2和颜色3区域相邻，因此，颜色2区域应为“工作区”.最后，图3中区域A为杭州著名的西湖景区，包
括西湖、龙井、灵隐等，这一区域地形多为山区，所以，该区域除了POI类别为“旅游”的POI外，其余类别的POI分布很少，甚至有些基站范围内基本没有POI分布.图3(a)中，A区域明显由颜色3和颜色4组成，而颜色3区域的功能已
被判断为“旅游区”，所以颜色4区域的功能即为POI分布较少的“人迹罕至区”.
经以上分析可知，图3中城市各区域的识别结果如下所述：颜色1区域为“居住区”；颜色2区域为“工作区”；颜色3区域为“旅游区”；颜色4区域为“人
迹罕至区”.
从3种处理POI类别分布矩阵的方案对比及区域吻合度2个方面对本文提出的识
别城市功能区的方法进行评价.
3.1 方案对比
首先，图4(a)、图4(b)和图4(c)分别是研究区域内POI类别为“居住”、“工作”和“旅游”的分布热力图.对于3种处理POI类别分布矩阵的方案，在以杭州为例的聚类结果中得到了3种如图3所示的不同效果.图3(a)与图3(b)、图3(c)不同的部分主要为颜色4区域，叠加图4(a)、图4(b)和图4(c)，即叠加“居住”、“工作”和“旅游”三类POI后可知，实际上颜色4区域的分布应基本与图3(b)、图
3(c)分布相似，所以方案2和方案3的处理结果要优于方案1.
其次，图5为相同经纬度条件下方案3对“旅游区”的识别结果在百度地图上的
投影，图中灰色部分即为方案3对“旅游区”的识别结果在地图上的分布.方案2
和方案3在图3显示的结果中差异最大的部分即为图5中对“良渚文化村”和“钱清镇附近景区”2个区域的判断，显然，这2个区域应该被识别为“旅游区”.因此，方案3的处理结果又优于方案2.
综上可知,第3种方案是本文提出的3种方案中效果最好的，其处理结果对于最后
城市区域的功能识别也是3种方案中最准确的.
3.2 区域吻合度
由上可知，方案3是3种方案中效果最好的，故采用方案3的聚类结果对区域的吻合度进行分析.图6为根据方案3的聚类结果在研究范围地图上的投影图.
1)“居住区”吻合度：图4(a)中兴趣点为“居住”的分布热力图可以认为是研究区域范围内居住区的真实分布.对比图4(a)和图6中颜色1(居住区)在地图上的投影发现,两者基本吻合.
2)“旅游区”吻合度：根据图5所示，方案3的处理结果对“旅游区”的识别在百度地图上的投影也与实际基本相符.实验结果对覆盖“良渚文化村”、“西溪湿地”、“西湖风景区”和“湘湖”等景区的基站功能做出了准确的识别.
3)“工作区”吻合度：图4(b)中兴趣点为“工作”的分布热力图可以认为是研究范围内工作区域的真实分布.对比图4(b)和图6中颜色2(工作区)在地图上的投影发现,两者基本吻合.
综合上述1)，2)和3)的吻合度分析可知，本文提出的根据POI数据识别城市功能区的方法对城市区域功能的识别结果与实际情况基本吻合.
本文提出了一个根据POI数据识别城市功能区的方法，并结合杭州市一定范围的区域进行功能区识别实验.实验结果表明，本文提出的基于POI数据进行城市功能区划分的方法对城市功能区的识别结果基本准确，说明该方法切实可行.这对了解城市现有的土地使用情况，分析现有的城市空间的不合理规划，开展城市格局规划具有指导性意义.
随着大数据时代的来临，从网络上获取开源数据变得十分便利，国内外相关领域的学者也逐渐将目光转向研究如何挖掘网络大数据，提取有效信息，整合异构数据，利用不同数据源为人类提供服务等.下一步将结合POI数据的使用，进一步分析与城市规划相关的各类数据，如人的活动模式、人流量大小等，期望能进一步提升功
能区识别的准确性.
【相关文献】
[1]段小梅.城市规模与“城市病”——对我国城市发展方针的反思[J].中国人口\5资源与环
境,2001,11(4):133-135.
[2]郑宇.城市计算概述[J].武汉大学学报:信息科学版,2015,40(1):1-12.
[3]辜寄蓉,陈先伟,杨海龙.城市功能区划分空间聚类算法研究[J].测绘科学,2011,36(5):64-67.
[4]Yuan Jing,Zheng Yu,Xie Xing.Discovering regions of different functions in a city using human mobility and POIs[C]//KDD 12th Proceedings of 18th ACM SIGKSS International Conference on Knowledge Discovery and Data Mining.Beijing:ACM,2012:186-194.
[5]Toole J L,Ulm M,González M C,et al.Inferring land use from mobile phone
activity[C]//Urb Comp ′12 Proceedings of the ACM SI GKDD International Workshop on Urban Computing.Beijing:ACM,2012:1-8.
[6]Soto V,Fríasmartínez E.Automated land use identification using cell-phone
records[C]//Hot Planet ′11 Proceedings of the 3rd ACM International Workshop on MobiArch.Maryland:ACM,2011:17-22.
[7]钮心毅,丁亮,宋小冬.基于手机数据识别上海中心城的城市空间结构[J].城市规划学刊,2014(6):61-67.
[8]杜润强,黄佳进,钟宁,等.手机轨迹中活动停驻点识别[J].计算机科学与探索,2014,8(2):200-206.
[9]潘纲,李石坚,齐观德,等.移动轨迹数据分析与智慧城市[J].中国计算机学会通讯,2012,8(5):31-37.
[10]于翔.基于城市公交刷卡数据和兴趣点的城市功能区识别研究——以北京市为例[D].杭州:浙江大学,2014.
[11]Zheng Yu,Capra L,Wolfson O,et al.Urban computing:concepts,methodologies,and applications[J].ACM Transaction on Intelligent Systems and Technology,2014,5(3):38. [12]索超,丁志刚.POI在城市规划研究中的应用探索[C]//新常态:传承与变革——2015中国城市规划年会.北京:中国城市规划学会,2015.
[13]肖汉光,蔡从中.特征向量的归一化比较性研究[J].计算机工程与应用,2009,45(22):117-119.
[14]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):48-61.
[15]张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868.。