数据挖掘论文聚类分析论文
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘论文聚类分析论文
摘要:结合数据挖掘技术的分析,对基于数据挖掘的道路交通流分布模式问题进行了探讨,最后进行了实验并得出结果。
关键词:数据挖掘;聚类分析;交通流
road traffic flow distribution mode research based on data mining
chen yuan
(hunan vocational and technical
college,changsha410004,china)
abstract:combinded with the analysis of data mining technology,the distirbution model of traffic flow is discussed,and an experiment is carried out and its related conclusions are made in this paper.
keywords:data mining;clustering analysis;traffic flow
道路网络上不同空间上的交通流具有相异的空间分布
模式,如“线”性模式主要代表有城市主干道,“面”状模式主要出现在繁华地段等。
本文设计了一个道路交通流空间聚类算法以挖掘道路交通流分布模式,在真实数据和模拟数据上的实验表明spanbre算法具有良好的性能。
数据挖掘(datamining),也称数据库的知识发现(knowledgediseoveryindatabase)是指从随机、模糊的受到一定影响的大容量实际应用数据样本中,获取其中隐含的事前未被人们所知具有潜在价值的信息和知识的过程。
数据挖掘非独立概念,它涉及很多学科领域和方法,如有人工智能、数据统计、可视化并行计算等。
数据挖掘的分类有很多,以挖掘任务为区别点,可以划分为模型发现、聚类、关联规则发现、序列分析、偏差分析、数据可视化等类型。
一、基于数据挖掘的道路交通流分布模式问题分析
类似化整为零各个击破的思想,交通区域划分通常会将整个交通网络分为若干个相互联系的子区域,再通过协调子区域各监测点交通信号配时方案,对个区域内运行的交通流在整体上进行管理与控制,从而达到优化整个道路网络的交通流。
但是人为划定子区域的方案在实时改变因缺少自学习与自组织功能而导致整体方案出现滞后性。
所以要加强路网通行能力,必须寻找突破人为划分、有效获取道路网络上交通流的空间分布模式的方法,以实现根据交通流的空间分布特点,合理划分路网交通区域,缓解交通拥挤的现状的目标。
在智能交通系统中应用最广泛的交通流信息采集方法
是电磁感应技术支撑的环形感应线圈检测器。
这种流行甚广
的工具具有价格低廉、检测性能高等优势,基于回路电感量变化的应用,将环形感应器埋设路面下,即可收集经过或停留其上的车辆的数量信息,进而得到道路网络上运行的交通流信息。
图1是某交通网络上环形感应线圈检测器节点与空间拓扑关系的示意图。
图中用l1,l2,l3,l4,l5,l6 代表预设的六个检测器节点,用{s(ll),s(l2),s(l3),s(l4),s(l5),s(l6) }表示各检测器节点收集的交通流时间组成的序列,通过分析序列的相似性以及各个检测节点的连接关系,就能实现道路网络空间上的交通流的空间聚类。
二、实验及结果分析
实验是在真实数据集和 tiny0stossim模拟数据集[pnmd03]上进行的。
从spanbre算法的效率分析和spanbre 算法的聚类结果分析两个方面来进行实验。
(一)性能分析。
选择elink算法[aa06]和一个基本的层次空间聚类算法[hk98](这里简称为hierarcical)进行执行效率的比较分析。
图2显示了spanbre、elink、基本的层次空间聚类三种算法在道路交通流数据集(图2(a))和模拟数据集(图2(b))上的算法效率。
下图很清晰的显示出spanbre和elink在两种数据集上的执行效率非常相似,而基本的层次空间聚类(hlerarcical)算法的执行时间则比其
他两种算法要高,这主要是hierarcical对每一步都会进行每个类的邻接类和候选类的维护,增加了算法的时间消耗。
而随着样本的不断扩大, elink算法的执行效率相对于spanbre的优越性会逐渐显示出来,这是由于elink算法对类设置了相似性闽值,其类的大小与数据集的规模关系不大,与之不同,spanbre算法会随着数据集规模的增大而进行聚类优化,从而降低执行效率。
图 2spanbre算法与其他算法的算法效率比较
(二)结果分析。
采用三个指标对聚类算法的聚类进行质量评价:类内距离的平均值( )、类间距离的平均值( )以及聚类评价函数( )。
表1聚类结果
表1列出了当类内距离的平均值为0.5左右时,spanbre、elink和基本的层次空间聚类三种聚类算法分别在交通流数据集和模拟数据集上的聚类结果的各项指标。
三、结语
对分布在道路网络空间中的环形感应线圈检测器检测的交通流数据设计了一个高效的交通流空间聚类算法spanbre,以发现交通流在道路网络上的空间分布模式。
spanb既算法通过收集分布在不同道路交通流检测点上的交通流的数据的隐含特征,将在空间上具有关联性的性质相类
似的交通流数据对象聚成一类。
参考文献:
[1]张广新.道路交通事故多发点段智能排查系统的研究[d].吉林大学,2007
[2]handdavid,张银奎.数据挖掘原理[m].北京:机械工业出版社,2003。