道路交通事故数据分析挖掘技术研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
道路交通事故数据分析挖掘技术研究
姓名谢芝
所在学院交通运输工程学院
指导教师弓晋丽
学科专业交通规划与管理
道路交通事故数据分析挖掘技术研究
摘要:交通事故统计分析事故预防和控制具有重要作用。
文章分析了如何应用
数据挖掘技术来整理、分析道路交通事故数据,并提供了关联分析、聚类分析、决策树分析三种挖掘算法的事故数据分析应用实例,以期为道路交通事故预防和交通安全管理提供科学的决策依据。
关键词:数据挖掘;交通事故;关联分析;聚类分析
0 引言
近年来,随着中国现代化进程的不断加快,汽车消费越来越多地走进了普通家庭的生活。
但随着车辆和驾驶人员数量的高速增长,道路里程的延伸,道路交通压力大大增加,道路交通安全形势复杂,交通事故有愈演愈烈的趋势。
为此国家投入了大量资金和精力,致力于改善我国道路交通安全的现状。
有关部门也越来越重视对交通事故数据的收集和分析工作。
公安机关交通管理部门贯彻科技强警战略,大力推进信息化建设应用,道路交通事故信息系统建设应用取得显著成效。
目前,已建立全国道路交通事故信息数据库,交通事故数据信息实现了实时数据收集,数据量庞大、数据更新速度快,可以有针对性地进行统计分析和进一步研究。
但是目前对交通事故数据的分析,仅限于一般的统计分析,分析报表列出的数据信息较为原始和平面,通过这些数据所获得的信息量仅仅是整个数据库所包含的信息量中很少的一部分。
我们更加关注的是隐藏在这些海量数据背后的更具决策意义的交通事故数据整体特征描述、交通事故发生规律及发展趋势的预测,这些信息在预防和减少道路交通事故科学决策制定的过程中具有重要参考价值。
利用数据挖掘技术可以找出潜在的深层规则和数据模式,从而提供决策支持。
1 国内外情况
1.1 国内情况
目前,对于事故数据的分析,国内主要是政府机关行为。
我国每年由公安部交通管理局组织发布《中国道路交通事故统计年报》,从交通事故总体分析、历年交通事故情况、当年交通事故情况、相关基础资料、特大道路交通事故案例几个方面,公布交通安全的相关统计数据。
对道路交通事故数据的统计分析,主要是针对交通事故的宏观形势进行统计分析,包括事故次数、死亡人数、受伤人数、直接财产损失等四项指数的统计分析,还包括时间分布、事故原因、责任者情况、伤亡人员情况、道路情况、特大事故统计分析等。
在一些科研院所,也有一些学者运用数学分析方法研究事故成因以及对具体路段交通事故特征的分析等。
针对某些特定道路的特点进行分析,探讨道路交通事故发生的深层次原因,并对我国道路交通事故未来发展趋势进行了一些预测研究。
但目前对事故的分析尚处于原始事故数据统计的层面上,对事故原因进行的分析主要是四项指数的分析,对数据进行简单处理,无法经由数据分析来发现并充分利用数据中存在的关系,也无法深层次挖掘事故发生的原因及机理。
1.2 国外事故分析情况
美国、加拿大、日本等发达国家对交通安全研究工作非常重视,这些国家有专门的交通安全研究机构,专门负责事故调查与分析统计,并运用先进的数据挖掘技术进行分析,普遍建立了道路交通事故分析、预防和评估预警技术体系。
在基础数据统计方面,一些发达国家交通事故统计数据采集全面翔实,历年统计数据齐全,统计报表以多维数据项为主,除基本的事故次数、死亡人数和受伤人数等统计项外,更加注重与道路交通安全直接相关因素数据。
的统计,交通安全相对指标数据较为丰富,可以较好地客观评价道路交通安全整体发展态势,交通安全综合评价指标较为全面。
美国死亡事故的数据采集项目多达100余条,涵盖与交通事故有关的驾驶人、车辆、道路、管理、医疗等各个方面。
日本成立了专门的道路交通事故分析研究机构对交通事故进行翔实的分析研究,每年发布的《交通安全白皮书》对交通事故的基本数据、发展趋势以及应对措施的效果进行评价分析,指导政府及时调整交通管理对策。
2 事故数据挖掘
数据挖掘是从特定形式的数据集中提炼知识的过程。
针对特定的数据、特定的问题,选择一种或者多种算法,找到数据下面隐藏的规律,即隐含的、有意义的知识,对决策提供科学支持。
数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。
数据挖掘基本流程如下。
(1)数据准备
选择出适用于数据挖掘应用的数据,研究数据的质量,为进一步分析作准备,并确定将要进行的挖掘操作的类型。
我们分析的主要数据源为历年的交通事故数据。
为了更有效地对数据进行挖掘,还包括了一些相关的数据信息,例如全国的车辆信息,驾驶人信息,等等。
(2)数据整理和转换
考虑到事故数据是人工采集,并且主要是为事故统计分析使用,对于数据挖掘的数据源来说,事故采集数据具有不完全性、冗余性和模糊性,无法直接进行数据挖掘算法,需要进行数据整理。
我们进行了代码规范,去除其中的无关数据,例如人员的姓名和地址;还进行了数据类型的转换,通常是连续属性的离散化,将事故当事人的年龄、驾龄进行数据离散化、代码化,提高分类的准确性。
年龄按照五分位分级,如下表:
表2-1 事故当事人的年龄分位等级
驾龄按照五分位分级,如下表:
表2-2 事故当事人的驾龄分位等级
还运用用维变换方式减少有效变量的数目,例如事故的严重性指标,由死亡人数、受伤人数等推算得出。
如下表:
表2-3 事故的严重性指标
还可以运用数据简化的方法,有些数据属性对事故规则研究目标是没有影响的,例如人员的姓名、电话等。
这些属性的加入会大大影响挖掘效率,甚至导致挖掘结果的偏差。
(3)数据挖掘
事故源数据经过清洗和转换等成为适合于挖掘的数据集,数据挖掘在此数据集上完成知识的提炼,找到合适的知识模式用于决策分析。
即针对特定的数据、特定的问题,选择一种或者多种数据挖掘算法,找到数据下面隐藏的规律、规则和模式,从而提供问题的解决方法。
(4)结果分析
针对数据挖掘的结果进行解释并评估结果,去掉其中无意义的部分,将有意义的规则或模式再次分析,最终以容易理解和识别的方式提供给决策者。
一般是以数据分析报告的方式。
3 道路交通事故数据挖掘示例
数据挖掘的目标是从数据库中发现隐含的、有意义的知识,数据挖掘算法有很多,应用的功能领域相当广泛,主要分为五项:分类、估计与预测、聚类、关联和序列发现、描述等。
还有诸如回归分析、时间序列和聚类分析等一些分析方法,也有人工神经网络、决策树理论等方法。
一般来说,不存在一个普遍适用的算法。
因此,在实际应用中,要针对特定的领域,精心选择有效的数据挖掘算法。
对于事故数据分析来说,主要考虑到事故预防分析的要求,探讨我国道路交通事故与各背景因素之间的相关关系,加强对事故形势的研判,剖析事故发生的主要原因,把握事故的规律特点,提出有针对性的预防对策。
据此我们主要进行以下三种算法的研究。
3.1关联分析
关联分析一般用支持度和置信度两个值来度量关联规则的相关性,具体为通过迭代计算数据库中的频繁项集。
在频繁项集基础上,通过查找规则、计算和选择置信度确定强关联规则。
支持度揭示了A和B同时出现的频率,如果A和B 一起出现的频率非常小,那么就说明了A和B之间的联系并不大,反之则联系密切。
置信度则揭示了A出现时, B是否一定会出现。
如果置信度为100%,则说明了A出现时, B一定出现。
对这种情况而言,假设A和B是事故发生的两种情况,则它们必定同时出现。
通过关联分析,从人、车、路、环境等各方面着手,分析事故各因素之间的相关关系,找出有意义的某种规律性,从而提出有针对性的预防对策,并指导交通管理部门进行科学管理。
用2000~2007年间我国部分地区交通事故数据进行以下分析。
(1)常见事故原因与人员信息的关联分析,从中找出
最可能导致某种事故原因的相关人员特征,包括事故原因与人员年龄、交通方式、性别、人员类型、驾龄、车辆使用性质。
挑选部分常见原因进行分析,结果见下表3-1、表3-2、表3-3。
表3-1 事故原因为未按规定行驶,驾驶人信息相关规则
从表3-1可以看出,车辆使用性质为私用的,男性驾驶人,驾龄在1~3年,驾驶客车或摩托车,人员类型为工人的,经常会出现事故原因为未按规定让行的事故。
表3-2 事故原因为超速行驶,驾驶人信息相关规则
从表3-2可以看出,男性驾驶人,年龄在26~35年,驾驶客车的,经常会出现事故原因为超速行驶的事故。
表3-3 事故原因违反交通信号,驾驶人信息相关规则
从表3-3可以看出,男性驾驶人,驾龄在1~3年,年龄在26~35岁,驾驶客车,经常会出现事故原因为违反交通信号的事故。
通过以上分析找出的规则,可以描述出哪些类型的驾驶人容易闯红灯、超速驾驶、未按规定让行,导致事故发生,从而可以提出相对应的处理方法和对策,减少和预防事故的发生。
(2)分析事故形态和道路线性、路口路段类型、行驶状态的关系。
表3-4 事故形态中正面相撞
从表3-4数据可以发现,事故形态中正面相撞主要发生在普通平直路段,行驶状态为直行;或者平直的三枝分叉口,行驶状态为直行。
表3-5 事故形态中侧面相撞
从表3-5数据可以发现,事故形态中侧面相撞主要发生在平直路段或四枝分叉口或三枝分叉口,行驶状态为直行。
表3-6 事故形态中尾随相撞、同向刮擦、刮撞行人等事故形态
从表3-6数据可以发现,事故形态中尾随相撞、同向刮擦、刮撞行人等事故形态则主要发生在普通平直路段,行驶状态为直行。
根据上述的关联分析规则,可以考虑警力的配置放在哪些重点路段,如何配合进行事故预防宣传等。
3.2聚类分析
聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。
每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。
它可以用来将事故分解为不同集合,并找出各集合的特征,从而更好地掌握交通安全
情况,提出相应的事故预防对策。
我们以事故原因和事故致死率为变量进行了分析,同时考虑到事故数据量较大,按年份分别进行了聚类分析。
表3-7 2006年聚类结果
对聚类结果的描述:第5、7、8类集合中包含的事故原因,主要为超速行驶、操作不当、不按规定让行,其事故集合中的次数和致死率都较高,可以认为是最需要关注的原因。
表3-8 2007年聚类结果
对聚类结果的描述:第1、2、3类集合中包含四种事故原因,主要为未按规定让行、超速行驶、无证驾驶、违法上道路行驶,事故数和致死率都较高。
两年的结果对比可以发现集合中的主要事故原因有了变化,无证驾驶、违法上道路行驶这两种事故原因将更加需要加以关注。
3.3决策树
决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。
主要利用历史数据记录中自动推导出对给定数据的推广描述,从而能对未来数据进行预测。
决策树的基本组成部分:决策节点、分支和叶子。
在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。
这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)。
我们的目标是针对事故后果的严重性,对驾驶人群进行分类,从中发现驾驶人导致事故严重损害的特征。
数据: 2000~2005年的事故数据
输入:人员类型、年龄、驾龄、驾驶证种类、性别
输出:事故严重程度
分析结果:见表3-9
表3-9 分析结果
4 结语
综上所述,面对日益严峻的道路交通安全形势,交通管理部门越来越重视对交通事故数据的收集和分析工作。
对于数据挖掘的需求也日益强烈,因此要在事故统计分析的基础上,对数据进行深度挖掘和统计分析,找到事故数据的规律、规则和模式,根据数据分析结果从道路警力配置、教育宣传、培训、考核等各方面入手,研究如何改善交通管理,为科学决策提供有效的技术支撑,从而达到改善我国交通安全,营造出和谐交通环境的目的
参考文献
[1]H.P.Kriegel,M.Renz,M.Schubert,A.Zuefle.StatistiealDensityyyPredietioninTraffie Net!vorks.InPre.SIAMIntl.Conf.DataaaMining,P692一703,2008
[2]XiaoJuan,YeFeng,XieYafen,ZhangZ>liyong.AssoeiationRuleeeMlningandAPPlieat ioninhitelligentTransPortatlonSystem.Proeeedingsofthe27thChineseControlConferene e, 2008,P538一P540
[3]公安部交通管理局,中华人民共和国道路交通事故统计年报(2001~2007)。
[4]韩家炜,堪博,数据挖掘(概念与技术) [M]1范明,孟小峰,译,北京:机械工业出版社,2007。
[5]蒋金勇,杨晓光.美国国家智能运输系统体系结构概述.公路交通科技,voll6.3,1999p49一p52
[6]es,陈干,王笑京智能交通系统手册=M].北京:人民交通出版社,2007
[7]陆明伟,尚宁,覃明贵,朱扬勇.一种基于曲线拟合异常检测的交通数据预处理方法.计算机研与发展,卷43(增刊),第11期:631一635,第二十三届中国数据库学术会议,2006
[8]JiaweiHan,MiehelineKamber.数据挖掘概念与技术,范明,孟小峰译.北京:机械工业出版社,2008。