道路交通事故数据分析挖掘技术研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

道路交通事故数据分析挖掘技术研究

姓名谢芝

所在学院交通运输工程学院

指导教师弓晋丽

学科专业交通规划与管理

道路交通事故数据分析挖掘技术研究

摘要:交通事故统计分析事故预防和控制具有重要作用。文章分析了如何应用

数据挖掘技术来整理、分析道路交通事故数据,并提供了关联分析、聚类分析、决策树分析三种挖掘算法的事故数据分析应用实例,以期为道路交通事故预防和交通安全管理提供科学的决策依据。

关键词:数据挖掘;交通事故;关联分析;聚类分析

0 引言

近年来,随着中国现代化进程的不断加快,汽车消费越来越多地走进了普通家庭的生活。但随着车辆和驾驶人员数量的高速增长,道路里程的延伸,道路交通压力大大增加,道路交通安全形势复杂,交通事故有愈演愈烈的趋势。为此国家投入了大量资金和精力,致力于改善我国道路交通安全的现状。有关部门也越来越重视对交通事故数据的收集和分析工作。公安机关交通管理部门贯彻科技强警战略,大力推进信息化建设应用,道路交通事故信息系统建设应用取得显著成效。目前,已建立全国道路交通事故信息数据库,交通事故数据信息实现了实时数据收集,数据量庞大、数据更新速度快,可以有针对性地进行统计分析和进一步研究。但是目前对交通事故数据的分析,仅限于一般的统计分析,分析报表列出的数据信息较为原始和平面,通过这些数据所获得的信息量仅仅是整个数据库所包含的信息量中很少的一部分。我们更加关注的是隐藏在这些海量数据背后的更具决策意义的交通事故数据整体特征描述、交通事故发生规律及发展趋势的预测,这些信息在预防和减少道路交通事故科学决策制定的过程中具有重要参考价值。利用数据挖掘技术可以找出潜在的深层规则和数据模式,从而提供决策支持。

1 国内外情况

1.1 国内情况

目前,对于事故数据的分析,国内主要是政府机关行为。我国每年由公安部交通管理局组织发布《中国道路交通事故统计年报》,从交通事故总体分析、历年交通事故情况、当年交通事故情况、相关基础资料、特大道路交通事故案例几个方面,公布交通安全的相关统计数据。对道路交通事故数据的统计分析,主要是针对交通事故的宏观形势进行统计分析,包括事故次数、死亡人数、受伤人数、直接财产损失等四项指数的统计分析,还包括时间分布、事故原因、责任者情况、伤亡人员情况、道路情况、特大事故统计分析等。在一些科研院所,也有一些学者运用数学分析方法研究事故成因以及对具体路段交通事故特征的分析等。针对某些特定道路的特点进行分析,探讨道路交通事故发生的深层次原因,并对我国道路交通事故未来发展趋势进行了一些预测研究。

但目前对事故的分析尚处于原始事故数据统计的层面上,对事故原因进行的分析主要是四项指数的分析,对数据进行简单处理,无法经由数据分析来发现并充分利用数据中存在的关系,也无法深层次挖掘事故发生的原因及机理。

1.2 国外事故分析情况

美国、加拿大、日本等发达国家对交通安全研究工作非常重视,这些国家有专门的交通安全研究机构,专门负责事故调查与分析统计,并运用先进的数据挖掘技术进行分析,普遍建立了道路交通事故分析、预防和评估预警技术体系。在基础数据统计方面,一些发达国家交通事故统计数据采集全面翔实,历年统计数据齐全,统计报表以多维数据项为主,除基本的事故次数、死亡人数和受伤人数等统计项外,更加注重与道路交通安全直接相关因素数据。的统计,交通安全相对指标数据较为丰富,可以较好地客观评价道路交通安全整体发展态势,交通安全综合评价指标较为全面。美国死亡事故的数据采集项目多达100余条,涵盖与交通事故有关的驾驶人、车辆、道路、管理、医疗等各个方面。日本成立了专门的道路交通事故分析研究机构对交通事故进行翔实的分析研究,每年发布的《交通安全白皮书》对交通事故的基本数据、发展趋势以及应对措施的效果进行评价分析,指导政府及时调整交通管理对策。

2 事故数据挖掘

数据挖掘是从特定形式的数据集中提炼知识的过程。针对特定的数据、特定的问题,选择一种或者多种算法,找到数据下面隐藏的规律,即隐含的、有意义的知识,对决策提供科学支持。数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘基本流程如下。

(1)数据准备

选择出适用于数据挖掘应用的数据,研究数据的质量,为进一步分析作准备,并确定将要进行的挖掘操作的类型。我们分析的主要数据源为历年的交通事故数据。为了更有效地对数据进行挖掘,还包括了一些相关的数据信息,例如全国的车辆信息,驾驶人信息,等等。

(2)数据整理和转换

考虑到事故数据是人工采集,并且主要是为事故统计分析使用,对于数据挖掘的数据源来说,事故采集数据具有不完全性、冗余性和模糊性,无法直接进行数据挖掘算法,需要进行数据整理。我们进行了代码规范,去除其中的无关数据,例如人员的姓名和地址;还进行了数据类型的转换,通常是连续属性的离散化,将事故当事人的年龄、驾龄进行数据离散化、代码化,提高分类的准确性。年龄按照五分位分级,如下表:

表2-1 事故当事人的年龄分位等级

驾龄按照五分位分级,如下表:

表2-2 事故当事人的驾龄分位等级

还运用用维变换方式减少有效变量的数目,例如事故的严重性指标,由死亡人数、受伤人数等推算得出。如下表:

表2-3 事故的严重性指标

还可以运用数据简化的方法,有些数据属性对事故规则研究目标是没有影响的,例如人员的姓名、电话等。这些属性的加入会大大影响挖掘效率,甚至导致挖掘结果的偏差。

(3)数据挖掘

事故源数据经过清洗和转换等成为适合于挖掘的数据集,数据挖掘在此数据集上完成知识的提炼,找到合适的知识模式用于决策分析。即针对特定的数据、特定的问题,选择一种或者多种数据挖掘算法,找到数据下面隐藏的规律、规则和模式,从而提供问题的解决方法。

(4)结果分析

针对数据挖掘的结果进行解释并评估结果,去掉其中无意义的部分,将有意义的规则或模式再次分析,最终以容易理解和识别的方式提供给决策者。一般是以数据分析报告的方式。

3 道路交通事故数据挖掘示例

数据挖掘的目标是从数据库中发现隐含的、有意义的知识,数据挖掘算法有很多,应用的功能领域相当广泛,主要分为五项:分类、估计与预测、聚类、关联和序列发现、描述等。还有诸如回归分析、时间序列和聚类分析等一些分析方法,也有人工神经网络、决策树理论等方法。

一般来说,不存在一个普遍适用的算法。因此,在实际应用中,要针对特定的领域,精心选择有效的数据挖掘算法。对于事故数据分析来说,主要考虑到事故预防分析的要求,探讨我国道路交通事故与各背景因素之间的相关关系,加强对事故形势的研判,剖析事故发生的主要原因,把握事故的规律特点,提出有针对性的预防对策。据此我们主要进行以下三种算法的研究。

3.1关联分析

关联分析一般用支持度和置信度两个值来度量关联规则的相关性,具体为通过迭代计算数据库中的频繁项集。在频繁项集基础上,通过查找规则、计算和选择置信度确定强关联规则。支持度揭示了A和B同时出现的频率,如果A和B 一起出现的频率非常小,那么就说明了A和B之间的联系并不大,反之则联系密切。置信度则揭示了A出现时, B是否一定会出现。如果置信度为100%,则说明了A出现时, B一定出现。对这种情况而言,假设A和B是事故发生的两种情况,则它们必定同时出现。

通过关联分析,从人、车、路、环境等各方面着手,分析事故各因素之间的相关关系,找出有意义的某种规律性,从而提出有针对性的预防对策,并指导交通管理部门进行科学管理。用2000~2007年间我国部分地区交通事故数据进行以下分析。

(1)常见事故原因与人员信息的关联分析,从中找出

最可能导致某种事故原因的相关人员特征,包括事故原因与人员年龄、交通方式、性别、人员类型、驾龄、车辆使用性质。挑选部分常见原因进行分析,结果见下表3-1、表3-2、表3-3。

表3-1 事故原因为未按规定行驶,驾驶人信息相关规则

相关文档
最新文档