交通事故大数据挖掘分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
国外交通事故大数据挖掘分析
摘要:近年来,随着车速的提高及交通量的增长,道路交通事故每年呈上升趋势。通过对交通事故大数据挖掘分析,k-means聚类分析和Apriori关联规则分析交通事故的趋势和模式,找出事故频发的路段和引发事故的原因以及事故频发的高峰期,以数据分析结果为依据,改善交通状况,减少交通事故,提高交通系统的效率。
关键词:交通系统、k-means聚类、Apriori算法
Abstract:recent years,as the improvement of speed of vehicle and growth of traffic volume,road traffic accidents is on the rise every year.based on data mining and analysis of traffic accidents big data,K-means cluster analysis and Apriori association rules analysis traffic accident tendency and pattern.find out frequent accident sections and the cause of accident and peak hours,base on data analysis result,improve the traffic situation,reduce tarffic accident,improve the efficiency of traffic system.
Key words:transportation system、k-means cluster、Apriori algorithm
一、引言
1 随着我国经济的发展,交通安全问题日益突出,已经引起了人们的广泛关注。如何对大量的交通事故信息进行数据挖掘,寻找出其中隐藏的知识与规律,用以改善交通安全状况已成为数据挖掘的一个重要的研究领域。
2 国内外现状
智能交通系统国内外研究现状随着智能交通的发展,美国正在研究和部署车辆避碰、司机与车辆监控、与乘坐者安全性能改善等工作。欧洲正在开展为优化人机界面和道路安全的远程信理“智能道路”的研究和示范。澳大利亚也正在用智能交通系统新技术改善道路安全。日本投入了大量的人力和资金,成功地组织了一个“动态路径诱导系统”的实验,日本相继完成了路车间通信系统、交通信息通信系统、宽区域旅行信息系统、超智能车辆系统、安全车辆系统及新交通管理系统等方面的研究。日本“车辆、道路与交通智能协会”成立,ITS 由导航系统、自动收费系统、安全驾驶6 援助系统等9 个开发领域和20 个用户服务功能构成。欧洲的ITS的开发与应用是与欧盟的交通运输一体化建设进程紧密联系在一起的。智能交通系统的交通管理、车辆行驶和电子收费等都围绕全欧无线数据通信网来展开。韩国政府于2001 月制订了全新的RRS计划投入75亿美元,建成包括汽车及高速公路系统,先进交通管理系统,电子收费系统个先进的RRS 子系统。新加坡的ITS研发也具有了较高的水平,其城市高速路监控系统(EMAS),优化交通信号系统(GLIDE),出行者信息服务系统。
二、交通事故大数据分析流程
1 数据采集
交通事故大数据来源于公共安全部门和交通部门下的事故数据仓库CTCDR,CTCDR的目标是给负责交通安全人员提供及时、精确、完整、标准的交通事故数据。CTCDR允许对数据进行复杂的查询,属性包括日期、道路位置、道路类型、碰撞类型、伤害程度等。通过用户自定义交通事故数据维度,进行更高级的数据分析识别趋势和模式。
2 数据分析
k-means聚类分析,Apriori关联规则分析,关联规则反映一个事物与其他事物之间的相互依赖性或相互关联性。事故数据的维度包括:日期、事故伤害程度、事故地点和区域、事故影响因素、事故碰撞类型、天气条件、路面情况、建设或维护相关、光照条件、路拦等;交通个体数据的维度包括:车辆是否是有资格的发动机型号、车辆类型、车辆制动、车辆机动前缀、车辆机动后缀、驾驶员或行人的年龄、驾驶员或行人是否喝酒和吸毒、车辆出毛病的个数、首先撞上物体、然后撞上物体。涉及人员数据维度包括ID号、伤害分类、座位、年龄、保护系统的使用、安全气袋的状态、喷射状态。道路特性数据的维度包括平均日流量、农村或城市、通道数。
3 数据可视化
Tableau进行数据可视化,生成相应的图表图形,直观表示交通事故大数据分析结果。
三、关于研究领域的原理及应用介绍(算法原理)
(1)K-means算法是一种经典的聚类算法,其基本思想是:以随机选取的K个样本作为起始中心点,将其余样本归入相似度最高中心点所在的簇,再确立当前簇中样本坐标的均值为新的中心点,依次循环下去,直到所有样本类别不再变动,得到K个交通事故类,并得到聚类算法模型,能够将所有交通事故数据划分到所属的类中,同时得到m个交通事故信息的特征对聚类效果的重要性程度。
图1 K-means聚类算法流程
(2)Apriori算法是一种挖掘关联规则的频繁项集算法,设置最小支持度和最小置信度,产生频繁项集,关联分析数据源,某个项目集的支持度大于或等于最小支持度,则该项目集被标记为频繁项集。找出频繁项集,根据这些频繁项集可以得到候选关联规则,计算每条候选关联规则的置信度,筛选出大于最小置信度的关联规则,这些关联规则能够发现道路交通事故数据中各种属性的关联,以及驾驶员、车辆、道路、天气、时间等属性引起道路交通事故的原因因素与事故结果之间的规则,从中得到规律。
图2 Apriori算法流程图
本文采用k-means聚类算法对交通事故数据进行基于属性聚类分析,在属性聚类中,使得在一个类中的事故特性具有很高的相似性,将每个类的事故原因当作一个整体来看。采用Apriori关联规则算法找到引起事故的多因素和各自的占比,运用多维关联规则挖掘方法建立Apriori关联规则挖掘模型,通过找出可能导致交通事故发生的频繁因素组合来发现某些事故发生的规律,并将这些规律作为现实中作出预防举措的依据。