交通数据挖掘研究

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

交通事故因素分析与预防

[摘要]

城市的不断发展已经导致城市交通事故的频繁发生,能否对已发生事故做出正确的分析将直接影响到能否对未来类似事故的成功避免。本文提出一种使用数据挖掘领域中的多维关联规则技术和概率统计学中的多元线性回归模型分析大量交通事故记录的方法,通过找出可能导致交通事故发生的频繁因素组合来发现某些事故发生的规律,并得出直观的参数函数,使得交通管理人员或城市规划者能在交通管理中方便地运用这些函数,不但可以对交通事故的产生做定量性的分析,还可以采取相应的有效措施。

[关键字] 数据挖掘、多维关联规则、多元线性回归、交通事故

The Analysis and Prevent In Traffic Accidents

[Abstract]

The development of the city has led to the frequent occurrence of traffic accidents. Whether we can analyze those accidents correctly in the past will directly determine the avoidance of future ones of the similar kind. In this paper, we introduce a method, including multidimensional association rule in the field of data mining and multiple regression, helps analyze the large amounts of traffic accident records. With this method, we are able to find out the underlying rules in traffic accidents through searching the combination of frequent factors that probably lead to traffic accidents and get a function about them. In addition, armed with the function, people will be able to take effective actions to prohibit the anticipated accidents in real world.

[Key Words] Data Mining; Multidimensional Association Rule; Multiple Regression; Traffic Accident

[引言]

城市的不断发展已经导致城市交通问题日益突出,交通事故频繁发生,而能否对已发生事故做出正确的分析将直接影响到能否对未来类似事故的成功避免。目前的分析方法大多是使用数据挖掘领域中的关联规则技术分析大量交通事故的记录,通过找出可能导致交通事故发生的频繁因素组合来发现某些事故发生的规律,所得到的结果都是一组规则集合{A i=>B i (support,confidence),i=1,2,3……},通过这组规则我们能得知什么样的条件对交通事故的发生起多大的影响,但这并不足以起到预防的作用。一些既成的条件只能让我们对一些事故多发地带提高警惕,而无法从根源上降低事故发生率,避免经济损失。只有消除对事故发生起影响的条件,既在城市规划和道路交通设计时就避免产生那些条件,这样才能真正起到预防作用。而前面的那些规则在这方面运用并不方便,难以运用于实际工作中,无法提供有效的建议,从而降低交通事故的发生率。而本文在借助数据挖掘领域中的多维关联规则技术对交通事故记录进行分析的同时,又对分析结果使用多元线性回归模型进行处理,从而得到较为直观的参数函数,其使用方便,能有效广泛地运用在实际工作中,为城市规划和道路交通设计提供合理的建议,从根源上消除交通隐患,减少交通事故,挽回经济损失。

[基本思路]

[建立模型]

方法中的数据模型是根据公安部目前使用的道路交通事故信息采集项目表建立的,除去一些多余信息,总结出了下述关键属性进行分析:

A0 事故类型:轻微刮擦(A01)、人员受伤(A02)、人员死亡(A03)

A1 天气:雨、雪、雾、晴、大风、阴、沙尘、冰雹、其他

A2 照明条件:白天、夜间有路灯照明、夜间无路灯照明

A3 能见度:50米以内、50-100米、100-200米、200米以上

A4 地形:平原、丘陵、山区

A5 在道路横断面位置:机动车道、非机动车道、机非混合道、人行道、人行横道、紧急停车带、其他

A6 路表情况:干燥、潮湿、积水、漫水、冰雪、泥泞、其他

A7 路面情况:路面完好、施工、凹凸、塌陷、路障、其他

A8 道路类型:高速公路、一级公路、二级公路、三级公路、四级公路、等外公路、城市快速路、一般城市道路、单位小区自建路、公共停车场、公共广场、其他路A9 公路行政等级:国道、省道、县道、乡道、其他

A10 路口路段类型:三枝分岔口、四枝分岔口、多枝分岔口、环形交叉口、匝道口、普通路段、高架路段、变窄路段、窄路、桥梁、隧道、路段进出处、路侧险要路段、

其他特殊路段

A11 道路线形:平直、一般弯、一般坡、急弯、陡坡、连续下坡、一般弯坡、急弯陡坡、

一般坡急弯、一般弯陡坡、

A 12 道路物理隔离:无隔离、中心隔离、机非隔离、中心隔离加机非隔离

A 13 路面结构:沥青、水泥、沙石、土路、其他

A 14 路侧防护设施类型:波形防撞护栏、防撞墙、防撞墩、其他防护设施

A 15 交通信号方式:无信号、民警指挥、信号灯、标志、标线、其他安全设施

A 16 交通方式:大客车、小客车、(外籍客车)、大型货车、小型货车、(外籍货车)、汽车列车、三轮汽车、低速货车、其他汽车、摩托车、拖拉机、其他机动车、自行车、三轮车、残疾人专用车、畜力车、助力自行车、电动自行车、其他非机动车、手推车、步行、(乘汽车、乘摩托车、乘其他机动车、乘非机动车、)其他

A 17 车辆合法状况:正常、未按期检验、非法改拼装、非法生产、报废

A 18 车辆安全状况:正常、制动失效、制动不良、转向失效、照明与信号装置失效、爆胎、其他机械故障

A 19 车辆行驶状态:直行、倒车、掉头、起步、停车、左转弯、右转弯、变更车道、躲避障碍、静止、超车、其他

A 20 车辆使用性质:公路客运、公交客运、出租客运、旅游客运、一般货运、危险品货运、租赁、其他营运、警用、消防、救护、工程救险车、党政机关用车、企事业单位用车、施工作业车、校车、私用、其他非营运

[多维关联规则]

Apriori 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。它使用一种称作逐层搜索的迭代方法,使用频繁k-项集(集合中含有k 项,并且这k 项的组合出现的频率高于预先给定概率值)去寻找频繁(k+1)-项集。首先,找出频繁1-项集的集合。该集合记作L 1,L 1用于找出频繁2-项集的集合L 2,而L 2用于找出L 3,如此下去,直到不能找到L K ,即频繁k-项集。

由于模型中的属性有多个,所以我们不能简单地使用Apriori 算法进行分析,而要对其进行修改,从而能在多维数据中找到所有的频繁k-谓词集,而不是频繁k-项集。

这在里我们要用到数据立方体这个数据结构,它是由方体的格组成,方体是多维数据结构,它用于存放对应n-谓词集的计数。

0-D(顶点)方体

1-D 方体

2-D 方体

……

n-D 方体

相关文档
最新文档