数据挖掘技术在出租车交通事故分析中的应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
【 学术研究 】
数据挖掘技术在出租车交通事故分析中的应用
都 春 , 刘兴波
) ( 朝阳师专 , 辽宁 朝阳 1 2 2 0 0 0
摘 要 : 将数据挖掘中的聚类分析技术应用到出 租 车 交 通 事 故 分 析 系 统 中 , 以 充 分 发 挥 数 据 挖 掘 的 特 点 , 深入研究出租车交通事故中肇事司机的共同特征 , 有针对性提出相应管理办法 , 从而提高交通事故数据的利 用 价值 . 关键词 : 出租车交通事故 ; 数据挖掘 ; 聚类分析 ( ) 中图分类号 :T P 3 1 1 . 1 3 文献标识码 :A 文章编号 :1 0 0 8-5 6 8 8 2 0 1 1 0 4-0 0 3 2-0 3
收稿日期 :2 0 0 8—1 0—2 0 , 男 , 辽宁凌源市人 , 工程师 , 主要从事数据挖掘方面研究 . 作者简介 : 都春 ( 1 出租车交通事故分析中的应用
3 3
性地加强培训管理 , 达到减少出租车交通事故的最终目的 . 3 数据的采集与预处理 “ 出租车交通事故分析系统 ” 的实验数据是从朝阳市交警支队事故科采集的 2 0 0 4~2 0 0 8 年部分出租车 交通事故记录数据 , 以及出租车公司提供的出租车司机信息作为系统原始数据 , 利用数据挖掘技术对原始 数据进行科学地处理和分析 . 3 . 1 数据清理 在数据采集过程中发现交通事故记录表中有空值现象 , 需要进行数据预处理 , 在不影响数据质量的前 提下应尽量避免过多的缺值现象产生 . 处理空值采用默认替代值和计算替代值的方法 . 例如肇事司机性别 为空值 , 就默认为男性 ; 肇事司机的年龄为空值 , 就利用司机的平均年龄来代替 . 3 . 2 数据降噪 2] , 利用 S ) 提供的 M 采用聚类的方法来处理噪声数据 [ Q L S e r v e r A n a l s i s S e r v i c e s( S S A S i c r o s o f t聚 y 集算法检测噪声数据 . 下面以 检 测 数 据 库 中 性 别 属 性 为 例 , 说 明 聚 集 算 法 的 过 程 , 选 择 s e x作为输入属 , : 性 , 通过向导生成模型名称为 s 的一个性别属性的数据集 可以由各节点位置描述得到以下结果 e x , 即性别为女性 ; C l u s t e r 1: 属性值为 “ W” , 即性别为男性 ; C l u s t e r 2: 属性值为 “ M” : “ ” , 属性值为 即性别为其他 . C l u s t e r 3 N ,由此发现性别为 “ 由于性别属性取值只能是 “ W” 和 “ M” N” 的 数 据 是 此 数 据 集 中 噪 声 数 据 , 可 “ ” “ ” , 以通过修改将性别为 N 的数 据 转 换 为 M 消 除 性 别 属 性 的 噪 声 数 据.通 过 相 同 的 方 法 也 可 以 检 测 和处理其他属性的噪声数据 . 3 . 3 数据规约 数据归约采用 的 方 法 是 利 用 S 提 Q L S e r v e r A n a l s i s S e r v i c e s( S S A S) y 供的数据透视表 , 分析数据库中各 属 性 的 相 关 重 要 度 , 对 于 不 相 关 或 关 系
0 引言 目前在城市客运交通中 , 出租车所占的比重越来越大 , 同时大量出租车交通事故也随之而来 . 将数据 挖掘技术应用在交通领域 , 利用数据挖掘技术对交通事故数据进行挖掘 , 逐渐成为国内外关注的一个重要 科研课题 . 将数据挖掘中的聚类分析技术应用到出租车交通事故分析系统中 , 充分挖掘数据的深层价值 . 1 需求分析 在出租车交通事故中 , 司机作为引起交通事故的主要原因所占的比例是相当大的 . 实际上作为出租车 司机本身具有很多优势 : 首先 , 作为职业的驾驶人员 , 驾驶技术 非 常 熟 练 ; 其 次 , 长 时 间 驾 驶 同 一 辆 车 , 对出租车的性能状况十分了解 ; 再次 , 长时间工作在一个相对固定区域 , 对道路情况非常熟悉 . 按常理发 生交通事故的可能性应该很小 , 但出租车交通事故还是接连不断地发生 , 因此非常有必要分析这类交通事 故的原因 , 尤其是与出租车司机有关的各方面的原因 , 找到其中隐含的共同事故特征 , 然后在管理中加强 相应方面的管理和指导 , 达到减少事故发生的目的 . 2 数据挖掘中基于属性聚类技术的特点 为了对出租车交通事故中司机的各方面原因进行深层次的分析 , 可以利用数据挖掘中的聚类技术进行研 究 . 聚类就是将数据对象分组成为多个簇 , 使得在同一个簇中的对象之间具有较高的相似度 , 而不同簇中的 对象差别较大 . 在聚类过程中 , 类群不是预先指定 , 而是在事先不知道有多少类的情况下 , 以某种度量为标 ] 1 : 一是作为数据分类的预处 理步 准将具有相似特征的数据对象划为一类 . 聚类分析主要有两方面的作用[ 骤 ; 另一个作用就是作为一个独立的分析工具 , 用于处理数据的分布 .K-m e a n s算法是一种基于样本间相 , , , 似性度量的间接聚类方法 算法以k 为参数 把n 个对象分为k 个簇 以使簇内具有较高的相似度 , 而且簇 间的相似度较低 . 相似度的计算根据一个簇中对象的平均值来进行 . 此算法首先随机选择k 个对象 , 每个对 象代表一个聚类的质心 , 对于其余的每一个对象 , 根据该对象与各聚类质心之间的距离 , 把它分配到与之最 相似的聚类中 . 然后 , 重新计算每个聚类的新质心 , 重复上述过程 , 直到准则函数会聚 . 在多属性聚类中 , 利用聚类分析对肇事司机进行聚类分组 , 使得在一个类中的司机特性具有很高的相 , 似性 而与其他类中的司机的特性相异 . 根据实际情况需要 , 在聚类时要 考 虑 其 中 各 个 属 性 的 重 要 程 度 , 进行属性重要度分析 . 基于属性划分的聚类方法的基本过程是 : 首先对对象集中的所有对象给出重要属性 和次要属性 , 然后随机选取一个对象作为一类的中心 , 对剩余的对象 , 考察它们和该中心的相似度 . 如果 某一对象的重要属性与中心的重要属性相同的比例大于某一百分比 , 并且重要属性占到全部属性的某一百 分比时 , 把它们划归为一类 , 否则 , 它们属于不同的类 . 经过这样的划分后 , 如果类的数目过大 , 则可根 据基于距离的算法 , 对各类的中心进行相似度计算 , 相似度较大的 , 则合并为同一类 . 这样就可以将肇事 司机按照不同的属性进行群体分类 , 可以针对不同的司机群体的特点 , 进行更深层次的分析研究 , 有针对
第1 辽宁师专学报 3卷 第4期 V o l . 1 3 N o . 4 2 0 1 1年1 2月 J D e c. o u r n a l o f L i a o n i n T e a c h e r s C o l l e e 2 0 1 1 g g