交通大数据分析结课论文
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2. 数据与算法 2.1 数据wenku.baidu.com取
图1-1 整体研究思路
这项研究的主要数据来源是基于个人出行日志进行的荷兰国家出行调查数
据。调查参与者被要求记录六天内的每一次旅行,随机选择一年以覆盖季节性影
响。为了补偿非本地人和老年参与者的较低回应率,选取两组被抽样。出行特定
数据(例如出行方式和出行距离)除外,数据还提供有关参与者的社会经济数据
经 典 的 分 类 方 法 包 括 : 典 型 的 分 类 方 法 包 括 : Logit 模 型 ( Logistic Regression)、线性判别分析(Linear Discriminant Analysis)、K-近邻(K-Nearest Neighbors)以及支持向量机(Support Vector Machine)、决策树(Trees)、 随机森林(Random Forest)、Boosting和 Bagged 算法等。
随着大数据时代的到来,数据量的剧增和数据多样性变化给传统的计算 方法带来严重的阻碍。用机器学习的算法可以进行方便的研究和解决,通过 输入如各个属性和预测变量,我们可以进行特征选择,找出最相关的因素。
1.2 研究思路
交通方式选择问题可以认为是分类问题,分类问题也称为离散变量预测。 预测过程简单来说,先假定事物的输入、输出之间存在一种函数关 y f (x, ) ,其中 是待定参数, x 是输入变量;然后进行数据建模,由样 本数据(一般是历史数据,包括输入和输出值)学习得到参数 的取值,就 确定了输入与输出之间的函数关系 y f (x, ) ,并以此可以对新数据进行预 测。
交通大数据分析结课论文
学 院: 专 业: 学生学号: 学生姓名: 任课教师:
交通运输学院 系统科学 16120746 昌锡铭 陈喜群
基于机器学习算法的交通出行方式选择
昌锡铭 (北京交通大学 交通运输学院,北京 10004)
摘要:根据荷兰的出行日志调查数据,我们提取出 46 个对出行方式有影响的属 性,用机器学习方法中的支持向量机(Support Vector Machine)、决策树(Tree) 和袋装树(Bagged Trees)的方法对这些属性进行特征选择。结果显示,选择出 来的这 13 个属性,可以很好的对交通出行方式进行划分,对交通规划、政策制 定以及预测交通出行需求具有重要作用。 关键词:交通出行方式选择;支持向量机;决策树;袋装树
1. 引言 1.1 研究背景
进入新世纪以来,世界上经济持续快速增长,地铁、汽车等出行方式进 入到我们的生活当中,我们的出行方式变得多种多样。出行方式选择的预测 对于进行交通规划和预测出行需求有着重要的作用。大量的论文证明了出行 方式的选择受到多种因素的影响,包括个人特征、家庭特征和本次出行的特 征等。
载。调查属性可以细分为:
household variables,其中属性比如:家庭所在城市化水平、家庭人口数、家
3
庭中儿童的年龄和个数、家庭机动车保有量、调查时间(星期)等。
The Choice of Traffic Trip Mode Based on Machine Learning Algorithm
Abstract: According to the travel log survey data of the Netherlands, we extract 46 influential attributes of travel modes. With the machine learning method support vector machine, decision tree and bagged trees, we select the influential features of these attributes. The results show that the choice of these 13 features can be a good way to explain the travel model choice, and play an important role in traffic planning, policy development and traffic travel demands forecast. Key words: traffic mode selection; support vector machine; decision tree; bagged trees
1
交通方式划分(model split)是进行交通规划四阶段法的第三步。传统的 估计出行方式的模型是Logit模型,它是基于最大效用原则的离散选择模型。 由于其不需要很大的调查样本却同样能提供较为准确的分类信息,在交通方 式划分研究上有着广泛的应用。多项Logit(MNL) 模型(McFadden,1973) 是应用最广的出行方式预测方法。模型假设出行者追求效用最大化,在特定 条件下将选择其所认知的效用最大的方案,且选择方案因出行者特性(如年 龄、性别、职业等)、选择方案特性(如所需费用、时间等)等因素而异。因此, 若已知了这些因素对出行者感知到效用的影响就能对出行选择行为方式作预 测。
(例如性别,年龄和职业)以及家庭信息(如收入,汽车和自行车数量)。数据
包含不完整或错误信息的记录,一共94296条(含缺失值)。这些出行在空间上
分布在荷兰的所有地区,代表着整个荷兰人口的旅行行为。该数据可以免费通过
以 下 链 接 : https://easy.dans.knaw.nl/ui/datasets/id/easy-dataset:54132/tab/1 进 行 下
本文交通出行方式进行分类,本文中我们采用交通大数据课程上讲解的 支持向量机(Support Vector Machine)、决策树(Tree)和集成学习袋装树 (Bagged Trees)的方法来进行特征选择,最后在测试集上进行精度验证,从 而找出对交通方式划分影响最大的属性。整体研究思路图如下:
2