基于聚类分析方法的车站提取模型
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2006年12期增刊
计算机系统应用
基于聚类分析方法的车站提取模型
The Model for Acquiring Stations Information Based the Cluster Analysis
源自文库on
阚劲军
周志逵
曹新平
(中国民航信息网络股份有限公司100010)
摘要:本文通过实用数据分析方法一“聚类分析”应用于城市公交刷卡乘车数据的分析统计,得到对应于公交线路 的车站站点的时间间隔OD信息,对于公交规划的评价和优化起到辅助作用。 关键词:聚类分析聚合法公交规划
对应情况找出遗漏的车站,并增补。 如某班次的运行时间间隔为:150秒,270秒,180 秒,210秒……,而实际站间运行平均时间间隔为:130 秒,120秒,140秒,90秒,130秒,150秒,120秒……,则 可以得出结论,某班次的统计车站和实际车站的编号 对应关系为:1对应1,2对应3,3对应5,……,这样可 以发现某班次的统计车站在第一站和第二站之间漏了 一个车站,第二站和第三站之间漏了两个车站……,因 此按实际站问运行时间间隔的比例在第一个车站和第 二个车站之间插入一个车站,在第二个车站和第三个 车站之间插入两个车站……。第八步:统计平均车站 数NAVG。 方法:将从每次出车打卡数据的统计得出的车站 数NS(算法第一步得出)全部相加,再除以班次总数, 最后四舍五入(程序实现采用加0.5再取整数)得到 平均车站数NAVS。
2模型的提出
2.1聚合法 刷卡数据开始时每个个体自成一类,然后将刷卡 时间间隔最近的的类进行合并,使类的数目减少,然后 再将刷卡时间间隔最近的类进行合并,如此下去,最后 形成对应于每个车站的刷卡数据集合。
2.2
2.5算术均值
x
2iI蜀"Xi
应用于多次计算各种平均时间。
3
用打卡数据确定车站算法的实现方法
开始
方法:按顺序提取各班次的站间时间间隔数据,
计算实际站间运行平均时间
依次和该班次的KSA相乘得到调整后白勺站间运行时 间间隔TsK。
将打卡数据统计成差分数据 漏站预增补 统计平均时间间隔TAVG 统计平均车站数NAVG 剔除坏的打卡数据 增、波车站处理 对全程运行时间做归一化处理
第六步:计算实际的站间运行(包括站内停靠)平 均时间TSR。 方法:根据实际调研结果(站问的距离),将运行 总时间按站间距离的比例进行分割,分割得到的时间 作为实际站间运行平均时间TSR 如总运行时间为1000秒,车站数量为5个,站间 距离分别为1000米,1500米,500米,2000米,则实际 站间运行平均时间分别为:200秒,300秒,100秒,400 秒。(这个实际站间运行平均时间作为漏站预增补的 参照模板)。 第七步:漏站预增补。 方法:将前三步得到的各班次站间运行时间间隔
TAs。
6点之间上行方向的站点信息为例,数据如下所示
运行编号线路标识站点标识时间标识行驶方向
1 2 3 4 5 6 7 8 9 10 11 12 01220 01220 01220010 01220020 01220030
总时间
站间问隔
050(106∞0
05000600 05000600 0 0
4277.DO 4277.DO 4277.DO 4277.DO
5结论
基于聚类分析的车站提取模型是结合离散数据统 计、分析的适用于现代城市交通出行中,刷卡使用日益 频繁的情况而设计的算法模型。该算法通过对居民公 交出行中刷卡数据的分析和处理,并用理论公交线路 模板进行修正,最终得到符合实际调研的公交线路各 站点OD信息,对进行公交线网的评价和改进优化起 到关键作用。同时,本模型对刷卡乘车数据的分析具 有通用性,因此,算法的适用性好,实际用途广泛。
01220
01220
第十一步:输出统计结果——车站数量NAVS和 站问平均运行间隔时间TAS。 方法:按班次将站间垂直平均运行时间间隔TAS 记录在数组变量中。数据成员数量(即该数组长度) 即为车站数量NAVS。
说明:
通过与实际调研结果对比基本吻合,说明算法在 实际运用中符合要求。 这些线路站点OD数据将作为中间处理结果,被 公交规划的评价模型所采用,以达到计算机化处理,最 终实现公交线网的改进和优化。
参考文献
1实用数据分析方法,吴国富等编,北京一中国统计出 版社。1992. 2应用抽样方法,黄良文、吴国培编著,中国统计出版 社。1991.
4实验数据及评价
根据上述设计的算法,采用Delph矿.0进行编程实 现,使用Oracle8,1.7作为后台数据库。 根据算法,编制程序并执行,得到在不同运行时段 的公交线路站点信息。以该市122线路运行于5点至
3
Delphi
7程序设计。王春红主编,北京一北方交通大
学出版社/清华大学出版社,2004.
4
Anderberg.M.R.,Cluster Analysis for Applications, Academic Press,1973.
O 0 0 0 0 0 O 0
4277.∞150.DO 4277.∞6∞.DO
4277.00
197.∞
01220
01220 01220
4277.∞493.DO
4277.00
187.DO
012201DO
01220110 01220120
4277.00柳.00
4277.∞205.00
4277.oo 157.00
(3)d。=dj,对以前i,j
(4)d“≤d止+d与对一切i,j,k
用类平均法定义两个车站站问时间间隔:
%2衰p
2.4相似系数 刷卡数据属于间隔尺度变量,设刷卡样本(X,, x:,……,X.,)的相关矩阵为R,则有相关系数
善(x池一xt)(x,k—xj)
~一r。
叉。)2。砉(x,。一i。)2]+
利用相关系数决定刷卡数据所属车站的合理时间 取值。
1096.DO 408.DO
146.00
01220
01220 01220 01220 01220
01220040毗00c16∞0
01220Q50 01220060 01220a70 01220080 们220090
250.DO
050cIo∞0
050c0600 050c0600 05000600 05000600 05000600 05000600 05000600
J,
I求站问的垂直平均时间间隔
求调整后的站问运行时间间隔
J,
输出统计结果
图1
打卡数据确定车站算法流程
数据和第四步得到的实际站间运行平均时间作对比, 按照最接近原则找出相对应的车站,根据车站编号的
第二步:按不同时段对所有白勺时间间隔统计平均 时间间隔TAVG。(作为剔除坏数据的阀值标准) 方法:如取7—8点间发车的数据,将所有的时间 间隔相加除以时间间隔总数获得平均时间间隔TAVS, (即车站间的平均行车时间)。 第三步:剔除坏的打卡数据(由于长时间堵车,坏 车或连续多个车站不上乘客造成)。 方法:按顺序检查某次出车的所有站问的时间问 隔Ts,如果存在TS>4×TAVG(其中,选取四倍是基于 经验总结),则剔除这次出车的所有打卡数据(删除该 班次对应的数组)。 第四步:对全程运行时间做归一化处理。将各个 班次的所有站间时间间隔相加,得到各个班次的统计 运行总时间TSA,设实际的运行总时间为TBZ,则TBZ 和各个班次的统计运行总时间TSA相除得到各个班次 的调整系数KSA。
1
引言
现在城市发展中,公共交通是必不可少的出行工
n个点,用dij表示第i组刷卡数据所属车站与第j组刷 卡数据所属车站之间的时间间隔。di应满足如下条件: (1)d。;=0当第i组样品与第j组样品相等
(2)dii90对一切i,j
具。城市公共交通是城市社会活动、经济活动的枢纽 和动脉,对城市经济发展和人民生活水平的提高起着 极其重要作用。近年来,随着人口的增长,国民经济的 高速发展及城市化进程推进,我国大多数城市出现了 严重交通拥挤现象。对于一座大中型城市,一方面是 人口增加明显,现有公交车辆不能满足出行人数,另一 方面是一些公交线路的编排规划不合理,致使客流密 度与公交线路不符。 本文致力于公交线路优化设置需要,采用常用数 学分析方法,提出基于聚类分析的车站提取模型。这 是基于现代城市中刷卡乘车的数据记录进行公交规划 的分析与改进的一部分工作。对于使用刷卡乘车计费 的城市公交规划可以起到辅助作用。
按上述方法得出的车站数量为统计意义上的车站 数量,来源于乘客的打卡数据分布规律,由于有些车站 经常没有乘客上车,乘客的打卡数据中体现不出来这 样的车站信息,因此统计意义上白勺车站数量可能会少 于实际的车站数量,而且每个时间段白勺车站数量的统 计值也不同,要使各时间段内车站自勺数量一致并且修 正车站数量和实际车站数量相符合可以根据实际的调 研数据,在各时间段内补充遗漏的车站。 第四步至第七步中使用了一些实际确切数据(来 自公交班次运行手册),统计结果正确度应该高于纯粹 使用打卡数据的结果(打卡数据信息遗漏太多)。根 据实验统计结果,第四步和第五步中采用误差累计的 方法预增补遗漏车站,实现结果表明和实际车站数吻 合较好。因为计算OD时需要的信息为各车站的运行 时间和停站时间之和,因此第一步记录站间时间间隔 时就将停站时间计入时间间隔中。
计算机系统应用 由相似系数分析后的取值(根据分析,取1.5分钟比较 合理),则认为是同一车站上车的乘客,累计该时问间 隔,否则累计该时间间隔后记录累计结果,再将累计值 清零,车站数加一。处理结果以每个班次为单位保存为 数组,数组成员为各个车站的运行时间和停站时间之 和。
2006年12期增刊
方法:按顺序提取各班次的站间时间间隔数据,依 次累加,累加的结果为TSA。实际运行总时间TBZ来 自公交班次运行手册。用TBZ和各个班次的TSA相除 得到各个班次的KSA。 第五步:将各个班次的各个站间运行时间间隔均 乘以该班次的调整系数KSA。得到调整后的站间运行 时间间隔TSK。
2006年12期增刊
计算机系统应用
第九步:对车站数NS少于平均车站数NAVS的出 车打卡数据进行加车站处理,反之减车站处理。 方法:按顺序对站间运行时间做垂直平均TAS,将 每次出车相应的站问运行时问Ts和平均值TAs做比较, 如果"IS>2 xTAS而且车站数量小于平均数则在该处插 入一个车站,站间时间定为0.5×1"5,如果车站数量大于 平均数,则删除时间偏离最大的车站(程序实现为按顺 序比较,记录差别系数,删除差别系数最大得车站)。 第十步:车站数量一致后再一次求站间的垂直平 均时间间隔TAS作为站间平均运行时间。 方法:按顺序对站间运行时间计算垂直平均时间
算法的流程大致如图1所示。 第一步:将打卡数据统计成时间间隔数据(差分数
Q型聚类 对于n组刷卡样品数据(X。,X:,O・・O ral,X。,),对
样品进行的聚类称为Q型聚类。 2.3站间时间间隔(非类似度) 对于n组刷卡样品数据,视rl组样品为p维空间的
据)TS,记录间隔总数(相当于车站数)NS。 方法:按顺序比较每名乘客(根据打卡时间记录) 打卡的时间间隔,如果两名乘客刷卡的时间间隔小于
计算机系统应用
基于聚类分析方法的车站提取模型
The Model for Acquiring Stations Information Based the Cluster Analysis
源自文库on
阚劲军
周志逵
曹新平
(中国民航信息网络股份有限公司100010)
摘要:本文通过实用数据分析方法一“聚类分析”应用于城市公交刷卡乘车数据的分析统计,得到对应于公交线路 的车站站点的时间间隔OD信息,对于公交规划的评价和优化起到辅助作用。 关键词:聚类分析聚合法公交规划
对应情况找出遗漏的车站,并增补。 如某班次的运行时间间隔为:150秒,270秒,180 秒,210秒……,而实际站间运行平均时间间隔为:130 秒,120秒,140秒,90秒,130秒,150秒,120秒……,则 可以得出结论,某班次的统计车站和实际车站的编号 对应关系为:1对应1,2对应3,3对应5,……,这样可 以发现某班次的统计车站在第一站和第二站之间漏了 一个车站,第二站和第三站之间漏了两个车站……,因 此按实际站问运行时间间隔的比例在第一个车站和第 二个车站之间插入一个车站,在第二个车站和第三个 车站之间插入两个车站……。第八步:统计平均车站 数NAVG。 方法:将从每次出车打卡数据的统计得出的车站 数NS(算法第一步得出)全部相加,再除以班次总数, 最后四舍五入(程序实现采用加0.5再取整数)得到 平均车站数NAVS。
2模型的提出
2.1聚合法 刷卡数据开始时每个个体自成一类,然后将刷卡 时间间隔最近的的类进行合并,使类的数目减少,然后 再将刷卡时间间隔最近的类进行合并,如此下去,最后 形成对应于每个车站的刷卡数据集合。
2.2
2.5算术均值
x
2iI蜀"Xi
应用于多次计算各种平均时间。
3
用打卡数据确定车站算法的实现方法
开始
方法:按顺序提取各班次的站间时间间隔数据,
计算实际站间运行平均时间
依次和该班次的KSA相乘得到调整后白勺站间运行时 间间隔TsK。
将打卡数据统计成差分数据 漏站预增补 统计平均时间间隔TAVG 统计平均车站数NAVG 剔除坏的打卡数据 增、波车站处理 对全程运行时间做归一化处理
第六步:计算实际的站间运行(包括站内停靠)平 均时间TSR。 方法:根据实际调研结果(站问的距离),将运行 总时间按站间距离的比例进行分割,分割得到的时间 作为实际站间运行平均时间TSR 如总运行时间为1000秒,车站数量为5个,站间 距离分别为1000米,1500米,500米,2000米,则实际 站间运行平均时间分别为:200秒,300秒,100秒,400 秒。(这个实际站间运行平均时间作为漏站预增补的 参照模板)。 第七步:漏站预增补。 方法:将前三步得到的各班次站间运行时间间隔
TAs。
6点之间上行方向的站点信息为例,数据如下所示
运行编号线路标识站点标识时间标识行驶方向
1 2 3 4 5 6 7 8 9 10 11 12 01220 01220 01220010 01220020 01220030
总时间
站间问隔
050(106∞0
05000600 05000600 0 0
4277.DO 4277.DO 4277.DO 4277.DO
5结论
基于聚类分析的车站提取模型是结合离散数据统 计、分析的适用于现代城市交通出行中,刷卡使用日益 频繁的情况而设计的算法模型。该算法通过对居民公 交出行中刷卡数据的分析和处理,并用理论公交线路 模板进行修正,最终得到符合实际调研的公交线路各 站点OD信息,对进行公交线网的评价和改进优化起 到关键作用。同时,本模型对刷卡乘车数据的分析具 有通用性,因此,算法的适用性好,实际用途广泛。
01220
01220
第十一步:输出统计结果——车站数量NAVS和 站问平均运行间隔时间TAS。 方法:按班次将站间垂直平均运行时间间隔TAS 记录在数组变量中。数据成员数量(即该数组长度) 即为车站数量NAVS。
说明:
通过与实际调研结果对比基本吻合,说明算法在 实际运用中符合要求。 这些线路站点OD数据将作为中间处理结果,被 公交规划的评价模型所采用,以达到计算机化处理,最 终实现公交线网的改进和优化。
参考文献
1实用数据分析方法,吴国富等编,北京一中国统计出 版社。1992. 2应用抽样方法,黄良文、吴国培编著,中国统计出版 社。1991.
4实验数据及评价
根据上述设计的算法,采用Delph矿.0进行编程实 现,使用Oracle8,1.7作为后台数据库。 根据算法,编制程序并执行,得到在不同运行时段 的公交线路站点信息。以该市122线路运行于5点至
3
Delphi
7程序设计。王春红主编,北京一北方交通大
学出版社/清华大学出版社,2004.
4
Anderberg.M.R.,Cluster Analysis for Applications, Academic Press,1973.
O 0 0 0 0 0 O 0
4277.∞150.DO 4277.∞6∞.DO
4277.00
197.∞
01220
01220 01220
4277.∞493.DO
4277.00
187.DO
012201DO
01220110 01220120
4277.00柳.00
4277.∞205.00
4277.oo 157.00
(3)d。=dj,对以前i,j
(4)d“≤d止+d与对一切i,j,k
用类平均法定义两个车站站问时间间隔:
%2衰p
2.4相似系数 刷卡数据属于间隔尺度变量,设刷卡样本(X,, x:,……,X.,)的相关矩阵为R,则有相关系数
善(x池一xt)(x,k—xj)
~一r。
叉。)2。砉(x,。一i。)2]+
利用相关系数决定刷卡数据所属车站的合理时间 取值。
1096.DO 408.DO
146.00
01220
01220 01220 01220 01220
01220040毗00c16∞0
01220Q50 01220060 01220a70 01220080 们220090
250.DO
050cIo∞0
050c0600 050c0600 05000600 05000600 05000600 05000600 05000600
J,
I求站问的垂直平均时间间隔
求调整后的站问运行时间间隔
J,
输出统计结果
图1
打卡数据确定车站算法流程
数据和第四步得到的实际站间运行平均时间作对比, 按照最接近原则找出相对应的车站,根据车站编号的
第二步:按不同时段对所有白勺时间间隔统计平均 时间间隔TAVG。(作为剔除坏数据的阀值标准) 方法:如取7—8点间发车的数据,将所有的时间 间隔相加除以时间间隔总数获得平均时间间隔TAVS, (即车站间的平均行车时间)。 第三步:剔除坏的打卡数据(由于长时间堵车,坏 车或连续多个车站不上乘客造成)。 方法:按顺序检查某次出车的所有站问的时间问 隔Ts,如果存在TS>4×TAVG(其中,选取四倍是基于 经验总结),则剔除这次出车的所有打卡数据(删除该 班次对应的数组)。 第四步:对全程运行时间做归一化处理。将各个 班次的所有站间时间间隔相加,得到各个班次的统计 运行总时间TSA,设实际的运行总时间为TBZ,则TBZ 和各个班次的统计运行总时间TSA相除得到各个班次 的调整系数KSA。
1
引言
现在城市发展中,公共交通是必不可少的出行工
n个点,用dij表示第i组刷卡数据所属车站与第j组刷 卡数据所属车站之间的时间间隔。di应满足如下条件: (1)d。;=0当第i组样品与第j组样品相等
(2)dii90对一切i,j
具。城市公共交通是城市社会活动、经济活动的枢纽 和动脉,对城市经济发展和人民生活水平的提高起着 极其重要作用。近年来,随着人口的增长,国民经济的 高速发展及城市化进程推进,我国大多数城市出现了 严重交通拥挤现象。对于一座大中型城市,一方面是 人口增加明显,现有公交车辆不能满足出行人数,另一 方面是一些公交线路的编排规划不合理,致使客流密 度与公交线路不符。 本文致力于公交线路优化设置需要,采用常用数 学分析方法,提出基于聚类分析的车站提取模型。这 是基于现代城市中刷卡乘车的数据记录进行公交规划 的分析与改进的一部分工作。对于使用刷卡乘车计费 的城市公交规划可以起到辅助作用。
按上述方法得出的车站数量为统计意义上的车站 数量,来源于乘客的打卡数据分布规律,由于有些车站 经常没有乘客上车,乘客的打卡数据中体现不出来这 样的车站信息,因此统计意义上白勺车站数量可能会少 于实际的车站数量,而且每个时间段白勺车站数量的统 计值也不同,要使各时间段内车站自勺数量一致并且修 正车站数量和实际车站数量相符合可以根据实际的调 研数据,在各时间段内补充遗漏的车站。 第四步至第七步中使用了一些实际确切数据(来 自公交班次运行手册),统计结果正确度应该高于纯粹 使用打卡数据的结果(打卡数据信息遗漏太多)。根 据实验统计结果,第四步和第五步中采用误差累计的 方法预增补遗漏车站,实现结果表明和实际车站数吻 合较好。因为计算OD时需要的信息为各车站的运行 时间和停站时间之和,因此第一步记录站间时间间隔 时就将停站时间计入时间间隔中。
计算机系统应用 由相似系数分析后的取值(根据分析,取1.5分钟比较 合理),则认为是同一车站上车的乘客,累计该时问间 隔,否则累计该时间间隔后记录累计结果,再将累计值 清零,车站数加一。处理结果以每个班次为单位保存为 数组,数组成员为各个车站的运行时间和停站时间之 和。
2006年12期增刊
方法:按顺序提取各班次的站间时间间隔数据,依 次累加,累加的结果为TSA。实际运行总时间TBZ来 自公交班次运行手册。用TBZ和各个班次的TSA相除 得到各个班次的KSA。 第五步:将各个班次的各个站间运行时间间隔均 乘以该班次的调整系数KSA。得到调整后的站间运行 时间间隔TSK。
2006年12期增刊
计算机系统应用
第九步:对车站数NS少于平均车站数NAVS的出 车打卡数据进行加车站处理,反之减车站处理。 方法:按顺序对站间运行时间做垂直平均TAS,将 每次出车相应的站问运行时问Ts和平均值TAs做比较, 如果"IS>2 xTAS而且车站数量小于平均数则在该处插 入一个车站,站间时间定为0.5×1"5,如果车站数量大于 平均数,则删除时间偏离最大的车站(程序实现为按顺 序比较,记录差别系数,删除差别系数最大得车站)。 第十步:车站数量一致后再一次求站间的垂直平 均时间间隔TAS作为站间平均运行时间。 方法:按顺序对站间运行时间计算垂直平均时间
算法的流程大致如图1所示。 第一步:将打卡数据统计成时间间隔数据(差分数
Q型聚类 对于n组刷卡样品数据(X。,X:,O・・O ral,X。,),对
样品进行的聚类称为Q型聚类。 2.3站间时间间隔(非类似度) 对于n组刷卡样品数据,视rl组样品为p维空间的
据)TS,记录间隔总数(相当于车站数)NS。 方法:按顺序比较每名乘客(根据打卡时间记录) 打卡的时间间隔,如果两名乘客刷卡的时间间隔小于