基于ARIMAX模型的交通事故宏观预测
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1041 3
1071 758 1101 658 1191 008 1151 673 1211 601 1331 604 1381 292 1431 873
1041 1
1121 211 1201 458 1251 733 1261 900 1341 739 1401 280 1471 525 1461 433
并确定各个输入序列及残差序列的白噪声模型 :
εxit
=
Wi ( B) δi ( B)
Xit
(2)
3) 建立预测模型 。通过检验经预白噪声后响应序
列与输入序列 的互相关系数 , 确定预测模型如 (1) 式
所示 。
3 实例研究
31 1 逐步回归筛选主要宏观影响变量 以我国 1983 —2005 年间的事故死亡人数 ( 以 Y 表
示) 为指标 , 以 11 1 中定量因素( 分别以 X1 —X9 表示) 为候选影响因素 , 做逐步回归筛选 。其基本数据如下 表所示 。
表 1 1983 —2005 年交通事故死亡人数以及相关量化性影响因素统计
年份 Y X1 X2 X3 X4 X5 X6 X7 X8 X9
年份 Y X1 X2 X3 X4 X5 X6 X7 X8 X9
道路交通与安全 ·第 9 卷第 1 期 2009 年 2 月
基于 ARIMAX 模型的交通事故 宏观预测
■李春燕 , 陈 峻
东南大学交通学院 , 南京 210096
摘 要 : 针对现有道路交通事故预测方法的不足 , 采用逐步回归法从众多宏观影响因素当中筛选出 主要影响因素 , 并将动态回归 ARIMAX 模型应用于预测 。前者保证了模型应用的准确性 , 后者则兼有回归与时间序列预测方法两方面的优点 。根据 1983年 —2005年间相关数据 , 建 立起道路交通死亡人数同人口总数 、运输线质量里程数 、客运量 、驾驶员人数 、人均 GDP 、 公路运输汽车拥有量的相关关系 , 进一步应用 ARIMAX 模型进行预测 , 拟合结果显示 , 误 差较小 、预测情况良好 , 在交通事故宏观预测方面有很好的应用前景 。
和的 F 检验判断自变量对因变量作用是否显著 。通过 SAS 软件能够自动剔除非重要因素 , 判断的主要依据 是 F 检验的大小 。SAS 系统在进行逐步回归时的基本 步骤可以分为以下 3 步 。
1) 引入自变量 。进行 F 检验 , 经过计算后的 P ≤ 01 05 时 , 表示该自变量对因变量有显著性影响 , 转入 下 1 步 。否则 , 剔除 。
关键词 : 逐步回归 ; ARIMAX 模型 ; 筛选因素 ; 宏观预测
0 引言
道路交通事故宏观预测是指根据以往历年的宏观 影响因素 , 建立预测模型 , 推测出未来交通事故发生 率或死亡人数 。目前 , 交通事故预测常用的方法有回 归预测 、ARIMA 模型 、灰色理论和神经网络分析 。回 归预测模型体现出因变量与自变量间的当前关系 , 但 却反映不出因变量与各自变量过去的依赖关系 , 并且 在交通事 故 影 响 因 素 确 定 方 面 还 存 在 着 很 大 的 随 机 性 , 通常仅根据主观经验选定 ; 后 3 种方法只是把道 路交通事故看作随时间而变化的单变量模型 。道路交 通事故是一个随机事件 , 受多种因素影响 , 单纯依靠 其自身的数据难以对未来交通事故的发生情况有较精 确的预测 , 并且变量选择的好坏往往直接影响到预测 结果的精度 , 不合理的变量选择将无法保证预测模型 的预期效果 , 有时甚至得出错误的结论 。针对以上情
18
基于 ARIMAX 模型的交通事故宏观预测 ·学术研究
11 2 模型选用的思路 由于未来道路交通事故预测值
的大小不仅与当前影响要素和随机
事件的波动值有关 , 而且还与过去 相关记录有联系 , 因此需要知道道 路交通 事 故 以 及 相 关 因 素 的 历 史
值 。通过对历年道路交通事故影响
因素的统计分析发现 , 其具有显著趋 势性和波动性 , 如图 1 所示为人口总 数 、运输线质量里程数 、客运量 、驾
4 938
5 731
6 2811 2 66 521 1 7 0041 2 7 7321 2 8 4671 5 9 2711 53 10 4601 2
271 49
281 81
291 89
311 88
5011 77
7021 82
7641 39
8261 34
9241 64
1992 581 729 111 716 8 1051 667 6911 738 921 645 2 731 177 4 781 094 1 9691 55 2 299 301 87 2004 991 77 121 999 1871 07 2 6931 71 1511 583 1621 453 1241 499 6 3831 17 12 336 1 0671 18
∑ Y t
= μ+
k i =1
W i ( B) δi ( B)
B ki
X
it
+
θ( φ(
B) B)
αt
(1)
式中 : Xit 为在时间 t 的第 i 个输入序列或者第 i 个输入 序列的差分 ; Ki 为关于第 i 个输入序列的影响的纯时 间延迟 ; Wi ( B) 为第 i 个输入序列的转换函数和分子 多项式 ; δi ( B) 为第 i 个输入序列的转换函数的分母 多项式 ; αt 为零均值白噪声序列 。
121 1
121 239 121 362 9 121 481
121 590 121 674 3 121 762 7 121 845
121 922
1151 7
1181 579 1221 64
1271 85
1351 17
1401 27
1691 8
1761 52
1801 98
1 040
1 1001 1 1 2191 09 1 3191 3 1 4521 94 1 6081 91 1 8021 04 2 0531 17 2 3821 93
1983 231 944 101 300 8 911 507 2 2321 63 701 567 0 331 696 5 401 141 3 3261 82 5811 08 241 87 1994 661 362 111 984 6 1111 782 9411 952 991 807 7 951 394 0 891 491 4 1 2691 2 4 0141 2 271 97
况 , 本文将 ARIMAX 模型应 用 于交 通事 故 的宏 观 预 测 , 并首先从众多道路交通事故影响因素中确定了主 要的宏观因素 。
1 模型选用的思路
11 1 影响因素的确定 道路交通事故影响因素 , 按照其特性可分为定量
与定性两种类型 。前者主要包括人口总数 、公路里程 数 、机动车拥有量 、运输线质量里程数 、客运量 、货 运量 、驾驶员人数 、人均 GDP 、公路运输汽车拥有量 等 9 个宏观性因素 ; 后者则包括人 、车 、路在内的微 观因素 。[1] 研究定量因素 , 可对未来年交通安全问题进 行定量研究 , 而通过对定性因素的分析 , 可以预测未 来交通事故的主要发生原因 , 并且对当地应采取的交 通安全措施起到指导作用 。对于研究交通事故宏观预 测问题 , 其影响因素仅指前者 。
2) 预白噪声处理 。反复试用不同 P 、Q , 两两检
19
道路交通与安全 ·第 9 卷第 1 期 2009 年 2 月
验 AR( P) 以及 MA ( Q) 的 t 比值 , AIC 及 SBC 的大小 ,
寻求最大 t 比值和最小 AIC 及 SBC 值 , 最后通过残差
自相关系数检验 P ≥01 005 时 , 残差为白噪声序列 ,
根据多种统计文献[4 6] , ARIMAX 模型建立的步 骤总结如下 :
1) 平稳性检验 。根据自相关系数图 , autocorrela2 tion 散点图呈指数衰减时 , 表明相关序列平稳 , 否则 对其进行平稳性处理 , 消除趋势性或周期性 , 以白噪 声检验的结果 P 值反映白噪声是否被拒绝 。
111 582 4
921 668
941 243
961 278 4
981 217 6
991 965
1011 434
1021 826
1041 122
2601 40
3211 12
3611 95
Fra Baidu bibliotek
4081 07
4641 39
5111 32
5511 36
6061 11
721 503 0
751 033 1
781 042 3
2) 剔除自变量 。引入另 1 变量 , 进行 F 检验和所 有引入变量的偏回归系数假设检验 。若同时满足以下 两个条件 , 表明引入的所有变量有效 , 否则变量之间 存在 共 线 性 , 有 需 要 剔 除 的 因 素 : 回 归 方 程 P ≤ 01 05 , 表示同时引入的所有变量对因变量有显著性影
1984
1985
1986
1987
1988
1989
1990
1991
251 251
401 906
501 063
531 439
541 814
501 441
491 271
531 292
101 436 1
101 584 9
101 751 0
101 929 6
111 102 4
111 270 4
111 433 6
731 231 5
731 378 1
721 404 0
731 390 7
3481 11
4621 44
5171 03
5561 82
6541 49
7221 32
7901 96
8591 44
6941 11
8541 11
9551 67
11021 57
1 3541 37
1 5081 46
1 6371 13
1 8841 4
941 04
981 386 0 971 653 6 971 600 4 991 044 4 1031 881 1051 631 1111 632 1151 995
1 6731 4 2 1001 74 2 6191 25 2 9741 06 3 3611 12 3 4761 51 4 4621 68 4 8711 2 5 4201 68
收稿日期 :2008 - 09 - 23 基金项目 :教育部新世纪优秀人才支持计划(NCET - 07 - 0176) 。 作者简介 :李春燕(1986 —) ,女 ,山东临沂人 ,东南大学交通学院交通运输规划与管理专业研究生 ,主要研究方向为交通运输规划与管理 。E - mail : yanyanxihua @1631 com
811 071 1
841 225 2
861 250 5
881 346 4
901 743 7
391 033 6
471 648 6
541 425 9
591 368 2
651 047 3
641 450 8
641 808 5
681 268 1
531 338 2
531 806 2
621 011 3
711 142 4
图 1 相关因素原始数据图
响 ; 各个引入变量的 P ≤01 05 , CP 准则值下降 , 条 件数界限下降 。[2]
3) 重复 。依次重复步骤 1 与步骤 2 , 直到无可再 引入变量为止 , 筛选变量结束 。
型具有很高的灵敏度 , 因此 , 应首先对其主要宏观影 响因素进行筛选 , 以避免引入相关性小的因素 , 对预 测结果产生错解 。
261 68
271 73
291 27
301 32
301 69
301 85
311 30
311 67
1995
1996
1997
1998
1999
2000
2001
2002
2003
711 5
731 655
731 861
781 067
831 529
931 853 1061 367 1091 381 1041 372
驶员人数 、人均 GDP 、公路运输汽车 拥 有 量 ( 分 别 用 X1 , X4 , X5 , X7 , X8 , X9 表示) 的历史数据图 。
从图 1 中可以看出 , 不同数据随 着时间的推移具有明显的规律性 。由
此假设将 相 关 因 素 的 历 史 值 看 成 一 组 组 时 间 序 列 { X1 t } , { X2 t } …… { Xit } ……, 这些时间序列在时 间的推移过程当中与随机事件波动值共同作用 , 影响 着响应序列的输出大小 。这样建立起来的动态回归模
2 模型的实现
21 2 A RIMA X 模型的 SAS 实现 假设输入序列分别用 { X1 t } , { X2 t } … { Xit } …
表示 , 响应序列用 { Yt } 表示 , ARIMAX 模型的一般 模型为 :
21 1 逐步回归的 SA S 实现 逐步回归是基于最小二乘原理 , 以偏自回归平方