基于美国交通部数据的航空运输延误分析预测模型

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于美国交通部数据的航空运输延误分析预测模型

关菁菁尚蕊蒋安华

(中国人民大学统计学院100872)

摘要:本文基于美国交通部的公开数据建立了航空运输延误分析预测的时间序列模型。我们针对飞行延误情况进行研究。在建模之前给出了所有要用到的定义概念,为建模提供了测度基础。随后,本文利用所得数据充分描述了航空运输业的概况,包括航线分布、航程分布、延误时长、系统预定飞行设定等。在对数据集充分了解的情况下,我们针对月飞行延误率建立了时间序列模型,通过对这个时间序列模型的检验与评价,我们确信模型取得很好的效果。在文章的最后,我们就本次建模进行了总结,并基于模型的分析预测情况阐述了对于航空运输延误问题的一些启示。

一、背景

(一)研究背景

空中交通管理影响到飞行的安全和效率,已经成为当代一个重要问题。航空活动在二十世纪30年代之前,由于飞机只能在白天天气允许的情况下飞行最多几千米,当时只需由管制员用红旗和绿旗来控制飞机起降,人们关心飞行的安全多于飞机是否按时到达。1934至1945年间,机身和机场都装备了无线电通信和导航设备。二次世界大战给航空技术带来了飞跃性进步,雷达的应用和仪表着陆系统(ILS)。二十世纪80年代后,计算机、空管地面设施和卫星系统被广泛应用到空中交通管理。这些都为空中及地上飞行资源的优化配置提供了便捷,也正是由于航空技术的迅速发展,航空运输量日益增大,除了航空运输安全问题外,航空运输延误也成为了今日的重要课题。

我们研究的航班延误问题实际上是空中交通管理成效的一个反映。乘客希望得到最便捷和最安全的航程。航空公司希望每一飞行架次都可以安全、高效和成本最优。在空中交通管理中,地面等待策略也被广泛采用。因为从成本和飞行安全等方面来考虑,地面等待总比空中等待更安全、经济一些,所以地面等待策略实质上是将昂贵的空中等待转化为地面等待,以达缩减费用的目的。但是,这并不意味着起飞前的延误比降落的延误好。事实上,我们总是希望每一飞行架次均可按时完成飞行任务,所有的资源都得到优化配置。因此,为了了解目前民用航空的延误情况,我们将基于得到的数据建立一个关于航班延误时间序列模型。众所周知,统计其实是随机性和规律性的统一。我们希望可以在这些飞行数据中找到一些规律,并将之用于预测。由于统计具有随机性,所以我们得到的预测并不总是准确的。但一般说来,大量的随机事件则会呈现一定的统计规律性。

(二)数据来源

本文使用的数据来源于美国交通运输部研究与技术创新管理部门(Research and Innovative Technology Administration (RITA) • U.S. Department of Transportation (US DOT), 1200 New Jersey Avenue, SE • Washington, DC 20590 • 800-853-1351)。美国交通运输统计局的宗旨是发布完善且高质量的交通运输信息,提高公共和私人决策的效率,其利用网站发布了很多交通运输信息和相关分析,对我们有很大的启发和借鉴意义。我们选择了2003年06月至2009年07月美国所有飞行架次的飞行情况作为数据集。这个数据集聚焦于每架次是否按时飞行。

二、问题定义

我们关注的经济事件是一架次飞机的飞行情况。此经济事件实际包含三个阶段:起飞,在空和降落。实现一个完整经济事件的飞行称为一个飞行架次。因在这三个阶段都可能出现延误,故我们把飞行架次延误时长定义为在起飞、在空和降落三个阶段的总延误时长。因一次实现的飞行架次延误时长可正可负,正值代表该架次延误,负值则代表按时到达。根据上述定义和既得数据,我们可以计算出所有架次的延误时长以及判断其是否被延误。一般说来,只要在起飞、在空和降落任一阶段发生延误,该飞行架次都会被延误。飞行延误率被定义为一段时间内,飞行架次延误时长为正值的飞行架次数所占当期所有飞行架次总数的比例。

三、数据描述

(一)变量概览

该数据集所含主要指标分为以下大类,共计55个变量:时间;所属航线、出发及到达地点;起降表现;是否取消或绕道飞行;航班概况;延误原因。根据我们的研究目的,初步筛选之后留下了18个变量,如下表所示:

(表一)变量名称及意义说明

(二)主要变量及其关系分析

在数据集中,每个月起降的飞行架次最高可达638,883架次,最少月份也有481,506架次。鉴于每个月的起降情况类似,我们选取离目前最近的2009年07月的数据来进行主要变量关系分析。

由图一得,Atlanta,亚特兰大机场是全美起飞航班最多的机场,其起飞架次占全美起飞架次总量的6.60%,计37,705架次。芝加哥奥黑尔机场起飞的航班数量位居第二,占全美起飞架次总量的4.75%,累计27,161架次。图二为按照频率排序的始发地与目的地的往来对照图,相关地点往来航运量(按架次计)可以从该图查得。

(图一)各始发地起飞架次占总起飞架次比例图截选

(图二)起始地点往来飞行架次图截选

(图三)始末机场距离分布表

如图三所示,始末机场距离分布其实是一个右偏分布。有136,158个飞行架次的始末机场距离都在300千米附近,105,725个飞行架次的始末机场距离在500千米附近。介于500千米和2,500千米的飞行架次也占有相当大的比例。可见,飞行距离较短的飞行架次占了很重的比例。

(图四)系统预定飞行耗时与实际飞行耗时对比

由图四看出,系统预定飞行耗时与实际飞行耗时各个统计量都比较接近。只是系统预定飞行时长的众数为70分钟,而实际飞行时长的众数为80分钟,相对较长。图上红色的点以实际飞行时长为横坐标,系统预定飞行时长为纵坐标,黑色的线为过原点,斜率为1的射线,可以看到该射线的右下方的点居多,说明对于同一飞行架次来说,实际飞行时长一般会比系统预定飞行时长更长。

(图五)起飞延误与降落延误基本统计量图

如图五所示,起飞延误时长与降落延误时长的均值分别为9.99和7.35分钟,标准差分别为34.67和37.43,极差分别是2,497和2,524分钟,可见起飞延误时长相较于降落延误时长波动小,但是其均值比降落延误时长大。初步判断图上绿色的点有较严重的堆积情况,我们做一条起飞延误时长关于降落延误时长的回归线如图中颜色较淡的、斜率较大的细线所示,堆积情况十分严重。如果利用这两个变量做回归的话,偏差一定十分严重。将始末机场距离加入考虑,得到图六。我们可以看到大部分起飞延误的架次一般降落也会延误,大部分起降延误集中在始末机场距离介于0至3,000千米的架次。

(图六)起飞延误、降落延误与飞行距离关系图

如图七所示,294,994个飞行架次按时起飞。260,760架次的起飞延误时间介于50至100分钟之间。起飞延误时长介于100至150分钟之间的飞行架次为12,831,起飞延误时长超过100分钟的飞行架次为3,046。因此,起飞延误飞行架次与按时起飞飞行架次比例相当。

(图七)起飞延误时长分布图

相关文档
最新文档