基于美国交通部数据的航空运输延误分析预测模型关菁菁尚蕊蒋安华(中国人民大学统计学院100872)摘要:本文基于美国交通部的公开数据建立了航空运输延误分析预测的时间序列模型。我们针对飞行延误情况进行研究。在建模之前给出了所有要用到的定义概念,为建模提供了测度基础。随后,本文利用所得数据充分描述了航空运输业的概况,包括航线分布、航程分布、延误时长、系统预定飞行设定等。在对数据集充分了解的情况下,我们针对月飞行延误率建立了时间序列模型,通过对这个时间序列模型的检验与评价,我们确信模型取得很好的效果。在文章的最后,我们就本次建模进行了总结,并基于模型的分析预测情况阐述了对于航空运输延误问题的一些启示。一、背景(一)研究背景空中交通管理影响到飞行的安全和效率,已经成为当代一个重要问题。航空活动在二十世纪30年代之前,由于飞机只能在白天天气允许的情况下飞行最多几千米,当时只需由管制员用红旗和绿旗来控制飞机起降,人们关心飞行的安全多于飞机是否按时到达。1934至1945年间,机身和机场都装备了无线电通信和导航设备。二次世界大战给航空技术带来了飞跃性进步,雷达的应用和仪表着陆系统(ILS)。二十世纪80年代后,计算机、空管地面设施和卫星系统被广泛应用到空中交通管理。这些都为空中及地上飞行资源的优化配置提供了便捷,也正是由于航空技术的迅速发展,航空运输量日益增大,除了航空运输安全问题外,航空运输延误也成为了今日的重要课题。我们研究的航班延误问题实际上是空中交通管理成效的一个反映。乘客希望得到最便捷和最安全的航程。航空公司希望每一飞行架次都可以安全、高效和成本最优。在空中交通管理中,地面等待策略也被广泛采用。因为从成本和飞行安全等方面来考虑,地面等待总比空中等待更安全、经济一些,所以地面等待策略实质上是将昂贵的空中等待转化为地面等待,以达缩减费用的目的。但是,这并不意味着起飞前的延误比降落的延误好。事实上,我们总是希望每一飞行架次均可按时完成飞行任务,所有的资源都得到优化配置。因此,为了了解目前民用航空的延误情况,我们将基于得到的数据建立一个关于航班延误时间序列模型。众所周知,统计其实是随机性和规律性的统一。我们希望可以在这些飞行数据中找到一些规律,并将之用于预测。由于统计具有随机性,所以我们得到的预测并不总是准确的。但一般说来,大量的随机事件则会呈现一定的统计规律性。(二)数据来源本文使用的数据来源于美国交通运输部研究与技术创新管理部门(ResearchandInnovativeTechnologyAdministration(RITA)•U.S.DepartmentofTransportation(USDOT),1200NewJerseyAvenue,SE•Washington,DC20590•800-853-1351)。美国交通运输统计局的宗旨是发布完善且高质量的交通运输信息,提高公共和私人决策的效率,其利用网站发布了很多交通运输信息和相关分析,对我们有很大的启发和借鉴意义。我们选择了2003年06月至2009年07月美国所有飞行架次的飞行情况作为数据集。这个数据集聚焦于每架次是否按时飞行。二、问题定义我们关注的经济事件是一架次飞机的飞行情况。此经济事件实际包含三个阶段:起飞,在空和降落。实现一个完整经济事件的飞行称为一个飞行架次。因在这三个阶段都可能出现延误,故我们把飞行架次延误时长定义为在起飞、在空和降落三个阶段的总延误时长。因一次实现的飞行架次延误时长可正可负,正值代表该架次延误,负值则代表按时到达。根据上述定义和既得数据,我们可以计算出所有架次的延误时长以及判断其是否被延误。一般说来,只要在起飞、在空和降落任一阶段发生延误,该飞行架次都会被延误。飞行延误率被定义为一段时间内,飞行架次延误时长为正值的飞行架次数所占当期所有飞行架次总数的比例。三、数据描述(一)变量概览该数据集所含主要指标分为以下大类,共计55个变量:时间;所属航线、出发及到达地点;起降表现;是否取消或绕道飞行;航班概况;延误原因。根据我们的研究目的,初步筛选之后留下了18个变量,如下表所示:变量名变量含义Year年Month月DayofMonth日DayOfWeek星期几UniqueCarrier所属航空公司Origin始发地Dest目的地CRSDepTime系统预定起飞时刻DepDelay实际起飞时刻与系统预定起飞时刻差值CRSArrTime系统着陆时刻ArrDelay实际着陆时刻与系统预定着陆时刻差值Cancelled该架次被取消与否(1=取消)CancellationCode取消原因Diverted该架次是否改道(1=改道)CRSElapsedTime系统预定飞行时长(以分钟计)ActualElapsedTime实际飞行时长(以分钟计)AirTime飞机在空时长(以分钟计)Distance始末机场距离(表一)变量名称及意义说明(二)主要变量及其关系分析在数据集中,每个月起降的飞行架次最高可达638,883架次,最少月份也有481,506架次。鉴于每个月的起降情况类似,我们选取离目前最近的2009年07月的数据来进行主要变量关系分析。由图一得,Atlanta,亚特兰大机场是全美起飞航班最多的机场,其起飞架次占全美起飞架次总量的6.60%,计37,705架次。芝加哥奥黑尔机场起飞的航班数量位居第二,占全美起飞架次总量的4.75%,累计27,161架次。图二为按照频率排序的始发地与目的地的往来对照图,相关地点往来航运量(按架次计)可以从该图查得。(图一)各始发地起飞架次占总起飞架次比例图截选(图二)起始地点往来飞行架次图截选(图三)始末机场距离分布表如图三所示,始末机场距离分布其实是一个右偏分布。有136,158个飞行架次的始末机场距离都在300千米附近,105,725个飞行架次的始末机场距离在500千米附近。介于500千米和2,500千米的飞行架次也占有相当大的比例。可见,飞行距离较短的飞行架次占了很重的比例。(图四)系统预定飞行耗时与实际飞行耗时对比由图四看出,系统预定飞行耗时与实际飞行耗时各个统计量都比较接近。只是系统预定飞行时长的众数为70分钟,而实际飞行时长的众数为80分钟,相对较长。图上红色的点以实际飞行时长为横坐标,系统预定飞行时长为纵坐标,黑色的线为过原点,斜率为1的射线,可以看到该射线的右下方的点居多,说明对于同一飞行架次来说,实际飞行时长一般会比系统预定飞行时长更长。(图五)起飞延误与降落延误基本统计量图如图五所示,起飞延误时长与降落延误时长的均值分别为9.99和7.35分钟,标准差分别为34.67和37.43,极差分别是2,497和2,524分钟,可见起飞延误时长相较于降落延误时长波动小,但是其均值比降落延误时长大。初步判断图上绿色的点有较严重的堆积情况,我们做一条起飞延误时长关于降落延误时长的回归线如图中颜色较淡的、斜率较大的细线所示,堆积情况十分严重。如果利用这两个变量做回归的话,偏差一定十分严重。将始末机场距离加入考虑,得到图六。我们可以看到大部分起飞延误的架次一般降落也会延误,大部分起降延误集中在始末机场距离介于0至3,000千米的架次。(图六)起飞延误、降落延误与飞行距离关系图如图七所示,294,994个飞行架次按时起飞。260,760架次的起飞延误时间介于50至100分钟之间。起飞延误时长介于100至150分钟之间的飞行架次为12,831,起飞延误时长超过100分钟的飞行架次为3,046。因此,起飞延误飞行架次与按时起飞飞行架次比例相当。(图七)起飞延误时长分布图(图八)降落延误时长分布图由图八得,按时着陆的飞行架次为315,256,降落延误时长介于50至100分钟的飞行架次为239,256,降落延误时长介于100至150分钟的飞行架次为13,898,降落延误时长大于150分钟飞行架次为3,223。(图九)起飞延误、飞行延误及降落延误关系图不难从图九看出,在三个坐标轴取值较小的部分形成了一个三角区域,这说明一般飞行架次在起飞、在空及降落三个阶段的延误一般耗时都不会太长,但是有很多发生这种飞行延误的架次。将那些红色的点投影到起飞与降落延误的平面上,我们可以看到有部分起飞、降落延误时长相对较长的航班。四、模型建立为了对航空运输延误情况进行最有效的刻画和预测,我们把飞行延误率作为研究的主要对象。经过多次试验,我们认为使用月度为最小的时间单位来进行研究会比较合适。因此,我们按月建立关于延误率的时间序列模型。用原始数据经过汇总后,得到2003年06月至2009年07月每月延误飞行架次占该月总飞行架次的比例数据,即月飞行延误率(以下用delayrate命名)。由图十得,飞行延误率有一定的季节性波动,但趋势并不明显。.30.35.40.45.50.55.602003200420052006200720082009DELAYRATE(图十)2003年06月至2009年07月飞行延误率时间序列图(一)初步建立时间序列模型(图十一)2003年06月至2009年07月飞行延误率自相关分析图图十一为对飞行延误序列做自相关分析的结果,从图十一中可以看出,样本自相关系数(Autocorrelation)不呈现衰减趋势,而呈现出一定的周期起伏趋势。结合所研究数据的特性,我们认为飞行延误率序列应为季节序列。对飞行延误率序列进行周期为12的季节差分后得到新的序列,即除季节序列(命名为sdelayrate)。(图十二)除季节序列的自相关分析图十二为对除季节序列的自相关分析。从图十二中可以看出,样本自相关系数有衰减趋势,且随时间增大,表现为拖尾。除了K=12时偏相关系数(PartialCorrelation)数值较大之外,在K4之后偏相关系数都落入置信区间内。考虑到二阶季节差分会损失大量样本数据,且效果不明显,不再差分。同时,鉴于偏相关系数在K4之后都落入置信区间内,而自相关系数具有拖尾的特性,最终采用AR(4)模型,即4阶自回归模型。因此,我们认为对于2003年06月至2009年07月美国航空运输飞行延误率经过除季节差分后的时间序列用4阶自回归模型拟合较好。经过计算,sdelayrate均值为-0.00314,均值标准误为0.02894,因此可认为均值近似为0而不进行中心化直接计算。另外,考虑到sdelayrate滞后期为12时的样本偏相关系数较大,为消除这个影响,我们将SAR(12)加入模型中,所以,用于刻画2003年06月至2009年07月美国航空运输飞行延误率时间序列的最终模型为12(1,0,0)(1,1,0)ARIMA。将此模型用于拟合,得到结果如表二所示。各滞后多项式的倒数根在单位圆内,过程平稳。模型的展开形式为:122341210.3932(10.57770.10630.05780.3084)(1)tBBBBBBdelayrateuCoefficientStd.Errort-StatisticProb.AR(1)0.5777270.1510393.8250180.0004AR(2)-0.1063190.177877-0.5977110.5533AR(3)0.0577580.17920.3223110.7489AR(4)0.3084140.1512322.0393460.0479SAR(12)-0.3932190.154511-2.544920.0148R-squared0.506695Meandependentvar-0.011929AdjustedR-squared0.458568S.D.dependentvar0.055951S.E.ofregression0.04117Akaikeinfocriterion-3.439886Sumsquaredresid0.069494Schwarzcriterion-3.241121Loglikelihood84.11738Hannan-Quinncriter.-3.365427Durbin-Watsonstat1.990316InvertedARRoots.92.89-.24