基于CUBE和ArcGIS的大数据分析——公交IC卡数据分析BigDataAnalyzebasedonCubeVoyagerandArcGIS北京市城市规划设计研究院张宇ZhangYu,BICP汇报提纲Framework•背景Background•研究基础Data•技术路线与实现方法Approach•分析结果应用Application•结论与问题ConclusionandQuestion背景Background•大数据时代的到来(GPS\GSM\SNS\WIFI);Theincreasingpervasivenessoflocationbasedservices•公交智能卡的广泛使用;Smartcarddatacollectedbyautomatedfarecollectionsystems•国内外的研究理论研究基础;ExistingresearchesusingSCD•公交规划分析的精细化数据需求;TheneedofDetailPlanning公交优先发展策略需要落实;轨道交通线网规划需要评价;公交线网调整优化需要依据;研究背景ResearchReview•截至2007年,国内有超过100个城市启动了公交IC卡收费系统(周涛等,2007);•国内利用公交IC卡已经开展了部分研究:•彭晗等(2007)利用长春市的公交IC卡数据,辅助支持城市公交换乘枢纽选址;•杨智伟等(2009)基于大连的公交IC卡数据进行客流预测。•吉林大学于滨(2003)的硕士论文《基于IC卡收费系统的动态交通信息采集研究》,其中主要就公交IC卡数据采集过程及客流数据处理进行了探索;•东南大学戴宵(2006)的硕士论文《基于公交IC卡信息的公交数据分析方法研究》,其中对市政交通一卡通数据采集方法、处理方法及过程做了较为详细的阐述和总结;研究基础——数据基础Data•2008年4月5日——11日一周公交线路刷卡数据;OneweekSCDofYear2008•2008年4月公交线网、站点GIS分布图;BusRouteofGIS研究基础——软件平台基础Platform•ArcGIS空间数据分析平台;•CUBE交通数据整合分析平台;技术路线Approach数据整合(DataMerge)IC卡数据(SCD)公交站点(BusStop)公交线路(BusLine)数据处理流程(DataProcess)公交出行片段TripSlice一日公交出行轨迹TripChain完整公交出行Trip数据分析(DataAnalyze)时间特征(Time)换乘特征(Transfer)空间特征(Geo)职住分布分析(CommuterTrip)IC卡数据处理分析(KeyofDataProcess)技术难点(KeyPoint)1)分段计价线路IC卡与GIS站点耦合对应;2)通过IC卡出行链片段根据分段计价线路等降位置追加前后单一票价线路等降位置;3)根据2)中识别的一票制线路IC卡刷卡记录等降位置根据刷卡时间聚类分析,追加其他相关一票制线路刷卡位置信息;4)根据公交IC卡刷卡时间将出行片段转化为出行。技术路线(Framework)轨道IC卡数据处理分析IC卡初始记录处理和筛选出行片段合并为出行持卡人职住地识别准备IC卡与GIS站点对照表分段计价线路站点空间匹配单一票价线路站点空间匹配轨道IC卡数据处理分析一天:250M轨道IC卡数据处理主要根据IC卡站点登降量数据在模型中轨道线网上,进行最短路分配轨道出行的OD路径模拟。IC卡数据处理分析结果应用(Application)——线网整体描述(DescriptionofBusNet)北京市2008年共有公交线路654条(其中包括公交公司线路及运通公司线路),其中单一票价线路约2/3,分段计价线路约1/3。线路平均长度26公里,平均站数28.5个。2008年各区公交线路分布汇总表IC卡数据处理分析结果应用Application——公交出行时间分布(TimeDistribution)公交上车刷卡高峰小时集中在7点至8点间,占一日总刷卡次数的10.7%,达到120万次。晚高峰小时则出行在下午5:30至6:30,刷卡总量占全日的9.1%,达到102万次,比早高峰小时略少。从一日上车刷卡时间分布可见,早晚刷卡高峰较为明显,但中午刷卡小高峰则没有出现,从上午10:30至下午2:30小时刷卡量一直稳定在每小时50万次左右。IC卡数据处理分析结果应用(Application)——公交出行空间分布(On&Off)特8内线路各站全日上下车人次约10.3万人次。从特8内线路各站全日登降量分布可见,全日线路站点等降量压力主要集中于中关村区域、十里河区域、六里桥区域及三元桥区域。特8内全日各站下车人次特8内全日各站上车人次IC卡数据处理分析结果应用(Application)——换乘分析(TransferAnalyze)通过对约858万有效公交出行片段样本通过模型运算得出出行记录约为469万,涉及IC卡持卡人约141万,人均出行次数3.3次,人均换乘次数0.37次。统计得到的IC卡持卡人平均换乘系数1.37已满足公交换乘系数1.5以下的合理区间。证明北京市公交线网的直达性相对较好。IC卡数据处理分析结果应用(Application)——IC卡持卡人居住分布分析(ResidentialLocationAnalyze)假设IC卡持卡人一日起始刷卡的出发地点为家,则根据第一次刷卡地点可近似推测居住地点的分布。总样本约72万个,其中城八区与中心城的并集范围内样本占总量的83%。绝对值分布:四环外的中心城东北部持卡人居住数最多其次为中心城的西北部。分布密度:持卡人分布最稠密区域为西北二三环之间,其次为西北三四环之间,再次为东北三四环之间。持卡人的分布总体呈北部大于南部。但二环内部为南部大于北部。IC卡数据处理分析结果应用(Application)——IC卡持卡人就业分布分析(EmploymentLocationAnalyze)总样本约28万个,其中城八区与中心城的并集范围内样本占总量的90%。绝对值分布:四环外的中心城西北部持卡人就业总量最多其次为中心城的东北部。分布密度:持卡人分布最稠密区域为西北二三环之间,其次为东北三四环之间,再次为西北三四环之间。持卡人的分布总体呈北部大于南部。但二环内部为南部大于北部。IC卡数据处理分析结果应用CountofbusridingsforeachTAZIC卡数据处理分析结果应用(Application)——轨道线网流量分析(MetroNetworkPassengerVolumeAnalyze)轨道早高峰小时OD模拟分配结果可见:2010年北京轨道线网中,早高峰小时全网高峰断面出现在轨道交通1号线,高峰断面流量已大于4万人次/小时。除2号环线外,其他线路的方向不均衡性较为明显。早高峰时段断面客流IC卡数据处理分析结果应用(Application)——轨道站点登降量分析(On&OffofMetroStation)全日各站登降量结论与问题(Conclusion&Question)CubeVoyager对于基于DBF文件的大数据处理能力较强,运算速度甚至超过SQL。CubeVoyager的自定义Loop对于一票制线路的站点识别起到很重要的作用。基于轨道OD结合轨道网络的分配模拟较好的模拟了轨道系统的运营状态,为相关参数标定与校核起到很好的作用,也为现状问题分析起到很好的效果。结论与问题(Conclusion&Question)DBF文件单个文件大小限制为2G,cube建立的PersonalGeodatabase容量限制依然为2G,客观上限制了更大的大数据在voyager中的处理;Voyager如果能更好嵌入ArcGIS的Arctoolbox部分功能将使得数据处理流程更加完整、一体。谢谢ThankYouForAttention