大数据环境下城市交通分析评估方法与实践丘建栋科创中心主任深圳市城市交通规划设计研究中心2016年7月中国﹒深圳一、交通大数据再理解二、交通综合评估的关键技术三、我们的实践,包括未来交通实验室等交流提纲1.1交通大数据再理解“除了上帝,任何人都必须用数据来说话”-----美国谚语1.1交通大数据再理解“我们沉浸在数据的海洋中,却渴望着知识的淡水”1.1大数据基本定义“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。大数据,交通模型师的福利Volume数据量大Variety类型繁多Value价值密度低Velocity速度快时效高1.2大数据的特征——4V1.2大数据的特征——数据量大第一个特征是数据量大:大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T),但城市级别多在TB级1B(Byte字节)=8bit1KB(Kilobyte千字节)=1024B,1MB(Megabyte兆字节简称“兆”)=1024KB,1GB(Gigabyte吉字节又称“千兆”)=1024MB,1TB(Terabyte万亿字节太字节)=1024GB,其中1024=2^10(2的10次方),1PB(Petabyte千万亿字节拍字节)=1024TB,1EB(Exabyte百亿亿字节艾字节)=1024PB,1ZB(Zettabyte十万亿亿字节泽字节)=1024EB,1YB(Yottabyte一亿亿亿字节尧字节)=1024ZB,1BB(Brontobyte一千亿亿亿字节)=1024YB第1级第2级第3级第4级第5级第6级第7级第8级第9级第10级1.2大数据的特征——类型繁多第二个特征是类型繁多(非结构化):包括文字、CAD数据、GIS数据、图片、音频、视频等等,非孤立,具有相关性,多类型的数据对数据的处理能力提出了更高的要求。1.2大数据的特征——价值密度低第三个特征是数据价值密度相对较低。信息感知无处不在,信息海量,导致价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。提纯1.2大数据的特征——速度快时效高第四个特征是速度快时效高。这是大数据区分于传统数据挖掘最显著的特征。如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。1.2大数据的相关概念——智慧城市框架大数据智慧城市物联网(采集)云平台(存储)云计算(运算)移动互联网(发布)分布式存储非关系数据库并行处理数据挖掘传感器电子标签微信微博数据源手机通讯系统地铁票务系统公交车定位系统出租车定位系统车牌识别系统定点车流量监测系统ETL数据整合平台数据抽取数据转换数据加载数据存储数据计算数据服务接口数据挖掘数据查询历史数据仓储数据质量管理数据处理与服务支撑数据安全管理数据服务管理基础管理数据归档应用数据仓库数据集市传统数据架构HADOOP架构元数据管理交通堵塞自动预警和预疏导应用门户数据服务提供地区规划异常车辆分析突发灾害处理大型集会规划集群监控与维护智慧城市应用平台智慧城市整体平台(Hadoop方案)extracttransformload大数据是城市建设的重要问题:城市信息化过程中:最初,IT系统很简单然而,一段时间以后然后,我们会有更多的信息需求SOURCE:WilliamH.Inmon我们的系统在不断膨胀,直到像一个蜘蛛网透过这张蜘蛛网,就像是盲人摸象:虽然象就在那,但没人知道象是什么样的只见树木,不见森林蜘蛛网贷款房产婚姻数据融合后的系统购房人GoldenRecord(黄金记录):数据集成与融合过程中需要组合出每个实体的黄金记录透过这蜘蛛网,甚至无法知道一个人的全貌1.3交通大数据——无处不在1.3交通大数据——无处不在量大、关联建模、预测1.3交通大数据——基于大数据的交通综合评估数据采集数据存储数据分析交通评价方案制定传统数据获取方法+手机数据、IC卡数据、GPS数据、互联网数据等传统存储方法+GIS数据、实时数据、云数据等传统分析方法+数据关联分析、活动链建模、动态仿真等传统评价方法+基于大数据的实时、动态评价方法等传统制定方法+基于大数据的多方案优选方法等1.3交通大数据——如何获取传统问卷调查GPS、传感、通信技术IC卡刷卡数据…………居民出行调查1.3交通大数据——如何应用注重交通数据的调查,并建立适宜数据库平台对调查原始数据进行积累、存储对GPS、IC刷卡数据,流量检测数据等动态实时数据要密切关注,掌握最新数据注重对交通数据的深入分析(背景、供需、运营水平等)基于大数据更新升级交通评价体系,注重各类交通数据的横纵向对比分析(类比分析方法)逐步开始构建交通模型来预测交通发展水平,测试各类方案的优劣,强化辅助决策功能大数据的基本特征——交通大数据的再理解绝不是有很多数据就叫大数据不是随即样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相互关系大数据关联与挖掘后,把孤立的数据联系起来,能相对完整描述一个对象大数据主要是用来分析现状,预测未来大数据=海量数据+分析方法+把脉现状+预测结果DBMS:传统技术Hadoop:大数据技术当前大数据处理的主流技术使用场景•高吞吐率,但启动慢•批量处理应用使用场景•高反应时间,但装载少•交互式应用Hadoop技术与传统数据管理技术相比就像大秦铁路上的重载火车与法拉利跑车相比一样:载重超大,但很笨重、启动慢1.4关键技术——大数据处理技术与方法Hadoop:一个能够对大量数据进行分布式处理的软件框架高可靠性。备份,Hadoop按位存储和处理数据的能力值得人们信赖高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中高效性。并行,Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配低成本。与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低1.4关键技术——大数据处理技术与方法华傲数据机密GoogleDremel•Google在后Hadoop时代的新“三驾马车”之一FacebookPresto•Facebook在Hive之后的又一力作:可以构建250PB以上的超大数据仓库TwitterStorm开源社区先锋互联网公司Hadoop初创公司三巨头国际IT大鳄学界ClouderaImpala•比Hive查询速度提升3~90倍HortonworksStinger•现在比Hive快50倍,明年比Hive快至少100倍MapR领头的ApacheDrill•Apache版的GoogleDremelIBMBigInsight•IBM的SQL-on-HadoopEMCPivotalHDHAWK•GreenPlum的Hadoop版UC伯克利Shark•性能超Hadoop百倍耶鲁HadoopDB爱丁堡大学•大数据基础理论•大数据-小数据的算法平台——克服启动慢的问题当前Hadoop平台的竞争焦点:实时查询ApacheHBase让大秦铁路上的重载火车也可以像法拉利跑车一样灵活(引自华傲技术专利)关键技术路线-数据挖掘Mahout包含推荐系统、聚类和分类在内的三大块基础算法,且支持MapReduce以面向大规模计算需求。可借鉴相关研发成果,这些成果包含有自动规则发现、智能模糊匹配、智能规则验证和实体识别技术等。部分已兼容MapReduce框架。面向大规模统计建模和机器学习计算需求:神经网络,人工智能(AlphaGo)以HadoopMahout为基础,借鉴大数据挖掘技术数据挖掘关键技术:一、交通大数据再理解二、交通综合评估的关键技术三、我们的实践,包括未来交通实验室等交流提纲2.1新的问题——关键问题如何拓展评估边界?如何深化评估技术?如何提升评估频率?如何多元视角评估?随着交通规划决策实践的深化与拓展,传统的交通模型体系和评估方法面临以下四个关键问题:1234交通研究的四大转型由就交通论交通,向城市、土地、交通、环境、经济、安全的转变由偏重面向政府的决策,向面向政府、机构、公众、公益兼顾的转变由偏重静态数据分析,向多源动态数据、大数据分析的转变由偏重宏观分析,向区域、宏观、中微观一体化分析评估的转变技术体系如何拓展评估边界?城市→区域→都市圈在全球化、区域化背景下,围绕核心城市形成大都市圈是城市连绵地区发展的趋势。交通需求突破城市行政边界,向区域和都市圈拓展。传统交通模型难以满足分析评估需求,亟需建立区域交通模型城际交通通勤化。同时承担城市内部与城际客流,单一层面的城市模型或公路模型无法兼顾分析小区划分差异化。为提高分析效率,在重点分析区域需小尺度划分,在非重点研究区域可大尺度划分方式划分融合化。模型的方式划分方法需要综合考虑城市和城际的多种交通方式2.1新的问题——边界如何深化评估技术:宏观→中观→微观针对不同层次交通规划设计对细节程度和运算效率的不同要求,需要建立的分层次模型体系。目前宏观、微观模型应用相对成熟,中观模型缺少统一、高效的技术方法,对片区规划及交通详细规划缺少有效技术支撑交叉口改善片区交通改善全市路网规划2.1新的问题——技术如何提升评估频率?静态→动态→融合静态评估方法是宏观、集计、表征静态状态的。随着信息采集技术的进步,有条件对交通运行进行动态量化监测,更为准确地评估分析交通的随机性、波动性特征,并对通过数据融合反馈并提升静态评估准确性交通需求静态分析交通信息动态采集道路交通动态评估2.1新的问题——频率如何多元视角评估?土地→交通→环境广义出行费用路径选择方式选择终点选择出行选择区位价值选址行为出行活动交通可达性土地利用交通系统区域交通模型宏观交通模型中观交通模型其它专项模型排放能耗噪声振动生态环境土地与交通、交通与环境之间存在互动与反馈。在交通系统本身以外,土地开发对交通系统影响、交通系统对生态环境影响等日益受到关注。亟需拓展综合交通评估的多元视角,开展用地-交通和交通-环境的专项评估2.1新的问题——视角如何应对?大数据2.1新的问题——对策量大、关联建模、预测2.2关键技术——技术架构城市交通综合评估技术体系动静数据分析技术综合模型构建技术交通决策支持交通信息服务平台应用开发技术道路运行评估系统交通影响评价系统交通排放监测系统多源异构数据采集技术大数据处理技术多层次一体化模型体系建设符合大数据思维的“数据-模型-应用”流程的新一代城市交通综合评估技术体系创客平台大数据存储技术第一部分:大数据处理技术与方法数据融合技术空间索引技术并行计算技术复杂路网下的时空匹配算法云服务、云发布数据可视化展示技术——交通指数等2.2关键技术——大数据处理技术与方法数据融合技术2.2关键技术——大数据处理技术与方法40融合后纯出租车32%77%将出租车、百度、出租车共三种数据源纳入数据融合:•数据重要度排序:认为单种数据源样本量足够的条件下,在结果精度方面,出租车百度公交车;•基于动态加权的融合算法数据融合技术2.2关键技术——大数据处理技术与方法类型数据级融合特征级融合决策级融合所属层次最低层次中间层次高层次主要优点原始信息丰富,并能提供另外2个融合层次所不能提供详细信息,精度最高。实现了对原始数据的压缩,减少了大量干扰数据,易实现实时处理,并具有较高的精确度所需要的通信量小,传输带宽低,容错能力比较强,可以应用于异质传感器主要缺点所要处理的传感器数据量巨大,处理代价高,耗时长,实时性差原始数据易受噪声污染,需融合系统具有较好的容错能力。在融合前必须先对特征