铁路大数据平台总体方案及关键技术研究-史天运

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2016.9总第234期RCA1文章编号:1005-8451(2016)09-0001-06收稿日期:2016-06-15基金项目:中国铁道科学研究院重大课题(2015YJ080);中国铁路总公司科技研究开发计划重点课题(2015X003-B,2015X003-C,2015-X003-F)。作者简介:史天运,研究员;刘军,助理研究员。第25卷第9期Vol.25No.9研究综述RESEARCHSUMMARY铁路大数据平台总体方案及关键技术研究史天运1,刘军2,李平2,马小宁2(1.中国铁道科学研究院电子计算技术研究所,北京100081;2.中国铁道科学研究院铁路大数据研究与应用创新中心,北京100081)摘要:大数据是当今炙手可热的技术词汇,在全球掀起一场思维变革,将成为新一轮科技和产业竞争的前沿。大数据技术对于提升中国铁路总公司核心竞争力及推动铁路转型升级都具有不可估量的作用。本文阐述了铁路大数据的基本概念和特点,分析了铁路大数据应用的现状及需求,设计了铁路大数据平台的总体架构,剖析了铁路大数据应用的关键技术。对促进大数据技术在铁路行业的应用研究具有一定的指导意义。关键词:铁路;大数据平台;Hadoop中图分类号:U29-39文献标识码:AOverallschemeandkeytechnologiesofbigdataplatformforChinaRailwaySHITianyun1,LIUJun2,LIPing2,MAXiaoning2(1.InstituteofComputingTechnologies,ChinaAcademyofRailwaySciences,Beijing100081,China;2.ResearchandApplicationInnovationCenterforBigDataTechnologyinRailway,ChinaAcademyofRailwaySciences,Beijing100081,China)Abstract:Bigdata,whichistoday’shottesttechnicalvocabulary,issettingoffaglobalthinkingchange,andbecometheforefrontofanewroundoftechnologicalandindustrialcompetition.BigdatatechnologyhasanimmeasurableroletoenhancethecorecompetitivenessofChinaRailwayandpromotethetransformationandupgradingoftherailway.Thispaperexpoundedthebasicconceptandcharacteristicsofrailwaybigdata,analyzedthecurrentsituationanddemandofrailwaybigdataapplication,designedtheoverallarchitectureofrailwaybigdataplatform,analyzedthekeytechnologies,providedsomeguidancestopromotetheimplementationandapplicationofbigdatatechnologyinChinaRailway.Keywords:railway;bigdataplatform;Hadoop由于智能传感器的广泛应用及信息技术的迅猛发展,人类产生并存储的数据量呈爆炸式增长,数据在人类生产、生活中扮演着越来越重要的角色,大数据在此背景下应运而生。近年来,美、欧、日、韩等发达国家纷纷制定大数据国家战略,加快大数据布局。我国从2015年开始也颁布了《促进大数据发展行动纲要》[1]、《互联网+行动计划》等一系列文件,并在互联网、交通、电信、金融、电力、征信等领域积极开展大数据应用示范。目前,全球都正处在一个思维变革、数据创新的浪潮之中。随着高速铁路的快速发展及铁路信息化建设的逐步深入,中国铁路已积累了海量的结构化、半结构化、非结构化的数据,包括12306网站和95306网站的客、货运数据,设备台账数据,基础设施检测数据,自然灾害监测数据,视频监控数据和工程建设图纸等。据初步统计,铁路总公司以及各铁路局存储的数据总量已达到10PB的数量级,且各类数据增量极快,大量视频图片仅保存极短时间。可以说,中国铁路已步入大数据时代。大数据技术[2~5]在铁路的应用,不仅有利于促进数据资源共享,盘活铁路数据资产,探索新的利益增长点,更有助于保障铁路行车安全,提升铁路服务水平,增加铁路企业的经济效益[6~9]。现阶段,急需总结铁路数据资源的现状及存在问题,明确铁路各业务领域对大数据的需求,强化顶层设计,突破核心技术,在典型领域开展大数据应用示范,以应用促进大数据在铁路的应用研究。RCA22016.9总第234期1铁路大数据的概念及特征1.1基本概念对于大数据技术的概念,目前还没有形成一个公认的提法。许多公司都从自己的角度进行解读,以下列举几个典型的提法。维基百科:大数据是指一个超大的、难以用现有的数据库管理技术和工具处理的数据集。麦肯锡:大数据是指无法在可承受的时间范围内,使用常规软件工具进行采集、捕捉、管理、处理的数据集合。Gartner:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。Informatica:大数据是指涉及交易和交互数据集在内的所有数据集,其规模或复杂程度超出了常用技术可按照合理的成本和时间采集、存储、管理及处理这些数据集的能力。铁路大数据是大数据技术在铁路行业的缩影,是指由铁路客运、物流、基础设施、移动设备、工程建设、资产经营、企业管理等各业务领域的结构化、非结构化数据所汇集而成的数据集合。数据量大,数据类型多,需要通过新型大数据技术的应用才能快速开展数据的采集、抽取、存储、检索、分析、挖掘和展示,并从大量的数据中挖掘出隐藏的业务规律、发展趋势,最终达到提高运输组织效率、保障铁路行车安全、优化客货服务质量、提升企业经营效益的目的。1.2典型特征铁路大数据的典型特征是数据量大、数据类型多、数据增长快、业务价值大。(1)数据量大近年来,随着铁路信息化建设的逐步深入,信息系统已覆盖客货营销、运输组织、经营管理等各个领域,各系统都积累了海量的数据。特别是,随着12306网站及95306网站的上线,售票信息及铁路物流信息大幅增长。基础设施及设备检测方面,铁路的工务、电务、供电、车辆和机务等部门积累了铁路线路、通信信号、机车车辆等各种设施设备的海量实时状态数据。(2)数据类型多铁路行业数据主要包括结构化数据、非结构化数据和流数据。结构化数据主要包括:业务系统的基础数据、业务数据、统计汇总数据等。非结构化数据主要包括:沿线和车站监控视频、铁路工程建设图纸和设计文档、语音服务数据和办公文件等。流数据主要包括:设施设备实时检测数据、铁路机车设备实时状态数据、列车实时控制数据等。(3)数据增长快目前,高速铁路沿线布置的摄像头、检测设备、控制设备等,每天产生大量的非结构化数据,且增量巨大。12306网站和95306网站每天都会产生大量的订单数据和网上购票行为数据。(4)业务价值大铁路行业数据资源具有巨大的应用潜力及价值。如,铁路售票数据对于精准营销、优化开行方案、联合出行规划具有重要的意义。铁路物流数据对于优化物流流程、提升物流的精细化水平也具有重要的作用。2铁路大数据应用现状及需求2.1铁路大数据应用现状(1)虽然铁路信息系统建设近年来逐步完善,但各系统各自为政,独立建设,数据共享备份不够,集成较弱,特别是基础数据多头维护,统一管理需加强。(2)数据管控力度薄弱,数据标准化程度不高,存在数据不一致、不准确问题,数据质量有待提高。(3)铁路总公司、铁路局和站段之间网络带宽相对不足,数据采集的及时性无法保证,各级系统间的数据交换难以实现。(4)技术手段薄弱,仍采用传统的数据库技术、数据处理技术开展大数据的应用分析,缺乏专用技术及工具支撑,数据处理的时效性、可用性不强。(5)对于数据的利用还停留在初级阶段,深层次的数据分析、数据挖掘较少;同时,对于数据的利用仍以专业为界限,缺乏跨部门、跨业务系统之间的数据综合分析。第25卷第9期研究综述铁 路 计 算 机 应 用2016.9总第234期RCA3(6)铁路数据共享模式不成熟。为实现数据综合分析,需采集不同业务系统的数据,但不同部门在合作模式不清晰情况下,不愿意提供铁路业务数据,需先解决不同业务部门之间合作的“共赢”模式。2.2铁路大数据应用需求(1)总体数据规划,统一数据标准突破部门及单个信息系统的界限,立足整个铁路行业,从整体、宏观的角度理清数据流程,明确数据资源的分类、分级及数据模型,推进数据资源的标准化,包括元数据、数据元及数据库等标准,促进系统间的互联互通。(2)强化数据治理,提升数据质量从组织、流程、技术等不同维度出发,构建完善的数据治理能力。建立数据管理维护组织,明确数据生产者、维护者、使用者等的责权,建立标准化的数据管理维护流程,建立数据评价考核指标体系,健全数据治理工具,最终达到提升数据质量的目的。(3)加强数据开放,促进综合应用大数据一个突出的亮点就在于实现跨领域的综合分析。应转变理念,打破部门鸿沟,树立开放共享的思想,促进系统的互联互通,从而实现数据的共建共用、融合创新。(4)加强数据清洗,确保源头质量在数据资源进入大数据平台之前,需要大力开展数据清洗工作,及时发现并解决数据质量问题。需识别并删除重复数据,补充缺失值,光滑噪声数据,确保数据的唯一性、准确性、完整性。(5)强化基础设施,提升处理能力在硬件设施方面,首先需要升级既有的服务器、存储设备,具备大数据分析基础的物理条件。同时,基于先进的分布式存储、分布式计算、流计算、内存计算等技术,搭建大数据分析处理基础架构,提供PB级数据的离线计算能力,以及TB级数据的实时计算分析能力,支撑各业务领域开展大数据分析工作。(6)完善体制机制,保障数据安全数据开放共享意味着数据面临更大的安全威胁。铁路大数据平台中存储和处理不同安全级别的数据,需从机构、管理、技术多方面统筹考虑,构建完善的数据安全保障体系,防止数据被窃取,数据被非法修改、非法复制等。(7)明确应用场景,深挖数据潜能大数据本身不具备价值,必须和具体的应用场景相结合才能发挥作用。铁路大数据应用,重中之重还是基于行业特色,厘清业务痛点,结合业务发展趋势,找出大数据与业务的结合点,明确大数据分析的应用场景。未来可在铁路客运、货运、基础设施检测、动车组、运输安全等领域开展数据分析和挖掘,为领导提供重大决策的支撑信息,挖掘新的业务增长点;为各业务部门提供跨部门的有价值信息,提升在铁路领域中的核心竞争力。针对客运领域,需开展发送客流和始发站—终点站(OD)客流的长短期预测,并对客户按价值进行分群,建立旅客积分、奖励制度,提高旅客满意度和忠诚度,吸引和稳定客户资源。同时,提供送票、餐饮、酒店、旅游、租车的旅客个性化推荐服务,构建高品质、多层次、全方位、立体化的铁路客运服务。对网络黄牛、抢票软件用户、网络爬虫等异常用户的行为数据进行智能识别。针对货运领域,需开展铁路货运量预测与预警,货运客户分级评价与流失预警和铁路货运物流优化。针对运力资源,需实时监控不同基础设施设备、机车车辆设备、环境监测设备,对设备状态进行科学地评估、对运行故障准确地诊断、发现设备状态全生命周期的演变规律,对服役状态进行预测分析,延长设备的使用寿命,高效指导养护维修。针对动车组管理,需实时监测动车组各种状态,保障动车组运行安全,降低动车组运用维修成本,优化动车组及维修资源配置,提高动车组维修效率。针对铁路运输安全,需构建全面、全员、全过程的安全风险控制体系,重点开展关键部件失效规律及模式之间的关联性分析,实时监控机车、动车组、客车、货车等

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功