气象数据的“大数据应用”浅析2014-03-2417:03:19作者:国家气象总局沈文海来源:CIO时代网摘要:气象数据在“大数据应用”浪潮中亟待解决的信息技术问题,是海量气象结构化数据的高效应用。这是气象数据能否参与“大数据应用”的技术基础和前提。关键词:气象数据大数据1、引言据统计,2011年全球的数据规模为1.8ZB,这些信息将填满575亿个32GB的ipad,以这些ipad做砖石,足可以垒建起两座中国的万里长城。而到2013年,仅中国当年产生的数据总量就已超过0.8ZB,2倍于2012年,相当于2009年全球的数据总量。预计到2020年,中国产生的数据总量将是2013年的10倍,超过8.5ZB.【1】而届时全球的数据总量预计将达到40ZB,如果将这些数据全部刻录成蓝光光盘,则这些光盘的总重量相当于424艘满载荷的尼米兹航空母舰。数据量暴增的速度令人瞠目结舌,我们的确已进入“大数据时代”.很快地,“地理大数据”、“水利大数据”、“环境大数据”、“金融大数据”、“互联网大数据”乃至“气象大数据”等名词陆续出现在有关媒体上。“大数据”逐渐成为近来人们谈论最多、思考最多的技术话题之一。一些人憧憬于“大数据”可能带来的十分珍稀的高价值信息和珍贵商机,也有许多人困惑于目前所知“大数据”的应用范式,以此研判着可能给本行业带来的变化和新的业务契机--气象部门也是如此。做为抛砖引玉,笔者拟就如下问题提出自己的看法:(1)气象数据是否具备“大数据”的核心特征?(2)业界公认的“大数据应用”的主要形态是什么?(3)“大数据时代”背景下气象数据应用中新的价值领域在何处?需要首先具备哪些必要条件?(4)气象信息技术领域当务之急需要解决的关键技术问题。2、大数据的现实以及气象数据的体量构成2.1大数据的行业分布就数据量而言,中国的大数据近期具有如下行业分布特征:(1)互联网公司目前国内的互联网公司,拥有总计约2EB的数据,而其中的互联网三巨头BAT(百度、阿里巴巴、腾讯)占有了其中的3/4(约1.5EB)。(2)电信、金融、保险、电力、石化系统这些行业及企业数据量分布较为平均,就每个企业(或运营商、部门)而言,大致都拥有10PB以上的数据,且年增量都在PB级以上。总和则有数百个EB的存储数据和数十EB的年增量。(3)公共安全、医疗、交通、电子政务领域城市:随着平安城市、智慧城市等工程的推进,监控摄像头遍布大街小巷。一个中等规模城市每年视频监控产生的数据约300PB.最保守估计(含定期循环清除),每年能够保存下来的数据在数百PB以上。交通:飞机航班往返一次产生的数据达TB级。列车、水陆路运输每年产生并保存下来的各种数据视频、文本类数据约达数十PB.卫生:整个医疗卫生行业,一年保存下来的数据可达到数百PB.电子政务:一个智慧城市的电子政务所产生的数据每季度约达200PB.而调查显示,未来1~2年中国政府部门的数据规模超过100TB的将达到53.3%,有将近三成(33.3%)的用户数据规模是10~50TB.(4)其他,商业销售、制造业、农业、物流和流通等领域随着产业互联网的普及,(线下)商业销售、制造业、农林牧渔业、(线下)餐饮、食品、科研、物流运输等等这些传统行业的数据量将呈现迅速增长态势,但目前这些行业数据量尚处于积累期,体量不大,多的达到PB级别,基本约近百TB甚至数十TB级别。【2】(5)气象数据气象部门需要永久保存的数据目前约4~5PB,年增量约1PB.由此可见,以数据量而言,在整个大数据市场中,新兴的互联网行业巨头BAT,以及电信、金融、保险等行业占据比重较大。相对而言,气象数据无论总量还是增量,较这些数据大户至少低3个数量级。2.2大数据的特征早在2012年,业界便已就大数据在体积、类型、速度和价值这四个方面的特征达成了共识,即所谓大数据的4V特征:Volume(大体积):体积巨大是大数据的最根本的特征,体积不足够大,任何数据都不能称之为“大数据”.一般而言,大数据的起始计量单位至少是PB、EB或ZB级别。Variety(多样性):类型和来源渠道繁多是大数据的第二个特征。大数据非但体积巨大,而且内容繁杂,数据种类繁多,包括网络日志、音频、视频、图片、地理位置信息等等;这些种类繁杂的数据来源于多种不同的渠道。多类型的数据对数据的处理能力提出了更高的甚至全新的要求。Velocity(高速度):生成速度快,处理时效要求高,这是大数据区分于传统数据采集、汇聚、处理乃至数据挖掘等方面最显着的特征。Value(价值稀薄):数据价值密度相对较低,这是大数据的第四个特征。根据业界专家的看法,大数据里蕴藏着的信息无所不包,任何人所需要的任何信息,都可以从大数据里寻找到。只是这些信息隐藏在大数据的汪洋大海之中,寻之如同大海捞针,人们需要研究出类似沙里淘金的办法,才能在有效的时间内将所需信息寻找到。因此如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。当然,还有一些人将对大数据“Value”的理解确定在“价值丰富”的层面上;而最早提出“大数据”概念及特征的Gartner公司和麦肯锡公司,甚至至今仍坚持特征“3V”(Volume、Variety、Velocity)论,认为“Value”不能作为大数据的特征【3】。限于篇幅,不予展开讨论。需要注意的是,在此“4V”(或“3V”)特征中,“Volume”(体量巨大)仅仅是成为大数据的必要条件,而非充分条件,如同30mm的日降水,在我国东南沿海地区十分平常,但在西北地区却可算罕见大雨,所以体量大小是相对的。事实上,大数据概念的提出绝非仅因为数据量的暴增,而且是因为数据已多得用传统方法无法应对或处理,导致人们必须采用新的方法、新的思路乃至新的理念予以应对。如果数据量虽大,但却能够处理和掌控,便不能称其为“大数据”.因此,“4V”对于大数据而言,既是特征,也是考量的四个维度。2.3气象数据的体量种类分布气象资料种类较多,就体积而言,其中的地面观测、气象卫星遥感、天气雷达和数值预报产品四类资料占据总量的90%以上,其中:地面观测资料:因二十一世纪以来观测方法从人工观测改进为自动观测,摆脱了人类居住条件限制的制约,台站数由本世纪初的不到3,000个,迅速扩展到目前的40,000多个,观测频度由最初的3小时/次调整到目前的5分钟/次,因而导致资料量呈几何倍数增涨,月增量由最初的约240MB猛增到现在的约2.4TB,增幅约4个数量级。根据防、减灾以及气象服务的需要,未来扩建计划有可能将台站数继续扩增至70,000到100,000个,观测频度有可能继续加密到1分钟/次;因此未来六年内该类资料总量有可能在现有基础上再行扩增1~2个数量级,由现在的每天数百万条记录增至超过一亿条记录/天。天气雷达资料:按照《天气雷达近期发展规划(2005-2010)》以及《气象发展规划(2011-2015)》中“新一代天气雷达建设增补站点布局方案”,目前在全国已布设约200部不同波长的多普勒天气雷达,并为达到雷达资料全社会共享的目的,已基本实现7×24小时全天候不间断观测;日增总量约300GB.气象卫星资料:根据《我国气象卫星及其应用发展规划(2011~2020年)》,至2020年,我国计划发射11颗气象业务卫星,包括3颗风云二号03批卫星,3颗风云三号上午星、2颗风云三号下午星、1颗降水测量雷达星以及2颗风云四号光学星。此外还将在2020年前发射2颗气象试验卫星。【数据量待补充】目前的日增总量约数百GB,未来有可能增加到数TB/日。数值预报产品:与地面观测、气象卫星和天气雷达等气象观探测资料不同,气象数值预报模式资料属于气象观探测资料的加工产品。以GRAPS、T639为代表的天气预报模式,以及以BCC_CSM2、DERF2.0为代表的气候预测模式,每天都在实时运行,不断产生着数以万计的各类要素场,以供国家级、省级乃至区域级预报员参考使用,日增量接近TB级。在上述四类数据之外,气象资料尚有高空探测、地面农气观测、沙尘暴观测、闪电定位观测、风廓线雷达探测等等许多种,但就体积而言,较上述四类资料至少低一个数量级,难以将其称之为“大数据”.因此,如果就体积而言,气象资料可勉强算得上“大数据”,也是因为地面观测、气象卫星、天气雷达和数值模式这四大金刚将气象资料的体积撑大而成的。3、“气象大数据”的特征分析气象数据的体积虽大,却有其独特的特征:(1)体积虽大但总量可控这里对地面观测、气象卫星遥感、天气雷达和数值预报产品这四类体量最大的气象数据进行分析:地面观测资料数据量剧增的原因,是站点数的增加和观测频度的大幅加密。然而,这种台站规模的扩充和观测频次的加密是基于预报和服务需求,经过严格科学论证,有计划有步骤逐步推进的;在观测台站达到一定密度,观测频度足以满足气象业务需求后,台站数不会无限制持续增加,观测频度更不会无节制地永远加密下去,因此总量既是可预测的,更是可控的。对天气雷达而言,布网工作已基本完成,雷达总量不会有成倍数的增加。而且目前的天气雷达已基本实现7×24小时全天候不间断观测。因此天气雷达的资料量(年增量),将稳定相当长一段时间,而不会有倍数的增量变化。未来数年内,我国还将发射数颗气象卫星,每颗卫星都会产生数百TB级的数据年增量。为满足气象卫星资料的应用时效,国家卫星气象中心针对每一颗气象卫星,都建有相应专属的地面接收处理系统,已完全实现所有气象卫星遥测遥感资料的实时接收处理。因此气象卫星数据目前虽以每年数百TB的量级增长,而且规模有可能继续扩大,但却始终处于可控可管和完全可用状态。数值预报模式产品资料是各级预报员最重要的预报参考资料,这些产品甫一生成,便即刻送达天气预报、气候预测专家的桌面,供其业务参考使用;同时以满足业务需求的时效,分发至各省级乃至地市级气象部门,供其本地化应用。因此与气象卫星资料相类似,数值预报产品资料体积虽大,却始终处于可控可管和可用的状态,未来也将始终如此。因此,气象资料体积虽大,在量级上算得上“大数据”,但却始终处于可控可管可用状态。(2)种类虽多但内部信息单纯,来源单一按照行业标准《气象资料分类与编码》,气象资料分为14大类,计有数百种之多【4】。该标准基本涵盖了气象资料的所有内容。所以就内容而言,气象资料在目前及可预见的未来,超不出该行标所规定的范围。数百种的气象资料种类虽多,但每种资料所含信息却十分单纯:土壤持水量只记载某时某地某规定土壤深度中水份的持有程度,“云能天”只记录某时某地的云量云状、能见度以及天气现象等信息。这与互联网大数据如电子邮件、微信、微博中所包含的社会百态、生老病死、喜怒哀乐、柴米油盐酱醋茶等所有信息有很大差异。究其原因,海量气象数据是由气象探测系统以及数值预报业务系统产生的,来源比较单一;而互联网大数据则由人来提供的,它来源于人类社会的方方面面和各个角落,是人类活动的实况记录。(3)价值单一而明确气象观探测业务系统只采集那些能够客观反映自然界气象状态的要素,所以气象观探测数据里包含且只包含丰富的气象信息,而以观探测数据为唯一数据和信息来源的气象数值模式,其生成的产品中所包含的信息也只能是局限于未来天气或气候状态的预测。因此所谓“气象大数据”,其自身的直接用途只能是气象业务,即:天气预报、气候预测以及气象服务。麦肯锡公司和Gartner公司始终认为:“大数据是用传统的架构、传统的技术方法无法解决的数据问题”【3】;而由上分析可知,气象数据始终处于可管、控、用状态,虽然随着数据体积的不断膨胀,以及原有管理和处理技术架构的陈旧,逐渐出现性能下降、时效减慢等现象,但并非没有解决的技术手段。因此应当说,气象数据是“大数据”的组成部分之一,但其自身并不完全具备“大数据”的所有特征。从这个观点考察,以体积硕大为由称气象数据为“大数据”十分勉强,而且较易产生观念和认知上的混乱;因为衡量体量大小的标准是在不断变化的。信息技术的发展突飞猛进,处理及存储能力依摩尔定律,每18个月增加一倍;今天的大体量规模数据,如果不具备超摩尔定律的膨胀能力,数年后便很有可能萎缩成中等甚至