中国大数据技术与产业发展白皮书(2013)序言近两年来,大数据浪潮以排山倒海之势席卷全球,既提供巨大的机遇,也带来一系列的挑战。为了推动大数据科学技术和产业的良性发展,中国计算机学会于2012年6月成立了“大数据专家委员会”,其宗旨是探讨大数据的核心科学与技术问题,推动大数据学科方向的建设与发展;构建面向大数据产学研用的学术交流、技术合作与数据共享平台,并对相关政府部门提供战略性的意见与建议。在中国计算机学会大数据专家委员会精心组织下,花了大半年时间撰写了这本《中国大数据技术与产业发展白皮书(2013年)》。中国计算机学会大数据专家委员会的110位专家(不包括最近正在遴选的第三批专家委员)来自大学、科研单位、企业和政府部门,从事的专业涵盖计算机系统、通信、数据库和数据挖掘、大数据应用等各个不同的领域,白皮书的编写集中了各个领域众多专家的知识和智慧,一定程度上反映了我国大数据学术界和产业界的共识。组织撰写《中国大数据技术与产业发展白皮书》的目的在于为业界梳理大数据应用现状及发展趋势,为政府制定推动大数据产业发展的政策提供建议;同时,探讨大数据研究面临的科学问题和技术挑战,为研究机构和研究人员提供参考指南。白皮书包括六部分内容,第一章介绍大数据的发展背景,第二章阐述大数据典型应用领域的现状,第三章阐述大数据技术体系的发展现状,第四章讨论大数据IT产业链与生态环境,第五章分析了大数据人才资源情况,第六章探讨大数据的发展趋势并提出相关建议。大数据成为热点以后,众说纷纭。推动者认为是“上帝给中国崛起准备的礼物”;泼冷水者认为是又一场“泡沫”。实际上所谓大数据主要是干三件事:一件是提高“数据意识”,用已经掌握的技术大力推动数据产业,这方面主要是企业界要做的事。在企业看来,不管是大数据还是小数据,只要能给企业带来价值,就是好数据。对于数据意识薄弱的发展中国家,经过大数据浪潮的洗礼,提高对数据资源的掌控能力,无疑是一件好事。第二件事是解决现有计算机系统和软件不能对付急剧增长、种类繁多的数据(尤其是网络数据)这一挑战问题,研究各种采集、整理、存储、处理和呈现大数据的变革性技术。各国专家对大数据的定义大都是着眼于这一挑战,这主要是科技界(包括大企业的研发机构)要做的事。介于这两者之间的第三件事是,推广近几年开始应用的不同于传统事务处理、传统数据库和小样本建模分析技术的大数据处理新方法,如深度学习、MapReduce、1中国大数据技术与产业发展白皮书(2013)Hadoop软件和数据中心的分布式服务器集群等技术。这是从传统的数据处理转向大数据处理的过渡阶段。本白皮书洋洋洒洒8万字,其中分量最重的是第二章和第三章。第二章介绍大数据的典型应用,对应上述第一件事和第三件事。我国的大数据应用刚刚开始,有些应用的数据规模可能还不够大,采用的方法也许不够新,但新兴产业是“用”出来的,只有广泛应用才能发现技术差距和需要突破的技术壁垒。发现典型的大数据应用案例,宣传推广应用大数据技术的经验是本白皮书的主要动机,今后我们会更加关注应用案例的分析介绍。第三章分析大数据技术体系的现状,对应上述第二件事。专家委员中多数是科研工作者,最熟悉的是本领域科学技术研究的进展,最擅长的是探讨技术发展趋势,分析科学研究和技术开发中面临的问题与挑战。本白皮书的主要价值可能体现在对大数据技术的分析方面。为了反映专家们的群体倾向,专家委每年做一次大数据技术发展趋势的年度预测,通过投票方式将最受关注的科学、技术、产业、应用、政策等相关变化趋势挑选出来。这部分内容反映在第六章6.2.2节“大数据的技术发展趋势”中,希望能对读者有所启迪。在其他几章,企业界和政府部门的专家也表达了一些真知灼见,如第四章提出的大数据产业链全景图、国内外大数据产业发展呈现的四个趋势、大数据产业发展的主要瓶颈等都有独到的观点。第五章把大数据人才资源问题独立出来专门分析,是因为这是一个十分重要而紧迫的大问题,需要各方面高度重视。由于时间和篇幅有限,白皮书只选择的部分发展较好的典型应用领域进行介绍,还有很多领域的大数据应用情况没有纳入白皮书。在后续工作中,大数据专家委会将继续不断完善和丰富白皮书的内容,对于特色行业或应用领域,会进行更为详细的调研,出版有针对性的面向行业应用单行本。本白皮书是专家委第一次组织撰写,虽反复修改了十余次,但书中肯定还存在一些内容和文字的错误,撰写组织工作也有很多不当之处,希望产业界和学术界的专家学者和广大读者提出批评和建议,共同推动中国大数据技术与产业的发展。李国杰2013年12月1日2中国大数据技术与产业发展白皮书(2013)致谢众多大数据专家委委员参与了白皮书的撰写工作,其中,第一章大数据的发展背景部分主要由赵国栋完成,第二章大数据典型应用现状由潘柱廷、苗凯翔和张自力负责整理,其中互联网与大数据由沈烁、查礼、雷涛等撰写;网络通信与大数据由童晓渝、孙少陵、罗圣美、张宝峰等撰写,网络空间安全与大数据由潘柱廷、金波、杜跃进、何利文、胡晓峰等撰写;城镇化、智慧城市与大数据由苗凯翔、李剑等撰写;金融与大数据由赵国栋、石勇、白硕等撰写;健康医疗与大数据由苗凯翔等撰写;生物信息、制药与大数据由胡斌等撰写。第三章大数据技术体系现状由杜小勇、舒继武、黄宜华、王文俊、李翠平、于戈、刘伟、袁晓如等撰写,第四章大数据IT产业链与生态环境由朱扬勇、施水才、齐红威等撰写;第五章大数据人才资源由朱扬勇、王元卓、靳小龙等撰写,第六章主要由李国杰、程学旗、潘柱廷、王元卓、靳小龙等撰写。程学旗、王元卓、靳小龙负责材料组织和统稿等工作。方锦清、张学工、季统凯、邓波、张师超、陈继东、王意洁、王国胤、周霞、顾宁等大数据专家委委员积极参与了白皮书的撰写,不仅提供了素材,还参与了白皮书的修改工作。由于白皮书经过了多次反复的修改,对参与专家的统计可能还有遗漏,在此表示歉意。对所有参与白皮书编写的专家表示感谢。3中国大数据技术与产业发展白皮书(2013)目录第一章大数据的发展背景............................................11.1大数据的起源..................................................11.2大数据的概念和内涵............................................91.3大数据的发展历程.............................................121.4大数据的热点问题.............................................181.5各国大数据发展战略...........................................19第二章大数据典型应用现状.........................................242.1互联网与大数据...............................................242.2网络通信与大数据.............................................272.3网络空间安全与大数据.........................................292.4城镇化、智慧城市与大数据.....................................332.5金融与大数据.................................................362.6健康医疗与大数据.............................................392.7生物信息、制药与大数据.......................................41第三章大数据技术体系现状.........................................453.1大数据采集与预处理...........................................453.1.1问题与挑战................................................453.1.2主要进展.................................................473.1.3发展趋势.................................................473.2大数据存储与管理.............................................483.2.1问题与挑战...............................................483.2.2主要进展..................................................493.2.3发展趋势..................................................533.3大数据计算模式与系统.........................................563.3.1问题与挑战................................................563.3.2主要进展..................................................573.3.3发展趋势..................................................603.4大数据分析与挖掘.............................................623.4.1问题与挑战...............................................623.4.2主要进展..................................................643.4.3发展趋势..................................................653.5大数据可视化分析.............................................653.5.1问题与挑战................................................653.5.2主要进展..................................................663.5.3发展趋势..................................................683.6大数据隐私与安全.............................................703.6.1问题与挑战................................................703.6.2主要进展..................................................723.6.3发展趋势..................................................73I中国大数据技术与产业发展白皮书(2013)第四章大数据IT产业链与生态环境..................................744.1大数据国内外相关产业现状.....................................744.1.1大数据产业链全景图.......................................744.1.2国内外发展呈现的四个趋势.................................754.2大数据产学