21世纪高等学校规划教材·计算机应用大数据时代的历史机遇——产业变革与数据科学赵国栋易欢欢糜万军鄂维南著内容简介大数据正以前所未有的速度,颠覆人们探索世界的方法、驱动产业间的融合与分立。本书力图系统、全面的阐述大数据在社会、经济、科学研究等方方面面的影响,或许可以帮助大家澄清一些认知误区,有助于大数据在各行各业落地生根。全书分为三大部分,第一部分重点讲述大数据时代产业发展的三大趋势以及驱动产业融合、升级、转型的根本因素,并给出践行大数据的最佳范式。第二部分首次完整阐述“数据科学”的基础性价值,论述数据科学对科学研究、社会研究、产业发展的影响,并提出数据科学的教育体系。第三部分全景式的介绍重点国家、经济体、新兴企业在大数据领域取得的进展,展示一幅真实的大数据图景,把判断留给读者,看谁拥有未来!本书面向资本市场、产业界和学术界,成为链接三方的纽带。有助于投资人了解产业趋势、评估公司价值;有助于产业界确立公司战略方向;有助于学术界了解产业需求,促进产学的协作。本书封面贴有清华大学出版社防伪标签,无标签者不得销售。版权所有,侵权必究。侵权举报电话:010-6278298913701121933图书在版编目(CIP)数据大数据时代的历史机遇:产业变革与数据科学/赵国栋等著.—北京:清华大学出版社,2013ISBN978-7-302-32535-2Ⅰ.①大…Ⅱ.①赵…Ⅲ.①数据管理-研究Ⅳ.①TP274中国版本图书馆CIP数据核字(2013)第104803号责任编辑:夏兆彦封面设计:胡文航责任校对:胡伟民责任印制:何芊出版发行:清华大学出版社网址:,:北京清华大学学研大厦A座邮编:100084社总机:010-62770175邮购:010-62786544投稿与读者服务:010-62776969,c-service@tup.tsinghua.edu.cn质量反馈:010-62772015,zhiliang@tup.tsinghua.edu.cn印装者:清华大学印刷厂经销:全国新华书店开本:170mm×230mm印张:26.5插页:2字数:500千字版次:2013年6月第1版印次:2013年6月第1次印刷印数:1~15000定价:49.00元产品编号:049306-01赵国栋数据成为资产中国计算机学会会员、宏源证券研究所高级分析师、中国建投投资研究院特约研究员、广东省应急产业协会专家会员、前神州数码系统集成服务有限公司咨询总监、国际信息系统审计协会(ISACA)会员,拥有15年的信息产业工作背景。在移动互联网、云计算、大数据等新兴领域拥有深刻、独到的见解。邮箱:zhaogd@gmail.com易欢欢没有大数据的云计算,就是房地产的代名词宏源证券研究所副所长、中国建投投资研究院特约研究员、前国金证券计算机行业首席分析师、前甲骨文战略咨询部高级经理、北京著名的青年财经沙龙、TMT沙龙发起人。多次获得证券行业最高奖项新财富奖、水晶球奖金牌分析师称号。邮箱:yisiyuan@gmail.com糜万军数据之和的价值,远远大于数据价值之和现正在创建大数据技术公司。研究方向主要包括高性能计算和大规模数据挖掘。荣获“2011中关村高端领军人才”、“2012中关村十大海归新星”等称号。邮箱:wanjunmi@gmail.com鄂维南数据科学将达到自然科学分庭抗礼的地位中国科学院院士北京大学长江讲座教授美国普林斯顿大学教授前言FOREWORD星罗密布的人造卫星和数以千万计的各种传感器,源源不断地侦测、创建和传输大量的数据。人们的喜怒哀乐、吃穿住行等人性化的表征和行为都在虚拟的网络空间中再现和升华。人类全面进入了数据时代。数据的影响已经渗入到了产业、科研、教育、家庭和社会等各个层面。可以说,缺乏数据资源,无以谈产业;缺乏数据思维,无以言未来。尽管大数据已经成了一个热点话题,但目前大数据方面的文献大多聚焦在它的数据容量,数据多样性以及访问速度上,也就是所谓的三个“V”。本书则穿透数据爆炸的表象,聚焦于探讨大数据对于产业变革、科学研究的巨大影响。大数据正以前所未有的速度,颠覆人们探索世界的方法,驱动产业间的融合与分立。因而当务之急是,怎么认知大数据?如何让大数据更好地应用到科学研究中去?如何让大数据切实帮助公司突破增长的瓶颈?本书力图系统、全面地阐述大数据社会、经济、科学研究等方方面面的影响,或许可以帮助大家澄清一些认知误区,有助于大数据在各行各业落地生根。本书分为三大部分:第一部分阐述大数据时代产业趋势的问题;第二部分重点大数据时代的历史机遇产业变革与数据科学缺少数据资源,无以谈产业x在于数据科学;第三部分概览世界主要国家、经济体在大数据方面的政策和举措,海外巨头以及新兴公司在大数据领域的实践。“数据成为资产”是最核心的产业趋势。正如本书概述所提到的:“当写完这些案例,回头审视产业的起起伏伏,发现产业兴衰的决定性因素,已经不是一城一池的争夺。土地、人力、技术、资本这些传统的生产要素,甚至需要追随“数据资产”,重新进行优化配置。”那些拥有优质数据资产的公司,挟天子以令诸侯,不断地攻伐、侵袭其他产业的传统领地。产业融合大幕随之拉开,天平却向这些新兴的公司倾斜。由此笔者也得出第一个公司价值的判断标准:“大数据时代公司的价值,与其数字资产的规模、活性成正比,与其解释、运用数据的能力成正比。”本书第一部分用四章的篇幅来描述“数据资产”,提出数据资产的评估模型,并以此为基础来判断符合哪些条件才是优质的数据资产,才具备产业跨界攻伐的潜力。围绕数据资产的运用,衍生出不同的商业模式,通过大量的学术研讨和商业案例,来阐释这些商业模式的合理性、颠覆性。第四章和第五章分别描述了已经被颠覆的媒体行业和正在受到冲击的金融行业。具体到信息产业内部,当下另一个重要的趋势是“行业垂直整合”。那些越是靠近产业链末端,越是靠近最终消费者的公司,将在产业链中拥有越来越大的发言权。这一趋势对中国信息产业而言,意义尤其重大:它是大数据时代,我国信息产业实现弯道超车的契机。影响这个趋势的关键因素包括开源软件的兴盛、软硬一体化重新唱主角、应用为王、极简主义盛行等。洞悉行业垂直整合趋势,将对一、二级市场的投资判断,有重要的参考意义。本书第六章将重点谈论这部分内容。泛互联网化是笔者提出的另一个主要思想,也是收集数据资产、发挥大数据商业价值的最佳实践。多种形态的设备、软件都会具备联网的功能,联网成为泛化的功能存在于各种设备、各种软件之中。笔者系统地考察了苹果、谷歌等引领世界潮流的公司商业模式,也遍访国内传统的IT公司,提出“终端”+“应用”+“平台”以及“数据”四位一体的泛互联网化范式,重点揭示该范式的特征与实践,批判“工前言缺少数据思维,无以言未来xi业时代的标准化思维”。灵活利用泛互联范式,传统企业会取得意料之外的高速增长,也是创业型公司从零开始积累数据资产的正途。这个话题的初步探讨参见第七章。本书第二部分围绕“数据科学”展开。大数据给科学和教育事业的发展提供了前所未有的机会,同时也提出了前所未有的挑战。它不仅将给现有的科研和教学体制带来大幅度的变革,也会给科学与产业之间的关系、科学与社会之间的关系带来大幅度的变革。信息时代,万物数化。许多学科已经和信息科技深度融合,形成新的研究领域,譬如生物信息学、天体信息学、数字地球、计算社会学等。“用数据来研究科学”已经是科学研究的主要手段之一。另一方面,大量的、非结构化的数据,同样需要科学的手段,来去芜存菁,即“科学的研究数据”。另外,产业界在生产经营中积累丰富的数据,学术界则有待于实践检验的模型和算法。“数据科学”为学术界和产业界的紧密衔接提供了纽带和桥梁,成为促进产、学、研深度融合的重要契机。本书前两部分偏重构建大数据相关理论和趋势,第三部分则全景扫描各政府、各大经济体、各行业领头羊和典型的新兴公司在大数据方面的具体实践。如果没有第三部分,前两部分就像自说自话,成了无源之水。在各国政府的大数据行动中,美国的动向无疑最值得关注。第十一章几乎通篇都在讲美国政府的开放策略。大家从中可以看到,美国政府是如何利用数据技术来促使政府变得更加透明、廉洁和高效。读罢这一章,大家也会很容易理解奥巴马政府《大数据研究与发展计划》的初衷。第十二章阐述了大型公司如何利用大数据技术相互攻伐,第十三章则重点放在有哪些值得关注的新兴企业,对于专注于早期投资的机构而言,这章具备十分重要的参考意义。这本书是笔者和易欢欢、糜万军、鄂维南院士通力合作的结晶。易欢欢先生是宏源证券研究所副所长,曾荣获2011年新财富奖、水晶球奖金牌分析师第一名,在资本市场首提大数据概念,引领一时之风潮。糜万军先生现正在创建大数据技术公司,同时也是“中关村高端领军人才”的代表人物。糜总在数据统计、定向广告的核心算法方面造诣深厚。鄂维南先生是中国科学院院士,同时也是北京大学长江讲大数据时代的历史机遇产业变革与数据科学缺少数据资源,无以谈产业xii座教授、美国普林斯顿大学教授,他已倡导数据科学多年,是我国发展数据科学的领军人物之一。本书系统地总结了笔者多年的工作心得、行业感悟。本书思想来自于产业界、学术界、政府人士的反复沟通和碰撞,成书之际,谨在此表示深深地感谢。他们是(排名不分先后)国金证券研究所副所长李伟奇、甲骨文产品战略部总监刘松、用友集团董事长王文京、拓尔思总裁施水才、启明星辰首席战略官潘柱廷、上海证券交易所总工程师白硕、神州数码CTO谢耘、神州数码徐拥军、民生证券CIO颜阳、SAP全球数据库解决方案亚太及日本区技术总监卢东明、百度公司多媒体部副总监余凯、京东商城副总裁李曦、北京大学教授姚远、工信部电子科学技术情报研究所陈新河、工信部软件与集成电路促进中心陈越等。感谢网友@尹锴_ink、@夏明武,他们慷慨无私地提供了大量的资料和职业感悟。感谢笔者的写作团队,他们利用业余时间收集、翻译、整理资料,校对文字。其中刘丰(第八、十一章)、闻学臣(第五章)、李隽钦(第四章、第十三章)甚至参与撰写了部分章节。笔者的写作思路和风格时常调整,导致大家许多工作成为无用功,收集大量资料却无一采用。尽管如此他们依然任劳任怨,志愿付出。他们是蒋传臣、靳松、陆安、刘丰、许文星、闻学臣、魏增、金慈航、尹佳、丁新、安征、王萌、曹宇峰、孙思远、徐湘童、王宁、吕殷楠、宋航、胡博、杨宣华、王东莹、何全、王宁、魏芳、曾奕恺、胡韦力、扈培培、赵晖、刘翔、刘笑逸、李隽钦、冯达、葛婧瑜、张中峰、张娟。感谢摩宝时代为本书提供的二维码支持。感谢清华大学出版社的信任与等待。再次感谢!作者2013年1月于北京目录Contents第一章大数据概述大数据是“在多样的或者大量的数据中快速获取信息的能力”,其关乎国计民生、产业兴衰、公司存亡,不可不察。第一节大数据产生的历史背景/10第二节大数据的定义和特征/20第三节大数据的认知框架/33第四节数据科学——改变探索世界的方法/39第五节大数据面临的挑战和机遇/41第一部分产业大势第二章大数据时代已经到来资本市场、产业界、学术界、政府都在紧锣密鼓地行动,四方联手推动2012年成为大数据时代的元年。大数据时代的历史机遇产业变革与数据科学ii缺少数据资源,无以谈产业第一节国内外产业界的先声/55第二节中国资本市场反应敏锐/56第三节美国政府的手笔/57第四节Splunk上市的影响/63第五节数据科学与信息产业大会的召开/69第六节大数据创新的策源地——云基地大数据实验室/70第三章数据成为资产大数据时代公司的价值与其数据资产的规模、活性成正比;与其解释、运用数据的能力成正比。第一节数据资产价值及评估/83第二节大数据飞轮效应是驱动产业融合的关键因素/92第三节一家“传统”公司的大数据飞轮战略/96第四节以数据资产为核心的商业模式/104第四章大数据颠覆媒体行业传统平面媒体业正在经历历史上最严重的倒闭浪潮,取而代之的是新兴的互联网媒体公司。以谷歌为代表,他们以数据资产为中心,创造了迄今为止最完美的商业模式之一。第一节信息获取方式的变革—