走近大数据潘璠大数据作为一个词语和现象,在今天已经耳熟能详、脍炙人口。但是,倒退到两年前,我们对此又有多少关注和了解呢?数据无处不在,大数据的影响则正在与日俱增,走近大数据、认识大数据、应用大数据,对我们把握好这个世界的特点和规律、并科学地决策和抉择,具有重要的现实意义。由两幅曲线图说起。曾经有两幅曲线图形象地反映了大数据受关注的程度,即谷歌和百度以“大数据”为关键词的搜索曲线图。前者在2011年到2012年的时段,后者在2012年到2013年的时段,都有一个明显、甚至可以说是陡然的上升趋势。无疑,上升的曲线表明,大数据的炙手可热其实只是近两年的事情。而作为最大的中文搜索引擎,百度曲线的变化,表明大数据火在中国,或只是近一年多的事情。两条曲线的对比表明,以“大数据”作为关键词进行搜索,其曲线的陡然上升,中文比英文慢了大约半年到一年的时间。但是,在中文搜索曲线陡然上升的同时,统计工作中有关大数据的应用研究也已经同步开始了。2012年8月23日,来自于新加坡的时任联合国统计司司长张保罗先生,在中国国家统计局作了一场题为《海量数据、社会调查和官方统计:改进数据来源》的报告。那是笔者第一次正式地、真正地意识到“大数据”是一个具有特殊意义的概念。后来,我们走访了商务部、国家测绘局等政府部门,到百度、淘宝、腾讯、华为、苏宁、1号店、58同城、京东商城、天脉聚源、擎天科技、天云融创、SCN鞋业等知名企业,与国内诸多业界知名专家、多位美籍华裔专家进行了探讨请教,聆听了大数据代表性论著《大数据》作者涂子沛先生、《大数据时代》作者舍恩伯格先生的讲座,一点点地解开了大数据的神秘面纱。“大数据”作为一个词语,或许是一个发现,而不是一个发明。但是,“大数据”作为一种现象,或是许多发明的结果、聚集和延续,是科学技术、生产力水平发展到一定程度后的一种必然。银行系统有海量的储户个人信息及存储信息;商场超市有海量的商品信息及其价格信息;机场记录着许多乘客的出行情况;医院记录着许多病人的检查和治疗情况;门户网站每一条新闻下面的留言,汇集成对许多现象和问题的民意;实名注册微博中的喜怒哀乐,则都是情感和态度的表达;百度、谷歌引擎的每一次使用,都可以说明IP那端键盘操作者到底想要什么;透过大气层中弥漫着的无数手机短信,足以掌握无数手机使用者“打死也不说”的秘密。从我们不变的属性到可变的态度,很多很多都已经在一不留神之间,汇入了浩瀚的大数据洪流之中。在与多位华裔美国学者、专家、官员座谈时,他们说,以往历次技术革命,中国跟在别人后面亦步亦趋。而大数据时代来了,大家的起点都差不多。中国能不能在大数据应用方面与发达国家并驾齐驱、乃至作出一些贡献呢?这些在座的专家学者里面,就有著名的《大数据》一书的作者涂子沛先生。他曾是中国大陆基层政府的一名工作人员,后来去了美国,在最恰当的时候写出了这样一本书籍。座谈之后,我们也请他做了一场报告。而半年之后,再请他作报告就非常困难了。据《中国青年报》报道,涂子沛2013年6月进行第4次国内巡讲之旅时,连早餐时间都已经被占满了。6月16日,他在招商银行深圳总部大楼与刚卸任的原行长马蔚华共进早餐。从《大数据》一书出版后,每当这位在美国供职的中国程序员回到国内,都会受到热烈追捧。和马蔚华共进早餐的第二天,他在江苏常州就“教育与大数据”的话题进行了一场听众超过1000人的讲座。其间,他与国泰君安证券股份有限公司董事长万建华吃了一顿午饭。这时,要请他讲课,只能找他的秘书安排了。这个变化,恰恰是大数据现象快速发展变化的一个缩影。不说不做也难,因为已经唯此为大一年多以前,我们刚刚开始研究大数据及其对统计数据和统计工作带来的影响时,一位年轻同仁在笔者的博客上留下一段英文:“Bigdataisliketeenagesex:everyonetalksaboutit,nobodyreallyknowshowtodoit,everyonethinkseveryoneelseisdoingit,soeveryoneclaimstheyaredoingit就像是青少年性行为:每个人都在谈论它,没有人真的知道如何去做,每个人都认为别人在做,所以每个人都声称他们正在做它。”于是,笔者回复:“很经典,但是不说不做也难,因为已经唯此为大了。”2013年10月,我们召开以大数据为主题的科学讨论会时,有一位代表说:“那么多专家讲了一天,连大数据的概念都还没搞清。”我说:“不对,大家都是从不同的角度对这个概念进行诠释,如同说到‘文化’这个概念,马上问一百个人,难道能够得出一个统一的答案吗?也许一百个人就有一百个答案。但这并不意味着大家对这个概念没有一种相差无几的共识。大数据也一样。”对大数据现象和概念追根溯源,大致可以分为三个阶段。一是20世纪80年代至90年代中期,是大数据认知的萌芽阶段。1980年,美国著名未来学家阿尔文•托夫勒在《第三次浪潮》一书中将大数据盛赞为“第三次浪潮的华彩乐章”。1996年,美通社(PRNewswireInc平行节点技术时也提到中央处理器集群以及大数据应用。这时提到的大数据,仅是字面意义,仅指数据量大,并不涉及类型、存储方式、处理技术等。二是20世纪90年代中期到21世纪前10年是大数据广受各界关注的阶段。数量经济学家迪博尔德(Diebold)2000年在《大数据,宏观经济度量与预测动态因素模型》一文中,讨论了如何使用大数据进行经济度量和预测。美国高德纳(GartnerGroup)公司的分析师道格拉斯•兰尼(DouglasLaney)2001年首次从大数据特征的角度对大数据进行了相对明确的定义,他强调大数据必须具备3V特征,即容量大(Volume)、多样化(Variety)和速度快(Velocity)。三是2010年至今,是大数据战略应用被提上日程并迅速发展的阶段。2010年,美国总统科学技术顾问委员会在呈给奥巴马总统和国会的报告《规划数字化的未来》中,要求联邦政府的每一个机构和部门,都需要制定一个应对大数据的战略。2011年,麦肯锡公司发布报告《大数据:创新、竞争和生产力的下一个前沿》,提出了政府和企业决策者应对大数据发展的策略。2012年1月,瑞士达沃斯世界经济论坛发布报告《大数据大影响》称,大数据已经成为一种新的经济资产类别,就像货币或黄金一样。2012年3月29日,美国奥巴马政府颁布《大数据的研究和发展计划》,拟通过提高从大型复杂数据集中提取知识和观点的能力,进而加快美国科技进步的步伐。2012年5月,联合国秘书长执行办公室发布报告《大数据促发展:挑战与机遇》,系统给出了在应用过程中正确运用大数据的策略建议。2012年6月,经合组织OECD召开统计委员会第9届会议,发布《使用大数据作决策》研究报告,特别分析了大数据对官方统计带来的各种挑战。2012年,中国计算机协会决定成立“大数据专家委员会”,推动大数据的发展。2012年6月,阿里巴巴集团宣布,将在集团层面设立首席数据官,负责全面推进“数据分享平台”战略。2012年7月,“第二届大数据世界论坛”在北京召开。2012年7月,首届中国大数据应用论坛在北京大学召开。2012年12月,广东省宣布实施大数据战略,继而宣布成立大数据管理局。2013年7月,“大数据时代统计学:机遇与挑战——中国统计学高端论坛”在上海财经大学举办。全国统计学专家学者齐聚一堂,共同探讨在大数据时代统计学面临的机遇与挑战。2013年,第十七次全国统计科学讨论会在杭州举行,会议主题是“大数据背景下的统计”,这是国内第一次研究大数据与统计工作的科学研讨会。2013年11月19日,国家统计局与阿里巴巴、百度等11家企业签署大数据战略合作框架协议,共同在分享、开发、利用大数据方面进行合作,以推动大数据实现大价值,使之更好地服务于社会。这标志着在统计工作中应用大数据,已经从研究转向实操层面。大数据大在哪里有一个字节换算公式:1KB(Kibibyte,千字节)=1024B;1MB(Mebibyte,兆字节,简称“兆”)=1024KB;1GB(Gigabyte,吉字节,又称“千兆”)=1024MB;1TB(Terabyte,万亿字节或太字节)=1024GB;1PB(Petabyte,千万亿字节或拍字节)=1024TB;1EB(Exabyte,百亿亿字节或艾字节)=1024PB;1ZB(Zettabyte,十万亿亿字节或泽字节)=1024EB;1YB(Yottabyte,一亿亿亿字节或尧字节)=1024ZB;1BB(Brontobyte,一千亿亿亿字节)=1024YB。麦肯锡在全球研究所报告称,大数据是指大小超出传统数据库软件工具抓取、存储、管理和分析能力的数据群。1979年成立于美国马萨诸塞州霍普金市的EMC公司认为,大数据中的“大”是指大型数据集,一般在10TB规模左右;多用户把多个数据集放在一起,形成PB级的数据量。维基百科(Wikipedia)的表述是,大数据是难以用现有数据库管理工具处理的兼具海量和复杂性特征的数据集成。涂子沛将大数据定义为那些大小已经超出传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据,大数据的数量级应该是“太字节”。工信部电信研究院2014年5月发布的大数据白皮书称,大数据是具有体量大、结构多样、时效强等特征的数据。我们的同仁在研究中提出,大数据是指采用多种数据收集方式,汇集不同数据源,通过采用现代信息技术和架构能够高速分析处理的、具有高度应用价值和决策支持功能的多种类型数据及其技术集成。从存在形态看,大数据分为可以用二维表反映的结构化数据和不能以二维表反映的非结构化数据,如音频、视频、图片等;从数据来源看,大数据可分为行政记录数据、商业记录数据、互联网及搜索引擎数据三大类。大数据的特征,从最初的3V已经被归纳为6V加1C,即数据体量大(Volume)、类型多样化(Variety)、处理速度快(Velocity)、应用价值大(Value)、数据获取与发送的方式自由灵活(Vender)、准确性(Veracity)及处理和分析难度非常大(Complexity)。从“喝醉的海盗”到斯诺登的“泄密”舍恩伯格先生告诉我们这样一个故事:史黛西•施奈德(StacySnyder)梦想成为一名教师。2006年春天,她完成了自己的学业,并对未来充满期待。但她心仪的学校明确拒绝她,理由是她的行为与一名教师不相称,因为她的个人网页上有一张取名“喝醉的海盗”的照片。照片里的她头戴一顶海盗帽子,举着塑料杯轻轻啜饮着。学校里的一位教师发现了这张照片,并上报给校方,校方认为网上的这张照片是不符合教师这个职业的,因为学生可能会因看到教师喝酒的照片而受到不良影响。于是,史黛西打算将这张照片从她的个人网页上删除,但她的个人网页已经被搜索引擎编录,照片也已经被网络爬虫(WebCrawler)程序存档。而斯诺登披露的棱镜门事件更加清晰地揭示,当我们个人的行动乃至心动都融入浩瀚的大数据洪流、成为其中的一个细小浪花之后,一切已经皆在掌握之中。当人们揣着手机从一个地区到达另一个地区,马上会接到来自运营商的欢迎短信。而每一部手机都是名副其实的跟踪器和定位仪,可以精确锁定到某一座建筑物内。如果调查者和运营商联手,时间分配利用调查不用填写问卷,就可以既精准又及时地掌握所需要的信息。当人们通过博客、微博、微信、飞信表达自己情感上的喜怒哀乐时,通过网上留言、跟帖表达自己对不同事物的态度和意愿时,通过输入关键词搜索自己需要和感兴趣的结果时,不仅留下了不可磨灭的痕迹,也为后台的汇总与分析提供了最具基础性的依据。当人们坐在电脑前轻点鼠标、轻松完成一次又一次购物的时候,不仅切实感受到网购商品的物美价廉,还能享受到送货上门的方便和快捷。但与此同时,每一个网购者也不得不把自己的银行账号及其他相关信息,交给一双或几双看不见的手去掌握、控制和操作……尽管如此,人类社会毕竟还是要向前发展的,我们不可能再退回到没有网络、没有手机的年代。其实,即使倒退半个世纪,隐私安全问题也依然存在。因为我们毕竟要到银行存款,到医院看病,通过邮局寄信,通过单位电话或公用电话沟通