杭州精英在线系列课件大数据生活方式与社会治理涂子沛知名信息管理专家课程前言田桐:学术前沿,思想对话,欢迎走进《世纪大讲堂》。如果有一天你看到一辆无人驾驶的车辆行驶在公路上,或者有一天看到一台打印机能够完完全全打印出你想所要的所有东西的话,那么你不必讶异,因为您已经进入到了大数据的时代。正如哈佛大学社会学的教授加里·金所指出的,这是一场革命,庞大的数据资源已经使得各个领域开始进入到了信息化的时代。无论是商界、学术界还是政府,所有领域都将进入到这个进程。那么究竟什么是大数据,大数据时代对我们的生活带来哪些变革和挑战呢?我们今天请到的嘉宾是《大数据》一书的作者,著名的信息管理专家涂子沛先生和我们阐述《大数据生活方式与社会治理》,有请。解说:涂子沛,知名信息管理专家,中国旅美科学技术协会副主席,兼任华南理工大学公共政策研究院副教授,广东省政府大数据顾问。2012年其著作《大数据》在中国引起了对大数据战略的讨论,被《亚洲周刊》等媒体评为“2012年度中国十大好书”。2013年10月因为在大数据领域的研究和贡献,获第四届中国软科学前沿探索奖。田桐:涂老师您好,非常感谢您的远道而来。涂子沛:您好田桐,您好,大家好。田桐:那么其实大数据这样一个词,我们进入到我们的视线当中是从2012年开始的,究竟大数据是一个什么样的概念?它起源于什么时候?涂子沛:对,我们大家现在都在谈大数据,2012年被称为大数据元年,我们说怎么来理解这个大数据这个概念呢?核心要理解什么叫大,田桐你怎么理解什么是大呢?田桐:所谓这个大数据我不知道是它的容量大还是说它现在所需要,或者今后承载的东西会越来越大?就是这个大是一个质的数字还是说一个量的数字?涂子沛:没错。田桐:我不太了解这个。涂子沛:你说到的,我们说最重要的就是容量在变大,但是容量在变大呢是一个现象,杭州精英在线系列课件我们说大,还是可以说大房子还有大人物大趋势,这个大的意思是表示重要性、价值。那我们说本质是什么,大数据的本质是数据的价值在增加,除了容量在变大。田桐:我们看到您的这本书,也是非常火的一本书《大数据》,在它的这个封面的副标题上也写着正在到来的数据革命。您认为这个革命是什么样的革命?会不会是第四次的浪潮?涂子沛:我们经常说第四次的浪潮是针对说我们有前三次技术的浪潮对吧,18世纪的蒸汽机的浪潮,19世纪内燃机的浪潮到20世纪计算机的浪潮,这股浪潮呢说把我们带进了信息社会、信息时代。我们现在大数据时代来到了,我们说是一个新的浪潮,但是呢我们能不能说这是人类历史上的第四次浪潮?这个结论我们暂时还不能下,我们要拉长历史的镜头,还有待观望,但是大部分学者都认为,我们已经不仅仅处在一个信息时代了。很多人说在我们在一个新的时代,那这个新的时代叫什么名字呢?有的人说叫新信息时代,有人说叫后信息时代,那我有个观点,我认为我们在进入一个智能时代,不是一个简单的信息时代。田桐:那么所谓的大数据时代,眼看着就要到来了,可能已经到来了,它对于我们来说难道仅仅只是数字上的改变吗?它会对我们的生活起到什么样的变化?涂子沛:对,数据会影响我们的生活,最大的影响是什么呢?是我们会越来越依赖机器,越来越依赖网络,机器跟网络呢会获得智能,获得智慧,我们会进入一个人机共生的状态。但机器呢又是由数据驱动的,我们的生活会被数据主导,被数据驱动。有一句话说软件在定义这个世界,数据在驱动这个世界。田桐:那您觉得这是一个好的事情还是一个坏的事情,生活的所有重点全部都由数据来驱导?涂子沛:我认为这不是一个糟糕的事情,毕竟我们在迈进一个智能化的时代,这个智能化的时代,我们享受到很多的便利,就像主持人刚刚说的,无论驾驶汽车、3D打印,这都是在数据背后在驱动。我们生活身边就已经有很多了,你像阿里巴巴,这是我们中国的大数据公司,它在短时间内能够发放贷款,原来我们发放一笔贷款那经常要几个星期甚至一个月的时间去审核,但是它依靠它的大数据,在几分钟之内就能做出我贷不贷款这个决定效率是大大提高了。田桐:那么现在在国际上都有哪些国家是在大数据引领前方的?涂子沛:我想科技的引领者那肯定首推应该是美国了对吧,欧洲跟美国它们在这方面都做的不错。田桐:他们比我们领先在哪些方面?杭州精英在线系列课件涂子沛:首先我想的话,就数据而言,我们现在说大数据时代数据是金矿,首先你得有这个矿,他们进入信息时代,进入信息社会比我们早,他们数据的积累比我们多,这是第一。第二,所有的基本上新的理念,技术浪潮的数据挖掘,机器学习这些新的理念还是在西方国家首先提出来。大部分高级的、高端的数据的分析工具,自主知识产权也在美国也在欧洲,那么还在说他们为了推动这个时代,欧洲很多国家包括美国,全世界有四十多个国家都在开放数据。我们数据现在是最重要的资源,他们把那些最重要的资源当中核心的部分、基础的部分、公共的部分拿出来开放,免费给全世界使用,这推动了科技创新跟社会创新。田桐:那现在中国发展到一个什么样的地步了?我们接下来往哪方面发展?涂子沛:我想的话,我们中国在大数据浪潮这个浪潮,我们是挑战跟机遇并存,这个浪潮是我们离世界的距离最近的一次,我们相对以前的浪潮,我们刚刚谈了三次技术浪潮,那时候我们跟世界的差距很大,但是现在我们跟世界的差距已经越来越小了,已经越来越小了。我们虽然还不是一些新的思想、新的技术产生的地方,但是新的思想、新的理念在全球自由的流动,我们可以吸收得很好,我们可以传播得很好。我们可以学习的很好,所以这是我们的机遇。田桐:非常感谢您,更多的内容马上由您给我们带来今天的演讲,有请。解说:大数据无疑是当下最为火热的IT词汇,围绕大数据价值的利用,逐渐成为各行业人士争相追捧的焦点。到底什么是大数据?它是如何发展而来?什么是数据挖掘?《世纪大讲堂》《大数据生活方式与社会治理》正在播出。一、大数据的概念涂子沛:大家好,我们今天在这里是学术前沿、思想交流,我们说我们谈到大数据的时候,现在是一个很热的话题,怎么来认识大数据的现象?万事万物都有一个起点,我们的起点是什么?我们的起点是数据。什么是数据?我们要了解什么是大数据,首先要明白什么是数据,数据不是简单的数字,数据是有根据的数字,数据是对客观世界的一个测量,一个记录,这才是数据。当我们一想到数据,我们会想到什么?我们会想到计算,我们想到事实,数据是最尖锐的事实,最精确的事实。为什么要用数据说话?翻译过来就是要用事实来说话。我们还想到逻辑,想到精确。我们主持人刚刚也谈到加里·金教授,哈佛大学的加里·金教授,他提出一句话,大数据是什么?大数据是一场量化的革命。我们说数据它就是一个量化的一个工具,而量化,所有的科学都是为了量化。量化是科学的本质,如果没有量化的话那就没有科学,所以我们说数据是科学的语言,是科学的载体。杭州精英在线系列课件我们说在进入信息时代之后,数据的内涵是在扩大的,发生了一个变化,什么变化?我们计算机产生了,数据库出现了,我们把所有的东西放到数据库里,结果呢数据的内涵就扩大了,音频也放在里面,视频也放在里面,图形也放在里面。到信息时代的时候呢,数据已经开始指代信息了,它不是传统的有根据的数字了,就它内涵扩大了,成为信息的代名词了。还有一个更重要的变化,那就是体量在扩大,容量在扩大,那怎么扩大法呢?我们可以举一个例子,我们说过去五十年,《纽约时报》所有的容量是三十亿单词,但现在我们仅仅一天微博上就是八十亿单词。相当于一天的这个数据量,就相当于过去一百多年的报纸的数据容量。所以上世纪八十年代的时候,很多学者就开始注意到这个问题了,他们就开始来定义大数据。到底多大才算大呢?当时宾夕法尼亚大学的一个教授定义了一个叫两百太是吧,两百太的数据,他说叫做大数据。那两百太到底是多大呢?一千吉(赫兹)呢就是一个太,一部电影大概是一个吉,那两百太呢就相当于二十万部电影。当时的定义就是这样,二十万部电影的容量就是大数据了,就是大数据。那我们人类现在这个信息总量呢,我们说在这里啊,泽,我们现在大概是一个泽左右。二、大数据的成因我们有了这个概念之后,我们就来谈大数据是怎么形成的,成因是什么,为什么我们何以走到今天对吧?我们走到今天不仅仅是一个数据的积累,从进入信息时代之后,我们1946年发明第一台计算机进入信息时代,到现在60多年了,我们其实克服了很多困难,有很多的技术进步,才把我们推动到了今天。我们说第一个是什么,第一个就是1965年提出来的这个摩尔定律,1988年提出来的普适计算。1989年提出来的数据挖掘,我们说还有2004年出现的这个社交媒体,就这些现象集体地推动,才出现了这个大数据。我们来看看它具体怎么推动的。1965年的时候呢,英特尔的这个联合创始人摩尔他就发现一个规律,他说一个集成电路,一个芯片上,同一个面积上的晶体管,一到两年这个数量就要增加一倍,现在我们一个微处理器,上面的晶体管大概是几十亿个,就晶体管越做越小,越做越小,当然材料就越来越少,价格越来越低。同一个面积上不停地增加,它的性能就越来越好,导致了一个什么呢,就是这个计算机的性价比不断提高,价钱不断降低,性能反而不断提高。我们比如说硬盘,1955年的时候,IBM推出第一款硬盘的时候,那时候一兆就六千美元,我们说一首歌就几个兆了,那时候保存一首歌要几万美元对吧?我们说到1993年的时候,每兆降低到一美元,杭州精英在线系列课件年的时候呢,降到每兆不到一美分了。你说半个世纪的存储器的价格是下降了几百万倍,我们说人类历史上没有一种产品在半个世纪,它的价格能下降几百万倍。大家争论比较多的是说什么?摩尔定律还会不会继续有效?英特尔现在已经发明了3D晶体管对吧?他们已经用事实证明了,他们说摩尔定律到2020年之前,还会继续有效,就是(价格)还会继续下降。摩尔定律为我们解决一个很重要的问题,它为大数据时代的到来铺平了道路,物理道路,就是再多的数据,再多的信息我可以非常低廉的成本来进行保存。那我们讲第二个因素,普适计算,在1988年的时候,美国的一个科学家叫马克·维瑟提出来的,他说什么呢?1988年互联网刚刚产生,他说人类的计算浪潮可以分为三股,第一股叫做主机时代,主机时代的时候,计算机奇大无比,很多人共用一个计算机。一台计算机就占了半个房间。好到了上个世纪七十年代末的时候,计算机变得很小了,出现了个人电脑,人手一机,但马克·维瑟说这不是时代的终结,时代的终结是计算机会变得很小很小,它会融入到这个物理环境当中去,那你发现都发现不了。我们今天是不是到了这个时代?我们说我们的手机已经是台计算机了,我们如影随行是吧?我们还有RFID这种射频标签对吧已经很小很小,小的像豆子一样。它是可以接收数据,可以发送数据。现在已经很多的应用,我们可以把这种RFID的标签放到垃圾筒里,垃圾筒满了的时候就发出信号对吧,美国的废城他们就实施了一个这样的项目。这个收垃圾的人员工作量直线下降,原来几十个人收垃圾,垃圾处理队伍现在变成几个人。无论是摩尔定律还是普适计算,解决的问题都是刚刚主持人说的大容量的问题。大价值的问题一直到1989年我们提出数据挖掘之后才得到解决,1989年的时候,世界计算机协会召开了第一次数据挖掘的年会,标志着数据挖掘开始兴起。我们说数据挖掘是用自动的算法在大量的数据当中得到一些隐藏的关系、模式,总结出新的知识。我们说数据挖掘也是大数据时代大众所津津乐道的话题,其中最经典的例子莫过于某个超市的啤酒和尿布的故事。某个超市在数据当中发现啤酒和尿布它们的销量呈现正相关的关系。为什么是这样呢?经过调查他们发现,母亲在生了孩子之后买尿布的经常是年轻的父亲,他们在买尿布的时候呢,喜欢买点啤酒犒劳自己,那这个就是一个知识。超市利用这个知识把啤酒和尿布捆绑在一起,推动了两个商品的销量,成为了它的竞争性优势。我们中国也不乏这样的例子,最近华东师范大学有一个报道,我们有一个女生收到了来自校方的一封信,信里面问她你是