1/12大数据的技术与应用(下)宁家骏国家信息化专家咨询委员会委员二一四年十二月四、大数据的应用这里我还想特别强调一下,就是当前在大数据的处理之后,有两个问题是非常要注意的。第一个是怎么样来保护大数据中间的这种数据的敏感数据或者我们个人的隐私。现在我们大量的交易的记录里,都有我们很多每个人的,比如说我们的身份信息,甚至于我们的账户信息,我们的密码信息,这些信息如果不加以保护,就会我们个人甚至于行业的安全带来巨大的损失,这个教训也不少。第二个就是在当前怎么样来管理好这样的海量的数据,存储好,怎么样进行调度,怎么样来进行这个数据操作的审议,也是一个非常重要的。所以我们说处理大数据涉及到它的采集、存储、分析,另外一个就是它的安全。所以我们在当前必须看到处理大数据跟传统的数据,由于它量变,就引起了质量,所以这样的话对我们现有的数据库管理性是带来了挑战。换句话说传统的数据库很难处理好这个大数据,另外就是由于传统的数据库没有考虑到数据的多样化,另外一个就是对数据的这种大量的数据信息进行分析,我们现在做得还不够。那么这个很重要的一个情况就是我们学数据库,大家知道就是叫,大家知道是一种按照序列排序进行查询的这样一种语言,而现在我们对大量的这种非结构化的数据就必须用一种非的一种方式来进行。所以这个就引发了我们对这些数据的这种并发管理的这种技术的要求,也就要求了我们更高的效率来存储和管理,同时又需要有高扩展性和高可靠性。所以我们说大数据离不开云计算,但是大数据又不等于是云计算,云计算是指的计算架构的调整,而大数据是在新的架构下面我们所管理的海量的、类型复杂的、变化快的数据资源。所以它们之间的关系应该说云计算它是一个业务模式的变化,那么大数据是一种资产,这种资产的现代化管理需要依靠云计算。所以我们说云计算和大数据是密不可分的,云计算改变了的架构,而大数据意义更加重大是改变了整个业务的模式。所以在这种情况下,所以最后一点我要特别讲一下我们大数据的这个安全和应用问题。2/12大数据的应用范围非常广泛,我们前不久我们经常说的往往是在商务上,是在电子商务中间,但是它绝不仅仅是在电子商务。我们大数据有很多的应用,比如说在医疗的、公共卫生,在健康上,在我们的食品安全的监控方面,在我们的交通方面,在我们的环保方面,都会得到广泛的应用。特别是随着我们政府的行政体制的改革,在建设法制型政府的时候,我们是要建设一个公开的透明政府,所以在这个过程中间我们更加需要利用大数据来推进我们政府的信息开放,同时要为我们的建设一个更加合规的法治型的政府做出努力,所以在智慧城市这样的建设中间也需要用大数据来推动我们智慧城市的建设发展。而大数据的应用,我们说很关键的是离不开数据的挖掘,那么在当前我们说数据量非常大,我们前面讲是一个巨人,怎么样从中找到那些有用的,就有点像我们大家开矿,开了很多石头,但是这些石头哪一块是真正宝玉或者是翡翠,那需要挖掘。所以这一点是我们很重要的一个关键,而做好挖掘,一个是要有相应的技术,相应的模型,而且要满足这种处理的速率和时效的要求,因为信息这个东西大家知道有一句话常说,就是当季是宝,过季是草。如果你当时那一刻没有找到它很好的利用价值,你转瞬即逝,那时候过时的信息可能就没有用。需要你用这个信息里进行决策的时候,你找不到它的信息,找不到有用的东西,那你就挖掘就没有真正的收到效果。所以数据的挖掘,关键就是从大数据中间提取或者挖掘出的知识,而知识是什么呢?大家都知道,它是一个概念,或者是一个规则,是一个模式,或者是一个规律。所以这些东西怎么样从这些大量的杂乱无章的数据归纳出来、总结出来,揭示他们的关联性和大家的规律,这是关键。所以我们说大数据有这么几种挖掘的形式,第一个是内容的挖掘,一个是结构的挖掘,那么还藏有一个用户行为的挖掘。因为内容的挖掘我们大家容易理解,那么结构的挖掘就是看我们这些数据符合什么样的结构特征,具有什么样的这种结构的关联性。那么另外一个呢,我们说要通过对大数据的挖掘,了解用户的习惯,了解用户的体验,知道用户需要什么,他的习惯是什么?他的爱好是什么?怎么样做能够更好的来满足用户的需求,这个是一个非常难的事情。我们说在当前电子政务中间也是要用大数据的挖掘,来找到我们在当今部门业务的处理中间,怎么样更好的推动信息的共享,怎么样来打破我们传统的部门的界限,然后真正建设一个网上,一个公开透明的政府,这一点是非常重要的,也是为我们政府科学决策,推动我们社会的发展,制定好更好的政策,做出更好的决定,更好的服务,这也是非常重要的。使我们的政府机构能够从中发现一些蛛丝马迹,能够及早的做出决策,避免损失,这都是非常重要的。所以数据挖掘是信息技术发展的一个重大的成果。3/12所以我们说随着大数据库的建立和海量数据的不断涌现,那么我们一定会提出最强有力的数据分析工具的迫切需求。那么正是由于有了这个东西,我们才能够真正解决信息贫乏,现在我们往往是数据十分丰富,而从数据也找不到有用的东西,所以叫成信息贫乏。而只有我们有了强有力的工具,才能够把它的价值找出来,避免出现了就是数据的坟墓,就是数据量太大,你根本就挖不出来,也挖不过来。所以这个是我们说一定要把一个数据矿山变成一个信息的金矿,这就是我们说数据挖掘的一个重大的作用。我们说一般的来说,对数据挖掘有这样的几个过程,首先是要对数据进行清理,因为大数据收集的数据有杂声,或者我们说有杂质,要有一个去粗取精、去伪存真的这样的一个操作过程。首先就是把数据中间的噪音杂质去掉。第二要把多种的数据源进行集成,就是数据的集成。第三个就是集成出来的数据要进行数据的选择,或者叫剔除。然后要把剔除出去的进行变换,变换成一种统一的格式,然后在这种情况下对这些规范的数据再进行数据的提取,或者我们叫挖掘,或者叫数据有用信息的知识提取。然后提取出来的东西还要经过模式的评估,经过评估到底对不对,最后要把提出来的东西用一种知识表示出来,或者是一个概念,或者是一个公式,或者是一个模式,或者是一个模型,这个就是我们数据,大数据在数据挖掘中的一个操作的大致的过程。所有我们说数据的挖掘系统要有大数据库,要有数据库的服务器,要有知识库,要有数据挖掘的引擎,要有模式评估的模块,还要有相应的这种用户满意的图形界面。当今我们还要对数据的挖掘不断进行研究,比如说数据研究技术和特定商业逻辑的这种集成,数据挖掘技术和特定数据存储类型的适应,大型数据的选择和规格化,数据挖掘系统的构架以交互式的挖掘技术以及数据挖掘的算法和理论等等。所以这样的话我们有了数据的,就可以得到它很有用的应用。比如说我们针对一定的市场,针对一定的目标性分析,比如说我们像对市场分析的时候,比如说对物价、对这个指数、指数,比如说我们对社会管理中间一定的用户,比如说我们对某个城市的流动人口进行分析,对某个城市的菜篮子价格进行分析,这些个都是从浩如烟海的这种大数据进行分析,再进行我们对整个社会的风险。比如说我们现在社保基金大家都知道,网上老说我们的社保基金将来可能有风险,就是比如说将来再过上若干年就入不敷出,那这个就需要进行分析,就需要用大数据的东西进行分析,进行模式的这种推演。那么到底看一看我们这么多的这个,尤其中国人口这么多,现在随着养老的也越来越多,能不能够就是将来做到收入和支出平衡,怎么样来保证我们这种社保基金的风险不会发生。所以这些问题在我们的类型,比如说其他的像智能交通,像我们的环保,4/12像我们的比如说节能降耗,这些东西。当然我们说大数据的还有一个很大的这个,大家一说就知道,就是舆情的分析。对于我们这种当时的这种现在很迫切的平安城市,像这种反恐、反暴事件这种应用也更为普遍了。当然我们说还有一个就是前面我讲的对财政金融的分析和风险的管理,现在我们知道国家审计部门就在利用大数据,在对于我们这个以前的,比如说地方债务,地方融资平台的债务进行分析,来控制风险。包括对我们这种社保的专项基金进行分析,所以这个都是非常重要的应用领域。我们说管理大数据不容易,但是理解大数据、分析大数据更累,所以我们常说两句话,就大数据的精髓是什么?大数据的精髓是删除,因为大数据利用大量的是那种没有用的就要把它删掉,而删除的精髓是什么呢?是不删除,就保留下来那个有价值的东西,所以这两句话是辩证的。而做好这个东西,离不开软件,所以软件是大数据的重要的引擎,所以这也是构成大数据生态的一个重要支撑。当然我们说现在的大数据在管理和技术应用上面临着一系列的挑战,首先是我们如何管理。那么另外我们怎么样来建好我们的存储架构、网络架构,那么还有一个很重要的怎么样来保护数据的安全,保护我们信息安全,保护隐私,这几个问题都是我们在当前大数据应用中间非常重要的挑战。所以我们说管理大数据容易,理解大数据更难,所以这一点是。特别是随着我们社会形态的变化,社会管理的创新,要求我们对大数据的应用一定要提高到一个新的水平,要求我们用大数据来进一步指导推进我们政府各个部门协同的工作。特别是当今这种复杂的网络环境,对我们大数据的应用和服务也产生了巨大的影响。所以一个是我们的服务内容要求更加丰富,服务的方式要更加灵活,所以在这种情况下我们在当今的信息化的建设中间,必须围绕着大数据的应用体现于用户服务为中心,以资源建设为基础的这样一个根本的思路。所以这个也就是我们在当前信息化建设中间一个基本的一个策略。当前我们普遍在大数据的开发和应用存在着很多的难点,最重要的是我们的资源,经常是在体制和机制上存在我们。我们的信息资源重复开发,利用效率低,本身成本又没有很好的控制,很重要的一个情况就是我们现在信息都是用公共财政的数据部门化、私有化,不能够真正推进信息的共享,也不能够真正的实现整合。所以要改变这个方式,必须要有我们顶层设计,要有我们科学的总体框架和有力的实施的基础,要建立一套大数据下新的信息化的机制和信息的机制,就是要保障信息是一个有源之水,有本之木,源源不断而来,要保证我们的信息能够在一个公共的平台上推进它的开放,它的共享,同时要推进我们大数据理论的研究和应用。我们说大数据利用的精髓就是信息的整合和共享,所以这个是一个非常的核心的东西,5/12所以如果离开了整合和共享,那么不能够做好大数据的应用。在这种情况下我们说最重要的是大数据给我们带来了很大的机遇,但是要做好这个机遇我们还要做很艰苦的工作,其中包括了信息机制的建设和我们专业化服务的建设。首先我们说大数据应用的场景离不开专业的业务场景,离不开我们专业业务人员的支持。其次才是我们数据分析人员和数据管理人员的合作,所以这个也是我们一个非常重要的。在当前我特别想说要重视大数据带来的风险,其中很大的一个程度就是我们当前要注意当前大数据安全的问题。我们说信息安全这个概念一直在发展,过去我们只是讲物理的安全,比如说我们一个机房要安全,大家家家都要锁门,有门禁就叫安全。后来有了网络,就要重视网上的安全,网上就要设一些卡,设一些事儿,比如说加一些防火墙这些东西,防病毒。那么之后到了新世纪就更加强调应用的安全,比如说我们要有身份的认证,要有木马的防护,要有流量的控制,但是现在最重要的实际是我们的数据的安全。首先是我们数据要防止我们的这种丢失、损失,防止我们的泄露。第二个我们的数据要进行严格的审计,谁修改了数据,谁发布了数据,都要可查可审查可追溯,不然的话谁对这个数据负责,所以这是我们当今最重要的问题。大家都知道今年我们国家这个在互联网上有很多的举动,我们今年在乌镇刚刚召开了中国的互联网世界大会。那个互联网是一个影响非常大的,但是互联网最大的挑战是什么?我们说就是它的安全。现在我们大家都有移动的终端,智能终端,移动的智能手机,但是大家都知道这个手机也有不安全的一面。现在我们这个手机这个测试差不多手机,所有的手机都有安全漏洞,所以这个是我们在当前非常值得我们警觉的一些问题。而互联网发展到了今天,大数据发展到了今天,安全决定了成败,安全是创新的前提,是发展的保障,是技术的引领,是市场的先导,是核心竞争力的标志。谁掌握了安全这条生命线,谁就掌握了先机,谁就能在下一代互联网空间脱颖而出。而且我们今年已经成了名副其实的网络大国,我