中国国际大数据大会“联合变革开放创新”时间:2014年8月19日下午(周二)地点:国宾酒店主持人:人民邮电报总编武锁宁主持人:尊敬的张秘书长,尊敬的方院士,尊敬的各位领导、各位专家,女士们、先生们,大家下午好!2014年中国国际大数据大会现在开始,我是人民邮电报总编武锁宁。作为中国通信学会的常务理事,我很高兴为大家主持今天下午的研讨交流活动。随着新一代信息技术的快速发展,大数据成为了继物联网、云计算之后的又一个信息产业创新热点。而且特别值得关注的是,大数据的发展后来居上,呈现出与云计算、物联网不一样的起飞轨迹。我们知道,物联网、云计算,甚至在此之前的大哥大和3G移动宽带发展,在它们的起飞过程中都曾经经历过大起大落然后再缓慢发展的过程,留下了被业界公认为的嘎特纳曲线。3G经历了全球性的3G泡沫破灭的苦恼,云计算也经历过云里来雾里去的质疑,物联网也经历过物联网物业化的一些讨论和非议。但是我们注意到大数据的发展,却呈现出稳步起飞的态势。分析其原因我个人认为,很重要的一点,就是无论是当年的3G,甚至最早的大哥大移动电话,还是后来的云计算、物联网,他们都有一个共同的特点,就是他们的问世和发展起步,技术驱动占了很大的因素。如今的大数据,就跟移动电话的2G,或者现在的宽带移动电话的4G起步一样,由于它有着巨大的市场驱动动力,所以它的起步呈现出稳步增长的态势。中午我碰到张秘书长他跟我讲了今天上午的大会,很多专家放开稿子在这儿交流,大数据经过2012年预热发展,很快就面向应用更深入的思考,安全问题怎么解决,怎么把它用起来,在哪些领域应用,这就展现出了大数据不同于物联网和云计算,它是技术换代和由技术驱动的,而它首先有市场的需求和驱动基础,所以呈现出了可期可待的势头。所以,我们在推动发展的过程中,业界有特别关注,如何去推进大数据的应用,就成为了大家很关注的话题。在大数据的应用领域中,其实智慧城市也是大家值得重点关注的。因为,我们国家的智慧城市近年来发展非常迅速,虽然在这个问题上我们国家没有像云计算、物联网那样发一个国家规划、国务院重大产业创新的文件,但是它的影响、驱动,实际上已经有了比较广泛的群众性社会基础。所以,大数据的应用在这个领域中,更多的引起了关注。为此,今年的大数据国际论坛,就把智慧城市和大数据创新,作为一个专门论坛在这里举行。我们的标题叫《大数据与智慧城市发展论坛》,邀请到了国内外知名企业、国家以及地方政府的高层次领导和九位专家,每个人20分钟,一共要做180分钟的演讲,然后我们还有半个小时的互动交流。让我们共同参与这场高水平的学术盛宴,希望通过大家的共同努力,为整合智慧城市的数据,提升智慧城市的大数据价值,推进大数据创新和智慧城市创新,发挥出积极的推进作用。下面,首先让我们有请中国工程院院士、中国通信学会副理事长方滨兴。方滨兴:大家好!今天很高兴有机会跟大家做个交流。因为我是从事信息安全的,那么就围绕着大数据安全做一些探讨。我一直在担任信息安全工程师的角色,我们针对的问题包括:内容安全、数据安全、运行安全、物理安全。作为任何一个信息系统,它都应该符合这么一种趋势,比如说物联网设备层的是传感器,系统层重点还是以传输为主,在数据层因为数据不能被别人截获,所以相当于是数据保护,在应用层,很多应用是反馈在控制上的,比如智能家电。同样云安全也是这个问题,在物理层就叫可靠的云,在系统层就是安全的云,不能被别人攻击了,在系统层应该是可信的,不能侵害别人,否则我把我的手机通讯录备份到云上,然后我用的时候再下载下来,结果我备份给你你把信息卖了那就不行。根据这一点,我说大数据也是这样的,因为大数据的量足够大,所以就需要很大的计算平台,这个平台往往就是云。在系统层有个计算的问题,因为你的计算要有很复杂的算法。你在数据层,数据从哪来的,数据本身会不会被云平台所篡改。所以,对大数据我是按照这个层面往下展开的。大数据刚才我说了,有这么四个层面:应用层、数据层、系统层、设备层。就设备层而言,它的核心问题在哪呢?你一定要放在云上,因为数据量大所以设备量也大,设备量大的话它的可靠性马上就降低,因为我们说平均故障率如果是个常数的话,量越多平均故障的概率马上就降低了,降低了怎么办?就需要应对个问题,所以我们说它在设备层上存在这样的安全问题。但是,这个安全问题本质上就是云的可靠度,我们说是在研究大数据安全,其实就研究到了大数据的环境,而大数据几乎没有概念,当然有的人说我有四大系统,就像美国的泰坦号,国家安全局去处理情报信息。大数据系统,由于这个系统资源太集中,所以攻击的效率就很高,黑客攻击一个小机器效率不高,如果能攻击到大数据所在的环境,那他所获得的数据机会就多,所以要抵抗高处不胜寒。再一个数据量大计算也复杂,这样会导致计算崩溃掉,还有个正确性、稳定性问题要考虑。所以,本质上它还是跟云有关。在数据层也一样,大数据放在哪呢?肯定放在云上,现在我们脑袋一想最大的平台就是云,不是简单一个单位能够承受得了的设备。放在云上数据所有权是你的,而承载运行者是别人,所以操作权和所有权是分开的,分开就麻烦了,云那边的把你的数据拿出来卖了怎么办?我们知道有300多个电信人员被抓,就是因为卖个人信息,你的个人信息从哪来的啊?如果从用户库里来的那不是很麻烦吗?所以,这个问题说来说去还是云平台的问题。但是有一点,这也是大数据支撑的,跟云平台有关。也就是大数据的可信,我们知道大数据的特点是数据来源比较庞杂,甚至数据来源不好确定源头,比如说社交网络,每个人都在说话,汇聚到一起就成了大数据。还有买卖沟通的信息,买完之后你要给他打分,或者我们住一个店然后你给他评价,确实是你评价的,但是有的是恶评,本来很好就说很差,或者本来很差,因为我是股东就说它很好,这叫恶评。还有应用层,很多人讨论的时候,大数据的安全似乎就是云的安全,你把云的安全解决了大数据的安全就解决了,我说那还不对,大数据本身肯定用于挖掘,我们说大数据有四个V,其中价值的意思是什么呢?它的价值被隐藏的很深你去挖掘吧,但你这么挖掘可能挖掘出隐私来。那怎么办?过去我们没有想到有隐私问题,但由于有了大数据隐私问题就冒出来了,我专门做过这个实验,到网上查,我所某项目获得了国家科学进步一等奖,那我就一定要把某找出来。如果只有变量没有公式是求不出来的,那我就找到这个所所有的人,出过什么文章,研究过什么,最后发现是一个军事的项目,就这样被挖掘出来了,全都是在公开信息上挖掘出来的。每个人都觉得我说个某就不是隐私了,其实通过所有信息就能够求解把这个秘密挖掘出来。物理层,这是环境安全问题,这么大一个系统宕机了怎么办?当然如果说数据还在就罢了,如果数据都丢了,这无疑就相当于911事件,我们知道911有个楼一半企业没有数据备份,这样就倒闭了,而有数据备份的企业照样还生存。所以说,如果说大数据给你,全依赖你,你宕机了,那我这个企业就完蛋了。那我们要解决什么呢?解决抗打击性,我知道你在打我但是打不垮,还有可生存能力,我可以降级使用或者从容应对等等。比如说,基于多副本的分布式容灾技术,我先设一个参数为3,当然也可以设参数为5,这样我每发一个数据就会自动拷贝,就形成了一种容灾体制。当然了,容灾这个环境是有个大前提的就是异构,你不能把所有的数据都放在这三个里,这会导致什么呢?导致相关性,如果ABC都换了这三个都没了,这个放在ABC那个要放在DEF,不会出现什么都没有的情况,所以这就叫异构。当我一个数据丢失另一个在别处的数据还存在,当然我还可以探查到丢失,比如说我在这儿,我说小于三了,那我就把谁小于三再补上,这就是非常典型的。再比如说亚马逊他们做的容灾系统,这个也是一样,我提交的信息给服务器,服务器要有N个备份服务器,你给它所有的信息都会做备份,当然了这个备份要有个大前提,你不能在同地备份,如果同地备份停电了出现问题就会全部没了,什么叫备份呢?用电都不能用同一家,这儿用火力发电那就要用水力发电,这边用曙光的设备那边就得用浪潮的时候,大家得异构,这样大家才不能出现同样的问题,这样备份才有意义。因为自己的特殊原因坏了的话,因为大家都是异构的,另外一个就不会跟你有同样的问题,这样就能保证信息的安全性。我们看可生存,这涉及到检测能力,Hadoop就有这个特性,你要实时告诉我你在运行,就会找闲置机器分配。但突然有一个系统崩溃了,崩溃了你就不会跟他说话了,他一收集有一个没跟他说话,他就会查出是不是向它分配任务了,这样就可以自动把有问题的切除了,让它以后不再参与。我们OpenStack有个高可靠性服务,它的特点是大家完全同步运行,我这个队列做的什么事儿那边实时同步备份,这样只要你出现了问题,把你切掉另一个自动就会完全无缝备份。运营层,我们有计算安全的问题,我们说Google就出现过这个问题,Google邮箱因维护不当爆发了全球性故障,当然他没有特别公开的讨论这个事件,从报道能够看出来,原因就是为欧洲的大数据中心进行维护的时候,有些新的程序有副作用,这个副作用会扩散,结果导致出现这样的故障。那么我们计算安全要解决什么问题呢?因为你的信息系统装了大数据,所以有可能吸引黑客,所以你要能够抗攻击。高可用,高负荷的时候你也要保证能运行。再一个要保安全,你的软件要绝对稳定,我们知道历史上出现过很多这样的事情,整个登录的系统崩溃了,所以大家都能登机,这样就导致了很大的问题,这都是软件带来的问题。举个高可用的例子,同样Hadoop在传输的时候,首先这是一种断线还能续传的,你的系统如果被攻击了,他就不能够提供服务,这种情况下系统就会自动重新定位,而且会记录你刚才传到什么程度,然后继续会续传,这样就解决了问题。再比如说抗攻击的问题,我这个系统一定要有互相摆渡的能力,一旦我发现某个节点不响应,信息一定要全面转向另一个节点,因为我们知道指针是有互相定向的,这样这些定向就都得通知到,这样就解决了问题。再一个高可用的例子,我们叫做元数据的节点,基于位置感知的失效恢复。我的数据存储本地、远地都要有父本,而且这样才能保证某一个坏了那个还存在。这样的话,一旦我写信息的时候就要按照父本,本地、远程都有备份。这样,当我的客户要读取这个模块的时候,首先是就地读取,如果读不到就会另找路径读取,这个父本还要从远程传回过来。再有一个高可用的例子,我们说这是一个基于定向和操作系统的日志可用性。也就是说,因为它是假设软件出问题,而不是假设硬件出问题,这个软件出问题另一个软件还在,所以我们在这儿每一件是要把元数据识别出来,某一个软件出了问题,它就会把这个原始信息恢复回去。再看数据可信的问题,我把数据给你,我相信你,结果被别人拿走了,所以可信度就降低了。所以,要解决的是加密性问题,我这个数据你拿走了也不能利用。再有就是可用性,你这个原始数据应该是可用的,不应该是恶意的。还有密文运算,现在我们只能做算数运行,比如我们要做PC操作现在还不支持,比如我想在密文里搜索我想要的东西那还搜不到,如果能搜到就说明这是假的加密。再有是隐私保护的问题,比如我的数据都放在这里当然都是加密的,允许两个用户,比如说北邮最重要的信息放在里面了,所以校长们都可以读,但是有一天我辞了,换了一个校长,所以我就不能再读了,我不能再读怎么办呢?难道你们再重新做加密?这样就太麻烦,所以现在采取的办法就是再加密,完整云嘛,存储量我们假设是无限的,二次加密就不给上一任校长钥匙了,北邮这些重要信息就看不见了。完整性的问题,主要担心的是我给你数据你改了几个,这怎么办呢?所以我就说,当时我说我用我的笔记本,你的笔记本和我的不兼容,所以我没法显示,所以演讲最好拿自己笔记本自己做的东西才可以显示。我这儿想说的是什么呢?我要关心你的数据有没有变化?怎么关心呢?我把我的数据加密给你,同时产生100个数据数,然后我把每个数据数和我做个加密留下来,如果他把其中改了任何一个,他的结果一定跟我不一样。那为什么通过数据数的方法呢?直接给我不就行了吗?因为我对云不信任。我得看看这个数据是不是还在你手里?首先我得做加密,但这是片段,因为我不知道哪块在哪块不在,出现了问题,一般云是允许出现了一些小鼓掌的,