网络大数据应用提出的挑战性问题INSTITUTEOFCOMPUTINGTECHNOLOGY李国杰中国科学院计算技术研究所2012.5.22,香山科学会议1网络大数据的广泛应用2信息社会的发展变化60年前,数字计算机使得信息可读;20年前,Internet使得信息可获得;10年前,搜索引擎爬虫将互联网变成一个数据库;现在,Google及类似公司处理海量语料库如同一个人类社会实验室。数据量的指数级增长不但改变了人们的生活方式、企业的运营模式,而且改变了科研范式。过去几十年,我们经常讲发展信息科学技术和产业,但主要的工作是电子化和数字化。现在,数据为王的大数据时代已经到来,我们需要完成观念上的重大转变:将关注的重点真正落在数据(信息)上,计算机行业要转变为真正的信息行业。计算机要从追求计算速度转变为大数据处理能力,软件要从编程为主转变为数据优先。3什么是大数据?大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)大数据=“海量数据”+“复杂类型的数据”大数据的特性(Volume,Variety,Velocity)–数据量大:PB、TB、EB、ZB级别的数据量–种类多:包括文档、视频、图片、音频、数据库、层次状数据等–速度快:数据生产速度很快;对数据处理和I/O速度很快涉及多个领域–包括天文、气象、基因、医学、经济、物理、互联网等–本次会议重点讨论与人类社会活动有关的网络数据4目前大数据的规模IDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB(1021),其中75%来自于个人。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资自2005年以来却反而上升了50%。数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。5大数据总量增长态势(数据摩尔定律:两年翻一番)6大数据公司的现状Google公司通过大规模集群和MapReduce软件,每天处理超过20PB的数据,每个月处理的数据量超过400PB。百度的数据量:数百PB,每天大约要处理几十PB数据,大多要实时处理,如微博、团购、秒杀。Facebook:注册用户超过8.5亿,每月上传10亿照片,每天生成300TB日志数据淘宝网:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生约20TB数据。Yahoo!的数据量:Hadoop云计算平台有34个集群,超过3万台机器,总存储容量超过100PB。(按照欧盟的规定,不能存储超过一年的用户数据)。Gartner公司对未来五年的预测:到2015年,85%的世界五百强企业如果不采取大数据的策略将失去竞争力!7海量数据创造的巨大价值Dataisthenext“IntelInside”.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的创始人TimO‘Reilly8美国政府启动“BigData”计划2012年3月29日,美国政府启动“BigDataResearchandDevelopmentInitiative”计划,6个部门拨款2亿美元。这是一个标致性事件,说明继集成电路和互联网之后,大数据已成为信息科技关注的重点。transformourabilitytouseBigDataforscientificdiscovery,environmentalandbiomedicalresearch,education,andnationalsecurity.preparethenextgenerationofdatascientistsandengineersseekinga100-foldincreaseintheabilityofanalyststoextractinformationfromtextsinanylanguage9网络大数据的特点(1)多源异构:描述同一主题的数据由不同的用户、不同的网站产生。网络数据有多种不同的呈现形式,如音视频、图片、文本等,导致网络数据格式上的异构性。(2)交互性:不同于测量和传感获取的大规模科学数据,微博等社交网络兴起导至大量网络数据具有很强的交互性。(从交易到交互)(3)时效性:在网络平台上,每时每刻都有大量新的网络数据发布,网络信息内容不断变化,导致了信息传播的时序相关性。(4)社会性:网络上用户既可以根据需要发布信息,也可以根据自己的喜好回复或转发信息,因而网络数据成了对社会状态的直接反映。(5)突发性:有些信息在传播过程中会在短时间内引起大量新的网络数据与信息的产生,并使相关的网络用户形成网络群体,体现出网络大数据以及网络群体的突发特性。(6)高噪声:网络数据来自于众多不同的网络用户,具有很高的噪声。10从企业智能(BI)到个人消费智能建立数据仓库的主要目的是为大型企业的业务人员提供智能。现在,一种新型消费者正在兴起,许多人热衷于自己动手使用技术工具,利用数据来制定个人决策。移动设备的普及和消费行为的变革催生了市场对消费智能的需求,消费者希望直接访问数据,制定相应决策。网络大数据的处理不仅仅局限于数据中心和大企业,中小企业和个人消费者都可能需要进行大数据处理。因此,在简易的设备和系统上处理大数据成为值得关注的科学技术问题,大数据分析算法和软件的易用性也成为新的需求。Mapreduce和Hadoop的广泛流行值得深思。11对本次香山科学会议的期望本次会议将对海量网络数据研究的背景、需求和现状进行全方位深入而广泛地讨论,尽可能形成对网络数据处理潜在问题、发展方向和面临挑战的共识,为促进形成网络数据科学(一门新型交叉学科)奠定基础。探讨网络数据科学的学科基础及理论边界,讨论其独立成为一门新型学科的可行性;从社会科学、心理学、经济学、信息科学等学科领域探讨网络数据的产生、扩散、涌现及其影响力评价的基本机制,从社会、经济和技术层面提出网络数据涌现规律与价值的度量手段;探讨海量网络数据存储、管理、计算的系统体系架构,分析适用于海量网络数据处理的新模型、新型计算范式以及网络化算法设计与算法优化的基础理论。12网络大数据带来的技术挑战13美国政府的大数据计划和Google等大公司目前最重视的都是数据工程而不是数据科学,主要考虑大数据分析算法和系统的效率。我们也应把主要精力放在应对大数据工程的技术挑战上。面对大数据应用,技术走在科学前面,技术上解决不了的问题就构成科学挑战问题。本次会议的重点不是讨论数据挖掘等技术问题,而是讨论大数据带来的科学挑战。企业中80%的数据是非结构化或半结构化数据,(只有20%的数据是结构化的)。当今世界结构化数据增长率大概是32%,而非结构化数据增长则是63%,至2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上。大数据的技术挑战主要是指非结构化数据。重点是应对大数据带来的技术挑战14美国政府“BigData计划”部分内容国防部高级研究计划局(DARPA)多尺度异常检测项目解决大规模数据集的异常检测和特征化。网络内部威胁计划通过分析图像和非图像的传感器信息和其他来源的信息,进行网络威胁的自动识别和非常规的战争行为。MachineReading项目旨在实现人工智能的应用和发展学习系统,对自然文本进行知识插入。Mind‘sEye项目旨在建立一个更完整的视觉智能。能源部(DOE)从庞大的科学数据集中提取信息,发现其主要特征,并理解其间的关系。研究领域包括机器学习,数据流的实时分析,非线性随机的数据缩减技术和可扩展的统计分析技术。生物和环境研究计划,大气辐射测量气候研究设施系统生物学知识库对微生物,植物和环境条件下的生物群落功能的数据驱动的预测。15国家人文基金会(NEH)分析大数据的变化对人文社会科学的影响,如数字化的书籍和报纸数据库,从网络搜索,传感器和手机记录交易数据。美国国家科学基金会(NSF)推进大数据科学与工程的核心技术,旨在促进从大量、多样、分散、异构的数据集中提取有用信息的核心技术。深入整合算法,机器和人,以解决大数据的研究挑战。开发一种以统一的理论框架为原则的统计方法,可伸缩的网络模型算法,以区别适合随机性网络的方法形成一个独特的学科包括数学、统计基础和计算机算法。开放科学网格(OSG),使得全世界超过8000名的科学家合作进行发现,包括寻找希格斯玻色子(“上帝粒子”,宇宙中所有物质的质量之源)。美国政府“BigData计划”部分内容16数据无处不在,但许多数据是重复的或者没有价值,未来的任务主要不是获取越来来越多的数据,而是数据的去冗分类、去粗取精,从数据中挖掘知识。数据量大到一定程度,数据压缩就必不可少。去重、压缩和归档技术是大数据处理技术中不可或缺的组成部分。“大数据”有简单和复杂之分。个体间联系很少,只是个体数量庞大的“大数据”问题并不难解决;组合爆炸的困难产生于个体之间的联系,社会网络的复杂性来源于社会联系。“小世界”也会产生“大数据”。几百年来,科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”,现在要做的事情是“从厚到薄”,要把大数据变成小数据。变“大数据”为“小数据”17大数据分析的误区样本缺乏代表性统计结论依赖于样本的代表性。要确保样本数据代表研究总体,否则分析结论就缺乏坚实的基础。事物是变化的不能只进行一次分析,要持续验证之前的结论。理解数据方式有多种方式一组数据可以提供多种类型的信息。需要找到不同的解释方式,并加以分析。错误和偏差不能只使用一种方法,要用事实来检验假设是否奏效。18数据管理的挑战性问题大数据分析是否有价值,关键在于数据本身的的“质量”,数据量的多少不一定是决定因数。要在获得“好”的数据上下功夫。数据敏感性分级问题:不同数据产生的价值是不同的,不同时期产生的价值也不一样,必须要定义哪些数据有价值,哪些没有价值,需要定义价值的时间期限。热点数据问题:热点数据在不断变化。根据热点的程度和时间调整访问权限。数据质量管理:数据保真度、数据的相关性、数据的有效性、数据的有效期限等。19需要高扩展高可用的数据分析技术传统的关系数据库无法胜任大数据分析的任务,因为并行关系数据库系统的出发点是追求高度的数据一致性和容错性。根据CAP理论(Consistency,Availability,tolerancetonetworkPartitions),在分布式系统中,一致性、可用性、分区容错性三者不可兼得,因而并行关系数据库必然无法获得较强的扩展性和良好的系统可用性。系统的扩展性是大数据分析最重要的需求,必须寻找高扩展性的数据分析技术。以MapReduce和Hadoop为代表的非关系数据分析技术,以其适合大规模并行处理、简单易用等突出优势,在互联网信息搜索和其他大数据分析领域取得重大进展,已成为目前大数据分析的主流技术。MapReduce和Hadoop在一些应用的性能上还比不过关系数据库,还需要研究开发更有效、更实用的大数据分析和管理技术,需要发展像关系数据库这样的理论来指导海量非结构化Web数据的处理。20必须研究数据表示方法我们目前表示数据的方法,不一定能直观地展现出数据本身的意义。要想有效利用数据并挖掘其中的知识,必须找到最合适的数据表示方法。我们在一种不合适的数据表示中寻找大数据的固定模式、因果关系和关联时,可能已落入固有的偏见之中。数据表示方法和最初的数据填写者有着密切关系。如果原始数据有必要的标识,就会大大减轻事后数据识