论坛引用格式:胡晓峰,贺筱媛,徐旭林.大数据时代对建模仿真的挑战与思考||中国科协第81期新观点新学说学术沙龙综述.中国科学:信息科学,2014,44:676{692,doi:10.1360/N112014-00013中国科学:信息科学2014年第44卷第5期:676{692大数据时代对建模仿真的挑战与思考|{中国科协第81期新观点新学说学术沙龙综述胡晓峰,贺筱媛,徐旭林国防大学信息作战与指挥训练教研部,北京100091*通信作者.E-mail:xfhu@vip.sina.com收稿日期:2014{01{09;接受日期:2014{02{27国家自然科学基金(批准号:61174156,61174035,61374179,61273189)资助项目摘要2013年9月中国系统仿真学会承办了中国科协第81期新观点新学说学术沙龙,沙龙主题为\大数据时代对建模仿真的挑战与思考,重点对\以大数据为基础的第四范式是否成立?大数据方法对仿真建模带来了什么挑战?大数据方法对仿真建模带来了什么机遇?等三个议题进行了研讨,本文对与会专家的主要观点和研讨取得的主要成果进行综述.关键词大数据第四范式建模仿真复杂系统1引言近两年来,\大数据一词被广泛提及,甚至有被滥用的嫌疑.大数据究竟会对科学研究带来哪些影响,尤其是对与之密切相关的建模仿真领域带来哪些困惑、挑战和机遇,很值得我们认真加以研究探讨.为此,2013年9月14日至15日,由中国科协主办、中国系统仿真学会承办的\大数据时代对建模仿真的挑战与思考新观点新学说沙龙(简称\双新沙龙)在吉林延吉召开.由中国工程院李伯虎院士和国防大学胡晓峰教授担任本次沙龙的领衔科学家,与来自全国近20余家科研院所的专家学者一起,从\产、学、研、用等多个方面,围绕\大数据时代对建模仿真的挑战与思考这一主题,就\以大数据为基础的第四范式是否成立?大数据方法对仿真建模带来了什么挑战?大数据方法对仿真建模带来了什么机遇?等三个重点议题进行了深入地探讨.本文将介绍与会专家的主要观点,对研讨取得的主要成果进行综述.2问题的背景2.1大数据及产生背景什么是大数据?大数据的主要特性是什么?这些问题至今还没有准确、统一的定义.通常认为,大数据具有\4V特性:一是规模性(Volume),即体量大,数据量级可达TB,PB乃至EB以上;二是多中国科学:信息科学第44卷第5期样性(Variety),信息的种类多、异构,可以多种信息载体形式存在;三是高速性(Velocity),是高速率的流数据,要求处理速度在合理时间之内;四是价值性(Value),或称为真实性(Veracity),即大数据往往含有噪声,具有高价值低密度的特点,或指数据包含的价值具有真实性[1;2].此外,维基(Wiki)百科从处理方法角度也给出了大数据的定义,认为大数据是指常规软件工具去捕获、管理和处理数据所耗时间超过可容忍时间限度的数据集.大数据的产生主要有以下几个方面的原因:一是信息技术的发展创造了数据产生和处理条件.计算环境演进使数据量高速增长,云计算使数据存储和处理能力不断得到增强,网络、存储设施、数据库等技术的发展,以及目前已逐步得到广泛应用的物联网、RFID技术、视频监控等技术的普及与应用,为人类从大数据中筛选信息、洞察世界提供了新的可能.二是互联网运用的广泛普及,带来了大量的数据,包括社交网络、博客、微信、基于位置服务、搜索服务等等.有专家称,近两年产生的数据等于2010年前人类产生数据的总和.三是各类大数据应用产生了很好的效果并提出了更高的要求.对数据的深度挖掘所获得的出人意料的效果,已超越了早期以\啤酒与尿布等经典案例为代表的数据挖掘,出现了得到各界广泛关注的\纸牌屋、\点球成金等新的传奇.2.2大数据的影响及反思大数据现已得到各界的广泛关注.奥巴马政府2012年3月发布的\大数据研究与发展倡议,将其作为美国未来发展的重要战略,启动了\大数据发展计划,奥巴马政府冀望于通过该计划的实施,重蹈\信息高速公路计划带来互联网霸权的覆辙,再次获得信息技术领域广泛优势.此次斯诺登事件的曝光,说明了美国的互联网霸权能在其他国家浑然不觉中就将其置于非常危险的境地,而现在美国又将目光瞄准大数据这一新的未来领域,正是在为创造未来的大数据霸权奠定的基础.大数据在经济领域也引起了格外关注.在2012年1月举行的达沃斯经济论坛上,专门以\大数据、大影响,全球开发的新可能为主题发表了大数据报告,受到各国首脑和企业家的普遍关注.大数据问题也引发了学术界的普遍关注.2008年,英国《自然》杂志推出大数据专刊,专门探讨\PB时代的科学以及科研形态的变化,指出:\数据为准绳的理念指导,以及强大的计算能力支撑,正在驱动一次科学研究方法论的革命.美国《科学》杂志也在2011年推出专刊\DealingwithData,围绕\数据洪流展开讨论,将大数据深度分析作为未来研究的重要突破点.此外,各类学术机构也纷纷组织各种研究和探讨,发表研究报告、召开各种会议、成立大数据组织等等,相关学术研究正如火如荼的展开.但是,在大数据得到各界热棒的同时,应冷静思考并回答以下3个方面的疑问:一是大数据与以前一些数据概念有哪些不同?例如,大数据与早期提出的海量数据(massivedata)、超大规模数据(verylargedata)等有何不同?二是大数据方法与过去的数据方法有什么差异?三是大数据应用与过去基于数据分析的应用又有什么不同?例如,与过去的商业智能(businessintelligence,BI)等一类基于数据分析的应用有何不同?2.3大数据的主要特征大数据带来了全新的研究思维和方式,其革命性特征主要有以下4个方面.特征一:从局部到全体,将网络化的大数据作为分析对象.首先,大数据是直接面向全体的、网络化的数据分析,其中,\数据大是关键,不象过去的数据分析,只是对少量样本数据进行分析,而直接面向整体数据,或者叫做所有数据,甚至是全部的数据分析;677胡晓峰等:大数据时代对建模仿真的挑战与思考||中国科协第81期新观点新学说学术沙龙综述\网络化是核心,它本质上终结了还原论的分解方法,需从整体关系考虑.其次,大数据在规模、类型、模式、工具、对象等方面,都与传统的数据库和分析方法有所不同.一是大数据将\局部和明确的数据转化为\所有几乎全部且不明确的数据.有专家比喻说,过去的数据处理象是在池塘里抓鱼,对池塘里投放了多少鱼、能收获多少是心中有数的,而现在大数据处理就象在\大海里捞鱼,有鱼与否、能捞到什么鱼都不知道.二是大数据变\脱机处理为\联网处理,因与网络的关系极为密切,处理的同时数据还可能变化.特征二:从单纯到繁杂,接受数据的繁杂和不精确.大数据以非结构化、种类繁多的数据为主,抛弃了对有条理和纯净数据的偏爱,容忍凌乱数据;大数据不以\匹配性查找、增删改管理为数据库应用目标,\海量、\超大规模都只是数量概念,不说明其他特征.大数据的不确定性和涌现性特点比较突出.它的数据来源不确定、处理模型不确定、模型参数学习也不确定,它能体现演化模式的涌现、群体行为的涌现、甚至网络智慧的涌现.特征三:从因果到关联,更强调相关性而非因果性.大数据方法最重要的思想是放弃对事情原委的追究,而代之以对相关性的接纳,因此,它更适合于回答\是什么,而不是回答\为什么,这就为\知其然而不知其所以然的研究找到了依据,即直接从大数据中获取答案.之所以这样做,是因为许多事物的因果关系难以明确,或找不到,或根本不存在,大数据方法认为,海量数据的相互关系已经足以产生新的发现,这可能是对牛顿、爱因斯坦体系下因果关系明确的还原论思想的一种完全颠覆.正因为如此,美国、欧盟展开了20余项研究计划,如\大脑扫描计划、\星球皮肤计划、\太空追踪计划等等,都或多或少基于这一思想.特征四:从简单到深入,更强调深度分析和间接分析.大数据将已有的简单分析方法发展为深度分析方法.简单数据分析方法是指对已有数据的分析,如:商业智能对因果关系的分析.但大数据具有深度分析、直接分析、外推分析等特色,可提供更多更好的数据分析功能,并由数据量决定分析结果.如:苹果公司的智能语音助手SIRI,可基于联网数据实现数据学习功能;外延分析可获得超出分析初衷的结果,如:基于搜索词的流感趋势预测;按需分析可先有意识地产生所需数据再进行分析,如数据客等.3以大数据为基础的第四范式是否成立?3.1科学研究的范式科学研究的范式(Paradigm)概念是ThomasSamuelKuhn在1959年《科学革命的结构》一书中首先提出的.范式是指那些在一段时间内为科学家集团所共同接受的科学信念,是一组假说、理论、准则和方法的总和,用于指导现实科学研究.一旦范式无法指导新的研究就会发生危机,产生出新的科学成就,这就是科学革命.科学革命的结果就是一种新范式的诞生,这就是\范式转换.目前已存在并得到公认的科学范式包括[3]:第一范式是科学实验,通过观测、记录、验证得出发现,如:伽利略斜塔坠球实验、天文观测等;第二范式是理论推导,通过逻辑推导、数学证明得出发现,如爱因斯坦的相对论;第三范式是科学计算(包括建模仿真),通过科学计算和模型仿真得出发现.第四范式是由微软公司JamesGray最早提出的,他认为,数据探索性研究方式,即基于数据密集型的科学发现,是未来一个非常重要的趋势.这些科学研究从以数学模型计算为中心的方式,转变为对海量数据处理为中心的方式.在数据达到一定规模之后,科学研究模式也会发生从\量变到\质678中国科学:信息科学第44卷第5期变的根本性转变,这就是一种新的范式的诞生.因此,它可以独立于基于数学模型的科研形式,单独成为一种新的科研范式[4].3.2对第四范式是否成立的主要观点大数据作为第四范式是否成立?以大数据为基础的第四范式所产生的实质性变化确实需要\范式转换,还是对第三范式的一种扩充,或仅仅是一种特殊形式?如果成立,它应该包括哪些内容?围绕上述问题,与会专家展开了激烈的争论,主要有以下3种观点.3.2.1第四范式成立在传统建模仿真研究中,数据只是为模型的仿真运行试验提供的基础条件,如果说模型是\引擎,数据则是\汽油,数据是模型最重要的组成部分.而现在数据可以成为发现的主体,且数据的来源可以多种多样,可以通过仪器采集、网络收集、仿真系统生成等方式获取数据,之后数据就可以脱离模型成为科学发现的主体.只要数据足够大,只靠数据就可以完成科学发现,因此不再需要数学模型.这就是所谓的\数据优先模式.《连线》主编ChrisAnderson就曾断言:\数据的洪流使传统科学方法变得过时,\相互关系已经足够,没有了具有一致性的模型、统一的理论和任何机械式的说明,科学也可以进步.也就是说,建模方法对于科学而言并不是必须的,大数据方法就是一种新的科研范式.针对上述观点,赞同第四范式的与会专家认为,大数据开辟了机器学习和智能科学研究的新途径,通过大数据挖掘、基于多源数据认知分析,将促进了认知分析学发展、扩展智能化应用,彻底改变人们科研、学习、生活、工作模式.大数据将对认知理念和研究方式产生革命性影响,引发科学研究和思维方式的大变革,颠覆前三种范式的研究模式和思维理念.相应的,基于网络科学的数据科学研究将迅速崛起,数据价值挖掘和利用将会促进新兴科学发展.因此,以大数据为基础的第四范式将成为一种全新的科学研究体系,并逐步形成理论、方法、技术的完整研究体系.还有专家对大数据带来的革新性变化进行了总结.一是研究对象具有革新性.大数据最具代表性的研究对象应是具有\人、机、物三者融合特点的.大数据是在信息技术高速发展之后出现的,信息技术(informationtechnology,IT)的普及和发展为它提供了采集、存储、传输、处理等技术条件,使对信息技术的关注,从过去重点对\T(技术)上升到\I(信息),即通过\I体现信息技术应用的最终成果,反映人类世界和物理世界因信息技术发展而产生的逐步融合,\人、机、物三者中的这个\机,正是实现三位一体融合的核心.此外,大数据