中国大数据研究现状与发展中美工程技术研讨会报告人:杨善林2014年5月27日一对大数据的认识二大数据的研究概况三大数据中的科学问题四大数据与管理决策报告提纲中国大数据研究现状与发展实践先于理论,理论指导实践。在提出大数据概念之前,实际上已有很多关于大数据的获取、存储、处理和利用方法的研究成果。这说明实践是先于理论的,当然深入的理论研究一定能够促进大数据应用实践更好更快的发展。一对大数据的认识关于大数据的神奇传说①谷歌通过观察人们在网上的搜索记录,提前几周成功预测了2009年在美国爆发的甲型H1N1流感。②埃齐奥尼利用大数据创立了一个机票价格预测系统,准确度高达75%,平均每张机票可节省50美元。一对大数据的认识③斯洛登事件。2013年,斯诺登揭露了美国正在实施的“棱镜”计划。通过大数据分析对全球实施监听,为安全部门先发制人的预防恐怖主义和危害美国利益的行为,提供了前所未有的可能。④IBM智慧的分析洞察。每个月,全球发布10亿条Twitter信息和300亿条Facebook信息。预计到2020,总量增长约44倍。基于大数据的企业数据分析正成为IBM的利润增长。一对大数据的认识《大数据时代》中的主要观点:大数据引起的思维变革①在大数据时代进行抽样分析就像是在汽车时代骑马一样,我们分析数据会完全抛弃样本分析,而关注数据的总体。即“样本=总体”。②在大数据时代,我们不再担心某个数据点对整套分析的不利影响,我们要做的就是要接受这些纷繁的数据并从中受益,而不再以高昂的代价消除所有的不确定性。③大数据时代对我们的生活,以及与世界交流的方式都提出了挑战,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。一对大数据的认识总之,我们需要改变我们的思维方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。——引自《BigData:ARevolution—ThatWillTransformHowWeLive,WorkandThink》一对大数据的认识关于大数据的定义1.美国国家科学基金委(NSF)的定义大数据是指由科学仪器、传感器、网上交易、电子邮件、视频、点击流和/或所有其它现在或将来可用的数字源产生的大规模、多样的、复杂的、纵向的和/或分布式的数据集。这个定义指出了大数据是一类数据集,并指出了大数据现在和将来的数据来源,以及大数据具有大规模、多样性、复杂性、分布性、关联性等数据特征。一对大数据的认识2.麦肯锡公司(McKinsey&Company)的定义大数据是一个大的数据池,其中的数据可以被采集、传递、聚集、存储和分析。目前,大数据是全球经济每个部门和功能的一部分。与固定资产和人力资本等其它重要的生产要素类似,没有数据,很多现代经济活动、创新和增长都不会发生,这正成为越来越普遍的现象。这个定义指出大数据是一个大的数据集合,它与固定资产、人力资本一样,也是一种生产要素,并能支持现代经济增长和创新活动。因此,大数据研究的关键科学问题应该是大数据与经济增长和创新活动的关系。一对大数据的认识3.IBM公司的定义可以用四个特征来描述大数据,即规模性(Volume)、高速性(Velocity)、多样性(Variety)和真实性(Veracity),这些特征相结合,定义了IBM所称的“大数据”。这个定义显然也是把大数据定义为一种数据集合,而且这些数据具有规模性、高速性、多样性和真实性。所以,大数据研究所关心的科学问题就应该是对结构多样性的大数据能够进行高速存储和高速处理的技术。一对大数据的认识4.维基百科(Wikipedia)的定义大数据是指规模庞大且复杂的数据集合,很难用常规的数据库管理工具或传统数据处理应用对其进行处理。其主要挑战包括数据抓取、策展、存储、搜索、共享、转换、分析和可视化。显然这个定义是从大数据的处理方法和处理工具的视角来看待大数据的,根据这个定义,大数据研究应该围绕大数据的快速处理方法和软件工具的研发来展开,研究的目的就是要得到大数据的快速处理方法和非常规的软件工具。大数据始终在“大数据”和“非大数据”之间不断的转换。一对大数据的认识从管理的角度看大数据定义:大数据是一类能够反映物质世界和精神世界的运动状态和状态变化的信息资源,它具有决策有用性以及海量性、异构性、增长性、复杂性和可重复开采性,一般都具有多种潜在价值。这个定义把大数据看做是一类资源,它具有决策有用性,对经济社会发展具有重要的潜在价值。按照大数据的资源观,大数据研究的关键科学问题应该包括大数据的获取方法、加工技术、应用模式以及大数据的产权问题、相关的产业发展问题和相应的法律法规建设问题。一对大数据的认识大数据的来源和应用领域大数据具有广阔的应用前景。数据驱动的决策由来已久。数据+决策能力=决策。生产制造、物流交通、商务过程、资源环境、教育文化、医疗卫生、社交信息、生命科学、天文地理、航空航天、政府部门、国家安全等领域既是大数据的来源又是大数据的应用领域。一个应用可能对应多个来源。一对大数据的认识大数据与物联网、云计算物联网、云计算、大数据都是依托互联网并相互依存的有机整体,是信息技术的新发展。对大数据来说,物联网既是数据来源,又是数据用户,云计算则是大数据存储、处理的一种方式。随着物联网和云计算技术的发展,大数据应用和大数据产业一定能够更快的发展。一对大数据的认识国际大数据研究状况二大数据研究概况美国:《大数据研究与发展计划》(2012)主要任务:“通过收集庞大而复杂的数字资料,加速在科学、工程上发现的步伐,强化美国国土安全,转变教育和学习模式。利用大数据技术实现在科研教学、环境保护、工程技术、国土安全、生物医药等方面的新突破…”英国:商业、创新和技能部宣布将注资1.89亿英镑用来发展大数据技术(2013)主要任务:“政府在计算基础设施方面投入巨资,加强数据采集和分析,吸引企业在这一领域的投资,从而在数据革命中占得先机。在本届议会期满前,开放有关交通运输、天气和健康方面的核心公共数据库…”法国:《数字化路线图》(2013)主要任务:“在2013年投入1150万欧元,用于7个大数据市场研发项目,目的在于通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展…”日本:《新一轮IT振兴计划》(2012)主要任务:“在2012新一轮IT振兴计划中,将发展大数据作为国家战略层面提出,重点关注大数据应用技术,如社会化媒体等智能技术的开发、新医疗技术的开发、以及交通拥堵治理等公共领域的应用。…”大数据与企业管理2012IBMGlobalCEOSurvey(调研1700多位来自全球64个国家的CEO)指出,业绩出众的企业能够访问更多数据,更善于挖掘出有意义的客户洞察。73%的CEO将对组织进行重大投资,以期从大数据中挖掘出更多的有用信息。IBM报告://www.ibm.com/smarterplanet/us/en/smarter_cities/overview/二大数据研究概况智能建筑与城市规划环境能源与水资源交通教育健康保健社会事业公共安全政府和机构管理我国大数据研究的投入二大数据研究概况项目数量项目举例国家重大科技专项5智能海量数据资源中心智能海量数据资源应用服务研发舆情分析与检测973计划13社交网络、脑机融合、智能感知、网络信息空间大数据863计划5中文搜索引擎数字媒体处理与服务技术大规模网络数据集成与挖掘技术科技支撑计划(2015)2生产性服务业自主网络品牌电子商务物联网“十二五”发展规划3海量数据存储、数据挖掘图像视频智能分析国家自然科学基金面上项目300重点项目20重大项目2杰出青年基金12创新研究群体4商务管理公共管理大数据大数据与智能交通二大数据研究概况车猫:采集和传输车辆信息云中心:存储和计算交通大数据智能服务:车辆管理、车辆保险信息管理、5S信息服务等支持车辆:引擎优化、路径规划、节能减排支持用户:保险、行为分析、电子商务、位置服务支持政务:市政规划、环保大数据与健康卫生二大数据研究概况临床门诊数据(医疗电子记录、医学影像等)医患投诉与费用数据(医疗服务费、补偿费等)医药研发数据(临床试验、筛查数据库等)患者行为与情绪数据(患者行为表现、购物记录、健康信息记录等)健康大数据大数据与社会治理二大数据研究概况社会治理大数据是多维度的、鲜活的,能够对居民服务、社区维稳、重大事件或疫情预警发挥重大作用。大数据中蕴涵的丰富知识也会对民意民情调查、政策制定、政府决策提供更多的科学依据,为企业创造更多的商业机遇。三大数据中的科学问题各警种共享数据多维分析情报挖掘事件预警案件串并分析专题分析公安数据社会数据互联网数据数据管理数据整合数据仓库数据服务数据应用应用访问数据中心情报中心领导决策网安技侦服务平台服务接口权限管理服务监控日志数据源……(1)大数据的资源获取问题大数据应用的首要步骤就是数据的获取问题。大数据的来源是多方面的,既包括搜索引擎、社交网络和电子商务等互联网的产生的数据,也包括物联网、智能楼宇、智能交通、智慧城市、智慧地球等方式产生的数据。有效获取各种方式产生的大数据是应用大数据和实现其价值的前提和基础。三大数据中的科学问题目前,大数据掌握在大型企业或其它社会组织的手中,如谷歌、百度、淘宝等互联网公司,电网公司、电信公司、银行机构、政府部门等企事业单位。大数据是由很多用户产生的小数据组成的,而谁应该享有大数据的所有权或使用权,产品或服务的提供者还是用户?这是大数据产业发展需要明确界定和解决的问题。通过界定大数据产权关系,可将大数据分类为:公共数据、部门数据和私人数据等。三大数据中的科学问题(2)大数据的处理技术问题大数据的加工处理需要一套完整的基础性处理技术系统,例如:多源异构大数据感知与融合、非结构化处理和可视化分析、近似和在线算法和体系结构设计、分布式实时计算等新一代信息技术以及超高维大数据的特征度量与抽样、异构大数据的统计推断体系、适用于噪声大数据的因果性挖掘等新一代数学与统计技术。三大数据中的科学问题在基础处理技术之上,大数据的加工处理还需要应用驱动的处理技术。如为解决市场营销、商务智能、社会安全、舆情监控等方面问题,所需要的特定技术。例如:对于社区管理大数据的处理,需要结合管理对象和管理主体的特征以及社区服务与管理的主要任务,研究社区服务与管理的语义标注与语义聚合技术、信息安全与隐私保护技术、多粒度知识发现与动态决策支持技术以及需求洞察与企业服务创新等。三大数据中的科学问题(3)大数据的应用模式问题大数据的主要是用来“预测”,而预测的目的是决策。那么,大数据理论与决策科学如何结合?大数据理论与决策科学的结合可以分为三种方式:(1)在决策科学的框架内来研究大数据中的知识挖掘问题(嵌入式应用);(2)从大数据中挖掘出的知识与领域科学的共同作用(合作式应用);(3)大数据引起决策科学的变革(主导式应用)。三大数据中的科学问题三大数据中的科学问题问题大数据资源数据+模型决策实施开源数据传感器社交网络移动应用收集组织分析摘要综合优先级数据信息知识决策者实施决策环境反馈(4)大数据的产业发展问题大数据的产业链包括数据采集、存储、挖掘、管理与应用等环节,可以提供存储空间、计算能力、数据分析和数据增值等服务。大数据产业链会促进原有相关产业的发展,如大型数据计算或存储管理、分布式并行计算的软硬件设备提供商等产业。三大数据中的科学问题大数据产业链还会催生新的产业形成和发展,如以经营大数据为主要业务的大数据供应商、以提供基于大数据的信息服务为主要业务的大数据信息服务提供商等。三大数据中的科学问题(5)大数据的政策法规问题大数据产业的发展需要完善的政策和法规的支撑。如在鼓励对大数据进行积极有效的开发和应用、对大数据所有权和