大数据、数据科学和数据产业复旦大学赵卫东博士wdzhao@fudan.edu.cn议程大数据数据科学数据产业大数据应用大数据的主流应用经典案例公共安全领域•车牌被摘除,识别困难大•卡口视频、图像、标签数据总量惊人,大海捞针•识别实时性要求极高大数据应用大数据的应用领域(1)汇聚融合医疗、环境、气象、药品和社交网络数据等资源库,开展相关指标体系及模型的研究,提供疾病就医导航、健康自我检查、临床诊疗精细决策、医疗资源配置、流行病跟踪与分析、疫情与突发事件监测及处置等服务。医疗卫生汇聚融合全市道路交通、公共交通、对外交通以及相关领域30TB以上的大数据资源,提供跨行业交通大数据挖掘分析、短期交通状况预测等功能,实现支撑政府快速交通部署、交通行业管理和智慧出行服务;研发覆盖全国机场的流量管理系统(CDM),实现机场协同决策。交通出行大数据应用大数据的应用领域(2)汇聚融合公共安全领域人口、视频、人脸、指纹、情报等数据,研发图像与视频智能解析、结构化存储和智能搜索技术,面向图像智能处理的大数据一体机,提升快速应急响应、突发事件监测处理等能力。公共安全汇聚融合A股、B股、港股和美股近百万笔/秒的交易数据等,近2万家专业媒体100万条/天的实时资讯,实时跟踪微博、微信等互联网舆情数据,提供更快、更全、更准的风险预警、预测和个性化金融信息服务。金融证券大数据应用大数据的应用领域(3)汇聚融合互联网内容数据,用户行为交互数据,互联网网络流量数据,研究语义理解、人群识别、智能推荐等智能分析技术,构建互联网领域知识库和用户行为模型;开发面向互联网营销的大数据管理、分析、决策与服务等支撑平台,提供互联网营销服务,促进企业从传统营销模式向互联网营销模式转型。互联网营销汇聚城市各类道路、桥梁、隧道、商业楼宇等监测数据,为公共设施规划、养护决策提供依据、实现对公共设施的实时监测。公共设施大数据应用大数据的应用领域(4)汇集各类农业数据,建立农产品供求信息实时预测模型,设计灾害预警与应急处置预案,为保障农产品的数量安全提供宏观决策依据,构建农产品质量追溯机制,提升农产品质量监管能力;实时追踪农业三资数据,打造农村民生数据平台,为资源合理调配、资产安全监管提供可靠的数据支撑农业整合已有的建模数据,建立仿真工厂,对已有的生产实绩数据进行生产仿真,模拟工厂运行,为工厂实际建设提供决策依据。收集产品生产过程各环节的实时质量数据,实现敏捷的一体化质量监测和管控,并支持产品质量追溯。制造大数据应用大数据的应用领域(5)收集发电厂实时运行数据,建立发电厂数字仿真模型,为提高生产安全性、提高发电效率提供决策依据。实时收集电网电力资产状态数据,实现电力资产在线状态检测和电网运行监控,主动安全预警和调度、维保,保障电网可靠高效运行,最终实现坚强智能电网;快速收集用电数据,为需求响应、负荷预测、调度优化、投资决策提供支持。电力汇聚服装、餐饮、住宿、出行等各类数字化生活和消费服务信息,结合流行时尚、行业发展指数、用户消费习惯、地理位置等信息的分析挖掘,提供面向消费者的实时、在线、互动的个性化衣食住行生活信息数字生活议程大数据数据科学数据产业数据科学•数据学(Dataology)和数据科学(DataScience)是关于数据的科学,定义为研究探索Cyberspace中数据界奥秘的理论、方法和技术。主要有两个内涵:一个是研究数据本身;另一个是为自然科学和社会科学研究提供一种新方法,称为科学研究的数据方法。数据学和数据科学数据科学•数据科学在20世纪60年代已被提出,当时并未获得学术界的注意和认可。•1974年彼得.诺尔出版了《计算机方法的简明调查》中将数据科学定义为:“处理数据的科学,一旦数据与其代表事物的关系被建立起来,将为其他领域与科学提供借鉴”。•1996年在日本召开的“数据科学、分类和相关方法”,已经将数据科学作为会议的主题词。•2001年美国统计学教授威廉.s.克利夫兰发表了《数据科学:拓展统计学的技术领域的行动计划》,因此有人认为是克利夫兰首次将数据科学作为一个单独的学科,并把数据科学定义为统计学领域扩展到以数据作为现金计算对象相结合的部分,奠定了数据科学的理论基础。发展历史数据科学以从数据中提取信息和知识进而辅助决策为目标。在CCF大数据专家委员会于2013年12月发布的《2014年大数据发展趋势预测》报告中都预测数据科学将作为一门新的交叉学科逐步兴起。甚至类似波色子的发现,数学、生物、物理、化学、材料等领域将在一定程度上依赖数据科学才能取得突破性进展。目标数据科学内涵数据科学作为一项新的科学,还有很多根本问题没有解决,甚至很多问题还没有被提出。国家自然科学基金委员会在2014年组织的未来五年的“十三五”规划中,特别尝试设立了“数据与计算科学”这一专门面向大数据的学科方向,还具体定义该方向是研究数据的感知、收集、传输、管理、分析与应用的交叉性学科,旨在揭示数据的内在规律,探索数据计算理论,实现从数据到知识的转化,为大数据的科学计算以及在重要应用领域的预测、决策与应用提供基础。数据科学大数据和数据科学•数据科学基础问题体系本身就是大数据领域的研究热点。•数据科学将带动多学科融合。•数据科学是作为一个与大数据相关的新兴学科出现的,在大数据处理的理论研究方面,新型的概率和统计模型将是主要的研究工具。谷歌无人驾驶汽车数据科学科学研究的第四范式数据科学从经验思维到实证思维•大多数人以经验思维为主,判断多而论证少。基于数据的实证更少。•凭经验得出的判断往往难以证明。将经验思维转变为实证思维是通向数据科学时代,通向数据驱动的管理决策的关键步骤。数据科学机器翻译•自然语言的机器翻译是人工智能研究的一个重要题目。语言学家不辞劳苦地编撰大型词典和与语法、句法、语义学有关的规则,数十万词汇构成词库,语法规则高达数万条,考虑各种情景、语境,穷举式的做法根本达不到最基本的翻译质量。•1960年代后科学家发现以“模拟人脑”的方式来定义人工智能走入一条死胡同。采用匹配法,同时结合机器学习,依赖于海量的数据及其相关相关统计信息,不管语法和规则,将原文与互联网上的翻译数据对比,找到最相近、引用最频繁的翻译结果做为输出。计算机“深蓝”议程大数据数据科学数据产业数据产业大数据产业•大数据是继云计算、物联网、移动互联网之后的又一个具有国家战略意义的新兴产业。如今,大数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。•大数据产业链的形成:大数据产业包括与大数据的生产与集聚、组织与管理、分析与发现、应用与服务相关的所有活动。数据产业链按照数据价值实现流程,包括生产与集聚层、组织与管理层、分析与发现层、应用与服务层四大层级,每一层都包含相应的IT技术设施、软件与信息服务。数据产业大数据的价值产生数据产业大数据产业链•根据数据从产生到应用,继而产生新数据的过程,大数据产业形成了一个环形产业链。•从数据产生到应用,参与企业逐渐增多,数据价值逐级增加。环形产业链主要包括以下几个方面:以云计算、物联网、移动互联网等新一代信息技术而不断生产交易数据、交互数据与传感数据的大数据生产活动;以搭建大数据平台、支撑大数据组织与管理的服务器、存储设备、网络设备、数据中心附属设备等IT基础设施硬件的销售与租赁活动;大数据平台的运维与管理服务,系统集成、数据安全、云存储等解决方案与相关咨询服务;支撑数据分析与发现的嵌入式芯片、服务器、高性能计算设备等IT基础设施硬件销售与租赁;与大数据应用相关的数据出售与租赁服务、分析与预测服务、决策支持服务、数据共享平台、数据分析平台等。数据产业大数据产业链发展趋势谢谢!