大数据技术和标准化共80页文档

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

大数据技术和标准化科学、公正、诚信、服务2内容•大数据发展背景•标准化工作现状•下一步工作重点3一、大数据催生了信息化3.0(智慧化阶段)信息化1.0--2019以单机应用为特征的数字化阶段--2019以联网应用为特征的网络化阶段2019-以数据的深度挖掘与融合应用为特征的智慧化阶段经历基础性变革后的未来信息技术支撑的信息化信息化2.0信息化3.0?金税工程数据规模更大,来源更丰富,类型更复杂,变化更快4一、大数据催生了信息化3.0(智慧化阶段)技术廉价化、互联网发展、信息化建设长期积累,形成了规模巨大的数据资源,且仍将加速增长大数据应用的成功案例,激发了基于数据,萃取知识、指导实践的巨大需求大数据现象出现数据应用需求激增以数据的深度挖掘与融合应用为特征的智慧化阶段信息化3.05二、大数据的战略意义大数据正在改变人类的思维方式随机样本精确求解因果关系全体数据近似求解关联关系传统思维大数据思维提供新思维、新手段6二、大数据的战略意义↑GDP促进经济转型增长改善民生:优化资源配置,健康医疗、就业、社保、教育、公共交通产业转型,创新业态:颠覆传统产业,提高运行效率和决策能力,催生智能制造、互联网金融等新业态大数据时代,信息技术不仅是行业发展的“倍增器”、“催化器”,甚至会成为行业的颠覆者7二、大数据的战略意义提升国家综合能力、保障国家安全美国棱镜计划:电邮、即时消息、视频、照片、语音、文件传输、视频会议、社交网络等数据的收集与综合分析自主可控的大数据技术体系是不可或缺的基础!8三、大数据产业生态链(技术)大数据采集大数据存储、管理和处理大数据呈现和应用大数据分析和挖掘9三、大数据产业生态链(商业)互联网企业运营商金融企业大数据拥有者专业技术服务商综合技术服务商大数据云存储和云服务商大数据技术提供者应用服务提供商咨询服务提供商大数据服务提供者数据中间商10四、我国大数据产业发展现状基础设施和分析方法方面:•主要依赖国外技术和产品,核心技术方面仍是学习者和追随者应用方面:•BAT在网络大数据具有优势:网站、微博、微信、搜索、交易数据等,互联网企业的技术优势难以顺畅地扩散到各行业•部门、地方和一些行业开始关注大数据资源建设•初级发展阶段,缺少典型性、共识性强的大数据应用;数据资源开放方面:•我国数据资源主要来源于互联网,业务、政务数据共享开放程度低急需标准化,保证有序发展、开放共享11内容•大数据发展背景•标准化工作现状•下一步工作重点12一、大数据工作组概况(一)组织架构组长:梅宏上海交通大学副校长(院士)副组长:车品觉阿里巴巴集团副总裁吴建明华为IT技术开发部部长杜小勇中国人民大学信息学院院长秘书长:高林工业和信息化部信软司副司长联络员:刘大山国家标准化管理委员会工业二部处长孙文龙工业和信息化部信软司处长侯建仁工业和信息化部电子信息司处长进一步扩大工作组规模申请报名的成员单位170+家成员单位管理统一邮箱:bigdatacesi微信公众平台建立联络关系贵州省贵阳市政府、中关村大数据产业联盟建立大数据专家团队一、工作组概况13一、工作组概况(二)组织管理2019年12月2日,工作组成立大会2019年7月14日,工作组第二次全会,正式成立7个专题组2019年12月17日,工作组第三次全会(2019年年终总结)工作组开展了一系列调研活动,组织线下活动5次,召开专题组会议18次二、标准体系框架大数据标准体系框架基础技术产品和平台安全应用和服务工具级产品系统级产品通用要求隐私保护开放数据集领域应用数据林业数据元素集电子商务数据元素集金融数据元素集电子政务数据元素集交通数据元素集教育数据元素集数据交易平台数据开放共享平台工业大数据电子商务大数据...处理生命周期技术收集预处理分析大数据集描述与评估质量模型分类方法描述模型术语参考架构元数据总则...............可视化...互操作技术......访问平台基础设施预处理类产品存储类产品分布式计算工具数据库产品应用分析智能工具平台管理工具类产品...评估数据溯源1516基础标准为整个标准体系提供包括总则、术语和参考模型、元数据等基础性标准。技术标准该类标准主要针对大数据相关技术进行规范。包括数据治理和数据质量两类标准。其中,数据治理标准主要针对数据的收集、预处理、分析、可视化、访问、能力成熟度评价模型等方面进行规范。数据质量标准主要针对数据质量提出具体的管理要求和相应的指标要求,确保数据在产生、存储、交换和使用等各个环节中的质量,为大数据应用打下良好的基础,包括质量评价、数据溯源、质量检测等标准。二、标准体系框架17产品和平台标准该类标准主要针对大数据相关技术产品和应用平台进行规范。包括关系型数据库产品、非结构化数据管理产品、智能工具、可视化工具、数据处理平台和测试规范六类标准。其中关系型数据库产品标准针对存储和处理大数据的关系型数据库管理系统,从访问接口、技术要求、测试要求等方面进行规范,为关系型数据库管理系统进行大数据的高端事务处理和海量数据分析提供支持;非结构化数据管理产品标准针对存储和处理大数据的非结构化数据管理系统,从参考架构、数据表示、访问接口、技术要求、测试要求等方面进行规范;智能工具用来帮助用户对大数据进行分析决策,包括ETL、OLAP、数据挖掘等工具,智能工具标准对智能工具的技术及功能进行规范;可视化工具是对大数据处理应用过程中所需用到的可视化展现工具的技术和功能要求进行规范;大数据平台标准是针对大数据存储、处理、分析系统从技术架构、建设方案、平台接口等方面进行规范;测试规范针对大数据的产品和平台给出测试方法和要求。二、标准体系框架18大数据安全标准数据安全作为数据标准的支撑体系,贯穿于数据整个生命周期的各个阶段。抛开传统的网络安全和系统安全,大数据时代下的数据安全标准主要包括通用要求、隐私保护两类标准。应用和服务标准应用和服务类标准主要是针对大数据所能提供的应用和服务从技术、功能、开发、维护和管理等方面进行规范。主要包括开放数据集、数据服务平台和领域应用数据三类标准。其中开放数据集标准主要对向第三方提供的开放数据包中的内容、格式等进行规范;数据服务平台标准是针对大数据服务平台所提出的功能性、维护性和管理性的标准;领域应用数据指的是各领域根据其领域特性产生的专用数据标准,包括工业、电子商务等领域。二、标准体系框架二、大数据参考模型19二、大数据标准化白皮书V2.020二、研究报告4、加强研究《(英国)开放数据白皮书》NIST在大数据领域的相关研究报告:《大数据互操作性框架:第一卷:定义》、《大数据互操作性框架:第二卷:大数据分类》、《大数据互操作性框架:第四卷:安全与隐私》、《大数据互操作性框架:第六卷:参考架构》、《NIST大数据互操作性框架:第七卷:大数据标准路线图》。为了更好的开展政府大数据开放共享和数据资产管理方面的标准化工作,工作组正在开展《政府大数据分类分级》和《数据资产管理》的相关研究工作,目前已经形成两份研究报告的初稿。21(二)标准化工作进展已立项标准三、标准研制序号计划号标准名称状态120191191-T-469信息技术大数据术语审定会220191190-T-469信息技术大数据技术参考模型完成草案320191184-T-469数据能力成熟度评价模型完成草案420191172-T-469多媒体数据语义描述要求完成草案520191194-T-469信息技术科学数据引用完成草案620191200-T-469信息技术数据交易服务平台交易数据描述完成草案720191201-T-469信息技术数据交易服务平台通用功能要求完成草案820191202-T-469信息技术数据溯源描述模型完成草案920191203-T-469信息技术数据质量评价指标草案大纲1020191204-T-469信息技术通用数据导入接口规范草案大纲23•共定义了28个术语,该标准目前处于征求意见阶段。•重点介绍:–大数据–大数据参考体系结构–大数据生命周期模型–大数据工程化–读时模式–数据科学家三、标准研制24Volume•大数据bigdata具有数量巨大、来源多样、生成极快且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。注:国际上,大数据的4个特征普遍不加修饰地直接用volume、variety、velocity和variability予以表述,并分别赋予了它们在大数据语境下的定义:数量VolumeVolume多样性Variety多变性variabilityVolume构成大数据的数据集的规模。速度Velocity数据可能来自多个数据仓库、数据领域或多种数据类型。Volume单位时间的数据流量。大数据其他特征,即数量、速度和多样性等特征都处于多变状态。三、《信息技术大数据术语》25三、《信息技术大数据术语》•大数据参考体系结构bigdatareferencearchitecture一种用作工具的、便于对大数据内在要求、设计结构和运行进行开放性探讨的高层概念模型。注:比较普遍认同的大数据参考体系结构一般包含系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者等5个逻辑功能构件。26•大数据生命周期模型lifecyclemodelforbigdata用于描述大数据的“数据–信息–知识–价值”生命周期和指导大数据相关活动的模型;这些活动主要由收集、准备、分析和行动等阶段覆盖。注:几个阶段的主要活动如下:a.收集阶段——采集原始数据并按原始数据形式存储;b.准备阶段——将原始数据转化为干净的、有组织的信息;c.分析阶段——利用有组织的信息产生合成的知识;d.行动阶段——运用合成的知识为企业生成价值。三、《信息技术大数据术语》27•大数据工程化bigdataengineering为适应大数据对于有效存储、操作和分析的需求而运用治理独立资源的先进技术构建可伸缩数据系统的过程。•读时模式schema-on-read一种数据模式应用;按此应用,在从数据库读取数据时,先经过诸如转换、净化、整合之类准备步骤。•数据科学家datascientist数据科学专业人员;他们具有足够的业务需求管理机制方面的知识、领域知识、分析技能、以及用于管理数据生命周期中每个阶段的端到端数据过程的软件和系统工程知识。三、《信息技术大数据术语》28该技术参考模型展示了一个通用的、由逻辑功能构件组成的大数据系统,该模型独立于供应商、实现技术和基础设施。三、《信息技术大数据技术参考模型》29大数据价值链的两个维度组织:三、《信息技术大数据技术参考模型》30五个角色+两个重要的逻辑构件:安全和隐私管理代表大数据系统中存在的不同技术角色能够为大数据系统的其他五个主要构件提供服务和功能三、《信息技术大数据技术参考模型》已上报申请立项标准序号已申请国家标准名称牵头单位1《信息技术大数据基于参考架构下的接口框架》华为2《信息技术大数据分类指南》中科院信工所3《信息技术大数据系统通用规范》电子四院4《信息技术大数据系统运维和管理功能要求》华为5《信息技术大数据存储与处理系统功能要求》华为6《信息技术大数据存储与处理系统功能测试规范》华为7《信息技术大数据分析系统功能要求》浪潮电子8《信息技术大数据分析系统功能测试规范》浪潮电子9《信息技术大数据面向应用的基础计算平台基本性能要求》浪潮电子10《信息技术大数据开放共享第1部分:总则》电子四院11《信息技术大数据开放共享第2部分:政府数据开放共享基本要求》国家信息中心12《信息技术大数据开放共享第3部分:开放程度评价》电子四院13《信息技术工业大数据术语》数码大方14《信息技术工业大数据参考架构》数码大方15《信息技术工业大数据工业订单元数据》数码大方16《信息技术工业大数据产品核心元数据规范》电子四院17《信息技术电子商务大数据采集规范》京东18《信息技术电子商务大数据仓库建设模型》京东19《信息技术电子商务大数据应用指标体系第2部分:电子商务大数据》京东开放程度形式许可证★数据在网站上可用(任意格式)

1 / 80
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功