大数据平台运维职业技能等级标准目 次前言....................................................................................................................................Ⅱ1范围..................................................................................................................................12规范性引用文件..............................................................................................................13术语和定义......................................................................................................................14对应院校专业..................................................................................................................65面向工作岗位(群)......................................................................................................66职业技能要求..................................................................................................................7参考文献...........................................................................................................................16II前言本标准按照GB/T1.1-2009给出的规则起草。本标准起草单位:新华三技术有限公司。本标准主要起草人:陈喆、张涛、刘小兵、卢建云、姚明、陈穆衍、肖李晨、白杨、陈永波、毕伟飞。声明:本标准的知识产权归属于新华三技术有限公司,未经新华三技术有限公司同意,不得印刷、销售。11范围本标准规定了大数据平台运维职业技能等级对应的工作领域、工作任务及职业技能要求。本标准适用于大数据平台运维职业技能培训、考核与评价,相关用人单位的人员聘用、培训与考核可参照使用。2规范性引用文件下列文件对于本标准的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本标准。凡是不注日期的引用文件,其最新版本适用于本标准。GB/T35295.2017信息技术大数据术语GB/T5271.1.2000信息技术词汇第1部分:基本术语3术语和定义GB/T35295.2017、国家、行业标准界定的以及下列术语和定义适用于本标准。3.1大数据BigData具有体量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。注:国际上,大数据的4个特征普遍不加修饰地直接用volume、variety、velocity和variability予以表述,并分别赋予了它们在大数据语境下的定义:体量volume:构成大数据的数据集的规模。多样性variety:数据可能来自多个数据仓库、数据领域或多种数据类型。速度velocity:单位时间的数据流量。2多变性variability:大数据其他特征,即体量、速度和多样性等特征都处于多变状态。3.2大数据系统BigDataSystem实现大数据参考体系结构的全部或部分功能的系统。3.3大数据服务BigDataService基于大数据参考体系结构提供的数据服务。3.4集群Cluster集群就是一组计算机,它们作为一个整体向用户提供一组网络资源和服务,这些单个的计算机系统就是集群的节点(node)。集群具有可扩展性、高可用性、负载均衡及错误恢复的关键特性。3.5虚拟Virtual用来修饰一种功能单元,它看起来是实际的,但其功能是通过其他手段得以实现的。3.6虚拟机VirtualMachine,VM(缩写词)一种虚拟的数据处理系统,它看起来是在某个特定用户的独占使用下,但其功能是通过共享真实数据处理系统的各种资源得以实现的。3.7网络功能虚拟化NetworkFunctionVirtualization对路由器/路由选择、周界防护、远程访问鉴别以及网络流量/载荷监控等网络功能的虚拟应用实现。注:网络功能虚拟化支持信息系统的高弹性、容错和资源管理,是应对大数据巨大数据体量下用户数据连接的峰、谷起伏问题的至关重要的应用。3.8本地虚拟化NativeVirtualization3大数据环境下的一种虚拟化基本形式,按此种形式,在本地裸机上运行管理程序,该程序管理由操作系统和应用组成的多个虚拟机。3.9主机虚拟化HostedVirtualization大数据环境下的一种虚拟化基本形式,按此种形式,在本地裸机上运行操作系统,在驻留客户操作系统和应用的顶层运行管理程序。3.10数据治理DataGovernance对数据进行处置、格式化和规范化的过程。注1:数据治理是数据和数据系统管理的基本要素。注2:数据治理及数据全生命周期管理,无论数据是处于静态、动态、未完成状态还是交易状态。3.11链接数据LinkedData连接其他数据的数据。3.12分析Analytics根据信息合成知识的过程。3.13资源协商ResourceNegotiation一种支持多租户以及要求高可用性和低延迟的环境的资源访问模式。注:按此模式,资源管理器是若干节点管理器的集线器;各个客户(或用户)依次请求节点管理器中的应用管理器,紧接前一个请求者的后一个请求者分配到同一个或不同的节点管理器的应用管理器。根据中央处理器(CPU)和存储器可用情况为所请求的任务确定先后次序并在节点提供适当的处理资源。3.14集群管理ClusterManagement在以非关系模型方式驻留数据的集群资源之间提供通信的一种机制。43.15数据处理DataProcessing数据操作的系统执行。注:术语“数据处理”不能用作“信息处理”的同义词。3.16数据管理DataManagement在数据处理系统中,提供对数据的访问,执行或监视数据的存储,以及控制输入输出操作等功能。3.17数据挖掘DataMining从大量的数据中通过算法搜索隐藏于其中信息的过程。注:一般通过包括统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等方法来实现。3.18数据中心DataCenter由计算机场站(机房)、机房基础设施、信息系统硬件(物理和虚拟资源)、信息系统软件、信息资源(数据)和人员以及相应的规章制度组成的组织。3.19数据可视化DataVisualization借助图形化手段,清晰有效地传达与沟通信息,是关于数据视觉表现形式的科学技术研究。3.20数据平台框架DataPlatformFramework用于指导实现结合相关应用编程接口(API)访问的逻辑数据组织和分发的集合。注1:此类框架一般还包含数据注册和连同语义数据描述(如格式化本体和分类)的元数据服务。逻辑数据组织的覆盖范围从简单限定的平面文件到完全分布式关系数据存储或分栏数据存储。5注2:这是大数据框架提供者可能提供的一种框架。3.21配置Configuration信息处理系统中的硬件和软件组织和互连起来的方式。3.22下载ToDownload将程序或数据从一个计算机传送到与之相连的资源较少的计算机上,通常是从主计算机传到个人计算机上。3.23上载ToUpLoad将程序或数据从一个与之相连的计算机传送到一个资源较多的计算机上,通常是从个人计算机传到主计算机上。3.24接口Interface两个功能单元共享的边界,它由各种特征(如,功能、物理连接、信号交换等)来定义。3.25软件工程SoftwareEngineering将科技知识、方法和经验系统地应用到软件的设计、实现、测试和文档编制中,以优化软件的生产、技术支持和质量。3.26数据科学DataScience根据原始数据,经过整个数据生存周期过程凭借经验合成可用行动的知识的一种科学。64对应院校专业中等职业学校:计算机应用、计算机网络技术、网站建设与管理、软件与信息服务等专业。高等职业学校:计算机应用技术(大数据技术应用方向)、计算机网络技术、软件技术、软件与信息服务、电子商务技术(网络数据分析应用方向)、大数据技术与应用等专业。应用型本科学校:计算机科学与技术、软件工程、网络工程、数据科学与大数据技术等专业。5面向工作岗位(群)【大数据平台运维】(初级):主要面向大数据平台安装配置、大数据组件安装配置、大数据平台基础实施、大数据平台简单维护及监控工作岗位。从事虚拟化软件安装与使用、基于Linux系统的常用服务安装配置、安装配置及运行Hadoop集群、安装配置及运行核心组件、执行客户大数据平台实施方案、监控大数据平台运行状态、查看管理大数据平台日志信息、监控大数据平台服务和资源状态等工作,掌握大数据平台安装和配置方法,理解Hadoop核心组件的功能及工作原理,掌握关键组件安装配置方法,理解大数据平台实施流程,熟悉常用集群监控工具的使用方法。【大数据平台运维】(中级):主要面向大数据平台高可用性部署实施、大数据组件维护及使用、大数据平台维护及大数据平台优化等工作岗位。从事Hadoop高可用集群部署及配置、Hadoop组件维护及使用、Hadoop集群节点管理及维护、大数据平台故障诊断及维护等工作,掌握高可用集群Hadoop配置方法,熟练使用shell,掌握Hadoop集群节点及其服务的增删改等基本操作方法,熟悉常用7系统性能诊断工具及集群监控管理工具,能独立排查和解决大数据平台常见问题,优化集群性能。【大数据平台运维】(高级)主要面向大数据平台规划、大数据平台安全管理、大数据平台资源管理、大数据平台优化及升级等工作岗位。从事大数据集群软硬件配置方案拟定、Hadoop架构方案设计、Hadoop组件部署方案规划、Hadoop安全机制规划与实现、大数据平台资源配置及管理、大数据平台优化拓展与升级等工作,熟练运用shell进行平台运维,熟练掌握Hadoop生态圈组件的工作原理和使用方法,掌握Hadoop集群的安全管理机制和方法,熟悉Hadoop资源配置和管方法,掌握大数据平台优化策略和方法,熟练Hadoop集群软硬件升级方法和操作。6职业技能要求6.1职业技能等级划分大数据平台运维职业技能等级分为三个等级:初级、中级、高级,三个级别依次递进,高级别涵盖低级别职业技能要求。6.2职业技能等级要求描述表1大数据平台运维职业技能等级要求(初级)工作领域工作任务职业技能要求1.大数据平台安装1.1能安装和使用虚拟化软件1.1.1能安装虚拟化软件1.1.2能使用虚拟化软件1.2能使用虚拟化软件安装Linux操作系统1.2.1能使用虚拟化软件安装Linux操作系统1.3能安装LinuxSSH服务1.3.1能下载LinuxSSH服务1.3.2能安装LinuxSSH服务81.4能安装LinuxJDK1.4.1能熟练安装LinuxJDK1.4.2能熟练配置JDK环境变量1.5能在Linux系统中安装Hadoop1.5.1能熟练下载Hadoop安装包1.5.2能熟练安装完全分布式模式Hadoop2.大数据平台配置2.1能配置主机的网络属性2.1.1能熟练配置主