GY中华人民共和国广播电视和网络视听行业标准GY/T351—2021广播电视和网络视听收视综合评价数据脱敏规则MaskingrulesofradioTVandinternetvideoandaudioservicebigdataforcomprehensiveevaluation2021-05-31发布2021-05-31实施国家广播电视总局发布GY/T351—2021I目次前言..................................................................................II1范围................................................................................12规范性引用文件......................................................................13术语和定义..........................................................................14概述................................................................................25数据脱敏原则........................................................................25.1有效性..........................................................................25.2可用性..........................................................................25.3高效性..........................................................................25.4稳定性..........................................................................25.5防御性..........................................................................25.6可审计性........................................................................26数据脱敏技术........................................................................36.1概述............................................................................36.2泛化技术........................................................................36.3抑制技术........................................................................36.4扰乱技术........................................................................37数据脱敏流程........................................................................37.1概述............................................................................37.2发现敏感数据....................................................................37.3标识敏感数据....................................................................37.4制定脱敏方案....................................................................47.5执行脱敏操作....................................................................47.6评估脱敏效果....................................................................48数据脱敏要求........................................................................48.1脱敏要求........................................................................48.2用户数据........................................................................48.3设备数据........................................................................5参考文献...............................................................................6GY/T351—2021II前言本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由全国广播电影电视标准化技术委员会(SAC/TC239)归口。本文件起草单位:国家广播电视总局广播电视规划院、华数传媒网络有限公司、华数数字电视传媒集团有限公司、广东南方新媒体股份有限公司。本文件主要起草人:李忠炤、郑冠雯、聂明杰、李庆国、曹志、王志豪、胡暐宸、遇琪、诸葛海标、张玮、黄元浩、唐志燕、刘晓敏、殷楚冬、张元迪。GY/T351—20211广播电视和网络视听收视综合评价数据脱敏规则1范围本文件规定了广播电视和网络视听收视综合评价数据的脱敏原则、脱敏技术、脱敏流程和脱敏要求。本文件适用于广播电视和网络视听收视综合评价数据的脱敏。2规范性引用文件本文件没有规范性引用文件。3术语和定义下列术语和定义适用于本文件。3.1个人敏感信息personalsensitiveinformation一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的个人信息。注1:个人敏感信息包括身份证号码、个人生物识别信息、银行账号、通信记录和内容、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交易信息、14岁以下(含)儿童的个人信息等。注2:个人信息控制者通过个人信息或其他信息加工处理后形成的信息,如一旦泄露、非法提供或滥用可能危害人身和财产安全,极易导致个人名誉、身心健康受到损害或歧视性待遇等的,属于个人敏感信息。[来源:GB/T35273—2020,3.2]3.2敏感属性sensitiveattribute数据集中需要保护的属性,该属性值的泄露、修改、破坏或丢失会对个人产生损害。注:在潜在的重标识攻击期间需要防止其值与任何一个个人信息主体相关联。[来源:GB/T37964-2019,3.10]3.3敏感数据sensitivedata原始数据中具有敏感属性的用户个人信息数据。3.4数据脱敏datamasking按照一定的规则对原始数据进行变形,屏蔽原始数据中的敏感信息,并保留业务环境所需要的数据特征和内容。3.5用户IDuseridentification由数据提供方系统生成,用于唯一识别用户的一组不重复的编码。3.6GY/T351—20212用户账号useraccount用户在互联网视听平台中代表自己身份的名称。4概述数据脱敏是按照一定的方法、流程以及输出格式,对敏感数据进行处理,以确保敏感数据不泄露。脱敏后的数据应尽可能体现原始数据的特征和内容,并能在相关业务中继续使用。广播电视和网络视听收视综合评价数据应为实现收视综合评价目的所必须的最小化数据,不包含用户姓名、出生日期、身份证号码、个人生物识别信息、住址、通信联系方式等个人敏感信息。对广播电视和网络视听收视综合评价数据包含的用户账号、设备信息、IP地址等,应按照本文件进行数据脱敏处理。5数据脱敏原则5.1有效性数据经过脱敏处理之后,原始信息中包含的用户个人敏感信息应已被移除,第三方应无法通过处理后的数据得到敏感信息;或需通过巨大的经济代价、时间代价才能得到用户个人敏感信息。5.2可用性脱敏后的数据应保持数据的原有特征,保证数据在非原始环境中的可用性,在脱敏过程中应保留原始数据中的信息,保证收视大数据的开发、测试、培训过程中不会受到脱敏的影响。为保证可用性应满足以下要求:——保持原数据格式、类型、依存关系;——保持语义完整性;——保持引用完整性;——保持数据统计、聚合特征;——保持唯一性。5.3高效性应保证数据脱敏的过程可通过程序自动化实现,可重复执行。5.4稳定性为保障数据使用者可正常使用和分析数据,数据脱敏应保证脱敏后的数据与原始数据之间的关联性,脱敏数据之间的关联应是稳定的。5.5防御性应保障数据脱敏算法不被同质属性、概率、知识推断等手段攻击,确保脱敏安全可靠。5.6可审计性在数据脱敏各个阶段应加入安全审计机制,严格、详细记录数据处理过程中的相关信息,形成完整数据整理记录,用于后续问题排查与数据追踪分析。GY/T351—202136数据脱敏技术6.1概述广播电视和网络视听收视综合评价数据脱敏可采用泛化技术、抑制技术和扰乱技术。6.2泛化技术泛化技术是指一种降低数据集中所选属性粒度的去标识化技术,对数据进行更概括、抽象的描述。泛化技术包括但不限于:a)截断:舍弃不需要的信息,仅保留部分关键信息,保证数据的模糊性;b)偏移取整:按照一定粒度对时间进行向上或向下偏移取整,保证时间数据满足一定的分布特征,同时隐藏原始时间信息;c)规整:将数据按照大小规整到预定义的多个档位进行分类。6.3抑制技术抑制技术即对不满足隐私保护的数据项删除,不进行发布。包括从所有记录中对选定的属性(如屏蔽)、对所选定的属性值(例如,局部抑制),或是从数据集中选定的记录(例如,记录抑制)进行的删除操作;或对敏感数据部分内容使用通用字符进行替换(掩码技术)。6.4扰乱技术扰乱是指通过加入噪声的方式对原始数据进行干扰,以实现对原始数据的扭曲、改变,扰乱后的数据仍保留着原始数据的分布特征,具体的技术方法包括但不限于:a)加密:使用加密算法对原始数据进行加密;b)重排:将原始数据按照特定规则进行重新排列;c)替换:按照特定规则对原始数据进行替换;d)均化;针对数值性的敏感数据,在保证脱敏后数据集总值或平均值与原数据相同的情况下,改变数据的原始值;e)散列:对原始数据取散列值,使用散列值来代替原始数据。7数据脱敏流程7.1概述原始广播电视和网络视听收视综合评价数据经数据预处理后,应按发现敏感数据、标识敏感数据、制定脱敏方案、执行脱敏操作、评估脱敏效果的流程进行数据脱敏处理。7.2发现敏感数据数据提供方应对原始数据进行梳理和分类,将数据分为高度敏感数据、中度敏感数据和非敏感数据;同时,应分析并建立完整