经营分析系统客户数据隐私保护技术研究--验收汇报2020年4月20日星期一目录3项目成果1项目背景与必要性4实施规划及展望2关键里程碑前车之鉴——其他行业泄露客户隐私的个案苹果、谷歌手机操作系统被爆非法收集客户位置信息,引发使用者对智能手机安全性的质疑。索尼家用游戏平台网络(PSN)前后三次受到黑客袭击,估计有7700多万游戏玩家的个人资料被盗。案例分析客户隐私的保护既体现企业对用户的承诺,也体现了企业的诚信和责任感;建立强大的企业安全保护体系,同时需要为客户隐私信息专门增加一道保护屏障。前车之鉴——电信行业业务支撑系统泄露客户隐私的个案北京联通:网维人员向“调查公司”出售客户详单深圳电信:政企客户不员工向外部人员提供50余万条客户个人信息,引发公安介入调查北京移动:利用业务支撑系统漏洞,修改客户密码后泄露客户资料和详单,引发刑事案件吉林移动:业务支撑内部人员(经分人员)泄露客户详单重庆移动:业务支撑内部人员(BOSS人员)泄露客户详单,引发涉黑案件案例分析后台和内部人员非法操作不仅是中国移动的问题,其他运营商也头疼中国移动因为4A做得好,事后都追查到了,引发我们的思考:如何能事前控制?外部需求越来越多,隐私泄露的风险正在累积,经分系统非常有必要加强客户隐私数据保护经分系统客户隐私数据保护存储的数据更多样(包括更多的个人信息和财务信息)更多的认证用户(除了员工之外还有众多的合作伙伴)失窃数据市场诱惑力越来越大更多的外部系统需要分发数据客户隐私数据存在从经分系统泄露的风险因市场竞争的压力和业务的需要,地市和业务部门对客户清单分析的需求日渐增多。清单级数据下发到地市和业务部门的数据集市后,省公司无法对其使用进行有效的监管。系统的不断升级开发,无法离开合作伙伴对底层数据的直接操作。对客户数据隐私保护重要性的理解企业信息安全不仅要保护企业网络、应用不被入侵,还要能为客户数据构筑最后一道防线,使得客户数据万一被泄露时,外界也无法读懂数据的含义在4A管控平台管理之下,企业机密和客户隐私信息已经得到较好的保护。仍需要为客户隐私数据新建一个强大的隐私数据保护模块。作为4A管控平台安全管理能力的补充。网络安全管控、4A管控平台对BOSS系统、经营分析系统系统以及操作系统、数据库、网络设备等各种IT资源的帐号、认证、授权和审计的集中控制和管理集中化的身份认证和访问入口为客户隐私数据构筑最后一道防线不影响现有的数据处理、数据分析和数据挖掘工作企业信息安全保护企业机密不被泄露网络安全应用安全保证客户隐私不被泄露数据隐私保护本项目研究目的在调研中,所有省公司都认为保护客户隐私非常重要。目前的安全管控体系仍需要完善,“后台操作人员非法提取数据”和“外部系统从经分系统获取数据后被暴露”两种手段是经分最可能的隐私信息泄露手段。调研情况探索在现有4A等安全管理框架下,通过“去隐私”技术手段,再在数据底层构建一条防线,使得非法入侵者即使获取了权限也无法理解数据,同时同步给外部系统的批量数据不包括客户隐私信息研究适当的技术、方法尽量不影响经分数据处理、存储、同步和访问效率经分特点所有的数据处理都不需要识别具体的客户,超过80%的分析应用集中在大趋势和群体客户行为,只有20%的分析应用需要对应具体的客户来采取营销或服务行动。所以可以在经分后台“去隐私化”,对20%的应用通过具体模块来还原隐私信息。研究目的研究步骤及重点内容需求调研产品调研及案例分析基础技术研究实施研究验证汇报•数据库产品及第三方产品调研及技术分析•其他行业实施案例分析•进行基础技术研究,包括加密技术、可逆置换等•各种去隐私化处理技术比较分析•经分系统客户隐私数据识别技术•客户隐私数据保护技术体系及在经分系统中定位分析•制定管控策略及定义管理人员角色权限•对实施研究结果进行汇报,并形成成果报告,作为推广实施的依据•组织需求调研工作•形成需求及现状调研报告目录3项目成果2关键里程碑4实施规划与展望1项目背景与必要性项目进展项目主要交付物交付物交付方式《调研问卷反馈汇总》EXCEL文档《电话调研汇总报告》EXCEL文档《经营分析系统客户隐私数据保护技术研究-需求调研和分析》WORD文档《经营分析系统客户隐私数据保护技术研究-产品调研及分析》WORD文档《经营分析系统客户隐私数据保护技术研究-技术研究报告》WORD文档《中期总结报告》PPT文档《经营分析系统客户隐私数据保护技术方案》WORD文档《验收总结报告》PPT文档目录2关键里程碑3项目成果4实施规划与展望1项目背景与必要性项目成果内容概览调研案例技术产品方案调研省经分情况隐私数据保护现状隐私数据保护亮点医疗行业成功案例金融行业成功案例电信行业的思考?隐私保护技术分类隐私保护技术比较隐私保护技术应用建议安全管理体系数据库产品分析第三方产品分析隐私保护模块规划隐私保护处理流程技术方案优势比较隐私保护管理思路调研案例技术产品方案省级经分系统基本情况2011.1.10发放调研问卷,2011.1.17回收问卷(31份有效回复)2011.4.25~2011.4.29完成对9个重点省的电话调研工作26%55%16%3%数据库产品使用情况OracleDB2TeradataTeradata+Oracle省级经分系统使用:Oracle、DB2、Teradata三种主流数据库产品除个别省份外,其他省份都没使用数据库产品自带的加密功能进行隐私保护----原因:数据库产品加密消耗数据库服务器性能比加大02468101214200TB100TB,200TB50TB,100TB50TB各分公司数据规模省份数量已有数据规模超过200TB的超级大省,一半以上省份数据规模超过100TB;数据规模维持高速膨胀隐私数据处理技术需要支持适应数据仓库大数据量的特征,需要简单、高效15%14%49%4%3%3%12%各类型数据比例三户基本资料数据帐务数据话单及使用记录配置数据网络信令数据WAP网关数据其他业务平台日志数据涉及客户隐私的数据量占比大,处理复杂,需要采用高效的处理方式调研案例技术产品方案泄露风险和防护措施调研案例技术产品方案主要泄露点是后台,而不是前台或黑客袭击给到其他系统的数据也脱离了经分客户隐私保护体系隐私数据保护措施:绝大多数省公司建议采用:去隐私化处理技术和管理流程相结合的方式少量省公司建议采用:去隐私化处理技术少量省公司建议采用:管理流程进行约束个别省公司建议采用:数据库加密技术13%13%10%61%3%省分统计1.在4A平台上进行扩展2.在经分系统内部进行去隐私化处理3.通过管理流程约束4.2和3相结合5.直接采用数据库加密技术48%26%26%隐私泄露途径2.后台操作人员非法提数3.其他系统从数据仓库获取数据后暴露数据4.以上所有客户隐私数据保护现状规范统一要求调研案例技术产品方案部分省采用了保护方法隐私数据识别•人工识别•个人客户隐私数据•集团客户隐私数据•集团成员隐私数据•系统规则判断•识别规则、标准不统一•识别效果不理想•被识别为客户隐私信息内容未进行管理隐私数据保护技术•数据库产品加密技术•都没有采用数据库加密技术•湖南公司对详单明细查询结果进行隐匿化处理•应用层开发数据保护模块•下发数据给集市时进行隐匿化处理•控制批量处理权限,增加数据水印等保护手段•数据仓库中保存依然保存原始的隐私数据规范中对经分安全非常重视,结合4A从技术和管理层面都提出了相应的要求。黑龙江公司——测试库管控及视图模式主数据仓库中客户隐私数据明文保存。隐私数据经过过滤处理后,才可以进入测试库。隐藏手机号、客户姓名等信息。保障隐私数据不会通过经分测试库泄露出去。详单数据通过视图方式展现给普通操作用户使用,视图中对手机号码后四位进行了加密处理。主数据仓库进行严格的权限控制,并且接受4A平台的安全管控。调研案例技术产品方案数据源BOSS、CRM…主数据仓库ETL测试库过滤普通用户高级用户视图权限4A平台管控江苏公司——配合4A平台管控下发数据主数据仓库中客户隐私数据明文保存集市不保存详单信息,如需要详单数据,需通过临时请求,详单也会进行过滤和加密处理。如:屏蔽对端号码和位置信息。给集市下发数据,过滤隐私数据,如:证件号码、地址等不下发。ELT、数据仓库、集市等都接受4A平台的安全管控。客户隐私信息通过专用名单表进行管理,涉及表中隐私信息的需求需进行审核和授权。调研案例技术产品方案数据源BOSS、CRM…主数据仓库ETL地市集市部门集市ETL屏蔽隐私4A平台管控医疗行业——消息发布采用匿名化技术去隐私化处理阶段:匿名化处理:姓名、地址等隐私数据,不可逆防止链接攻击:通过“邮编”、“生日”和“性别”唯一界定87%的美国公民,关联其他公开信息导致医疗信息泄露医疗行业的研究重点在防止链接攻击,引入K-Anonymity(K-匿名)模型、l-diversity模型、t-Closeness模型等技术对我们的借鉴:隐私数据识别需要防止链接攻击防止链接攻击调研案例技术产品方案金融行业——采用加密技术和分权管理模式金融行业IT系统在应用层面实现加密处理,在应用层面专门设立安全管理角色台湾彰化银行实施了采用第三方数据安全产品的案例,实现了DBA和SA的分权管理对我们的借鉴:数据使用、数据安全等职责分离,分权管理模式调研案例技术产品方案我们的思考?调研案例技术产品方案中国移动经分系统没有专门针对客户隐私数据进行保护;客户隐私数据泄露风险正在增加;亟需在经分系统引入客户隐私数据保技术。四类隐私数据保护技术匿名化保护技术将客户身份信息转换成特定的无意义字符串,如:“---”、“???”…不可逆加密保护技术采用对称、非对称加密算法进行加密是可逆的基于数据失真的技术采用随机干扰、阻塞(Blocking)、凝聚等算法,将数据进行转换特定情况可逆,如:保存每组数据的干扰值,可以做到可逆基于可逆置换算法将源数据内部信息进行位移变换或映射变换转换成目标数据可逆、高效调研案例技术产品方案四类隐私保护技术特点比较技术类别主要优点主要缺点代表技术典型应用匿名化保护技术适用于各类数据、众多应用,算法通用性高能保证发布数据的真实性实现简单存在一定程度的数据缺损存在一定程度的隐私泄露实现最优化的数据匿名开销较大不可逆匿名化模型:-k-匿名-l-diversity-m-invariance匿名化算法:-Mondrian-Incognito-r-cellular发布匿名化数据。基于发布的数据可进行各类数据挖掘操作,如-关联规则挖掘-决策树分类器构建等-聚类等加密保护技术数据真实、无缺损高隐私保护度可逆计算开销、通讯开销大部署复杂,实际应用难度较高SMC分布式下实现隐私保护的关联规则挖掘算法、数据匿名化算法[59]等分布式下的各种数据挖掘与发布操作,如-分布式关联规则挖掘-分布式数据匿名发布-分布式聚类-分布式安全计算等基于数据失真的技术计算开销小实现简单数据失真严重依赖于数据,不同数据需设计不同的算法随机干扰随机化回答阻塞凝聚各种数据挖掘操作,如-关联规则挖掘-关联规则隐藏-决策树分类器构建等基于可逆的置换算法数据真实、无缺损算法效率高可逆算法规则或映射表泄露对隐私数据威胁较大位置变换映射变换数据中心等数据规模较大的系统隐私保护调研案例技术产品方案相关技术在经分系统的使用建议隐私数据类别数据特征数据举例技术建议身份信息(显式标识符)不需SQL关联客户姓名、地址等加密保护技术需要SQL关联操作手机号码、IMEI等基于可逆的置换算法关联字段(准标识符)数值型数据邮编、性别、生日基于数据失真的技术保护效果检验匿名化保护技术敏感属性数值型数据位置信息基于可逆的置换算法描述性解释客户兴趣、客户偏好加密保护技术调研案例技术产品方案显式标识符(姓名、地址、身份证号…)敏感属性(位置信息、详单、短信内容…)准标识符(邮编、生日、性别…)隐私数据类别安全管理体系安全性测试和质控安全可维护性策略产品安全策