数据质量赛诺贝斯·智和中心背景和意义数据时代已经到来,大数据的应用层出不穷,正改变着公共决策、企业管理、市场营销以及生活的方方面面。我们知道,大数据要发挥作用,有一个前提就是数据是好的数据。如果数据使用者将“脏数据”当作好数据,加以分析利用,作出的决策非但不会达到预期的效果,甚至还会更糟糕,因此,数据质量对大数据分析有着至关重要的作用。Part01Part02Part03Contents目录P01标准策略P12方法P25数据质量管理的策略数据质量的核心要素脏数据的特征数据清洗的策略数据清洗的流程数据清洗的方法数据查重的方法数据去重的方法数据质量管理的策略建立评价体系持续改进工作机制采集、分析与监控完善元数据管理01020304数据质量的核心要素规范性A完整性B准确性C唯一性D时效性E…F脏数据的特征格式错误归类不标准内容错误虚假缺失无效重复数据清洗的策略人工清洗通用数据清洗程序或平台编写代码自动清洗特定领域的专业数据清洗程序标准配置预处理检测修正人工验证建立标准,异常特征库,自动修正知识库确定数据的清洗方案进行如去打印字符,去空格,半全角转换,繁简转换等根据规则库,或统计学方法检测异常数据对人工清洗后的数据再次检测对于机器无法自动清洗的数据人工清洗利用自动修正知识库对已知错误进行修复数据清洗的流程数据检测的方法010203040506070809010203040506070809定义标准格式…统计学方法推测异常数据借助第三方数据源校验定义有效字符范围定义有效值范围定义已知异常特征校验与其他字段间的关系借助自有其他数据源校验数据清洗的方法01根据错误特征知识库更正02根据其他字段推导更正03根据自有其他数据源更正04根据第三方数据匹配更正数据查重的方法赛诺贝斯|(北京)|营销技术|股份有限公司|上海|分公司字号区域经营范围组织形式区域组织形式公司名称拆分(语义分析):查重规则=fn(字段1)+fn(字段2)查重方案=规则1OR规则2eg.规则1=取姓氏(姓名1)+取公司名称关键字(公司名称)通用查重规则:数据去重的方法合并规则:从识别为重复的一组数据中挑选一个最终希望保留的数据的规则如:取优规则:1,先看字符长度,优先选择字符长度最长的;2,其次看数据更新时间,优先选择最近更新的;1,先看各字段完备度;2,再看数据更新时间字段,优先选择最近更新的;当取优的那条数据部分字段空值时,可以将同组其他数据的这个字段的值合并过来的规则如:产品或工具介绍数据质检专家•按完备率,分类,格式,重复度四个维度对数据进行评估,给出评分和评语;•对错误数据给出修正建议,用户确认后自动对数据进行修复;•对于系统无法自动修正的数据,可以提交订单,由专业的数据清洗团队进行人工清洗;•用户可以自定义适合自己的清洗规则;数据清洗工具-Excel插件版•将日常数据清洗常用的操作集成到一个Excel插件上,可以做这些事情:•验证:性别,年龄,邮件,邮编,身份证,手机,电话,区号,省,市,县•数据拆分:电话区号拆分,多电话/手机拆分,地址拆分,姓名拆分•数据匹配:行业匹配,关键字匹配,区号匹配城市,区号匹配邮编,县匹配区号,城市匹配区号,手机匹配归属地,邮编匹配城市区县•通用字符转换:全半角转换,简繁体转换,去打印字符,去空格等。数据自动化清洗协作工具•与企业现有业务流程集成完成数据流闭合:•通过数据采集程序客户端从各个业务系统中收集待回库数据;•将采集程序收回来的数据提交到数据清洗平台;•数据清洗平台根据事先定义好的清洗规则对提交的数据进行自动清洗;•数据专员对清洗结果进行审核,对系统无法解决的问题人工处理,并总结经验完善清洗规则库;•清洗后的数据进入数据仓库,做进一步的分析和挖掘。企业数据查重工具•工具的特点是:仅通过“公司名称”来对企业数据进行查重。•实现原理:利用专门收集的词汇库对公司名称进行分词,并对公司名称中的词汇进行词性识别,将公司名称拆分为区域,字号,经营范围,组织形式,分支机构等•利用公司名称中的字号,区域,经营范围等信息对公司进行相似度匹配,给出“不确定”,“确定重复”,“确定不重复”的建议结果客户案例:微软SMB数据部解决问题:对新收集到的数据与大库客户资料进行查重客户反馈:客户几乎每天都在使用本工具,依赖程度特别高,已经连续5年续签约。其它客户:西门子,已经连续2年续约数据去重合并工具•工具特点:对数据查重的结果进行了精细化处理:•系统可以根据事先配置好的取优规则,对识别为同一组的数据进行择优,同样根据事先配置好的合并规则对同一组的数据的各个字段最终要保留的值进行选择。•用户对系统推荐的“最终保留”的数据和字段进行确认审核;如果审核不通过,允许用户在线直接修正。案例行业匹配的方法上海市|再担保|有限公司区域|经营范围|组织形式01基于公司名称进行分词,提取公司名称中词性为经营范围的词汇公司名称分词02基于公司对应的工商数据中的经营范围进行分词,得到该公司经营范围相关的词汇经营范围分词担保/再担保/投资/投资咨询/资产管理/会展服务03根据公司名称与互联网搜索公司简介,并对这些文章取关键字,并排除干扰词公司简介分词再担保/担保/投资/投资咨询/资产管理担保保险/投资机构/各种投资/控股及其它投资机构04对SIC行业进行分词,并与公司相关的词汇进行交集,从而找出相关的行业行业匹配担保保险05通过限定行业范围和人工审核的方式对匹配结果进一步优化,取优校正再担保