政府大数据处理综合解决方案数据质量的好坏决定了数据价值的高低。高质量的数据可以保证数据应用、数据服务的质量。高质量的数据已成为组织最具价值的资产之一。交换、共享和开放数据,同样面临数据质量的问题,高质量的交换、共享和开放数据不仅能保证数据应用和服务的价值,还可以保障和提升组织的公信力。交换、共享和开放政务数据,并保证数据的质量,是组织面临的一个严肃课题。针对政务数据的数据质量和数据安全,浪潮提出了一套基于政务数据的交换、共享、开放的完整解决方案,功能包括数据检测、数据清洗、数据加工、数据脱敏等。1.数据检测数据检测是按一定规则对数据质量的评估,浪潮对政务数据的梳理形成一套完整的数据元标准,依据数据元标准规范可以自动的对大部分数据字段做检测规则设定,没有自动设定检测规则的字段可以由人工设置,检测结果会以数据检测报告的形式输出。基于政务数据的特点和格式规范,针对不同类型的数据,会有不同的检测规则。1.1.数据标准用于数据检测、数据清洗的数据标准来源于政务数据的数据元标准,由浪潮梳理、总结、归纳出的数据元标准对数据元对应字段的长度、格式、字符类型等字段标准做了定义。系统会根据政务数据元字段标准规范,对待检测数据字段做智能分析和数据元匹配,与标准数据元匹配成功的待处理字段即可以按照数据元标准做检测、清洗等操作,对于没有匹配成功的或不认可自动匹配的字段可以在系统自定义设定检测规则。1.1.1.字段类型标准通过对政府大数据的各类数据字段的整理、归纳,整理出主要的数据字段类型及定义情况。中文字符可以包含汉字(中、国……等)、字母字符(a-z,A-Z)和数字字符等字母字符特指字母字符(a-z,A-Z)数字字符数字字符(0、1、2、3……)数值数值型字母+数字字母和数字字符日期日期型,包含年、月、日信息时间时间型,包含时、分、秒信息字典含有数据字典的字段综合含有各类字符并具有一定格式的字段1.1.2.字段格式标准数据字段内容格式标准采用了数据元相关标准,对字段的类型、长度、格式等通过字符予以标识,表示格式和示例如下。标准数据字段目录详见附件。c中文字符,可以包含汉字(中、国……等)、字母字符(a-z,A-Z)和数字字符等c12固定12位字符(即6个汉字)长度的中文字符c..12最多为12位字符(即6个汉字)长度的中文字符a特指字母字符(a-z,A-Z)a3固定长度的3位字母字符a..3最多为3位字母字符n数字字符(0、1、2、3……)n3固定长度的3位数字字符n..3最多为3位数字字符n..5,n2数值型,小数点前最多为5位数字,小数点后保留2位数字,总长度最多为8位数字字符an字母和数字字符an3固定长度的3位字母数字字符an..3最多为3位字母数字字符d8日期型,按年、月、日顺序全数字表示,格式为8位定长、全数字表示(YYYYMMDD),年用4位数字表示,月、日各用2位数字表示,彼此之间没有分隔符,如2002年12月25日,应表示为20021225t时间型,按时、分、秒顺序全数字表示,格式为6位定长、全数字表示(hhmmss)z综合性,可含有各种字符,且具有一定的格式。1.1.3.约束条件标准字段约束是对数据集字段间逻辑关系分析,依据字段间的相互依存关系、约束关系来检测字段内容的准确性。主要依存关系如下。导出字段A可由字段X导出归并字段A、B……可以归并为字段X条件字段A满足甲条件时,字段X内容为一1.1.4.数据目录标准浪潮针对政务数据目录的梳理形成了一整套完整的标准体系,结合字段类型标准、格式标准、约束条件标准,形成数据目录标准,数据目录标准中对其包含的数据字段的类型、格式,数据字段之间的约束条件进行预先定义,形成以数据目录为单位的格式和约束标准。在对数据集进行检测时,如果可以建立数据集层面的匹配,则不仅可以对数据字段做细致的检测,对数据的整体性也建立了检测依据。1.1.5.敏感数据标准针对数据安全性,浪潮制定了敏感数据标准,该标准包含敏感数据的定义、敏感词库的定义、黑白名单的定义等。个人信息字段涉及个人敏感信息的数据字段法人信息字段涉及企业敏感信息的数据字段涉密信息字段涉及隐私的数据字段约束信息由多字段可以推导出敏感数据的情况敏感词库含有敏感词库中内容的数据黑名单含有黑名单中内容的数据白名单含有白名单中内容的数据1.2.检测问题1.2.1.字段检测问题明细下面列出了不同类型的数据字段与可能检测出的数据质量问题的对应情况。中文字符字母字符数字字符数值字母+数字日期时间字典综合空值√√√√√√√√√含非标准字符√√√√√√含空格√√√√√√含换行符√√√√√√含非标准特殊字符√√√√√√字符长度超限√√√√√√值范围超限√√√√非字典项√不符合格式要求√√√√1.2.2.约束检测问题明细字段间的约束问题需要根据具体数据字段情况进行设定。如身份证与性别、年龄、出生日期的导出关系等。具体的约束检测规则详见附件。1.2.3.整体检测问题明细整体检测包括数据的完整性、一致性、时效性、唯一性等方面的检测,数据整体检测以浪潮梳理的政务数据目录标准为依托,辅以完整性规范、一致性规范等标准。字段完整性问题数据集是否含有某些关键字段记录完整性问题数据集记录是否完整记录一致性问题记录中的值是否冲突,如合计项的值字段一致性问题字段中的值是否冲突,如合计项的值字段唯一性问题字段是否重复记录唯一性问题对关键字段检测,是否含有重复记录时效性问题不同数据集时效要求的评测1.2.4.敏感问题明细(安全性)基于数据安全性的检测,针对数据中含有的敏感信息进行检测。含个人敏感信息字段涉及个人敏感信息的数据字段含法人敏感信息字段涉及企业敏感信息的数据字段含涉密信息字段涉及隐私的数据字段含约束敏感字段由多字段可以推导出敏感数据的情况含敏感词含有敏感词库中内容的数据含黑名单数据含有黑名单中内容的数据含白名单数据含有白名单中内容的数据1.3.检测方法1.3.1.依字段标准检测首先对待检测字段做智能匹配,去匹配数据元标准中的标准数据元,匹配成功后会依据匹配成功的数据元标准进行检测。1.3.2.自定义字段检测对于通过“依字段标准检测”没有匹配成功的或者匹配结果不满意的字段可以修改或自定义字段格式标准,通过修改或自定义的字段格式标准进行检测。1.3.3.依约束标准检测在系统中会依据对政务数量的标准和规范,设置一系列的数据字段约束条件,在完成待检测字段与数据元的匹配后,会检测该字段是否含有字段约束条件,并依据字段约束条件的相关规则进行检测。1.3.4.自定义约束检测对于通过“依约束标准检测”没有匹配成功的或者匹配结果不满意的约束条件可以修改或自定义,通过修改或自定义的约束条件标准进行检测。1.3.5.依数据目录标准检测(整体性检测)对于存在数据目标标准的数据集,如果完成数据集层面的匹配,则可以依据完备的数据目录标准进行从数据字段细节,到数据字段间约束性,到数据整体性的完整检测流程。1.3.6.自定义整体性检测自定义整体性检测可以设置数据集整体性检测规则,依据自定义的整体性规则对数据集的整体性进行检测。1.4.检测报告对数据的检测结果会以报告的形式输入,检测报告会详细的描述检测中出现的问题以及问题类型,会对检测问题做统计和分析操作,检测结果和分析结果会通过可视化图表等方式展示。同时,对于检测出的问题,可以通过清洗操作解决的会给出清洗建议,存在安全隐患的,会给出安全处理建议。1.4.1.问题描述问题描述罗列出检测中出现的各种问题以及问题的数量。1.4.2.问题分析问题分析是对检测中的问题进行分析和统计,并将分析和统计结果以可视化的形式展现。1.4.3.清洗建议清洗建议是针对可以进行清洗的数据,给出的清洗建议。清洗建议中包括是否适合机器清洗、人工清洗、机器+人工清洗,包括适合的清洗方法,具体的数据清洗方法会在下一章节中列出。1.4.4.加工建议加工建议是针对数据存在的整体性问题提出的加工建议,加工建议中包括是否适合机器加工、人工加工、机器+人工加工,包括适合的加工方法,具体的数据加工方法在后面章节中列出。1.4.5.脱敏建议脱敏建议是针对存在敏感性的数据提出的脱敏建议,具体的数据脱敏方法在后面章节中列出。2.数据清洗现实数据一般含有噪声、格式错误、数值超限、不完整、不一致等情况,数据清洗可以填补空缺数据、识别错误、消除噪声、纠正数据中的不一致。数据清洗是基于数据检测的结果对数据质量做的提升工作。数据清洗中很多方法并不能完全正确的修复数据,所以一些数据清洗方法只适用于准确性要求不高的数据。以下数据清洗方法中,除特别提到由人工处理的,其它方法均可以由系统实现。2.1.空缺值处理空缺值是指字段内容是空缺的,根据空缺内容字段的重要程度,可以选择不同的清洗方式。2.1.1.删除记录即删除有空缺的记录。可在设定好规则后由机器处理,情况包括:1、某条记录的某字段空缺时,删除该条记录;2、某条记录的某几个字段同时空缺,删除该条记录;3、某条记录空缺值超过X个时,删除该条记录;4、某条记录空缺值超过总字段数的Y%时,删除该条记录。2.1.2.人工填写通常数据量较大的情况下,此种方式并不适合,在空缺值较少的情况可由人工填写。人工填写空缺值的优点是经过人为判断,可以保证填充值的准确度。2.1.3.常量填充使用一个或若干个常量来填充空缺值,情况包括:1、直接使用一个常量填充该字段所有空缺值;2、随机从若干个常量中选择一个填充。2.1.4.统计填充对该字段中非空缺值进行统计,根据统计结果来选择空缺值填充内容,情况包括:1、对数值型数据,可以使用非空缺值的平均值、最大值、最小值、众数、某分位数等做填充;2、对时间型(日期型)数据,可以使用非空缺值的平均时间(日期)、最近时间(日期)、最远时间(日期)等做填充;3、对字符型数据,可以对非空缺值分类并统计出各类别的数量和占比,根据各分类数量或占比的值选择如最大量、最小量等做填充。2.1.5.条件填充条件填充是依据该条记录中其它非空字段的特点,设置关联条件,对空缺值进行填充。情况包括:(下面设定A字段为待填充的含空缺值字段,B、C……为其它关联字段)1、存在与A字段强关联的B字段,通过B字段推理出A字段的内容,如学历为研究生的大部分都通过了英语六级;2、存在与A字段具有约束关系的B字段,通过B字段推导出A字段内容,如通过身份证号码可以推导出年龄、出生日期、性别等字段。2.1.6.分析填充分析填充通过数据统计、分析、挖掘等算法,来寻找空缺值最可能的值给予填充。分析填充需要人工设置分析方法并选择分析字段,需要人工和计算器共同完成。情况包括:1、关联分析,使用关联分析的挖掘方法分析数据,寻找出强关联的字段,根据强关联字段关联情况寻找最可能的值,当数据字段具有强关联时,此种方式有效。2、聚类分析,使用聚类分析的挖掘方法分析数据,将非空数据记录聚类成若干簇,根据簇中字段特点来选择最可能的值。3、回归分析,使用回归等数据挖掘方法,计算最可能的值,此种方式对数值型数据有效。2.1.7.规则填充规则填充是指如果数据元标准、数据目录标准中存在相应的标准规范,可以直接按照标准规范中的要求进行填充。规则填充依据“条件填充”的规范,是事先定义好的标准。2.2.违规值处理违规值问题是指数据的格式不符合要求,或者含有格式要求外的字符,如姓名中出现阿拉伯数字。2.2.1.删除记录即删除含违规值记录。可在设定好规则后由机器处理,适于删除记录操作的情况包括:1、关键字段存在违规值,且无法恢复;2、编码错误导致存在大量违规值,且无法恢复;2.2.2.人工修改通常数据量较大的情况下,此种方式并不适合,在违规值较少的情况可由人工修改。人工修改违规值的优点是经过人为判断,可以保证修正值的准确度。2.2.3.内容清空即清空违规值字段内容,当作空缺值处理。2.2.4.违规字符清除对于存在违规字符的数据,通过设置规则清理掉数据字段中的违规字符,而保留不违规字符,可直接将违规字符替换为空。适于违规字符清理的操作包括如:1、时间或日期型数据中含有如“()”等违规字符;2、名字等字段中含有空格;3、身份证号码等字段中