数据清洗需求设计V1.1

lihf1987
1 ℃
2020-05-30

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

数据清洗（时间序列数据TSD（timeseriesData）需求设计DataCleaningModuleDCM应该属于DAX的一个模块。1、数据清洗的目的原始采集的数据会受到传感器、变送器、信号传输、环境干扰（电磁、潮湿、高热）、人为造假等各种因素的影响，数据中会包含一些受到“污染”的数据。如果直接利用这些数据进行控制、绘图、制表、数据分析、数据挖掘，则不可避免的会影响分析过程和结果，总的来说：低质量的数据无法获得高质量的分析结果。任何规模的数据在分析以前，有必要对原始数据进行预处理，以使其达到必要的质量，这个过程我们称之为数据清洗。数据清洗后，一般有两类用途，一是直接用于在线过程控制，二是用于事后分析。那些数据需要清洗任何直接采集的数据都需要进行清洗，利用清洗程序对数据处理后，会对数据的各种缺陷进行标记，对发现的有缺陷的数据进行抛弃、估计、修改。很多工厂由于缺乏数据清洗这个环节，会大大影响过程控制的可靠性。低质量的数据，在事后分析时会带来很大的困难。不少环境监测类的投资，由于缺乏数据质量控制和数据清洗技术，会使投资回报大大降低。2、通用性设计常见的原始数据问题1)数据缺失2)跳点3)干扰（白噪声或其它）4)漂移（线性与非线性）5)超限6)滞后造成的时间不同步7)逻辑缺失（因果关系、相关关系）8)数据检验的方法1)上下限制检验法2)斜率检验法3)差值检验法4)频率检验法5)时间区间检验法6)人工数据修正7)关系检验（因果、相关性）8)数据处理的方法1)删除法2)补差法a)取前点b)均值插补c)回归插补d)极大似然估计3)回归法4)均值平滑法5)离群点分析6)小波去噪7)人工修改8)对时间序列数据的定义1)源数据序列（OriginTSD）：一般保存人工采集导入和自动测报采集的原始数据，为确保该类型数据安全，数据设置只读。2)生产时序数据（ProductionTSD）：拷贝自源数据，加以校核和清洗。对数据的常规维护通常在这类序列上进行。3)衍生时序数据（DerivedTSD）：一般是通过一些标准方法计算的统计序列，例如日月年特征值等。3、数据处理数据处理的过程是通过数据计算任务来执行，数据清洗属于计算任务的一部分。1)用于在线过程控制的计算任务，此类计算任务的执行实时性高，例如AVS，少人无人值守控制平台，计算任务在常规自控的轮询周期中。一般的刷新率是秒级或毫秒级。此类计算任务最好在PLC中处理，如无法再PLC中处理，就在上位机进行计算。进行数据清洗的计算任务，一般属于此类，计算是实时进行。2)用于事后分析的计算任务，此类计算任务的实时性不高，用途主要是数据分析，例如各类KPI、周期性的数据整理、各类自定义的计算等等，大数据分析通常也是利用这些数据。此类数据的计算任务实时性不高，可以在事后按照固定的周期或者条件进行。4、数据质量（DQ）的定义：1)完整性Completeness完整性指的是数据信息是否存在缺失的状况，数据缺失的情况可能是整个数据记录缺失，也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低，也是数据质量最为基础的一项评估标准。2)一致性Consistency一致性是指数据是否遵循了统一的规范（这些规范可以是格式，数位，或者是数据的统计性特征），研判数据集合是否保持了统一的规范。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范可以特指：一项数据存在它特定的格式，例如手机号码一定是13位的数字，IP地址一定是由4个0到255间的数字加上”.”组成的。规范也可以特指，多项数据间存在着固定的逻辑关系，例如PV一定是大于等于UV的，跳出率一定是在0到1之间的，还有数据统计性特征，比如仪表测量的数据和人为伪造的数据的统计特征是显著不同的。3)准确性Accuracy准确性是指数据记录的信息是否存在异常或错误。和一致性不一样，存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。其次，异常的大或者小的数据也是不符合条件的数据。一般而言，仅仅靠一些简单规则无法判断数据的准确性，通常会借助人工或自动系统的检验，或者在检测过程中增加一些标准样的测量。比较特定样品的检测值就可以判断该批次检测的数据质量。数据质量的准确性可能存在于个别记录，也可能存在于整个数据集，例如数量级记录错误。这类错误则可以使用多种方法去审核。一般数据都符合正态分布的规律，如果一些占比少的数据存在问题，则可以通过比较其他数量少的数据比例，来做出判断。4)及时性Timeliness不同的应用场景对数据的及时性要求不同，在线控制条件下，假如某个关键性的输入数据无法及时获得，会影响后后续的过程控制。在事后分析中，对及时性的要求就大大降低。5)合理性Validation6)关联性Integration7)绝对质量8)过程质量数据标注的方法源数据序列ODSN=Normal正常U=Unchecked未检验E=Estimated估计数据M=Missing丢失数据生产数据序列PDSG=Good优质E=Estimated估计，包括自动修改及人工修改，标注方法S=Suspect可疑数据U=Unchecked未检查L=Loss丢失数据M=Manualinput人工输入数据C=CheckPoint质控检查点（用于和鸿海配合）衍生时序数据DDSD=Derived衍生的，这个部分设计请参考测点数据管理（计算任务）数据标记除了上述表述数据分析结果的项次外，建议还记录标记数据的算法名称、版本、计算时间等。对时间序列数据整体质量的定义时间序列数据表现为按照一定频率不断记录的数据，如每秒记录1次的时间序列数据在1小时内会有3600个记录，每分钟记录1次的数据每天会有1440个记录。需要有一种方法整体性的评估某个时间区间内的时间序列数据的整体质量。例如：某个采集频率为1/min的源数据在10天时间内的整体数据质量，根据自动检验的方法检验后，结果为：正常88.2%，丢失11.3%，估计数据0.5%，检测率100%；没有经过自动检测的数据，统计标记为未检测。某个采集频率为1/min的生产序列数据在10天时间内的整体数据质量，根据自动检验的方法检验后，结果为：优质83.5%，估计15.7%，可疑0.8%，检测率100%；没有经过自动检测的数据，统计标记为未检测。根据数据的自动检测情况，可以将源数据或者生产序列数据分类为优质、正常、较差、不可用等类别【这个部分尚需讨论】。在后续的大数据分析中，如果采用了较差、不可用等标记的数据，会极大的影响分析结果，导致错误的结论。用于在线控制的数据清洗功能在线数据清洗的基本功能如下：1)数据清洗任务应该在轮巡任务中，循环一周，该任务就会执行一次。2)该场景下的数据清洗任务主要是目标是加工生成：生产序列数据。3)如当前某测点的检测结果生成的数据标记，对应措施如下表：数据标记措施风险类型G采用原值小PDSE采用估计值较小PDSS采用上一个标记为G的原值较小PDSU不做清洗处理，采用原值大PDSM无无4)每个控制器既可以有自控程序判断启动，也可以由人工启动（S2）；5)当前控制器的某一路信号被判断为不可信时，系统可以用虚拟信号替代（S2）6)需要有一张图，可以呈现所有的控制器的在用状态，最好采用自控中的标准图形和标注方法（S2）注：这里后面标记为S2的需求，以后并入少人无人值守系统设计的需求中。用于事后数据分析的数据清洗用于事后分析数据清洗的基本功能如下：1)数据清洗任务根据任务特点，选择定时清洗、逢变清洗、条件清洗等，常见的事后处理规则是间隔一定时间后批处理。处理时需要考虑依赖关系，即首先是对ODS数据处理，然后是PDS、DDS，其它的再加工应该在上述任务之后。2)数据清洗任务应该在专用的数据处理程序中进行，在大任务量情况下支持多机部署。3)数据清洗应该可以并入DAX平台中，作为一个必要的功能模块。4)支持对第三方数据进行数据清洗，第三方数据必须符合DAX的数据规范，导入DAX数据库中，进行清洗选项的配置，启动清洗，生成结果，结果导出。5)支持第三方软件通过接口，条件是这些数据应该在被合理的配置过了，获取我们的清洗后数据结果，作为一个数据服务。6)其它数据应用程序在使用清洗过的数据时，可以根据读到的数据标记，制定自己的处理规则。7)DAX中的报表功能，推荐使用PDS和DDS作为源数据。8)DAX中的曲线绘制功能，在读取数据标记后，绘制PDS和DDS趋势曲线时，可以解析不同的标记，并在曲线上显示出来《参见数据清洗的管理.1》。9)DAX中曲线绘制功能中的数据列表选项，应该能够对异常数据做出醒目标记。10)可以接收特定质控数据（如鸿海），将数据和某一个TSD进行合并分析。接收的方法推荐由鸿海直接采集进我们的DAX数据库，其次允许数据导入后分析。11)数据脱敏..12)5、数据清洗的管理数据清洗是DAX功能的一部分，但在一些特定情况下，可以单独使用。数据清洗后需要呈现以下几个场景1)针对单测点的时间序列数据（选定的时间段内）a)可以用趋势图，或者用数据表的形式，展示该数据中存在问题的数据点，并可以把这些数据点用特殊的图形、符号或颜色标记出来。b)可以用饼图或者百分比的数字，表现出某段时间区间内的存在问题的数据比例，并分类展示。c)可以用统计性的指标，如方差、分布特征等，特殊情况下这些统计性指标可以作为时间序列数据的数据指纹，用于判定不同期限的数据是否一致。因测量方法、传感器器更换、传感器位置更换可能会带来一致性的不同。一般而言，人工伪造的数据，不符合正态分布，比较容易识别。d)在趋势图下面X轴下部，有个色带可以用不同的颜色标记不同质量数据的颜色，进而呈现出分布情况。i.例如绿色是优质数据，黄色是未检验数据，红色是可疑数据等等2)针对多测点的时间序列数据（选定的时间段内）a)在一个数据表中，可以用不同的标记（颜色、）表现出不同的测点数据的质量情况，参见《对时间序列数据整体质量的定义》。数据质量低于某个指标，需要显著的标记为不可用。排序中的不同的列，可以是单测点数量质量的某个维度。b)可以用排序的方法罗列出数据表中数据质量从高到低，或者从低到高的排序。c)检验多测点时间的相关性，并采用适合表达相关性的图表方式（参考某些BI软件，如SPSS）进行表达。根据不同的相关性群组，进一步可以进行聚类分析，因果检验等。d)3)为后续数据挖掘和分析做好数据基础a)了解行业排名前三的数据分析和挖掘软件，了解他们的数据结构，DCM应该能够输出和他们匹配的数据结构，有这些软件的用户可以直接使用DAX。b)4)数据清洗的配置a)提供为任意一个单测点进行数据清洗所需的配置项，内容包括需要进行的自动检测，需要检测的项目进行勾选，某些检测项勾选后还需要填充必要的参数。该配置项可以并入DAX的数据基础配置中。b)任何已经配置好的清洗选项，在使用过程中可以修改，修改后可以选择立即启用，或某具体时间后启用。建议可以给用户提供演算功能，即供用户检查启用某配置参数后的计算结果，用户对结果满意后可以保存生效，覆盖前一配置。新的配置参数启用后，数据处理后的结果可能不同，建议系统不重新计算在新配置启用前的老配置的计算结果，如果用户坚持要做，只能用手工方式去做。『鉴于复杂的数据嵌套关系，不建议自动』c)为了便于操作，某一类型的数据集和在被选中后，可以执行同一配置。d)可以提供一张表，行是某一个具体TSD数据，列是对这个数据安排的所有数据处理任务，可以呈现多个TSD数据的计算任务比较，便于分析。5)6)适配数据清洗的数据库设计