数据清洗需求设计V1.1

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据清洗(时间序列数据TSD(time series Data)需求设计

Data Cleaning Module

DCM应该属于DAX的一个模块。

1、数据清洗的目的

原始采集的数据会受到传感器、变送器、信号传输、环境干扰(电磁、潮湿、高热)、人为造假等各种因素的影响,数据中会包含一些受到“污染”的数据。如果直接利用这些数据进行控制、绘图、制表、数据分析、数据挖掘,则不可避免的会影响分析过程和结果,总的来说:低质量的数据无法获得高质量的分析结果。

任何规模的数据在分析以前,有必要对原始数据进行预处理,以使其达到必要的质量,这个过程我们称之为数据清洗。

数据清洗后,一般有两类用途,一是直接用于在线过程控制,二是用于事后分析。

那些数据需要清洗

任何直接采集的数据都需要进行清洗,利用清洗程序对数据处理后,会对数据的各种缺陷进行标记,对发现的有缺陷的数据进行抛弃、估计、修改。

很多工厂由于缺乏数据清洗这个环节,会大大影响过程控制的可靠性。低质量的数据,在事后分析时会带来很大的困难。不少环境监测类的投资,由于缺乏数据质量控制和数据清洗技术,会使投资回报大大降低。

2、通用性设计

常见的原始数据问题

1)数据缺失

2)跳点

3)干扰(白噪声或其它)

4)漂移(线性与非线性)

5)超限

6)滞后造成的时间不同步

7)逻辑缺失(因果关系、相关关系)

8)

数据检验的方法

1)上下限制检验法

2)斜率检验法

3)差值检验法

4)频率检验法

5)时间区间检验法

6)人工数据修正

7)关系检验(因果、相关性)

8)

数据处理的方法

1)删除法

2)补差法

a)取前点

b)均值插补

c)回归插补

d)极大似然估计

3)回归法

4)均值平滑法

5)离群点分析

6)小波去噪

7)人工修改

8)

对时间序列数据的定义

1)源数据序列(Origin TSD):一般保存人工采集导入和自动测报采集的原始数据,为

确保该类型数据安全,数据设置只读。

2)生产时序数据(Production TSD):拷贝自源数据,加以校核和清洗。对数据的常规

维护通常在这类序列上进行。

3)衍生时序数据(Derived TSD):一般是通过一些标准方法计算的统计序列,例如日

月年特征值等。

3、数据处理

数据处理的过程是通过数据计算任务来执行,数据清洗属于计算任务的一部分。

1)用于在线过程控制的计算任务,此类计算任务的执行实时性高,例如AVS,少人无

人值守控制平台,计算任务在常规自控的轮询周期中。一般的刷新率是秒级或毫秒

级。此类计算任务最好在PLC中处理,如无法再PLC中处理,就在上位机进行计算。

进行数据清洗的计算任务,一般属于此类,计算是实时进行。

2)用于事后分析的计算任务,此类计算任务的实时性不高,用途主要是数据分析,例

如各类KPI、周期性的数据整理、各类自定义的计算等等,大数据分析通常也是利

用这些数据。此类数据的计算任务实时性不高,可以在事后按照固定的周期或者条

件进行。

4、数据质量(DQ)的定义:

1)完整性Completeness

完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价

值就会大大降低,也是数据质量最为基础的一项评估标准。

2)一致性Consistency

一致性是指数据是否遵循了统一的规范(这些规范可以是格式,数位,或者是数据的统计性特征),研判数据集合是否保持了统一的规范。数据质量的一致性主

要体现在数据记录的规范和数据是否符合逻辑。规范可以特指:一项数据存在它特

定的格式,例如手机号码一定是13位的数字,IP地址一定是由4个0到255间

的数字加上”.”组成的。规范也可以特指,多项数据间存在着固定的逻辑关系,例如

PV一定是大于等于UV的,跳出率一定是在0到1之间的,还有数据统计性特征,比如仪表测量的数据和人为伪造的数据的统计特征是显著不同的。

3)准确性Accuracy

准确性是指数据记录的信息是否存在异常或错误。和一致性不一样,存在准确性问题的数据不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。

其次,异常的大或者小的数据也是不符合条件的数据。

一般而言,仅仅靠一些简单规则无法判断数据的准确性,通常会借助人工或自动系统的检验,或者在检测过程中增加一些标准样的测量。比较特定样品的检测值

就可以判断该批次检测的数据质量。

数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用多种方法去审核。

一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。

4)及时性Timeliness

不同的应用场景对数据的及时性要求不同,在线控制条件下,假如某个关键性的输入数据无法及时获得,会影响后后续的过程控制。在事后分析中,对及时性的

要求就大大降低。

5)合理性Validation

6)关联性Integration

7)绝对质量

8)过程质量

数据标注的方法

源数据序列ODS

N = Normal 正常

U = Unchecked 未检验

E = Estimated 估计数据

M = Missing 丢失数据

相关文档
最新文档