Visplause: 一个基于合理性检查的时序数据质量评估系统
一、简介:
本文提出的方法普遍适用于各种形式的时序数据。由于本文是在研究能源数据时受到的启发,因此文章以能源数据为例进行介绍。能源数据多取自各个能源站中的传感器,如光伏电厂、风车、水电厂等。在对获取到的能源数据进行下一步的预测或统计任务前,均需要对数据进行质量评估,避免利用大误差数据进行工作。常见的能源数据质量检测方法是数据合理性检查(plausibility check),但是目前如何利用可视化的方法将合理性检查的结果进行统一管理、分析仍然是一个问题。
针对现在的数据量大、数据维度高、合理性检查多样性、实际检查的时间区间局限性等挑战,本文利用了基于数据属性和合理性检查结果的元数据,根据结构化的元数据将数据从维度上分为若干个子集,从而构建了一个层次结构,实现了可扩展的数据的集合。
文章使用的数据包括95个光伏电站的传感器数据和若干个气象站的传感器数据,共计160余条时间序列,9000余条数据记录。每个时间序列都会进行若干次合理性检查(plausibility check),每次合理性检查会指定一个检查规则,例如上图右下角第一列数据,指定的规则为是否大于0,检查结果由一个二进制序列表示,符合规则的记录用1表示,反之用0表示。本文使用的检查规则共529条,可以概括为如下:
1.是否数据缺失
2.是否数据异常:白天为0, 晚上不为0,数据点离群,数据产生非0的重复等等。
3.是否违反了约束条件:违反边界条件,时间节点异常,时间戳重复等等。
对于每个检查出来的具有质量问题的记录都会赋予其一个严重程度指标,包括:严重、警告、不严重三种。上述所有的数据缺失都标记为严重,数据异常和违反约束将视数据的偏离程度而定,偏离大的标记为严重,微小的偏离标记为不严重。
于是传感器读取的元数据中又可以加上质量问题的类别、子类、严重程度等若干信息(见上图右上角),文章将通过结构化的元数据中记录的数据属性对所有有质量问题的时序数据进行层次划分。
三、系统介绍
系统采用的是增量式设计,初始状态时的系统仅包含上图的a、c部分,且没有构建好的层次结构,整个系统为一条线。之后,用户根据需要构建出文章中的层次结构,逐步加入需要的视图,例如时间分布情况、问题严重程度、时序曲线、原始数据等视图,最终共同构成了上述完整的系统。
图中a部分为用户自己构造的层次结构,可根据问题类别、时序数据、传感器种类等分类方法区分不同层次;b部分为一个简单的检查规则和符合要求的时序数据统计;c部分为经过变形的scale-stack bar chart用于统计各个类别的数据质量问题在相应的时序序列中的出现占比;d部分为每一行代表的问题类别出现的频率在时间上分布;e为严重程度统计;h为原始时序数据;i为原始数据。
其中scale-stack bar chart是为了解决直方图中不同类别的数据数量相差过多的问题。它将区间线性的分为四段,每段均从0开始,表示一个数量级上的数据分布情况。
四、案例分析
文章通过三个任务,分别进行了三个案例分析,这里对案例不再进行阐述,三个任务包括:
1.常规数据质量评估
2.数据质量问题原因分析
3.数据的选择与导出。
五、设计决策
文章采用整整两页的篇幅,对设计中的十个决策问题阐述了做出此决策的理由,被进行论证的十个决策如下:
1.表格布局
2.合理性检查的层次结构构造
3.层次结构的缩进布局
4.比例堆叠柱状图
5.统一的颜色映射
6.多类问题的专用色方案
7.特征分布的不同分割
8.用区域展示特征分布
9.关联视图展示相似性
10.高度集中的初始仪表盘设计
六、总结
文章提出的方法具有两个特色:充分利用了元数据进行层次结构的构造以及对合理性检查进行的层次分类。这个方法的理念不局限于能源数据,能适用于几乎全部时序数据的质量评估或是异常检测。文章的各个设计决策都经过反复仔细推敲,并且提出了一种新的系统设计理念:从无到有。