Home > 其他 > TACO: Visualizing Changes in Tables Over Time

TACO: Visualizing Changes in Tables Over Time

论文:TACO: Visualizing Changes in Tables Over Time

作者:Christina Niederer, Holger Stitz, Reem Hourieh, Florian Grassinger, Wolfgang Aigner, and Marc Streit

发表会议:IEEE InfoVis 2017

 

介绍

很多领域下,表格数据是一种非常常见的数据。当表格有多个版本的时候,理解表格数据就需要比较不同版本的表格。然而当前的可视比较工具的可视结果难以解释,并且不适用于大规模数据。作者设计了一个新的可视化工具TACO (TAble COmparison),用于比较表格版本的随时间变化情况。

 

数据

文章中使用的数据包括两个:一、自1986年到2012年的夏季奥运会比赛数据;二、大规模肿瘤基因组学数据(病人及其对应的microRNA集合)。

表格数据变化类型

作者首先对于表格数据的变化类型进行了归纳,包括四个方面:

1、结构变化,主要体现在表格行列的增加或者删除,比如在奥运会数据表中,参赛国和比赛项目的变化。

2、内容变化,主要体现在表格数据单元格的值的变化。

3、排序变化,主要体现在表格的行列位置发生变化,比如在奥运会数据中,国家按照总金牌数来排名。

4、合并/分离变化,主要体现在多行(列)合并为一行(列),比如多次实验结果取平均值。

表格数据变化计算
对于表格数据的变化,文章通过以下方式进行计算。首先基于对比的两个表格进行并操作,两个表格分别与并的结果进行比较,得到发生变化的单元格。

变化信息多层次聚合
为了支持大规模表格变化的可视化,我们需要对表格的变化做一些聚合。对于表格的变化,绿色代表单元格增加,粉色代表删除,蓝色代表单元格值发生变化。文章对表格变化做了不同层次的聚合,首先总变化比例(b)展示了整个单元格整体变化的比例,行列变化图(e,f)统计了每行每列变化的比例,2维变化比例(g)图展示了行列上的总变化比例。

可视化设计
文章采用overview+detail的可视化设计,从概览到细节逐层进行比较:
1.基于时间线的总览
stacked bar展示表格数据两个连续版本的总体变化比例,其中,矩形总高度编码表格大小,颜色高度编码各个变化类型的数量。

2.表格基本信息和变化预览
进一步,分析者可以选择两个感兴趣的表格进行对比,从一些聚合的变化信息上了解大概。信息窗展示两个表格的基本信息,二维化比例图展示了行列上的变化比例。颜色和之前的编码一样,绿色代表增加,粉色代表删除,蓝色代表单元格变化。

3.基于每个单元格变化的细节比较

进一步,分析者可以查看基于单元格的变化情况,分析表格变化的原因。用热力图的方式展示两个表格各自的单元格值。对于表格变化的可视化,文章对于不同变化类型设计了不同的可视化方法:

结构变化(行列的增删)——绿色或者粉色的直线
内容变化——渐变的颜色编码归一化的值变化
合并分离——Y连接符
排序变化——紫色的线连接原始位置和最新位置

案例分析

对于夏季奥运会数据,我们从时间轴中可以看到,随着时间增加,矩形的高度不断增加,这说明参加奥运会的国家和比赛项目增加。同时我们也发现了在1934年和1948年之间的时间轴上没有信息。这是因为由于第二次世界大战,1940年和1944年没有举办奥运会。因此我们聚焦于世界大战前后奥运会的变化,即比较1934年和1938年的奥运会数据。在图(c)中,列上面有少量的绿色,这说明有少量的比赛项目增加了。同时在表格数据行上的变化非常大,意味着有大量的国家新参加了,同时也有许多国家缺席了。在(d)中可以进一步分析原始的表格数据,我们可发现:

  • 德国参加了1936年,缺席1948年
  • 法国、比利时、意大利于1948年参加
  • 比赛项目增加女子200米和女子500米单人皮艇
  • 芬兰于1936年赢得男子10000米三枚奖牌,但1948年颗粒无收,所以排名从1936年第六 掉到1948年最后

分享到:

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>