TACO: Visualizing Changes in Tables Over Time
论文:TACO: Visualizing Changes in Tables Over Time
作者:Christina Niederer, Holger Stitz, Reem Hourieh, Florian Grassinger, Wolfgang Aigner, and Marc Streit
发表会议:IEEE InfoVis 2017
介绍
很多领域下,表格数据是一种非常常见的数据。当表格有多个版本的时候,理解表格数据就需要比较不同版本的表格。然而当前的可视比较工具的可视结果难以解释,并且不适用于大规模数据。作者设计了一个新的可视化工具TACO (TAble COmparison),用于比较表格版本的随时间变化情况。
数据
文章中使用的数据包括两个:一、自1986年到2012年的夏季奥运会比赛数据;二、大规模肿瘤基因组学数据(病人及其对应的microRNA集合)。
表格数据变化类型
作者首先对于表格数据的变化类型进行了归纳,包括四个方面:
1、结构变化,主要体现在表格行列的增加或者删除,比如在奥运会数据表中,参赛国和比赛项目的变化。
2、内容变化,主要体现在表格数据单元格的值的变化。
3、排序变化,主要体现在表格的行列位置发生变化,比如在奥运会数据中,国家按照总金牌数来排名。
4、合并/分离变化,主要体现在多行(列)合并为一行(列),比如多次实验结果取平均值。
3.基于每个单元格变化的细节比较
进一步,分析者可以查看基于单元格的变化情况,分析表格变化的原因。用热力图的方式展示两个表格各自的单元格值。对于表格变化的可视化,文章对于不同变化类型设计了不同的可视化方法:
对于夏季奥运会数据,我们从时间轴中可以看到,随着时间增加,矩形的高度不断增加,这说明参加奥运会的国家和比赛项目增加。同时我们也发现了在1934年和1948年之间的时间轴上没有信息。这是因为由于第二次世界大战,1940年和1944年没有举办奥运会。因此我们聚焦于世界大战前后奥运会的变化,即比较1934年和1938年的奥运会数据。在图(c)中,列上面有少量的绿色,这说明有少量的比赛项目增加了。同时在表格数据行上的变化非常大,意味着有大量的国家新参加了,同时也有许多国家缺席了。在(d)中可以进一步分析原始的表格数据,我们可发现:
- 德国参加了1936年,缺席1948年
- 法国、比利时、意大利于1948年参加
- 比赛项目增加女子200米和女子500米单人皮艇
- 芬兰于1936年赢得男子10000米三枚奖牌,但1948年颗粒无收,所以排名从1936年第六 掉到1948年最后