Home > 其他 > SkyLens: Visual Analysis of Skyline on Multi-dimensional Data

SkyLens: Visual Analysis of Skyline on Multi-dimensional Data

论文:SkyLens: Visual Analysis of Skyline on Multi-dimensional Data

作者:Xun Zhao, Yanhong Wu, Weiwei Cui, Xinnan Du, Yuan Chen, Yong Wang, Dik Lun Lee, and Huamin Qu

发表会议:IEEE VAST 2017

 

介绍

日常生活中,我们总是要在一个多维数据集中比较多个候选者,然后最终做出决定选择一个。例如,旅游的时候我们想要选择一个目的地,我们往往会考虑花费、气候、安全性等。当数据量比较大时,做选择就要进行多次对比,非常耗时。因此,一般会采用skyline查询,自动的抽取出一系列优质的skyline point作为候选,这些候选不会影响最终结果。然而,Skyline查询减少了需要考虑的数据,但是1)用户还得在skyline points中查找自身喜好的数据,2)skyline points数量可能仍然比较多。因此,我们需要一个比较skyline的工具。

 

挑战

比较skyline主要分两方面:首先是解释skyline查询的结果,一个skyline point的构成原因不一定是他在某个维度是最好的,也有可能多个维度的综合评判。然后是要比较多个skyline point,我们需要从不同的维度,skyline point的不同属性分析比较skyline points之间的优劣。

 

分析任务

分析任务包括以下7个方面:
1、编码多维属性及其统计信息
2、编码每个skyline point的支配子空间
3、高亮多个skyline point的区别
4、检测skyline point的聚类和离群点
5、分析skyline point之间的支配关系
6、帮助优化skyline查询
7、支持过滤查询结果

 

可视化设计

 

Projection View

布局:基于距离的相似度矩阵,采用t-SNE降维方法进行布局。

可视化设计编码:

内圆颜色编码支配分数
外圆扇形编码属性值大小
扇形颜色编码与选定skyline point的属性差值

Tabular View

布局:列表示各个属性,行表示每一个skyline point
可视化编码:
a)所有数据点按照某属性进行排列,灰色线代表skyline point
b)所有skyline point按照某属性进行排列,蓝色条高度代表其他skyline point与此数据属性的平均差值
c)其他skyline point与此数据在各个属性上的差值
d)决定子空间的数量
e)显示当前skyline point排序和属性值

Comparison View 

布局:环形布局,比较所有组合
(a)Radar chart可视化编码:
雷达图展示skyline point各个属性值
每个轴上是属性分布
轴上的圆代表相对排序
蓝色虚线圆代表支配分数
(c)Domination glyph可视化编码:
内部饼图代表支配分数的分布
饼图大小代表支配分数总量
外圆弧代表被唯一支配的数据点的数量
d)中,显示skyline point和被支配的点的属性分布
案例分析
Lorraine想要选择一个适宜的地方享受一个月的假期。这个案例介绍了如何使用SkyLens找到一个适宜旅游的城市。案例中使用的数据库是Numbeo quality-of-life (https://www.numbeo.com/quality-of-life/),数据库包括了176个城市和8个属性。整个操作流程分为以下几步:
1、优化skyline查询结果
    由于Lorraine只是想去度假,所以去除购买力和房屋支付能力两个属性在skyline查询中的影响。
2、过滤skyline查询结果
    Lorraine想要体验亚洲以外的文化,通过洲属性过滤亚洲。
3、重新计算skyline query得到62个候选城市
    Lorraine在skyline查询的结果中中发现了去年夏天去的维多利亚,想要了解成为维多利亚skyline的原因。
4、在Tabular View中观察维多利亚气候排序
    Lorraine发现维多利亚的气候排名只是在众多skyline结果的中间位置,所以气候不是维多利亚成为skyline的原因。
5、在Tabular View中观察维多利亚的其他排序
     维多利亚在交通和环境方面排序较高,Lorraine猜测是交通和环境使得维多利亚成为skyline point。但是Lorraine看到维多利亚的决定子空间只有花费和环境,这说明在交通上面维多利亚不是最优的。
6、查找优于维多利亚的城市
    Lorraine在系统中看到,在环境方面和交通有两个城市(惠灵顿和雷克雅维克)优于维多利亚,而维多利亚在花费上面优于两个城市。
在分析过程中,坚定了对交通和环境两个属性的需求,然而找不到花费优于维多利亚并且交通和环境不差于维多利亚的城市。
7、高亮在(花费、交通、环境)子空间内的skyline
    于是Lorraine决定只关注于(花费、交通、环境)这三个因素比较优异的城市。
8、在Projection View中找到各个属性都不差的格丹斯克Gdansk 和克卢日-纳波卡。
9、经过对比,格丹斯克在气候、交通和环境方面都优于克卢日-纳波卡,最终选择格丹斯克
总结
文章提出了一个探索和比较skyline的可视分析系统,SkyLens。SkyLens可以进一步抽象为对于多维数据的比较,比如优化算法中的最优点,可以简单得拓展到其他算法中。

 

分享到:

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>