Home > 其他 > 基于信息论的多变量数据探索框架构建方法

基于信息论的多变量数据探索框架构建方法

作者:dingzhiyu 日期:2013 年 11 月 13 日发表评论 (0) 查看评论

文章：An Information-Aware Framework for Exploring Multivariate Data Sets

来源：SciVis2013

作者：Ayan Biswas, Soumya Dutta, Han-Wei Shen, Jonathan Woodring

本文主要介绍了一种基于信息论的多变量数据可视分析框架构建方法，流程如图1所示

图1

本文的目标是帮助用户探索多变量数据，确定重要区域或者用户感兴趣的区域。依照流水线，在获取到数据集后，首先计算变量之间的互信息；然后基于互信息，将变量进行分类；再通过联合熵的值，选择一些类进行分析；在选取的类内部，通过变量的条件熵选取信息量最大的变量；选取变量后，计算具体的信息度量；最后通过计算和分析得到的具体信息度量图，选取变量的值，绘制等值面，进行可视化。

与本文密切相关的工作主要集中在三个方面。

1.信息理论及其在图形学和可视化方面的应用

2.多变量数据分析和平行坐标

3. 显著性等值面选取

本文算法的主要步骤，可归结为4个。首先是介绍和定义多变量数据的信息重合。下面是几个重要概念的介绍和定义：

互信息(mutual information)：两个变量之间的互信息表示一个变量相对于另外一个变量的信息量大小，比起相关性度量(correlation metric)，好处是可以度量非线性关系，公式如图2所示

图2

具体信息(Specific information)：变量X的一个特值x，相对于变量Y的信息量大小；其中X称为参考变量(reference variable)

具体信息的度量(I1 & I2): Surprise 和Predictability，计算公式分别如图3和图4所示

图3 图4

本文使用参考变量的specific information 确定显著性等值面；

显著性的计算定义如下：确定参考变量的一个特值后，另一个变量的不确定性减少的量的大小

I1,是指以X为参考变量，当X取x值时，Y取y值的可能性的大小， I1越大，这种可能性就越大；而使得I1越大的x的取值，即是我们在可视化中感兴趣的isovalue

I2表示给定x的取值后，Y的不确定性的减少的量。

使得I2很高或者很低的x的取值，都是在可视化中很重要的量，因为意味着这些区域处于某种边界上。

假设有一个体数据，包含两个属性X,Y；选取好参考变量X后，计算I1和I2，首先，选取使得I1值很大的X变量值，设为surprise ones，然后再判断他们的predictability值，如果I2值也很高，说明这些X的变量值对应的isovalue可表示另外一个变量（Y）处于稳定状态；否则，说明另一个变量处于变化剧烈状态。

计算出变量对之间的互信息后，为了使本文在I-metric下工作的更好，需要使互信息更大的变量对（即关联更紧密）聚集到一起，被归为一类，再选取其中包含最大信息量的属性作为参考变量。

因此，按互信息的值自底向上对其进行层次性的分类，得到K个group，再对分好的类进行力引导图布局，如图5所示