Home > 论文评述 > 基于划分的回归模型构建验证框架

基于划分的回归模型构建验证框架

论文: A Partition-Based Framework for Building and Validating Regression Models

会议:VAST 2013

作者:Thomas Muhlbacher, Harald Piringer (VRVis Research Center)

回归问题是统计分析领域的永恒话题之一。统计学习领域有相当多的研究成果用于对回归模型进行拓展和改进,然而当前纯自动算法仍然存在以下问题尚待解决:

  • 特征子集选择:如何选择具有特征的维度,以及维度个数与模型可解释性、模型复杂度之间的权衡;
  • 将Domain Knowledge融入特征子集选择过程中:用户通常在维度选择上有一些先验知识,这些知识怎样输入到模型训练中;
  • 特征尺度变换:如何选择合适的变换尺度

本文通过构建一个可视分析框架,很好地弥补了上述问题。本文贡献如下:

  • 基于特征辅助模型预测程度的排序方法
  • 用于展示单一维度/维度对上数据局部结构的可视化视图
  • 验证和比较模型的工作流框架
  • 长时间的用户测试

有不少论文从可视分析角度探讨了特征选择和模型构建问题,较新的论文包括Explainer[1]、Dimensional Projection Tree/Matrix[2]、HyperMoVal[3]等。

下图是系统界面概览,其中左侧部分用于单一维度的探索,中间部分用于探索维度对之间的数据特性,右侧展示了特征排序和选择等功能。

本文提出了一种两阶段的框架,其中第一个阶段为特征选择,第二个阶段为模型验证和比较,训练出来的好的模型结果可以又作为特征选择所使用的模型。

整篇文章分成三个主要部分:

  1. 基于划分的可视化设计:

    为了生成最终的可视化视图,首先目标维度(对)要做一次partition操作,将维度划分为区间(矩形区域),之后再将每个区间区域layout到矩形的可视区域上。Partition和Layout的策略分别有:

    • Domain-uniform partitioning:按维度均匀划分数据区域;
    • Frequency-uniform partitioning:按数据密度划分数据区域,保证每个区域的数据密度相等。这种划分方法使用类似K-d Tree的策略对数据空间做出划分,但划分标准与K-d Tree不同;
    • Domain-preserving Layout:布局每个数据区域时,每个矩形的边长也按照维度均匀计算;
    • Frequency-preserving Layout:布局时,每个矩形的面积大小代表该数据区域内的数据密度高低。

    下面两张图展示了不同的数据划分方法和布局方法在对维度(对)上数据的可视化效果展示,其中图片左上角代表数据的原始scatterplot。可以看出,当划分和布局策略都为domain-uniform时,最终的可视化结果实际上就是原始scatter-plot的马赛克效果。每个矩形块上还使用了类似盒须图的方式(1D)或颜色(2D)来表达该partition内的数据统计量。

  2. 维度排名策略:本文使用的系统使用了feature selection中的wrapper方法,通过构建另一个Regression Tree来计算每个维度上的goodness-of-fit(此处使用R^2作为度量标准),并以此对维度进行排序。下图是系统中用于展示排序关系的视图。
  3. 模型验证与比较:本阶段用于展示模型预测结果和一些相关指标,包括:下图自左至右分别展示了模型的预测偏移、模型之间的结果比较和预测不确定性的结果:

 

[1] M. Gleicher, “Explainers: Expert Explorations with Crafted Projections,” IEEE Transactions on Visualization and Computer Graphics, vol. 19, no. 12, pp. 2042–2051, 2013.

[2] X. Yuan, D. Ren, Z. Wang, and C. Guo, “Dimension Projection Matrix/Tree: Interactive Subspace Visual Exploration and Analysis of High Dimensional Data,” IEEE Transactions on Visualization and Computer Graphics, vol. 19, no. 12, pp. 2625–2633, 2013.

[3] H. Piringer, W. Berger, and J. Krasser, “HyperMoVal: Interactive Visual Validation of Regression Models for Real-Time Simulation,” Computer Graphics Forum, vol. 29, no. 3, pp. 983–992, Aug. 2010.

分享到:

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>