iForest: Interpreting Random Forests via Visual Analytics

 

作者: Xun Zhao 1,Yanhong Wu 2 ,Dik Lun Lee 1 , and Weiwei Cui3

1:香港科技大学 2:Visa Research 3:微软亚洲研究院

发表: Vis2018

作者主页:http://zhaoxun.me/

一、简介

现已经有了很多对机器学习模型进行可视分析的方法,然而对于随机模型,其缺少有效的可视分析手段,使得该模型难以理解。在现有机器学习模型可视化以及人机交互相关的基础上,设计了一个名为iForest的可视化分析系统,可以有效地帮助人们理解随机森林模型。

该系统的主要内容为:特征与预测结果之间的关系;揭露随机森林的工作机理即决策路径;可以提供完整的案例分析

继续阅读 =>

Embedded Merge & Split Visual Adjustment of Data Grouping

论文:Embedded Merge & Split Visual Adjustment of Data Grouping
发表:InfoVis’ 18
作者:Ali Sarvghad, Bahador Saket, Alex Endert, and Nadir Weibel
继续阅读 =>

Manifold: A Model-agnostic Framework for Interpretation and Diagnosis of Machine Learning Models

作者:  Jiawei Zhang, Yang Wang, Piero Molino, Lezhi Li, David S. Ebert. 1作与5作来自于Purdue University, 其余来自Uber公司.

发表: IEEE VIS 2018, VAST / TVCG

简介

近年来在机器学习领域上有了不少重大的突破, 很多场景应用中都有了巨大的进展. 但是这也带来了一些问题, 首先, 模型越发复杂, 让模型开发者很难解释为什么模型会起作用, 以及它们是如何运作的; 其次, 开发者没有可靠的证据或者推理来指引他们开发与调试, 这导致模型开发这样一个迭代过程十分耗时、容易出错.

可视化与交互界面在帮助用户将自己知识结合进解读和诊断模型的过程中去.  常见的解决方案包括, 通过可视化模型内部结构或者状态来增强用户理解与解释, 评估分析算法和模型的性能, 在模型开发不同环节加入交互成分(如超参调试, 特征工程过程中加入领域知识). 但这些模型的关注点都在某些特定模型类别上或者特定任务类型(如 classification). 这些工作缺乏可扩展性, 很难对付industry-level的使用场景, 因为这种场景下模型和任务的体积与复杂度都非常大.

本文提出框架Manifold来解决整合、评估和调试多个模型的问题. 这个框架的设计过程结合了机器学习诊断与比较时常用的三个阶段: 检视(假设), 解释(推理)和改良(校验). 为了支持这些阶段, Manifold提供了两个简洁而丰富的视图: 基于散点图的模型比较视图, 提供一个模型对(model pairs)丰富性与互补性的可视总结. 用户可以在这个视图上找到有问题的数据自己并提出假设. 第二个是一个表格形式的视图, 帮助用户区分从有问题的数据子集中抽出的不同特征, 哪些特征对模型输出有更大的影响, 并提出对于之前猜想的解释. 随后这些解释又可以被加如到下一轮迭代中去来验证和改良模型.

Manifold是model-agnostic的, 这个词的意思是无所谓你模型长什么样, 只要你有一样的任务, 一样的输入输出就可以了. Manifold不需要接触模型内部的logic.

继续阅读 =>

机器学习基础概念和统计机器学习基本算法

整理:侯宇轩

一、背景

    机器学习(machine learning)形象的来说,就是使用机器(计算机)利用数据,自行对数据特征进行学习(与手工编写程序直接解决问题区分),来解决现实生活中的问题(如手写数字识别、实例分割等等)。
    机器学习算法已经对人们对数据的利用方式造成了重大改变。例如医院开始将诊疗数据保存下来,包括病人的基本信息、医生的诊断结果、CT图像等等。使用学习型算法对这些数据进行分析,就可以得到一段时间内的病例发展趋势,或者尝试利用CT数据对病人的病灶进行自动检测等等。

DQNViz: A Visual Analytics Approach to Understand Deep Q-Networks

作者:Junpeng Wang, Liang Gou, Han-Wei Shen, and Hao Yang

发表:VAST 2018 (honorable mention)

一、简介

Deep Q-Network (DQN)是Google DeepMind研发的用于解决强化学习问题的深度卷积神经网络,用于训练一个能自动玩Atari 2600游戏的代理。其目的让代理跟环境(游戏)进行交互,代理需要进行游戏内的操作,完成操作后,根据某种奖励机制,不同游戏状态会获得不同的奖励,DQN的最终目标是使整个训练过程的全部奖励之和达到最大。下图为不断循环的训练过程:

继续阅读 =>

TPFlow: Progressive Partition and Multidimensional Pattern Extraction for Large-Scale Spatio-Temporal Data Analysis

作者:Dongyu Liu, Panpan Xu, and Liu Ren

发表:VAST 2018

一、简介

多维时空数据可视化常用的方式是在不同视图中对不同维度上的值做聚合,用户可以在不同的视图中,通过刷选、连线,实现查询、选择、高亮等操作。这种方法的可扩展性往往受到数据维度及数据量的影响,解决方案有以数据立方体的形式存贮数据、GPU并行计算等等。但是,这种方法难以在子数据集上找到隐藏的模式,例如,工作日与双休日的数据模式可能是不同的,但在没有先验假设的情况下,这些视图很难将用户引导向某种数据子集的选择方式。此外,这种方法还需要数据分析员进行繁杂的手动工作。 因此,本文提出了一种基于张量分解的大规模时空数据的模式自动化提取与可视分析方法,本文的主要贡献如下:

-分段的秩一张量分解算法
-支持逐渐划分与level-of-detail探索的多维时空数据可视分析框架
-三个横跨多领域与分析任务的真实数据集案例

Structure-aware Fisheye Views for Efficient Large Graph Exploration

Clustrophile 2: Guided Visual Clustering Analysis

论文地址 论文视频

 

左侧边栏可以导入数据,或者打开以及前保存的结果。右侧显示了所有的日志,可以轻松回到之前的状态,视图的主区域上半部分是数据,下半部分是聚类视图。

INTRODUCTION

数据聚类对于处理无标签数据,高维数据是非常有效的工具。聚类算法中如何确定最好的聚类方法和参数比较困难,需要可视化系统的帮助。Clustrophile 2,这是一种用于引导聚类分析的新型交互式工具,引导用户进行基于聚类的探索性分析,调整用户反馈以改进聚类效果,并帮助快速推理群集之间的差异。为此,Clustrophile 2提供了一个新颖的功能,clustering tour,帮助用户选择聚类参数,并评估与当前分析目标和用户期望的差距。我们通过12位数据科学家的user study评估这个系统。结果表明,Clustrophile 2提高了专家和非专家的探索性聚类分析的速度和有效性。

继续阅读 =>

Investigating the Effect of the Multiple Comparisons Problem in Visual Analysis

论文:Investigating the Effect of the Multiple Comparisons Problem in Visual Analysis
发表:CHI’ 18
作者:Emanuel Zgraggen, Zheguang Zhao, Robert Zeleznik, Tim Kraska
继续阅读 =>

Uncertainty Visualization by Representative Sampling from Prediction Ensembles

作者:Le Liu,  Alexander P. Boone, Ian T. Ruginski, Lace Padilla, Mary Hegarty, Sarah H. Creem-Regehr, William B. Thompson, Cem Yuksel, and Donald H. House

发表:2017 InfoVis

一、介绍
1. 背景
模拟模型已成为预测生成的主要工具,但这些模型的预测通常包含高度不确定性。这种不确定性可能有很多来源。当被建模的系统由非线性动力学控制时,而且敏感地依赖于初始和边界条件,这是不确定性就会不可避免的发生。其他不确定性来源包括对实际系统建模,参数估计和数值误差累积所做的假设和近似。
集合(Ensemble)是对可能由包含不确定性的模型产生的投影空间进行采样的关键工具之一。在天气预报中使用模型就是一个很好的例子。通常,一次或多次天气模型多次运行,每次运行的初始条件或参数略有不同。这就得到了基于模型的单个投影的集合,气象学家必须从中确定要向公众呈现的聚合预测。通常,这将包括预测的天气结果,以及预测的确定性或置信度的度量。
2. 挑战
虽然集合是进行预测的重要工具,但是它们很难用于创建有效的可视化。 继续阅读 =>

第 1 页,共 34 页12345...102030...最旧 »