Home > 其他 > Progressive Learning of Topic Modeling Parameters: A Visual Analytics Framework

Progressive Learning of Topic Modeling Parameters: A Visual Analytics Framework

作者:zhangtianye 日期:2017 年 12 月 28 日发表评论 (0) 查看评论

论文：Progressive Learning of Topic Modeling Parameters: A Visual Analytics Framework

作者：Mennatallah El-Assady, Rita Sevastjanova, Fabian Sperrle, Daniel Keim, and Christopher Collins

发表会议：IEEE VAST 2017

一、介绍

主题模型是一类用于将文档根据在其内部的主题分布归类的非监督机器学习方法。主要思路为，根据文档及其中的词汇建立起文档描述向量，从而求解出文档中的主题分布与每个主题中的关键词分布。主题模型是一类非监督的黑盒模型，本文希望能帮助理解主题模型的输出，并使得所用的模型适应当前数据与任务的特性，以增强模型的可靠性。而可视分析恰恰能通过人的参与和反馈，完成数据和任务驱动的模型构造过程。本文的主要贡献包括：

1.提出了一个有人参与的主题模型循序渐进改进方式

2.设计了四个根据四个任务驱动的可视化窗口

3.通过实证测试与定性实验验证了方法的有效性

二、方法框架

上图为本文提出方法的总体框架，可以分为以下三个部分：

1.参数空间分析(左)

2.可视分析界面(右)

3.话题收敛过程(中)

三、参数空间分析

在参数空间分析将完成特征（词类），对选择的特征进行加权，并最终根据特征及其权重生成文档描述向量。本文中根据词的属性选择了语料库中的多个特征，包括：名词、动词、形容词、副词等等。通过五种可选的相似度计算方法（多样性指数、cosine相似度、逆向文件频率、重叠系数、RWPD），可以计算特征的特征变率作为权重。最后将特征的权重与其频率相乘构成文档描述向量，给予了文档中每个词汇一个重要性分数。

四、可视分析界面

本文提供了四个不同粒度的可视分析界面（如下图），分别对应了以下四个分析任务：

T1.主题模型输出概览

T2.理解主题描述

T3.检查语料库特征分布

T4.文档相关反馈

4.1 主题模型输出概览

如图，主题模型输出概览界面中，左边跟右边的两列分别是由两个主题模型计算出来的多个主题，根据他们之间的匹配度从上到下排列，原点大小表示属于这个主题的文档数量。连线的颜色表示主题匹配对应的三种结果：绿色完全匹配，蓝色仅相似匹配，黄色不匹配，线条透明度表示匹配度大小。中间的一列是相似的两个主题间的常用词汇。选择某一对感兴趣的主题后，进入下一层的主题总结视图。

4.2主题总结

界面上方的两个框内分别是两个主题的关键字，下方分别为表示与相应主题最相关的十句话。文中，蓝色单词表示出现在两个主题中的词汇，橙色或紫色表示只出现在橙色主题或紫色主题中的词汇。每个关键词上方有五个圆点表示该关键词与主题的相关性。中间对称的柱状图中，每一个柱子表示一篇文档，长度表示该文档的长度。同时属于两个主题的文档用绿色表示，只属于单个主题的文档用该主题的颜色表示（橙色或紫色）。通过展开中间的语料库柱状图可以将其展开，进入参数分布分析界面，研究语料库的结构以及文档的特征和参数分布。

4.3检查语料库特征分布