Home > 其他 > UTOPIAN:用户驱动的文本主题模型

UTOPIAN:用户驱动的文本主题模型

作者:xiecong 日期:2013 年 11 月 1 日发表评论 (0) 查看评论

论文：UTOPIAN: User-Driven Topic ModelingBased on Interactive Nonnegative Matrix Factorization

作者：Jaegul Choo, Changhyun Lee Chandan K. Reddy, and Haesun Park

Georgia Institute of Technology

会议：IEEE VAST2013

文本主题抽取是一个很重要的话题。何谓“主题”？从字面上理解是一段文字表达的中心思想。从统计模型的角度可以用关键词的分布来刻画。这样一段文字可以理解为是从一个概率模型中生成的。

Utopian可视界面。图中每个点代表一个文本，不同颜色编码了不同文本对应主题。用户基本操作包括了：1.将某两个主题合并，2.以某文本生成新主题，3。对某个主题进行分裂，4.以某关键词生成新主题。

传统的主题模型有TF-IDF，LDA等，甚至K-means，PCA也可以辅助分析文本。但是这些方法都存在一些问题。
以LDA为例， Blei在2003年提出的LDA（Latent Dirichlet Allocation）模型让主题模型火了起来。对于语料库中的每篇文档，LDA定义了如下生成过程：

1. 对每一篇文档，从主题分布中抽取一个主题；

2. 从上述被抽到的主题所对应的单词分布中抽取一个单词；

3. 重复上述过程直至遍历文档中的每一个单词。

LDA主要有两个问题：1.算法多次运行，其输出的结果不一致；2.主题抽取过程中无法结合用户的经验与反馈。

UTOPIAN是佐治亚理工开发的交互式主题模型系统。它使用了非负矩阵分解解决了以上两个问题。

NMF，非负矩阵分解，它的目标很明确，就是将大矩阵分解成两个小矩阵，使得这两个小矩阵相乘后能够还原到大矩阵。非负矩阵在日常生活中用的很多：数字图像中的像素一般为非负数，文本分析中的单词统计也总是非负数，股票价格也总是正数。把文档-关键词的对应矩阵看做一个非负矩阵的话，其分解可以帮我们找到潜在主题。

用户可以对非负矩阵的分解进行多种操作：比如主题的合并，主题分裂，以某个文本生成主题，以某个关键词生成主题，修改关键词和主题的对应关系等等。
具体可以查看系统视频：http://www.cc.gatech.edu/~joyfull/resources/2013_tvcg_utopian.mp4

分享到：

其他