Home > 其他 > UTOPIAN:用户驱动的文本主题模型

UTOPIAN:用户驱动的文本主题模型

论文:UTOPIAN: User-Driven Topic Modeling Based on Interactive Nonnegative Matrix Factorization

作者:Jaegul Choo, Changhyun Lee Chandan K. Reddy, and Haesun Park

Georgia Institute of Technology

会议:IEEE VAST2013

文本主题抽取是一个很重要的话题。何谓“主题”?从字面上理解是一段文字表达的中心思想。从统计模型的角度可以用关键词的分布来刻画。这样一段文字可以理解为是从一个概率模型中生成的。

Utopian可视界面。图中每个点代表一个文本,不同颜色编码了不同文本对应主题。用户基本操作包括了:1.将某两个主题合并,2.以某文本生成新主题,3。对某个主题进行分裂,4.以某关键词生成新主题

Utopian可视界面。图中每个点代表一个文本,不同颜色编码了不同文本对应主题。用户基本操作包括了:1.将某两个主题合并,2.以某文本生成新主题,3。对某个主题进行分裂,4.以某关键词生成新主题。

传统的主题模型有TF-IDF,LDA等,甚至K-means,PCA也可以辅助分析文本。但是这些方法都存在一些问题。
以LDA为例, Blei在2003年提出的LDA(Latent Dirichlet Allocation)模型让主题模型火了起来。对于语料库中的每篇文档,LDA定义了如下生成过程:

1. 对每一篇文档,从主题分布中抽取一个主题;

2. 从上述被抽到的主题所对应的单词分布中抽取一个单词;

3. 重复上述过程直至遍历文档中的每一个单词。

LDA主要有两个问题:1.算法多次运行,其输出的结果不一致;2.主题抽取过程中无法结合用户的经验与反馈。

UTOPIAN是佐治亚理工开发的交互式主题模型系统。它使用了非负矩阵分解解决了以上两个问题。

NMF,非负矩阵分解,它的目标很明确,就是将大矩阵分解成两个小矩阵,使得这两个小矩阵相乘后能够还原到大矩阵。非负矩阵在日常生活中用的很多:数字图像中的像素一般为非负数,文本分析中的单词统计也总是非负数,股票价格也总是正数。把文档-关键词的对应矩阵看做一个非负矩阵的话,其分解可以帮我们找到潜在主题。

用户可以对非负矩阵的分解进行多种操作:比如主题的合并,主题分裂,以某个文本生成主题,以某个关键词生成主题,修改关键词和主题的对应关系等等。
具体可以查看系统视频:http://www.cc.gatech.edu/~joyfull/resources/2013_tvcg_utopian.mp4

分享到:

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>