Home > 其他 > CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data

CrystalBall: A Visual Analytic System for Future Event Discovery and Analysis from Social Media Data

作者:I. Cho, R.Wesslen, S. Volkova, W. Ribarsky, and W. Dou

期刊:VAST 2017

1. 介绍

现有大多系统从社交媒体分析过去和正在发生的事件,很少关注一些即将发生的事情;现有预测未来事件的系统都指向了专一的事件类型,比如疾病,死亡,骚乱的预测 。今天的论文使用tweet数据来探测未来事件的可视化系统。

本系统的主要需求可以概括为下面三点:

  1. 群众想知道本市最近的音乐会,体育比赛。
  2. 零售商想知道人们未来一段时间的购买需求。
  3. 政府想知道潜在的大型集体活动,游行。

 

CrystalBall系统分析tweet数据,预测未来几周可能发生事件。CrystalBall集成了多个组件,Twitter Streaming API ,未来事件提取,事件标识和排名以及交互式可视化界面。所有的数据收集和分析都是在线进行的。每天刷新以显示未来几天或几周内可能发生的事件。

 

我们可以把本文的贡献概括为以下三条:

  1. 基于一种新的未来事件定义,提出了一种通用的方法来根据流式Twitter消息发现未来事件的系统 。
  2. 设计多个度量标准,对已识别的未来事件进行特征化和排名 。
  3. 一个新的交互视觉界面,将交互界面与计算方法和指标紧密结合,以支持未来事件的探索和感知 。

 

2. 处理与提取未来事件数据

作者看来,未来事件的定义是与将来的位置和时间相关联的事件。位置和时间是定义未来事件的主要属性。

首先从所有推文中筛选出日期迟于现在或者有明显将来时态的未来事件。

对于这些筛选出的推文,我们使用7种指标进行衡量

NPMI:位置和时间之间的相关性,相比PMI,将其正则化到1和-1之间。

 

链接比例:包含链接的推文与所有未来推文的比例

主题标签比例:包含标签的推文与所有未来推文的比例

用户可信度:论文选择一个简单的度量,即Twitter追随者朋友(TFF)比率来表示用户的可信度。TFF是追随者与朋友的比率。1.0到2.0之间的比率表示用户具有平衡的跟随/跟随者关系

用户多样性:如果关于一个潜在的未来事件的所有推文都来自一个账户,那么这些推文很可能来自被编程为定期发送某些推文的机器人。

中心性:推特间通过转发,@连接,高度连接的推特网络将具有接近1的程度中心性,而分散的推特网络产生接近于0的中心性。

推特相似性:但是并不是所有推文都有@和转发相关联。该指标计算了每篇推文的相似性

现在已经提出了未来事件的7个指标。下一步是结合这些措施来评估已确定的未来事件的质量。论文希望对事件进行排名,以便CrystalBall首先直观地表示高质量的事件。

RankSVM进行排序。为了训练RankSVM,论文开发了一个标签数据集,其中包含三天内提取的未来事件(约1000个事件)。作者将事件分为了5个类别。标注决定表明更加重视地缘政治和基层性质的事件。使用标记的数据集来训练RankSVM,训练出一个可应用于无标签事件排序的模型。

 

3. 可视化界面

按时间轴检索

我们从整个时间轴进行查看。下图每行是一个日期,表示当天所可能发生的事件,实线连接的是有相同的地点的事件。虚线连接的是具有同样的关键词的事件。每个事件都有自己的颜色,颜色代表整个事件的感情属性,而颜色的深浅表达了置信度。

 

 

除此之外我们可以点击某个日期,进入当日的事件界面,如下图所示:

  1. A图,花瓣的红色占比代表了未来事件7个指标的大小,中间的数字是该日共有几个未来事件。
  2. B图中,1表是每个时刻的事件数,2表是近30天内将会发生的相似事件数,3表是按照感情属性分类的结果。
  3. C图中,未来事件中的关键词,D按钮可以用来收藏

 

按地点检索

A图中可以放缩不同尺寸的地点,中间的数字表示的是事件数,不同深浅表达了在不同时间点内的事件。

B图中当我们点击华盛顿城市,会跳出关系该城市的事件映像。

 

除此之外还有词云界面,关系网界面,这里不再赘述,有兴趣的读者可以自行去论文查看

4. 样例验证

论文中举出4个例子,这里只介绍其中一个。下面介绍了一件北卡罗来纳州夏洛特市2016年9月抗议活动有关的一周活动。图8中连接的实线代表了三个有同样的地点的事物,分析这个时间线,可以发现这个时间线中有很多关于抗议的关键词。关注9.24一天,可以发现很多人的情绪都转变为恐慌,愤怒。与此同时从关系网也可以发现,大家的视线都转向了一篇关于抗议的推文。

 

 

5. 缺陷与未来工作

  • 论文使用 时间-地点 组合进行编码,比较局限。
  • 存在识别未来事件错误,关于过去事件的新闻头条的推文可能会被错误地视为未来事件,而且很多转发是在很多天之后才收到转发。
  • 时间位置的提取算法还是不准确
  • 未来会尝试处理多个数据源的流量(fb, ins, wiki, google)
  • 未来会考虑更换更好的nlp算法

 

分享到:

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>