Home > 论文评述 > TelCoVis: 基于城市电信数据的人群共现行为的可视探索

TelCoVis: 基于城市电信数据的人群共现行为的可视探索

TelcoVis: Visual Exploration of Co-occurrence in Urban Human Mobility Based on Telco Data

本文是2015年VIS中SciVis的文章,并被TVCG收录
简介
本文利用广州的的电信数据(telco data)对人口流动(human mobility)中的共现现象 (co-occurrence)进行可视分析. 所谓共现, 简单的理解为来自区域A和区域B的人在同一时间段内到了同一个地方. 这种现象的分析研究有很多实际应用, 例如
1) 帮助城市规划者应对流行病, 帮助社会科学家洞察和建模人的社交 (比如富人与穷人之间的交流)
2) 帮助商店店主了解在特定时间段造访餐厅, 商场的人的类型, 以便进行有针对性的促销, 做出更好的商业决策
3) 帮助管理者估计高峰期在地铁口, 高速公路入口共现的人的数目
随着(智能)手机越来越普及, 收集到的电信数据也更加细粒度, 数据量也愈发庞大. 这些数据使得我们能够进行更好的对人类行为的分析, 比如上面提及的共现现象.
.

数据, 任务及建模
广州某电信运营商提供的电信数据, 只要用户手机和基站有数据交换(电话, 短信以及联网)就会留下记录. 数据 (大小33GB) 覆盖广州城区, 时间为2013年10月21日一整天的数据, 860万用户, 24789个基站(这些基站用Voronoi细分成了9472个区域).

通过与社会媒体学专家及电信工程师的交流, 列举了一些分析的任务: (1)全局探索: 对不同区域的共现现象中模式的总览图, 比如不同地区共现的分布. (2)洞察探索: 当我们得到了一些模式后, 分析师试图建立初步的假设, 来分析这些原因. 这里需要展示一些人类移动的时空特征. (3)关联性探索: 关联性分析的重要任务是bicluster的抽取以及展示 (这里的bicluster算法可以参考 “Biclustering of high-throughput gene expression data with BiclusterMiner” ). 它同样需要总览图和细节图. (4)细节探索: 各种细节的展示.

每条数据格式为(ID_phone 机主id, time 时间, ID_base 基站id, 经纬度). 对这24小时的数据, 每隔5分钟为一个时间段, 这样一共有24*60/5=288个时间段. 每段中, 这个人的连接时间最长的那个基站作为location, 若无则记为unknown. 这样每个人就对应一个288维的向量. 覆盖时间小于8小时的人被过滤掉, 这样能过滤掉15%的人.

共现数据抽取: 如果从区域A和区域B来的人在同一时间段造访区域C, 则称”区域A和区域B在区域C共现”. 根据定义我们可以把所有共现构建成一个图G=(V, E). 首先构建一系列子图, 每个时间段一个子图; 每两个点之间若有过共现, 则有一条边连接, 该边有一个权向量(ω_A, ω_B)代表来自两个点的发生共现事件的人. 子图再进一步聚合成为一个完整的图.

挖掘共现的关联性: 首先将上面的每个时间段k的子图转换为一个二元(01)矩阵. 记P={p1,p2,…,pn}是共现发生的地方, R={r1,r2,…,rm}. 这样形成了二元矩阵B^k (k=1,2,…,288), 每一行对应一个地点pi, 每一列对应一个rj, 如果rj与其他某个区域在pi于时间k有过共现事件, 则元素B^k(i,j)为1; 否则为0. 注意这里至少要包含2个区域和1个地点, 这样做的目的是为了保证挖掘出来的关联性更有意义.

系统设计
系统由两个互相有联系的部分组成, 一个是基于区域的共现分析, 一个是基于关联性的共现分析. 前者包括Map View(a,b), Contour-based Treemap View(d); 后者包括Matrix View(c), Parallel Coordinates View(e)和EXtended LineUp View(f).

Map View包含flow-out, flow-in两部分, 用于展现共现的总体分布情况. 前者展现流出区域共现时间分布情况, 计算每个区域和其他区域共现的次数, 以热力图形式展现, 颜色越深次数越高; 后者展示流入地点的共现事件分布情况. 如果选取几个点, 两个图会联动展示一些黄色的点, 代表他们共现的地点, 点直径代表人数大小. 用户还可以调节选中的时间区域.

Contour Treemap View 展现出一个选定地点的属性: 不同时间段来到这个地点的人, 这个地点和共现的区域之间的距离, 这些区域人的忠诚度(访问该地点的频率). 每个这样的图中, 外面的轮廓(contour)到圆心的距离, 顺时针方向反应了288个时段依次人数的多少. 如图, 一共分成了八个扇形也即八个时段, 每个在本地点有过共现的区域在这里也重复出现了八次. 里面环形的treemap布局, 用颜色代表该区域到本地点距离的远近, 大小表示人数的多少, 到这个扇形起始点角度θ表示忠诚度, 到圆心距离r为人数多少. 我们发现这出现了两次, 其实是因为这个布局算法导致了r, θ的偏移.

Matrix View 展现的是共现关联性的概览图. 这是一个(m,n)矩阵, m是区域个数, n是地点个数. 每个矩阵元素颜色深浅代表这个规模的bicluster的个数.

Parallel Coordinate View是对一系列的bicluster属性的展现, 每条polyline代表一个biclutser. 提供了z-score histogram这样一种统计信息的图来减少视觉上的混乱.

Extended LineUp View是对每个biclutser具体区域, 地点及时间分布的更细致展现. 每一横条马赛克代表了, 紫色代表流出的区域, 黄色代表流入的地点, 颜色深浅代表人数的多少. 点击一条马赛克还可以展开一个时间分布图,表示每个时间段人数的大小, 其设计思路借用了horizon graph.

文章后面介绍了几个案例, 分别展现了利用这个系统来探索不同区域的共现分布情况, 学校附近的共现, 高收入低收入活动路径分布, 不同功能区(生活 娱乐 交通 办公)的等等, 得到了一些有用的insights, 并且在实际地图得以验证. 专家评估也认为很有价值.

文章还说了一些自己的缺点:缺少一些更优质的数据挖掘方法: 如根据人的行为模式判断工作或生活区; 某些视图用颜色深浅来编码, 而人的感知能力有限; 若要更好的利用平行坐标, 还需要更好的相关性度量, 轴排序算法; 数据量大时候的可扩展性: 暂时的系统只能一天; 若regions更多的效率问题; 数据仍存在不全.

在我看来文章还是有很多优点: 首先行文流畅, 结构工整; 设计思路与我们实验室的城市数据相关的项目也略有不同, 值得借鉴; 此外, 他的这些发现如果能做的更细的话, 我认为确实能帮助城市管理者进行更好的规划, 尤其是文章前面提到的那三个应用.

分享到:

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>