搜索结果 文章归档: 十一月 2013

计算机和医学双料博士 (访美札记之一)

2013年10月18日到2013年11月14日,我在美国游历了5所高校、1个研究院和硅谷,接受了一次美国教育和科研的洗礼。凭记忆写下一些小故事,供大家回味。

(一)计算机和医学双料博士

访问某大学时,与多年的好朋友M教授偶然聊到他的一个学生N。N的名字是我们组的小丁同学在课题背景调查时获悉的。小丁和我想在科学数据的可视化中找一块硬骨头去啃,我们认为大尺度科学数据的压缩是一个非常有意义的难题。N和M连续在可视化顶级会议IEEE SciVis上发表了两篇关于三维体数据压缩的论文,特别是第二篇论文实现了浮点型体数据的无损压缩,走在了世界研究前沿。两篇论文中的大篇幅内容是信号压缩方面的一些数学推导,普通人非常难以理解。我和小丁讨论后的结论是,N一定是一个专门做数据压缩的专家,和M在三维体数据压缩方面合作,完成这个神作之合。

M教授听到我对N的工作感兴趣,讲述了他的一段有趣的故事。N是一个美国学生,本科阶段加入M的小组,显露了他在科研方面的过人素质。N做事非常专一,完全凭个人兴趣行事,只要瞄准的事情,一定做到底,且拼尽手段达到目标。三维体数据压缩的题目,是M从NASA的科学家们那里获得的题目。N在没有任何专业背景的情形下,翻阅了图书馆所有有关数据压缩的书籍,单枪匹马提出并实现了两个高质量算法。其中关于浮点型体数据的无损压缩的论文,由于论文篇幅限制,省略了大段推导文字。

M教授笑眯眯地说,N的神奇之处不仅在于他在可视化研究方面非常出色,还在于他的离奇学历。N读博时认识了一个女友,是医科博士生。期间,N中断学业,跟随女友去了非洲一年,为难民提供医疗服务。回美国后,N郑重告诉M,他的理想是为全世界受苦难的人民提供更好的医疗服务,这个梦想的重要性远远超过做科学数据的可视化研究。于是,他决定去医学院读医科MD。说到做到,他立刻休学,加入了另外一所大学的医学院,苦学了若干年。可惜的是,女友和他分了手。

M觉得N的资质非同小可,如果放弃唾手可得的CS博士学位非常可惜。于是又劝说他回到学校,干了半年,圆满完成了博士论文,获得CS博士学位。目前,他已从医学院毕业,在华盛顿的一家著名医院做了住院医生,从此告别了计算机界。M认为,N的做事风格决定了他在临床方面也一定会获得成功。

HPC China 2013札记

10月底,为期三天的2013年全国高性能计算机学术年会(HPC China 2013)在广西桂林召开,我和实验室的另一位博士生朱标同学参加了会议。

 

作为可视化的领域的研究人员,我一直认为,不管是作为工具,还是供我们研究的对象,高性能计算能力都是我们日后研究必备的。换言之,在当前大数据云计算的口号覆盖之下,一方面需要高性能计算给我们分析数据提供充足的计算资源;另一方面高性能计算本身会产出大量的数据,对于视数据为生命的可视分析来说,这是绝佳的数据来源。因此,我参加会议的目的有二,一是看一下在高性能计算研究领域国内的研究思路,二是观察可视化在这之中的前景。

 

到达桂林,稍加休息,我们到达会场。由于事关高性能计算,而且是有一定影响力的全国性会议,国内相关科研院校都有参与,也吸引了一大批厂商参展,主会场外的布展还是透露了一定的商业气息。从会议日程上来看,上午是主会场的主题讲座,下午是各个分会场的活动。在主会场进行的专题讲座中,有两个主要讲座是可视分析的,时间也提供得比较充裕,主讲人分别是犹他的Chris Johnson教授和北大的袁晓茹老师。由于不知道前几年会议的日程,我无法推断可视化在HPC中的地位发展情况。

从演讲的内容上来看,Chris Johnson教授应该是用了2012年在北大做报告时用的PPT,可能是没有时间,他们灵巧的pad交互操作没有出现。Chris Johnson教授的报告内容集中在科学可视化一块,当然目前来说,这一块是和高性能计算联系最为紧密的,而且国内外各大院校在科学数据计算方面有着不小的需求,高性能计算在其中扎根已久,发展至今也催生出很多可视化的需求。袁晓茹老师的报告介绍了他们团队的一些成果,也花了很多笔墨在集合模拟数据可视化,空间多变量数据的可视化之上。在座的听众有各个超算所,企业院校的研究人员,有偏向研究底层计算的,也有在具体学科应用的,两个主讲人应该是考虑到了听众的知识结构,有目的性地选择了报告的内容。 继续阅读 =>

基于信息论的多变量数据探索框架构建方法

文章:An Information-Aware Framework for Exploring Multivariate Data Sets

来源:SciVis2013

作者:Ayan Biswas, Soumya Dutta, Han-Wei Shen, Jonathan Woodring

本文主要介绍了一种基于信息论的多变量数据可视分析框架构建方法,流程如图1所示

图1

继续阅读 =>

使用粒子动画对大规模并行计算中的通信模式进行可视化

论文:Visualizing Large-scale Parallel Communication Traces Using a Particle Animation Technique

作者:Carmen Sigovan, Chris W. Muelder, and Kwan-Liu Ma

会议:EuroVis 2013

 

并行计算在提升计算速度的同时,也会由于参与并行的各个节点之间的通信而带来额外的开销。这种开销通常会随着并行规模的增大而增加,而且它对于并行性能的影响也难以测量。此外,随着一些并行库(比如ScaLAPACK)的广泛应用,底层的MPI细节被隐藏,使得对于并行计算中通信行为的分析更为困难。

本文提出了一种基于粒子动画的技术,用于分析并行计算中的通信行为。目的在于帮助用户看分析这些通信行为的模式,从而使用户可以发现影响并行性能的问题并加以优化。本文提出的方法可以支持多达16,000个处理单元的并行规模。

可视设计

下图是本文可视化的主视图,即粒子动画部分。横轴对应了处理单元(processor),按rank从小到大一次排列,并进行分组,组的边界上标明了处理单元的编号。纵轴是时间,由于在MPI的通信时间的时间跨度很大,所以采用了对数的形式。每个粒子则对应了一个MPI消息事件,不同类型的事件用不同的颜色进行编码。每当一个事件出现,就会在对应的处理单元的位置出现一个点,然后随着时间的推移,这个点会往上运动,这样一来就形成了动画。当事件结束的时候,对应的点就会停在最终的位置,然后慢慢淡出。当然,本文并没有将淡出的点直接舍弃,而是以一定的透明度叠加成了一张背景纹理,作为对历史事件的概览。

继续阅读 =>

UTOPIAN:用户驱动的文本主题模型

论文:UTOPIAN: User-Driven Topic Modeling Based on Interactive Nonnegative Matrix Factorization

作者:Jaegul Choo, Changhyun Lee Chandan K. Reddy, and Haesun Park

Georgia Institute of Technology

会议:IEEE VAST2013

文本主题抽取是一个很重要的话题。何谓“主题”?从字面上理解是一段文字表达的中心思想。从统计模型的角度可以用关键词的分布来刻画。这样一段文字可以理解为是从一个概率模型中生成的。

Utopian可视界面。图中每个点代表一个文本,不同颜色编码了不同文本对应主题。用户基本操作包括了:1.将某两个主题合并,2.以某文本生成新主题,3。对某个主题进行分裂,4.以某关键词生成新主题

继续阅读 =>

第 2 页,共 2 页12