三维视觉计算

三维视觉主要研究场景/物体的几何重建和运动恢复,它不仅是计算机视觉领域的核心问题,同时也是其他诸多研究问题的基础,无论在理论和应用上都具有很高的价值。本年度,我们重点研究了三维视觉中的摄像机自动跟踪定位、视频分割以及动态物体的三维重建等几个方面,在非连续特征跟踪、视频对象的抽取与运动估计以及动态物体的三维运动恢复与迁移方面取得了重要进展。相关成果发表或录用在IEEE Trans. on Pattern Analysis and Machine Intelligence、IEEE Trans. on Visualization and Computer Graphics、European Conference on Computer Vision等国际重要期刊和会议上。主要成果包括:

摄像机自动跟踪定位:面向大场景的三维重建与混合现实等应用,进一步完善了摄像机自动跟踪技术,特别针对循环回路序列,提出了一个非连续特征跟踪方法,能够快速自动地找出具有相同内容的非连续帧进行匹配,并以此将分布在不同子序列的同名特征轨迹合并,从而有效提高了摄像机跟踪的精度,避免漂移问题。另外,该方法还能处理多视频序列的匹配,将各个序列恢复的三维结构和摄像机运动轨迹注册到同一个世界坐标系下。该工作能够有效提高摄像机跟踪与三维结构的重建精度以及规模,从而为大场景的稠密三维重建以及实时跟踪的高效稳定运行奠定了基础。

视频对象分割:提出了一个新的运动前景抽取方法,将深度恢复、光流估计和运动对象分割纳入到一个统一的求解框架下进行迭代优化,充分利用多帧的信息优势,在有效地抽取出运动前景的同时,还可以估计出整个视频场景的光流信息以及静态场景的深度信息,如下图所示。该方法突破了传统方法要求摄像机位置固定的局限性,无需对背景进行预先建模,就可以很好地处理摄像机自由移动且背景深度层次复杂的情况。计算得到的层次结构、运动和深度信息,可以直接应用于视频编缉、三维重建和基于视频的绘制等应用。

动态物体的三维运动恢复:提出了一个新的视频对象三维运动恢复与迁移方法,通过抽取运动物体上的二维关键点进行跟踪,并借助恢复的背景三维几何信息,推断出与背景场景有接触的特征点轨迹的三维运动信息,然后结合几何形变技术,通过求解一个保运动梯度的优化能量函数,并结合必要快捷的交互矫正,就可以将抽取的运动迁移到一个目标三维模型上。该方法无需借助特殊运动捕捉设备,只需一个手持的摄像机就可以将视频物体的运动抽取出来作用到一个三维模型上,从而大大丰富了三维运动数据的来源。