课程项目

课程项目总体要求

我们提供了若干个课程项目,同学们可以自选其一。

项目基本要求是实现对应的任务,同时需要满足项目中指明的界面、模块还有接口定义。我们的每个项目都要求实现一个完整的用户界面,运行时它可以接受用户的输入,显示得到的结果,并保存到用户指定的位置。一些任务中的关键模块需要同学们自行实现,不能够使用网络上公开的代码。其它未作明确要求的模块鼓励大家自己实现,酌情加分。 

考虑到不同课程项目的难度有差异(难度:VisualSLAM > Visual Localization > Multi-view 3D Reconstruction > Image Completion with Structure Propagation >= Interactive Digital Photomontage >Image Colorization = Style transfer for traditional Chinese paintings),如想获得尽可能高的分数,建议选做难度系数大的课程项目,而且尽可能单人完成,如选难度系数较低的课程项目(建议组队不超过2人),对完成质量要求会更高

项目最多可以不大于三人一组完成,单人独立完成额外的模块会有加分。提交时,需要附上源代码,项目报告,报告末尾需要明确写明分工

项目答辩:暂定为最后的两节课,如有变化另行通知。

源代码和项目报告提交截止时间:暂定为 202361623:59 如有变化另行通知。

提交方式:报告和源代码打包提交至学在浙大。

命名方式:final-项目名-学号-姓名.zip

评分标准

课程项目成绩分为三个部分,另设一个加分部分,以100分计算时组成如下:

Image Completion with Structure Propagation

基于结构扩展的图像补全利用用户交互来确定关键结构边界,然后基于边界信息拓展完成未知区域的补全。在这个项目中你需要实现能量最优化中使用到的置信度传播(Belief Propagation)算法以及图像补全用户界面。

项目详细要求 

Interactive Digital Photomontage

交互式数字图像蒙太奇允许我们通过简单交互完成许多复杂的图像编辑、合成和增强。它的核心算法包括了基于 Graph-Cut 的图像边界选取和基于 Poisson 图像编辑的图像合成。在这个项目中你需要实现 Poisson 图像编辑模块,完成相关的用户界面,支持一系列图像编辑任务。

项目详细要求 

参考资料:

Multi-view 3D Reconstruction

计算机视觉中的三维重建是利用图片序列中恢复出的相机位姿以及图片中场景的深度信息,得到真实场景的三维结构,提取出场景的表面并进行纹理映射,最终得到一个具有很强真实感的带有纹理的三维模型。三维重建包括三个主要的部分,分别是深度恢复,模型提取和纹理映射。经过SFM(structure from motion)可以恢复出摄像机位姿参数和场景的稀疏的三维信息,但是这些稀疏的三维信息不足以重建出整个场景。因此,通常我们都需要先利用摄像机位姿和场景中同一物体在不同帧图像中的成像的差异在来恢复出每一帧图像的稠密的深度信息,这就是深度恢复的主要任务。模型提取中主要涉及到了点云采样,点云融合以及三维表面提取等内容。该项目在三维重建部分需要实现多幅深度图的采样和融合以及使用泊松表面重建的算法进行表面提取。 

项目详细要求 

参考资料:

Monocular Depth Estimation

深度估计一直是场景理解的重要组成部分。一个具有挑战性的问题是采用单目图像进行深度估计。近年来,随着深度神经网络的发展,已经出现许多尝试以监督学习的方式解决单目深度估计问题。他们大多把它作为卷积神经网络的像素级回归问题,并取得了不错的结果。在这个项目中,你需要利用深度神经网络实现单目图像的深度估计,以及在此基础上的若干扩展任务。 

项目详细要求 

参考资料:

Image Colorization

把一张旧照片变成彩色照片是不是很酷? 给定一张灰色图像作为输入,使其变成彩色图像是一个病态问题。 通常这种问题有两种方法可以解决:(1)用户依照经验手工上色; 2)数据驱动的自动上色。我们的目标是在这个项目中完成灰度图像到彩色图像的上色以及彩色图像的重上色。

项目详细要求 

Style transfer for traditional Chinese paintings

图像到图像的转换是一类视觉和图形问题,其目标是使用一组对齐的图像对训练来学习输入图像和输出图像之间的映射。一个有意思的问题是根据给定的风格图像将任意一张图片转化成这一风格,并尽量保留原始照片的内容(即风格迁移)。近年来, 随着神经网络的发展, 已经出现了许多尝试通过生成网络来解决风格迁移问题。本项目中, 你需要利用现有的深度生成网络来实现中国传统绘画的风格迁移, 以及在此基础上做出相关改进来进一步提升风格迁移效果。

项目详细要求 

参考资料:

Visual SLAM

同步定位与地图构建(SLAM)是一项获取未知环境3D结构和传感器运动的智能感知技术。它最初被提出用于实现机器人的自主控制,集成多种不同类型的传感器数据定位机器人在未知环境中的位置和姿态。在近些年,仅使用相机传感器的SLAM技术受到了广泛的讨论。因为输入仅是视觉信息,这类SLAM技术特别被称为视觉SLAM技术(vSLAM)。凭借廉价且普通的硬件需求,vSLAM技术可以为移动设备提供准确的姿态估计,使得AR应用可以真实地叠加现实物体和虚拟物体。

项目详细要求 

参考资料:

Visual Localization

视觉定位,是指根据当前相机观测的视觉信息来恢复相机在世界坐标系中的位置和姿态的过程。其本质是将当前观测信息与已有的重建模型进行匹配,从而估计其在世界坐标系下的位姿。

项目详细要求 

参考资料: