- 课程项目
- 课程项目总体要求
- 评分标准
- Image Completion with Structure Propagation
- Interactive Digital Photomontage
- Multi-view 3D Reconstruction
- Monocular Depth Estimation
- Image Colorization
- Style transfer for traditional Chinese paintings
- Visual SLAM
- Visual Localization
课程项目
课程项目总体要求
我们提供了若干个课程项目,同学们可以自选其一。
项目基本要求是实现对应的任务,同时需要满足项目中指明的界面、模块还有接口定义。我们的每个项目都要求实现一个完整的用户界面,运行时它可以接受用户的输入,显示得到的结果,并保存到用户指定的位置。一些任务中的关键模块需要同学们自行实现,不能够使用网络上公开的代码。其它未作明确要求的模块鼓励大家自己实现,酌情加分。
考虑到不同课程项目的难度有差异(难度:VisualSLAM > Visual Localization > Multi-view 3D Reconstruction > Image Completion with Structure Propagation >= Interactive Digital Photomontage >Image Colorization = Style transfer for traditional Chinese paintings),如想获得尽可能高的分数,建议选做难度系数大的课程项目,而且尽可能单人完成,如选难度系数较低的课程项目(建议组队不超过2人),对完成质量要求会更高。
项目最多可以不大于三人一组完成,单人独立完成额外的模块会有加分。提交时,需要附上源代码,项目报告,报告末尾需要明确写明分工。
项目答辩:暂定为最后的两节课,如有变化另行通知。
源代码和项目报告提交截止时间:暂定为 2023年6月16日23:59, 如有变化另行通知。
提交方式:报告和源代码打包提交至学在浙大。
命名方式:final-项目名-学号-姓名.zip
评分标准
课程项目成绩分为三个部分,另设一个加分部分,以100分计算时组成如下:
- 项目完成情况,共40分
完成情况包括项目代码是否实现到位,测试结果是否丰富,是否包含了结果和性能分析。测试数据不充分或者遗漏了一些关键的测试会酌情扣分。
- 实验结果评分,共40分
对于实验的结果,主要考察其质量以及代码的运行效率。可以进行定量分析比较的,需要于相关工作进行比较,此外,实现细节中是否包含了自己的理解和思考。对于算法改进的项目,是否有进行改进和创新也会计入成绩。
- 答辩情况,共20分 依据课程答辩时的表现酌情计分。
- 加分内容
如果项目完成较早,可申请提前答辩,提前答辩后获得4分加分(答辩分数不超过20分)。如果独立完成了项目对应的加分内容,可获得相应的加分,总分不超过6分。此外,多人完成依照分工酌情加分,每人总分不超过3分。详见各项目描述。
Image Completion with Structure Propagation
基于结构扩展的图像补全利用用户交互来确定关键结构边界,然后基于边界信息拓展完成未知区域的补全。在这个项目中你需要实现能量最优化中使用到的置信度传播(Belief Propagation)算法以及图像补全用户界面。
项目详细要求
Interactive Digital Photomontage
交互式数字图像蒙太奇允许我们通过简单交互完成许多复杂的图像编辑、合成和增强。它的核心算法包括了基于 Graph-Cut 的图像边界选取和基于 Poisson 图像编辑的图像合成。在这个项目中你需要实现 Poisson 图像编辑模块,完成相关的用户界面,支持一系列图像编辑任务。
项目详细要求
参考资料:
- A. Agarwala, M. Dontcheva, M. Agrawala, S. Drucker, A. Colburn, B. Curless, D. Salesin, and M. Cohen, Interactive Digital Photomontage, ACM Transactions on Graphics (Proceedings of SIGGRAPH 2004), 2004.
Multi-view 3D Reconstruction
计算机视觉中的三维重建是利用图片序列中恢复出的相机位姿以及图片中场景的深度信息,得到真实场景的三维结构,提取出场景的表面并进行纹理映射,最终得到一个具有很强真实感的带有纹理的三维模型。三维重建包括三个主要的部分,分别是深度恢复,模型提取和纹理映射。经过SFM(structure from motion)可以恢复出摄像机位姿参数和场景的稀疏的三维信息,但是这些稀疏的三维信息不足以重建出整个场景。因此,通常我们都需要先利用摄像机位姿和场景中同一物体在不同帧图像中的成像的差异在来恢复出每一帧图像的稠密的深度信息,这就是深度恢复的主要任务。模型提取中主要涉及到了点云采样,点云融合以及三维表面提取等内容。该项目在三维重建部分需要实现多幅深度图的采样和融合以及使用泊松表面重建的算法进行表面提取。
项目详细要求
参考资料:
- KAZHDAN, M., BOLITHO, M., AND HOPPE, H. Poisson surface reconstruction, In Proceedings of the Symposium on Geometry Processing.61-70,2006
- Guofeng Zhang, Jiaya Jia, Tien-Tsin Wong, and Hujun Bao. Recovering Consistent Video Depth Maps via Bundle Optimization. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2008(oral).
Monocular Depth Estimation
深度估计一直是场景理解的重要组成部分。一个具有挑战性的问题是采用单目图像进行深度估计。近年来,随着深度神经网络的发展,已经出现许多尝试以监督学习的方式解决单目深度估计问题。他们大多把它作为卷积神经网络的像素级回归问题,并取得了不错的结果。在这个项目中,你需要利用深度神经网络实现单目图像的深度估计,以及在此基础上的若干扩展任务。
项目详细要求
参考资料:
- D. Eigen, C. Puhrsch, and R. Fergus. Depth map prediction from a single image using a multi-scale deep network. In Advances in neural information processing systems, pages 2366–2374, 2014.
- D. Eigen and R. Fergus. Predicting depth, surface normal and semantic labels with a common multi-scale convolutional architecture. In Proceedings of the IEEE International Conference on Computer Vision, pages 2650–2658, 2015.
- Laina I, Rupprecht C, Belagiannis V, et al. Deeper depth prediction with fully convolutional residual networks[C]//2016 Fourth international conference on 3D vision (3DV). IEEE, 2016: 239-248.
- Liu C, Gu J, Kim K, et al. Neural RGB ( r ) D Sensing: Depth and Uncertainty From a Video Camera[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 10986-10995.
- Zhou T, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1851-1858.
Image Colorization
把一张旧照片变成彩色照片是不是很酷? 给定一张灰色图像作为输入,使其变成彩色图像是一个病态问题。 通常这种问题有两种方法可以解决:(1)用户依照经验手工上色; (2)数据驱动的自动上色。我们的目标是在这个项目中完成灰度图像到彩色图像的上色以及彩色图像的重上色。
项目详细要求
- S. Iizuka, E. Simo-Serra, and H. Ishikawa, Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classi cation," ACM Transactions on Graphics (Proc. of SIGGRAPH 2016), vol. 35, no. 4, 2016.
- A. Levin, D. Lischinski, and Y. Weiss, Colorization using optimization," in ACM Transactions on Graphics (TOG), ACM, vol. 23, 2004, pp. 689{694.
- R. Zhang, P. Isola, and A. A. Efros, Colorful image colorization," European Conference on Computer Vision, 2016.
- Kumar, Manoj, Dirk Weissenborn, and Nal Kalchbrenner. "Colorization transformer." International Conference on Learning Representations, 2021.
- Saharia, Chitwan, et al. "Palette: Image-to-image diffusion models." ACM SIGGRAPH 2022 Conference Proceedings. 2022.
Style transfer for traditional Chinese paintings
图像到图像的转换是一类视觉和图形问题,其目标是使用一组对齐的图像对训练来学习输入图像和输出图像之间的映射。一个有意思的问题是根据给定的风格图像将任意一张图片转化成这一风格,并尽量保留原始照片的内容(即风格迁移)。近年来, 随着神经网络的发展, 已经出现了许多尝试通过生成网络来解决风格迁移问题。本项目中, 你需要利用现有的深度生成网络来实现中国传统绘画的风格迁移, 以及在此基础上做出相关改进来进一步提升风格迁移效果。
项目详细要求
参考资料:
- Gatys, Leon A., Alexander S. Ecker, and Matthias Bethge. “Image style transfer using convolutional neural networks.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016.
- Isola, Phillip, et al. “Image-to-image translation with conditional adversarial networks.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
- Zhu, Jun-Yan, et al. “Unpaired image-to-image translation using cycle-consistent adversarial networks.” Proceedings of the IEEE International Conference on Computer Vision. 2017.
Visual SLAM
同步定位与地图构建(SLAM)是一项获取未知环境3D结构和传感器运动的智能感知技术。它最初被提出用于实现机器人的自主控制,集成多种不同类型的传感器数据定位机器人在未知环境中的位置和姿态。在近些年,仅使用相机传感器的SLAM技术受到了广泛的讨论。因为输入仅是视觉信息,这类SLAM技术特别被称为视觉SLAM技术(vSLAM)。凭借廉价且普通的硬件需求,vSLAM技术可以为移动设备提供准确的姿态估计,使得AR应用可以真实地叠加现实物体和虚拟物体。
项目详细要求
参考资料:
- 鲍虎军,章国锋,秦学英. 2019.《增强现实:原理、算法与应用》(第4.1.1 章视觉 SLAM) .科学出版社.
- Hartley R I, Zisserman A. 2004. Multiple View Geometry in Computer Vision. Second edition. New York: Cambridge University Press.
- Nistér D. 2004. An efficient solution to the five-point relative pose problem. IEEE Transactions on Pattern Analysis and Machine Intelligence, 26(6): 756-777.
- Triggs B, Mclauchlan P F, Hartley R I, et al. 1999. Bundle adjustment: A modern synthesis//Proceedings of International Workshop on Vision Algorithms: Theory and Practice, Corfu: 298-372
Visual Localization
视觉定位,是指根据当前相机观测的视觉信息来恢复相机在世界坐标系中的位置和姿态的过程。其本质是将当前观测信息与已有的重建模型进行匹配,从而估计其在世界坐标系下的位姿。
项目详细要求
参考资料:
- Sarlin, Paul-Edouard, et al. "From coarse to fine: Robust hierarchical localization at large scale." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019.
- Sarlin P E, DeTone D, Malisiewicz T, et al. Superglue: Learning feature matching with graph neural networks, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020.
- Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition, Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.