研究成果|基于扩散模型的风格化纹理生成框架

        近期,浙江大学计算机辅助设计与图形系统全国重点实验室金小刚教授课题组的研究论文《StyleTex: Style Image-Guided Texture Generation for 3D Models》被Siggraph Asia 2024录用,并将发表在《ACM Transactions on Graphics》期刊上。该论文提出了一种基于扩散模型的风格化纹理生成框架,能够有效地从参考图像中提取风格信息,并将其应用于3D模型,从而生成更加一致且高质量的纹理效果。这项研究在基于扩散模型的3D纹理生成领域实现了重要的创新突破,为风格化的游戏与电影制作提供了全新的技术解决方案。

研究背景
        在计算机视觉和图形学领域,生成与3D形状和参考图像风格和谐一致的纹理对于创建视觉上引人入胜的数字环境至关重要。然而,现有的研究通常分别处理风格和几何一致性的问题,难以在3D领域实现多视图一致的风格化纹理生成。
将所需风格融入纹理生成并不简单。在3D领域,未能有效解耦风格可能导致最终纹理中出现不准确的风格和意外的内容泄漏。研究课题组的目标是解决两个主要挑战,包括完全解耦参考图像中的风格和内容,以及保持生成纹理的色调和风格一致性。
研究创新与突破
        本研究提出了StyleTex,一种基于扩散模型的框架,用于在单张参考图像的指导下生成风格化纹理。核心思想是通过解耦参考图像的风格和内容信息,实现风格化纹理生成该研究的关键创新在于利用CLIP空间中的多模态应用,使用正交分解的方法将参考图像的风格信息与内容信息解耦,具体来说,通过从图像CLIP特征中减去与代表内容的文本CLIP特征对齐的部分,来提取风格特征。然后将风格特征注入到扩散模型的交叉注意力机制中尽可能多的与风格相关的注意力层,同时利用内容信息作为负面提示词进一步分离内容与风格。
        研究方法还引入了间隔分数匹配(Interval Score Matching)和使用具有几何感知的ControlNet,以解决过度平滑、过度饱和的问题,并确保几何一致性。
研究成果与贡献
      StyleTex生成的纹理不仅保留了参考图像的风格,还与文本提示和3D模型的内在细节保持一致。定量和定性实验表明,该方法在风格保真度、语义一致性、内容去除能力等方面相比于现有基线方法取得了明显的优势。这一研究工作为自动创建多样化的风格化虚拟环境提供了新的可能性,推动了游戏和电影制作中的数字内容生成技术的发展。

        浙江大学计算机辅助设计与图形系统全国重点实验室金小刚(Xiaogang Jin)教授为本文通讯作者。硕士研究生谢智宇、张宇晴为本文的共同第一作者。博士研究生唐祥峻、吴奕谦,硕士研究生陈德瀚为本文的共同作者。本研究受到了浙江省重点研发计划项目(编号:2024C01069)的资助。