近期,浙江大学计算机辅助设计与图形系统全国重点实验室与美国 Adobe Research的合作论文“MaterialPicker: Multi-Modal DiT-Based Material Generation”被 SIGGRAPH 2025 录用,并将发表在ACM Transactions on Graphics期刊上。本研究提出了一种基于扩散变换器(Diffusion Transformer, DiT)的多模态材质生成模型,能够从自然图像和/或文本提示中生成可直接用于渲染的 PBR 材质贴图。该方法在视角倾斜、表面遮挡及复杂光照等非理想拍摄条件下显著提升了材质建模的质量与鲁棒性。系统的定量与定性评估表明,其在材质多样性生成与失真校正方面优于现有方法,为数字内容创作、逆向渲染及虚拟资产生成等应用提供了高效可靠的解决方案。
研究背景
在计算机图形学与视觉领域,获取真实物体表面的材质外观对真实感渲染和虚拟内容创作至关重要。近年来,学术界在单张图像条件下的材质贴图重建方面取得了显著进展,然而仍存在以下关键限制。首先,此类方法通常对拍摄条件要求较高,如依赖前视角、共置光源及材质区域无形变、无遮挡,难以应对自然场景中常见的视角倾斜、遮挡与光照不一致问题。其次,现有生成模型多基于 U-Net 架构,训练目标为RGB图像,若需生成多通道材质贴图(如反射率、法线、粗糙度等),往往需要对U-Net结构进行修改或重新训练VAE模型,难以继承大规模图像生成模型中蕴含的视觉先验。此外,许多材质生成方法多数依赖于使用合成数据集训练,受限于其与真实图像在内容、光照与视角上分布的差异,难以实现对真实照片中材质外观多样性与几何复杂性的有效泛化。
如何从任意视角的图片和/或自然语言描述中生成物理一致、结构对齐、丰富多样的多通道材质贴图,并在复杂变形条件下保持稳定的跨通道对齐与几何校正能力,依然是当前学术研究与工业应用中的核心难题。
研究创新与突破
针对上述挑战,本研究提出的 MaterialPicker 模型通过以下关键创新,显著提升了材质生成的质量、效率与泛化能力:
1、跨域范式迁移
本研究首次将预训练的文本到视频生成模型迁移至多用到材质建模任务,提出将反射率、法线、粗糙度、高度与金属度贴图建模为视频帧序列,利用DiT的时空一致性建模能力实现跨通道空间对齐。该方法将输入图像视为首帧,输出材质作为后续帧,在自注意力机制与时空位置编码引导下进行建模,并有效继承了预训练模型的生成先验。相比U-Net架构(如SDXL),DiT的Token化表示避免了像素级对齐与通道扩展限制,具备更强的灵活性与复杂视角下的适应能力。
2、大规模混合数据集
为提升模型对自然图像的泛化能力,本研究构建了由3000种静态材质的渲染的 80 万组图像-掩码-文本-材质贴图的配对样本,结合另一个包含 80 万对文本-材质贴图对的数据集共同训练。前者通过随机化相机位姿、光照条件及材质分配,模拟多视角与畸变场景,并通过UV重缩放确保了输入图像与材质贴图的纹理尺度一致性;后者通过丰富的材质描述增强了语义多样性。联合训练策略使模型可恢复静态材质细节(如木纹、砖墙)的同时,亦可泛化至复杂纹理。
3. 多模态输入与高效生成
MaterialPicker模型支持图像、文本及联合输入,通过CLIP嵌入实现跨模态对齐,并可利用文本信息消缓解单张图像的材质歧义问题。同时引入自动主材质识别机制,无需用户额外提供掩码。在生成速度方面,本方法仅需12秒即可生成一组材质贴图,比现有基于优化的方法MaterialPalette快15倍。
研究成果与贡献
本研究在渲染验证数据集与真实照片上,对 MaterialPicker 与具有相似任务目标的方法 MaterialPalette 进行了系统比较。实验表明MaterialPicker 在畸变校正方面表现更好,并且更好地匹配了原始外观,展现了更高的生成质量和视觉一致性。
MaterialPicker能够同时生成五种 PBR 材质贴图(反射率、法线、粗糙度、高度、金属度)以及推测材质掩码,并支持文本提示作为额外条件输入。而 MaterialPalette 需用户提供显式掩码,且仅支持生成反射率、法线与粗糙度三个通道。为公平比较,两方法以相同图像为输入,并在三个共有通道上进行质量评估。
第一列展示了来自PolyHaven的真实材质贴图以及其对应的渲染场景。黄色方框区域表示用于两个模型输入的裁剪区域。第二列和第三列分别展示了本章方法和Material Palette 生成的材质贴图,以及相应的重新渲染图像。从结果可以看出,本章方法生成的材质在外观上更接近真实材质,表现出更高的细节还原能力。
上表为在1593个验证数据上的材质生成的定量对比结果,报告了生成材质贴图与真实材质贴图,重渲染图与输入图之间的平均 CLIP-I 分数 和DINO 分数,与95% 置信区间。
图为与Material Palette 在真实照片上进行材质生成的对比结果。第一列展示了输入图像及其对应的材质掩码(本章方法生成的掩码在右下角,Material Palette 所需的输入掩码在左上角)。第二至第六列展示了生成的材质贴图及其在环境光照下的渲染结果。
关于与其他类别方法的比较结果,包括文本到材质生成方法、单张图像重建方法以及纹理校正与补全方法,详见论文原文:
https://xiaohema98.com/publications/materialpicker/index.html
本研究由浙江大学计算机辅助设计与图形系统全国重点实验室的博士研究生马晓鹤作为第一作者完成,受到Yiwei Hu,Valentin Deschaintre,Milos Hasan与吴鸿智教授的联合指导。本研究得到了国家自然科学基金(项目编号:62332015、62227806、62421003)的资助。