关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

DMV3D新型3D生成方法:基于Transformer的3D大型重建模型用于去噪

发布时间:2023-12-10 19:02:23

**划重点:**

1. DMV3D它是一种单阶段、不可知类别的扩散模型,可以通过直接模型推理从文本或单个图像输入条件中生成3D神经辐射场(NeRFs),创建3D对象所需的时间明显缩短。

2. DMV3D集成3D Nerf重建并渲染到其去噪器中,创建了一个没有直接3D监督的2D多视图图像扩散模型,消除了对潜在空间扩散的单独3D训练 Nerf编码器的需求。

3. 基于大型Transformer研究人员通过最近的3D大型重建模型进行模型(LRM)构建了一种新型的联合重建和去噪模型,可以处理扩散过程中的各种噪声水平。

站长之家(ChinaZ.com)12月7日 消息:最近,Adobe研究人员和斯坦福大学团队联合提出了一种新的DMV3D生成方法。该方法旨在解决增强现实的问题(AR)、虚拟现实(VR)、3D资产在机器人技术和游戏领域的共同挑战。虽然3D扩散模型在简化复杂的3D资产创建过程中越来越受欢迎,但它们需要访问真实的地面3D模型或点云进行训练,这对真实图像来说是一个挑战。

image.png

虽然现有的解决方案可以解决这一挑战,但它通常需要大量的手动工作和优化过程。因此,Adobe研究人员和斯坦福大学团队一直致力于使3D生成过程更快、更真实、更通用。他们最近发表的论文介绍了一种新的方法,即DMV3D,这是一种单阶段、未知类别的扩散模型。

DMV3D的关键贡献包括开创性的单阶段扩散框架,它使用多视图2D图像扩散模型进行3D生成。同时,引入了大规模重建模型(LRM),这是一种多视图去噪器,可以从嘈杂的多视图图像中重建无噪音的三平面Nerfs。该模型为高质量文本到3D生成和单图像重建提供了一种通用的概率方法,实现了快速的直接模型推理,在单个A100GPU上只需30秒左右。

DMV3D将是3D Nerf重建和渲染集成到其去噪器中,创建了一个没有直接3D监督的2D多视图图像扩散模型。这消除了3D单独训练潜在空间扩散 Nerf编码器的需要简化了每个资产的优化过程。研究人员巧妙地利用四个多视图图像的稀疏集合,有效地描述了一个没有明显自我阻挡问题的3D对象。

研究人员利用大型Transformer模型,解决了稀疏视图3D重建的挑战性任务。基于最近的3D大型重建模型(LRM),它们引入了一种新型的联合重建和去噪模型,可以处理扩散过程中的各种噪声水平。在大规模合成渲染和真实捕获的数据集中进行训练,DMV3D显示了在大约30秒内在单个A100GPU上生成单阶段3D的能力。它在单图像3D重建方面取得了成就最新的成果。

image.png

本研究为解决3D视觉和图形领域的各种挑战提供了新的视角和可能性,通过统一的3D重建和生成的2D和3D生成模型领域之间的差距。

项目网址:https://justimyhxu.github.io/projects/dmv3d/

论文网址:https://arxiv.org/abs/2311.09217


/template/Home/Zkeys/PC/Static