跳转至

MVEdit

Generic 3D Diffusion Adapter Using Controlled Multi-View Editing

Overview

MVEdit 可以看成 3D 版本的 SDEdit:它的做法是在现成 2D diffusion model 外面加一个 training-free 的 3D adapter,把多视图图像编辑和 3D 一致性连接起来。


核心问题

2D diffusion 很强,但直接做 3D 时常见两类问题:

  • 逐视图生成很清晰,但多视图之间不一致
  • SDS 这类 3D 优化方法更一致,但速度慢,而且质量不稳定

MVEdit 想解决的是:

能不能保留 2D diffusion 的图像质量,同时用一个轻量的 3D 适配层把跨视角一致性补上。


方法框架

1. Controlled Multi-View Editing

  • 每一步先对多视图图像做 2D denoising
  • 然后插入一个 training-free 3D Adapter
  • 3D Adapter 把当前视图提升为一个临时的 3D 表示,再渲染回下一步需要的视角条件

这样一来,跨视角的信息交换发生在采样过程中,不需要重新训练主干。

2. 3D Adapter

  • 把上一步的多视图结果提升为统一 3D 表示
  • 再把这个 3D 表示渲染成当前 timestep 的控制条件
  • 相当于在相邻 denoising steps 之间加入 3D consistency bridge

3. StableSSDNeRF

论文还额外提出了 StableSSDNeRF:

  • 从 2D Stable Diffusion 微调得到 text-to-3D 初始化模型
  • 用于给 MVEdit 提供更好的低分辨率 text-to-3D 起点

为什么它重要

MVEdit 的价值不只在编辑,而在于它提出了一个通用框架:

  • 图像到 3D
  • 文本到 3D
  • 3D 到 3D 编辑
  • 文本引导重纹理
  • 图像引导重纹理

都可以落到同一套 2D diffusion + 3D adapter 流程里。

所以它更像一个 3D diffusion adapter 框架,而不只是单任务方法。


关键实验结论

Image-to-3D

在 GSO 测试集上,MVEdit 相比 One-2-3-45、DreamGaussian、Wonder3D、One-2-3-45++ 有更好的综合指标:

  • LPIPS = 0.139
  • CLIP = 0.914
  • FID = 29.3

并且推理时间约 3.8 min,在质量和速度之间取得了较好平衡。

In-the-wild 图像

  • 论文用 GPT-4V 做多视图比较,MVEdit 在 Image-3D alignment、3D plausibility、texture details 上都优于多数对比方法
  • 相比 DreamCraft3D 这种长时间 SDS 优化路线,MVEdit 更稳,也更少出现 Janus 和纹理噪声问题

Text-guided texture generation

在 текст引导纹理生成实验里,MVEdit 也优于 TEXTure、Text2Tex:

  • Aesthetic = 4.83
  • CLIP = 26.12
  • 推理时间约 1.6 min

说明它不只适合几何生成,也能处理高质量纹理编辑。


在编辑路线中的位置

MVEdit 属于典型的 2D-guided / lifting-style editing

  • 编辑主要发生在 2D 图像空间
  • 3D adapter 负责把多个视角重新拉回一致的 3D 表示

相比更早的逐视图编辑再重建方法,它更强调在采样过程中持续引入 3D consistency。


局限

  • 它本质上仍然依赖多视图图像编辑和 lifting,不是直接在原生 3D latent 上编辑
  • 尽管 3D 一致性更好,但几何细节上仍不如长时间 SDS 优化某些特例结果
  • 整个系统强依赖所接入的 2D diffusion 模型与控制模块,工程组合较重

一句话总结

MVEdit 的主要意义,是提出了一个 training-free 的 3D diffusion adapter 框架,让现成 2D diffusion 模型可以在多视图编辑中持续获得 3D 一致性约束,从而兼顾质量、速度和通用性。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部