跳转至

CraftMesh

CraftMesh: Training-Free High-Fidelity Mesh Editing via Image Editing and Poisson Fusion

Overview

CraftMesh(2025.09)是一种无需训练的显式网格编辑方法。其核心范式是 "图像编辑 → 网格生成 → 无缝融合":先通过 2D 图像编辑获取编辑意图,再用现成的 3D 生成模型重建编辑区域,最后通过两阶段 Poisson 融合将编辑后的几何与纹理无缝嵌入原始网格。全流程 inference-only,无需训练任何额外模块,在单张 4090 GPU 上约 5 分钟即可完成一次编辑。


核心思想

CraftMesh 要回答的关键问题是:

如何在显式网格(explicit mesh)表示下,实现高保真的局部编辑,同时确保编辑区域与原始区域之间几何和纹理的无缝过渡?

与基于隐式表示(NeRF / SDF / 3D 潜空间)的编辑方法不同,CraftMesh 直接操作三角网格,整个流程分为三步:

  1. 编辑区域网格生成:通过 2D 图像编辑 + 3D 重建获得编辑后的局部网格
  2. Poisson 几何融合:将编辑网格的几何无缝融入原始网格
  3. Poisson 纹理协调:消除融合边界处的颜色接缝,统一纹理风格

这套流程的设计思路是:Poisson 方程在 2D 图像编辑中被广泛用于无缝融合(如经典的 Poisson Image Editing),CraftMesh 将这一思想同时扩展到 3D 法线图域(几何融合)和网格表面颜色域(纹理协调),实现了几何与纹理的双重无缝过渡。


第一步:编辑区域网格生成

这一步的目标是根据文本指令生成编辑区域的 3D 网格。

流程

text 原始网格 M ↓ 渲染 参考视角图像 I_ref ↓ FLUX Kontext (文本指令) 编辑后参考图像 I_edit ↓ 前后对比,提取差异 编辑区域图像 I_region ↓ CraftsMan3D 两个网格:M_e(全局结构)+ M_r(局部细节)

关键设计

步骤 模型 作用
图像编辑 FLUX Kontext 根据文本指令编辑参考图像,生成 \(I_{\text{edit}}\)
区域提取 前后图像对比 比较 \(I_{\text{ref}}\)\(I_{\text{edit}}\),提取变化区域 \(I_{\text{region}}\)
全图重建 CraftsMan3D 输入 \(I_{\text{edit}}\),生成 \(M_e\)——全局结构准确,但局部细节可能不足
区域重建 CraftsMan3D 输入 \(I_{\text{region}}\),生成 \(M_r\)——局部细节丰富,但缺乏全局上下文

为什么需要两个网格?\(M_e\) 提供正确的全局空间关系和整体结构,\(M_r\) 提供编辑区域的高质量局部细节。后续的融合步骤会将两者的优势结合起来。


第二步:Poisson 几何融合(主要设计)

这是 CraftMesh 的主要技术贡献。目标是将编辑区域网格无缝嵌入原始网格,消除几何过渡处的不连续。

粗融合

首先通过 Mesh Boolean 运算(并集/差集)将编辑网格与原始网格合并,得到过渡网格 \(M_t\)。此时 \(M_t\) 在融合边界处存在明显的几何不连续。

混合 SDF/Mesh 表示

为了优化过渡区域,CraftMesh 采用混合表示:

  • 使用 MagicClay 的 SDF 骨干网络参数化网格
  • SDF 可微分,支持基于梯度的优化
  • 同时保留显式网格的渲染优势

Poisson 法线图编辑

这是几何融合的核心。从随机视角渲染以下信息:

符号 含义
\(\tilde{n}_t\) 当前过渡网格 \(M_t\) 的法线图
\(n_e\) 编辑网格 \(M_e\) 的法线图(目标)
\(n_t\) 合成法线图(编辑区域取 \(M_e\),其余取 \(M_t\)
\(\text{mask}^{\text{opt}}\) 优化掩码,标记需要平滑过渡的区域

然后应用 Poisson Image Editing

\[ n_p = \Gamma(n_t,\; n_e,\; \text{mask}^{\text{opt}}) \]

Poisson 编辑的物理意义:

  • 掩码内部:保留 \(M_e\) 的法线梯度(即保留编辑区域的几何细节)
  • 掩码边界:强制与周围原始区域的法线对齐(即确保平滑过渡)

优化目标

\[ \min \|\tilde{n}_t - n_p\|_F^2 + \lambda_{\text{smooth}} \cdot E_{\text{smooth}} + \lambda_{\text{eik}} \cdot E_{\text{eikonal}} \]
作用
\(\|\tilde{n}_t - n_p\|_F^2\) 驱动网格法线向 Poisson 编辑结果对齐
\(E_{\text{smooth}}\) 表面平滑正则化
\(E_{\text{eikonal}}\) SDF Eikonal 约束(\(\|\nabla \text{SDF}\| = 1\)),保证 SDF 合法性

在单张 4090 GPU 上迭代 1000 步,约 5 分钟完成。


第三步:Poisson 纹理协调

几何融合后,纹理仍然存在问题——编辑区域的纹理来自生成模型,保留区域的纹理来自原始网格,两者在边界处存在明显的颜色接缝和风格差异。

纹理来源

区域 纹理来源 标记
保留区域 原始网格纹理 \(M_t^{\text{pr}}\)
编辑区域 MeshyAI 生成的纹理 \(M_t^{\text{new}}\)

表面 Poisson 方程

CraftMesh 将 Poisson 纹理融合直接在网格表面上求解:

  1. 密集采样:在融合网格表面密集采样点
  2. 2D Delaunay 三角化:将采样点投影到 2D 参数域,构建 Delaunay 三角网格图
  3. 求解 Poisson 方程:在不规则网格图上求解颜色 Poisson 方程

边界条件与约束

条件 位置 作用
Dirichlet 边界条件 融合边界 固定颜色为保留区域的原始颜色,确保边界无缝
梯度约束 编辑区域内部 保留生成纹理的梯度(即保留纹理的细节和结构)

这与经典 Poisson Image Editing 的思路完全一致:边界处颜色对齐消除接缝,内部保留梯度保持细节。

PBR 材质支持

纹理协调不仅适用于漫反射颜色通道,还可以直接扩展到 PBR 材质的各个通道(法线贴图、粗糙度、金属度等),对每个通道独立求解 Poisson 方程即可。


扩展能力:拖拽式编辑

CraftMesh 的框架不局限于文本驱动编辑。通过集成 LightningDrag,可以实现基于拖拽的 3D 编辑:

  • 用户在参考图像上指定拖拽点对(源点 → 目标点)
  • LightningDrag 替代 FLUX Kontext 完成 2D 图像编辑
  • 后续的网格生成和 Poisson 融合流程不变

这展示了 CraftMesh 管线的模块化优势——2D 编辑模块可以灵活替换。


模型组件

CraftMesh 是一个纯 inference 管线,复用多个现成模型:

模块 模型 角色
2D 图像编辑 FLUX Kontext 文本指令驱动的参考图像编辑
3D 网格重建 CraftsMan3D 从 2D 图像生成 3D 网格
SDF 优化骨干 MagicClay 提供可微分 SDF/Mesh 混合表示
纹理生成 MeshyAI 为编辑区域网格生成纹理
拖拽编辑(可选) LightningDrag 拖拽式 2D 图像编辑

实验结果

定量比较

CraftMesh 在编辑对齐指标上优于现有方法:

方法 CLIP_sim ↑ CLIP_dir ↑ 类型
FocalDreamer 3.718 优化式
MagicClay 5.848 SDF 优化
CraftMesh 11.866 25.488 管线式(Ours)
  • CLIP_sim:编辑结果与文本描述的语义相似度,CraftMesh 是 MagicClay 的 2 倍以上
  • CLIP_dir:编辑方向与文本意图的对齐度,CraftMesh 在所有基线中取得最高分

消融实验

配置 效果
移除 Poisson 几何融合 编辑区域与原始区域之间出现明显的几何不连续和硬过渡
移除 Poisson 纹理协调 融合边界处出现颜色接缝,编辑区域与保留区域风格不统一
完整 CraftMesh 几何平滑过渡 + 纹理高度一致,各项指标较优

消融实验清晰地验证了两阶段 Poisson 融合各自必要的贡献。


优势与局限

优势

  • Training-free:纯 inference 管线,无需训练数据或微调,直接组合现成模型
  • 显式网格操作:直接在三角网格上编辑,输出即为生产可用的 mesh,无需后处理转换
  • 双重 Poisson 融合:同时解决几何不连续和纹理接缝两个痛点
  • 模块化设计:各组件可独立替换升级(如换用更强的 3D 重建模型)
  • PBR 支持:纹理协调天然扩展到多通道 PBR 材质
  • 多模态编辑:支持文本驱动和拖拽驱动两种交互方式

局限

  • 依赖 2D 编辑质量:FLUX Kontext 的编辑精度直接决定了最终 3D 编辑质量的上限
  • 单视角限制:仅从单一参考视角进行图像编辑,复杂的多视角一致性编辑难以保证
  • 3D 重建瓶颈:CraftsMan3D 的重建质量限制了编辑区域的几何精度
  • Mesh Boolean 鲁棒性:粗融合阶段的布尔运算对退化网格可能不稳定
  • 计算开销:虽然不需要训练,但 1000 步 SDF 优化仍需约 5 分钟,不是实时交互

在编辑方法谱系中的位置

CraftMesh 属于 Pipeline-based Mesh Editing 路线,与其他方法的对比:

  • MagicClay 同为显式网格编辑,但 MagicClay 需要 SDS 优化训练,CraftMesh 完全 training-free
  • VoxHammer 的区别在于表示空间不同——VoxHammer 在 3D 潜空间中编辑,CraftMesh 直接操作显式网格
  • 其 Poisson 融合思想源自 2D 图像编辑的经典方法(Pérez et al., 2003),CraftMesh 的贡献是将其系统性地扩展到 3D 法线图域和网格表面颜色域

一句话总结

CraftMesh 的主要贡献是提出了一套 training-free 的显式网格编辑管线,通过将经典的 Poisson 融合思想同时应用于几何(法线图域)和纹理(网格表面域),解决了管线式 3D 编辑中的几何不连续和纹理接缝问题。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部