跳转至

MeshPad

MeshPad: Interactive Mesh Generation and Editing via Sketch-Based Atomic Operations on Autoregressive Mesh Models

Overview

MeshPad(2025.03)是一种基于草图的交互式 Mesh 生成与编辑方法。核心思想是在 MeshAnythingV2 自回归 Mesh 生成框架之上,将所有编辑操作分解为两个原子操作——删除(Deletion)添加(Addition)。用户通过在位图草图上标注保留区域(黑色)与编辑区域(红色),即可驱动模型完成局部几何的精确增删。同时提出 Vertex-Aligned Speculator 加速推理,实现 2.2× 提速且无质量损失,使交互式编辑成为可能。


核心思想

MeshPad 要回答的关键问题是:

如何用草图作为交互手段,在自回归 Mesh 生成模型上实现灵活且精确的局部几何编辑?

思路清晰:

  1. 任何 Mesh 编辑操作——无论多复杂——都可以分解为删掉一些三角形添加一些三角形两步
  2. 删除是一个二分类问题(每个顶点是否该删除),用双向注意力即可
  3. 添加是一个序列生成问题(自回归地生成新三角形 token),用因果注意力
  4. 用户通过草图提供编辑意图,模型分别执行删除和添加,最终合并得到编辑后的 Mesh

这种分解避免了直接建模"编辑"这个复杂操作,转而将其还原为两个定义清晰、各自适合的子问题。


输入表示

MeshPad 的输入由两部分组成:

  • 位图草图 \(I\):包含两种颜色标注
    • \(I_k\)(黑色线条):标记需要保留的区域
    • \(I_r\)(红色线条):标记需要编辑/新增的区域
  • 对应 Mesh
    • \(M_k\):保留区域对应的已有 Mesh
    • \(M_r\):编辑区域对应的已有 Mesh(将被删除并重新生成)

这种草图-Mesh 对应的输入方式,既直观又能提供足够精确的空间约束。


删除网络(Deletion Network)

删除网络负责判断哪些顶点应被移除。

架构设计

  • 注意力机制:双向注意力(bi-directional attention),让每个顶点能看到完整上下文
  • 删除头(Deletion Head):接收每个顶点的 xyz 坐标嵌入,输出二分类标签(保留 / 删除)
  • 三角形移除规则:只要一个三角形的任意一个顶点被标记为删除,整个三角形就被移除

为什么用双向注意力

删除是一个分类任务,不是生成任务。每个顶点的删除决策依赖于全局上下文——它需要"看到"草图中哪些区域被标记为红色、哪些顶点在红色区域内。双向注意力让模型能够充分利用所有信息做出判断。


添加网络(Addition Network)

添加网络负责在删除后的空洞区域自回归地生成新的三角形。

自回归生成

核心公式:

\[ P(S_r^{(i+1)} | S_k, I, S_r^{(1 \ldots i)}) = \text{OPT}(S_k, I, S_r^{(1 \ldots i)}) \]

其中 \(S_k\) 是保留区域的 token 序列,\(I\) 是草图条件,\(S_r^{(1 \ldots i)}\) 是已经生成的新 token。

注意力机制

  • 因果注意力(Causal Attention):标准的自回归生成模式,每个新 token 只能看到之前生成的 token

合并

新生成的 token 序列被反序列化为三角形,与保留的 Mesh 合并:

\[ M' = M_k \cup T^{-1}(S_r) \]

其中 \(T^{-1}\) 是从 token 序列到三角形 Mesh 的反序列化操作。


网络架构

MeshPad 的骨干由三个核心组件构成:

图像编码器

  • 使用冻结的 RADIO 模型编码草图
  • RADIO 是一个多任务视觉基础模型,提供丰富的图像特征
  • 冻结参数意味着不需要对图像编码器做微调

Mesh 分词器

  • 采用 MeshAnythingV2 风格的分词方案
  • Token 类型包括:
    • 控制 token:如序列起始、三角形分隔符等
    • 顶点坐标 token:将 xyz 坐标量化为离散 token

Backbone

  • Open Pre-trained Transformer(OPT)
  • 从 MeshAnythingV2 的预训练权重初始化
  • 在此基础上分别训练删除头和添加生成能力

Vertex-Aligned Speculator(速度创新)

这是 MeshPad 的重要工程创新,直接决定了方法能否用于交互式编辑。

核心观察

自回归 Mesh 生成中,每个顶点需要依次生成 x、y、z 三个坐标 token。标准做法是每个 token 独立生成,需要三次前向传播。

加速策略

  • 在生成 x 坐标 token 后,立即用一个轻量 MLP 同时预测 y 和 z 坐标
  • 这个 MLP 与 OPT backbone 联合训练(critical:独立训练会严重损害质量)
  • 效果:每个顶点只需要一次完整的 Transformer 前向传播 + 一次轻量 MLP 推理

效果

  • 2.2× 加速,无质量损失
  • 这个加速幅度足以让编辑从"离线批处理"变为"交互式即时反馈"

为什么联合训练是关键

消融实验表明,如果 Speculator MLP 不与 backbone 联合训练:

  • CD 从 6.78 劣化到 57.13——质量几乎不可用
  • 联合训练让 backbone 的中间表示自适应地编码了有利于坐标预测的信息

自监督训练数据

MeshPad 的特点之一是完全不需要真实用户编辑数据。

数据构造流程

  1. ShapeNet 数据集中选取 Mesh
  2. 对每个 Mesh 进行随机体素裁剪(random voxel cropping),模拟用户的局部编辑操作
  3. 通过 Canny 边缘检测自动生成对应的草图

数据规模

项目 数值
Mesh 总数 ~28K
每个 Mesh 面数上限 <768 faces
真实用户数据需求 0

这种自监督策略有效地规避了 3D 编辑领域的主要瓶颈之一——缺乏大规模高质量编辑数据对。


实验结果

生成质量

指标 MeshPad LAS-Diffusion SENS 说明
CD ↓ 6.20 Chamfer Distance,越低越好
FID ↓ 9.38 生成多样性与质量
CLIP ↑ 95.85 与条件的语义一致性

三项指标均为较优。

编辑用户研究

指标 分数 (满分 5) 说明
EQ(Edit Quality) 4.3 编辑结果的视觉质量
EM(Edit Match) 4.2 编辑结果与用户意图的匹配度
EC(Edit Consistency) 4.3 编辑区域与保留区域的一致性

三个维度的分数非常均衡(4.2-4.3),说明 MeshPad 在质量、语义对齐和一致性之间取得了良好平衡。

编辑定量指标

指标 MeshPad 说明
LPIPS ↓ 0.2218 感知相似度,较优
CLIP ↑ 95.71 语义一致性,较优

消融实验

联合训练的重要性

配置 CD ↓
无联合训练 57.13
有联合训练 6.78

差距接近一个数量级——联合训练是 Vertex-Aligned Speculator 能工作的前提条件。

Vertex Alignment 的作用

Vertex alignment 策略不仅带来了推理加速,还提升了生成质量。这说明让模型在训练时就"意识到"三个坐标之间的关联,有助于学到更好的几何表示。


优势与局限

优势

  • 原子操作分解:将复杂编辑还原为删除 + 添加两个清晰子问题,设计简洁
  • 原生 Mesh 输出:直接生成三角形 Mesh,不需要隐式表示 → Mesh 的中间转换
  • 交互式速度:Vertex-Aligned Speculator 提供 2.2× 加速,支持实时编辑
  • 零真实数据依赖:自监督训练策略完全绕过了编辑数据的获取难题
  • 草图交互直觉:用户通过黑/红两色草图即可精确表达编辑意图

局限

  • 面数限制:受 MeshAnythingV2 架构约束,每个 Mesh 上限 768 面,限制了复杂模型的编辑
  • 仅支持几何编辑:当前不涉及纹理/材质编辑
  • 草图表达能力有限:对于复杂的三维形变意图,2D 草图可能无法充分表达
  • 依赖 ShapeNet 分布:训练数据来自 ShapeNet,对超出该分布的几何可能泛化不足

在编辑方法谱系中的位置

MeshPad 属于原生 Mesh 自回归编辑路线:

  • 与 VoxHammer、NANO3D 等基于 TRELLIS 的方法不同,MeshPad 直接在 Mesh token 序列上操作,不经过结构化潜空间
  • 与 MeshGPT 同属自回归 Mesh 方法族,但 MeshPad 专注于编辑而非纯生成
  • 其"原子操作分解"思想(Deletion + Addition)是一种通用的编辑范式,理论上可以迁移到其他自回归 3D 生成模型
  • 在草图引导方法中,与 SKED(优化式,NeRF 表示)形成对比——MeshPad 是前馈式的,且直接输出 Mesh

一句话总结

MeshPad 的主要贡献是提出将 Mesh 编辑分解为删除和添加两个原子操作,在 MeshAnythingV2 自回归框架上实现了草图驱动的交互式 Mesh 编辑,并通过 Vertex-Aligned Speculator 将推理速度提升到交互级别。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部