MeshPad¶
MeshPad: Interactive Mesh Generation and Editing via Sketch-Based Atomic Operations on Autoregressive Mesh Models

MeshPad(2025.03)是一种基于草图的交互式 Mesh 生成与编辑方法。核心思想是在 MeshAnythingV2 自回归 Mesh 生成框架之上,将所有编辑操作分解为两个原子操作——删除(Deletion)和添加(Addition)。用户通过在位图草图上标注保留区域(黑色)与编辑区域(红色),即可驱动模型完成局部几何的精确增删。同时提出 Vertex-Aligned Speculator 加速推理,实现 2.2× 提速且无质量损失,使交互式编辑成为可能。
核心思想¶
MeshPad 要回答的关键问题是:
如何用草图作为交互手段,在自回归 Mesh 生成模型上实现灵活且精确的局部几何编辑?
思路清晰:
- 任何 Mesh 编辑操作——无论多复杂——都可以分解为删掉一些三角形和添加一些三角形两步
- 删除是一个二分类问题(每个顶点是否该删除),用双向注意力即可
- 添加是一个序列生成问题(自回归地生成新三角形 token),用因果注意力
- 用户通过草图提供编辑意图,模型分别执行删除和添加,最终合并得到编辑后的 Mesh
这种分解避免了直接建模"编辑"这个复杂操作,转而将其还原为两个定义清晰、各自适合的子问题。
输入表示¶
MeshPad 的输入由两部分组成:
- 位图草图 \(I\):包含两种颜色标注
- \(I_k\)(黑色线条):标记需要保留的区域
- \(I_r\)(红色线条):标记需要编辑/新增的区域
- 对应 Mesh:
- \(M_k\):保留区域对应的已有 Mesh
- \(M_r\):编辑区域对应的已有 Mesh(将被删除并重新生成)
这种草图-Mesh 对应的输入方式,既直观又能提供足够精确的空间约束。
删除网络(Deletion Network)¶
删除网络负责判断哪些顶点应被移除。
架构设计¶
- 注意力机制:双向注意力(bi-directional attention),让每个顶点能看到完整上下文
- 删除头(Deletion Head):接收每个顶点的 xyz 坐标嵌入,输出二分类标签(保留 / 删除)
- 三角形移除规则:只要一个三角形的任意一个顶点被标记为删除,整个三角形就被移除
为什么用双向注意力¶
删除是一个分类任务,不是生成任务。每个顶点的删除决策依赖于全局上下文——它需要"看到"草图中哪些区域被标记为红色、哪些顶点在红色区域内。双向注意力让模型能够充分利用所有信息做出判断。
添加网络(Addition Network)¶
添加网络负责在删除后的空洞区域自回归地生成新的三角形。
自回归生成¶
核心公式:
其中 \(S_k\) 是保留区域的 token 序列,\(I\) 是草图条件,\(S_r^{(1 \ldots i)}\) 是已经生成的新 token。
注意力机制¶
- 因果注意力(Causal Attention):标准的自回归生成模式,每个新 token 只能看到之前生成的 token
合并¶
新生成的 token 序列被反序列化为三角形,与保留的 Mesh 合并:
其中 \(T^{-1}\) 是从 token 序列到三角形 Mesh 的反序列化操作。
网络架构¶
MeshPad 的骨干由三个核心组件构成:
图像编码器¶
- 使用冻结的 RADIO 模型编码草图
- RADIO 是一个多任务视觉基础模型,提供丰富的图像特征
- 冻结参数意味着不需要对图像编码器做微调
Mesh 分词器¶
- 采用 MeshAnythingV2 风格的分词方案
- Token 类型包括:
- 控制 token:如序列起始、三角形分隔符等
- 顶点坐标 token:将 xyz 坐标量化为离散 token
Backbone¶
- Open Pre-trained Transformer(OPT)
- 从 MeshAnythingV2 的预训练权重初始化
- 在此基础上分别训练删除头和添加生成能力
Vertex-Aligned Speculator(速度创新)¶
这是 MeshPad 的重要工程创新,直接决定了方法能否用于交互式编辑。
核心观察¶
自回归 Mesh 生成中,每个顶点需要依次生成 x、y、z 三个坐标 token。标准做法是每个 token 独立生成,需要三次前向传播。
加速策略¶
- 在生成 x 坐标 token 后,立即用一个轻量 MLP 同时预测 y 和 z 坐标
- 这个 MLP 与 OPT backbone 联合训练(critical:独立训练会严重损害质量)
- 效果:每个顶点只需要一次完整的 Transformer 前向传播 + 一次轻量 MLP 推理
效果¶
- 2.2× 加速,无质量损失
- 这个加速幅度足以让编辑从"离线批处理"变为"交互式即时反馈"
为什么联合训练是关键¶
消融实验表明,如果 Speculator MLP 不与 backbone 联合训练:
- CD 从 6.78 劣化到 57.13——质量几乎不可用
- 联合训练让 backbone 的中间表示自适应地编码了有利于坐标预测的信息
自监督训练数据¶
MeshPad 的特点之一是完全不需要真实用户编辑数据。
数据构造流程¶
- 从 ShapeNet 数据集中选取 Mesh
- 对每个 Mesh 进行随机体素裁剪(random voxel cropping),模拟用户的局部编辑操作
- 通过 Canny 边缘检测自动生成对应的草图
数据规模¶
| 项目 | 数值 |
|---|---|
| Mesh 总数 | ~28K |
| 每个 Mesh 面数上限 | <768 faces |
| 真实用户数据需求 | 0 |
这种自监督策略有效地规避了 3D 编辑领域的主要瓶颈之一——缺乏大规模高质量编辑数据对。
实验结果¶
生成质量¶
| 指标 | MeshPad | LAS-Diffusion | SENS | 说明 |
|---|---|---|---|---|
| CD ↓ | 6.20 | — | — | Chamfer Distance,越低越好 |
| FID ↓ | 9.38 | — | — | 生成多样性与质量 |
| CLIP ↑ | 95.85 | — | — | 与条件的语义一致性 |
三项指标均为较优。
编辑用户研究¶
| 指标 | 分数 (满分 5) | 说明 |
|---|---|---|
| EQ(Edit Quality) | 4.3 | 编辑结果的视觉质量 |
| EM(Edit Match) | 4.2 | 编辑结果与用户意图的匹配度 |
| EC(Edit Consistency) | 4.3 | 编辑区域与保留区域的一致性 |
三个维度的分数非常均衡(4.2-4.3),说明 MeshPad 在质量、语义对齐和一致性之间取得了良好平衡。
编辑定量指标¶
| 指标 | MeshPad | 说明 |
|---|---|---|
| LPIPS ↓ | 0.2218 | 感知相似度,较优 |
| CLIP ↑ | 95.71 | 语义一致性,较优 |
消融实验¶
联合训练的重要性¶
| 配置 | CD ↓ |
|---|---|
| 无联合训练 | 57.13 |
| 有联合训练 | 6.78 |
差距接近一个数量级——联合训练是 Vertex-Aligned Speculator 能工作的前提条件。
Vertex Alignment 的作用¶
Vertex alignment 策略不仅带来了推理加速,还提升了生成质量。这说明让模型在训练时就"意识到"三个坐标之间的关联,有助于学到更好的几何表示。
优势与局限¶
优势¶
- 原子操作分解:将复杂编辑还原为删除 + 添加两个清晰子问题,设计简洁
- 原生 Mesh 输出:直接生成三角形 Mesh,不需要隐式表示 → Mesh 的中间转换
- 交互式速度:Vertex-Aligned Speculator 提供 2.2× 加速,支持实时编辑
- 零真实数据依赖:自监督训练策略完全绕过了编辑数据的获取难题
- 草图交互直觉:用户通过黑/红两色草图即可精确表达编辑意图
局限¶
- 面数限制:受 MeshAnythingV2 架构约束,每个 Mesh 上限 768 面,限制了复杂模型的编辑
- 仅支持几何编辑:当前不涉及纹理/材质编辑
- 草图表达能力有限:对于复杂的三维形变意图,2D 草图可能无法充分表达
- 依赖 ShapeNet 分布:训练数据来自 ShapeNet,对超出该分布的几何可能泛化不足
在编辑方法谱系中的位置¶
MeshPad 属于原生 Mesh 自回归编辑路线:
- 与 VoxHammer、NANO3D 等基于 TRELLIS 的方法不同,MeshPad 直接在 Mesh token 序列上操作,不经过结构化潜空间
- 与 MeshGPT 同属自回归 Mesh 方法族,但 MeshPad 专注于编辑而非纯生成
- 其"原子操作分解"思想(Deletion + Addition)是一种通用的编辑范式,理论上可以迁移到其他自回归 3D 生成模型
- 在草图引导方法中,与 SKED(优化式,NeRF 表示)形成对比——MeshPad 是前馈式的,且直接输出 Mesh
一句话总结¶
MeshPad 的主要贡献是提出将 Mesh 编辑分解为删除和添加两个原子操作,在 MeshAnythingV2 自回归框架上实现了草图驱动的交互式 Mesh 编辑,并通过 Vertex-Aligned Speculator 将推理速度提升到交互级别。