MeshPad¶

MeshPad: Interactive Mesh Generation and Editing via Sketch-Based Atomic Operations on Autoregressive Mesh Models

Overview

MeshPad（2025.03）是一种基于草图的交互式 Mesh 生成与编辑方法。核心思想是在 MeshAnythingV2 自回归 Mesh 生成框架之上，将所有编辑操作分解为两个原子操作——删除（Deletion）和添加（Addition）。用户通过在位图草图上标注保留区域（黑色）与编辑区域（红色），即可驱动模型完成局部几何的精确增删。同时提出 Vertex-Aligned Speculator 加速推理，实现 2.2× 提速且无质量损失，使交互式编辑成为可能。

核心思想¶

MeshPad 要回答的关键问题是：

如何用草图作为交互手段，在自回归 Mesh 生成模型上实现灵活且精确的局部几何编辑？

思路清晰：

任何 Mesh 编辑操作——无论多复杂——都可以分解为删掉一些三角形和添加一些三角形两步
删除是一个二分类问题（每个顶点是否该删除），用双向注意力即可
添加是一个序列生成问题（自回归地生成新三角形 token），用因果注意力
用户通过草图提供编辑意图，模型分别执行删除和添加，最终合并得到编辑后的 Mesh

这种分解避免了直接建模"编辑"这个复杂操作，转而将其还原为两个定义清晰、各自适合的子问题。

输入表示¶

MeshPad 的输入由两部分组成：

位图草图 \(I\)：包含两种颜色标注
- \(I_k\)（黑色线条）：标记需要保留的区域
- \(I_r\)（红色线条）：标记需要编辑/新增的区域
对应 Mesh：
- \(M_k\)：保留区域对应的已有 Mesh
- \(M_r\)：编辑区域对应的已有 Mesh（将被删除并重新生成）

这种草图-Mesh 对应的输入方式，既直观又能提供足够精确的空间约束。

删除网络（Deletion Network）¶

删除网络负责判断哪些顶点应被移除。

架构设计¶

注意力机制：双向注意力（bi-directional attention），让每个顶点能看到完整上下文
删除头（Deletion Head）：接收每个顶点的 xyz 坐标嵌入，输出二分类标签（保留 / 删除）
三角形移除规则：只要一个三角形的任意一个顶点被标记为删除，整个三角形就被移除

为什么用双向注意力¶

删除是一个分类任务，不是生成任务。每个顶点的删除决策依赖于全局上下文——它需要"看到"草图中哪些区域被标记为红色、哪些顶点在红色区域内。双向注意力让模型能够充分利用所有信息做出判断。

添加网络（Addition Network）¶

添加网络负责在删除后的空洞区域自回归地生成新的三角形。

自回归生成¶

核心公式：

\[ P(S_r^{(i+1)} | S_k, I, S_r^{(1 \ldots i)}) = \text{OPT}(S_k, I, S_r^{(1 \ldots i)}) \]

其中 \(S_k\) 是保留区域的 token 序列，\(I\) 是草图条件，\(S_r^{(1 \ldots i)}\) 是已经生成的新 token。

注意力机制¶

因果注意力（Causal Attention）：标准的自回归生成模式，每个新 token 只能看到之前生成的 token

合并¶

新生成的 token 序列被反序列化为三角形，与保留的 Mesh 合并：

\[ M' = M_k \cup T^{-1}(S_r) \]

其中 \(T^{-1}\) 是从 token 序列到三角形 Mesh 的反序列化操作。

网络架构¶

MeshPad 的骨干由三个核心组件构成：

图像编码器¶

使用冻结的 RADIO 模型编码草图
RADIO 是一个多任务视觉基础模型，提供丰富的图像特征
冻结参数意味着不需要对图像编码器做微调

Mesh 分词器¶

采用 MeshAnythingV2 风格的分词方案
Token 类型包括：
- 控制 token：如序列起始、三角形分隔符等
- 顶点坐标 token：将 xyz 坐标量化为离散 token

Backbone¶

Open Pre-trained Transformer（OPT）
从 MeshAnythingV2 的预训练权重初始化
在此基础上分别训练删除头和添加生成能力

Vertex-Aligned Speculator（速度创新）¶

这是 MeshPad 的重要工程创新，直接决定了方法能否用于交互式编辑。

核心观察¶

自回归 Mesh 生成中，每个顶点需要依次生成 x、y、z 三个坐标 token。标准做法是每个 token 独立生成，需要三次前向传播。

加速策略¶

在生成 x 坐标 token 后，立即用一个轻量 MLP 同时预测 y 和 z 坐标
这个 MLP 与 OPT backbone 联合训练（critical：独立训练会严重损害质量）
效果：每个顶点只需要一次完整的 Transformer 前向传播 + 一次轻量 MLP 推理

效果¶

2.2× 加速，无质量损失
这个加速幅度足以让编辑从"离线批处理"变为"交互式即时反馈"

为什么联合训练是关键¶

消融实验表明，如果 Speculator MLP 不与 backbone 联合训练：

CD 从 6.78 劣化到 57.13——质量几乎不可用
联合训练让 backbone 的中间表示自适应地编码了有利于坐标预测的信息

自监督训练数据¶

MeshPad 的特点之一是完全不需要真实用户编辑数据。

数据构造流程¶

从 ShapeNet 数据集中选取 Mesh
对每个 Mesh 进行随机体素裁剪（random voxel cropping），模拟用户的局部编辑操作
通过 Canny 边缘检测自动生成对应的草图

数据规模¶

项目	数值
Mesh 总数	~28K
每个 Mesh 面数上限	<768 faces
真实用户数据需求	0

这种自监督策略有效地规避了 3D 编辑领域的主要瓶颈之一——缺乏大规模高质量编辑数据对。

实验结果¶

生成质量¶

指标	MeshPad	LAS-Diffusion	SENS	说明
CD ↓	6.20	—	—	Chamfer Distance，越低越好
FID ↓	9.38	—	—	生成多样性与质量
CLIP ↑	95.85	—	—	与条件的语义一致性

三项指标均为较优。

编辑用户研究¶

指标	分数 (满分 5)	说明
EQ（Edit Quality）	4.3	编辑结果的视觉质量
EM（Edit Match）	4.2	编辑结果与用户意图的匹配度
EC（Edit Consistency）	4.3	编辑区域与保留区域的一致性

三个维度的分数非常均衡（4.2-4.3），说明 MeshPad 在质量、语义对齐和一致性之间取得了良好平衡。

编辑定量指标¶

指标	MeshPad	说明
LPIPS ↓	0.2218	感知相似度，较优
CLIP ↑	95.71	语义一致性，较优

消融实验¶

联合训练的重要性¶

配置	CD ↓
无联合训练	57.13
有联合训练	6.78

差距接近一个数量级——联合训练是 Vertex-Aligned Speculator 能工作的前提条件。

Vertex Alignment 的作用¶

Vertex alignment 策略不仅带来了推理加速，还提升了生成质量。这说明让模型在训练时就"意识到"三个坐标之间的关联，有助于学到更好的几何表示。

优势与局限¶

优势¶

原子操作分解：将复杂编辑还原为删除 + 添加两个清晰子问题，设计简洁
原生 Mesh 输出：直接生成三角形 Mesh，不需要隐式表示 → Mesh 的中间转换
交互式速度：Vertex-Aligned Speculator 提供 2.2× 加速，支持实时编辑
零真实数据依赖：自监督训练策略完全绕过了编辑数据的获取难题
草图交互直觉：用户通过黑/红两色草图即可精确表达编辑意图

局限¶

面数限制：受 MeshAnythingV2 架构约束，每个 Mesh 上限 768 面，限制了复杂模型的编辑
仅支持几何编辑：当前不涉及纹理/材质编辑
草图表达能力有限：对于复杂的三维形变意图，2D 草图可能无法充分表达
依赖 ShapeNet 分布：训练数据来自 ShapeNet，对超出该分布的几何可能泛化不足

在编辑方法谱系中的位置¶

MeshPad 属于原生 Mesh 自回归编辑路线：

与 VoxHammer、NANO3D 等基于 TRELLIS 的方法不同，MeshPad 直接在 Mesh token 序列上操作，不经过结构化潜空间
与 MeshGPT 同属自回归 Mesh 方法族，但 MeshPad 专注于编辑而非纯生成
其"原子操作分解"思想（Deletion + Addition）是一种通用的编辑范式，理论上可以迁移到其他自回归 3D 生成模型
在草图引导方法中，与 SKED（优化式，NeRF 表示）形成对比——MeshPad 是前馈式的，且直接输出 Mesh

一句话总结¶

MeshPad 的主要贡献是提出将 Mesh 编辑分解为删除和添加两个原子操作，在 MeshAnythingV2 自回归框架上实现了草图驱动的交互式 Mesh 编辑，并通过 Vertex-Aligned Speculator 将推理速度提升到交互级别。