Native 3D Editing¶

Native 3D Editing (2025.11) — 在 TRELLIS 的 SLAT 隐空间中直接进行前馈式 3D 编辑

Native 3D Editing 是"原生 3D 编辑"路线的代表工作。它不借助任何 2D 中间编辑结果，而是直接在 TRELLIS 的 SLAT 潜变量空间中完成源模型到目标模型的编辑映射。论文的核心发现是：Token Concatenation 策略优于 Cross-Attention，前者让目标 token 能在自注意力中直接关注源 token，从而保持几何一致性；后者将源信息视为外部条件，导致信息碎片化和几何失真。

核心架构：Token Concatenation¶

Native 3D Editing 的编辑架构基于 Token Concatenation 策略，将源模型和目标模型的 latent 拼接后送入统一的 Transformer 处理。完整流程如下：

Patchify + 投影 + 位置编码：将源 SLAT \(z_s\) 和加噪目标 SLAT \(z_t\) 分别序列化为 token 序列
序列维度拼接：\(h_{\text{comb}} = \text{Concat}(h_t, h_s)\)
全自注意力：目标 token 可以直接 attend 到源 token，信息流完整无遮挡
文本指令：通过常规的 cross-attention 注入编辑指令
分离与解码：经过 N 个 Transformer block 后，从拼接序列中分离出目标部分，解码得到编辑后的 SLAT

为什么不用 Cross-Attention？¶

论文同时测试了 Cross-Attention 作为 baseline：将源 SLAT 当作类似文本的外部条件，通过并行的 cross-attention 层注入。结果表明这种方式会导致：

信息碎片化：源信息被压缩到 KV 投影中，target 只能间接访问
几何失真：未编辑区域的几何无法精确保持
颜色不一致：外观信息传递不完整

消融实验明确证实：Token Concatenation 在几何一致性和编辑保真度上优于 Cross-Attention。

数据构建¶

高质量的 3D 编辑对（source, target, instruction）是训练的关键。论文针对不同编辑类型设计了专门的数据流水线：

删除（Deletion）¶

数据来源：Objaverse 中具有零件级标注的资产
流程：程序化地移除指定零件 → 用 Gemini 2.5 识别零件名称并生成编辑描述
数据量：Stage 1 共 64K 对，Stage 2 共 45K 对

添加与修改（Addition & Modification）¶

数据来源：3D-Alpaca 2D 编辑数据集
流程：Hunyuan3D 2.1 将 2D 编辑对提升为 3D 对 → 严格人工筛选
筛选标准：指令一致性（编辑内容是否忠实于指令）、未编辑区域保持（非编辑部分是否完好）、整体质量
数据量：Stage 1 共 47K 对，Stage 2 共 47K 对

消融：数据质量的影响¶

论文发现使用 Hunyuan3D 2.1 生成并经人工筛选的数据，效果优于仅用 TRELLIS 自身编码-解码生成的数据。这说明编辑数据的多样性和保真度对模型性能很重要。

训练细节¶

模型基于 TRELLIS 架构，使用预训练权重初始化，分两阶段训练：

阶段	目标	步数	Batch Size	GPU
Stage 1	稀疏结构（Sparse Structure）	150K	12	16× A800
Stage 2	局部潜变量（Local Latents）	80K	8	18× A800

优化器：AdamW
学习率：\(1 \times 10^{-4}\)

两阶段训练延续了 TRELLIS 的"结构→细节"解耦哲学：先学会在宏观结构层面正确编辑，再学习保持和修改精细外观。

实验结果¶

主实验（Table 1）¶

方法	FID ↓	FVD ↓	CLIP ↑
Instant3DiT	255.5	1209.8	0.225
VoxHammer	169.6	594.2	0.230
Native 3D Editing	91.9	286.5	0.249

三个指标均领先：

FID 91.9：生成质量优于两个基线，说明编辑后的 3D 资产整体保真度高
CLIP 0.249：语义对齐度最好，编辑结果与文本指令匹配更准确
FVD 286.5：这是衡量多视角一致性的重要指标——FVD 衡量多视角渲染序列的时序一致性，领先幅度（降幅超过 50%）证明了原生 3D 编辑在几何一致性上的优势

为什么 FVD 改进最能说明问题？¶

FVD（Fréchet Video Distance）评估的是从不同视角渲染的序列质量。如果编辑后的 3D 资产存在几何失真或多视角不一致，FVD 会明显恶化。Native 3D Editing 的 FVD 从 VoxHammer 的 594.2 降到 286.5（降幅超过 50%），直接证明了在原生 3D 隐空间中编辑对几何一致性的优势。

消融实验¶

论文的消融实验验证了两个核心设计选择：

Token Concatenation vs Cross-Attention¶

Token Concatenation 优于 Cross-Attention。后者将源模型当作外部条件处理，导致目标模型无法充分获取源模型的空间细节，表现为几何失真和颜色不一致。而 Token Concatenation 让源和目标 token 在同一序列中做全自注意力，信息传递无损。

数据来源消融¶

使用 Hunyuan3D 2.1 提升并经人工筛选的编辑对，效果优于仅使用 TRELLIS 编解码器构造的数据。这表明：

外部高质量 3D 生成模型可以有效扩展编辑训练数据
人工筛选对确保编辑指令一致性和未编辑区域保持是必要的
数据质量比数据量更重要

在编辑路线中的定位¶

Native 3D Editing 属于 Mesh Editing Landscape 中 Fully native 3D editing 子路线的代表。与 tuning-free 方法（VoxHammer, NANO3D）和 2D-guided 方法（CraftMesh, PrEditor3D）不同，它选择了最直接的路径：

直接在 3D 隐空间中学习编辑映射，不借助任何 2D 中间步骤。

这条路线的代价是需要大量高质量 3D 编辑对和可观的训练资源，但回报是几何一致性和编辑保真度的提升。从结果来看，这个 trade-off 是值得的。

局限性小结¶

Native 3D Editing 提交至 ICLR 2026 后被审稿人给出 [4, 2, 4, 0] 的极低评分，最终由作者主动撤稿 (Withdrawn)。综合四位审稿人的意见，其核心局限性可归纳如下：

1. 评估体系严重缺失¶

无多视角展示：全文所有结果只展示了单一视角的 2D 截图，没有提供任何旋转视频或多视角渲染。审稿人甚至怀疑其输出可能并非真正的 3D 一致结果。
只用 2D 指标衡量 3D 任务：论文声称解决了 3D 一致性问题，但评测只用了 FID、FVD、CLIP 这些基于 2D 渲染图的指标，完全没有测试 3D 几何指标（如 Chamfer Distance、法线一致性等）。这无法验证未编辑区域的几何是否真正被保留。
缺少人类评估：自动指标无法全面评价 3D 编辑的质量，论文也未设计用户研究。
无推理效率报告：论文声称优化方法太慢，但自身并未报告推理时间和 GPU 显存用量。

2. 数据一致性的致命缺陷¶

未编辑区域被篡改：添加与修改类数据通过 2D 编辑 → Hunyuan3D 2.1 提升获得。审稿人在可视化中发现，"给柱子加指示牌"任务中生成的柱子与源模型形状完全不同——这意味着作为 Ground Truth 的编辑对本身就违反了"未编辑区一致性"的基本要求。
人工筛选不透明：依赖人工过滤保留高质量数据，但论文未公开废片率 (Rejection Rate) 和筛选标准的量化描述，可复现性存疑。
生成质量粗糙：编辑结果（如加的指示牌纯白无纹理）远不及优化方法（NANO3D）的保真度。

3. Token Concatenation 的计算代价¶

将源序列和目标序列直接拼接后做全自注意力，序列长度翻倍，导致 Self-Attention 的计算量和显存占用膨胀至约 4 倍，在高分辨率场景下极易 OOM。
论文全文回避了这一效率问题，未给出显存和推理时间的定量分析。

4. 技术创新性不足¶

Token Concatenation 并非新技术：多位审稿人指出，该策略在 2D 领域已被广泛使用（如 CatVTON、Animate Anyone），论文仅将其搬到 3D TRELLIS 上，缺乏针对 3D 表征特性的专有设计洞察。
对比基线不全面：只与少量 feed-forward 方法对比，完全忽略了基于 SDS 优化的方法（Instruct-NeRF2NeRF、Vox-E、DreamEditor 等），被批评为"选择性失明"。

5. 消融实验不充分¶

Cross-Attention vs. Token Concatenation 的对比仅展示了 3 个定性示例，没有定量指标。审稿人认为无法由此断言哪种策略更优。
关于 Token Concatenation 相比 Cross-Attention 的"参数效率更高"的声明，也缺少具体的参数量对比数据。

一句话总结¶

Native 3D Editing 证明了一件事：当你拥有足够好的 3D latent 表示（SLAT）、正确的条件注入方式（Token Concatenation 而非 Cross-Attention）、以及高质量的编辑训练数据时，在原生 3D 空间中直接编辑可以优于依赖 2D 中间步骤或 training-free tricks 的方法。但其 ICLR 2026 撤稿也警示我们：缺乏 3D 几何评估指标、数据一致性存疑、以及回避算力分析，是任何 3D 编辑论文的致命硬伤。