Mesh Generation Models¶
3D Mesh 生成模型总览。除了常见的前馈式 (Feed-forward) 和基于优化 (Optimization-based) 分类,更重要的一条主线其实是:
模型到底在什么样的 3D 隐空间 / token 空间里生成?
这决定了模型能否同时做到高保真、可扩展、可编辑,以及最终稳定输出 mesh。
关于隐空间本身的系统性梳理,请参见 3D Latent Space Representations。本页聚焦生成模型本身的对比和方法路线。
核心方法对比¶
前馈式模型(一次前向传播生成)¶
| 模型 | 输入 | 输出表示 | 核心思想 | 发表时间 |
|---|---|---|---|---|
| TRELLIS | 文本/图像 | Mesh / 3DGS / RF | SLAT 结构化潜变量,两阶段 Flow Transformer,FlexiCubes 解码 | 2024.12 |
| TRELLIS 2 | 文本/图像 | Mesh (O-Voxel) | 原生 3D 结构 latent,SC-VAE + Flow DiT,开放拓扑 + PBR | 2025.06 |
| Hunyuan3D 2.0 | 单张图/草图 | Mesh (SDF→MC) | ShapeVAE + DiT + Paint 两阶段管线 | 2025.01 |
| CLAY | 文本/图像/3D 条件 | Mesh + PBR Asset | multi-resolution VAE + latent DiT + PBR 材质生成 | 2024.06 |
| TripoSG | 图像 | Mesh | 大规模高质量数据 + SDF VAE + Rectified Flow Transformer | 2025.02 |
| Hi3DGen | 图像 | Mesh | 基于 TRELLIS 预训练参数和 SLAT | 2025.03 |
| Direct3D-S2 | 图像 | Mesh | Sparse SDF VAE + spatial sparse attention,高分辨率稀疏几何生成 | 2025.05 |
| OctFusion | 文本/图像 | Mesh | 八叉树 latent + 统一多尺度 U-Net 扩散,单卡 2.5 秒 | 2025 (SGP) |
| Sparc3D | 图像 | Mesh | 模态一致 3D VAE (Sparcubes + Sparconv-VAE),1024³ | 2025.06 |
| LATO | 文本/图像 | Mesh | Latent Tree Optimization + 3D-aware generation | 2025.02 |
| GRM | 文本/图像 | 3DGS | 基于 Transformer 的大型高斯重建模型 | 2024.03 |
| Shap-E | 文本 | 隐式函数→Mesh | 直接生成 MLP 权重定义隐式形状 | 2023.05 |
| Point-E | 文本 | 点云 | 多步扩散模型生成 3D 点云 | 2022.12 |
Mesh-native 前馈式模型(直接生成 mesh 序列 / 结构)¶
| 模型 | 输入 | 建模范式 | 核心思想 | 面数上限 | 发表时间 |
|---|---|---|---|---|---|
| Edgerunner | 文本/类别 | AR | 将 Mesh 建模为顶点/面序列,自回归生成 | ~800 | 2024.09 |
| BPT | 文本/类别 | AR | Blocked and Patchified Tokenization,压缩比 0.26 | ~3000 | 2024.11 |
| FACE | 文本/类别 | AR | one-face-one-token,压缩比 0.11 | ~4000 | 2024.12 |
| Nautilus | 条件特征 | AR | locality-aware AE + BFS 拓扑序列化 | 5000 | 2025 (ICCV) |
| MeshRipple | 条件特征 | AR | frontier-aware BFS + sparse-attention global memory | ~4000 | 2025.06 |
| QuadGPT | 文本/图像 | AR + RL | 首个 quad mesh AR + tDPO 拓扑 RL 微调 | ~3000 | 2026 (ICLR) |
| TSSR | 条件特征 | 离散扩散 | 拓扑雕刻 + 形状细化两阶段,首个非 AR mesh-native | 10,000 | 2025.06 |
| PartCrafter | 文本/图像 | AR (part-aware) | part-level mesh assembly,组件级可控生成 | ~2000/part | 2025.06 |
| BANG | 输入几何 + 空间提示 | part-aware diffusion | exploded dynamics + temporal attention + part trajectory tracking | N/A | 2025.07 |
| VAT | 条件特征 | AR (token) | 250x 压缩到 256 tokens,可对接 LLM | N/A (token) | 2025.05 |
3D 隐空间表征方法:文献主线¶
这一部分是理解近两年 mesh generation 的关键。详细分析请参见 3D Latent Space Representations,此处仅做概要对比。
路线总结¶
| 路线 | 代表工作 | 主要优点 | 主要短板 |
|---|---|---|---|
| VecSet | 3DShape2VecSet | 紧凑、易训练 | 位置语义弱 |
| Structured latent | TRELLIS / SLAT | 有结构、有局部性、便于编辑 | token 较重 |
| Native structured latent | TRELLIS 2 / O-Voxel | 原生几何 + 材质,支持开放拓扑 | 体系复杂 |
| Semi-structured latent | LATTICE / VoxSet | 紧凑与可定位性折中 | 仍非最终 mesh 表示 |
| VecSet-based scaling | CLAY / TripoSG / Hunyuan3D 2.0 | 系统化、可工业部署 | 隐空间仍为 unstructured set |
| Sparse volumetric scaling | SparseFlex / Direct3D-S2 | 高分辨率与工程可扩展 | 仍需 field / surface 解码 |
| Octree / modality-consistent | OctFusion / Sparc3D | 自适应分辨率、模态纯度 | 实现复杂,仍依赖 isosurface |
| Extreme compression | VAT | 极端紧凑 (256 tokens),可对接 LLM | 空间局部性丢失 |
| Mesh-native token | BPT / FACE / Nautilus / TSSR / QuadGPT | 直接面向 mesh 输出 | 自回归序列建模难度高 |
关键文献线索¶
- VecSet → SLAT → O-Voxel:从紧凑 set 到有结构、再到原生 3D latent,逐步增加 native-ness。
- CLAY / TripoSG / Hunyuan3D 2.0:继承 VecSet latent 路线,通过大规模数据 + SDF/occupancy VAE + RF/DiT 做系统化 scaling,并逐步把纹理、控制和资产流程接入主干。
- SparseFlex / Direct3D-S2:在 sparse volumetric 上做工程 scaling,latent 具有显式 3D 空间结构。
- OctFusion / Sparc3D:关注结构效率(八叉树自适应)和管线纯度(纯 3D 训练消除模态转换)。
- BPT → FACE → Nautilus → MeshRipple → TSSR:mesh-native tokenization 的快速发展,压缩比 0.26 → 0.11 → 拓扑感知,面数 ~800 → 10,000。
- QuadGPT / PartCrafter / BANG:从 tri mesh 扩展到 quad mesh、从 whole shape 扩展到 part-aware,进一步走向部件级生成、拆解与装配工作流。
- VAT:极端压缩 (250x-2000x),让 3D 进入 LLM context window。
基于优化的模型(迭代优化 3D 表示)¶
| 模型 | 输入 | 输出表示 | 核心思想 | 发表时间 |
|---|---|---|---|---|
| DreamFusion | 文本 | NeRF | 开创 SDS 概念,2D 扩散模型指导 NeRF 优化 | 2022.09 |
| Magic3D | 文本 | Mesh | 两阶段(粗 NeRF → 精 Mesh),高分辨率纹理 | 2022.11 |
| MVDream | 文本 | NeRF→Mesh | 多视角扩散模型 + SDS 优化 | 2023.08 |
| LucidDreamer | 文本 | NeRF | ISM (Interval Score Matching) 改进 SDS | 2023.11 |
| Latent-NeRF | 文本 | NeRF | 优化潜向量→解码 NeRF | 2022.11 |
| SJC | 文本 | NeRF | Score Jacobian Chaining 替代 SDS | 2022.12 |
重建模型(多视图 → 3D)¶
| 模型 | 输入 | 输出 | 核心特点 |
|---|---|---|---|
| GTR | 多视图图像 | Mesh | LRM 基础上优化,DiffMC 全分辨率几何监督 + 秒级纹理精炼 |
| Neuralangelo | 多视图视频/图像 | Mesh (Neural SDF) | 哈希网格上的 Neural SDF,极擅长大场景高频细节 |
基于代码 / 脚本的生成¶
还有一条与直接输出 mesh 不同的方法线:模型输出的是生成三角网格或场景的程序,而不是最终三角网格。
| 工作 | 输入 | 输出程序表示 | 主要用途 |
|---|---|---|---|
GeoCode |
点云 / 草图 | Blender 几何节点参数 | 结构有效的形状程序反演 |
MeshCoder |
点云 | Blender Python 脚本 | 可编辑重建与拓扑修改 |
VIGA |
单图 | Blender 场景脚本 | 视觉反馈下的逆向图形 |
Infinigen / Infinigen Indoors |
随机种子 / 布局约束 | 数学规则 / Python DSL | 程序化场景生成 |
VoxelCodeBench |
文本 | Unreal 体素 API 代码 | 空间推理评测 |
这条路线讨论的重点不再只是“几何生成得像不像”,而是:
- 输出是否可执行
- 参数是否可解释
- 结构是否可检查
- 结果是否便于后续编辑
更系统的整理见 基于代码 / 脚本的 3D 生成。
趋势观察¶
- 前馈式正在取代优化式:速度从数小时降至数秒/分钟,且质量已可匹配甚至超越优化式方法。
- 隐空间表征成为核心竞争点:从 VecSet 到 SLAT、O-Voxel、VoxSet、Octree latent,竞争焦点已经转向 latent 的结构化程度和原生性,不再只是 backbone 大小。
- TRELLIS 系列确立为主流骨干架构之一:Hi3DGen、多个编辑方法都直接基于 TRELLIS 预训练。TRELLIS 2 进一步将 latent 从 SDF-based 推向 native 3D 资产。
- 模态一致性正在被重视:Sparc3D 指出 2D 渲染监督训练 3D VAE 存在模态不匹配,纯 3D 原生训练管线(3D 输入 → 3D latent → 3D 监督)可能成为后续默认选择。
- Mesh-native 路线快速发展:面数上限从 ~800 (2024 MeshGPT) 增长到 10,000 (2025 TSSR),同时扩展到 quad mesh (QuadGPT)、part-aware (PartCrafter)、离散扩散 (TSSR) 等新方向。
- Flow / Rectified Flow 正在替代传统 diffusion 训练:TRELLIS、TripoSG、TRELLIS 2 等主流方法均采用 Rectified Flow。
- 极端压缩和 LLM 对接成为新方向:VAT 用 256 个 token 表示一个 3D shape (250x 压缩),使 3D 可以直接进入 LLM context window,打开 multimodal 统一建模的可能性。
- 从 whole shape 到 part-aware:PartCrafter、BANG 代表的部件级生成与拆解方向,更贴近实际 3D 建模工作流——组件级可控、可复用、可局部替换。
一个更长期的分化判断¶
我更倾向于把未来 3D 生成看成两条逐渐分化的路线,而不是一条统一赛道。
1. 面向艺术生产的 3D 生成¶
这条路线更接近当前主流论文:
- 输入通常是文本、图像、草图、参考风格
- 目标是高观感、高多样性、快速迭代
- 容忍一定几何误差,只要整体视觉和语义成立即可
因此它更适合继续沿着现在的范式发展:
- 大规模概率生成模型
- 端到端 latent / diffusion / flow 生成
- 再叠加编辑、重纹理、部件控制等模块
CLAY、TRELLIS、Hunyuan3D 2.0、TripoSG 这类方法,基本都属于这条主线。
2. 面向工业生成的 3D 生成¶
工业场景对精度、公差、结构约束、可制造性要求极高,和艺术生成的目标并不相同。
- 需要精确尺寸、对称、配合关系、装配约束
- 需要参数可追踪、可修改、可复现
- 往往不能接受“视觉上差不多但几何上不严格正确”
在这种场景下,单纯依赖概率式 mesh / field 生成很可能不够。更可能的路线是:
- 基于 CAD 脚本 的生成
- 基于程序化建模 的自动化生成
- 或者先输出脚本 / 程序,再由执行器得到参数化几何、约束系统或装配结果
公开文献里已经能看到一些早期例子:GeoCode、MeshCoder 把点云或草图映射到程序表示,VIGA 在视觉反馈下持续修改 Blender 场景脚本,Infinigen 系列则直接把场景生成写成程序化规则与约束求解。更完整的整理见 基于代码 / 脚本的 3D 生成。
不过,这些工作大多仍建立在 Blender、体素 API 或场景 DSL 上,并不等同于严格的 CAD 内核和制造约束。工业 3D 生成更可能需要模型输出一种可编辑、可验证、可约束执行的表示,而不是只输出最终三角网格。
3. 为什么会这样¶
和 2D 图像领域对比,即使今天图像模型已经很强,它们仍然不擅长严格的工程设计稿、精确草图、标准化制图,因为这类任务要求:
- 尺寸与比例严格正确
- 局部结构可精确修改
- 输出要满足明确约束,而不是只满足统计上的“像”
3D 里这个问题会更强,因为 3D 不只是看起来像,还涉及:
- 空间尺寸
- 机械结构
- 装配关系
- 制造约束
所以感觉:
- 艺术生产 会继续由当前这类概率式端到端 3D foundation model 主导
- 工业生成 会逐步转向参数化、程序化、CAD-aware 的表示与工作流
这两条路线之间会互相借鉴,但短时间,至少几年内不会完全收敛成同一种技术体系。