Mesh Generation Models¶

3D Mesh 生成模型总览。除了常见的前馈式 (Feed-forward) 和基于优化 (Optimization-based) 分类，更重要的一条主线其实是：

模型到底在什么样的 3D 隐空间 / token 空间里生成？

这决定了模型能否同时做到高保真、可扩展、可编辑，以及最终稳定输出 mesh。

关于隐空间本身的系统性梳理，请参见 3D Latent Space Representations。本页聚焦生成模型本身的对比和方法路线。

核心方法对比¶

前馈式模型（一次前向传播生成）¶

模型	输入	输出表示	核心思想	发表时间
TRELLIS	文本/图像	Mesh / 3DGS / RF	SLAT 结构化潜变量，两阶段 Flow Transformer，FlexiCubes 解码	2024.12
TRELLIS 2	文本/图像	Mesh (O-Voxel)	原生 3D 结构 latent，SC-VAE + Flow DiT，开放拓扑 + PBR	2025.06
Hunyuan3D 2.0	单张图/草图	Mesh (SDF→MC)	ShapeVAE + DiT + Paint 两阶段管线	2025.01
CLAY	文本/图像/3D 条件	Mesh + PBR Asset	multi-resolution VAE + latent DiT + PBR 材质生成	2024.06
TripoSG	图像	Mesh	大规模高质量数据 + SDF VAE + Rectified Flow Transformer	2025.02
Hi3DGen	图像	Mesh	基于 TRELLIS 预训练参数和 SLAT	2025.03
Direct3D-S2	图像	Mesh	Sparse SDF VAE + spatial sparse attention，高分辨率稀疏几何生成	2025.05
OctFusion	文本/图像	Mesh	八叉树 latent + 统一多尺度 U-Net 扩散，单卡 2.5 秒	2025 (SGP)
Sparc3D	图像	Mesh	模态一致 3D VAE (Sparcubes + Sparconv-VAE)，1024³	2025.06
LATO	文本/图像	Mesh	Latent Tree Optimization + 3D-aware generation	2025.02
GRM	文本/图像	3DGS	基于 Transformer 的大型高斯重建模型	2024.03
Shap-E	文本	隐式函数→Mesh	直接生成 MLP 权重定义隐式形状	2023.05
Point-E	文本	点云	多步扩散模型生成 3D 点云	2022.12

Mesh-native 前馈式模型（直接生成 mesh 序列 / 结构）¶

模型	输入	建模范式	核心思想	面数上限	发表时间
Edgerunner	文本/类别	AR	将 Mesh 建模为顶点/面序列，自回归生成	~800	2024.09
BPT	文本/类别	AR	Blocked and Patchified Tokenization，压缩比 0.26	~3000	2024.11
FACE	文本/类别	AR	one-face-one-token，压缩比 0.11	~4000	2024.12
Nautilus	条件特征	AR	locality-aware AE + BFS 拓扑序列化	5000	2025 (ICCV)
MeshRipple	条件特征	AR	frontier-aware BFS + sparse-attention global memory	~4000	2025.06
QuadGPT	文本/图像	AR + RL	首个 quad mesh AR + tDPO 拓扑 RL 微调	~3000	2026 (ICLR)
TSSR	条件特征	离散扩散	拓扑雕刻 + 形状细化两阶段，首个非 AR mesh-native	10,000	2025.06
PartCrafter	文本/图像	AR (part-aware)	part-level mesh assembly，组件级可控生成	~2000/part	2025.06
BANG	输入几何 + 空间提示	part-aware diffusion	exploded dynamics + temporal attention + part trajectory tracking	N/A	2025.07
VAT	条件特征	AR (token)	250x 压缩到 256 tokens，可对接 LLM	N/A (token)	2025.05

3D 隐空间表征方法：文献主线¶

这一部分是理解近两年 mesh generation 的关键。详细分析请参见 3D Latent Space Representations，此处仅做概要对比。

路线总结¶

路线	代表工作	主要优点	主要短板
VecSet	3DShape2VecSet	紧凑、易训练	位置语义弱
Structured latent	TRELLIS / SLAT	有结构、有局部性、便于编辑	token 较重
Native structured latent	TRELLIS 2 / O-Voxel	原生几何 + 材质，支持开放拓扑	体系复杂
Semi-structured latent	LATTICE / VoxSet	紧凑与可定位性折中	仍非最终 mesh 表示
VecSet-based scaling	CLAY / TripoSG / Hunyuan3D 2.0	系统化、可工业部署	隐空间仍为 unstructured set
Sparse volumetric scaling	SparseFlex / Direct3D-S2	高分辨率与工程可扩展	仍需 field / surface 解码
Octree / modality-consistent	OctFusion / Sparc3D	自适应分辨率、模态纯度	实现复杂，仍依赖 isosurface
Extreme compression	VAT	极端紧凑 (256 tokens)，可对接 LLM	空间局部性丢失
Mesh-native token	BPT / FACE / Nautilus / TSSR / QuadGPT	直接面向 mesh 输出	自回归序列建模难度高

关键文献线索¶

VecSet → SLAT → O-Voxel：从紧凑 set 到有结构、再到原生 3D latent，逐步增加 native-ness。
CLAY / TripoSG / Hunyuan3D 2.0：继承 VecSet latent 路线，通过大规模数据 + SDF/occupancy VAE + RF/DiT 做系统化 scaling，并逐步把纹理、控制和资产流程接入主干。
SparseFlex / Direct3D-S2：在 sparse volumetric 上做工程 scaling，latent 具有显式 3D 空间结构。
OctFusion / Sparc3D：关注结构效率（八叉树自适应）和管线纯度（纯 3D 训练消除模态转换）。
BPT → FACE → Nautilus → MeshRipple → TSSR：mesh-native tokenization 的快速发展，压缩比 0.26 → 0.11 → 拓扑感知，面数 ~800 → 10,000。
QuadGPT / PartCrafter / BANG：从 tri mesh 扩展到 quad mesh、从 whole shape 扩展到 part-aware，进一步走向部件级生成、拆解与装配工作流。
VAT：极端压缩 (250x-2000x)，让 3D 进入 LLM context window。

基于优化的模型（迭代优化 3D 表示）¶

模型	输入	输出表示	核心思想	发表时间
DreamFusion	文本	NeRF	开创 SDS 概念，2D 扩散模型指导 NeRF 优化	2022.09
Magic3D	文本	Mesh	两阶段（粗 NeRF → 精 Mesh），高分辨率纹理	2022.11
MVDream	文本	NeRF→Mesh	多视角扩散模型 + SDS 优化	2023.08
LucidDreamer	文本	NeRF	ISM (Interval Score Matching) 改进 SDS	2023.11
Latent-NeRF	文本	NeRF	优化潜向量→解码 NeRF	2022.11
SJC	文本	NeRF	Score Jacobian Chaining 替代 SDS	2022.12

重建模型（多视图 → 3D）¶

模型	输入	输出	核心特点
GTR	多视图图像	Mesh	LRM 基础上优化，DiffMC 全分辨率几何监督 + 秒级纹理精炼
Neuralangelo	多视图视频/图像	Mesh (Neural SDF)	哈希网格上的 Neural SDF，极擅长大场景高频细节

基于代码 / 脚本的生成¶

还有一条与直接输出 mesh 不同的方法线：模型输出的是生成三角网格或场景的程序，而不是最终三角网格。

工作	输入	输出程序表示	主要用途
`GeoCode`	点云 / 草图	Blender 几何节点参数	结构有效的形状程序反演
`MeshCoder`	点云	Blender Python 脚本	可编辑重建与拓扑修改
`VIGA`	单图	Blender 场景脚本	视觉反馈下的逆向图形
`Infinigen` / `Infinigen Indoors`	随机种子 / 布局约束	数学规则 / Python DSL	程序化场景生成
`VoxelCodeBench`	文本	Unreal 体素 API 代码	空间推理评测

这条路线讨论的重点不再只是“几何生成得像不像”，而是：

输出是否可执行
参数是否可解释
结构是否可检查
结果是否便于后续编辑

更系统的整理见基于代码 / 脚本的 3D 生成。

趋势观察¶

前馈式正在取代优化式：速度从数小时降至数秒/分钟，且质量已可匹配甚至超越优化式方法。
隐空间表征成为核心竞争点：从 VecSet 到 SLAT、O-Voxel、VoxSet、Octree latent，竞争焦点已经转向 latent 的结构化程度和原生性，不再只是 backbone 大小。
TRELLIS 系列确立为主流骨干架构之一：Hi3DGen、多个编辑方法都直接基于 TRELLIS 预训练。TRELLIS 2 进一步将 latent 从 SDF-based 推向 native 3D 资产。
模态一致性正在被重视：Sparc3D 指出 2D 渲染监督训练 3D VAE 存在模态不匹配，纯 3D 原生训练管线（3D 输入 → 3D latent → 3D 监督）可能成为后续默认选择。
Mesh-native 路线快速发展：面数上限从 ~800 (2024 MeshGPT) 增长到 10,000 (2025 TSSR)，同时扩展到 quad mesh (QuadGPT)、part-aware (PartCrafter)、离散扩散 (TSSR) 等新方向。
Flow / Rectified Flow 正在替代传统 diffusion 训练：TRELLIS、TripoSG、TRELLIS 2 等主流方法均采用 Rectified Flow。
极端压缩和 LLM 对接成为新方向：VAT 用 256 个 token 表示一个 3D shape (250x 压缩)，使 3D 可以直接进入 LLM context window，打开 multimodal 统一建模的可能性。
从 whole shape 到 part-aware：PartCrafter、BANG 代表的部件级生成与拆解方向，更贴近实际 3D 建模工作流——组件级可控、可复用、可局部替换。

一个更长期的分化判断¶

我更倾向于把未来 3D 生成看成两条逐渐分化的路线，而不是一条统一赛道。

1. 面向艺术生产的 3D 生成¶

这条路线更接近当前主流论文：

输入通常是文本、图像、草图、参考风格
目标是高观感、高多样性、快速迭代
容忍一定几何误差，只要整体视觉和语义成立即可

因此它更适合继续沿着现在的范式发展：

大规模概率生成模型
端到端 latent / diffusion / flow 生成
再叠加编辑、重纹理、部件控制等模块

CLAY、TRELLIS、Hunyuan3D 2.0、TripoSG 这类方法，基本都属于这条主线。

2. 面向工业生成的 3D 生成¶

工业场景对精度、公差、结构约束、可制造性要求极高，和艺术生成的目标并不相同。

需要精确尺寸、对称、配合关系、装配约束
需要参数可追踪、可修改、可复现
往往不能接受“视觉上差不多但几何上不严格正确”

在这种场景下，单纯依赖概率式 mesh / field 生成很可能不够。更可能的路线是：

基于 CAD 脚本 的生成
基于程序化建模 的自动化生成
或者先输出脚本 / 程序，再由执行器得到参数化几何、约束系统或装配结果

公开文献里已经能看到一些早期例子：GeoCode、MeshCoder 把点云或草图映射到程序表示，VIGA 在视觉反馈下持续修改 Blender 场景脚本，Infinigen 系列则直接把场景生成写成程序化规则与约束求解。更完整的整理见基于代码 / 脚本的 3D 生成。

不过，这些工作大多仍建立在 Blender、体素 API 或场景 DSL 上，并不等同于严格的 CAD 内核和制造约束。工业 3D 生成更可能需要模型输出一种可编辑、可验证、可约束执行的表示，而不是只输出最终三角网格。

3. 为什么会这样¶

和 2D 图像领域对比，即使今天图像模型已经很强，它们仍然不擅长严格的工程设计稿、精确草图、标准化制图，因为这类任务要求：

尺寸与比例严格正确
局部结构可精确修改
输出要满足明确约束，而不是只满足统计上的“像”

3D 里这个问题会更强，因为 3D 不只是看起来像，还涉及：

空间尺寸
机械结构
装配关系
制造约束

所以感觉：

艺术生产 会继续由当前这类概率式端到端 3D foundation model 主导
工业生成 会逐步转向参数化、程序化、CAD-aware 的表示与工作流

这两条路线之间会互相借鉴，但短时间，至少几年内不会完全收敛成同一种技术体系。