跳转至

Mesh Generation Models

3D Mesh 生成模型总览。除了常见的前馈式 (Feed-forward)基于优化 (Optimization-based) 分类,更重要的一条主线其实是:

模型到底在什么样的 3D 隐空间 / token 空间里生成?

这决定了模型能否同时做到高保真、可扩展、可编辑,以及最终稳定输出 mesh。

关于隐空间本身的系统性梳理,请参见 3D Latent Space Representations。本页聚焦生成模型本身的对比和方法路线。


核心方法对比

前馈式模型(一次前向传播生成)

模型 输入 输出表示 核心思想 发表时间
TRELLIS 文本/图像 Mesh / 3DGS / RF SLAT 结构化潜变量,两阶段 Flow Transformer,FlexiCubes 解码 2024.12
TRELLIS 2 文本/图像 Mesh (O-Voxel) 原生 3D 结构 latent,SC-VAE + Flow DiT,开放拓扑 + PBR 2025.06
Hunyuan3D 2.0 单张图/草图 Mesh (SDF→MC) ShapeVAE + DiT + Paint 两阶段管线 2025.01
CLAY 文本/图像/3D 条件 Mesh + PBR Asset multi-resolution VAE + latent DiT + PBR 材质生成 2024.06
TripoSG 图像 Mesh 大规模高质量数据 + SDF VAE + Rectified Flow Transformer 2025.02
Hi3DGen 图像 Mesh 基于 TRELLIS 预训练参数和 SLAT 2025.03
Direct3D-S2 图像 Mesh Sparse SDF VAE + spatial sparse attention,高分辨率稀疏几何生成 2025.05
OctFusion 文本/图像 Mesh 八叉树 latent + 统一多尺度 U-Net 扩散,单卡 2.5 秒 2025 (SGP)
Sparc3D 图像 Mesh 模态一致 3D VAE (Sparcubes + Sparconv-VAE),1024³ 2025.06
LATO 文本/图像 Mesh Latent Tree Optimization + 3D-aware generation 2025.02
GRM 文本/图像 3DGS 基于 Transformer 的大型高斯重建模型 2024.03
Shap-E 文本 隐式函数→Mesh 直接生成 MLP 权重定义隐式形状 2023.05
Point-E 文本 点云 多步扩散模型生成 3D 点云 2022.12

Mesh-native 前馈式模型(直接生成 mesh 序列 / 结构)

模型 输入 建模范式 核心思想 面数上限 发表时间
Edgerunner 文本/类别 AR 将 Mesh 建模为顶点/面序列,自回归生成 ~800 2024.09
BPT 文本/类别 AR Blocked and Patchified Tokenization,压缩比 0.26 ~3000 2024.11
FACE 文本/类别 AR one-face-one-token,压缩比 0.11 ~4000 2024.12
Nautilus 条件特征 AR locality-aware AE + BFS 拓扑序列化 5000 2025 (ICCV)
MeshRipple 条件特征 AR frontier-aware BFS + sparse-attention global memory ~4000 2025.06
QuadGPT 文本/图像 AR + RL 首个 quad mesh AR + tDPO 拓扑 RL 微调 ~3000 2026 (ICLR)
TSSR 条件特征 离散扩散 拓扑雕刻 + 形状细化两阶段,首个非 AR mesh-native 10,000 2025.06
PartCrafter 文本/图像 AR (part-aware) part-level mesh assembly,组件级可控生成 ~2000/part 2025.06
BANG 输入几何 + 空间提示 part-aware diffusion exploded dynamics + temporal attention + part trajectory tracking N/A 2025.07
VAT 条件特征 AR (token) 250x 压缩到 256 tokens,可对接 LLM N/A (token) 2025.05

3D 隐空间表征方法:文献主线

这一部分是理解近两年 mesh generation 的关键。详细分析请参见 3D Latent Space Representations,此处仅做概要对比。

路线总结

路线 代表工作 主要优点 主要短板
VecSet 3DShape2VecSet 紧凑、易训练 位置语义弱
Structured latent TRELLIS / SLAT 有结构、有局部性、便于编辑 token 较重
Native structured latent TRELLIS 2 / O-Voxel 原生几何 + 材质,支持开放拓扑 体系复杂
Semi-structured latent LATTICE / VoxSet 紧凑与可定位性折中 仍非最终 mesh 表示
VecSet-based scaling CLAY / TripoSG / Hunyuan3D 2.0 系统化、可工业部署 隐空间仍为 unstructured set
Sparse volumetric scaling SparseFlex / Direct3D-S2 高分辨率与工程可扩展 仍需 field / surface 解码
Octree / modality-consistent OctFusion / Sparc3D 自适应分辨率、模态纯度 实现复杂,仍依赖 isosurface
Extreme compression VAT 极端紧凑 (256 tokens),可对接 LLM 空间局部性丢失
Mesh-native token BPT / FACE / Nautilus / TSSR / QuadGPT 直接面向 mesh 输出 自回归序列建模难度高

关键文献线索

  1. VecSetSLATO-Voxel:从紧凑 set 到有结构、再到原生 3D latent,逐步增加 native-ness。
  2. CLAY / TripoSG / Hunyuan3D 2.0:继承 VecSet latent 路线,通过大规模数据 + SDF/occupancy VAE + RF/DiT 做系统化 scaling,并逐步把纹理、控制和资产流程接入主干。
  3. SparseFlex / Direct3D-S2:在 sparse volumetric 上做工程 scaling,latent 具有显式 3D 空间结构。
  4. OctFusion / Sparc3D:关注结构效率(八叉树自适应)和管线纯度(纯 3D 训练消除模态转换)。
  5. BPT → FACE → Nautilus → MeshRipple → TSSR:mesh-native tokenization 的快速发展,压缩比 0.26 → 0.11 → 拓扑感知,面数 ~800 → 10,000。
  6. QuadGPT / PartCrafter / BANG:从 tri mesh 扩展到 quad mesh、从 whole shape 扩展到 part-aware,进一步走向部件级生成、拆解与装配工作流。
  7. VAT:极端压缩 (250x-2000x),让 3D 进入 LLM context window。

基于优化的模型(迭代优化 3D 表示)

模型 输入 输出表示 核心思想 发表时间
DreamFusion 文本 NeRF 开创 SDS 概念,2D 扩散模型指导 NeRF 优化 2022.09
Magic3D 文本 Mesh 两阶段(粗 NeRF → 精 Mesh),高分辨率纹理 2022.11
MVDream 文本 NeRF→Mesh 多视角扩散模型 + SDS 优化 2023.08
LucidDreamer 文本 NeRF ISM (Interval Score Matching) 改进 SDS 2023.11
Latent-NeRF 文本 NeRF 优化潜向量→解码 NeRF 2022.11
SJC 文本 NeRF Score Jacobian Chaining 替代 SDS 2022.12

重建模型(多视图 → 3D)

模型 输入 输出 核心特点
GTR 多视图图像 Mesh LRM 基础上优化,DiffMC 全分辨率几何监督 + 秒级纹理精炼
Neuralangelo 多视图视频/图像 Mesh (Neural SDF) 哈希网格上的 Neural SDF,极擅长大场景高频细节

基于代码 / 脚本的生成

还有一条与直接输出 mesh 不同的方法线:模型输出的是生成三角网格或场景的程序,而不是最终三角网格。

工作 输入 输出程序表示 主要用途
GeoCode 点云 / 草图 Blender 几何节点参数 结构有效的形状程序反演
MeshCoder 点云 Blender Python 脚本 可编辑重建与拓扑修改
VIGA 单图 Blender 场景脚本 视觉反馈下的逆向图形
Infinigen / Infinigen Indoors 随机种子 / 布局约束 数学规则 / Python DSL 程序化场景生成
VoxelCodeBench 文本 Unreal 体素 API 代码 空间推理评测

这条路线讨论的重点不再只是“几何生成得像不像”,而是:

  • 输出是否可执行
  • 参数是否可解释
  • 结构是否可检查
  • 结果是否便于后续编辑

更系统的整理见 基于代码 / 脚本的 3D 生成


趋势观察

  1. 前馈式正在取代优化式:速度从数小时降至数秒/分钟,且质量已可匹配甚至超越优化式方法。
  2. 隐空间表征成为核心竞争点:从 VecSet 到 SLAT、O-Voxel、VoxSet、Octree latent,竞争焦点已经转向 latent 的结构化程度和原生性,不再只是 backbone 大小。
  3. TRELLIS 系列确立为主流骨干架构之一:Hi3DGen、多个编辑方法都直接基于 TRELLIS 预训练。TRELLIS 2 进一步将 latent 从 SDF-based 推向 native 3D 资产。
  4. 模态一致性正在被重视:Sparc3D 指出 2D 渲染监督训练 3D VAE 存在模态不匹配,纯 3D 原生训练管线(3D 输入 → 3D latent → 3D 监督)可能成为后续默认选择。
  5. Mesh-native 路线快速发展:面数上限从 ~800 (2024 MeshGPT) 增长到 10,000 (2025 TSSR),同时扩展到 quad mesh (QuadGPT)、part-aware (PartCrafter)、离散扩散 (TSSR) 等新方向。
  6. Flow / Rectified Flow 正在替代传统 diffusion 训练:TRELLIS、TripoSG、TRELLIS 2 等主流方法均采用 Rectified Flow。
  7. 极端压缩和 LLM 对接成为新方向:VAT 用 256 个 token 表示一个 3D shape (250x 压缩),使 3D 可以直接进入 LLM context window,打开 multimodal 统一建模的可能性。
  8. 从 whole shape 到 part-aware:PartCrafter、BANG 代表的部件级生成与拆解方向,更贴近实际 3D 建模工作流——组件级可控、可复用、可局部替换。

一个更长期的分化判断

我更倾向于把未来 3D 生成看成两条逐渐分化的路线,而不是一条统一赛道。

1. 面向艺术生产的 3D 生成

这条路线更接近当前主流论文:

  • 输入通常是文本、图像、草图、参考风格
  • 目标是高观感、高多样性、快速迭代
  • 容忍一定几何误差,只要整体视觉和语义成立即可

因此它更适合继续沿着现在的范式发展:

  • 大规模概率生成模型
  • 端到端 latent / diffusion / flow 生成
  • 再叠加编辑、重纹理、部件控制等模块

CLAYTRELLISHunyuan3D 2.0TripoSG 这类方法,基本都属于这条主线。

2. 面向工业生成的 3D 生成

工业场景对精度、公差、结构约束、可制造性要求极高,和艺术生成的目标并不相同。

  • 需要精确尺寸、对称、配合关系、装配约束
  • 需要参数可追踪、可修改、可复现
  • 往往不能接受“视觉上差不多但几何上不严格正确”

在这种场景下,单纯依赖概率式 mesh / field 生成很可能不够。更可能的路线是:

  • 基于 CAD 脚本 的生成
  • 基于程序化建模 的自动化生成
  • 或者先输出脚本 / 程序,再由执行器得到参数化几何、约束系统或装配结果

公开文献里已经能看到一些早期例子:GeoCodeMeshCoder 把点云或草图映射到程序表示,VIGA 在视觉反馈下持续修改 Blender 场景脚本,Infinigen 系列则直接把场景生成写成程序化规则与约束求解。更完整的整理见 基于代码 / 脚本的 3D 生成

不过,这些工作大多仍建立在 Blender、体素 API 或场景 DSL 上,并不等同于严格的 CAD 内核和制造约束。工业 3D 生成更可能需要模型输出一种可编辑、可验证、可约束执行的表示,而不是只输出最终三角网格。

3. 为什么会这样

和 2D 图像领域对比,即使今天图像模型已经很强,它们仍然不擅长严格的工程设计稿、精确草图、标准化制图,因为这类任务要求:

  • 尺寸与比例严格正确
  • 局部结构可精确修改
  • 输出要满足明确约束,而不是只满足统计上的“像”

3D 里这个问题会更强,因为 3D 不只是看起来像,还涉及:

  • 空间尺寸
  • 机械结构
  • 装配关系
  • 制造约束

所以感觉:

  • 艺术生产 会继续由当前这类概率式端到端 3D foundation model 主导
  • 工业生成 会逐步转向参数化、程序化、CAD-aware 的表示与工作流

这两条路线之间会互相借鉴,但短时间,至少几年内不会完全收敛成同一种技术体系。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部