商用 3D 生成模型技术路线¶
本页按产品系列梳理当前几条主要商用 3D 资产生成系统的公开技术路线。这里的“技术路线”主要指以下几个层面:
- 几何表示采用何种中间表示
- 生成器使用何种训练范式
- 纹理、后处理与结构控制如何接入系统
- 系统中哪些部分有公开研究支撑,哪些部分仍停留在部署版本说明
材料来源按如下顺序处理:论文与附录、官方仓库/模型卡/API 文档、官方新闻稿或产品文档、第三方整理。若某个结论只来自后两类材料,文中会明确说明。
可核验信息概览¶
| 系列 | 公开研究支撑 | 已公开规模信息 | 几何表示 | 生成器范式 | 纹理与后处理 | 公开程度 |
|---|---|---|---|---|---|---|
| Tripo | TripoSG、SparseFlex / TripoSF |
TripoSG: 1.5B/4B, 160 x A100, 2M 数据;Tripo 3.0: 20B(新闻稿) |
SDF latent + 稀疏表面表示 | Rectified Flow Transformer | 公开资料主要集中于几何,纹理细节较少 | 基线公开,部署版本闭源 |
| Rodin / Hyper3D | CLAY、BANG |
CLAY: 227M-1.5B, 256 x A800, 527K 数据;Rodin Gen-2: 10B(官方文档) |
occupancy / neural field latent + part decomposition | latent diffusion + adapter / temporal attention | PBR、UV、法线、贴图处理 | 论文部分公开,部署版本闭源 |
| Hunyuan3D | Hunyuan3D 2.x、LATTICE |
2.1: Shape 3.3B + Paint 2B;LATTICE: 0.6B/1.9B/4.5B;3.0: 约 10B(产品说明) |
ShapeVAE -> VoxSet | DiT / Rectified Flow / hierarchical 3D-DiT | Paint PBR、重拓扑、多个服务入口 | 2.1 公开,后续版本多为闭源 |
| Step1X-3D | Step1X-3D |
Geometry 1.3B, Texture 3.5B, 96 x A800, 约 2M 数据 |
VAE latent geometry | Rectified Flow DiT | 基于 SD-XL 的纹理模块 | 代码与权重公开,数据部分公开 |
| Seed3D | Seed3D 技术报告 |
1.5B DiT 主干;训练资源与数据规模未披露 |
未充分公开 | DiT | 多阶段资产流程,但公开细节有限 | 报告公开,系统闭源 |
1. 几何表示¶
从公开研究材料看,这些系统的几何表示大致可以分为三类。
1.1 SDF / field 路线及其扩展¶
TripoSG 仍然属于 SDF latent 路线,重点在于通过大规模数据治理与 Rectified Flow 将该路线做大。CLAY 则使用 occupancy / neural field 风格的 latent 表示,并将其扩展到资产级输出。二者都不属于 mesh-native 生成。
1.2 稀疏表面或稀疏结构表示¶
SparseFlex / TripoSF 的重点是稀疏表面表示,目标是支持高分辨率、开放表面与复杂拓扑。LATTICE / VoxSet 则在紧凑性与空间可定位性之间折中,试图弥补纯 set-based latent 的空间定位不足。
1.3 部件级结构表示¶
BANG 与前述路线不同,它并不主要讨论更换底层表面表示,而是将部件级结构关系、连续拆解轨迹与空间控制接入既有的资产生成骨干。因此,它改变的是系统的结构建模能力,而不是单纯的表面表示类别。
2. 生成器范式与训练资源¶
当前公开材料显示,大规模商用 3D 系统的几何生成器主要集中在两类:
- latent diffusion / DiT
- Rectified Flow Transformer
其中,训练资源公开较充分的代表包括:
TripoSG:Flow 模型160 x A100,约3周;VAE32 x A100,约12天CLAY:最大模型256 x A800,约15天Step1X-3D:几何模块96 x A800,两阶段训练,各100KiterationsHunyuan3D 2.1:公开了 Paint 训练约180 GPU-days
相反,Rodin Gen-2、Hunyuan3D 3.0 与 Seed3D 的部署版本训练资源目前没有完整公开材料,因此无法与前述论文系统做同等粒度的训练成本比较。
3. 纹理、后处理与资产化¶
如果只讨论公开论文,学术模型往往在几何生成后停止;商用系统则通常将纹理、后处理和资产输出纳入主流程。
3.1 公开最充分的两条路线¶
Hunyuan3D:Shape / Paint 显式解耦,纹理模块单独建模。CLAY:几何生成之后继续进行 quad mesh、UV 和 PBR 材质生成。
3.2 以模块复用为主的路线¶
Step1X-3D:纹理部分直接采用经过微调的 2D 生成模型。
3.3 公开不足的路线¶
Tripo与Seed3D的公开材料更多集中在几何表示、训练规模或推理速度,纹理细节相对较少。
从研究角度看,纹理与后处理恰恰是商用系统与单篇几何论文差异最大的部分,因为它们直接决定输出是否接近可使用的 3D 资产,而不是仅供评测的几何结果。
4. 结构控制¶
在已公开资料中,Rodin 的结构控制研究支撑最完整,因为 BANG 明确研究了:
- 部件级拆解
- exploded dynamics
- 轨迹跟踪
- 基于 bbox、surface region 与 2D ROI 的区域控制
Hunyuan3D 的服务侧出现了 Part、Polygen 一类模块,但其论文级细节公开程度不如 BANG。Tripo、Step1X-3D、Seed3D 当前公开材料则主要围绕几何生成与资产输出本身,结构控制信息较少。
5. 研究定位¶
这些系统虽然被称为“商用 3D 模型”,但从公开资料看,它们主要解决的是视觉资产生成问题,而不是参数化 CAD 建模问题。其共同特征包括:
- 输入通常是文本、图像、草图或多视图图像
- 输出通常是 mesh、贴图、法线或可进一步重拓扑的 3D 资产
- 评价指标主要围绕视觉质量、几何保真度、可编辑性与推理效率
因此,从研究分类看,这些系统更适合被置于“面向内容生产的 3D 资产生成系统”这一语境下讨论,而不应与参数化 CAD、约束求解或程序化建模混为一类。若要看后者,可参考 基于代码 / 脚本的 3D 生成。