跳转至

商用 3D 生成模型技术路线

本页按产品系列梳理当前几条主要商用 3D 资产生成系统的公开技术路线。这里的“技术路线”主要指以下几个层面:

  1. 几何表示采用何种中间表示
  2. 生成器使用何种训练范式
  3. 纹理、后处理与结构控制如何接入系统
  4. 系统中哪些部分有公开研究支撑,哪些部分仍停留在部署版本说明

材料来源按如下顺序处理:论文与附录、官方仓库/模型卡/API 文档、官方新闻稿或产品文档、第三方整理。若某个结论只来自后两类材料,文中会明确说明。


可核验信息概览

系列 公开研究支撑 已公开规模信息 几何表示 生成器范式 纹理与后处理 公开程度
Tripo TripoSGSparseFlex / TripoSF TripoSG: 1.5B/4B, 160 x A100, 2M 数据;Tripo 3.0: 20B(新闻稿) SDF latent + 稀疏表面表示 Rectified Flow Transformer 公开资料主要集中于几何,纹理细节较少 基线公开,部署版本闭源
Rodin / Hyper3D CLAYBANG CLAY: 227M-1.5B, 256 x A800, 527K 数据;Rodin Gen-2: 10B(官方文档) occupancy / neural field latent + part decomposition latent diffusion + adapter / temporal attention PBR、UV、法线、贴图处理 论文部分公开,部署版本闭源
Hunyuan3D Hunyuan3D 2.xLATTICE 2.1: Shape 3.3B + Paint 2B;LATTICE: 0.6B/1.9B/4.5B;3.0: 约 10B(产品说明) ShapeVAE -> VoxSet DiT / Rectified Flow / hierarchical 3D-DiT Paint PBR、重拓扑、多个服务入口 2.1 公开,后续版本多为闭源
Step1X-3D Step1X-3D Geometry 1.3B, Texture 3.5B, 96 x A800, 约 2M 数据 VAE latent geometry Rectified Flow DiT 基于 SD-XL 的纹理模块 代码与权重公开,数据部分公开
Seed3D Seed3D 技术报告 1.5B DiT 主干;训练资源与数据规模未披露 未充分公开 DiT 多阶段资产流程,但公开细节有限 报告公开,系统闭源

1. 几何表示

从公开研究材料看,这些系统的几何表示大致可以分为三类。

1.1 SDF / field 路线及其扩展

TripoSG 仍然属于 SDF latent 路线,重点在于通过大规模数据治理与 Rectified Flow 将该路线做大。CLAY 则使用 occupancy / neural field 风格的 latent 表示,并将其扩展到资产级输出。二者都不属于 mesh-native 生成。

1.2 稀疏表面或稀疏结构表示

SparseFlex / TripoSF 的重点是稀疏表面表示,目标是支持高分辨率、开放表面与复杂拓扑。LATTICE / VoxSet 则在紧凑性与空间可定位性之间折中,试图弥补纯 set-based latent 的空间定位不足。

1.3 部件级结构表示

BANG 与前述路线不同,它并不主要讨论更换底层表面表示,而是将部件级结构关系、连续拆解轨迹与空间控制接入既有的资产生成骨干。因此,它改变的是系统的结构建模能力,而不是单纯的表面表示类别。


2. 生成器范式与训练资源

当前公开材料显示,大规模商用 3D 系统的几何生成器主要集中在两类:

  • latent diffusion / DiT
  • Rectified Flow Transformer

其中,训练资源公开较充分的代表包括:

  • TripoSG:Flow 模型 160 x A100,约 3 周;VAE 32 x A100,约 12
  • CLAY:最大模型 256 x A800,约 15
  • Step1X-3D:几何模块 96 x A800,两阶段训练,各 100K iterations
  • Hunyuan3D 2.1:公开了 Paint 训练约 180 GPU-days

相反,Rodin Gen-2Hunyuan3D 3.0Seed3D 的部署版本训练资源目前没有完整公开材料,因此无法与前述论文系统做同等粒度的训练成本比较。


3. 纹理、后处理与资产化

如果只讨论公开论文,学术模型往往在几何生成后停止;商用系统则通常将纹理、后处理和资产输出纳入主流程。

3.1 公开最充分的两条路线

  • Hunyuan3D:Shape / Paint 显式解耦,纹理模块单独建模。
  • CLAY:几何生成之后继续进行 quad mesh、UV 和 PBR 材质生成。

3.2 以模块复用为主的路线

  • Step1X-3D:纹理部分直接采用经过微调的 2D 生成模型。

3.3 公开不足的路线

  • TripoSeed3D 的公开材料更多集中在几何表示、训练规模或推理速度,纹理细节相对较少。

从研究角度看,纹理与后处理恰恰是商用系统与单篇几何论文差异最大的部分,因为它们直接决定输出是否接近可使用的 3D 资产,而不是仅供评测的几何结果。


4. 结构控制

在已公开资料中,Rodin 的结构控制研究支撑最完整,因为 BANG 明确研究了:

  • 部件级拆解
  • exploded dynamics
  • 轨迹跟踪
  • 基于 bbox、surface region 与 2D ROI 的区域控制

Hunyuan3D 的服务侧出现了 PartPolygen 一类模块,但其论文级细节公开程度不如 BANGTripoStep1X-3DSeed3D 当前公开材料则主要围绕几何生成与资产输出本身,结构控制信息较少。


5. 研究定位

这些系统虽然被称为“商用 3D 模型”,但从公开资料看,它们主要解决的是视觉资产生成问题,而不是参数化 CAD 建模问题。其共同特征包括:

  • 输入通常是文本、图像、草图或多视图图像
  • 输出通常是 mesh、贴图、法线或可进一步重拓扑的 3D 资产
  • 评价指标主要围绕视觉质量、几何保真度、可编辑性与推理效率

因此,从研究分类看,这些系统更适合被置于“面向内容生产的 3D 资产生成系统”这一语境下讨论,而不应与参数化 CAD、约束求解或程序化建模混为一类。若要看后者,可参考 基于代码 / 脚本的 3D 生成


系列页

  1. Tripo 系列
  2. Rodin 系列
  3. Hunyuan3D 系列
  4. Step1X-3D 系列
  5. Seed3D 系列

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部