跳转至

Step1X-3D 系列

Step1X-3D 的公开资料主要集中于单个系统版本,但已经足以描述一条较完整的技术路线:几何与纹理解耦;几何部分采用 VAE + Rectified Flow DiT;纹理部分复用经过大规模训练的 2D 生成模型。

在当前几条商用系统中,Step1X-3D 属于公开程度较高的一类,因为代码、权重以及部分数据 UID 已经对外发布。


已公开结构

模块 参数量 已公开结构
Geometry 1.3B VAE + Rectified Flow DiT
Geometry-Label 1.3B 在几何分支上增加标签条件
Texture 3.5B 基于 SD-XL 的纹理模块

从系统组织方式看,Step1X-3DHunyuan3D 一样采用显式的几何 / 纹理解耦,但其模块选择更多依赖对已有组件的复用。


1. 几何模块

公开材料表明,Step1X-3D 的几何部分采用:

  • Perceiver 风格编码器
  • VAE 压缩几何 latent
  • Rectified Flow DiT 生成器
  • FLUX / MMDiT 调整而来的 transformer 结构

与几何模块相关的公开训练信息包括:

  • 96 x A800
  • 两阶段几何训练
  • 每阶段 100K iterations

更具体地说,两阶段配置对应为:

  • Phase 1:latent 512,batch size 1920,learning rate 1e-4
  • Phase 2:latent 2048,batch size 960,learning rate 5e-5

这说明其几何部分并未重新定义底层 3D 表示,而是在已有大模型结构上构造适合 3D 几何生成的版本。


2. 纹理模块

纹理部分公开得更明确:

  • 采用 SD-XL 微调
  • 支持 LoRA
  • 参数量 3.5B

因此,Step1X-3D 在系统设计上采取了明显的模块复用策略:

  • 几何部分使用 3D 专用生成器
  • 纹理部分使用 2D 生成模型及其训练基础设施

3. 数据构成

公开材料给出了相对具体的数据规模:

  • 处理后训练集约 2M
  • 其中约 800K UID 来自公开数据
  • 1.2M 来自未公开私有数据
  • 纹理训练另有 30K 子集

公开 UID 还可以进一步细分为:

  • Objaverse:约 320K
  • Objaverse-XL:约 480K

这一数据组织方式表明,Step1X-3D 不完全依赖私有数据,但最终系统仍使用了公开数据之外的补充数据。


4. 技术路线归纳

基于已公开信息,Step1X-3D 的路线可以概括为:

  1. 几何和纹理解耦
  2. 几何部分使用 VAE + Rectified Flow DiT
  3. 纹理部分使用大规模 2D 生成模型微调
  4. 数据上使用公开与私有混合方案

因此,它与 LATTICESparseFlex 这类强调新表示的路线不同,更适合归纳为以模块复用为主的 3D 资产生成方案


5. 与其它系列的关系

  • 相比 Hunyuan3D:同样采用几何 / 纹理解耦,但对底层形状表示的重新定义较少。
  • 相比 Tripo:公开叙述重点不在高分辨率新表示。
  • 相比 Rodin:公开资料中部件级结构控制较少。

6. 未公开信息

以下内容在公开资料中仍不完整:

  • 纹理模块的完整训练算力
  • 更后续版本的系统关系
  • 私有数据的具体构成与筛选标准

7. 相关页面

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部