Step1X-3D 系列¶
Step1X-3D 的公开资料主要集中于单个系统版本,但已经足以描述一条较完整的技术路线:几何与纹理解耦;几何部分采用 VAE + Rectified Flow DiT;纹理部分复用经过大规模训练的 2D 生成模型。
在当前几条商用系统中,Step1X-3D 属于公开程度较高的一类,因为代码、权重以及部分数据 UID 已经对外发布。
已公开结构¶
| 模块 | 参数量 | 已公开结构 |
|---|---|---|
| Geometry | 1.3B |
VAE + Rectified Flow DiT |
| Geometry-Label | 1.3B |
在几何分支上增加标签条件 |
| Texture | 3.5B |
基于 SD-XL 的纹理模块 |
从系统组织方式看,Step1X-3D 与 Hunyuan3D 一样采用显式的几何 / 纹理解耦,但其模块选择更多依赖对已有组件的复用。
1. 几何模块¶
公开材料表明,Step1X-3D 的几何部分采用:
- Perceiver 风格编码器
- VAE 压缩几何 latent
- Rectified Flow DiT 生成器
- 从
FLUX / MMDiT调整而来的 transformer 结构
与几何模块相关的公开训练信息包括:
96 x A800- 两阶段几何训练
- 每阶段
100Kiterations
更具体地说,两阶段配置对应为:
- Phase 1:latent
512,batch size1920,learning rate1e-4 - Phase 2:latent
2048,batch size960,learning rate5e-5
这说明其几何部分并未重新定义底层 3D 表示,而是在已有大模型结构上构造适合 3D 几何生成的版本。
2. 纹理模块¶
纹理部分公开得更明确:
- 采用
SD-XL微调 - 支持
LoRA - 参数量
3.5B
因此,Step1X-3D 在系统设计上采取了明显的模块复用策略:
- 几何部分使用 3D 专用生成器
- 纹理部分使用 2D 生成模型及其训练基础设施
3. 数据构成¶
公开材料给出了相对具体的数据规模:
- 处理后训练集约
2M - 其中约
800KUID 来自公开数据 - 约
1.2M来自未公开私有数据 - 纹理训练另有
30K子集
公开 UID 还可以进一步细分为:
- Objaverse:约
320K - Objaverse-XL:约
480K
这一数据组织方式表明,Step1X-3D 不完全依赖私有数据,但最终系统仍使用了公开数据之外的补充数据。
4. 技术路线归纳¶
基于已公开信息,Step1X-3D 的路线可以概括为:
- 几何和纹理解耦
- 几何部分使用 VAE + Rectified Flow DiT
- 纹理部分使用大规模 2D 生成模型微调
- 数据上使用公开与私有混合方案
因此,它与 LATTICE、SparseFlex 这类强调新表示的路线不同,更适合归纳为以模块复用为主的 3D 资产生成方案。
5. 与其它系列的关系¶
- 相比
Hunyuan3D:同样采用几何 / 纹理解耦,但对底层形状表示的重新定义较少。 - 相比
Tripo:公开叙述重点不在高分辨率新表示。 - 相比
Rodin:公开资料中部件级结构控制较少。
6. 未公开信息¶
以下内容在公开资料中仍不完整:
- 纹理模块的完整训练算力
- 更后续版本的系统关系
- 私有数据的具体构成与筛选标准
7. 相关页面¶
评论
评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。