Rodin 系列¶
本页讨论 Deemos / Hyper3D 的 Rodin 路线,而不是微软早期的人头生成项目。基于公开材料,Rodin 系列具有较清楚的研究到部署版本的对应关系:
CLAY:大规模 3D 资产生成基础模型BANG:部件级分解与结构控制模块Rodin Gen-2:闭源部署版本
与其它系列相比,Rodin 的公开研究材料更集中地指向资产级输出与部件级结构建模。
版本关系¶
| 名称 | 时间 | 已公开参数量 | 作用 | 公开情况 |
|---|---|---|---|---|
| CLAY | 2024.06 | 227M - 1.5B |
资产生成基础模型 | 论文与代码公开 |
| BANG | 2025.07 | 基于冻结的大模型骨干;适配器参数量未系统披露 | 部件级结构模块 | 论文公开 |
| Rodin Gen-2 | 2025.10 | 10B(官方文档) |
闭源部署版本 | 闭源 |
1. CLAY:资产生成基础模型¶
CLAY 是 Rodin 路线中公开程度最高的基础模型。其公开技术要点包括:
- multi-resolution VAE
- latent DiT 几何生成器
- occupancy field 解码与 Marching Cubes 提取
- 数据标准化与文本标注流程
- quad mesh、UV 与 PBR 材质生成
- 图像、点云、bbox、voxel 等多模态条件
公开材料还给出了较明确的训练规模:
- 最大模型
1.5B - 训练数据约
527K对象 256 x A800,约15天
因此,CLAY 在 Rodin 系列中的作用更接近资产生成基础模型,不只是单一几何生成器。
相关页面:CLAY
2. BANG:部件级结构模块¶
BANG 建立在冻结的大规模 3D latent diffusion 骨干之上,研究问题聚焦在以下几点,而不是从零生成整体物体:
- 如何将完整物体分解为语义一致的部件
- 如何生成连续的 exploded dynamics
- 如何进行区域控制与部件轨迹跟踪
其公开核心模块包括:
- exploded view adapter
- temporal attention
- SDF-based trajectory optimization
- bbox / surface region / 2D ROI 控制
公开论文给出了约 20K exploded dynamics 数据。因此,BANG 可以被理解为在 CLAY 一类资产基础模型之上增加部件级结构建模与控制。
相关页面:BANG
3. Rodin Gen-2:闭源部署版本¶
目前关于 Rodin Gen-2 的公开且可核验信息主要来自官方 API 文档与新闻稿。较明确的部分包括:
- 参数量
10B - 对外表述采用
BANG架构 - 递归部件生成
4xmesh quality 提升(产品口径)- baked normals 与 HD 贴图
从公开关系看,Rodin Gen-2 不对应单篇论文模型,而可以视为将以下能力汇总到同一闭源部署版本中:
CLAY的资产生成与材质管线BANG的部件级结构控制- 针对部署使用的 mesh、贴图和法线处理
公开资料并未提供完整训练算力、完整数据规模和系统结构图,因此目前只能做路线层面的归纳。
4. 技术路线归纳¶
Rodin 系列的公开路线包含两个阶段。
第一阶段:资产生成¶
这一阶段以 CLAY 为代表,重点是:
- 大规模 3D native 训练
- 资产级输出
- PBR 材质与 mesh 后处理
- 多模态条件
第二阶段:部件级结构生成¶
这一阶段以 BANG 为代表,重点是:
- part-aware generation
- 分解与回装
- 结构控制
- 与编辑、动画和打印相关的部件关系
因此,Rodin 系列与其它几条路线的主要差异,不只是参数规模,而在于其公开研究持续关注结构化资产生成。
5. 与仓库现有页面的关系¶
- CLAY:资产生成基础模型
- BANG:部件级结构模块
- Mesh Generation Models:与其它路线的对比位置
6. 未公开信息¶
以下内容在公开资料中仍不完整:
Rodin Gen-2的完整训练算力Rodin Gen-2的完整训练数据规模Rodin Gen-2中材质模块与后处理模块的具体结构CLAY与BANG在闭源部署版本中的具体组装方式
评论
评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。