跳转至

Rodin 系列

本页讨论 Deemos / Hyper3DRodin 路线,而不是微软早期的人头生成项目。基于公开材料,Rodin 系列具有较清楚的研究到部署版本的对应关系:

  • CLAY:大规模 3D 资产生成基础模型
  • BANG:部件级分解与结构控制模块
  • Rodin Gen-2:闭源部署版本

与其它系列相比,Rodin 的公开研究材料更集中地指向资产级输出与部件级结构建模


版本关系

名称 时间 已公开参数量 作用 公开情况
CLAY 2024.06 227M - 1.5B 资产生成基础模型 论文与代码公开
BANG 2025.07 基于冻结的大模型骨干;适配器参数量未系统披露 部件级结构模块 论文公开
Rodin Gen-2 2025.10 10B(官方文档) 闭源部署版本 闭源

1. CLAY:资产生成基础模型

CLAY 是 Rodin 路线中公开程度最高的基础模型。其公开技术要点包括:

  • multi-resolution VAE
  • latent DiT 几何生成器
  • occupancy field 解码与 Marching Cubes 提取
  • 数据标准化与文本标注流程
  • quad mesh、UV 与 PBR 材质生成
  • 图像、点云、bbox、voxel 等多模态条件

公开材料还给出了较明确的训练规模:

  • 最大模型 1.5B
  • 训练数据约 527K 对象
  • 256 x A800,约 15

因此,CLAY 在 Rodin 系列中的作用更接近资产生成基础模型,不只是单一几何生成器。

相关页面:CLAY


2. BANG:部件级结构模块

BANG 建立在冻结的大规模 3D latent diffusion 骨干之上,研究问题聚焦在以下几点,而不是从零生成整体物体:

  • 如何将完整物体分解为语义一致的部件
  • 如何生成连续的 exploded dynamics
  • 如何进行区域控制与部件轨迹跟踪

其公开核心模块包括:

  • exploded view adapter
  • temporal attention
  • SDF-based trajectory optimization
  • bbox / surface region / 2D ROI 控制

公开论文给出了约 20K exploded dynamics 数据。因此,BANG 可以被理解为在 CLAY 一类资产基础模型之上增加部件级结构建模与控制

相关页面:BANG


3. Rodin Gen-2:闭源部署版本

目前关于 Rodin Gen-2 的公开且可核验信息主要来自官方 API 文档与新闻稿。较明确的部分包括:

  • 参数量 10B
  • 对外表述采用 BANG 架构
  • 递归部件生成
  • 4x mesh quality 提升(产品口径)
  • baked normals 与 HD 贴图

从公开关系看,Rodin Gen-2 不对应单篇论文模型,而可以视为将以下能力汇总到同一闭源部署版本中:

  • CLAY 的资产生成与材质管线
  • BANG 的部件级结构控制
  • 针对部署使用的 mesh、贴图和法线处理

公开资料并未提供完整训练算力、完整数据规模和系统结构图,因此目前只能做路线层面的归纳。


4. 技术路线归纳

Rodin 系列的公开路线包含两个阶段。

第一阶段:资产生成

这一阶段以 CLAY 为代表,重点是:

  • 大规模 3D native 训练
  • 资产级输出
  • PBR 材质与 mesh 后处理
  • 多模态条件

第二阶段:部件级结构生成

这一阶段以 BANG 为代表,重点是:

  • part-aware generation
  • 分解与回装
  • 结构控制
  • 与编辑、动画和打印相关的部件关系

因此,Rodin 系列与其它几条路线的主要差异,不只是参数规模,而在于其公开研究持续关注结构化资产生成


5. 与仓库现有页面的关系


6. 未公开信息

以下内容在公开资料中仍不完整:

  • Rodin Gen-2 的完整训练算力
  • Rodin Gen-2 的完整训练数据规模
  • Rodin Gen-2 中材质模块与后处理模块的具体结构
  • CLAYBANG 在闭源部署版本中的具体组装方式

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部