跳转至

CLAY

CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets

Overview

CLAY 可以看作 3D asset generation 里一条很典型的系统路线:先把几何生成做成大规模 3D native foundation model,再把材质、控制条件、资产后处理接到这条主干上。它的目标是生成可直接进入生产流程的 3D 资产,而不只停留在单个 mesh。


核心问题

CLAY 试图同时解决三个问题:

  • 3D 原生生成模型的规模还不够大,几何先验不够强
  • 现有方法常在几何和材质之间耦合过深,最终资产不够完整
  • 2D control 很成熟,但 3D 里缺少统一的多模态控制接口

论文的判断很明确:

  1. 几何生成要直接从大规模 3D 数据中学,而不是主要依赖 2D lifting
  2. 材质生成单独建模更合适,避免几何和外观相互牵制
  3. 训练前先把 3D 数据统一成高质量 watertight 表示,否则模型很难 scale

整体结构

CLAY 拆成两条主线:几何生成和资产增强。

```text Text / Image / 3D condition -> Latent DiT (geometry generation) -> VAE decoder -> Occupancy field -> Marching Cubes -> mesh

mesh -> quadrification + UV atlasing -> multi-view material diffusion -> diffuse / roughness / metallic -> production-ready 3D asset ```

这里最重要的取舍是:

  • 几何和材质解耦:先把形状生成做好,再做 PBR 材质
  • 控制模块外挂化:文本是基础条件,其它条件通过额外 cross-attention 模块接入
  • 后处理进入主系统:mesh quadrification、UV、PBR 贴图都被纳入主 asset pipeline,而不再是附带步骤

1. 几何基础模型

多分辨率 VAE

CLAY 延续 3DShape2VecSet 的 set-based latent 思路,但把几何编码做成更适合大规模训练的多分辨率版本。

  • 输入:从 mesh 表面采样的点云
  • 编码:cross-attention 把点云压成 latent set
  • 解码:latent + 查询点坐标 -> occupancy logits
  • 提取:在 512^3 分辨率上稠密采样,再用 Marching Cubes 提取 mesh

它的一个直接目的,是把 3D generation 变成类似 2D latent diffusion 的过程:先在紧凑 latent 空间里生成,再通过 decoder 恢复连续几何。

Latent DiT

几何生成器是纯 Transformer 的 latent DiT。

  • 24 层 transformer
  • 模型规模从 227M 一直扩到 1.5B
  • latent length 用 progressive schedule 从 512 -> 1024 -> 2048
  • 训练时用 cosine beta schedule、v-prediction、zero terminal SNR

这里更值得注意的是它的 progressive scaling,不在某个单独的 block:

  • 先在较短 latent 上收敛
  • 再逐步增加 latent 长度和模型参数
  • 同时降低学习率,避免大模型直接训练不稳定

论文最终的 XL 模型用了 256 张 A800,训练约 15 天。这说明 CLAY 的重点确实是把 3D 原生生成往 foundation model 的规模推。


2. 数据标准化为什么重要

CLAY 很强调 3D 数据治理。

原始 Objaverse / ShapeNet 存在的问题包括:

  • 非 watertight
  • 朝向不一致
  • 注释粗糙
  • 不同来源格式不统一

为此论文做了两件事。

几何统一

目标是把不同来源 mesh 统一成适合 VAE 学习的 occupancy / watertight 表示,同时尽量保留几何边和面。

CLAY 没直接采用会把边角抹平的 remeshing,而是基于 UDF 和可见性分析做几何统一:

  • 保留 sharp edges / flat surfaces
  • 对 non-watertight mesh 更稳
  • 在 isosurface 提取前用 grid visibility 标记 inside / outside

最终保留约 527K 个高质量对象用于预训练。

文本注释

论文还借助 GPT-4V 生成更细的几何与风格标签,用来提升文本到 3D 的可控性。

这一步的意义在于让 prompt 可以更稳定地控制:

  • 对称 / 非对称
  • sharp / smooth
  • low-poly / complex
  • character-like 等风格标签

3. 资产增强:从 mesh 到可用资产

CLAY 与很多只停留在 geometry generation 的方法不同,它进一步做了资产增强。

Mesh quadrification 与 UV

Marching Cubes 输出通常是高密度三角面,不适合直接进入游戏引擎或编辑流程。

CLAY 在几何生成后继续做:

  • triangle mesh -> quad mesh
  • 自动 UV atlasing
  • 保留硬边和平面结构

这一步很重要,因为后续 PBR 材质生成和资产编辑都依赖更规整的 mesh 拓扑。

Multi-view Material Diffusion

材质部分直接生成 PBR 所需的多个纹理通道,不只是简单贴色图:

  • diffuse
  • roughness
  • metallic

做法上,CLAY 基于多视图扩散模型生成与几何对齐的多视图贴图,再反投影到 UV 空间。它还结合:

  • 法线图条件
  • ControlNet 式几何约束
  • LoRA 式高效微调
  • 超分辨率增强到 2K 贴图

因此 CLAY 的输出更接近 production-ready asset,而不是只适合论文展示的彩色几何。


4. 多模态控制

CLAY 的另一个亮点,是把多种条件统一接在 latent DiT 上。

支持的条件包括:

  • 文本
  • 图像 / 草图
  • voxel
  • 多视图图像
  • 点云
  • bounding box
  • partial point cloud + extension box

统一形式是:在原始文本 cross-attention 之外,再添加并行的条件 cross-attention 残差:

\[ Z \leftarrow Z + \mathrm{CrossAttn}(Z, c) + \sum_i \alpha_i \mathrm{CrossAttn}_i(Z, c_i) \]

这意味着不同条件是插件式接入的,而不是为每种输入单独重写 backbone。

对于图像 / 草图,CLAY 用 DINOv2 抽特征;对于 voxel、point cloud、bbox 这类 3D 条件,则显式加入位置编码来保留空间信息。

这套设计带来的直接好处是:

  • 同一个几何基础模型可以复用到很多下游交互形式
  • 可以单条件或多条件联合控制
  • 控制既可以是语义性的,也可以是空间性的

5. 实验结果

模型越大,几何质量越稳

文本到 3D 的结果里,CLAY 从 Tiny 到 XL 呈现稳定的 scaling 规律。论文报告中,XL-P-HD 在点云 FID / KID 等几何指标上最好,说明更长 latent 和更大模型都带来实质收益。

多视图条件效果最好

在各类条件里,多视图 normal / image conditioning 的结果很强:

  • Voxel-IoU0.77
  • F-score0.82

这说明 CLAY 既能做生成,也可以当高质量 multi-view reconstruction backend。

与当时方法对比

论文里和 Shap-EDreamFusionMagic3DMVDreamRichDreamer 等方法比较,结论很明确:

  • 比优化式方法快很多
  • 比 2D lifting 路线的几何更稳
  • 对 image-to-3D 和 text-to-3D 都有较强的综合表现
  • 生成速度约 45s,其中几何约几秒,纹理生成占主要时间

这也体现了 CLAY 的定位:并不只追求最快的 shape generator,更强调完整资产输出。


与其他工作的关系

相比 3DShape2VecSet

  • 都是 set-based latent + transformer VAE 路线
  • CLAY 更强调大规模预训练、progressive scaling 和多模态控制
  • CLAY 把 asset enhancement 明确接到了主流程里

相比 Hunyuan3D 2.0 / TripoSG

  • 三者都属于“几何 foundation model + 大规模数据 + 条件生成”的系统路线
  • Hunyuan3D 2.0 更突出几何-纹理解耦和工业化纹理流程
  • TripoSG 更强调高质量数据治理 + SDF VAE + Rectified Flow scaling
  • CLAY 的特点是更早把 controllable multi-modal generation 和 PBR asset pipeline 结合在一起

相比优化式 Text-to-3D

  • 优化式方法依赖 SDS,速度慢且容易出现几何不稳定
  • CLAY 直接在 3D latent 里生成,几何 fidelity 和控制性都更适合作为基础模型

延伸思考

CLAY 这类工作很适合放在“面向艺术生产的 3D foundation model”语境里理解。

它追求的是:

  • 更好的几何观感
  • 更强的多模态控制
  • 更完整的资产输出
  • 更快地把想法变成可用的 3D 内容

这和工业生成的目标并不完全一致。工业场景往往要求严格尺寸、装配约束、参数可编辑性和可制造性,仅靠概率式 mesh / field 生成通常不够稳。长期看,工业 3D 很可能更偏向 CAD 脚本、程序化建模、参数化约束这类路线。

因此,CLAY 更像是在证明另一条主线:对于艺术资产生产,端到端概率式 3D 生成模型完全可能成为主流基础设施;但它未必直接等价于工业级几何设计系统。


优势与局限

优势

  • 明确走 3D native foundation model 路线
  • 数据清洗、模型 scaling、控制模块、材质流程是一体化设计
  • 输出包含 geometry + PBR materials,更接近实际资产生产
  • 多模态控制接口很完整,覆盖文本、图像和多种 3D 条件

局限

  • latent 仍是 set-based 表示,空间结构不如后来的 structured latent 明确
  • 几何仍通过 field -> Marching Cubes 提取,不是 mesh-native 生成
  • 训练和推理成本都不低,完整资产生成仍需几十秒
  • 材质阶段依赖后处理和多视图映射,流程相对复杂

一句话总结

CLAY 的意义在于,它把“3D 原生大模型 + 数据标准化 + 多模态控制 + PBR 资产增强”组合成了一条相对完整的 3D asset generation pipeline,证明了 3D 生成也可以沿着类似 2D foundation model 的方式系统扩展。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部