跳转至

TRELLIS 2

TRELLIS 2

Overview

TRELLIS 已经通过 SLAT 把 3D latent 变成"有结构、可编辑"的表示;TRELLIS 2 则进一步追问:

如果底层几何仍然主要依赖 SDF / isosurface,3D 生成是否仍然停留在一个不够原生的表示层?

它给出的回答是 O-Voxel


从 SLAT 到 O-Voxel

TRELLIS 的主要贡献是 SLAT:

  • 稀疏空间位置负责结构
  • 局部 latent 负责细节

这已经很强,但仍然存在几个问题:

  • SDF 对开放表面不友好
  • 对非流形结构支持不自然
  • 几何和材质往往不是原生一体化
  • 高分辨率 structured latent 成本仍然偏高

TRELLIS 2 的方向变化在于:

目标是让 latent 更接近 3D 资产结构本身,而不只是做到“有结构”。


O-Voxel 的核心思想

O-Voxel 可以理解为一种更原生的结构化 3D 单元表示。

它和传统 SDF latent 的区别在于:

  • 不再把几何等同为一个待抽壳的连续场
  • 而是直接在结构化单元中编码更原生的几何/材质信息

这使它更自然地处理:

  • 开放表面
  • 非流形结构
  • 带内部结构的对象
  • 原生 PBR 材质

每个活动体素编码以下信息:

Shape features \(f_i^{shape}\)

  • dual vertex \(v \in \mathbb{R}^3\):体素内的 mesh 顶点偏移
  • edge intersection flags \(\delta \in \{0,1\}^3\):三条轴对齐边是否与表面相交
  • splitting weights \(\gamma \in \mathbb{R}^1\):用于局部三角化的分裂权重

Material features \(f_i^{mat}\)

  • \(c_{\text{basecolor}}\):PBR 基础颜色
  • \(m_{\text{metallic}}\):金属度
  • \(r_{\text{roughness}}\):粗糙度
  • \(\alpha_{\text{opacity}}\):透明度

整体设计基于 Flexible Dual Grid(受 Dual Contouring 启发),是 field-free 的——不需要 SDF 或任何连续场。Mesh↔O-Voxel 之间可以在 CPU 上数秒内完成双向即时转换。


SC-VAE

TRELLIS 2 同时提出了 SC-VAE(Sparse Convolutional VAE),目的是进一步提高压缩效率。

架构设计

SC-VAE 是一个纯稀疏卷积架构(非 Transformer):

  • 采用 Sparse Residual Autoencoding:通道-空间信息交换机制
  • 残差块使用 ConvNeXt-style 设计优化
  • 包含 Early-pruning upsampler:在上采样早期剪掉不需要的体素
  • 16× 空间下采样,一个 \(1024^3\) fully-textured asset 可压到约 9.6K latent tokens

损失函数

训练分为两个阶段:

Stage 1(几何 + 材质重建)

\[ \mathcal{L}_{s1} = \lambda_v |v̂ - v|^2 + \lambda_\delta \text{BCE}(\hat{\delta}, \delta) + \lambda_\rho \text{BCE}(\hat{\rho}, \rho) + \lambda_{mat} |f̂^{mat} - f^{mat}|_1 + \lambda_{KL} \mathcal{L}_{KL} \]
  • \(v̂, v\):dual vertex 预测/GT
  • \(\hat{\delta}, \delta\):edge intersection flags
  • \(\hat{\rho}, \rho\):occupancy
  • \(f̂^{mat}, f^{mat}\):材质特征

Stage 2(加入渲染监督)

\[ \mathcal{L}_{s2} = \mathcal{L}_{s1} + \mathcal{L}_{render} \]

其中 \(\mathcal{L}_{render}\) 包含 mask/depth/normal 的 L1、SSIM 和 LPIPS 损失。


生成系统

TRELLIS 2 采用三阶段 DiT 生成:

阶段 功能 模型规模
Stage 1 结构生成(占据/非占据) 1.3B DiT
Stage 2 几何细节填充 1.3B DiT
Stage 3 材质生成 1.3B DiT
总计 ~4B params

训练配置:32×H100,batch size 256,AdamW lr 1e-4,训练资产规模约 800K。

推理效率:

  • \(512^3\) 级别 fully-textured asset 约 3s
  • \(1024^3\) 约 17s
  • \(1536^3\) 约 60s

实验结果

Reconstruction(Tab 1, Toys4K + Sketchfab)

TRELLIS 2 在 Toys4K 和 Sketchfab 上的 MD、CD、F1、PSNR 等指标均优于 TRELLIS v1、Direct3D-S2、SparseFlex 和 Dora。

Generation(Tab 2)

指标 TRELLIS 2
CLIP 0.894
ULIP-2 0.477
Uni3D 0.436
User study preference 66.5% / 69.0%

Ablation(Tab 3)

Sparse Residual Autoencoding 和 Optimized ResBlock 均对重建质量有明显贡献。


它在整条文献线里的位置

这条发展线可以概括为:

  • 3DShape2VecSet:先有紧凑 latent set
  • TRELLIS / SLAT:再让 latent 结构化、可编辑
  • TRELLIS 2 / O-Voxel:进一步让 latent 更接近 native 3D asset

因此 TRELLIS 2 的意义不在于对 TRELLIS 的渐进式改进,而在于表示路线层面的升级。


与其他方法的关系

相比 TRELLIS v1

  • v1 更强调"结构化 latent"
  • v2 更强调"native structured latent"

相比 LATTICE / VoxSet

  • VoxSet 更像 compactness 与 localizability 的折中
  • O-Voxel 更像往原生 3D 资产单元推进

相比 BPT / FACE

  • O-Voxel 仍然是在 latent representation 路线上推进
  • BPT / FACE 则在 mesh-native token space 上推进

两者都在追求"更原生",但方向不同。


局限

  • 尽管 latent 已经更紧凑,但整体系统仍然是大模型路线(~4B params),训练成本并不低
  • 形状与材质采用三阶段分别生成,系统复杂度高于单阶段方案
  • O-Voxel 更接近 asset representation,但并不等于直接在最终 mesh 编辑空间里工作

一句话总结

TRELLIS 2 的主要价值,是把 3D latent 表示从"有结构的中间表示"进一步推进到"更原生的 3D 资产表示",而 O-Voxel + SC-VAE 代表的正是这一方向:不仅要可生成、可压缩,还要更自然地支持开放表面、非流形结构和原生材质。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部