跳转至

VAT

3D Representation in 512-Byte: Variational Tokenizer is the Key for Autoregressive 3D Generation

Overview

VAT 关注的核心问题是:如何将 3D shape 压缩到极端紧凑的 token 表示中,使其适合大语言模型风格的自回归生成。 它实现了 250x 压缩比(1MB mesh → 3.9KB),是目前 3D tokenization 中压缩率最高的方案。


核心问题

将自回归 transformer 用于 3D 生成面临一个根本挑战:

3D 数据缺乏天然的序列结构和多尺度层级。

对比图像 tokenization:

  • 图像有规整的 patch 网格,天然的扫描顺序,以及多尺度金字塔
  • VQ-VAE/VQGAN 可以将图像压缩为数百个 discrete token
  • GPT 风格的 AR 模型可以直接在这些 token 上工作

3D 数据的困难:

  • 无序的点云或 mesh 没有天然的扫描顺序
  • 3D 特征之间的多尺度关系不像图像那样明确
  • 现有方法要么压缩不够(token 太多),要么压缩过度(丢失结构细节)

方法概述

In-context Transformer 压缩

VAT 的第一步是将大量无序的 3D 特征压缩为少量有序 token:

  • 输入:从 3D shape 提取的一组无序特征(如点云特征)
  • 用 in-context transformer 做 cross-attention,将 N 个无序特征压缩到 M 个 learnable query token 中(M << N)
  • 关键在于信息损失最小化——通过重建损失确保压缩是 near-lossless 的

变分量化:映射到高斯分布

压缩后的 latent token 被映射到一个高斯分布空间:

  • 这里采用的是 variational approach,不直接做 VQ(向量量化)
  • latent space 是连续的高斯分布
  • 然后用 residual quantization(残差量化)将连续 latent 离散化

多尺度 token 分配

VAT 的一个关键设计:不同尺度的 token 从同一个高斯分布的不同子空间中分配。

  • 粗尺度:少量 token,编码全局形状
  • 细尺度:更多 token,编码局部细节
  • token 数量跨尺度递增

这构建了一个隐式的层级结构

  • 粗到细的 token 之间的关系是在同一个连续空间中定义的
  • AR 模型可以自然地按从粗到细的顺序生成

高分辨率 Triplane 解码

解码时,compact latent tokens 被展开为高分辨率的 triplane representation:

  • triplane 可以编码细致的 3D 几何
  • 从 triplane 查询 SDF 并用 MC 提取 mesh

压缩率数字

指标 数值
1MB mesh → latent 3.9KB (250x 压缩)
进一步压缩 256 个 int8 token (2000x 压缩)
250x 压缩时 F-score 96%
2000x 压缩时 F-score 92%

这些数字意味着一个完整的 3D shape 可以用 256 个整数表示,与图像 token 数量相当。


为什么值得关注

1. 对接 LLM 架构

如果 3D shape 能用 256 个 token 表示,那它就可以直接放进 GPT 架构的上下文窗口中。这为"multimodal LLM 理解和生成 3D"打开了门。

2. 隐式层级结构

多尺度 token 从同一高斯分布分配的设计很优雅——它不需要显式定义层级关系,层级是从分布子空间中自然涌现的。

3. 验证了极端压缩的可行性

96% F-score 的 250x 压缩说明 3D shape 的内在维度远低于其原始表示,存在大量可以被利用的冗余。


与其他工作的关系

相比 3DShape2VecSet / LATTICE

  • 3DShape2VecSet 用 cross-attention 将 3D 特征编码为 latent set,思路类似
  • LATTICE 用 VQ-VAE 做 3D tokenization
  • VAT 的压缩比远高于两者

相比 Nautilus / BPT(mesh-native tokenization)

  • Nautilus/BPT 在 mesh 的顶点和面层面做 token 化
  • VAT 在 3D shape 的隐空间层面做 token 化
  • 两条路线目标不同:前者保留 mesh 结构,后者最大化压缩

相比 TRELLIS 的 SLAT

  • SLAT 也是 latent space tokenization,但保留了空间结构(structured latent)
  • VAT 更侧重极端压缩,牺牲空间结构换取更少的 token 数

优势与局限

优势

  • 极端压缩比(250x-2000x)使 3D 生成与 LLM 架构对接成为可能
  • 多尺度隐式层级结构设计优雅
  • near-lossless 压缩(96% F-score at 250x)
  • 适合 coarse-to-fine 自回归生成

局限

  • 极端压缩必然在某些细节上有损,92% F-score at 2000x 意味着约 8% 的几何信息丢失
  • 解码依赖 triplane + MC,继承了这条管线的分辨率限制
  • 压缩为无结构 token 后,空间局部性信息丢失,不利于局部编辑
  • 尚未在大规模 Objaverse 全集上验证

一句话总结

VAT 通过 in-context transformer 压缩、变分量化和多尺度 token 分配,将 3D shape 压缩为 256 个 token(250x-2000x 压缩比),是目前最紧凑的 3D tokenization 方案,为 3D 自回归生成与 LLM 架构的对接提供了关键基础。

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部