Direct3D-S2¶

Direct3D-S2: Gigascale 3D Generation Made Easy with Spatial Sparse Attention

Overview

Direct3D-S2 属于 sparse volumetric latent 路线中的代表工作之一。它关注的核心在于把 Sparse SDF VAE + spatial sparse attention 这条高分辨率 3D 生成路线推进到更可扩展的阶段，而不追求全新的表示哲学。

核心问题¶

高分辨率 3D 生成常见的痛点是：

3D token 一多，注意力成本爆炸
dense voxel/SDF 路线很难 scale
即使结构基本正确，局部边缘、锐角、薄结构也容易糊或碎

Direct3D-S2 的目标可以概括成：

在保留 sparse SDF 几何表达能力的同时，解决高分辨率训练与建模成本问题。

方法直觉¶

它的核心由两部分组成：

1. Sparse SDF VAE (SS-VAE)¶

用 sparse SDF 表示几何
输入、latent、输出都保持 sparse volumetric format（统一稀疏表示）
不再像一些早期方法那样在 point cloud / latent vec / dense volume 之间来回切换
端到端 SDF 重建框架，训练更稳，高分辨率重建链条更直接

训练配置：

多分辨率训练 \(\{256^3, 384^3, 512^3\}\)，1 天 on 8×A100，batch 4/GPU，lr=1e-4
Fine-tune \(1024^3\)，1 天，lr=1e-5，batch 1/GPU
总计 2 天 on 8×A100（远少于同类方法通常需要的 32+ GPU）

2. Spatial Sparse Attention (SSA)¶

SSA 是本文的核心创新，由三个模块组成：

Sparse 3D Compression (\(m_{cmp}=4\))：将稀疏 token 按空间分块压缩，获取全局 attention scores
Spatial Blockwise Selection (\(m_{slc}=8\))：基于 attention scores 选择最相关的空间块
Sparse 3D Window (\(m_{win}=8\))：局部窗口内做精细 attention

三步协同使模型既能捕获全局上下文，又不会因 token 数量增长导致计算爆炸。

SSA 通过定制 Triton GPU kernel 实现，在 128K tokens 时：

Forward：3.9× 加速（vs FlashAttention-2）
Backward：9.6× 加速

SS-DiT 架构¶

组件	参数
DiT layers	24 层
Hidden dim	1024
Attention	GQA，group=2，每组 16 heads，head dim 32
条件编码	DINOv2-Large，输入 518×518
训练策略	Progressive \(256^3 \to 1024^3\)

训练配置（Tab 1）¶

分辨率	平均 Token 数	LR	Batch	时间
\(256^3\)	~2,058	1e-4	8×8	2 天
\(384^3\)	~5,510	1e-4	8×8	2 天
\(512^3\)	~10,655	5e-5	8×8	2 天
\(1024^3\)	~45,904	2e-5	2×8	1 天

总计 7 天 on 8×A100（另有 7 天训练 structure prediction DiT）。

实验结果¶

Image-to-3D 定量对比（Tab 2）¶

方法	ULIP-2 ↑	Uni3D ↑	OpenShape ↑
Trellis	0.2825	0.3755	0.1732
Hunyuan3D 2.0	0.2535	0.3738	0.1699
TripoSG	0.2626	0.3870	0.1728
Hi3DGen	0.2725	0.3723	0.1689
Direct3D-S2	0.3111	0.3931	0.1752

三项 image-shape alignment 指标均优于所有对比方法。

User Study¶

40 名参与者对 75 个 mesh 进行评分（1-5 分），Direct3D-S2 在 image consistency 和 overall quality 两个维度上均优于其他方法。

SSA Ablation¶

仅用 window：局部细节好但表面不规则（缺少全局上下文）
加 compression：变化不大，主要为 selection 提供 attention scores
加 selection：模型聚焦于全局重要区域，mesh 质量明显提升
Full attention baseline：因被迫 packing tokens 导致高频表面伪影

优势与局限¶

优势¶

延续 sparse SDF 的几何表达能力
SSA 使高分辨率 3D DiT 训练实际可行
仅 8×A100 即可训练 \(1024^3\) 生成模型
统一 sparse volumetric format 提升训练稳定性

局限¶

仍然依赖 field -> mesh 的恢复链条
对开放表面 / 原生 mesh 结构的表达不如 O-Voxel / FACE 路线自然
SSA forward 加速比 (3.9×) 小于 backward (9.6×)，主要受 top-k sorting 开销限制
依赖定制 Triton kernel，工程实现门槛不低

一句话总结¶

Direct3D-S2 的意义，在于把 Sparse SDF VAE + Spatial Sparse Attention 这条路线向高分辨率、可扩展的 3D 生成系统推进了一步，用仅 8 GPU 实现了 \(1024^3\) gigascale 3D 生成，是 sparse volumetric latent 路线中的关键工程推进节点。