ShapeLLM-Omni¶
ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding

ShapeLLM-Omni 把 3D 生成、理解、描述和编辑都放进一个统一的 autoregressive 多模态大模型里,并不局限于传统的单任务编辑。它的核心是:把 3D mesh 也离散成 token,使 3D 可以像语言一样参与 next-token prediction。
核心问题¶
很多 3D 方法只做单任务:
- 要么 text-to-3D
- 要么 image-to-3D
- 要么 3D understanding
- 要么 3D editing
ShapeLLM-Omni 想做的是:
能不能把 3D 作为一种原生模态,直接接进多模态 LLM,让模型在文本、图像、3D 之间自由切换。
方法框架¶
1. 3D VQVAE¶
- 先训练一个 3D VQVAE
- 把 mesh 编码成离散 3D token
- 这样 3D 就能像词表 token 一样被 LLM 处理
2. 统一 next-token prediction¶
- 模型继承 Qwen2.5-VL 的图文能力
- 再加入 3D token 词表
- 统一做自回归生成
因此它支持:
- text-to-3D
- image-to-3D
- 3D-to-caption
- 3D editing
3. 3D-Alpaca 数据集¶
论文构建了一个较大的 3D 对话训练集:
- text/image to 3D
- 3D understanding
- 3D editing
总规模约 2.56M 样本、3.46B tokens。
编辑相关部分¶
ShapeLLM-Omni 的 editing 被统一写进语言模型训练中,并不是单独外挂一个编辑器:
- 先定义可执行的编辑 prompt
- 再为资产生成前后编辑图像对
- 用 Trellis 等方法把这些图像对重建成 3D before/after 对
- 最后把它们写成对话格式训练
论文里编辑数据大约有 62k 对,最终构成 3D-Alpaca 的一部分。
这意味着它更像“会对话的 3D agent 原型”,而不是最强的单任务编辑器。
关键实验结论¶
语言能力¶
引入 3D 能力后,ShapeLLM-Omni 仍保持了接近原 Qwen2.5-VL 的一般语言能力:
MMLU = 63.9PIQA = 78.6GSM8K = 55.1
说明加入 3D token 后,模型并没有完全牺牲通用对话能力。
3D 生成¶
- 在 text-to-3D / image-to-3D 上优于多种 baseline
- 但整体仍弱于专门为单任务生成优化的
TRELLIS
论文也明确解释了原因:
- 它是一个 all-in-one 模型
- 同时学生成、理解、编辑、对话
- 自然会在单项极限性能上让位于专门系统
3D 理解¶
- 在 3D caption 等理解任务上表现较强
- 仅次于专门为 3D understanding 训练的单任务模型
这验证了它的统一多模态路线是可行的。
为什么它重要¶
ShapeLLM-Omni 的价值主要不在单项 SOTA,而在方向上:
- 它证明 3D token 可以真正并入原生多模态 LLM
- 3D 编辑不一定非要做成独立管线,也可以做成对话式能力的一部分
对知识库来说,它更像“3D-native AI”路线的代表,而不是单纯编辑 benchmark 选手。
局限¶
- 单任务性能仍不如专门的 3D 生成或编辑模型
- 离散 autoregressive 生成方式在质量上和 flow / diffusion 路线仍有差距
- 编辑能力目前更像基础能力验证,还不是工业级高保真编辑系统
一句话总结¶
ShapeLLM-Omni 的主要意义,是把 3D generation、understanding、captioning 和 editing 统一进一个原生多模态 LLM 框架里,让 3D 真正成为可对话、可生成、可操作的离散模态。