Scene Generation¶
场景级 3D 生成——从单物体扩展到三维空间的构建。
典型工作¶
WorldGen — 文本到可遍历 3D 世界¶
WorldGen: From Text to Traversable and Interactive 3D Worlds
核心流程:
- 自然语言描述 → 粗略空间布局 + 可行走区域
- 布局信息 → 整体三维网格
- 网格拆分为单独对象
- 每个对象细化 + 纹理生成
输出:可探索、可编辑的三维世界。可用于场景构建和通过改变部件实现数据增强。
SAM 3D Objects — 图到复杂 3D 场景¶
Facebook Research, 2024.11 开源
支持从图像生成场景,支持复杂三维排布。发布时的 SOTA 模型。
MIDI — 多实例扩散¶
MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation
与 TripoSG 同组的工作。从单张图像通过多实例扩散生成 3D 场景。
WorldGrow — 场景组合生成¶
将三维场景切分为大小不同的块 (blocks),通过块的拼接和补全来生成连续扩展的三维空间。能在保持整体布局合理的同时生成细节丰富的大规模虚拟环境。
Infinigen — 程序化自然世界生成¶
CVPR 2023
Infinigen 的目标是直接把自然世界写成程序,而不是从图像或文本反推一个场景:
- 完全程序化:地形、植物、动物、天气和材质都由随机数学规则生成,不依赖外部静态资产
- 真实几何:强调真实几何细节,而不是只靠贴图或法线伪细节,因此更适合生成深度、法线、实例分割、光流等标注
- 可扩展实现:基于 Blender,并提供节点图到 Python 的转换工具,便于把艺术家样式的节点规则纳入程序系统
如果从表示角度看,Infinigen 更接近“程序本身就是场景表示”的路线,可与 基于代码 / 脚本的 3D 生成 对照阅读。
Infinigen Indoors — 程序化室内生成¶
CVPR 2024, 至今持续维护的 SOTA 框架
Infinigen 项目的室内扩展。核心特点:
- 全程序化:数百种家具、建筑构件、厨卫设备用几何/材质节点规则随机生成,不依赖外部静态资产库
- 约束语言 + 求解器:Python DSL 描述对称、空间关系、物理、通道可达性等约束;退火式求解器分三层逐级搜索(户型 → 大件家具 → 小件摆设)
- 导出支持:OBJ / FBX / PLY / STL / USD,可导入 Omniverse / Unreal 实时仿真
- 从 1.5 版起支持导入外部静态模型
相对原始 Infinigen,室内版本把“程序化资产”进一步扩展为“程序化资产 + 约束驱动布局”。
Imaginarium — 视觉引导的场景布局¶
Imaginarium: Vision-guided High-Quality 3D Scene Layout Generation
流程:
- 收集 2000+ 高质量 3D 资产,人工设计 140+ 复杂场景
- 文字提示 → 图像生成模型 → 参考图像
- 语义分割 + 深度估计 + 几何分析 → 提取物体位置与关系
- 检索匹配的 3D 资产 → 估算旋转/平移/缩放
- 场景图约束 + 物理模拟 → 优化布局
在用户研究中优于现有方法。
场景生成的技术谱系¶
| 方法 | 输入 | 生成方式 | 核心技术 | 特点 |
|---|---|---|---|---|
| WorldGen | 文本 | 端到端 | 布局生成 + Mesh 拆分 + 细化 | 可遍历、可编辑 |
| SAM 3D | 图像 | 端到端 | 多实例 3D 推理 | 复杂排布 |
| MIDI | 单张图像 | 多实例扩散 | 扩散模型 | 与 TripoSG 同组 |
| WorldGrow | - | 块拼接/补全 | 场景组合生成 | 大规模连续扩展 |
| Infinigen | 随机种子 | 程序化 | 数学规则 + 节点图 + Blender Python | 自然世界、真实几何 |
| Infinigen Indoors | 布局约束 | 程序化 + 求解 | Python DSL + 退火式求解器 | 室内场景、语义与物理约束 |
| Imaginarium | 文本 | 资产检索 + 布局 | 视觉引导 + 物理模拟 | 高质量布局 |
评论
评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。