Infinigen Indoors¶
Infinigen Indoors: Photorealistic Indoor Scenes using Procedural Generation

Infinigen Indoors 把原始 Infinigen 从自然世界扩展到室内环境。相比前作,它新增的关键在于约束驱动的室内布局系统:资产程序化生成只是第一步,如何把它们排成一个语义和物理上都说得通的室内场景,才是这篇论文的重点。
核心问题¶
室内场景与自然世界不同,布局里存在大量显式规律,例如:
- 餐椅通常围绕餐桌
- 电器前方要留出操作空间
- 柜体、洗手池、灯具、门窗存在明显的附着和朝向关系
因此,论文关注的问题是:
在不依赖外部静态资产库的前提下,能否同时生成室内资产和满足常识约束的室内布局?
1. 三个主要组成¶
Infinigen Indoors 可以概括为三块:
- 程序化室内资产库
- 约束描述语言
- 约束求解布局器
此外还提供导出工具,把结果送到 Omniverse、Unreal 等实时模拟系统中。
2. 程序化资产库¶
论文扩展了大量室内资产类别,包括:
- furniture
- appliances
- cookware / dinnerware
- architectural elements
- decorations
- 各类 small objects
文中统计了数十个程序化生成器和数百个可解释参数。这里更重要的是,这些资产都仍然是程序生成的,并非从外部市场下载的固定模型。
这意味着室内场景的随机化可以继续深入到:
- 尺寸
- 比例
- 材质
- 细部构型
- 房间内部重复元素
而不只是把现成家具重新摆放一下。
3. Constraint Specification API¶
论文最关键的新贡献是约束语言。
用户可以用 Python API 写出想要的布局属性,而不必手工实现整个摆放算法。支持的约束类型包括:
- symmetry
- spatial relation
- quantity
- physics
- accessibility
例如可以表达:
- 把椅子对称地放在桌子周围
- 让花盆靠近窗户
- 保证刀叉数量一致
- 保证花瓶不悬空
- 保证电器前方有操作空间
这使场景布局更像一个“声明式程序”:用户说出希望满足什么,而求解器负责找出较好的摆放方案。
4. 求解器如何工作¶
由于约束空间很大,论文没有尝试精确求全局最优,而是采用 simulated annealing。
基本 move 类型¶
求解器会在场景上进行多种操作,例如:
- addition
- deletion
- relation plane change
- resample
- reinitialize pose
- translate
- rotate
这些 move 会和对象当前的附着关系、支撑平面以及可运动自由度结合起来,而不是做无约束乱动。
分层优化¶
论文还利用了室内场景的层级性,分阶段求解:
- floor plan
- large furniture
- small objects
这样做的理由很明确:杯子依赖桌子位置,桌子依赖房间结构,不能把所有变量一次混在一起求。
5. Floorplan 生成¶
除了家具布局,论文还处理多房间、多层建筑的 floor plan。
它先生成房间邻接图,再围绕以下类目标优化:
- room area
- aspect ratio
- convexity
- passage width
- staircase occupancy
- exterior wall structure
这说明 Infinigen Indoors 覆盖了从建筑层级到物体层级的完整程序化室内生成系统,不应把它理解成一个“家具摆放器”。
6. 为什么它和常见室内数据集不同¶
很多室内数据集或生成系统依赖:
- 真实扫描场景
- 设计师制作的静态布局
- 外部家具资产库
Infinigen Indoors 的差别在于:
- 资产是程序化的
- 布局也是程序化求解出来的
- 用户可以直接改约束,而不是只能从已有场景分布中采样
因此,它的可控性来自“能改生成规则”,而不是“从固定数据中找一个近似案例”。
7. 下游验证¶
论文还用生成的数据验证了两个任务:
- shadow removal
- occlusion boundary estimation
其结论是,合成的室内数据可以改善模型在新场景上的泛化。这里想说明的是:当训练数据缺少某些标注或场景变化时,程序化室内生成能提供有价值的补充;这并不意味着程序化数据可以替代所有真实数据。
8. 位置与局限¶
在 code/script-based 3D generation 这条线上,Infinigen Indoors 代表的是约束驱动的程序化场景生成。
它与 VIGA 的区别是:
VIGA从图像出发,反复修改代码去逼近目标Infinigen Indoors直接从规则和约束出发生成场景
与 text-to-3D 场景模型相比,它的长处是:
- 可解释
- 可验证
- 约束可直接修改
但它也不是通用视觉条件生成器。它更适合做环境生成、数据合成和程序化仿真,而不是直接还原用户提供的一张参考图。
一句话总结¶
Infinigen Indoors 的核心意义,在于把室内场景生成从“资产库采样 + 摆放”推进到“程序化资产 + 声明式约束 + 求解式布局”,让室内世界本身成为一个可编辑、可验证的程序系统。