Benchmarks¶

3D 生成评估 Benchmark 的综述与发展分析。涵盖 6 个评估框架。
总览:六个评估框架对比¶
| 框架 | 任务 | 数据来源 | 评分范式 | 核心维度 | 独特之处 |
|---|---|---|---|---|---|
| 3D Arena | Image→3D | 众包 | 相对偏好 (ELO) | 综合主观质量 | 社区驱动,12 万+ 投票 |
| MATE-3D | Text→3D | 人类标注 | 绝对分数 (MOS) + HyperScore | 语义对齐、几何、纹理、综合 | 多维度绝对评分 + 超网络评估器 |
| T³Bench | Text→3D | 自动化 | 自动化分数 | 质量 (含视角一致性)、文本对齐 | 区域卷积检测 Janus 问题 |
| 3DGen-Bench | Text/Image→3D | 混合 (众包+专家) | 相对偏好 + 绝对分数 | 几何合理性/细节、纹理、对齐 | 统一两任务 + 互补工具 (Score+Eval) |
| Eval3D | Text/Image→3D | 自动化 | 一致性分数 | 几何/语义/结构一致性、美学 | 基础模型探针,零样本,像素级反馈 |
| Hi3DEval | Text/Image→3D | 专家标注 | 绝对分数 + 学习模型 | 对象级→部件级→材质级 | 分层级诊断,率先评估 PBR 材质 |
发展四阶段¶
Phase 1: 竞技场时代 — 众包偏好¶
代表:3D Arena
- 核心方法:匿名成对比较 + ELO 评分系统
- 数据规模:8,096 名用户,123,243 次投票
- 评估粒度:单一综合质量("哪个更好?")
- 关键发现:
- Gaussian Splat 比 Mesh 有 16.6 ELO 优势
- 有纹理 vs 无纹理:144.1 ELO 差异
局限性
综合质量评分将几何准确性、纹理真实性、对齐度混淆为一个模糊分数。评估结果极易被表面美学特征主导,而非 3D 结构正确性。
Phase 2: 维度解耦时代 — 多维绝对评分¶
代表:MATE-3D / HyperScore
从「哪个更好」到「好到什么程度」的转变。
- 数据集:1,280 个带纹理网格,8 类提示(单对象 4 类 + 多对象 4 类)
- 标注:107,520 个独立评分(每资产 4 维度 × MOS 0-10)
- 四个维度:
- 语义对齐性 (Semantic Alignment)
- 几何质量 (Geometry Quality)
- 纹理质量 (Texture Quality)
- 综合质量 (Overall Quality)
- HyperScore:超网络架构,根据评估维度条件动态生成预测头权重,单模型输出多维度专门分数
Phase 3: 自动化与伪影感知时代¶
代表:T³Bench, Eval3D
T³Bench — 自动化多视角评估¶
设计理念:针对 Janus 问题等 3D 特有伪影设计专门的自动化检测。
- 分层提示集:单对象 → 带环境单对象 → 多对象(复杂度递增)
- 两个自动化指标:
- 质量指标:多视图图像评分 + 区域卷积 (Regional Convolution) 检测视角不一致性
- 对齐性指标:多视图字幕生成 → GPT-4 判断语义一致性
区域卷积的意义
传统方法在多视角上简单平均 CLIP 分数无法捕捉 Janus 问题——「正面照片」和「背面照片」对「一个人」的提示可能都有高分。区域卷积专门为检测这种视角间不一致而设计。
Eval3D — 通过一致性进行评估¶
新范式:不依赖人类偏好数据训练,利用基础模型作为客观「探针」。
- 核心逻辑:高质量 3D 资产的不同属性应当内在自洽
- 探针模型:DINOv2(语义特征)、Depth Anything(深度估计)、Zero-1-to-3(新视角合成)等
- 五个一致性维度:
- 几何一致性:3D 渲染法线图 vs 图像预测法线图
- 语义一致性:不同视角的 DINO 特征稳定性
- 结构一致性:真实渲染 vs 新视角合成预测
- 文本-3D 对齐性
- 美学
- 主要特点:零样本、像素级空间反馈、可解释的缺陷定位
Phase 4: 统一化与分层级时代¶
代表:3DGen-Bench, Hi3DEval
3DGen-Bench — 统一综合基准¶
首个统一 Text→3D 和 Image→3D 两类任务的评估。
- 规模:1,020 提示 × 19 模型 = 11,220 个 3D 资产
- 混合标注:68,000 众包投票 + 56,000 专家多维度分数
- 五个维度:几何合理性、几何细节、纹理质量、几何-纹理一致性、提示对齐性
- 互补工具套件:
- 3DGen-Score (基于 CLIP):快速「温度计」—— 大规模排序
- 3DGen-Eval (基于 MLLM):深度「诊断医生」—— 可解释性强
Hi3DEval — 分层级精细诊断¶
评估粒度进一步细化:从「评分员」到「病理分析专家」。
- 规模:30 个模型 × 15,300 资产,含 4K 对象级 + 23K 部件级 + 11K 材质级标注
- 分层级评估:
| 层级 | 评估内容 | 特征表示 |
|---|---|---|
| 对象级 (Object) | 整体几何、纹理、对齐 | 基于视频表示 |
| 部件级 (Part) | 语义部件质量(如椅子腿、手臂) | 预训练 3D 特征 |
| 材质级 (Material) | PBR 物理材质属性(反照率、金属度、饱和度) | 标准化重打光渲染 |
- M²AP:多智能体、多模态自动化标注流程
分层级诊断的价值
一个模型可能整体形状优异(对象级高分),但精细部件有缺陷(部件级低分),或木头材质缺乏真实高光(材质级低分)。这种诊断能力将模糊的「质量不行」分解为可操作的工程问题。
组合 Mesh 评估覆盖¶
多个 Benchmark 覆盖了多物体组合生成的评估:
- MATE-3D:8 类提示中包含「组合 (Grouped)」「动作 (Action)」「空间 (Spatial)」
- T³Bench:「多对象集 (Multi-Object Set)」
- 3DGen-Bench:覆盖「单对象、多对象和微场景」
使用建议¶
| 需求 | 推荐框架 |
|---|---|
| 快速大规模模型排序 | 3D Arena, 3DGen-Score |
| 训练自动化评估器 | MATE-3D, 3DGen-Bench (专家标注) |
| 深入诊断模型缺陷 | Eval3D (空间反馈), Hi3DEval (分层级) |
| 标准化评估 | 3DGen-Bench (统一 + 互补工具) |
| 检测 Janus 问题 | T³Bench (区域卷积) |
未来方向¶
- 超越静态对象:可动对象(绑定/驱动)、4D 动态场景、物理交互
- 场景级组合评估:多物体空间关系、遮挡、风格一致性
- 标准化协议:统一渲染管线、光照条件、后处理步骤
- 具身智能体评估:从「看起来怎么样」到「能做什么」——功能性评估
评论
评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。