Metrics¶
3D 生成与编辑的评估指标汇总。按评估维度组织,标注各指标的使用论文与优劣判断方向。
1. 条件对齐度 (Condition Alignment)¶
衡量生成/编辑结果与输入条件(文本、图像、草图)的匹配程度。
| 指标 | 评估内容 | 使用论文 | 方向 |
|---|---|---|---|
| Directional CLIP Score (CLIPdir) | 文本指令变化方向与 3D 模型渲染图在特征空间中变化方向的一致性 | PrEditor3D | ↑ |
| CLIP Score / CLIP-T | 编辑后模型渲染图与目标文本的语义相似度 | VoxHammer, Hunyuan3D 2.0, TRELLIS, MeshPad | ↑ |
| DINO Image Similarity (DINO-I) | 图像驱动编辑中,3D 模型渲染图与用户提供的 2D 目标图像的相似度 | VoxHammer | ↑ |
| ULIP / Uni3D | 生成 3D 模型与给定条件的跨模态语义和结构相似性(T: 文本, I: 图像子类型) | Hunyuan3D 2.0 | ↑ |
| GPTEval3D / User Study (匹配度) | 人类或 GPT-4V 主观判断编辑结果符合指令的程度 | PrEditor3D, VoxHammer, MeshPad | ↑ |
2. 保留度 (Preservation)¶
衡量编辑过程中未编辑区域的保持程度——3D 编辑的核心难题。
2.1 保留度指标总览¶
| 指标 | 评估内容 | 使用论文 | 方向 |
|---|---|---|---|
| Masked Chamfer Distance (CD) | 未编辑区域点云在编辑前后的几何形状保持 | VoxHammer, PrEditor3D | ↓ |
| Masked LPIPS / PSNR / SSIM | 渲染图上未编辑区域的外观、纹理和结构保留 | VoxHammer | LPIPS: ↓, PSNR/SSIM: ↑ |
| CLIPdiff-noedit | 未编辑区域在编辑前后的 CLIP 分数变化(语义内容保持) | PrEditor3D | ↓ |
Masked 指标的意义
保留度指标通过掩码仅计算未编辑区域,是衡量编辑方法「泄露」程度的直接度量。Masked CD 衡量几何保持,Masked LPIPS 衡量视觉保持,CLIPdiff-noedit 衡量语义保持。
2.2 保留机制分类¶
各方法在技术上通过不同机制实现未编辑区域的保留,大体分为两类。
显式融合(需要 mask / 区域信息)¶
| 论文 | 机制 | 技术细节 |
|---|---|---|
| VoxHammer | DDIM 反演 + KV Cache Replacement | 对源 mesh 做 DDIM 反演,缓存未编辑区域的 KV 特征;去噪阶段将未编辑区域的 KV 替换回缓存值 |
| PrEditor3D | 双路重建 + Copy-Paste 融合 | 同时重建源 mesh 和编辑后 mesh 的 3D 特征网格,根据 2D 编辑 mask 反投影得到的 3D mask 进行区域级 copy-paste |
| CraftMesh | Poisson 几何 + 纹理融合 | 几何层面将编辑部件无缝嫁接到源 mesh 上,纹理层面在边界处混合颜色 |
| Easy3E | 轨迹级分离 | 编辑区域沿编辑轨迹采样,非编辑区域沿源轨迹采样,通过轮廓引导确定编辑 voxel |
隐式保留(不需要用户输入 mask)¶
| 论文 | 机制 | 技术细节 |
|---|---|---|
| NANO3D | Voxel-Merge + Slat-Merge 双层融合 | 通过体素级 XOR 差异自动计算伪 mask,在 Voxel 和 SLAT 特征层分别融合 |
| 3DEditVerse | DualAttn + Time-Adaptive Gating | 两种 3D 特征并行交叉注意力融合,门控系数随去噪时间步动态调节保留/编辑平衡 |
| Native 3D Editing | Token Concatenation | 将源 mesh 的 SLAT token 与噪声 token 拼接,通过全自注意力交互。消融实验证明优于 Cross-Attention |
| Steer3D | ControlNet bypass | 在 TRELLIS 主干旁加 ControlNet 分支注入源 mesh 信息,通过 DPO 部分缓解保留性不足 |
| AnchorFlow | Latent Anchor Consistency | 全局 latent anchor 对齐源/目标轨迹,anchor-alignment loss 隐式约束非编辑区域 latent 一致性 |
两类机制对比¶
| 类别 | 代表方法 | 优势 | 劣势 |
|---|---|---|---|
| 显式融合 | VoxHammer, PrEditor3D, CraftMesh | 保留度高,可量化控制 | 需要精确 3D mask,工作流复杂 |
| 隐式/自动融合 | 3DEditVerse, Native 3D Editing, NANO3D, AnchorFlow | 不需要用户 mask,端到端 | 保留程度依赖内部机制,部分方法可能出现编辑泄露 |
2.3 各论文保留度评估方法对比¶
各论文的保留度评估分为基于 2D 渲染图和基于 3D 点云/网格两类。
| 论文 | 2D 指标 | 渲染视角数 | 3D 指标 | 采样点数 | 评估类型 |
|---|---|---|---|---|---|
| VoxHammer | Masked PSNR / SSIM / LPIPS, FID, FVD, DINO-I, CLIP-T | 未明确 | Masked CD | 未明确 | 显式 mask-based(2D+3D) |
| 3DEditVerse | PSNR, SSIM, LPIPS, DINO-I | 10 个固定视角 | CD, NC, F1^0.01 | 100,000 点 | 无独立保留度指标,整体对比 GT |
| Steer3D | LPIPS | 6 个视角 | CD, F1 (阈值 0.05) | 10,000 点 | 无独立保留度指标,整体对比 GT |
| PrEditor3D | CLIPdiff-noedit, GPTEval3D | 未明确 | CD(消融实验) | 未明确 | 语义级(CLIPdiff-noedit) |
| Native 3D Editing | FID, FVD, CLIP | 未明确 | 无 | — | 无独立保留度指标 |
| Easy3E | CLIP-T, DINO-I, LPIPS, FID | 未明确 | 无 | — | 无独立保留度指标 |
| NANO3D | FID, DINO-I | 未明确 | CD | 未明确 | 用户研究(95% 形状保留偏好) |
| MeshPad | LPIPS, CLIP, FID | 未明确 | CD | 未明确 | 用户研究 EC(编辑一致性) |
具体保留度指标详解
基于 3D mask 的指标(VoxHammer Edit3D-Bench)¶
VoxHammer 提出了 Edit3D-Bench(100 模型 × 3 指令 = 300 编辑任务),每个样本包含人工标注的 3D 编辑区域 mask。
- Masked CD(3D 指标):仅在未编辑区域的点云上计算 Chamfer Distance
- Masked PSNR / SSIM / LPIPS(2D 指标):将 3D mask 投影到各渲染视角得到 2D mask,仅在非 mask 区域计算
| 指标 | 评估维度 | 方向 |
|---|---|---|
| Masked CD | 几何保留 | ↓ |
| Masked PSNR | 像素级外观保留 | ↑ |
| Masked SSIM | 结构级外观保留 | ↑ |
| Masked LPIPS | 感知级外观保留 | ↓ |
基于语义的指标¶
- CLIPdiff-noedit(PrEditor3D):计算未编辑区域在编辑前后的 CLIP 分数变化。值越低表示语义内容保持越好。不需要精确像素级 mask
用户研究¶
- EC(Edit Consistency)(MeshPad):用户对编辑一致性打分(1-5)
- Shape Preservation preference(NANO3D):A/B 对比,用户选择哪个方法更好地保留了形状
2.4 姿态/形变编辑的保留度指标¶
对于姿态/形变编辑(如"人物举起手臂"),上述基于 mask 的保留度指标全部失效:整个 mesh 都在移动,无法划定"未编辑区域"。但"保留度"仍然有意义——五官、衣服纹理、身体比例应该不变。
合理的姿态变化在微分几何中属于近似等距变形(isometric deformation)——表面弯曲但不拉伸。基于此性质,可用内在几何不变量评估保留度。
LBO 频谱距离(ShapeDNA)— 全局指标¶
比较源 mesh 和预测 mesh 的 Laplace-Beltrami 算子特征值序列。特征值按大小排序,天然对齐,不需要顶点对应关系,不需要相同拓扑。
其中 \(\lambda^{(i)} = (\lambda_1^{(i)}, \lambda_2^{(i)}, \ldots, \lambda_K^{(i)})\) 是前 K 个 LBO 特征值,除以表面积做尺度归一化。
特点:
- 输出一个标量,衡量全局内在形状是否保持
- 不需要顶点对应,不需要相同拓扑,不需要 mask
- 低特征值(前 10–20 个)反映全局形状,高特征值反映局部细节
HKS 特征空间 Chamfer Distance — 分布级指标¶
Heat Kernel Signature(HKS)是逐顶点的内在几何描述符,对等距变形不变。由于生成式方法输出的 mesh 拓扑通常不同,无法逐顶点比较,因此在 HKS 特征空间(而非 XYZ 坐标空间)计算 Chamfer Distance。
其中 \(h(v) \in \mathbb{R}^S\) 是顶点 \(v\) 的 HKS 描述子向量(S 个时间尺度)。
特点:
- 不需要顶点对应关系和相同拓扑
- 衡量"局部几何特征的分布是否一致"
- 对称物体的左右对称部位 HKS 相同,Chamfer 会互相匹配
2.5 保留度评估的局限性¶
所有现有保留度指标都有一个核心假设:能够确定"哪里被编辑了,哪里没被编辑"。
- Masked CD/PSNR/SSIM/LPIPS 需要显式 3D mask
- CLIPdiff-noedit 需要区分编辑/非编辑区域
- 用户研究依赖人类主观判断
对于姿态/形变编辑,基于 mask 的方法失效。基于内在几何的指标(ShapeDNA, HKS-CD)提供了一种补充方案,但也有局限:
- 生成式方法不保证等距变形:TRELLIS 等模型从隐空间解码生成 mesh,即使姿态编辑正确,解码器也可能引入局部拉伸/压缩
- 更适合方法间比较而非绝对评分:ShapeDNA 和 HKS-CD 的绝对值难以直接解释,但作为横向对比指标有效
- LBO 对 mesh 分辨率敏感:不同分辨率的 mesh 高阶特征值差异较大,建议在计算前统一重采样或只使用前 20–30 个低阶特征值
- 非等距形变会被检测到:如果编辑指令本身就改变内在几何(如"变胖"),高 ShapeDNA 距离不代表保留度差,需要根据编辑类型分别解读
3. 几何质量 (Geometry Quality)¶
衡量 3D 形状的整体质量——重建保真度与生成质量。
| 指标 | 评估内容 | 使用论文 | 方向 |
|---|---|---|---|
| Chamfer Distance (CD) | 两个点云间的平均距离,评估整体形状相似度 | TRELLIS, VoxHammer, PrEditor3D, MeshPad | ↓ |
| Edge Chamfer Distance (ECD) | 尖锐边缘和角点附近采样点云间的 CD,评估细节保持 | MeshAnything | ↓ |
| V-IoU (Volume IoU) | 重建模型与原始模型的体积重合度(宏观轮廓准确性) | Hunyuan3D 2.0 | ↑ |
| S-IoU (Surface IoU) | 重建模型与原始模型的表面贴合度(精细细节敏感) | Hunyuan3D 2.0 | ↑ |
| F-score | 两个形状的表面重合度(精确率+召回率) | TRELLIS, X-Part | ↑ |
| Normal Consistency (NC) | 网格表面法线质量,反映平滑度和细节 | MeshAnything | ↑ |
4. 外观/纹理质量 (Appearance & Texture)¶
衡量表面外观的视觉质量。
| 指标 | 评估内容 | 使用论文 | 方向 |
|---|---|---|---|
| LPIPS | 基于深度神经网络的感知相似度(模拟人类视觉系统) | TRELLIS, Hunyuan3D 2.0, MeshPad, VoxHammer | ↓ |
| LPIPS-N | 法线图上的感知相似度(评估表面细节) | TRELLIS | ↓ |
| PSNR | 逐像素差异,经典图像质量指标 | TRELLIS | ↑ |
| PSNR-N | 法线图上的 PSNR(表面细节重建保真度) | TRELLIS | ↑ |
| CMMD | CLIP 特征空间中两组图像的分布距离(对细节敏感) | Hunyuan3D 2.0 | ↓ |
5. 整体质量与真实感 (Overall Quality & Realism)¶
衡量生成结果的整体质量、真实感和多样性。
| 指标 | 评估内容 | 使用论文 | 方向 |
|---|---|---|---|
| FID (Fréchet Inception Distance) | 生成数据分布与真实数据分布的相似性(真实感+多样性) | VoxHammer, MeshPad, TRELLIS, Hunyuan3D 2.0 | ↓ |
| FVD (Fréchet Video Distance) | 模型旋转渲染序列的时序连贯性 | VoxHammer | ↓ |
| KD (Kernel Distance) | 与 FD 类似,衡量分布距离(通常更稳定) | TRELLIS | ↓ |
| GPTEval3D / User Study (质量) | 人类或 GPT-4V 对整体美学、真实感、编辑融合自然度的综合打分 | VoxHammer, PrEditor3D, MeshPad | ↑ |
FD 变体
Fréchet Distance 有多种变体,取决于特征提取器:
- FID_Incept: 使用 InceptionV3 特征(经典)
- FID_CLIP: 使用 CLIP 特征
- FD_dinov2: 使用 DINOv2 特征(通常更鲁棒)
- FD_point: 使用 PointNet++ 提取 3D 点云特征(直接评估几何分布)
6. 效率 (Efficiency)¶
| 指标 | 评估内容 | 使用论文 | 方向 |
|---|---|---|---|
| Runtime | 整个编辑/生成流程所需时间 | PrEditor3D, MeshPad | ↓ |
| Tokens/Second (T/s) | 每秒生成的 token 数量(自回归方法) | MeshPad | ↑ |
7. 场景级指标¶
| 指标 | 评估内容 | 方向 |
|---|---|---|
| 碰撞率 (Penetration %) | 场景插入任务中物体是否与场景相交 | ↓ |
8. 参数量与训练算力¶
3D 编辑相关模型的参数量和训练开销对比。
8.1 总览¶
| 模型 | 总参数量 | 训练硬件 | 训练步数 | 训练数据量 | 推理时间 | 是否需要训练 |
|---|---|---|---|---|---|---|
| TRELLIS | 342M / 1.1B / 2B | 64×A100 (40G) | 400K | ~500K 3D 资产 | ~10s | 完整训练 |
| TRELLIS 2 | ~4B | 32×H100 (DiT) / 16×H100 (VAE) | 渐进式 | ~800K 3D 资产 | 3s–60s (H100) | 完整训练 |
| Native 3D Editing | 未报告 | A800 | 150K+80K | 未报告 | 未报告 | 完整训练 |
| Steer3D | 未报告 | 6×A100 | 未报告 | ~96K 编辑对 | 前馈式 | 两阶段训练 |
| VoxHammer | 0(training-free) | 1×A100(推理) | N/A | N/A | ~133s | 免训练 |
| Easy3E | 仅 Ctrl-Adapter | 未报告 | 未报告 | Objaverse 子集 | ~75s | 极轻量训练 |
| AnchorFlow | 0(training-free) | 1×H100(推理) | N/A | N/A | ~26.71s | 免训练 |
8.2 TRELLIS 模块参数量¶
| 网络模块 | 参数量 |
|---|---|
| Sparse Structure VAE Encoder (E_S) | 59.3M |
| Sparse Structure VAE Decoder (D_S) | 73.7M |
| SLAT Encoder (E) | 85.8M |
| SLAT Decoder – 3DGS (D_GS) | 85.4M |
| SLAT Decoder – RF (D_RF) | 85.4M |
| SLAT Decoder – Mesh (D_M) | 90.9M |
| Structure Generator G_S (Basic / Large / XL) | 157M / 543M / 975M |
| Latent Generator G_L (Basic / Large / XL) | 185M / 588M / 1073M |
8.3 TRELLIS 2 模块参数量¶
| 模块 | 参数量 | 备注 |
|---|---|---|
| SC-VAE Encoder | 354M | 空间压缩率 16× |
| SC-VAE Decoder | 474M | |
| Sparse Structure Generator | ~1.3B | DiT: width 1536, 30 blocks |
| Geometry Generator | ~1.3B | |
| Material Generator | ~1.3B | 输出完整 PBR |
8.4 推理速度对比¶
3D 编辑方法(VoxHammer 基准)¶
| 方法 | 推理时间 |
|---|---|
| Vox-E | 32 min |
| MVEdit | 242s |
| VoxHammer | 133s |
| Tailor3D | 83s |
| Easy3E | 75s |
| AnchorFlow | 26.71s |
| Instant3DiT | 20s |
AnchorFlow 基准(基于 Hunyuan3D 2.1)¶
| 方法 | 推理时间 |
|---|---|
| TextDeformer | 2229.75s |
| MVEdit | 513.55s |
| Editing-by-Inversion | 34.86s |
| Inversion-free Editing (FlowEdit) | 25.77s |
| AnchorFlow | 26.71s |
| Direct Editing (Hunyuan3D 2.1) | 21.01s |
论文专用指标组合¶
VoxHammer (Edit3D-Bench)¶
三维度评估体系:
| 维度 | 指标 |
|---|---|
| 未编辑区保留度 | Masked CD, Masked PSNR, Masked SSIM, Masked LPIPS |
| 整体 3D 质量 | FID, FVD, User Study |
| 条件对齐度 | DINO-I, CLIP-T |
PrEditor3D¶
| 指标 | 类型 | 说明 |
|---|---|---|
| GPTEval3D | 自动评估 (质量) | GPT-4V 比较多视图渲染图 |
| CLIPdir | 自动评估 (一致性) | 文本变化方向 vs 图像特征变化方向 |
| CLIPdiff-edit / noedit | 自动评估 (保真度) | 编辑/非编辑区域的 CLIP 分数变化 |
| User Study | 人工评估 | 提示对齐度、视觉质量、形状保持性 |
| CD | 消融研究 | 非编辑区域形状保持 |
MeshPad¶
| 指标 | 类型 | 方向 |
|---|---|---|
| CD | 几何质量 | ↓ |
| FID | 感知质量 | ↓ |
| CLIP Score | 草图匹配度 | ↑ |
| LPIPS | 草图-模型局部匹配度 | ↓ |
| T/s | 效率 | ↑ |
| GQ/GM (User Study) | 生成质量/匹配度 (1-5) | ↑ |
| EQ/EM/EC (User Study) | 编辑质量/匹配度/一致性 (1-5) | ↑ |