跳转至

Metrics

3D 生成与编辑的评估指标汇总。按评估维度组织,标注各指标的使用论文与优劣判断方向。


1. 条件对齐度 (Condition Alignment)

衡量生成/编辑结果与输入条件(文本、图像、草图)的匹配程度。

指标 评估内容 使用论文 方向
Directional CLIP Score (CLIPdir) 文本指令变化方向与 3D 模型渲染图在特征空间中变化方向的一致性 PrEditor3D
CLIP Score / CLIP-T 编辑后模型渲染图与目标文本的语义相似度 VoxHammer, Hunyuan3D 2.0, TRELLIS, MeshPad
DINO Image Similarity (DINO-I) 图像驱动编辑中,3D 模型渲染图与用户提供的 2D 目标图像的相似度 VoxHammer
ULIP / Uni3D 生成 3D 模型与给定条件的跨模态语义和结构相似性(T: 文本, I: 图像子类型) Hunyuan3D 2.0
GPTEval3D / User Study (匹配度) 人类或 GPT-4V 主观判断编辑结果符合指令的程度 PrEditor3D, VoxHammer, MeshPad

2. 保留度 (Preservation)

衡量编辑过程中未编辑区域的保持程度——3D 编辑的核心难题。

2.1 保留度指标总览

指标 评估内容 使用论文 方向
Masked Chamfer Distance (CD) 未编辑区域点云在编辑前后的几何形状保持 VoxHammer, PrEditor3D
Masked LPIPS / PSNR / SSIM 渲染图上未编辑区域的外观、纹理和结构保留 VoxHammer LPIPS: ↓, PSNR/SSIM: ↑
CLIPdiff-noedit 未编辑区域在编辑前后的 CLIP 分数变化(语义内容保持) PrEditor3D

Masked 指标的意义

保留度指标通过掩码仅计算未编辑区域,是衡量编辑方法「泄露」程度的直接度量。Masked CD 衡量几何保持,Masked LPIPS 衡量视觉保持,CLIPdiff-noedit 衡量语义保持。

2.2 保留机制分类

各方法在技术上通过不同机制实现未编辑区域的保留,大体分为两类。

显式融合(需要 mask / 区域信息)

论文 机制 技术细节
VoxHammer DDIM 反演 + KV Cache Replacement 对源 mesh 做 DDIM 反演,缓存未编辑区域的 KV 特征;去噪阶段将未编辑区域的 KV 替换回缓存值
PrEditor3D 双路重建 + Copy-Paste 融合 同时重建源 mesh 和编辑后 mesh 的 3D 特征网格,根据 2D 编辑 mask 反投影得到的 3D mask 进行区域级 copy-paste
CraftMesh Poisson 几何 + 纹理融合 几何层面将编辑部件无缝嫁接到源 mesh 上,纹理层面在边界处混合颜色
Easy3E 轨迹级分离 编辑区域沿编辑轨迹采样,非编辑区域沿源轨迹采样,通过轮廓引导确定编辑 voxel

隐式保留(不需要用户输入 mask)

论文 机制 技术细节
NANO3D Voxel-Merge + Slat-Merge 双层融合 通过体素级 XOR 差异自动计算伪 mask,在 Voxel 和 SLAT 特征层分别融合
3DEditVerse DualAttn + Time-Adaptive Gating 两种 3D 特征并行交叉注意力融合,门控系数随去噪时间步动态调节保留/编辑平衡
Native 3D Editing Token Concatenation 将源 mesh 的 SLAT token 与噪声 token 拼接,通过全自注意力交互。消融实验证明优于 Cross-Attention
Steer3D ControlNet bypass 在 TRELLIS 主干旁加 ControlNet 分支注入源 mesh 信息,通过 DPO 部分缓解保留性不足
AnchorFlow Latent Anchor Consistency 全局 latent anchor 对齐源/目标轨迹,anchor-alignment loss 隐式约束非编辑区域 latent 一致性

两类机制对比

类别 代表方法 优势 劣势
显式融合 VoxHammer, PrEditor3D, CraftMesh 保留度高,可量化控制 需要精确 3D mask,工作流复杂
隐式/自动融合 3DEditVerse, Native 3D Editing, NANO3D, AnchorFlow 不需要用户 mask,端到端 保留程度依赖内部机制,部分方法可能出现编辑泄露

2.3 各论文保留度评估方法对比

各论文的保留度评估分为基于 2D 渲染图基于 3D 点云/网格两类。

论文 2D 指标 渲染视角数 3D 指标 采样点数 评估类型
VoxHammer Masked PSNR / SSIM / LPIPS, FID, FVD, DINO-I, CLIP-T 未明确 Masked CD 未明确 显式 mask-based(2D+3D)
3DEditVerse PSNR, SSIM, LPIPS, DINO-I 10 个固定视角 CD, NC, F1^0.01 100,000 点 无独立保留度指标,整体对比 GT
Steer3D LPIPS 6 个视角 CD, F1 (阈值 0.05) 10,000 点 无独立保留度指标,整体对比 GT
PrEditor3D CLIPdiff-noedit, GPTEval3D 未明确 CD(消融实验) 未明确 语义级(CLIPdiff-noedit)
Native 3D Editing FID, FVD, CLIP 未明确 无独立保留度指标
Easy3E CLIP-T, DINO-I, LPIPS, FID 未明确 无独立保留度指标
NANO3D FID, DINO-I 未明确 CD 未明确 用户研究(95% 形状保留偏好)
MeshPad LPIPS, CLIP, FID 未明确 CD 未明确 用户研究 EC(编辑一致性)
具体保留度指标详解

基于 3D mask 的指标(VoxHammer Edit3D-Bench)

VoxHammer 提出了 Edit3D-Bench(100 模型 × 3 指令 = 300 编辑任务),每个样本包含人工标注的 3D 编辑区域 mask。

  • Masked CD(3D 指标):仅在未编辑区域的点云上计算 Chamfer Distance
  • Masked PSNR / SSIM / LPIPS(2D 指标):将 3D mask 投影到各渲染视角得到 2D mask,仅在非 mask 区域计算
指标 评估维度 方向
Masked CD 几何保留
Masked PSNR 像素级外观保留
Masked SSIM 结构级外观保留
Masked LPIPS 感知级外观保留

基于语义的指标

  • CLIPdiff-noedit(PrEditor3D):计算未编辑区域在编辑前后的 CLIP 分数变化。值越低表示语义内容保持越好。不需要精确像素级 mask

用户研究

  • EC(Edit Consistency)(MeshPad):用户对编辑一致性打分(1-5)
  • Shape Preservation preference(NANO3D):A/B 对比,用户选择哪个方法更好地保留了形状

2.4 姿态/形变编辑的保留度指标

对于姿态/形变编辑(如"人物举起手臂"),上述基于 mask 的保留度指标全部失效:整个 mesh 都在移动,无法划定"未编辑区域"。但"保留度"仍然有意义——五官、衣服纹理、身体比例应该不变。

合理的姿态变化在微分几何中属于近似等距变形(isometric deformation)——表面弯曲但不拉伸。基于此性质,可用内在几何不变量评估保留度。

LBO 频谱距离(ShapeDNA)— 全局指标

比较源 mesh 和预测 mesh 的 Laplace-Beltrami 算子特征值序列。特征值按大小排序,天然对齐,不需要顶点对应关系,不需要相同拓扑。

\[d_{\text{spectral}}(M_1, M_2) = \left\| \frac{\lambda^{(1)}}{\text{Area}(M_1)} - \frac{\lambda^{(2)}}{\text{Area}(M_2)} \right\|_2\]

其中 \(\lambda^{(i)} = (\lambda_1^{(i)}, \lambda_2^{(i)}, \ldots, \lambda_K^{(i)})\) 是前 K 个 LBO 特征值,除以表面积做尺度归一化。

特点:

  • 输出一个标量,衡量全局内在形状是否保持
  • 不需要顶点对应,不需要相同拓扑,不需要 mask
  • 低特征值(前 10–20 个)反映全局形状,高特征值反映局部细节

HKS 特征空间 Chamfer Distance — 分布级指标

Heat Kernel Signature(HKS)是逐顶点的内在几何描述符,对等距变形不变。由于生成式方法输出的 mesh 拓扑通常不同,无法逐顶点比较,因此在 HKS 特征空间(而非 XYZ 坐标空间)计算 Chamfer Distance。

\[\text{HKS-CD}(M_1, M_2) = \frac{1}{|V_1|} \sum_{v \in V_1} \min_{u \in V_2} \|h(v) - h(u)\|^2 + \frac{1}{|V_2|} \sum_{u \in V_2} \min_{v \in V_1} \|h(u) - h(v)\|^2\]

其中 \(h(v) \in \mathbb{R}^S\) 是顶点 \(v\) 的 HKS 描述子向量(S 个时间尺度)。

特点:

  • 不需要顶点对应关系和相同拓扑
  • 衡量"局部几何特征的分布是否一致"
  • 对称物体的左右对称部位 HKS 相同,Chamfer 会互相匹配

2.5 保留度评估的局限性

所有现有保留度指标都有一个核心假设:能够确定"哪里被编辑了,哪里没被编辑"

  • Masked CD/PSNR/SSIM/LPIPS 需要显式 3D mask
  • CLIPdiff-noedit 需要区分编辑/非编辑区域
  • 用户研究依赖人类主观判断

对于姿态/形变编辑,基于 mask 的方法失效。基于内在几何的指标(ShapeDNA, HKS-CD)提供了一种补充方案,但也有局限:

  1. 生成式方法不保证等距变形:TRELLIS 等模型从隐空间解码生成 mesh,即使姿态编辑正确,解码器也可能引入局部拉伸/压缩
  2. 更适合方法间比较而非绝对评分:ShapeDNA 和 HKS-CD 的绝对值难以直接解释,但作为横向对比指标有效
  3. LBO 对 mesh 分辨率敏感:不同分辨率的 mesh 高阶特征值差异较大,建议在计算前统一重采样或只使用前 20–30 个低阶特征值
  4. 非等距形变会被检测到:如果编辑指令本身就改变内在几何(如"变胖"),高 ShapeDNA 距离不代表保留度差,需要根据编辑类型分别解读

3. 几何质量 (Geometry Quality)

衡量 3D 形状的整体质量——重建保真度与生成质量。

指标 评估内容 使用论文 方向
Chamfer Distance (CD) 两个点云间的平均距离,评估整体形状相似度 TRELLIS, VoxHammer, PrEditor3D, MeshPad
Edge Chamfer Distance (ECD) 尖锐边缘和角点附近采样点云间的 CD,评估细节保持 MeshAnything
V-IoU (Volume IoU) 重建模型与原始模型的体积重合度(宏观轮廓准确性) Hunyuan3D 2.0
S-IoU (Surface IoU) 重建模型与原始模型的表面贴合度(精细细节敏感) Hunyuan3D 2.0
F-score 两个形状的表面重合度(精确率+召回率) TRELLIS, X-Part
Normal Consistency (NC) 网格表面法线质量,反映平滑度和细节 MeshAnything

4. 外观/纹理质量 (Appearance & Texture)

衡量表面外观的视觉质量。

指标 评估内容 使用论文 方向
LPIPS 基于深度神经网络的感知相似度(模拟人类视觉系统) TRELLIS, Hunyuan3D 2.0, MeshPad, VoxHammer
LPIPS-N 法线图上的感知相似度(评估表面细节) TRELLIS
PSNR 逐像素差异,经典图像质量指标 TRELLIS
PSNR-N 法线图上的 PSNR(表面细节重建保真度) TRELLIS
CMMD CLIP 特征空间中两组图像的分布距离(对细节敏感) Hunyuan3D 2.0

5. 整体质量与真实感 (Overall Quality & Realism)

衡量生成结果的整体质量、真实感和多样性。

指标 评估内容 使用论文 方向
FID (Fréchet Inception Distance) 生成数据分布与真实数据分布的相似性(真实感+多样性) VoxHammer, MeshPad, TRELLIS, Hunyuan3D 2.0
FVD (Fréchet Video Distance) 模型旋转渲染序列的时序连贯性 VoxHammer
KD (Kernel Distance) 与 FD 类似,衡量分布距离(通常更稳定) TRELLIS
GPTEval3D / User Study (质量) 人类或 GPT-4V 对整体美学、真实感、编辑融合自然度的综合打分 VoxHammer, PrEditor3D, MeshPad

FD 变体

Fréchet Distance 有多种变体,取决于特征提取器:

  • FID_Incept: 使用 InceptionV3 特征(经典)
  • FID_CLIP: 使用 CLIP 特征
  • FD_dinov2: 使用 DINOv2 特征(通常更鲁棒)
  • FD_point: 使用 PointNet++ 提取 3D 点云特征(直接评估几何分布)

6. 效率 (Efficiency)

指标 评估内容 使用论文 方向
Runtime 整个编辑/生成流程所需时间 PrEditor3D, MeshPad
Tokens/Second (T/s) 每秒生成的 token 数量(自回归方法) MeshPad

7. 场景级指标

指标 评估内容 方向
碰撞率 (Penetration %) 场景插入任务中物体是否与场景相交

8. 参数量与训练算力

3D 编辑相关模型的参数量和训练开销对比。

8.1 总览

模型 总参数量 训练硬件 训练步数 训练数据量 推理时间 是否需要训练
TRELLIS 342M / 1.1B / 2B 64×A100 (40G) 400K ~500K 3D 资产 ~10s 完整训练
TRELLIS 2 ~4B 32×H100 (DiT) / 16×H100 (VAE) 渐进式 ~800K 3D 资产 3s–60s (H100) 完整训练
Native 3D Editing 未报告 A800 150K+80K 未报告 未报告 完整训练
Steer3D 未报告 6×A100 未报告 ~96K 编辑对 前馈式 两阶段训练
VoxHammer 0(training-free) 1×A100(推理) N/A N/A ~133s 免训练
Easy3E 仅 Ctrl-Adapter 未报告 未报告 Objaverse 子集 ~75s 极轻量训练
AnchorFlow 0(training-free) 1×H100(推理) N/A N/A ~26.71s 免训练

8.2 TRELLIS 模块参数量

网络模块 参数量
Sparse Structure VAE Encoder (E_S) 59.3M
Sparse Structure VAE Decoder (D_S) 73.7M
SLAT Encoder (E) 85.8M
SLAT Decoder – 3DGS (D_GS) 85.4M
SLAT Decoder – RF (D_RF) 85.4M
SLAT Decoder – Mesh (D_M) 90.9M
Structure Generator G_S (Basic / Large / XL) 157M / 543M / 975M
Latent Generator G_L (Basic / Large / XL) 185M / 588M / 1073M

8.3 TRELLIS 2 模块参数量

模块 参数量 备注
SC-VAE Encoder 354M 空间压缩率 16×
SC-VAE Decoder 474M
Sparse Structure Generator ~1.3B DiT: width 1536, 30 blocks
Geometry Generator ~1.3B
Material Generator ~1.3B 输出完整 PBR

8.4 推理速度对比

3D 编辑方法(VoxHammer 基准)

方法 推理时间
Vox-E 32 min
MVEdit 242s
VoxHammer 133s
Tailor3D 83s
Easy3E 75s
AnchorFlow 26.71s
Instant3DiT 20s

AnchorFlow 基准(基于 Hunyuan3D 2.1)

方法 推理时间
TextDeformer 2229.75s
MVEdit 513.55s
Editing-by-Inversion 34.86s
Inversion-free Editing (FlowEdit) 25.77s
AnchorFlow 26.71s
Direct Editing (Hunyuan3D 2.1) 21.01s

论文专用指标组合

VoxHammer (Edit3D-Bench)

三维度评估体系:

维度 指标
未编辑区保留度 Masked CD, Masked PSNR, Masked SSIM, Masked LPIPS
整体 3D 质量 FID, FVD, User Study
条件对齐度 DINO-I, CLIP-T

PrEditor3D

指标 类型 说明
GPTEval3D 自动评估 (质量) GPT-4V 比较多视图渲染图
CLIPdir 自动评估 (一致性) 文本变化方向 vs 图像特征变化方向
CLIPdiff-edit / noedit 自动评估 (保真度) 编辑/非编辑区域的 CLIP 分数变化
User Study 人工评估 提示对齐度、视觉质量、形状保持性
CD 消融研究 非编辑区域形状保持

MeshPad

指标 类型 方向
CD 几何质量
FID 感知质量
CLIP Score 草图匹配度
LPIPS 草图-模型局部匹配度
T/s 效率
GQ/GM (User Study) 生成质量/匹配度 (1-5)
EQ/EM/EC (User Study) 编辑质量/匹配度/一致性 (1-5)

评论

评论功能当前未启用。当前站点不依赖 GitHub 评论服务;如果后续需要评论,建议接入自托管评论后端。
回到页面顶部