VMDT: Decoding the Trustworthiness of Video Foundation Models¶

会议: NeurIPS 2025 arXiv: 2511.05682 代码: 有领域: video_understanding 关键词: 视频基础模型, 可信度评估, 安全性, 公平性, 对抗鲁棒性

一句话总结¶

提出 VMDT（Video-Modal DecodingTrust），首个统一评估 T2V 和 V2T 视频基础模型在安全、幻觉、公平、隐私和对抗鲁棒性五个维度上可信度的基准平台，涵盖 7 个 T2V 和 19 个 V2T 模型的大规模评测，揭示了模型规模与可信度之间的复杂关系。

研究背景与动机¶

领域现状: AI 可信度评估主要集中在 LLM 和图像模型上（如 DecodingTrust、MMDT），视频模态缺乏系统性的可信度基准。视频基础模型（VFM）快速发展，但其可信度评估严重滞后。
现有痛点: 视频模态具有独特挑战——如时序风险（有害内容仅在连续播放时才显现）、光敏性癫痫触发（闪烁效果在静态帧中无法检测），这些在图像评估中被忽略。
核心矛盾: VFM 能力快速提升，但安全对齐、公平性控制与隐私保护机制严重不足，缺乏统一平台来衡量和追踪进展。
本文要解决什么？: 构建首个涵盖 T2V 和 V2T 双方向的视频模型可信度评估平台，覆盖五大关键维度。
切入角度: 参考 DecodingTrust（文本）和 MMDT（图像）的评估框架，针对视频模态特性设计专用数据集和指标。
核心idea一句话: 将视频模型可信度分解为安全、幻觉、公平、隐私、对抗鲁棒性五个正交维度，分别构建数据集和评估方法，形成统一的评测平台。

方法详解¶

整体框架¶

VMDT 平台评估两类模型：T2V（文本到视频，7 个模型）和 V2T（视频到文本，19 个模型），在五个可信度维度上分别设计数据集和评估指标。每个维度均考虑视频模态的独特特性。

关键设计¶

安全性评估（Safety）:
T2V: 780 条 prompt，覆盖 13 个风险类别，包括 vanilla（直接有害指令）和 transformed（看似无害但底层有害）两种场景
V2T: 990 条 video-prompt 对，覆盖 6 大类 27 子类风险
特别关注视频特有风险：时序风险（内容连续播放才显示有害性）和物理伤害（光敏性癫痫触发）
核心指标：Bypass Rate (BR, 模型未拒绝率) 和 Harmful content Generation Rate (HGR, 有害生成率)
使用 GPT-4o 作为评判器（人工一致率 86%-88%）
幻觉评估（Hallucination）:
T2V: 1,650 条 prompt；V2T: 1,218 条 prompt
7 种场景：Natural Selection (NS), Distraction (DIS), Misleading (MIS), Counterfactual (CR), Temporal (TMP, 视频专属), Co-Occurrence (CO), OCR
5 类任务：物体识别、属性识别、动作识别、计数、空间理解（+V2T 场景理解）
T2V 使用 Qwen2.5-VL-72B-Instruct 评估（Pearson相关 0.765），V2T 采用关键词匹配
公平性评估（Fairness）:
T2V: 1,086 条 prompt；V2T: 5,008 条 video-prompt 对
三个人口统计属性：性别、种族、年龄
三个指标：F₁(g) 社会刻板印象公平性、F₂(g) 决策公平性、O overkill 公平性（追求多样性而牺牲历史准确性）
理想值：F₁=0, F₂=0, O=0
隐私评估（Privacy）:
T2V: 1,000 条 prompt（来自 WebVid-10M 训练语料）评估数据记忆
V2T: 200 条驾驶视频评估位置推断能力
T2V 指标：ℓ₂ 距离和余弦相似度；V2T 指标：位置推断准确率
对抗鲁棒性评估（Adversarial Robustness）:
T2V: 329 对 benign/adversarial prompt；V2T: 1,523 对
三种攻击算法：贪心、遗传、梯度（T2V）；FMM-Attack（V2T）
五个任务：动作/属性/计数/物体/空间理解
指标：benign accuracy 和 robust accuracy 的性能下降

损失函数 / 训练策略¶

本文为评估性工作（benchmark），不涉及模型训练。评估流程：对每个维度构建数据集 → 模型推理生成输出 → 自动化评估（GPT-4o 或关键词匹配）→ 汇总分析。

实验关键数据¶

主实验¶

T2V 安全性（HGR，越低越安全）:

模型	Vanilla HGR	Transformed HGR	平均 HGR
Nova Reel	0.08	0.11	0.10
Luma	0.19	0.14	0.17
CogVideoX-5B	0.45	0.26	0.36
Pika	0.52	0.28	0.40

T2V 幻觉（准确率%，越高越好）:

模型	NS	DIS	MIS	CR	TMP	CO	OCR	Avg
Luma	63.8	74.7	78.3	68.5	45.5	82.9	59.7	67.6
Pika	56.5	68.9	72.3	70.7	53.7	77.3	41.5	63.0
Vchitect-2.0	58.5	66.6	47.9	28.3	46.9	35.3	59.2	49.0

跨维度综合评分:

排名	T2V 最佳	T2V 最差	V2T 最佳	V2T 最差
模型	Luma	CogVideoX-5B	InternVL2.5-78B	Qwen2.5-VL-3B
综合分	70.1	55.7	72.7	65.3

消融实验¶

模型规模与各维度的关系（V2T）:

维度	规模效应	相关性
幻觉	规模↑ → 幻觉↓	正相关（改善）
对抗鲁棒性	规模↑ → 鲁棒性↑	正相关（P=0.034）
公平性	规模↑ → 不公平↑	负相关
隐私	规模↑ → 位置推断↑	正相关（Pearson=0.544, P=0.016）
安全性	无显著规模效应	不相关

关键发现¶

所有开源 T2V 模型均缺乏安全拒绝机制（BR=1.00），即使闭源模型也仅有有限的安全防护
T2V 模型在 transformed 场景下 HGR 更低，反映的是能力限制而非安全性提升
V2T 模型中模型规模是把双刃剑：提升幻觉和鲁棒性表现，但恶化公平性和隐私风险
T2V 模型在性别/种族/年龄上存在严重过度代表（偏向男性、白人、年轻人），且偏差比 T2I 更严重
即使最佳模型综合分仅约 70-73，距理想的可信模型差距巨大

亮点与洞察¶

首创性: 首个统一 T2V 和 V2T 的视频可信度评估平台，填补了重要空白
视频特有风险发现: 时序风险和光敏性癫痫触发等无法用图像评估覆盖的安全问题
规模悖论: 首次系统地揭示了 V2T 模型中规模与可信度的非单调关系——更大模型更少幻觉但更不公平
开源闭源鸿沟: 尤其在安全性维度，开源与闭源模型差距巨大
跨模态对比: 系统比较 T2V 与 T2I 模型的公平性差异，发现 T2V 偏向男性而 T2I 偏向女性（过度纠正）

局限性 / 可改进方向¶

评估依赖 GPT-4o 作为裁判，引入了评判模型的偏差（虽然人工一致率约 86-88%）
T2V 仅评估了 7 个模型，覆盖不够全面（如 Sora 等未纳入）
隐私评估仅关注像素级记忆和位置推断，未涵盖面部识别等更复杂的隐私风险
对抗攻击方法有限，未考虑更强的自适应攻击
缺乏对模型改进的具体建议和缓解策略

评分¶

新颖性: ⭐⭐⭐⭐ 首个全面的视频模型可信度平台
实验充分度: ⭐⭐⭐⭐⭐ 26 个模型 × 5 个维度的大规模评估
写作质量: ⭐⭐⭐⭐ 结构清晰，发现丰富有洞察力
价值: ⭐⭐⭐⭐ 对视频模型安全发展具有重要参考价值