PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling¶

会议: NeurIPS 2025
arXiv: 2505.23155
代码: GitHub
领域: 视频理解 / 音视频事件解析
关键词: 在线音视频解析, 预测性未来建模, 多模态融合, 实时视频理解, 知识蒸馏

一句话总结¶

本文首次提出在线音视频事件解析（On-AVEP）范式，通过预测性未来建模框架 PreFM，利用伪未来序列增强当前上下文理解，同时借助模态无关的知识蒸馏和焦点时间优先策略，以仅 2.7% 的参数量超越离线 SOTA 方法 +9.3 的事件级平均 F1 分数。

研究背景与动机¶

音视频事件解析（AVEP）是多模态视频理解中的重要任务，需要同时处理纯音频、纯视觉和音视频联合事件。现有方法（如 UnAV、UniAV、CCNet）都是离线处理整个视频序列，虽然精确但模型巨大且需全视频输入，无法满足自动驾驶、可穿戴设备等场景的实时需求。

核心矛盾在于：在线设置下模型只能看到历史和当前信息，缺乏未来上下文导致歧义（例如一个人张嘴发声——是唱歌还是说话？），同时还要保证计算效率。

本文的切入角度是：通过预测性建模生成伪未来的多模态线索，让在线模型也能"预见"即将发生的事件，从而在保持轻量的同时获得更强的上下文理解能力。

方法详解¶

整体框架¶

PreFM 框架接收流式音频和视觉特征，输入为当前窗口 \(L_c\) 长度的特征序列。核心包含三个模块：(1) 伪未来机制生成 \(L_f\) 长度的预测未来序列；(2) 时间-模态交叉融合进行跨时间和跨模态的特征增强；(3) 训练阶段的模态无关鲁棒表示和焦点时间优先化策略。最终在时间步 \(T\) 处输出事件预测。

关键设计¶

通用混合注意力（UHA）:
- 作为所有融合操作的基础模块，接收目标查询序列 \(Q\) 和多个上下文集合 \(\{F_i\}\)
- 通过多头注意力将多个上下文信息聚合到查询中：\(\text{UHA}(Q, \{F_i\}) = \text{FFN}(\text{LN}(Q + \sum_i \text{Attn}(Q, F_i, F_i)))\)
- 灵活支持自注意力、跨模态注意力和跨时间注意力的统一计算
伪未来机制（Pseudo-Future Mechanism）:
- 首先对当前音频和视觉特征通过 UHA 进行初始跨模态融合
- 然后使用可学习的 query token \(Q^a, Q^v\) 对融合后的当前特征做注意力，生成伪未来序列 \(\tilde{F}_f^a, \tilde{F}_f^v\)
- 设计动机：在线推理缺乏未来信息，通过预测建模补充关键的时序上下文
时间-模态交叉融合（Temporal-Modality Cross Fusion）:
- 未来增强阶段：伪未来序列通过 UHA 同时与自身（自注意力）、另一模态伪未来（跨模态）和对应当前特征（跨时间）交互
- 当前精炼阶段：增强后的伪未来信息反馈回当前表示，让当前特征获得"前瞻视野"
- 最终共享分类头对当前和未来窗口分别生成事件预测
模态无关鲁棒表示（MRR）:
- 使用冻结的 OnePeace 大模型将事件标签转为模态无关的文本特征作为蒸馏目标
- 学生模型的音视频联合表示通过余弦相似度损失与教师特征对齐
- 以轻量方式获得大模型的泛化知识，无需增加推理参数
焦点时间优先化（Focal Temporal Prioritization）:
- 使用以当前时间 \(T\) 为中心的高斯函数对不同时间步的损失进行加权
- 越靠近当前时刻的预测权重越高，鼓励模型聚焦在最关键的当前决策上
- 分别对当前窗口和伪未来窗口设置不同的高斯权重

损失函数 / 训练策略¶

总损失为加权 BCE 损失和 MRR 蒸馏损失的组合：\(\mathcal{L} = \sum w_c \cdot \mathcal{L}_c + \sum w_f \cdot \mathcal{L}_f + \lambda \sum w \cdot \mathcal{L}_{mrr}\)。训练时采用随机段采样策略，在视频中以 \(L_c\) 步长加随机偏移生成训练目标时间点，增强数据多样性。60 个训练 epoch，其中前 10 个 epoch 为 warmup。

实验关键数据¶

主实验¶

On-AVEL 任务（UnAV-100 数据集）：

方法	特征	段级F1	段级mAP	事件级Avg F1	参数量	FLOPs
CCNet* (离线)	OnePeace	65.0	70.6	58.3	238.8M	72.1G
UniAV* (离线)	OnePeace	59.2	70.0	52.9	130.8M	22.7G
PreFM (在线)	CLIP+CLAP	59.1	70.1	46.3	6.5M	0.4G
PreFM+ (在线)	OnePeace	62.4	70.6	51.5	13.8M	0.5G

On-AVVP 任务（LLP 数据集）：

方法	段级F1a/F1v/F1av	事件级Avga/Avgv/Avgav	参数量
MM-CSE	53.3/56.5/48.9	37.7/46.9/36.2	6.2M
PreFM	60.0/59.3/53.3	46.3/50.6/41.2	3.3M

消融实验¶

配置	事件级Avg F1	说明
基础模型（无预测）	42.1	仅使用当前窗口
+ 伪未来建模	44.5	添加未来序列预测
+ 交叉融合	45.3	跨时间模态增强
+ MRR蒸馏	45.8	知识蒸馏
+ 焦点时间优先化	46.3	完整PreFM

关键发现¶

PreFM 在线版本以 2.7% 的参数量（6.5M vs 238.8M）就超越了 CCNet 等需要全视频输入的离线方法在多项指标上的表现
推理速度达到 51.9 FPS（vs CCNet 的 7.5 FPS），延迟仅 19.3ms
伪未来建模是最关键的模块，贡献了主要的性能提升

亮点与洞察¶

范式创新：首次定义并系统解决"在线音视频事件解析"问题，将 AVEL 和 AVVP 统一到在线流式处理框架中
效率-性能平衡极佳：仅用 6.5M 参数在在线设置下逼近甚至超越 238.8M 参数的离线方法
UHA 模块设计精巧：通过灵活的上下文列表统一了自注意力、跨模态和跨时间注意力，避免了层层堆叠不同类型注意力的开销
伪未来序列的跨模态交互：不仅生成单一模态的未来预测，还通过音视频交叉关注减少伪未来的噪声

局限与展望¶

伪未来序列的质量取决于当前窗口的信息量，当场景发生突变时预测可能不准确
蒸馏目标依赖于事件标签生成文本 prompt，弱监督场景下性能可能受限
当前窗口长度 \(L_c=10\) 秒和未来窗口 \(L_f=5\) 秒为固定设置，缺乏自适应调整
未探索音频和视觉特征提取器的端到端微调

评分¶

新颖性: ⭐⭐⭐⭐ 首次定义 On-AVEP 问题，伪未来建模在音视频领域是新颖的应用
实验充分度: ⭐⭐⭐⭐⭐ 两个数据集、段级和事件级完整评估、参数/计算量/速度全面对比、消融充分
写作质量: ⭐⭐⭐⭐ 逻辑清晰，图示直观，问题定义明确
价值: ⭐⭐⭐⭐ 对实时多模态理解有重要参考价值，效率优势使其具有实际部署潜力