跳转至

🎵 音频/语音

📷 CVPR2026 · 共 2

BROTHER: Behavioral Recognition Optimized Through Heterogeneous Ensemble Regularization for Ambivalence and Hesitancy

提出一个高度正则化的多模态融合管线,通过视觉(SigLip2)、音频(HuBERT)、文本(F2LLM)及统计特征四模态的异质分类器委员会,结合带训练-验证差距惩罚的 PSO 硬投票集成,实现自然场景下矛盾与犹豫(A/H)行为的鲁棒视频级识别,在 ABAW10 测试集上取得 Macro F1 = 0.7465。

OmniRet: Efficient and High-Fidelity Omni Modality Retrieval

提出首个支持文本-视觉-音频三模态组合查询的统一检索模型 OmniRet,通过共享媒体重采样器(Shared Media Resampler)提升计算效率,并引入注意力切片 Wasserstein 池化(ASWP)保留细粒度信息,在 13 个检索任务上取得 12 项领先。