🎵 音频/语音¶
🎞️ ECCV2024 · 共 7 篇
- Beat-It: Beat-Synchronized Multi-Condition 3D Dance Generation
-
提出 Beat-It 框架,通过将节拍条件从音乐中解耦并设计层次化多条件融合机制,实现了节拍同步且关键帧可控的 3D 舞蹈生成,在 AIST++ 上大幅领先现有方法。
- CoLeaF: A Contrastive-Collaborative Learning Framework for Weakly Supervised Audio-Visual Video Parsing
-
提出 CoLeaF 双分支学习框架,通过事件感知对比学习显式优化跨模态上下文的整合,在弱监督音视频解析任务上平均提升 1.9% F-score。
- ControlLLM: Augment Language Models with Tools by Searching on Graphs
-
提出 ControlLLM 框架,通过任务分解、Thoughts-on-Graph (ToG) 图搜索范式和执行引擎三大组件,让 LLM 在预构建的工具图上搜索最优解决方案路径,准确高效地调用多模态工具完成复杂任务,在困难任务上达到 93% 的解决方案成功率。
- ControlLLM: Augment Language Models with Tools by Searching on Graphs
-
提出 ControlLLM 框架,通过在预构建的工具图(Tool Graph)上进行图搜索(Thoughts-on-Graph)来规划多模态工具调用,显著提升了复杂任务中工具选择和参数赋值的准确性。
- EDTalk: Efficient Disentanglement for Emotional Talking Head Synthesis
-
提出基于正交可学习基向量的高效解耦框架 EDTalk,将人脸动态分解为嘴型、头部姿态和情感表情三个独立潜空间,同时支持视频驱动和音频驱动的情感说话人头像生成。
- Label-Anticipated Event Disentanglement for Audio-Visual Video Parsing
-
提出 LEAP(Label semantic-based Projection)解码范式,利用事件类别的标签文本嵌入作为语义锚点,通过跨模态注意力机制将音频/视觉隐特征中潜在重叠的事件语义解耦到独立的标签嵌入中,配合基于 EIoU 的音视觉语义相似度损失,在 AVVP 任务上取得 SOTA。
- Latent-INR: A Flexible Framework for Implicit Representations of Videos with Discriminative Semantics
-
提出 Latent-INR 框架,通过为视频每帧学习一个隐式 latent code 并结合 hypernetwork 进行低秩权重调制,将视频 INR 的空间与时间建模解耦,在保持压缩性能的同时赋予表征语义判别能力,支持检索、视频插帧和任意分辨率推理等多种下游任务。