跳转至

📚 预训练

🎞️ ECCV2024 · 8 篇论文解读

Cross-Domain Learning for Video Anomaly Detection with Limited Supervision

提出弱监督跨域学习(CDL)框架,通过不确定性驱动的伪标签机制将无标注外部视频整合到训练中,显著提升视频异常检测的跨域泛化能力。

DragAPart: Learning a Part-Level Motion Prior for Articulated Objects

DragAPart 提出了一种以拖拽为交互接口的图像生成器,能够响应部件级别的交互(如开关抽屉/门),而非仅仅移动整个物体。通过新的合成数据集 Drag-a-Move、多分辨率拖拽编码和域随机化策略,模型在仅用合成数据训练的情况下能良好泛化到真实图像和未见类别。

Learning to Obstruct Few-Shot Image Classification over Restricted Classes

提出 Learning to Obstruct (LTO) 算法,通过类似 MAML 的元学习方式修改预训练 backbone 参数,使其成为特定受限类别的"差初始化",从而阻碍少样本分类方法在受限类上的微调效果,同时保持其他类别的正常性能。

Plan, Posture and Go: Towards Open-Vocabulary Text-to-Motion Generation

本文提出 PRO-Motion 分治框架,将文本到动作生成分解为三个阶段:LLM 驱动的动作规划(Plan)、基于脚本的姿态扩散生成(Posture)、以及全身平移旋转估计(Go),通过降低各阶段的复杂度实现了开放词汇的高质量动作生成。

PreLAR: World Model Pre-training with Learnable Action Representation

本文提出PreLAR,在无动作标签的视频上进行世界模型预训练时,通过从相邻帧编码隐式动作表示并设计动作-状态一致性损失来弥合无动作预训练与有动作微调之间的差距,显著提升了下游视觉控制任务的样本效率。

Prompting Language-Informed Distribution for Compositional Zero-Shot Learning

本文提出 PLID 方法,利用 LLM 生成的句子级类别描述构建语言知识驱动的高斯分布,配合视觉-语言原语分解和随机 logit 融合,在组合零样本学习(CZSL)任务上取得 SOTA。

Scaling Backwards: Minimal Synthetic Pre-training?

提出 1p-frac——仅用单个分形图像的微小扰动即可实现与 ImageNet-1k 级别可比的预训练效果,挑战了"预训练需要大规模数据集"的常规认知,揭示预训练本质可能更接近权重初始化而非视觉概念学习。

ScanTalk: 3D Talking Heads from Unregistered Scans

提出 ScanTalk,首个能够对任意拓扑(包括未配准的3D扫描数据)的3D人脸进行语音驱动动画生成的深度学习框架,核心依赖于 DiffusionNet 的离散化无关特性来突破固定拓扑约束。