跳转至

💬 LLM / NLP

🎞️ ECCV2024 · 共 16

AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection

在CLIP中同时引入静态(全局共享)和动态(逐图生成)两种可学习提示,用辅助异常检测数据训练后,在14个工业+医学异常检测数据集上实现零样本SOTA,核心在于"任务级+实例级"双层自适应的混合提示设计。

ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization

提出 ColorMNet,一种基于记忆机制的时空特征传播网络,通过预训练大视觉模型引导的特征提取(PVGFE)、基于记忆的特征传播(MFP)和局部注意力(LA)三个模块,在显著降低 GPU 显存消耗(仅需 1.9G)的同时实现了优于 SOTA 的视频上色效果。

Dataset Growth

提出 InfoGrowth,一种高效的在线数据清洗与选择算法,通过噪声检测+信息增益计算+采样策略,使数据集在持续增长过程中保持清洁性与多样性,实现 2-4 倍数据效率提升。

Deep Cost Ray Fusion for Sparse Depth Video Completion

本文提出 RayFusion 框架,通过在 cost volume 上沿射线方向施加 self-attention 和 cross-attention 实现时序融合,以仅 1.15M 参数在 KITTI、VOID、ScanNetV2 三个数据集上全面超越或持平 SOTA 稀疏深度补全方法。

FunQA: Towards Surprising Video Comprehension

构建了大规模反直觉视频问答基准 FunQA(4.3K 视频、312K QA 对),覆盖幽默/创意/魔术三类令人惊讶的视频,并提出 FunMentor 智能体通过多轮对话增强 VLM 的反常识推理能力。

Grounding Language Models for Visual Entity Recognition

提出 AutoVER——首个将多模态大语言模型(MLLM)应用于大规模视觉实体识别的方法,通过将检索能力集成到 MLLM 内部,结合对比训练和前缀树约束解码,在 Oven-Wiki 基准上大幅超越 PaLI-17B 等先前方法。

On the Utility of 3D Hand Poses for Action Recognition

提出 HandFormer,一种高效多模态 Transformer,通过密集采样的 3D 手部姿态与稀疏采样的 RGB 帧相结合,以远低于现有方法的计算量实现了手-物交互动作识别 SOTA。

OneRestore: A Universal Restoration Framework for Composite Degradation

提出 OneRestore,一种基于 Transformer 的通用图像复原框架,通过场景描述符引导的交叉注意力机制和复合退化复原损失,能在单一模型中自适应地处理低光照、雾、雨、雪及其任意组合的复合退化场景,并支持文本/视觉双模式的可控复原。

Prompting Language-Informed Distribution for Compositional Zero-Shot Learning

本文提出 PLID 方法,利用 LLM 生成的句子级类别描述构建语言知识驱动的高斯分布,配合视觉-语言原语分解和随机 logit 融合,在组合零样本学习(CZSL)任务上取得 SOTA。

PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts

提出 PromptIQA,通过少量"图像-分数对"(ISP)作为 prompt 的方式,使 NR-IQA 模型训练完成后无需微调即可自适应适配新的质量评估需求,在 12 个数据集、5 类 IQA 任务上均达到 SOTA 性能和泛化能力。

Reprojection Errors as Prompts for Efficient Scene Coordinate Regression

本文提出 EGFS(Error-Guided Feature Selection)机制,利用低重投影误差区域作为 SAM 的 point prompts 扩展为语义掩码,迭代地筛选可靠训练样本,在 Cambridge Landmarks 和 Indoor6 数据集上以更小模型和更少训练时间超越现有无 3D 信息依赖的 SCR 方法。

Rotary Position Embedding for Vision Transformer

系统研究将大语言模型中的旋转位置编码(RoPE)扩展到 2D 视觉 Transformer,提出 RoPE-Mixed(混合可学习频率)变体,在多分辨率分类、目标检测和语义分割上均带来显著且接近零额外计算的性能提升。

SIGMA: Sinkhorn-Guided Masked Video Modeling

本文提出 SIGMA,通过引入投影网络将 masked video modeling 的重建目标从像素级升级为可学习的深层特征聚类分配,利用 Sinkhorn 算法的最优传输实施高熵正则化避免坍缩,在 10 个数据集 3 个 benchmark 上全面超越 VideoMAE 等 SOTA 方法。

VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

提出 VisFocus,通过在视觉编码器的 patch merging 层引入 prompt 感知的 ViLMA 层,并设计 LMPM 预训练任务,使 OCR-Free 文档理解模型能聚焦于与用户查询相关的文本区域,在多个文档 VQA 基准上达到同规模 SOTA。

When Do We Not Need Larger Vision Models?

提出 Scaling on Scales (S2),通过让预训练的冻结小模型在多个图像尺度上运行(而非增大模型参数),即可超越更大模型在分类、分割、深度估计、MLLM 和机器人操控等任务上的表现。

Zero-Shot Object Counting with Good Exemplars (VA-Count)

提出 VA-Count,一种基于视觉关联的零样本物体计数框架,通过 Grounding DINO 驱动的样例增强模块和对比学习噪声抑制模块,为任意类别建立高质量样例与图像间的鲁棒视觉关联。