🎯 目标检测¶
🧪 ICML2025 · 10 篇论文解读
- BlueGlass: A Framework for Composite AI Safety
-
提出 BlueGlass 复合 AI 安全框架,通过统一基础设施整合分布式评估、近似探针和稀疏自编码器三种安全分析工具,对视觉语言模型(VLM)在目标检测任务上的能力边界、层级动态和内部概念表示进行系统性安全分析。
- Discovering Global False Negatives On the Fly for Self-supervised Contrastive Learning
-
提出 GloFND,通过为每个锚点样本学习动态阈值,在训练过程中实时发现并过滤全局假阴性(false negatives),以低额外开销提升对比学习表示质量。
- Few-Shot Learner Generalizes Across AI-Generated Image Detection
-
首次将 AI 生成图像检测重新定义为少样本分类任务,提出 FSD (Few-Shot Detector) 基于原型网络学习度量空间,仅用 10 个来自未见生成模型的样本,在 GenImage 数据集上平均准确率达 84.1%,超越此前 SOTA (LARE2) +11.6%。
- FG-CLIP: Fine-Grained Visual and Textual Alignment
-
FG-CLIP 系统性地解决 CLIP 细粒度理解的三大瓶颈:用 1.6B 长描述-图像对捕获全局语义细节,12M 图像+40M 区域标注实现精细区域对齐,10M 硬负样本训练模型区分微妙语义差异,在细粒度理解、开放词汇检测、图文检索等多项任务上取得全面领先。
- Global Context-aware Representation Learning for Spatially Resolved Transcriptomics
-
提出 Spotscape 框架,通过 Similarity Telescope 模块捕获 spot 间的全局相似关系(而非仅依赖空间局部邻居),并引入原型对比学习和相似度尺度匹配策略处理多切片批次效应,在空间域识别、轨迹推断、多切片整合与对齐等任务上全面超越现有方法。
- Open-Det: An Efficient Learning Framework for Open-Ended Detection
-
Open-Det 提出了一个高效的开放端目标检测(OED)框架,通过重构目标检测器(解耦 one-to-many/one-to-one 匹配)、引入 VL-prompts 蒸馏模块桥接视觉-语言语义鸿沟、LoRa Head + Text Denoising 加速 LLM 训练、以及 Masked Alignment Loss 消除矛盾监督,仅用 GenerateU 1.5% 的训练数据和 20.8% 的训练 epoch 就取得了更高的检测性能(APr +1.0%)。
- Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models
-
提出 Outlier Gradient Analysis (OGA),将影响函数中识别有害训练样本的问题转化为梯度空间上的异常点检测,绕开了 Hessian 矩阵求逆的高计算开销,同时在噪声标签校正、NLP 数据筛选和 LLM 影响力数据识别等任务上取得优于传统影响函数方法的效果。
- Self-Organizing Visual Prototypes for Non-Parametric Representation Learning
-
提出 Self-Organizing Prototypes (SOP) 策略,用多个语义相似的支持嵌入(support embeddings)替代传统 SSL 中单一原型来表示特征空间的局部区域,并引入非参数化 MIM 任务,在检索、检测、分割等下游任务上取得 SOTA 表现。
- UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction
-
提出 UI-Vision——首个面向桌面环境的综合离线评估基准,覆盖 83 个软件应用,提供密集的 bounding box、UI 标签和操作轨迹标注,定义从细粒度到粗粒度的三级评估任务(Element Grounding → Layout Grounding → Action Prediction),系统评估并揭示 SOTA 模型在专业软件理解、空间推理和复杂操作上的关键短板。
- Understanding the Emergence of Multimodal Representation Alignment
-
系统研究多模态表征对齐的涌现机制,发现隐式对齐的出现及其与性能的关系取决于数据的冗余/唯一信息比例和模态异质性,挑战了"更大模型→更好对齐→更好性能"的普遍假设。