跳转至

🎯 目标检测

🔬 ICLR2026 · 共 19

A Problem-Oriented Perspective and Anchor Verification for Code Optimization

提出以问题为导向(而非用户为导向)的优化对构建方法来整合多程序员的策略多样性,并设计锚点验证框架利用"慢但正确的代码"生成测试用例来缓解"优化税"(正确性损失),将优化比从 31.24% 提升到 71.06%,加速比从 2.95x 提升到 6.08x。

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

提出 AdaRank,通过可学习二值掩码自适应选择 task vector 的奇异分量(而非启发式 top-k),结合测试时熵最小化优化,大幅缓解多任务模型合并中的任务间干扰。

Beyond Linearity in Attention Projections: The Case for Nonlinear Queries

基于 WQ 代数冗余性的理论发现,将线性 Query 投影替换为非线性残差形式 Q(X)=(X+f_θ(X))/2,在相同参数量下超越增加 12.5% 参数的基线。

Breaking Scale Anchoring: Frequency Representation Learning for Accurate High-Resolution Inference from Low-Resolution Training

定义了"Scale Anchoring"新问题(低分辨率训练导致高分辨率推理误差锚定),提出架构无关的频率表征学习(FRL),通过归一化频率编码使误差随分辨率提升而下降。

CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

首次将 Object-Centric Learning(Slot Attention)引入无源域自适应目标检测(SF-DAOD),通过分层 Slot 感知模块提取结构先验,并用类引导对比学习驱动域不变表征。

ConFu: Contemplate the Future for Better Speculative Sampling

提出 ConFu 框架,通过 contemplate tokens 让 draft model 预见 target model 的未来生成方向,结合 MoE 动态机制和锚点采样训练,在 EAGLE-3 基础上提升 8-11% 的接受率和速度。

Context Tokens are Anchors: Understanding the Repetition Curse in dMLLMs from an Information Flow Perspective

通过信息流分析揭示扩散多模态大语言模型(dMLLMs)在使用缓存加速时产生"重复诅咒"的内在机制,并提出 CoTA 方法有效缓解重复问题。

CORDS: Continuous Representations of Discrete Structures

提出 CORDS 框架,通过将变大小离散集合(检测框、分子原子)双射映射为连续的密度场和特征场,使模型可在场空间中学习并精确解码回离散集合,避免了固定 slot 或 padding 的限制。

Diverse Text-to-Image Generation via Contrastive Noise Optimization

提出 Contrastive Noise Optimization (CNO),通过在 Tweedie 去噪预测空间上对初始噪声施加 InfoNCE 对比损失,以预处理方式提升扩散模型生成多样性,同时保持保真度,无需修改采样过程或模型本身。

Does FLUX Already Know How to Perform Physically Plausible Image Composition?

提出 SHINE,一个无需训练的图像合成框架,通过 Manifold-Steered Anchor Loss、Degradation-Suppression Guidance 和 Adaptive Background Blending 三个组件,利用预训练 T2I 模型(如 FLUX)内在的物理先验,实现在复杂光照条件下(阴影、水面反射等)的高质量物体插入。

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

ForestPersons 是首个专门针对森林树冠下人员检测的大规模数据集(96,482 张图像 + 204,078 标注),覆盖地面/低空视角、多季节多天气多光照条件,每个实例包含边界框+姿态+可见性标注,填补了 SAR 场景中下冠层检测的数据空白。

From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

发现多模态 LLM 的推理性能与视觉注意力分数(VAS)高度相关(r=0.96),提出 AVAR 框架通过视觉锚定数据合成、注意力引导训练目标和视觉锚定奖励塑造三个阶段提升 VAS,在 77 个基准上平均提升 7%。

FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion

提出一个无需训练的少样本目标检测框架,组合 UPN、SAM2 和 DINOv2 三个基础模型生成提案和匹配特征,并通过图扩散算法精化置信度分数和抑制碎片化提案,在 Pascal-5i 和 COCO-20i 上大幅超越 SOTA。

InfoDet: A Dataset for Infographic Element Detection

构建了一个大规模信息图元素检测数据集(101,264 张信息图、1420 万标注),涵盖图表和人类可识别对象两大类,并提出 Grounded CoT 方法利用检测结果提升 VLM 的图表理解能力。

Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review

构建了迄今最大的 AI 生成同行评审数据集(788,984 篇评审),系统评估了 18 种 AI 文本检测方法在同行评审场景下的表现,并提出了利用论文原文作为上下文的 Anchor 检测方法,在低误报率下大幅超越所有基线。

Long-Context Generalization with Sparse Attention

提出 ASEntmax(Adaptive-Scalable Entmax),用可学习温度的 α-entmax 替代 softmax 注意力,从理论和实验两方面证明稀疏注意力能实现 1000× 长度外推,解决 softmax 在长上下文下的注意力弥散(dispersion)问题。

Procedural Mistake Detection via Action Effect Modeling

提出双分支多模态监督的动作效果建模框架,结合视觉分支(目标状态和空间关系特征)和文本分支(GPT-4o 生成的场景图),通过可学习的效果 token 蒸馏外部监督信号,在第一人称程序视频中实现 SOTA 错误检测。

SABRE-FL: Selective and Accurate Backdoor Rejection for Federated Prompt Learning

首次研究联邦 Prompt Learning 场景下的后门攻击威胁,并提出 SABRE-FL——一种基于 embedding 空间异常检测的轻量级服务器端防御方法,无需访问客户端原始数据即可有效过滤中毒 prompt 更新。

Sage Spatial-Visual Adaptive Graph Exploration For Efficient Visual Place Recogn

提出 SAGE,一个统一的 VPR 训练框架:引入轻量 Soft Probing 模块增强局部特征判别力,每个 epoch 在线重建融合地理距离与视觉相似度的亲和图,再通过贪心加权团扩展聚焦最难样本,冻结 DINOv2 骨干仅训练 1.96M 参数即在 8 个基准上全面 SOTA。