🎯 目标检测¶
🔬 ICLR2026 · 共 19 篇
- A Problem-Oriented Perspective and Anchor Verification for Code Optimization
-
提出以问题为导向(而非用户为导向)的优化对构建方法来整合多程序员的策略多样性,并设计锚点验证框架利用"慢但正确的代码"生成测试用例来缓解"优化税"(正确性损失),将优化比从 31.24% 提升到 71.06%,加速比从 2.95x 提升到 6.08x。
- AdaRank: Adaptive Rank Pruning for Enhanced Model Merging
-
提出 AdaRank,通过可学习二值掩码自适应选择 task vector 的奇异分量(而非启发式 top-k),结合测试时熵最小化优化,大幅缓解多任务模型合并中的任务间干扰。
- Beyond Linearity in Attention Projections: The Case for Nonlinear Queries
-
基于 WQ 代数冗余性的理论发现,将线性 Query 投影替换为非线性残差形式 Q(X)=(X+f_θ(X))/2,在相同参数量下超越增加 12.5% 参数的基线。
- Breaking Scale Anchoring: Frequency Representation Learning for Accurate High-Resolution Inference from Low-Resolution Training
-
定义了"Scale Anchoring"新问题(低分辨率训练导致高分辨率推理误差锚定),提出架构无关的频率表征学习(FRL),通过归一化频率编码使误差随分辨率提升而下降。
- CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection
-
首次将 Object-Centric Learning(Slot Attention)引入无源域自适应目标检测(SF-DAOD),通过分层 Slot 感知模块提取结构先验,并用类引导对比学习驱动域不变表征。
- ConFu: Contemplate the Future for Better Speculative Sampling
-
提出 ConFu 框架,通过 contemplate tokens 让 draft model 预见 target model 的未来生成方向,结合 MoE 动态机制和锚点采样训练,在 EAGLE-3 基础上提升 8-11% 的接受率和速度。
- Context Tokens are Anchors: Understanding the Repetition Curse in dMLLMs from an Information Flow Perspective
-
通过信息流分析揭示扩散多模态大语言模型(dMLLMs)在使用缓存加速时产生"重复诅咒"的内在机制,并提出 CoTA 方法有效缓解重复问题。
- CORDS: Continuous Representations of Discrete Structures
-
提出 CORDS 框架,通过将变大小离散集合(检测框、分子原子)双射映射为连续的密度场和特征场,使模型可在场空间中学习并精确解码回离散集合,避免了固定 slot 或 padding 的限制。
- Diverse Text-to-Image Generation via Contrastive Noise Optimization
-
提出 Contrastive Noise Optimization (CNO),通过在 Tweedie 去噪预测空间上对初始噪声施加 InfoNCE 对比损失,以预处理方式提升扩散模型生成多样性,同时保持保真度,无需修改采样过程或模型本身。
- Does FLUX Already Know How to Perform Physically Plausible Image Composition?
-
提出 SHINE,一个无需训练的图像合成框架,通过 Manifold-Steered Anchor Loss、Degradation-Suppression Guidance 和 Adaptive Background Blending 三个组件,利用预训练 T2I 模型(如 FLUX)内在的物理先验,实现在复杂光照条件下(阴影、水面反射等)的高质量物体插入。
- ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection
-
ForestPersons 是首个专门针对森林树冠下人员检测的大规模数据集(96,482 张图像 + 204,078 标注),覆盖地面/低空视角、多季节多天气多光照条件,每个实例包含边界框+姿态+可见性标注,填补了 SAR 场景中下冠层检测的数据空白。
- From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning
-
发现多模态 LLM 的推理性能与视觉注意力分数(VAS)高度相关(r=0.96),提出 AVAR 框架通过视觉锚定数据合成、注意力引导训练目标和视觉锚定奖励塑造三个阶段提升 VAS,在 77 个基准上平均提升 7%。
- FSOD-VFM: Few-Shot Object Detection with Vision Foundation Models and Graph Diffusion
-
提出一个无需训练的少样本目标检测框架,组合 UPN、SAM2 和 DINOv2 三个基础模型生成提案和匹配特征,并通过图扩散算法精化置信度分数和抑制碎片化提案,在 Pascal-5i 和 COCO-20i 上大幅超越 SOTA。
- InfoDet: A Dataset for Infographic Element Detection
-
构建了一个大规模信息图元素检测数据集(101,264 张信息图、1420 万标注),涵盖图表和人类可识别对象两大类,并提出 Grounded CoT 方法利用检测结果提升 VLM 的图表理解能力。
- Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review
-
构建了迄今最大的 AI 生成同行评审数据集(788,984 篇评审),系统评估了 18 种 AI 文本检测方法在同行评审场景下的表现,并提出了利用论文原文作为上下文的 Anchor 检测方法,在低误报率下大幅超越所有基线。
- Long-Context Generalization with Sparse Attention
-
提出 ASEntmax(Adaptive-Scalable Entmax),用可学习温度的 α-entmax 替代 softmax 注意力,从理论和实验两方面证明稀疏注意力能实现 1000× 长度外推,解决 softmax 在长上下文下的注意力弥散(dispersion)问题。
- Procedural Mistake Detection via Action Effect Modeling
-
提出双分支多模态监督的动作效果建模框架,结合视觉分支(目标状态和空间关系特征)和文本分支(GPT-4o 生成的场景图),通过可学习的效果 token 蒸馏外部监督信号,在第一人称程序视频中实现 SOTA 错误检测。
- SABRE-FL: Selective and Accurate Backdoor Rejection for Federated Prompt Learning
-
首次研究联邦 Prompt Learning 场景下的后门攻击威胁,并提出 SABRE-FL——一种基于 embedding 空间异常检测的轻量级服务器端防御方法,无需访问客户端原始数据即可有效过滤中毒 prompt 更新。
- Sage Spatial-Visual Adaptive Graph Exploration For Efficient Visual Place Recogn
-
提出 SAGE,一个统一的 VPR 训练框架:引入轻量 Soft Probing 模块增强局部特征判别力,每个 epoch 在线重建融合地理距离与视觉相似度的亲和图,再通过贪心加权团扩展聚焦最难样本,冻结 DINOv2 骨干仅训练 1.96M 参数即在 8 个基准上全面 SOTA。