跳转至

🎯 目标检测

📷 CVPR2026 · 共 38

ABRA: Teleporting Fine-Tuned Knowledge Across Domains for Open-Vocabulary Object Detection

将域适应建模为权重空间的SVD旋转对齐问题:分解域与类知识,通过闭式正交Procrustes解将源域类特定残差"传送"到无标注的目标域,实现零样本跨域类别检测。

Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation

提出 Adaptive Auxiliary Prompt Blending (AAPB),通过 Tweedie 公式推导闭式自适应混合系数,在每个去噪步动态平衡辅助锚定提示与目标提示的贡献,无需训练即可显著改善稀有概念生成和零样本图像编辑的语义准确性与结构保真度。

Anchoring and Rescaling Attention for Semantically Coherent Inbetweening

提出 KAB(Keyframe-Anchored Attention Bias)和 ReTRo(Rescaled Temporal RoPE)两个无需训练的推理时方法,基于 Wan2.1 视频扩散模型解决稀疏关键帧下大运动生成式帧插值(GI)中的语义不忠、帧不一致和节奏不稳问题,并构建首个文本条件 GI 评估基准 TGI-Bench。

AR²-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

利用固定视角视频中背景结构的时不变性,构建离线 Anchor Bank + 在线 Anchor Map 作为语言-场景持久记忆,配合锚点引导的重入先验和 ReID-Gating 身份验证机制,实现目标遮挡/离场后的鲁棒重捕获,RCR 提升 10.3%、RCL 降低 24.2%。

Beautygrpo Aesthetic Alignment For Face Retouching Via Dynamic Path Guidance And

提出 BeautyGRPO,一个基于强化学习的人脸修图框架,通过构建细粒度偏好数据集 FRPref-10K 训练专用奖励模型,并设计动态路径引导(DPG)机制在随机探索与高保真之间取得平衡,实现与人类美学偏好对齐的自然修图效果。

Beyond Caption-Based Queries for Video Moment Retrieval

揭示了VMR中caption-based查询与真实用户搜索查询之间的巨大鸿沟,提出了三个搜索查询基准,并通过移除自注意力+查询Dropout两项架构修改来缓解DETR中的解码器查询坍塌问题,在多时刻搜索查询上提升高达21.83% mAPm。

Beyond Prompt Degradation: Prototype-Guided Dual-Pool Prompting for Incremental Object Detection

提出 PDP 框架,通过双池提示解耦(共享池 + 私有池)和原型引导伪标签生成(PPG),解决增量目标检测中提示耦合与提示漂移导致的提示退化问题,在 COCO 和 VOC 上取得 SOTA。

CineSRD: Leveraging Visual, Acoustic, and Linguistic Cues for Open-World Visual Media Speaker Diarization

提出 CineSRD,一个免训练的多模态说话人分离框架,通过视觉锚点聚类进行说话人注册,结合音频语言模型进行说话人转换检测,解决影视作品中长视频、大量角色、音视频不同步等开放世界挑战。

CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning

提出 CLCR 框架,将每个模态特征组织为三层语义层级(浅/中/深),通过层内受控交换域(IntraCED)限制跨模态交互仅在共享子空间进行,通过层间协同聚合域(InterCAD)实现跨层自适应融合,解决多模态学习中的跨层语义不同步问题。

Da-Mamba Learning Domain-Aware State Space Model For Global-Local Alignment In D

提出 DA-Mamba,一种 CNN-SSM 混合架构,通过 Image-Aware SSM(IA-SSM)和 Object-Aware SSM(OA-SSM)两个模块,以线性复杂度实现图像级和实例级的全局-局部域不变特征对齐,在四个域自适应检测基准上达到 SOTA。

Decoupling Vision and Language: Codebook Anchored Visual Adaptation

提出 CRAFT,通过离散 codebook 将视觉编码器与语言模型解耦,仅微调视觉编码器即可实现领域适配,且适配后的编码器可跨 LLM 架构无缝复用,在 10 个领域基准上平均提升 13.51%。

Does YOLO Really Need to See Every Training Image in Every Epoch?

提出 Anti-Forgetting Sampling Strategy (AFSS),根据每张训练图像的学习充分度(min(Precision, Recall))动态决定哪些图像参与训练、哪些可以跳过,实现 YOLO 系列检测器 1.43× 以上的训练加速同时保持甚至提升检测精度。

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

本文从部署视角系统评估药丸识别在跨域few-shot条件下的泛化能力,揭示语义分类1-shot即饱和但定位/recall在重叠遮挡下急剧下降的解耦现象,并证明训练数据的视觉真实性远比数据量或shot数更关键。

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

从部署导向视角系统评估了小样本药丸识别在跨数据集域偏移下的表现,发现语义分类1-shot即可饱和(准确率>0.989),但遮挡重叠场景下定位和召回急剧退化,训练数据的视觉真实性(多药丸、杂乱场景)是决定小样本泛化鲁棒性的主要因素。

Ew-Detr Evolving World Object Detection Via Incremental Low-Rank Detection Trans

提出 Evolving World Object Detection (EWOD) 范式及 EW-DETR 框架,通过增量 LoRA 适配器、查询范数物体性适配器和熵感知未知混合三个协同模块,在无样本回放条件下同时解决类别增量学习、域迁移适应和未知目标检测问题,FOGS 指标提升 57.24%。

EW-DETR: Evolving World Object Detection via Incremental Low-Rank DEtection TRansformer

提出Evolving World Object Detection (EWOD)范式和EW-DETR框架,通过增量LoRA适配器、查询范数物体性适配器和熵感知未知混合三个模块,在无需存储旧数据的条件下同时解决类别增量学习、域迁移自适应和未知目标检测,FOGS指标较现有方法提升57.24%。

Falcon False-Negative Aware Learning Of Contrastive Negatives In Vision-Language

提出 FALCON,一种基于学习的 mini-batch 构造策略,通过负样本挖掘调度器自适应平衡硬负样本与假负样本之间的权衡,显著提升视觉语言预训练的跨模态对齐质量。

Fixed Anchors Are Not Enough: Dynamic Retrieval and Persistent Homology for Dataset Distillation

RETA解耦数据蒸馏中残差匹配的两个失败模式(fit-complexity gap和pull-to-anchor effect),通过动态检索连接(DRC)自适应选择real patch anchor并用持久同调拓扑对齐(PTA)保持类内多样性,在ImageNet-1K ResNet-18 IPC=50上达到64.3%(+3.1% vs FADRM)。

Foundation Model Priors Enhance Object Focus In Feature Space For Source-Free Ob

提出 FALCON-SFOD 框架,通过基础模型(OV-SAM)生成的类别无关二值掩码正则化检测器特征空间(SPAR),结合不平衡感知的噪声鲁棒伪标签损失(IRPL),在无源域目标检测中增强目标聚焦表征,多个基准上达到 SOTA。

Fourier Angle Alignment for Oriented Object Detection in Remote Sensing

利用傅里叶旋转等变性在频域估计并对齐目标方向,提出 FAAFusion(解决 Neck 层方向不一致)和 FAA Head(解决检测头分类-回归任务冲突)两个即插即用模块,在 DOTA 和 HRSC2016 上达到新 SOTA。

Just-In-Time Training-Free Spatial Acceleration For Diffusion Transformers

提出 Just-in-Time (JiT) 框架,通过在空间域动态选择稀疏 anchor token 驱动生成 ODE 演化,并设计确定性 micro-flow 保证新 token 无缝激活,在 FLUX.1-dev 上实现最高 7× 加速且几乎无损。

Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection

提出双分支框架 LMP,在 GroundingDINO 基础上引入视觉原型分支(正类原型+硬负原型),与文本分支联合训练并集成推理,在跨域少样本目标检测中取得 SOTA。

MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

发现并利用跨模态知识迁移现象——修改 LLM 文本编码器中的知识可自然迁移到视觉生成,提出 MoKus 两阶段框架(视觉概念学习 + 文本知识更新)实现知识感知的概念定制。

MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization

提出"知识感知概念定制"新任务,发现LLM文本编码器中的知识编辑可以自然迁移到视觉生成模态(跨模态知识迁移),基于此提出MoKus框架:先用LoRA微调将稀有token绑定为视觉概念的锚表征,再通过知识编辑技术将多条自然语言知识高效映射到锚表征上,每条知识更新仅需约7秒。

MRD: Multi-resolution Retrieval-Detection Fusion for High-Resolution Image Understanding

提出 MRD,一个 training-free 的多分辨率检索-检测融合框架,通过多分辨率语义融合缓解目标碎片化,结合开放词汇检测器抑制背景干扰,显著提升 MLLM 对高分辨率图像的理解能力。

Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models

重新解释 SDE-based GRPO 为距离优化/对比学习,提出 Neighbor GRPO——完全绕过 SDE 转换,通过扰动 ODE 初始噪声构建邻域候选轨迹 + softmax 距离代理策略实现策略梯度优化,保留确定性 ODE 采样的所有优势。

PHAC: Promptable Human Amodal Completion

提出可提示人体非模态补全(PHAC)新任务,通过基于点的用户提示(姿态/边界框)配合 ControlNet 注入条件信号,并设计基于修复的精炼模块保留可见区域外观,实现高质量、可控的遮挡人体图像补全。

Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision

提出 DeepfakeJudge 框架,通过 bootstrapped generator-evaluator 流程将人类标注的推理监督扩展为大规模结构化评分数据,训练出 3B/7B 视觉语言模型作为 deepfake 检测推理质量的自动评判者,在 pointwise 和 pairwise 评估上均达到与人类高度一致的水平。

Sdf-Net Structure-Aware Disentangled Feature Learning For Opticall-Sar Ship Re-I

提出 SDF-Net,利用船舶刚体几何结构作为跨模态不变锚点,在中间层提取梯度能量强制结构一致性,在终端层解耦模态共享/特定特征并通过加法残差融合,在 HOSS-ReID 上取得 SOTA(All mAP 60.9%,超 TransOSS 3.5%)。

Shape-Of-You Fused Gromov-Wasserstein Optimal Transport For Semantic Corresponde

将语义对应问题重新建模为 Fused Gromov-Wasserstein (FGW) 最优传输问题,利用 3D 基础模型提供的几何结构约束来生成全局一致的伪标签,解决了传统最近邻匹配因局部性和 2D 外观歧义导致的几何不一致问题。

Show, Don't Tell: Detecting Novel Objects by Watching Human Videos

提出"Show, Don't Tell"范式:通过观看人类演示视频,自动构建新物体标注数据集(SODC),训练轻量级定制检测器(MOD),完全绕过语言描述和prompt engineering,在真实机器人分拣任务上成功部署。

Specificity-Aware Reinforcement Learning For Fine-Grained Open-World Classificat

提出 SpeciaRL——一种特异性感知的强化学习框架,通过基于在线 rollout 最佳预测的动态奖励信号,引导推理型大型多模态模型在开放世界细粒度图像分类中同时提升预测的特异性和正确性。

Spiraldiff Spiral Diffusion With Lora For Rgb-To-Raw Conversion Across Cameras

提出 SpiralDiff,一种面向 RGB-to-RAW 转换的扩散框架,通过信号依赖的噪声加权策略适应不同像素强度区域的重建难度,并引入 CamLoRA 模块实现单一模型跨多相机的轻量适配。

Stake the Points: Structure-Faithful Instance Unlearning

提出 Structguard,通过语义锚点(semantic anchors)保持遗忘过程中保留实例间的语义关系结构,避免结构性崩塌,在图像分类/人脸识别/检索三任务上平均提升 32.9%/19.3%/22.5%。

The Cote Score A Decomposable Framework For Evaluating Document Layout Analysis

提出面向文档布局分析(DLA)的可分解评估框架 COTe(Coverage, Overlap, Trespass, Excess),以及结构语义单元 SSU,相比传统 IoU/mAP/F1 能更准确地反映页面解析质量,并揭示不同模型的特异性失败模式。

TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking

提出 TIACam 框架,通过可学习自动增强器模拟相机失真、文本锚定跨模态对抗训练学习不变特征、零水印头在特征空间绑定消息,实现无需修改图像像素的相机鲁棒零水印方案,在屏幕翻拍/打印翻拍/截图三种真实场景下均达到 SOTA 提取精度。

Token Reduction Via Local And Global Contexts Optimization For Efficient Video L

提出 AOT 框架,通过建立局部-全局 token anchors 并利用最优传输(Optimal Transport)在帧内和帧间两级聚合被裁剪/合并 token 的语义信息,实现 training-free 的视频 token 压缩,在裁剪 90% token 的情况下仍保留 97.6% 的原始性能。

Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

提出 STALL,一种无需训练的零样本生成视频检测器,通过在白化嵌入空间中联合建模逐帧空间似然和帧间时序似然,仅依赖真实视频校准即可实现对多种生成模型的鲁棒检测。