📷 CVPR2026 论文笔记¶
共 877 篇笔记,覆盖 27 个领域。
领域概览¶
| 领域 | 篇数 |
|---|---|
| 🧩 多模态 VLM | 150 |
| 🧊 3D 视觉 | 88 |
| 🎨 图像生成 | 83 |
| 🏥 医学图像 | 81 |
| ✂️ 语义分割 | 67 |
| 🚗 自动驾驶 | 54 |
| 🎬 视频理解 | 44 |
| 🎯 目标检测 | 38 |
| 🤖 机器人/具身智能 | 34 |
| 🧑 人体理解 | 30 |
| 📦 模型压缩 | 29 |
| 🖼️ 图像恢复 | 15 |
| 💬 LLM / NLP | 15 |
| 🔄 自监督/表示学习 | 15 |
| 🛰️ 遥感 | 12 |
| 🛡️ AI 安全 | 11 |
| ⚖️ 对齐 / RLHF | 11 |
| 🦾 LLM Agent | 9 |
| 💡 LLM 推理 | 9 |
| 🎮 强化学习 | 8 |
| ⚡ LLM 效率 | 6 |
| 📈 时间序列 | 6 |
| 📐 优化/理论 | 5 |
| 🕸️ 图学习 | 3 |
| 🎵 音频/语音 | 2 |
| 🧮 科学计算 | 2 |
| 📂 其他 | 50 |
🧩 多模态 VLM¶
- A Closed-Form Solution for Debiasing Vision-Language Models with Utility Guarantees Across Modalities and Tasks
-
提出一种在VLM跨模态空间中具有闭式解的去偏方法,在无需训练、无需标注数据的条件下,通过正交分解实现Pareto最优的公平性与效用权衡,同时为效用损失提供理论上界。
- A Closed-Form Solution for Debiasing Vision-Language Models with Utility Guarantees Across Modalities and Tasks
-
提出VLM去偏的闭式解方法,通过在跨模态嵌入空间中对属性子空间做正交分解并利用Chebyshev标量化求解,实现Pareto最优公平性与有界效用损失,免训练、免标注,统一覆盖零样本分类、文本-图像检索和文本-图像生成三大下游任务。
- AVR: Adaptive VLM Routing for Computer Use Agents
-
提出 AVR 自适应路由框架,通过轻量多模态嵌入模型评估动作难度 + 小模型 logprob 置信度探测 + warm agent 记忆注入,实现三层路由(简单→小模型,困难→大模型,高风险→大模型+guardrail),在推理成本降低 78% 的同时仅损失 2pp 准确率。
- Adaptive Vision-Language Model Routing for Computer Use Agents
-
在CUA编排器和VLM池之间插入轻量语义路由层,通过难度分类+logprob置信度探测+记忆注入三机制,将大部分GUI操作交给小模型处理,推理成本降低78%且精度仅下降2个百分点。
- Adaptvision Efficient Vision-Language Models Via Adaptive Visual Acquisition
-
提出 AdaptVision,通过由粗到精的主动视觉机制和强化学习训练,让 VLM 自主决定每个样本所需的最少视觉 token 数量,配合解耦式多轮策略优化 (DTPO) 实现效率与精度的最优平衡。
- ApET: Approximation-Error Guided Token Compression for Efficient VLMs
-
从信息论角度提出基于线性近似重建误差的视觉 token 重要性评估方法,不依赖 attention 权重,天然兼容 FlashAttention,在 LLaVA-1.5 上压缩 88.9% 视觉 token 仍保持 95.2% 性能。
- ApET: Approximation-Error Guided Token Compression for Efficient VLMs
-
从信息论角度出发,通过线性近似重建每个visual token并用重建误差衡量其信息量(误差大=信息多=应保留),提出完全不依赖注意力权重的ApET框架,在LLaVA-1.5-7B上88.9%压缩保留95.2%精度,视频任务甚至达100.4%超基线,且完全兼容FlashAttention。
- Beyond Global Similarity Towards Fine-Grained Multi-Condition Multimodal Retriev
-
提出 MCMR 大规模多条件多模态检索基准,每个查询包含多个跨视觉和文本模态的组合约束条件,并系统评估了 MLLM 检索器与重排器在细粒度条件感知推理下的能力差异。
- Beyond Heuristic Prompting A Concept-Guided Bayesian Framework For Zero-Shot Ima
-
将 VLM 零样本图像识别重构为贝叶斯框架,通过 LLM 驱动的多阶段概念合成流水线构建概念提案分布,并用自适应 soft-trim 似然函数抑制离群概念影响,在 11 个分类基准上优于 SOTA 方法。
- Beyond Static Artifacts A Forensic Benchmark For Video Deepfake Reasoning In Vis
-
提出 FAQ(Forensic Answer-Questioning),首个关注深度伪造视频中时序不一致性的多选问答基准,通过三层级任务体系(感知→定位→推理)逐步增强 VLM 的取证能力,微调后在域内和跨数据集检测中均取得显著提升。
- Brima Bridged Modality Adaptation For Multi-Modal Continual Action Quality Asses
-
提出 BriMA,通过记忆引导的桥接补全和模态感知回放机制,解决多模态持续动作质量评估中非平稳模态不平衡问题,在三个基准上平均提升 6-8% 相关系数、降低 12-15% 误差。
- Bussard Normalizing Flows For Bijective Universal Scene-Specific Anomalous Relat
-
提出 BUSSARD,首个基于学习的场景特定异常关系检测方法,利用预训练语言模型嵌入场景图三元组 + 自编码器降维 + 标准化流进行似然估计,在 SARD 数据集上 AUROC 提升约 10%,且对同义词变化鲁棒。
- Capt Confusion-Aware Prompt Tuning For Reducing Vision-Language Misalignment
-
提出 CAPT 混淆感知 prompt tuning 框架,通过语义混淆挖掘器(SEM)和样本混淆挖掘器(SAM)显式建模 VLM 的系统性误对齐模式,配合多粒度差异专家(MGDE)融合不同层次的混淆信息,在 11 个基准上取得 HM 83.90% 的最优表现。
- Cc-Vqa Conflict- And Correlation-Aware Method For Mitigating Knowledge Conflict
-
提出 CC-VQA,一种 training-free 的知识冲突缓解方法,通过视觉中心的上下文冲突推理和相关度引导的编码/解码两阶段策略,在 E-VQA、InfoSeek、OK-VQA 三个基准上取得 3.3%-6.4% 的绝对精度提升。
- CIPHER: 用反事实对抗幻觉——扩散引导的LVLM幻觉抑制
-
提出CIPHER——通过构建扩散编辑的反事实图像数据集提取视觉幻觉的低秩子空间表示,推理时将隐层状态投影远离该子空间来免训练地抑制LVLM幻觉,首次专门针对视觉诱导的幻觉而非文本诱导的幻觉。
- Circuit Tracing In Vision-Language Models Understanding The Internal Mechanisms
-
提出首个面向 VLM 的电路追踪框架,通过在 Gemma-3-4B 中训练 transcoder、构建归因图、发现多模态电路,揭示了视觉-语义概念的层次化整合、视觉数学推理电路、六指幻觉的内部机制等关键洞察。
- CLIP-Free, Label-Free, Unsupervised Concept Bottleneck Models
-
提出 TextUnlock 方法将任意冻结视觉分类器的输出分布对齐到视觉-语言对应空间,进而构建无需CLIP、无需标签、无需训练线性探针的全无监督概念瓶颈模型 (U-F²-CBM),在40+模型上超越有监督CLIP-based CBM。
- Codepercept Code-Grounded Visual Stem Perception For Mllms
-
通过系统性缩放分析发现 感知(perception)而非推理(reasoning) 是MLLM在STEM领域的真正瓶颈,提出以可执行Python代码为锚定媒介的CodePercept范式,构建百万级ICC-1M数据集和STEM2Code-Eval基准,显著提升MLLM的STEM视觉感知能力。
- CodePercept: Code-Grounded Visual STEM Perception for MLLMs
-
通过感知-推理解耦缩放实验证明 MLLM 在 STEM 任务中的瓶颈是感知而非推理,提出以可执行代码为感知介质的 CodePercept 范式,构建 ICC-1M 数据集和 STEM2Code-Eval 基准,系统性提升 MLLM 的 STEM 视觉感知能力。
- CognitionCapturerPro: Towards High-Fidelity Visual Decoding from EEG/MEG via Multi-modal Information and Asymmetric Alignment
-
提出 CognitionCapturerPro,通过不确定性加权遮蔽(UM)、多模态融合编码器和共享主干-多头对齐(STH-Align),整合 EEG 信号与图像/文本/深度/边缘四种模态,在 THINGS-EEG 上实现 Top-1 检索准确率 61.2%、Top-5 达 90.8%,较前作 CognitionCapturer 提升 25.9% 和 10.6%。
- CognitionCapturerPro: Towards High-Fidelity Visual Decoding from EEG/MEG via Multi-modal Information and Asymmetric Alignment
-
提出 CognitionCapturerPro,通过不确定性加权掩蔽、多模态融合编码器、共享主干对齐模块和多分支 IP-Adapter 扩散重建,解决 EEG 视觉解码中的保真度损失和表征偏移问题,在 THINGS-EEG 上 Top-1 检索达 61.2%、Top-5 达 90.8%。
- Continual Learning With Vision-Language Models Via Semantic-Geometry Preservatio
-
提出 SeGP-CL,通过对抗锚点探测旧-新语义边界的脆弱区域,结合锚点引导的跨模态几何蒸馏(ACGD)和文本语义几何正则化(TSGR),在无样本回放条件下有效保持 VLM 的跨模态语义几何结构,显著缓解灾难性遗忘。
- Continual Learning with Vision-Language Models via Semantic-Geometry Preservation
-
提出 SeGP-CL,通过对抗性 PGD 在旧新语义边界构造锚点样本,配合锚点引导的跨模态几何蒸馏(ACGD)和文本语义几何正则化(TSGR),在无需旧数据回放条件下保护 VLM 持续学习中的跨模态语义几何结构,五个基准上达到 SOTA。
- Crosshoi-Bench A Unified Benchmark For Hoi Evaluation Across Vision-Language Mod
-
提出 CrossHOI-Bench,首个统一评估 VLM 和 HOI 专用模型的多选题 HOI 基准,通过精心策划的正负例避免不完整标注的错误惩罚,揭示了大型 VLM 零样本可比肩 SOTA HOI 方法,但在多动作识别和跨人归因上各有优劣。
- Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens
-
提出 CubiD,首个在高维表征 token(768维)上做离散扩散生成的模型,通过在 \(h \times w \times d\) 三维张量上进行细粒度 mask 预测实现高质量图像生成,同时保留理解能力。
- Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events
-
提出 CoE,一个免训练的多模态摘要框架,通过构建层次事件图(HEG)引导链式事件推理,在8个数据集上超越SOTA视频CoT基线,平均提升 +3.04 ROUGE、+9.51 CIDEr、+1.88 BERTScore。
- DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles
-
提出 DeAR,通过 Concept Entropy 指标将 ViT 深层注意力头分解为属性头/泛化头/混合头三类功能角色,并设计基于角色的注意力掩码机制精确控制信息流,在15个数据集上实现任务适配与零样本泛化的最佳平衡。
- Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation
-
提出 DASP,通过冗余度评分诊断偏置模态,再用非对称适应策略解耦稳定性与可塑性,解决多模态测试时适应中的负迁移和灾难性遗忘问题。
- Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models
-
揭示驾驶 VLA 模型中被忽视的"窄策略"(Narrow Policy)瓶颈——IL 阶段过度利用导致探索坍缩,进而限制 RL 阶段。提出 Curious-VLA 框架,通过可行轨迹扩展 + 多样性感知 RL 在 Navsim 上达到 SOTA(PDMS 90.3,Best-of-N 94.8)。
- Do Vision-Language Models Leak What They Learn Adaptive Token-Weighted Model Inv
-
首次系统研究 VLM 的模型逆向(Model Inversion)攻击,提出基于自适应 token 注意力权重的序列级逆向方法 SMI-AW,通过动态加权视觉关联度不同的 token 梯度,从 VLM 中重建隐私训练图像,人类评估攻击准确率达 61.21%。
- Draft and Refine with Visual Experts
-
提出 DnR(Draft and Refine),一个基于问题条件视觉利用度(Visual Utilization)指标的 Agent 框架,量化 LVLM 对视觉证据的实际依赖程度,并通过外部视觉专家(检测/分割/OCR等)的渲染反馈迭代改善视觉定位,减少幻觉。
- DUET-VLM: Dual Stage Unified Efficient Token Reduction for VLM Training and Inference
-
提出 DUET-VLM 双阶段视觉 token 压缩框架:第一阶段在视觉编码器内通过 V2V self-attention 选取 dominant tokens 并将剩余 tokens 通过注意力引导局部聚类合并为 contextual tokens;第二阶段在 LLM 内通过 T2V cross-attention 层级裁剪视觉 tokens。在 LLaVA-1.5-7B 上实现 67% token 压缩保持 99%+ 精度、89% 压缩保持 97%+ 精度,训练时间减少 31%。
- DUET-VLM: Dual Stage Unified Efficient Token Reduction for VLM Training and Inference
-
提出DUET-VLM双阶段视觉token压缩框架:先在视觉编码器侧通过局部聚类聚合将冗余token合并为信息保持的紧凑表示(V2V),再在语言骨干侧通过文本引导的层级自适应剪枝逐步删减低信息量token(T2V),在LLaVA-1.5-7B上67%压缩保留99%精度,89%压缩保留97%精度。
- Dynamic Token Reweighting for Robust Vision-Language Models
-
提出Dtr(Dynamic Token Reweighting),首个通过优化VLM的KV缓存来防御多模态越狱攻击的推理时防御方法,通过定义"反向安全偏移"(RSS)来识别导致安全退化的视觉token,动态调整其权重以恢复模型的安全对齐能力,同时保持良性任务性能。
- DTR: Dynamic Token Reweighting for Robust Vision-Language Models
-
提出DTR——首个通过KV cache优化防御多模态越狱攻击的方法:利用反转安全偏移(Reversal Safety-Relevant Shift)识别对抗性视觉token,通过动态重加权衰减其影响,仅4步优化即可在不依赖图生文转换的前提下,大幅降低攻击成功率(HADES S+T+A: 56.9%→15.9%)同时保持VLM性能和推理效率。
- DynamicGTR: Leveraging Graph Topology Representation Preferences to Boost VLM Capabilities on Graph QAs
-
提出 DynamicGTR 框架,通过动态路由在推理时为每个查询选择最优的图拓扑表示(GTR,视觉/文本共8种),显著提升 VLM 在零样本图算法问答中的性能,并可迁移到链接预测和节点分类等真实场景。
- Efficient Document Parsing via Parallel Token Prediction
-
提出 PTP(Parallel Token Prediction),一种模型无关的即插即用加速方法,通过在训练序列中插入可学习 register token 实现并行多 token 预测,在 OmniDocBench 上实现 1.6×-2.2× 吞吐提升且不损失精度。
- EMAD: Evidence-Centric Grounded Multimodal Diagnosis for Alzheimer's Disease
-
提出 EMAD,一个端到端多模态视觉-语言框架,为 AD 诊断生成结构化报告,通过分层 Sentence–Evidence–Anatomy (SEA) Grounding 将每个诊断声明显式关联到临床证据和 3D 脑部解剖,并用可执行规则驱动的 GRPO 强化微调确保临床一致性。
- EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models
-
提出 EMO-R3,通过结构化情感思维(SET)引导 MLLM 逐步进行情感推理,并设计反思情感奖励(RER)让模型重新评估推理的视觉-文本一致性和情感连贯性,显著提升多模态情感理解的可解释性和准确性。
- EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis
-
构建 EmoVerse——首个同时覆盖 CES(Mikels 8 类离散情感)和 DES(1024 维连续情感空间)的大规模可解释视觉情感数据集(219K+ 图像),提出 B-A-S(Background-Attribute-Subject)三元组知识图谱标注体系和 Annotation & Verification Pipeline(Gemini/GPT-4o + EmoViT + CoT Critic Agent),并基于 Qwen2.5-VL-3B 微调实现 1024 维 DES 投射与情感归因解释。
- EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis
-
提出 EmoVerse,一个219K规模的视觉情感数据集,通过知识图谱启发的Background-Attribute-Subject三元组实现词级和主体级情感归因,同时提供离散CES和连续1024维DES双情感标注,配合多阶段标注验证流水线和基于Qwen2.5-VL的可解释情感模型。
- EVLF: Early Vision-Language Fusion for Generative Dataset Distillation
-
提出 EVLF,一种在编码器-骨干网络接口处进行视觉-语言早期融合的即插即用方法,解决了扩散模型数据集蒸馏中晚期语义注入导致的文本过度主导和视觉保真度下降问题。
- Evolmm Self-Evolving Large Multimodal Models With Continuous Rewards
-
提出 EvoLMM,一个完全无监督的自演化框架:从单一骨干 LMM 中分出 Proposer(生成视觉问题)和 Solver(多次回答),通过连续自一致性奖励取代离散多数投票,让模型仅用原始图片即可自我提升多模态数学推理能力(ChartQA +2.7%, MathVista +2.1%)。
- EvoLMM: Self-Evolving Large Multimodal Models with Continuous Rewards
-
提出 EvoLMM,一个纯无监督的自进化框架:从单一LMM分出Proposer(生成图像相关问题)和Solver(回答问题),通过连续自一致性奖励(替代离散多数投票)形成闭环训练信号,仅使用原始图像(无标注、无外部奖励模型),在8个多模态数学推理基准上获得约2-3%的一致性提升。
- Evolutionary Multimodal Reasoning via Hierarchical Semantic Representation for Intent Recognition
-
提出 HIER,通过层次语义表示(token→概念→关系三级)结合基于 MLLM 反馈的自进化推理机制,在三个多模态意图识别 benchmark 上一致超越 SOTA 方法和领先 MLLM(1-3% 增益)。
- Evolving Contextual Safety in Multi-Modal Large Language Models via Inference-Time Self-Reflective Memory
-
提出 MM-SafetyBench++ 基准和 EchoSafe 框架,通过推理时维护自反思记忆库来累积安全洞察,使 MLLM 能够根据上下文区分看起来相似但安全意图不同的场景,无需训练即可提升上下文安全性。
- EvoPrompt: Evolving Prompt Adaptation for Vision-Language Models
-
EvoPrompt 通过轨迹感知的 prompt 进化策略(统一 embedding 投影 + 方向-幅度解耦训练 + 特征几何正则化)解决 VLM prompt learning 中的灾难性遗忘和模态偏差问题,在 few-shot/跨数据集/域泛化任务上全面 SOTA 且保持 zero-shot 能力。
- Evolving Prompt Adaptation for Vision-Language Models
-
提出EvoPrompt框架,通过模态共享提示投影器(MPP)生成跨层跨模态提示,引入进化轨迹感知学习策略(将低秩更新解耦为方向+幅度,冻结历史方向仅调幅度)防止灾难性遗忘,配合特征几何正则化(FGR)防止表示坍缩,在11个数据集的base-to-novel泛化上平均HM达80.73%超越所有现有方法。
- Fine-Grained Post-Training Quantization for Large Vision Language Models with Quantization-Aware Integrated Gradients
-
提出量化感知积分梯度(QIG),将 LVLM 量化的灵敏度分析从模态级推进到 token 级,利用公理化归因原理精确量化每个 token 对量化误差的贡献,在 W4A8 和 W3A16 设置下显著提升量化模型精度,且几乎无额外计算开销。
- FINER: MLLMs Hallucinate under Fine-grained Negative Queries
-
发现 MLLM 在细粒度负查询(涉及多个对象/属性/关系的查询中仅有一个细微错误)下幻觉率急剧上升,提出 FINER 基准和 FINER-Tuning 方法(基于 DPO),在 InternVL3.5-14B 上最高提升 24.2%。
- FlashCache: Frequency-Domain-Guided Outlier-KV-Aware Multimodal KV Cache Compression
-
从频域角度重新审视多模态 KV Cache 压缩,发现 KV 矩阵能量集中于低频、偏离低频主成分的"离群 KV"编码了推理关键特征,提出 FlashCache——基于频域低通滤波识别并优先保留离群 KV + 动态逐层预算分配,实现 80% KV 内存节省和 1.69× 解码加速且不损任务性能,且与 FlashAttention 兼容。
- FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy
-
提出 FluoCLIP,一个两阶段视觉-语言框架:先通过染色锚定(stain-grounding)让 CLIP 学习荧光染色的语义,再通过染色引导排序(stain-guided ranking)实现染色感知的对焦质量评估,并引入首个多染色组织级荧光显微镜数据集 FluoMix。
- GACD: Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection
-
通过一阶Taylor梯度估计每个token(视觉/文本/输出)对当前预测的贡献,设计GACD框架同时缓解文本-视觉偏差(增强视觉token影响力)和共现偏差(抑制与已有物体锚定的视觉token),在AMBER上提升8%总分、POPE F1提升8%,无需训练或辅助模型。
- GLEAM: A Multimodal Imaging Dataset and HAMM for Glaucoma Classification
-
提出首个公开三模态青光眼数据集 GLEAM(SLO 眼底图 + 环乳头 OCT + 视野偏差图,标注四个疾病阶段),以及层级注意力掩码建模 (HAMM) 框架,将跨模态自监督表示学习聚焦在编码器端,实现多模态青光眼精准分类。
- GraphVLM: Benchmarking Vision Language Models for Multimodal Graph Learning
-
提出 GraphVLM benchmark,系统评估VLM在多模态图学习中的三种角色——VLM-as-Encoder(增强GNN特征)、VLM-as-Aligner(桥接模态用于LLM推理)、VLM-as-Predictor(直接作为图学习backbone)。在6个数据集上的实验表明,VLM-as-Predictor持续取得最佳性能,揭示了VLM作为多模态图学习新基础的巨大潜力。
- GraphVLM: Benchmarking Vision Language Models for Multimodal Graph Learning
-
提出 GraphVLM benchmark,系统评估 VLM 在多模态图学习中的三种角色(Encoder/Aligner/Predictor),发现 VLM-as-Predictor 范式一致性最优,揭示 VLM 作为多模态图推理骨干的巨大潜力。
- GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
-
提出GTR-Turbo框架,通过合并RL训练过程中产生的历史checkpoint作为免费教师模型,在无需依赖昂贵外部API模型的条件下,实现了与GTR相当甚至更优的多轮视觉代理训练效果,同时将训练时间减少50%、计算成本降低60%。
- GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
-
提出GTR-Turbo——将RL训练过程中的历史checkpoint通过TIES合并为"免费教师"来引导后续RL,完全去除对GPT等昂贵外部模型的依赖,在Points24上胜率从3.5%(RL4VLM)提升至53.5%,同时训练时间减半、计算成本降低60%。
- HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding
-
提出 HAMMER 框架,通过从 MLLM 中提取接触感知的意图嵌入、层次化跨模态融合增强点云特征、以及多粒度几何提升模块为意图嵌入注入3D空间信息,实现基于交互图像的3D可供性定位,在 PIAD 基准上全面超越现有方法。
- HiFICL: High-Fidelity In-Context Learning for Multimodal Tasks
-
通过对注意力机制中ICL效果的精确数学分解,揭示"shift vector"本质是注意力公式的解析后果,进而提出HiFICL——用可学习的低秩虚拟键值对直接参数化ICL的源头,实现高保真、动态、端到端的上下文学习近似,在多个多模态基准上以极少参数量超越现有方法。
- HIFICL: High-Fidelity In-Context Learning for Multimodal Tasks
-
通过严格的注意力公式分解揭示ICL的shift effect本质上是注意力机制的解析结果,据此提出HiFICL——用可学习低秩虚拟KV对直接参数化ICL的来源而非近似其效果,在多模态基准上以极少参数量全面超越现有ICL近似方法和LoRA。
- HoneyBee: Data Recipes for Vision-Language Reasoners
-
系统性地研究了VL推理训练数据的设计空间(数据来源、干预策略、多维度缩放),基于洞察构建了250万样本的HoneyBee数据集,训练出的3B VLM在MathVerse上超越SOTA 7.8个百分点。
- HouseMind: Tokenization Allows MLLMs to Understand, Generate and Edit Architectural Floor Plans
-
提出HouseMind——通过VQ-VAE将建筑平面图离散化为房间级token,让轻量级LLM(Qwen3-0.6B)在统一框架中同时完成平面图理解、生成和编辑,在所有三项任务上全面超越现有扩散和VLM方法,且可单卡部署。
- How to Take a Memorable Picture? Empowering Users with Actionable Feedback
-
定义了记忆性反馈(MemFeed)新任务,提出 MemCoach——一种 training-free 的 MLLM 激活导向方法,通过教师-学生策略将记忆性感知知识注入模型激活空间,使 MLLM 能生成提升照片记忆性的自然语言可操作建议。
- HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models
-
提出HulluEdit,一种单次前向、无参考模型的子空间编辑框架,通过将隐藏状态分解为正交的视觉证据子空间、冲突先验子空间和残差不确定性子空间,选择性抑制幻觉模式而不干扰视觉定位,在POPE和CHAIR基准上达到SOTA幻觉缓解效果。
- HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in LVLMs
-
提出HulluEdit——将模型隐状态分解为正交的三个子空间(视觉证据/冲突先验/残差不确定性),只在"冲突先验"子空间做编辑来抑制幻觉,数学保证视觉证据子空间完全不受影响。在POPE/CHAIR上达到SOTA幻觉抑制效果,只需单次推理。
- Human Knowledge Integrated Multi-Modal Learning For Single Source Domain General
-
提出 GenEval,通过域共形界(DCB)量化因果覆盖差距,并将人类专家知识量化精炼后与医学 VLM(MedGemma-4B)融合,以 LoRA 微调实现单源域泛化,在 DR 分级和癫痫灶检测上显著超越基线。
- Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization
-
提出域保形界(DCB)理论框架量化域间因果因子差异,并据此设计GenEval——通过知识精炼+MedGemma-4B LoRA微调,将人类专家领域知识整合到VLM中实现单源域泛化,在8个DR和2个SOZ数据集上显著超越SOTA。
- Interpretable Debiasing of Vision-Language Models for Social Fairness
-
提出 DeBiasLens,通过在 VLM 编码器上训练稀疏自编码器(SAE)来定位编码社会属性的"社会神经元",然后在推理时选择性去激活这些神经元以缓解偏见,在 CLIP 上降低 Max Skew 9-16%,在 InternVL2 上降低性别偏差比例 40-50%,同时保持通用性能。
- It's Time to Get It Right: Improving Analog Clock Reading and Clock-Hand Spatial Reasoning in Vision-Language Models
-
揭示 SOTA VLM 仍无法可靠读取真实场景中的模拟时钟(零样本准确率不到10%),提出 TickTockVQA 真实场景数据集(12K图像)和 Swap-DPO 微调框架,将 Llama-3.2-11B 的时间读取准确率从1.43%提升至46.22%。
- Joint-Aligned Latent Action: Towards Scalable VLA Pretraining in the Wild
-
提出 JALA 框架,通过联合对齐预测嵌入与逆动力学生成的潜在动作,构建统一的潜在动作空间,使 VLA 能同时从标注数据和未标注的野外人类视频中学习,配合 7.5M 样本的 UniHand-Mix 数据集显著提升机器人操作泛化性。
- KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing
-
提出KVSmooth,一种免训练的即插即用方法,通过注意力行熵引导的自适应指数移动平均(EMA)对KV-Cache进行平滑,有效抑制多模态大语言模型(MLLM)在解码过程中因sink token引发的语义漂移与幻觉生成,在LLaVA-1.5上将CHAIR_S从41.8降至18.2(降幅56%),同时F1从77.5提升至79.2。
- KVSmooth: Mitigating Hallucination in Multi-modal Large Language Models through Key-Value Smoothing
-
KVSmooth 提出了一种免训练的即插即用方法,通过对 KV-Cache 中的 Key 和 Value 施加注意力行熵引导的自适应指数移动平均(EMA)平滑,将 LLaVA-1.5 的 CHAIR_S 从 41.8 降至 18.2(降低 56%),同时 F1 从 77.5 提升到 79.2。
- Learning What Matters: Prioritized Concept Learning via Relative Error-driven Sample Selection
-
提出 PROGRESS 框架,通过追踪 VLM 在自动发现的多模态概念集群上的学习进度来动态选择最有信息量的训练样本,仅用 16-20% 的标注数据就达到全数据 99-100% 的性能,且总训练时间更短。
- Linking Perception, Confidence and Accuracy in MLLMs
-
揭示 MLLM 的严重置信度失校准问题(视觉输入退化时准确率暴跌但置信度不变),提出 CDRL(基于原始-噪声图像对的置信度驱动 RL)进行感知敏感性训练,并利用校准后的置信度实现自适应测试时缩放(CA-TTS),在四个基准上平均提升 8.8%。
- LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models
-
针对 VLM 多模态多轮对话场景的安全问题(恶意意图隐蔽性、上下文风险累积、跨模态联合风险),构建了包含 4,484 个标注对话的 MMDS 数据集(8 大类 60 子维度风险分类),提出自动化多模态多轮红队测试框架 MMRT 和安全审计模型 LLaVAShield,在多个基准上显著优于现有内容审核工具和 SOTA VLM。
- LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models
-
提出 LLaVAShield——首个面向多模态多轮对话的内容审核模型,配套构建了 MMDS 数据集(4,484条对话、8大类60子类风险体系)和基于 MCTS 的自动化红队攻击框架 MMRT,在用户/助手双端安全审计上大幅超越 GPT-5-mini 等基线。
- LLMind: Bio-inspired Training-free Adaptive Visual Representations for Vision-Language Models
-
受人眼中央凹编码和皮层放大机制启发,提出无需训练的自适应采样框架 LLMind,通过 Möbius 变换实现非均匀像素分配,并利用闭环语义反馈在测试时优化采样参数,在仅使用 1%-5% 像素的紧张预算下大幅超越均匀采样。
- Locate-then-Sparsify: Attribution Guided Sparse Strategy for Visual Hallucination Mitigation
-
提出 LTS-FS(Locate-Then-Sparsify for Feature Steering)框架,通过因果干预归因方法定位幻觉相关层,并根据归因分数逐层稀疏地控制特征引导强度,在有效缓解 LVLM 幻觉的同时保持模型泛化能力。
- MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models
-
揭示了通道平滑量化(如 SmoothQuant)直接应用于 MLLM 时的"平滑失配"问题——不同模态激活幅度差异巨大导致非主导模态被过度平滑,提出 MASQuant 通过模态感知平滑因子和基于 SVD 白化的跨模态低秩补偿解决该问题。
- Mastering Negation: Boosting Grounding Models via Grouped Opposition-Based Learning
-
构建首个包含正负语义成对描述的视觉定位数据集 D-Negation (14K 图片, 140K 标注), 并提出 Grouped Opposition-Based Learning (GOBL) 微调机制, 通过 PNC 和 TSO 两个对立损失函数, 仅调不到 10% 参数即让 Grounding DINO 和 APE 在否定语义评估上提升最高 5.7 mAP, 且正面语义也同步提升.
- Mastering Negation Boosting Grounding Models Via Grouped Opposition-Based Learni
-
提出 D-Negation 数据集和 Grouped Opposition-Based Learning (GOBL) 微调机制,通过对立语义配对和两个专用损失函数,仅微调不到 10% 参数即大幅提升视觉定位模型对否定语义的理解能力(最高 +5.7 mAP)。
- Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs
-
指出现有基于 VLM 的 OOD 检测方法使用模态内距离(文本-文本或图像-图像)选择负文本,与 CLIP 优化的跨模态距离不一致,提出 InterNeg 从文本和视觉两个视角系统地利用跨模态距离,在 ImageNet 上实现 FPR95 降低 3.47%。
- Mitigating Multimodal Hallucinations Via Gradient-Based Self-Reflection
-
提出 GACD(Gradient-based Influence-Aware Constrained Decoding),利用一阶 Taylor 梯度估计每个 token 对输出的影响力,在推理阶段同时缓解文本-视觉偏差和共现偏差导致的多模态幻觉,无需辅助模型或微调。
- Modes Accelerating Mixture-Of-Experts Multimodal Large Language Models Via Dynam
-
提出 MoDES,首个面向 MoE 多模态大模型的训练免调专家跳过框架,通过全局调制的局部门控(GMLG)和双模态阈值(DMT)机制自适应跳过冗余专家,在跳过 88% 专家时仍保留 97%+ 原始性能,并实现 2.16× prefill 加速。
- MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping
-
首个针对MoE多模态大模型的专家跳过框架MoDES,通过全局调制局部门控(GMLG)将层级重要性融入路由概率、双模态阈值(DMT)对文本/视觉token分别设定跳过策略、前沿搜索高效优化阈值,在Qwen3-VL-MoE-30B上88%专家跳过仍保留97.33%精度,prefill加速2.16×。
- More than the Sum: Panorama-Language Models for Adverse Omni-Scenes
-
提出 Panorama-Language Modeling(PLM)范式和 PanoVQA 大规模全景 VQA 数据集(653K QA 对),设计即插即用的全景稀疏注意力模块让现有 VLM 无需重训练即可处理等距柱状投影全景图,在遮挡和事故等恶劣场景下实现优于多视角拼接方案的全局推理。
- Mixture of States (MoS): Routing Token-Level Dynamics for Multimodal Generation
-
提出Mixture of States (MoS)——一种新的多模态扩散模型融合范式,用可学习的token级路由器将理解塔(冻结LLM/VLM)的任意层hidden state动态路由到生成塔(DiT)的任意层,以3-5B参数在图像生成和编辑上匹配或超越20B的Qwen-Image。
- Mostly Text, Smart Visuals: Asymmetric Text-Visual Pruning for Large Vision-Language Models
-
通过 MoT 探针实验揭示 LVLM 中文本通路和视觉通路对剪枝的不对称敏感性——文本通路高度敏感必须用文本 token 校准、视觉通路高度冗余可承受 60% 稀疏度,据此提出 ATV-Pruning 使用全部文本 token + 逐层自适应选择的少量视觉 token 构建校准池。
- MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding
-
提出 MSJoE 框架,将 MLLM 和轻量关键帧采样器通过强化学习联合进化——MLLM 生成视觉查询引导帧检索,1D U-Net 采样器从 CLIP 相似度矩阵中学习选帧,两者端到端联合优化实现长视频问答中 +8% 的准确率提升。
- Multi-Crit: Benchmarking Multimodal Judges on Pluralistic Criteria-Following
-
构建首个评估多模态 Judge 模型多准则遵循能力的基准 Multi-Crit,包含准则级人类标注和偏好冲突样本,配合三个新指标揭示当前最强模型在多准则评判上的系统性不足——最强闭源模型在开放生成任务上仅 32.78% 的多准则一致性。
- Multi-Modal Representation Learning Via Semi-Supervised Rate Reduction For Gener
-
提出 SSR²-GCD 框架,通过半监督编码率减少(Semi-Supervised Rate Reduction)损失学习模态内均匀压缩的结构化表征,并结合检索式文本聚合策略增强跨模态知识迁移,在8个数据集上超越现有多模态GCD方法。
- Multimodal OCR: Parse Anything from Documents
-
提出Multimodal OCR (MOCR)范式,将文档中的文本和图形(图表、图示、UI组件等)统一解析为结构化文本表示(文本+SVG代码),训练3B参数的dots.mocr模型在OCR Arena排名仅次于Gemini 3 Pro,在olmOCR Bench达到83.9 SOTA,在image-to-SVG基准上超越Gemini 3 Pro。
- NanoVDR: Distilling a 2B Vision-Language Retriever into a 70M Text-Only Encoder for Visual Document Retrieval
-
NanoVDR 利用查询-文档的不对称性,将 2B 参数的 VLM 文档检索器通过 pointwise cosine alignment 蒸馏成 69M 的纯文本查询编码器,在 ViDoRe 基准上保留 95.1% 的教师模型性能,查询延迟降低 50 倍,训练仅需 13 GPU 小时。
- Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning
-
提出 Narrative Weaver 框架,结合 MLLM 的叙事规划与扩散模型的精细生成,通过可学习查询和动态 Memory Bank 实现多模态条件下的长程视觉一致性生成,并构建首个电商广告视频分镜数据集 EAVSD(330K+ 图像)。
- No Need For Real Anomaly: MLLM Empowered Zero-Shot Video Anomaly Detection
-
提出端到端零样本视频异常检测框架 LAVIDA,通过异常暴露采样器将语义分割数据集转化为伪异常进行训练,结合 MLLM 提取深层异常语义特征和反注意力 token 压缩处理时空稀疏性,无需任何真实 VAD 数据即实现帧级/像素级 SOTA。
- OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models
-
提出 OddGridBench 评估 MLLM 的细粒度视觉差异感知能力(找出网格中与其他元素在颜色/大小/旋转/位置上不同的那个),发现所有 MLLM 远低于人类水平,进而提出 OddGrid-GRPO(课程学习 + 距离感知奖励)显著提升模型的视觉辨别力。
- Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models
-
发现VLM幻觉的新机制——"过度思考"(overthinking):模型在中间层产生过多竞争性物体假设导致混杂因子传播到最终层,提出Overthinking Score量化层间假设多样性与不确定性的乘积,在MSCOCO上达到78.9% F1的幻觉检测性能。
- Parallel In-context Learning for Large Vision Language Models
-
提出 Parallel-ICL,将多模态 in-context learning 的长 demonstration 上下文分块并行处理,通过加权 Product-of-Experts 在 logit 层集成,实现与全上下文 MM-ICL 相当甚至更优的性能,同时显著降低推理延迟。
- PointAlign: Feature-Level Alignment Regularization for 3D Vision-Language Models
-
提出 PointAlign,在 3D VLM 的 LLM 中间层对点云 token 施加特征级对齐正则化(与 Q-Former 输出对齐),仅训练轻量对齐投影器和 LoRA 适配器,即可有效防止几何信息在语言建模过程中退化,在开放词汇分类上提升 7.50pp。
- Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving
-
首个面向多视角自动驾驶 VLM 的即插即用 token 剪枝框架,通过 T-FPS(token 级最远点采样)保持语义与空间多样性,配合视图自适应剪枝率优化自动分配各摄像头 token 预算,在 DriveLM 上仅保留 10% token 即实现 6.40× prefill 加速且性能仅降 3%。
- Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving
-
首个面向多视角自动驾驶VLM的即插即用token剪枝框架Prune2Drive,通过T-FPS(token级最远点采样)保持语义/空间多样性 + 视图自适应剪枝率优化自动分配不同视角的token预算,在DriveLM上仅保留10% token即实现6.40×prefill加速且性能仅降3%。
- Quant Experts: Token-aware Adaptive Error Reconstruction for Large VLM Quantization
-
揭示VLM中重要通道的分布和出现频率在跨模态和token间差异显著,提出基于MoE的token感知PTQ框架:共享专家补偿全局token无关误差,路由专家自适应补偿局部token依赖误差,72B模型W4A6恢复5.09%精度。
- QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
-
提出 QuantVLA,首个面向 Vision-Language-Action (VLA) 模型的免训练后量化框架,通过选择性量化布局和两个轻量级标定机制(注意力温度匹配 ATM 和输出头平衡 OHB),在 W4A8 精度下实现约 70% 的内存节省,同时任务成功率超过全精度基线。
- Reallocating Attention Across Layers to Reduce Multimodal Hallucination
-
提出一种轻量级、无需训练的插件方法,通过识别感知型和推理型注意力头并进行类别条件缩放(Class-Conditioned Rescaling),重新平衡跨层注意力分配,从而缓解多模态大推理模型(MLRM)中的幻觉问题,在5个基准上平均提升4.2%,几乎无额外推理开销。
- Reallocating Attention Across Layers to Reduce Multimodal Hallucination
-
将多模态推理模型幻觉分解为浅层的感知偏差和深层的推理漂移两种失效模式,通过识别感知/推理功能头并选择性放大其贡献,以即插即用、无需训练的方式平均提升4.2%准确率,仅增加约1%计算开销。
- Reasonmap Towards Fine-Grained Visual Reasoning From Transit Maps
-
提出 ReasonMap 基准,利用 30 个城市的高分辨率公交地图构建 1,008 个 QA 对,通过两级评估框架(正确性+质量)系统评估 16 个 MLLM 的细粒度视觉推理能力,发现开源模型中 base 优于 reasoning 而闭源模型相反。
- ReasonMap: Towards Fine-Grained Visual Reasoning from Transit Maps
-
提出ReasonMap基准——用30个城市的高分辨率地铁图+1008个人工验证问答对评估MLLM的细粒度视觉理解与空间推理能力,发现反直觉现象:开源推理模型反而不如base模型而闭源相反,揭示视觉定位(grounding)是开闭源差距的关键因素。
- Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress
-
提出 R²VLM,通过循环推理框架逐步处理本地视频片段,维护动态更新的 CoT 记录任务分解和完成状态,结合多维 RL 奖励实现长时域具身任务进度估计的 SOTA,并支持策略学习、奖励建模、主动辅助等下游应用。
- ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation
-
提出ReHARK——一个训练免的CLIP one-shot适应框架,通过融合CLIP文本知识、GPT3语义描述和视觉原型构建混合先验,结合多尺度RBF核在RKHS中做全局近端正则化,在11个基准上以65.83%平均准确率刷新one-shot SOTA。
- ReMoRa: Multimodal Large Language Model based on Refined Motion Representation for Long-Video Understanding
-
提出 ReMoRa,直接操作视频压缩表示(I帧 + 运动向量),通过 Refined Motion Representation (RMR) 模块将粗糙的块级运动向量精化为接近光流的细粒度运动表征,再用 Hierarchical Motion State Space (HMSS) 模块进行线性时间的长程时间建模,在 LongVideoBench、NExT-QA、MLVU 等基准上超越基线。
- Rethinking MLLM Itself as a Segmenter with a Single Segmentation Token
-
提出 SELF1E,首次实现不依赖专用 mask 解码器且仅用单个 [SEG] token 的 MLLM 分割方法,通过 Residual Features Refilling (RFR) 和 Residual Features Amplifier (RFA) 恢复 pixel-shuffle 压缩造成的分辨率损失,在多个分割任务上达到与解码器方法竞争力相当的性能。
- Revisiting Model Stitching In the Foundation Model Era
-
系统研究异质视觉基础模型(CLIP/DINOv2/SigLIP2/DINOv3)之间的"可拼接性",发现通过Final Feature Matching预训练stitch层可实现可靠拼接,且拼接模型一致超越self-stitch基线,并提出VFM Stitch Tree(VST)在仅4.3%额外开销下恢复45%的多VFM性能增益。
- Revisiting Model Stitching In the Foundation Model Era
-
提出针对异构视觉基础模型(VFM)的两阶段拼接训练方法(Final Feature Matching + Task Loss Training),证明异构VFM可以可靠拼接且融合互补知识,并设计VFM Stitch Tree (VST)架构实现多VFM系统的可控精度-效率权衡。
- Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach
-
提出FlashCache——首个不依赖注意力分数、无需训练的多模态KV Cache压缩框架,通过频域低通滤波识别Outlier KV并动态分配各层预算,在保持性能的前提下实现80%内存节省和1.69×解码加速。
- RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations
-
提出 RobustVisRAG,一个因果引导的双路径框架,通过非因果路径捕获退化信号、因果路径学习纯净语义来解耦 VisRAG 中的语义-退化纠缠,在真实世界退化条件下检索、生成和端到端性能分别提升 7.35%、6.35% 和 12.40%,同时保持干净数据上的性能。
- SaPaVe: Towards Active Perception and Manipulation in VLA Models for Robotics
-
提出SaPaVe端到端主动操作框架,通过解耦相机动作和操作动作的自底向上训练策略(先学语义主动感知再学主动视角执行),配合200K相机控制数据集和3D空间知识注入,在真实世界任务中超越π0和GR00T N1高达31-40%成功率。
- Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework
-
提出 Self-Critical Inference (SCI) 框架,通过多轮文本+视觉反事实推理的 logit 聚合来同时解决 LVLM 的语言偏差和语言敏感性问题,并提出 DRBench 动态鲁棒性基准来模型特异地评估鲁棒性。增加反事实推理轮次可持续提升鲁棒性,开辟了测试时缩放的新方向。
- Seeing Clearly, Reasoning Confidently: Plug-and-Play Remedies for Vision Language Model Blindness
-
提出一种高效的即插即用模块,通过学习多模态类嵌入来增强 VLM 对稀有物体的识别和推理能力:在视觉端用 cross-attention 适配器精化视觉 token,在文本端注入物体检测提示,无需微调 VLM 即可在 CODA-LM 上获得 72.8→75.4 的显著提升。
- SldprtNet: A Large-Scale Multimodal Dataset for CAD Generation in Language-Driven 3D Design
-
构建SldprtNet——含242K+工业CAD零件的大规模多模态数据集,每个样本包含.sldprt/.step模型、7视角合成图、参数化建模脚本(13种命令无损编解码)和Qwen2.5-VL生成的自然语言描述,baseline实验验证多模态输入(图+文)在CAD生成上优于纯文本输入。
- SoPE: Spherical Coordinate-Based Positional Embedding for 3D LVLMs
-
揭示RoPE在3D LMM中的空间感知偏差——1D光栅索引无法保持3D结构且忽略方向变化,提出球面坐标位置编码SoPE(\(t,r,\theta,\phi\)四维索引+多维频率分配+多尺度混合),显著提升3D布局估计和物体检测。
- SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models
-
提出SpatiaLQA基准(9605个QA对、241个真实室内场景),系统评估41个VLM在空间逻辑推理上的表现,并设计递归场景图辅助推理方法来提升VLM的空间逻辑推理能力。
- SSR2-GCD: Multi-Modal Representation Learning via Semi-Supervised Rate Reduction for Generalized Category Discovery
-
提出SSR2-GCD框架,通过半监督率缩减(SSR2)损失替代传统对比损失来学习均匀压缩的结构化表示,并发现模态间对齐在多模态GCD中不仅不必要甚至有害,在Stanford Cars和Flowers102上分别领先SOTA 3.1%和6.3%。
- See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles (StaR)
-
揭示现有多模态GUI Agent在开关控制(toggle)任务上的严重失败(GPT-5仅37% O-AMR),提出State-aware Reasoning (StaR)方法通过三步推理链(感知当前状态→分析目标状态→决定是否操作)将执行准确率提升30%+,同时不损害通用Agent能力。
- Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
-
提出TARA框架,通过将LMM的中间表示与生物基础模型(BFM)的分类学感知特征对齐,为大型多模态模型注入分类层次知识,显著提升已知和新颖类别的层次化视觉识别性能。
- Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach
-
提出四模态(场景VideoMAE+人脸EfficientNetB0+音频Wav2Vec2.0+Mamba+文本EmotionDistilRoBERTa)融合管线,通过原型增强Transformer融合模块将模态嵌入投影到共享空间并结合原型分类辅助损失,在BAH测试集上以5模型集成达到71.43% Macro F1。
- Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach
-
提出三模态连续VA估计方法,首次将VLM(Qwen3-VL-4B)生成的情感行为描述嵌入作为独立模态,与GRADA人脸编码器和WavLM音频特征通过两种融合策略(DCMMOE和RAAV)组合,在Aff-Wild2上达到CCC 0.658(dev)/0.62(test)。
- Test-Time Attention Purification for Backdoored Large Vision Language Models
-
发现LVLM后门行为的本质是跨模态注意力窃取(trigger视觉token抢夺文本token的注意力),提出CleanSight——首个无需训练的测试时后门防御框架,通过检测和剪枝高注意力trigger token来消除后门效应。
- Text-Only Training for Image Captioning with Retrieval Augmentation and Modality Gap Correction
-
提出TOMCap——一种纯文本训练的图像描述方法,通过检索增强+模态差距修正+LoRA微调,在训练时只用文本而推理时处理图像,超越了已有的无训练和纯文本方法。
- Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans (HouseMind)
-
提出 HouseMind,通过层次化 VQ-VAE 将建筑平面图离散化为房间级空间 token,在统一的 MLLM 框架中实现平面图理解、生成和编辑三大任务,在几何有效性和可控性上全面超越扩散模型和通用 VLM 基线。
- Topo-R1: Detecting Topological Anomalies via Vision-Language Models
-
提出Topo-R1——首个赋予VLM拓扑感知能力的框架,通过自动化数据构建管线+SFT+GRPO强化学习(含拓扑感知复合奖励),实现无标注的管状结构拓扑异常检测与分类。
- Towards Calibrating Prompt Tuning of Vision-Language Models
-
针对prompt tuning后CLIP面临的"双重误校准"问题(基类欠自信+新类过自信),提出均值-方差margin正则化和文本矩匹配损失两个互补正则项,作为即插即用模块在7种prompt tuning方法和11个数据集上显著降低ECE。
- Towards Faithful Multimodal Concept Bottleneck Models
-
提出f-CBM——首个忠实的多模态概念瓶颈模型框架,通过可微分泄漏损失减少概念表示中的非预期信息泄漏,同时用Kolmogorov-Arnold Network (KAN) 预测头提升概念检测精度,在任务准确率、概念检测和泄漏减少间取得最优Pareto前沿。
- Towards Multimodal Domain Generalization with Few Labels
-
定义并研究半监督多模态域泛化(SSMDG)新问题,提出融合一致性驱动伪标签、分歧感知正则化和跨模态原型对齐的统一框架,在少量标注下实现多模态模型的跨域泛化。
- UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark
-
提出首个统一的任意到任意交错多模态基准 UniM(31K 样本、7 种模态、30 个领域),配套三维评估体系和基于可追溯推理的智能体基线 UniMA,揭示现有 MLLM 在交错多模态范式下的严重不足。
- UniMMAD: Unified Multi-Modal and Multi-Class Anomaly Detection via MoE-Driven Feature Decompression
-
提出 UniMMAD, 首个统一多模态 (RGB/Depth/IR 等) 多类别异常检测框架, 通过 General-to-Specific 范式: 通用多模态编码器压缩特征, Cross Mixture-of-Experts (C-MoE) 解压为域特定特征, 在 5 个数据集 (含工业/医学/合成场景) 上取得 SOTA, 59 FPS 推理速度.
- Unimmad Unified Multi-Modal And Multi-Class Anomaly Detection Via Moe-Driven Fea
-
提出 UniMMAD,首个用单一参数集同时处理多模态、多类别异常检测的统一框架,核心是基于 MoE 的特征解压缩机制,将通用多模态编码特征自适应分解为领域特定的单模态重建,在 9 个数据集(3 个领域、12 种模态、66 个类别)上达到 SOTA。
- V2Drop: Variation-aware Vision Token Dropping for Faster Large Vision-Language Models
-
首次从token变化量视角出发,发现LLM层间变化小的"懒惰"视觉token对输出影响可忽略,提出V2Drop渐进式剪除低变化token,在图像理解上保留94.0%性能同时减少31.5%生成延迟,视频理解上保留98.6%性能减少74.2%延迟,且完全兼容FlashAttention。
- Variation-Aware Vision Token Dropping for Faster Large Vision-Language Models
-
提出 V2Drop,首次从 token 变化量(variation)视角出发,通过渐进式丢弃 LLM 内部变化量最小的"懒惰"视觉 token,实现无训练、无位置偏差、兼容高效算子的 LVLM 推理加速,在图像和视频理解任务中分别保留 94.0% 和 98.6% 原始性能,同时降低 LLM 生成延迟 31.5% 和 74.2%。
- Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping
-
定义审美指导(AG)新任务并构建AesGuide基准(10748张照片含审美评分、分析和指导标注),提出Venus两阶段框架——先通过渐进式审美问答赋能MLLM审美指导能力,再通过CoT推理激活审美裁剪能力,在两个任务上均达到SOTA。
- VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving
-
提出VGGDrive框架,通过冻结的3D视觉基础模型VGGT为VLM注入跨视图几何感知能力,设计插拔式CVGE模块分层自适应地将3D特征注入VLM各层的2D视觉嵌入中,在五个自动驾驶基准上实现显著性能提升。
- VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion
-
构建M3SVD大规模红外-可见光视频数据集(220视频/15万帧),并提出VideoFusion框架,通过跨模态差分强化模块(CmDRM)+完整模态引导融合(CMGF)+双向时序共注意力(BiCAM)+变分一致性损失,实现时空协同的多模态视频融合,在融合质量和时序一致性上超越现有图像融合和视频融合方法。
- Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning
-
提出MedCBR框架,通过将临床诊断指南(如BI-RADS)融入概念瓶颈模型的训练和推理过程,利用LVLM生成指南一致性报告增强概念监督,结合多任务CLIP训练和大推理模型生成结构化临床解释,在超声和乳腺X光癌症检测上达到94.2%和84.0%的AUROC。
- VL-RouterBench: A Benchmark for Vision-Language Model Routing
-
提出VL-RouterBench,首个面向视觉-语言模型的系统性路由基准,涵盖14个数据集、17个候选模型和519,180个样本-模型对,评估10种路由方法,并发现当前最优路由器与理想Oracle之间仍存在显著差距。
- VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models
-
提出VLM-Loc框架,将3D点云地图转换为BEV图像和场景图供VLM进行结构化空间推理,结合部分节点分配(PNA)机制实现文本-点云精细定位,在自建的CityLoc基准上以Recall@5m提升14.20%大幅超越先前SOTA。
- VLM-Pruner: Buffering for Spatial Sparsity in an Efficient VLM Centrifugal Token Pruning Paradigm
-
提出VLM-Pruner,一种免训练的离心式token剪枝方法,通过空间稀疏缓冲(BSS)准则平衡冗余消除与局部细节完整性,在88.9%剪枝率下跨5个VLM一致超越现有方法,同时实现端到端推理加速。
- Do Vision-Language Models Leak What They Learn? Adaptive Token-Weighted Model Inversion Attacks
-
首次系统研究 VLM 的模型反转(Model Inversion)攻击,提出一套面向 token 生成特性的反转策略(TMI/TMI-C/SMI),以及基于视觉注意力强度动态加权 token 梯度贡献的 SMI-AW 方法,在 4 种 VLM 和 3 个数据集上实现最高 61.21% 的人类评估攻击准确率,揭示了 VLM 严重的训练数据隐私泄露风险。
- What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models
-
提出EmbedLens探针工具系统分析MLLM中视觉token的内部结构,发现视觉token分为sink/dead/alive三类(约40%为无用token),alive token已在进入LLM前编码丰富语义("预语言"特性),且LLM内部视觉计算对大多数任务冗余,直接中层注入即可。
- When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs
-
发现VLLM深层中现有token剪枝方法不如随机剪枝的现象,提出基于输出概率变化量化视觉token信息的方法,揭示了"信息地平线"——视觉token信息在某层均匀消散至零的临界层,其位置受任务视觉复杂度和模型能力动态影响,并证明简单集成随机剪枝能有效提升现有方法。
- Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation
-
提出Eagle,一个轻量级黑盒归因框架,通过insight score(充分性)和necessity score(不可或缺性)的统一目标函数对MLLM的自回归token生成进行空间归因,并量化每个token依赖语言先验还是感知证据,在忠实度/定位/幻觉诊断上全面超越现有方法且GPU显存需求大幅降低。
🧊 3D 视觉¶
- 4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video
-
将马科动物4D重建解耦为运动估计(AniMoFormer时空Transformer+后优化)和外观重建(EquineGS前馈3DGS)两个子任务,用VAREN参数化模型做桥梁,仅在合成数据(VarenPoser+VarenTex)上训练即在真实数据APT-36K和AiM上达到SOTA,并能零样本泛化到斑马和驴。
- A Prediction-as-Perception Framework for 3D Object Detection
-
受人脑"预测性感知"机制启发,提出 PAP 框架——将历史帧的轨迹预测结果作为 query 注入当前帧的感知模块,在 UniAD 上实现跟踪精度提升 10%、推理速度提升 15%。
- A Prediction-as-Perception Framework for 3D Object Detection
-
借鉴人类"预判目标位置再聚焦观察"的认知模式,将前一帧的轨迹预测结果转化为当前帧的检测query,形成预测-感知迭代闭环,在UniAD上实现跟踪精度+10%和推理速度+15%的同步提升。
- GAP: Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation
-
GAP利用预训练3D几何基础模型(π³)提取3D特征,融合2D语义和本体感知,通过条件扩散联合预测未来动作序列和未来3D pointmap,在RoboTwin 2.0和真实双臂实验中达到SOTA。
- AnyPcc: Compressing Any Point Cloud with a Single Universal Model
-
提出 AnyPcc,通过 Universal Context Model(融合空间+通道双粒度先验)和 Instance-Adaptive Fine-Tuning(实例自适应微调)策略,用单一模型在 15 个多样化数据集上实现 SOTA 点云几何压缩,相比 G-PCC v23 获得 ~12% 的码率增益。
- AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models
-
提出 AVA-Bench,首个将视觉基础模型(VFM)的能力解耦为 14 种原子视觉能力(AVA)的系统性评测基准,通过训练-测试分布对齐和单一能力隔离测试,精准定位 VFM 的强项与短板,并发现 0.5B 小模型即可保持与 7B 模型相当的 VFM 排名一致性。
- AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models
-
提出 AVA-Bench,将视觉基础模型(VFM)的评估分解为14种"原子视觉能力"(AVA),通过训练/测试分布对齐和单能力隔离测试,精确定位 VFM 的优势和短板,发现0.5B的LLM就能保持与7B相同的VFM排名,评估成本降低8倍。
- BRepGaussian: CAD Reconstruction from Multi-View Images with Gaussian Splatting
-
BRepGaussian 首次实现了从多视图图像直接重建完整 B-rep CAD 模型,通过两阶段的 2D 高斯泼溅学习边缘和面片特征,再经参数化拟合生成水密的边界表示,无需点云监督。
- Catalyst4D: High-Fidelity 3D-to-4D Scene Editing via Dynamic Propagation
-
提出Catalyst4D框架,将高质量的3D静态编辑结果通过锚点运动引导(AMG)和颜色不确定性外观精炼(CUAR)两个模块传播到4D动态高斯场景中,实现时空一致的高保真动态场景编辑。
- Catalyst4D: High-Fidelity 3D-to-4D Scene Editing via Dynamic Propagation
-
提出Catalyst4D框架,通过锚点运动引导(AMG)和颜色不确定性外观精炼(CUAR)两个模块,将高质量的3D静态编辑结果传播到动态4D高斯场景中,避免了直接4D编辑的运动伪影和时间不一致问题。
- Changes in Real Time: Online Scene Change Detection with Multi-View Fusion
-
提出首个同时具备在线、姿态无关、无标注、多视角一致性的场景变化检测(SCD)方法,通过自监督融合损失将像素级和特征级变化线索集成到 3DGS 变化表示中,在超过 10 FPS 的实时速率下超越了所有已有离线方法的检测精度。
- CLIPoint3D: Language-Grounded Few-Shot Unsupervised 3D Point Cloud Domain Adaptation
-
首个基于 CLIP 的少样本无监督 3D 点云域自适应框架,通过知识驱动的 prompt tuning、参数高效微调、熵引导视图选取和不确定性感知对齐损失,在 PointDA-10 和 GraspNetPC-10 上以仅 ~11M 可训练参数取得 3-16% 的一致性精度提升。
- Cmhanet A Cross-Modal Hybrid Attention Network For Point Cloud Registration
-
提出 CMHANet,通过跨模态混合注意力机制将 2D 图像纹理语义特征与 3D 点云几何特征深度融合,结合对比学习优化函数,在 3DMatch/3DLoMatch 上实现 SOTA 点云配准性能。
- CMHANet: A Cross-Modal Hybrid Attention Network for Point Cloud Registration
-
提出CMHANet,通过三阶段混合注意力(几何self-attention→图像aggregation-attention→源-目标cross-attention)融合2D图像纹理语义与3D点云几何信息,并引入跨模态对比损失,在3DMatch/3DLoMatch上达到最优配准性能。
- Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
-
提出CHROMM统一框架,从多人多视图视频中一次性联合估计相机参数、场景点云和人体网格(SMPL-X),无需外部模块或预处理数据,在全局人体运动估计和多视图位姿估计任务上取得竞争力性能,且比优化方法快8倍以上。
- Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
-
提出 CHROMM 统一框架,从多人多视图视频中一次性联合估计相机参数、场景点云和人体网格,无需外部模块或预处理数据,在 RICH 上 WA-MPJPE 达 53.1mm 且比优化方法快 8 倍以上。
- Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation
-
Context-Nav 将长文本描述的上下文信息从后验验证信号提升为前驱探索先验——通过上下文驱动的 value map 引导前沿选择,并在候选目标处执行视点感知的 3D 空间关系验证,在 InstanceNav 和 CoIN-Bench 上无需任何训练即取得 SOTA。
- CrowdGaussian: Reconstructing High-Fidelity 3D Gaussians for Human Crowd from a Single Image
-
CrowdGaussian 提出了从单张图像重建多人 3D 高斯泼溅表示的统一框架,通过自监督适配的大型遮挡人体重建模型(LORM)恢复被遮挡区域的完整几何,再通过自校准学习(SCL)训练的单步扩散精炼器(CrowdRefiner)提升纹理细节质量。
- CustomTex: High-fidelity Indoor Scene Texturing via Multi-Reference Customization
-
提出CustomTex框架,通过实例级的多参考图像驱动和双蒸馏训练策略(语义级VSD蒸馏+像素级超分蒸馏),实现3D室内场景的高保真、实例可控纹理生成,在语义一致性、纹理清晰度和减少"烘焙阴影"方面全面超越现有方法。
- Dark3R Learning Structure From Motion In The Dark
-
提出 Dark3R 框架,通过教师-学生蒸馏将 MASt3R 的3D先验迁移到极端低光照(SNR < −4 dB)原始图像上,实现了传统方法完全失败的暗光环境下的运动恢复结构(SfM)和新视角合成。
- DMAligner: Enhancing Image Alignment via Diffusion Model Based View Synthesis
-
提出 DMAligner,将图像对齐问题从传统的光流 warp 范式转化为"对齐导向的视图合成"任务,利用条件扩散模型直接生成对齐后的完整图像,配合专门构建的 DSIA 合成数据集和动态感知掩码模块(DMP),有效避免了 warp 方法固有的 ghosting 和遮挡伪影,在多个基准上全面超越现有方法。
- DROID-W: DROID-SLAM in the Wild
-
提出 DROID-W,通过将不确定性估计引入可微分 Bundle Adjustment(Uncertainty-aware BA),结合 DINOv2 特征驱动的动态不确定性更新机制和单目深度正则化,使 DROID-SLAM 在高度动态的野外(in-the-wild)场景中实现鲁棒的相机位姿估计和场景重建,约 10 FPS 实时运行。
- Dropping Anchor And Spherical Harmonics For Sparse-View Gaussian Splatting
-
针对 3DGS 在稀疏视角下的过拟合问题,提出 DropAnSH-GS:用 Anchor-based Dropout(丢弃锚点及其邻域的 Gaussian 簇)替代独立随机 Dropout 来破坏局部冗余补偿效应,同时引入球谐函数(SH)Dropout 抑制高阶 SH 过拟合并支持训练后无损压缩。
- DuoMo: Dual Motion Diffusion for World-Space Human Reconstruction
-
提出 DuoMo,将世界空间人体运动重建分解为两个独立的扩散模型:camera-space 模型从视频提取泛化性强的相机坐标运动估计,world-space 模型将 lifting 后的噪声提案精炼为全局一致的世界坐标运动。直接生成 mesh 顶点运动而非 SMPL 参数,在 EMDB 上 W-MPJPE 降低 16%,RICH 上降低 30%。
- Dynamic Black-Hole Emission Tomography With Physics-Informed Neural Fields
-
提出 PI-DEF,利用物理信息约束的坐标神经网络同时重建黑洞附近气体的 4D(时间+3D)发射率场和 3D 速度场,在稀疏 EHT 测量下显著优于硬约束 Keplerian 动力学的 BH-NeRF。
- E2EGS: Event-to-Edge Gaussian Splatting for Pose-Free 3D Reconstruction
-
提出 E2EGS,一个完全基于事件流的无位姿 3D 重建框架:通过 patch-based 时间一致性分析从事件流中提取抗噪边缘图,利用边缘信息指导高斯初始化和加权损失优化,在无需深度模型或 RGB 输入的情况下实现了高质量的轨迹估计和 3D 重建。
- Easy3E: Feed-Forward 3D Asset Editing via Rectified Voxel Flow
-
提出基于 TRELLIS 3D 生成骨干的前馈式 3D 资产编辑框架,通过 Voxel FlowEdit 在稀疏体素潜空间中实现全局一致的几何形变,并结合法线引导的多视角纹理精修恢复高频细节。
- Ego-1K: A Large-Scale Multiview Video Dataset for Egocentric Vision
-
提出 Ego-1K,一个包含 956 段短视频的大规模时间同步第一人称多视角视频数据集(12+4 相机、60Hz),填补了第一人称动态 3D 重建领域的数据空白,并展示立体深度引导可大幅提升 4D 新视角合成质量。
- Embodiedsplat Online Feed-Forward Semantic 3Dgs For Open-Vocabulary 3D Scene Und
-
提出 EmbodiedSplat,首个在线前馈式语义 3DGS 框架,通过稀疏系数场+CLIP全局码本实现内存高效的逐高斯语义表示,结合3D几何感知特征,在300+帧流式输入下以5-6 FPS实现全场景开放词汇3D理解。
- EMGauss: Continuous Slice-to-3D Reconstruction via Dynamic Gaussian Modeling in Volume Electron Microscopy
-
将体电子显微镜(vEM)的各向异性切片重建问题重新建模为基于可变形2D高斯溅射的动态3D场景渲染任务,通过Teacher-Student伪标签机制在数据稀疏条件下实现高保真连续切片合成。
- Enhancing Hands in 3D Whole-Body Pose Estimation with Conditional Hands Modulator
-
提出Hand4Whole++模块化框架,通过轻量级CHAM模块将预训练手部估计器的特征注入冻结的全身姿态估计器中,实现手腕方向的精准预测,并通过可微刚性对齐从手部模型迁移精细手指关节和手部形状。
- FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning
-
提出FaceCam系统,通过面部地标(facial landmarks)作为尺度感知的相机表示来解决单目人像视频的相机控制问题,避免了传统相机外参表示的尺度歧义,并设计了合成相机运动和多镜头拼接两种数据增强策略支持连续相机轨迹推理。
- FastGS: Training 3D Gaussian Splatting in 100 Seconds
-
提出 FastGS,一个基于多视角一致性的 3DGS 加速框架,通过多视角一致性密集化(VCD)和多视角一致性剪枝(VCP)策略精准控制 Gaussian 数量,在 Mip-NeRF 360 等数据集上实现约 100 秒完成场景训练,相比 vanilla 3DGS 加速 15× 以上,且渲染质量可比。
- ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph
-
提出 ForgeDreamer 框架,通过多专家 LoRA 师生蒸馏解决工业领域语义适配问题,结合跨视角超图几何增强实现高阶几何一致性约束,在工业文本到3D生成任务上超越现有方法。
- From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection
-
将关键点检测从「图像对匹配」范式转变为「序列级可追踪性优化」,通过强化学习框架 TraqPoint 在图像序列上直接优化关键点的长期追踪质量,在位姿估计、视觉定位、视觉里程计和三维重建任务上均超越 SOTA。
- GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis
-
提出Data-to-Data Flow Matching直接学习视角间确定性变换,并引入概率密度测地线正则化使流路径沿数据流形高密度区域传播,在NVS中实现更好的跨视角一致性和几何保真度。
- GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis
-
提出概率密度测地线 Flow Matching (PDG-FM) 框架,通过数据到数据的确定性流匹配替代噪声到数据的扩散过程,并利用基于概率密度的测地线优化使插值路径沿数据流形高密度区域行进,实现更几何一致的新视角合成。
- Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context
-
提出 Geometry-as-Context (GaC) 框架,将基于重建的场景视频生成中的不可微算子(3D重建+渲染)替换为统一的自回归视频生成模型,通过将几何信息(深度图)作为交错上下文嵌入生成序列,实现端到端训练并缓解累积误差。
- GGPT: Geometry Grounded Point Transformer
-
提出 GGPT 框架,通过改进的轻量 SfM 管线获取几何一致但稀疏的 3D 点云,再用 3D Point Transformer 在三维空间中直接融合稀疏几何引导与稠密前馈预测,实现跨架构、跨数据集的显著泛化提升。
- Global-Aware Edge Prioritization for Pose Graph Initialization
-
提出基于GNN的全局边优先级排序方法,将位姿图初始化从独立的逐对图像检索升级为全局结构感知的边排序+多最小生成树构建,在极稀疏设置下显著提升SfM重建精度。
- GS-CLIP: Zero-shot 3D Anomaly Detection by Geometry-Aware Prompt and Synergistic View Representation Learning
-
提出GS-CLIP两阶段框架,通过几何缺陷蒸馏模块将3D点云的全局形状和局部缺陷信息注入文本提示,并用LoRA双流架构协同融合渲染图和深度图,在四个大规模数据集上实现零样本3D异常检测SOTA。
- HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation
-
将单图3D人体重建转化为360°轨道视频生成问题,用仅500个3D扫描数据LoRA微调视频扩散模型(Wan 2.1)生成81帧环绕视频,再通过VGGT+Mesh Carving重建高质量纹理网格,无需位姿标注且在多视图一致性和身份保持上超越现有方法。
- Hybrid eTFCE–GRF: Exact Cluster-Size Retrieval with Analytical p-Values for Voxel-Based Morphometry
-
提出将 eTFCE 的 union-find 精确聚类大小检索与 pTFCE 的 GRF 解析推断相结合的混合方法,首次同时实现精确聚类大小查询与无需置换检验的分析型 \(p\) 值计算,比 R pTFCE 快 \(4.6\times\)–\(75\times\)。
- Hybrid eTFCE–GRF: Exact Cluster-Size Retrieval with Analytical p-Values for Voxel-Based Morphometry
-
将 eTFCE 的并查集精确聚类大小提取与 pTFCE 的解析 GRF 推断相结合,首次同时实现精确聚类大小查询和无置换检验的解析 p 值,在全脑 VBM 分析上比 R pTFCE 快 4.6–75 倍,比置换 TFCE 快三个数量级。
- HyperMVP: Hyperbolic Multiview Pretraining for Robotic Manipulation
-
提出 HyperMVP,首个在双曲空间中进行3D多视角自监督预训练的框架,通过 GeoLink 编码器学习双曲多视角表征并迁移到机器人操作任务,在 COLOSSEUM 最困难的 All Perturbations 设置下实现 2.1× 性能提升。
- Igasa Integrated Geometry-Aware And Skip-Attention Modules For Enhanced Point Cl
-
提出 IGASA 框架,通过分层金字塔架构 (HPA) + 分层跨层注意力 (HCLA) + 迭代几何感知精修 (IGAR) 三级流水线,弥合多尺度特征的语义鸿沟并动态抑制离群点,在 3D(Lo)Match、KITTI、nuScenes 四大基准上全面超越 SOTA。
- IGASA: Integrated Geometry-Aware and Skip-Attention Modules for Enhanced Point Cloud Registration
-
提出 IGASA 点云配准框架,通过层级金字塔架构 (HPA) + 层级跨层注意力 (HCLA) 的跳跃注意力融合 + 迭代几何感知精细化 (IGAR) 的动态一致性加权,在 3DMatch 上达到 94.6% Registration Recall(SOTA),在 KITTI 上达到 100% RR,总推理时间仅 2.763s。
- InstantHDR: Single-forward Gaussian Splatting for High Dynamic Range 3D Reconstruction
-
提出 InstantHDR,首个前馈式 HDR 新视角合成方法,通过几何引导的外观建模实现多曝光融合,配合元网络学习场景自适应色调映射器,在单次前向传播中从未校准的多曝光 LDR 图像重建 HDR 3D 场景,比优化方法快 ~700×(前馈)/ ~20×(后优化)。
- InstantHDR: Single-forward Gaussian Splatting for High Dynamic Range 3D Reconstruction
-
提出首个前馈HDR新视角合成方法InstantHDR,通过几何引导的外观建模和色调映射元网络,从未标定多曝光LDR图像中单次前向重建HDR 3D高斯场景,速度比优化方法快~700×,后优化版本快~20×且质量可比。
- JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas
-
提出 JOPP-3D,首个联合处理3D点云和全景图像的开放词汇语义分割框架,通过切向分解将全景图映射到正二十面体面、用 SAM+CLIP 提取语义对齐的3D实例嵌入,在 S3DIS 上以弱监督达到 80.9% mIoU 超越所有封闭词汇方法。
- JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas
-
提出JOPP-3D——首个联合处理点云和全景图的开放词汇语义分割框架,通过正二十面体切向分解将全景图转为透视图后利用SAM+CLIP提取实例级语义嵌入,再经深度对应实现3D→全景语义回投,在S3DIS上以80.9% mIoU超越所有监督/无监督方法(含PointTransformerV3的73.4%),全景分割70.1% mIoU大幅领先。
- ECKConv: Learning Coordinate-based Convolutional Kernels for Continuous SE(3) Equivariant Point Cloud Analysis
-
提出ECKConv,在intertwiner框架下将卷积核定义在双陪集空间 \(\text{SO(2)}\backslash\text{SE(3)}/\text{SO(2)}\) 上,通过坐标网络显式参数化核函数,首次实现连续SE(3)等变性与大规模可扩展性的兼得,在分类、配准、分割四类任务上全面验证。
- Let It Snow Animating 3D Gaussian Scenes With Dynamic Weather Effects Via Physic
-
提出 Physics-Guided Score Distillation 框架,利用物理仿真(MPM)作为运动先验引导 Video-SDS 优化,在静态 3DGS 场景中生成具有物理合理运动和真实感外观的动态天气效果(降雪、降雨、雾、沙尘暴)。
- Lite Any Stereo: Efficient Zero-Shot Stereo Matching
-
提出Lite Any Stereo,通过混合2D-3D代价聚合模块和三阶段百万级数据训练策略(监督→自蒸馏→真实数据知识蒸馏),以不到SOTA精确方法1%的计算量(33G MACs),在四个real-world benchmark上ranking 1st,首次证明超轻量模型可具备强零样本泛化能力。
- LongStream: Long-Sequence Streaming Autoregressive Visual Geometry
-
提出LongStream,一种gauge-decoupled的流式视觉几何模型,通过关键帧相对位姿预测、正交尺度学习和缓存一致性训练,实现千帧级别稳定的度量尺度实时(18 FPS)场景重建。
- LoST: Level of Semantics Tokenization for 3D Shapes
-
提出Level-of-Semantics Tokenization (LoST),按语义显著性排序3D形状token,使短前缀即可解码出完整且语义合理的形状,配合RIDA语义对齐损失和GPT式自回归生成,仅用128个token即显著超越现有需数万token的3D AR方法。
- LTGS: Long-Term Gaussian Scene Chronology From Sparse View Updates
-
提出 LTGS 框架,通过构建可复用的物体级高斯模板,从时空稀疏的观测图像中高效更新 3DGS 场景重建,实现长期环境演化的时序建模。
- M3DLayout: A Multi-Source Dataset of 3D Indoor Layouts and Structured Descriptions for 3D Generation
-
构建了多源大规模 3D 室内布局数据集 M3DLayout(21,367 布局、433k+ 物体实例),融合真实扫描、专业设计和程序化生成三种来源,配以结构化文本描述,为文本驱动的 3D 场景生成提供高质量训练基础。
- MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer
-
提出 MoRe,一种前馈式运动感知 4D 重建 Transformer,通过注意力强制策略在训练时解耦动态运动与静态结构,结合分组因果注意力实现高效流式推理,在动态场景的相机位姿估计和深度预测上达到 SOTA。
- Motion-Aware Animatable Gaussian Avatars Deblurring
-
提出首个从模糊视频直接重建清晰可动画3D人体高斯Avatar的方法,通过3D感知的物理模糊形成模型和基于SMPL的人体运动模型,联合优化Avatar表示和运动参数。
- MotionAnymesh: Physics-Grounded Articulation for Simulation-Ready Digital Twins
-
提出MotionAnymesh,一个零样本自动框架,通过运动感知分割(SP4D先验+VLM推理)和几何-物理联合优化关节估计,将静态3D网格转化为无碰撞的仿真就绪铰接数字孪生,在PartNet-Mobility和Objaverse上物理可执行性达87%。
- MotionAnymesh: Physics-Grounded Articulation for Simulation-Ready Digital Twins
-
提出MotionAnymesh零样本框架,通过SP4D运动学先验引导VLM消除运动学幻觉,并用物理约束轨迹优化保证无碰撞铰接,将静态3D网格自动转换为可在SAPIEN等物理引擎中直接使用的URDF数字孪生,物理可执行率达87%,远超现有方法。
- MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation
-
提出多模态 3D 场景图(M3DSG)——用动态分配的图像替代纯文本关系边保留视觉线索,基于此构建 MSGNav 零样本导航系统,包含关键子图选择、自适应词汇更新、闭环推理和基于可见性的视角决策模块,在 GOAT-Bench 和 HM3D-ObjNav 上取得 SOTA。
- Nanosd Edge Efficient Foundation Model For Real Time Image Restoration
-
提出 NanoSD,通过对 SD 1.5 进行硬件感知的 U-Net 分解、逐块特征蒸馏和多目标贝叶斯优化,构建了一族 Pareto 最优的轻量扩散基础模型(130M–315M 参数,最快 12ms 推理),可作为 drop-in backbone 在超分、人脸修复、去模糊、单目深度估计等多任务上达到 SOTA 级表现。
- NERFIFY: 多智能体框架将NeRF论文自动转化为可运行代码
-
提出NERFIFY——通过6项关键创新(CFG约束、GoT代码合成、引用链组件恢复、视觉反馈修复、知识增强、系统评测),将NeRF论文可靠转化为可训练的Nerfstudio插件,在无公开实现的论文上达到±0.5dB PSNR的专家级复现质量,实现时间从数周降至数分钟。
- Node-RF: Learning Generalized Continuous Space-Time Scene Dynamics with Neural ODE-based NeRFs
-
Node-RF 将 Neural ODE 与 NeRF 紧密耦合,通过在隐空间中用微分方程建模场景动态演化,实现了超越训练时间范围的长程外推、跨序列泛化以及动态系统行为分析。
- Openvo Open-World Visual Odometry With Temporal Dynamics Awareness
-
提出 OpenVO,一个面向开放世界的单目视觉里程计框架,通过时间感知流编码器和几何感知上下文编码器,在无相机标定、帧率变化的条件下实现鲁棒的真实尺度自车运动估计,跨数据集 ATE 提升超 20%,变帧率场景误差降低 46%-92%。
- Pano360: Perspective to Panoramic Vision with Geometric Consistency
-
提出Pano360,将全景拼接从传统的2D成对对齐扩展到3D摄影测量空间,利用基于Transformer的架构实现多视图全局几何一致性,在弱纹理、大视差和重复纹理等挑战场景中成功率达97.8%,并构建了包含200个真实场景的大规模数据集。
- Phygap Physically-Grounded Gaussians With Polarization Cues
-
提出 PhyGaP,通过偏振延迟渲染(PolarDR)将偏振线索融入 2DGS 优化,并设计自遮挡感知的 GridMap 环境图技术,实现光泽物体的精确反射分解与真实重光照。
- PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis
-
首个从单张图像前馈预测3DGS+物理属性(材质类别/杨氏模量/泊松比)的框架,两阶段训练(监督预训练+DPO偏好微调)完全绕过SDS和可微物理引擎,配合50K+ PhysAssets数据集,1分钟内生成高保真4D物理仿真,CLIP_sim和人类偏好率均超越逐场景优化方法。
- Physgm Large Physical Gaussian Model For Feed-Forward 4D Synthesis
-
PhysGM 提出首个前馈式框架,从单张图像一次推理即可同时预测 3D 高斯表示和物理属性(刚度、质量等),结合 MPM 仿真在一分钟内生成高保真的物理合理 4D 动画,无需任何逐场景优化。
- QuadSync: Quadrifocal Tensor Synchronization via Tucker Decomposition
-
首次提出四焦张量(quadrifocal tensor)的全局同步算法 QuadSync,通过构造块四焦张量并证明其承认多线性秩为 (4,4,4,4) 的 Tucker 分解,利用 ADMM-IRLS 优化框架从四视图测量中恢复相机位姿,在密集视图场景下取得优于两视图/三视图方法的同步精度。
- R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection# R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection
-
提出R4Det,通过全景深度融合(PDF)、可变形门控时序融合(DGTF)和实例引导动态精炼(IGDR)三个即插即用模块,解决4D雷达-相机融合中深度估计不准、时序融合依赖ego pose、小目标检测困难的问题,在TJ4DRadSet和VoD上取得SOTA。
- Regularizing INR with Diffusion Prior for Self-Supervised 3D Reconstruction of Neutron Computed Tomography Data
-
将扩散模型先验作为正则化项引入隐式神经表示(INR)的损失函数中,构建DINR框架用于稀疏视图中子CT重建,在仅5个视角的极端稀疏条件下仍能保持混凝土微结构的高质量重建。
- ReLaGS: Relational Language Gaussian Splatting
-
提出首个统一多层级语言高斯场与开放词汇3D场景图的无训练框架 ReLaGS,通过最大权重剪枝和鲁棒异常值感知特征聚合改进场景表示,结合GNN关系预测实现高效的结构化3D场景理解。
- Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery
-
提出 RepTRFD:通过将 Tensor Ring 因子重参数化为"可学习隐张量 × 固定基"的形式,解决 INR 参数化 TR 因子的频谱偏置问题,在图像修复/去噪/超分/点云恢复等任务上全面超越 SOTA。
- Rethinking Pose Refinement In 3D Gaussian Splatting Under Pose Prior And Geometr
-
提出 UGS-Loc 框架,通过蒙特卡洛位姿采样和 Fisher 信息引导的 PnP 优化,联合建模位姿先验不确定性和几何不确定性,在无需重训练的条件下显著提升 3DGS 场景中的相机位姿精化鲁棒性。
- RetimeGS: Continuous-Time Reconstruction of 4D Gaussian Splatting
-
提出 RetimeGS, 通过 Catmull-Rom 样条轨迹建模高斯基元的时间行为, 结合双向光流监督和正则化时间不透明度, 解决 4DGS 帧插值时的时间混叠问题, 在 Stage-Capture 数据集上达到 30.08 dB PSNR (比前 SOTA +1.29 dB).
- Scaling View Synthesis Transformers (SVSM)
-
首次为无几何先验的 NVS Transformer 建立缩放定律:提出有效批量大小假设(B_eff = B·V_T)揭示 encoder-decoder 被低估的根因,设计单向 encoder-decoder 架构 SVSM,在 RealEstate10K 上以不到一半训练 FLOPs 达到新 SOTA(30.01 PSNR),Pareto 前沿比 LVSM decoder-only 左移 3×。
- SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation
-
提出即插即用的背景引导原型增强框架SCOPE,从背景区域挖掘伪实例原型丰富新类原型表示,在ScanNet上5-shot新类IoU达23.86%(vs GW 16.88%,+6.98%),且几乎无额外计算开销(<1MB, 0.02s)。
- Seethrough3D Occlusion Aware 3D Control In Text-To-Image Generation
-
提出 SeeThrough3D,通过半透明 3D 包围盒渲染的遮挡感知场景表示(OSCR)来条件化 FLUX 模型,实现了精确的 3D 布局控制与遮挡一致的文本到图像生成。
- SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection
-
提出 Spatial-Projection Alignment (SPAN),通过3D角点空间对齐和3D-2D投影对齐两个几何协同约束,配合分层任务学习策略,作为即插即用模块提升任意单目3D检测器的定位精度。
- SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection
-
提出SPAN即插即用几何协同约束框架,通过3D角点空间对齐和3D-2D投影对齐两个可微损失,强制解耦预测的各属性满足全局几何一致性,配合层级任务学习策略稳定训练,在KITTI上将MonoDGP的Car Moderate AP3D提升0.92%达到新SOTA。
- Spectral Defense Against Resource-Targeting Attack In 3D Gaussian Splatting
-
提出首个针对 3DGS 资源耗尽攻击的频域防御框架,通过 3D 频率滤波器选择性剪枝异常高频高斯 + 2D 频谱正则化约束渲染图像的各向异性噪声,在攻击下将高斯过生长抑制最高 5.92×、显存降低最高 3.66×、渲染加速最高 4.34×,同时保持重建质量。
- Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting
-
提出首个针对3DGS资源瞄准攻击的频域防御框架——联合3D频率感知高斯剪枝与2D角度各向异性正则化,将投毒导致的高斯过增长最多抑制5.92×、峰值显存降3.66×、渲染速度提升4.34×,同时渲染质量反而提升(PSNR +1.93dB)。
- Using Gaussian Splats To Create High-Fidelity Facial Geometry And Texture
-
提出一套基于改进 Gaussian Splatting 的人脸重建管线:通过软约束和语义分割监督将高斯与三角网格紧耦合,从仅 11 张未标定图像重建高精度三角面片几何,并利用 PCA 先验 + 可重光照高斯模型分离光照获取去光照 albedo 纹理,最终兼容标准图形管线(MetaHuman)。
- VGG-T3: Offline Feed-Forward 3D Reconstruction at Scale
-
提出VGG-T3,通过测试时训练(TTT)将VGGT中全局注意力层的变长KV表示压缩为固定大小MLP,将离线前馈三维重建的计算复杂度从 \(O(n^2)\) 降至 \(O(n)\),实现了千张图片级别的大规模场景重建(1k张图仅需58秒)。
- WMGStereo: What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?
-
系统研究合成立体数据集的设计空间——变换Infinigen过程化生成参数(浮动物体密度/背景/材质/相机baseline/光照等)分析其对零样本立体匹配的影响,发现"真实室内场景+浮动物体"的组合最有效;据此构建WMGStereo-150k数据集,仅用此单一数据集训练超越SceneFlow+CREStereo+TartanAir+IRS四合一(Middlebury降28%,Booster降25%),与FoundationStereo竞争力相当。
🎨 图像生成¶
- Accelerating Diffusion Model Training under Minimal Budgets: A Condensation-Based Perspective
-
提出 D2C(Diffusion Dataset Condensation)——首个面向扩散模型的数据集压缩框架,通过"Select + Attach"两阶段流水线,在仅使用 ImageNet 0.8%–8% 数据的条件下实现 100–233× 的训练加速,同时保持高质量图像生成能力。
- ADAPT: Attention Driven Adaptive Prompt Scheduling and InTerpolating Orthogonal Complements for Rare Concepts Generation
-
提出 ADAPT 框架,通过注意力驱动的自适应 Prompt 调度(APS)、池化嵌入操控(PEM)和潜空间操控(LSM)三个零样本模块,确定性且语义对齐地控制从通用到罕见概念的生成过渡,在 RareBench 上显著超越 R2F 基线。
- Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration
-
提出 Spectrum,一种基于切比雪夫多项式的全局谱域特征预测方法,将扩散模型去噪器的中间特征视为时间函数并用岭回归拟合系数,实现误差不随步长增长的长程特征预测,在 FLUX.1 上达到 4.79× 加速、在 Wan2.1-14B 上达到 4.67× 加速而质量几乎无损。
- Agentic Retoucher for Text-To-Image Generation
-
将 T2I 扩散模型输出的局部失真(手指畸变、面部异常、文字错误等)校正问题建模为感知-推理-行动的多智能体循环系统 Agentic Retoucher,通过 Perception Agent 的上下文感知失真显著性图定位缺陷、Reasoning Agent 的结构化推理诊断失真类型、Action Agent 的工具选择执行修复,并配合 GenBlemish-27K 数据集实现端到端的迭代式自动修正。
- Agentic Retoucher for Text-To-Image Generation
-
Agentic Retoucher 将 T2I 生成后的缺陷修复重构为"感知→推理→行动"的人类式闭环决策过程,用三个协作 agent 分别做上下文感知的扭曲检测、人类对齐的诊断推理和自适应局部修复,在 GenBlemish-27K 上 plausibility 提升 2.89 分,83.2% 的结果被人类评为优于原图。
- AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution
-
针对视觉自回归(VAR)模型在图像超分辨率中的两个一致性问题——注意力局部偏差导致的空间不连贯和残差监督导致的跨尺度误差累积,提出 AlignVAR 框架,通过空间一致性自回归(SCA)和层级一致性约束(HCC)协同解决,实现比扩散方法快 10× 以上的推理速度且重建质量更优。
- All-in-One Slider for Attribute Manipulation in Diffusion Models
-
提出 All-in-One Slider 框架,通过在文本编码器中间层嵌入上训练一个轻量级 Attribute Sparse Autoencoder,将属性分解为高维稀疏激活空间中的解耦方向,从而用单一模块实现对多种面部属性的连续、细粒度、可组合控制,并首次展示对未见属性(如种族、名人)的零样本连续操控能力。
- All-in-One Slider for Attribute Manipulation in Diffusion Models
-
提出 All-in-One Slider 框架,通过在文本嵌入空间上训练一个属性稀疏自编码器(Attribute Sparse Autoencoder),将多种人脸属性解耦为稀疏的语义方向,实现单一轻量模块对 52+ 种属性的细粒度连续控制,并支持多属性组合和未见属性的零样本操控。
- Ani3Dhuman Photorealistic 3D Human Animation With Self-Guided Stochastic Samplin
-
提出 Ani3DHuman 框架,将运动学驱动的网格动画与视频扩散先验相结合,通过自引导随机采样(Self-guided Stochastic Sampling)将低质量的刚体渲染恢复为高保真视频,从而实现逼真的非刚体服装动态建模。
- AS-Bridge: A Bidirectional Generative Framework Bridging Next-Generation Astronomical Surveys
-
提出 AS-Bridge,一个基于 Brownian Bridge 扩散过程的双向生成框架,在地基 LSST 与空基 Euclid 天文巡天之间建模概率条件分布,实现跨巡天图像翻译和罕见事件检测(引力透镜),并通过 \(\epsilon\)-prediction 训练目标改进了标准 Brownian Bridge 的似然估计。
- AS-Bridge: A Bidirectional Generative Framework Bridging Next-Generation Astronomical Surveys
-
提出 AS-Bridge,基于双向 Brownian Bridge 扩散过程建模地面巡天(LSST)与空间巡天(Euclid)观测之间的随机映射,同时实现跨巡天图像转换和稀有天文事件检测。
- Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution
-
将 AI 生成图像归因从分类范式转为实例检索范式,提出 LIDA 框架:利用 RGB 低位平面提取生成器特有指纹作为输入,通过在真实图像上无监督预训练 + 少样本适配实现开放集归因,在 GenImage 和 WildFake 上以 1-shot 设置即取得 40.4%/77.5% 的平均 Rank-1 准确率,大幅超越现有方法。
- Attribution as Retrieval: Model-Agnostic AI-Generated Image Attribution
-
将 AI 生成图像归因从分类范式重新定义为实例检索问题,提出 LIDA 框架:利用低位平面提取生成器指纹,通过无监督预训练 + 少样本适配实现开放集归因,在 GenImage 和 WildFake 上全面超越现有方法。
- AutoDebias: An Automated Framework for Detecting and Mitigating Backdoor Biases in Text-to-Image Models
-
提出 AutoDebias——首个同时检测和缓解 T2I 模型中恶意后门偏见的统一框架,利用 VLM 开放集检测发现触发词-偏见关联并构建查找表,再通过 CLIP 引导的分布对齐训练消除后门关联,在 17 种后门场景中将攻击成功率从 90% 降至接近 0 且保持图像质量。
- BiGain: Unified Token Compression for Joint Generation and Classification
-
提出BiGain——一个训练免的token压缩框架,通过频域分离(保留高频细节+低中频语义),在扩散模型加速时同时保持生成质量和分类能力。70% token合并下分类精度+7.15%且FID反而更好。
- Bigain Unified Token Compression For Joint Generation And Classification
-
BiGain 提出频率感知的 token 压缩框架,通过拉普拉斯门控 token 合并和插值-外推 KV 下采样两个无训练算子,首次在扩散模型加速中同时保持生成质量并显著提升判别分类性能。
- Bimotion B-Spline Motion For Text-Guided Dynamic 3D Character Generation
-
提出 BiMotion,用连续可微的 B 样条曲线将变长运动序列压缩为固定数量控制点,配合专用 VAE 和 flow-matching 扩散模型,实现快速、高表达力、语义完整的文本引导动态 3D 角色生成,在质量和效率上均超越现有方法。
- Blackmirror Black-Box Backdoor Detection For Text-To-Image Models Via Instructio
-
提出 BlackMirror 框架,通过细粒度的指令-响应语义偏差检测(MirrorMatch)和跨 prompt 稳定性验证(MirrorVerify)两阶段流程,在黑盒条件下实现对 T2I 模型多种后门攻击的通用检测,F1 平均达 89.46%,大幅超越已有黑盒方法 UFID。
- CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing
-
提出 CARE-Edit,一种条件感知的专家路由框架,通过异构专家(Text/Mask/Reference/Base)配合轻量级 latent-attention 路由器,在 DiT 骨干上实现动态计算分配,有效解决统一图像编辑器中多条件信号(文本、掩码、参考图)冲突导致的颜色溢出、身份漂移等问题。
- CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion
-
提出 CaReFlow,首次将 rectified flow 用于多模态分布映射以缩小模态间隙:通过 one-to-many mapping 让源模态数据点观测目标模态全局分布,adaptive relaxed alignment 对不同关联度的模态对施加不同对齐强度,cyclic rectified flow 保证映射后信息不丢失,即使用简单拼接融合也能在多个多模态情感计算 benchmark 上达到 SOTA。
- Causal Motion Diffusion Models for Autoregressive Motion Generation
-
提出 CMDM 框架,在运动-语言对齐的因果隐空间中统一扩散去噪与自回归生成,通过帧级独立噪声和因果不确定性采样调度,实现高质量、低延迟的文本到动作生成和长序列流式合成。
- CDG: Guiding Diffusion Models with Semantically Degraded Conditions
-
提出CDG替代CFG——用语义退化条件替代空null prompt作为负面引导,将引导信号从粗粒度"好vs空"变为精细"好vs差一点",在SD3/FLUX/Qwen-Image上显著提升组合精度,零额外计算。
- CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance
-
将 Classifier-Free Guidance (CFG) 重新解释为流匹配扩散模型中的反馈控制过程,提出统一框架 CFG-Ctrl,并基于滑模控制 (SMC) 设计非线性反馈引导机制 SMC-CFG,在大引导尺度下显著提升语义一致性和生成鲁棒性。
- Chain of Event-Centric Causal Thought for Physically Plausible Video Generation
-
将物理现象建模为因果连接的事件序列,通过物理公式驱动的事件链推理分解复杂物理过程,再用渐进式语义-视觉双提示引导现成视频扩散模型生成物理合理的因果演进视频。
- Chordedit One-Step Low-Energy Transport For Image Editing
-
基于动态最优传输理论,推导出低能量的 Chord 控制场,将不稳定的朴素编辑场平滑化,首次实现了对蒸馏单步 T2I 模型的无训练、无反演、高保真实时图像编辑。
- CoD: A Diffusion Foundation Model for Image Compression
-
提出首个面向压缩的扩散基础模型 CoD,从零训练学习端到端的压缩-生成联合优化,替换 Stable Diffusion 后在下游扩散编解码器中实现超低码率(0.0039 bpp)下的 SOTA 性能,训练成本仅为 SD 的 0.3%。
- coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation
-
提出 coDrawAgents,一个交互式多智能体对话框架(Interpreter-Planner-Checker-Painter),通过分而治之的增量布局规划、视觉上下文驱动的空间推理和显式错误纠正机制,大幅提升复杂场景下组合式文本到图像生成的忠实度。
- coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation
-
提出 coDrawAgents 交互式多智能体对话框架,通过解释器、规划器、检查器、画家四个专业智能体的闭环协作,以分治策略逐步规划布局并基于画布视觉上下文纠错,在 GenEval 上达到 0.94 的 SOTA 组合保真度。
- CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation
-
提出 CoLoGen,一个基于"概念-定位对偶性"(Concept-Localization Duality)的统一图像生成框架,通过渐进式分阶段训练和 Progressive Representation Weaving(PRW)动态专家路由架构,在指令编辑、可控生成和个性化生成三大任务上同时达到或超越专用模型水平。
- ConsistCompose: Unified Multimodal Layout Control for Image Composition
-
提出 ConsistCompose,通过将布局坐标直接嵌入语言prompt(LELG范式),在统一多模态框架中实现布局可控的多实例图像生成;构建340万样本的ConsistCompose3M数据集提供布局+身份监督;配合坐标感知CFG机制,在COCO-Position上实现布局IoU 7.2%提升和AP 13.7%提升,同时保持通用理解能力。
- Consistcompose Unified Multimodal Layout Control For Image Composition
-
提出 LELG(语言嵌入式布局引导生成)范式,将 bounding box 坐标直接编码为文本 token 嵌入语言流,在统一多模态 Transformer 中实现布局可控的多实例图像生成,无需任何布局专用编码器或分支。
- COT-FM: Cluster-wise Optimal Transport Flow Matching
-
提出 COT-FM,一个即插即用的 Flow Matching 增强框架:通过聚类目标样本、反转预训练模型获取簇级源分布、在簇内近似最优传输,显著拉直传输路径,在不改变模型架构的前提下同时加速采样和提升生成质量。
- CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video
-
提出 CubeComposer,将360°视频分解为 cubemap 六面表示并按时空自回归方式逐面生成,首次实现从透视视频原生生成4K(3840×1920)分辨率的360°全景视频,无需后处理超分辨率。
- Cycle-Consistent Tuning for Layered Image Decomposition
-
提出基于扩散模型的循环一致性微调框架,通过联合训练分解模型和合成模型实现图像层分离(如logo-物体分解),并引入渐进式自改进数据扩增策略,在非线性层交互场景下实现鲁棒分解。
- D2C: Accelerating Diffusion Model Training under Minimal Budgets via Condensation
-
首次将数据集压缩(Dataset Condensation)应用于扩散模型训练,提出D2C两阶段框架——Select阶段用扩散难度分数+区间采样选出紧凑子集、Attach阶段为每个样本附加文本和视觉表示——仅用0.8% ImageNet(10K图像)在40K步即达FID 4.3,比REPA快100×、比vanilla SiT快233×。
- Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache
-
将扩散模型采样加速形式化为全局路径规划问题,构建路径感知代价张量(PACT)量化跳步误差的路径依赖性,通过动态规划选择最优关键步序列,在FLUX上以4.87×加速超越全步基线+0.028 ImageReward。
- Diffusion Probe: Generated Image Result Prediction Using CNN Probes
-
发现扩散模型早期去噪步骤的交叉注意力分布与最终图像质量高度相关,提出 Diffusion Probe——用轻量CNN从早期注意力图预测生成结果质量,实现在完成10%去噪即可预筛选低质量生成路径,加速 Prompt 优化、Seed 选择和 GRPO 训练。
- DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing via Cross-Modal Alignment and Synchronization
-
提出DiFlowDubber,基于离散流匹配(DFM)的自动视频配音框架,通过两阶段训练(零样本TTS预训练→视频配音适配)将大规模TTS知识迁移到视频驱动配音,设计FaPro模块捕获面部表情-韵律映射、Synchronizer模块实现精准唇音同步。
- Diversity over Uniformity: Rethinking Representation in Generated Image Detection
-
提出反特征坍塌学习框架 AFCL,通过信息瓶颈过滤无关特征并抑制不同伪造线索之间的过度重叠,保持判别表征的多样性和互补性,在跨模型生成图像检测上取得显著提升。
- DPCache: 去噪即路径规划——免训练扩散模型加速
-
将扩散采样加速形式化为全局路径规划问题,通过Path-Aware Cost Tensor量化路径依赖的跳步误差,用动态规划选出最优关键时间步序列,在FLUX上实现4.87×加速且ImageReward反超全步基线。
- EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing
-
提出 EffectErase 框架,将视频物体插入作为移除的逆辅助任务进行联合学习,并构建包含 60K 视频对的大规模 VOR 数据集,实现对物体及其遮挡、阴影、反射、光照、变形等视觉副效应的高质量擦除。
- Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception
-
提出 DIAE 框架,通过多模态美学感知(MAP)将模糊的美学指令转化为 HSV/轮廓图视觉信号 + 文本联合引导,并构建"不完美配对"数据集 IIAEData 实现弱监督的图像美学增强。
- DIAE: Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception
-
提出DIAE——一个基于SD1.5的图像美学增强框架,通过多模态美学感知(MAP)将模糊的美学指令转化为HSV+轮廓图的视觉控制信号,配合"不完美配对"数据集IIAEData和双分支监督训练策略,在美学提升(LAION score +17.4%)和内容一致性(CLIP-I 0.784)上同时优于InstructPix2Pix等SOTA编辑方法。
- Enhancing Spatial Understanding in Image Generation via Reward Modeling
-
构建 80K 对抗性偏好数据集 SpatialReward-Dataset,训练专门评估空间关系准确性的奖励模型 SpatialScore(准确率超越 GPT-5),并用 top-k 过滤策略结合 GRPO 在线 RL 显著提升 FLUX.1-dev 的空间生成能力。
- Evatok Adaptive Length Video Tokenization For Efficient Visual Autoregressive Ge
-
提出 EVATok 四阶段框架,通过代理奖励(proxy reward)定义最优 token 分配,训练轻量路由器预测每段视频的最优 token 预算,实现内容自适应的可变长度视频 tokenization,在 UCF-101 上达到 SOTA 生成质量的同时节省至少 24.4% 的 token 用量。
- ExpPortrait: Expressive Portrait Generation via Personalized Representation
-
提出高保真度的个性化头部表征(静态身份偏移 + 动态表情偏移),解决 SMPL-X 等参数化模型表达力不足的问题,结合身份自适应表情迁移模块和 DiT 生成器,在人像视频自驱动和跨身份重演任务上取得 SOTA 表现。
- Face2Scene: Using Facial Degradation as an Oracle for Diffusion-Based Scene Restoration
-
提出 Face2Scene 两阶段框架:先用参考人脸复原模型(Ref-FR)获得 HQ-LQ 人脸对,从中提取退化编码作为"oracle",再以此条件化单步扩散模型完成包含身体与背景的全场景图像复原。
- FastLightGen: Fast and Light Video Generation with Fewer Steps and Parameters
-
FastLightGen 提出三阶段蒸馏算法,首次实现采样步数与模型大小的联合蒸馏,通过识别冗余层、动态概率剪枝和 well-guided teacher guidance 分布匹配,将 HunyuanVideo/WanX 压缩为 4 步 30% 参数剪枝的轻量生成器,实现约 35 倍加速且性能超越教师模型。
- Few-shot Acoustic Synthesis with Multimodal Flow Matching
-
提出 FLAC,首个基于 flow matching 的少样本房间脉冲响应(RIR)生成框架,仅凭单次录音即可在未见场景中合成空间一致的声学响应,并引入 AGREE 联合嵌入用于几何-声学一致性评估。
- Flash-Unified: Training-Free and Task-Aware Acceleration for Native Unified Models
-
FlashU 首次对原生统一多模态模型进行系统性冗余分析,发现参数特化和计算异质性现象,据此提出免训练任务感知加速框架,通过 FFN 剪枝、动态层跳过、自适应引导缩放和扩散头缓存,在 Show-o2 上实现 1.78x-2.01x 加速同时保持 SOTA 性能。
- Garments2Look: A Multi-Reference Dataset for High-Fidelity Outfit-Level Virtual Try-On with Clothing and Accessories
-
提出 Garments2Look,首个大规模多模态整套搭配级虚拟试穿数据集(80K 对,40 类,300+ 子类),每组包含 3-12 件参考服饰图、模特穿搭图和详细文本标注,揭示现有方法在多层搭配和配饰一致性上的重大不足。
- gQIR: Generative Quanta Image Reconstruction
-
将大规模 text-to-image latent diffusion model 适配到单光子雪崩二极管(SPAD)的极端光子受限成像场景,通过三阶段框架(Quanta-aligned VAE → 对抗微调 LoRA U-Net → FusionViT 时空融合)实现从稀疏二值光子检测到高质量 RGB 图像的重建,在 10K-100K fps 极端条件下显著超越所有现有方法。
- Guiding Diffusion Models with Semantically Degraded Conditions
-
提出 Condition-Degradation Guidance (CDG),用语义退化的条件 \(\boldsymbol{c}_{\text{deg}}\) 替代 CFG 中的空提示 \(\emptyset\),将引导从粗粒度"好 vs. 空"转变为细粒度"好 vs. 差一点"的对比,通过分层退化策略(先退化内容 token 再退化上下文聚合 token)构建自适应负样本,在 SD3/FLUX/Qwen-Image 等模型上即插即用地提升组合生成精度,几乎零额外开销。
- Heterogeneous Decentralized Diffusion Models
-
提出异构去中心化扩散框架,允许不同专家使用不同扩散目标(DDPM ε-prediction 与 Flow Matching velocity-prediction)完全独立训练,在推理时通过确定性 schedule-aware 转换统一到速度空间进行融合,相比同构基线同时提升 FID 和生成多样性,并将计算量压缩 16 倍。
- HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images
-
提出 HiFi-Inpaint 框架,通过共享增强注意力(SEA)利用高频信息增强产品细节特征,结合细节感知损失(DAL)实现像素级高频监督,在人-产品图像生成中达到 SOTA 的细节保真度。
- High-Fidelity Diffusion Face Swapping with ID-Constrained Facial Conditioning
-
提出身份约束的属性调优框架用于扩散模型人脸替换:先约束身份解空间,再注入属性条件,最后端到端精炼身份损失和对抗损失,结合解耦条件注入设计,在 FFHQ 上实现 SOTA 的 FID(3.61)和身份检索准确率(97.9% Top-1)。
- Image Generation as a Visual Planner for Robotic Manipulation
-
将预训练图像生成模型(DiT)通过 LoRA 微调适配为机器人操作的视觉规划器,以 3×3 网格图像形式生成时序连贯的操作序列,支持文本条件和轨迹条件两种控制模式。
- Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards
-
提出 SOLACE,一种利用文本-图像生成模型自身去噪自信度作为内在奖励的后训练框架,无需外部奖励模型即可在组合生成、文字渲染和文图对齐上获得一致提升,且可与外部奖励互补缓解 reward hacking。
- Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout
-
提出 ∞-RoPE,一个训练免调的推理时框架,通过 Block-Relativistic RoPE、KV Flush 和 RoPE Cut 三个组件,将仅在5秒视频上训练的自回归视频扩散模型扩展为支持无限时长生成、精细动作控制和电影级场景切换的系统。
- InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation
-
提出 InnoAds-Composer,一个基于 MM-DiT 的单阶段电商海报生成框架,通过统一 token 化将商品主体、字形文本和背景风格三类条件映射到同一空间,结合文本特征增强模块(TFEM)和重要性感知条件注入策略,在保持高质量生成的同时显著降低推理开销。
- InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing
-
提出 InterEdit,首个文本引导的多人3D运动编辑框架,通过语义感知 Plan Token 对齐和交互感知频域 Token 对齐两个机制,在条件扩散模型中实现对双人交互动作的精准编辑,同时保持源运动的一致性和交互协调性。
- InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing
-
首次定义多人3D运动编辑(TMME)任务,构建5161个源-目标-指令三元组的InterEdit3D数据集,提出基于同步无分类器引导的条件扩散模型InterEdit,通过语义感知规划Token对齐和交互感知频域Token对齐两个核心模块,在指令跟随(g2t R@1 30.82%)和源保持(g2s R@1 17.08%)上全面超越基线。
- Intrinsic Concept Extraction Based on Compositional Interpretability
-
HyperExpress 提出组合可解释本征概念提取(CI-ICE)新任务,利用双曲空间的层次建模能力和等球面投影模块,从单张图像中提取可组合的物体级和属性级概念,实现可逆的复杂视觉概念分解。
- InvAD: Inversion-based Reconstruction-Free Anomaly Detection with Diffusion Models
-
提出 InvAD,将扩散模型异常检测从"RGB 空间去噪重建"范式转变为"潜空间加噪反演"范式,通过 DDIM 反演直接推断最终潜变量并在先验分布下度量偏差来检测异常,仅需 3 步反演即达 SOTA 性能且推理速度提升约 2 倍。
- InvAD: Inversion-based Reconstruction-Free Anomaly Detection with Diffusion Models
-
提出"检测即加噪"范式取代传统"检测即去噪"——通过DDIM反转将图像映射到潜在噪声空间,仅用3步推理判断偏离先验分布的程度作为异常分数,无需重建,实现SOTA精度的同时推理速度达88 FPS(比OmiAD快2倍+)。
- Learning Latent Proxies for Controllable Single-Image Relighting
-
提出 LightCtrl,一个基于扩散模型的单图重光照框架,通过小样本潜在代理编码器(few-shot latent proxy)提供轻量材质-几何先验、光照感知掩码引导空间选择性去噪、DPO 后训练增强物理一致性,实现对光照方向/强度/色温的精确连续控制,在合成和真实场景上均优于现有方法。
- Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal
-
提出 VeilGen + DeVeiler 框架,通过物理引导的 Stable Diffusion 生成模型学习潜在透射率和眩光图以合成逼真的复合退化训练数据,并用可逆约束训练修复网络,实现简化光学系统中像差与雾化眩光的联合去除。
- LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation
-
首个data-free后训练框架LinVideo,通过选择性转移自动选择最适合替换为线性注意力的层+任意时刻分布匹配(ADM)目标函数高效恢复性能,实现Wan 1.3B/14B的1.43-1.71×加速且质量无损,叠加4步蒸馏后达15.9-20.9×加速。
- Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection
-
提出 RAPTA(训练时区域感知提示增强)缓解扩散模型记忆化,以及 ADMCD(注意力驱动多模态拷贝检测)检测生成图像是否复制训练数据,两个模块互补形成端到端的记忆化缓解与检测框架。
- Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection
-
提出训练时区域感知提示增强(RAPTA)和注意力驱动多模态复制检测(ADMCD)两个互补模块,前者通过检测器proposal生成语义接地的提示变体来缓解扩散模型的训练数据记忆化,后者融合patch/CLIP/纹理三流特征实现零训练复制检测,在LAION-10k上将复制率从7.4降至2.6。
- Mixture Of States Routing Token-Level Dynamics For Multimodal Generation
-
提出 Mixture of States (MoS)——一种基于可学习 token 级稀疏路由的多模态融合范式,使视觉 token 能在每个去噪步骤自适应地从文本编码器任意层选取隐藏状态,仅用 3-5B 参数即可匹敌或超越 20B 级模型。
- One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers
-
提出ELIT(Elastic Latent Interface Transformer),通过在DiT中插入可变长度的潜在token接口和轻量级Read/Write交叉注意力层,将计算量与输入分辨率解耦,使单一模型支持多种推理预算,在ImageNet-1K 512px上FID和FDD分别提升35.3%和39.6%。
- One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers
-
提出 ELIT(Elastic Latent Interface Transformer),在 DiT 中插入可变长度的潜变量接口(latent interface)和轻量 Read/Write 跨注意力层,使单一模型能在推理时动态调节计算预算,同时将计算非均匀地分配到图像中更难的区域,在 ImageNet 512px 上 FID 最高降低 53%。
- Pixel Motion Diffusion Is What We Need for Robot Control
-
DAWN 提出两阶段全扩散框架,通过 Motion Director 生成稠密像素运动场作为可解释中间表征,再由 Action Expert 转化为机器人动作序列,在 CALVIN 基准上实现 SOTA(平均长度 4.00)且数据效率极高。
- PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion
-
PixelRush 首次实现了免训练的单步高分辨率图像生成,通过部分 DDIM 反转(只扰动到中间时间步而非全噪声)+ 少步扩散模型 + 高斯滤波 patch 融合 + 噪声注入,在单卡 A100 上 20 秒生成 4K 图像,比 SOTA 快 10-35× 且 FID 更优(50.13 vs 52.87)。
- PROMO: Promptable Outfitting for Efficient High-Fidelity Virtual Try-On
-
PROMO基于FLUX Flow Matching DiT骨干,通过潜空间多模态条件拼接、时序自参考KV缓存、3D-RoPE分组条件、以及fine-tuned VLM风格提示系统,在去除传统参考网络的前提下实现了高保真且高效的多件服装虚拟试穿,推理速度比无加速版快2.4倍,在VITON-HD和DressCode上超越现有VTON和通用图像编辑方法。
- RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models
-
提出 RAZOR, 一种基于比率感知梯度评分的多层协调编辑方法, 用于 ViT 和扩散模型的目标遗忘: 通过 forget/retain 梯度的比率和余弦对齐度联合评分, 识别对遗忘贡献最大且对保留损害最小的层/头, 实现一次性高效遗忘, 在 CLIP 身份遗忘上达到 SOTA.
- Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning
-
提出 MVC-ZigAL 框架,通过多视图感知 MDP 建模、zigzag 自反思优势学习和 Lagrangian 对偶约束优化,有效提升少步文本到多视图扩散模型的单视图保真度和跨视图一致性。
- Seacache Spectral-Evolution-Aware Cache For Accelerating Diffusion Models
-
提出 SeaCache,一种基于频谱演化感知(SEA)滤波器的无训练动态缓存策略,通过在频域中分离信号与噪声分量来测量时间步间的冗余度,显著提升扩散模型推理的延迟-质量权衡。
- SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models
-
提出 SegQuant,一个面向部署的扩散模型后训练量化框架,通过基于计算图静态分析的语义感知分段量化(SegLinear)和硬件原生的双尺度极性保持量化(DualScale),在 SD3.5、FLUX、SDXL 上实现跨架构通用的高保真 W8A8/W4A8 量化,同时保持与 TensorRT 等工业推理引擎的兼容性。
- SOLACE: Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards
-
用T2I模型自身的去噪自信心(对注入噪声的恢复精度)作为内在奖励替代外部奖励模型做后训练,在组合生成、文字渲染、文图对齐上获一致提升,且与外部奖励互补可缓解reward hacking。
- Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework
-
提出 AC-DC 三阶段去噪器(自动校正 + 方向校正 + Score 去噪),解决 ADMM 迭代与 score 训练流形不匹配的问题,并首次为 ADMM-PnP + score denoiser 建立了收敛性保证,在多种逆问题上取得 SOTA。
- Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework
-
提出ADMM-PnP with AC-DC去噪器,通过三阶段修正-去噪流程(自动修正+方向修正+基于分数的去噪)将扩散先验集成到ADMM原始-对偶框架中,解决了ADMM迭代与扩散训练流形的几何不匹配问题,同时在两种条件下建立了收敛保证,在7种逆问题上一致优于DAPS/DPS/DiffPIR等基线。
🏥 医学图像¶
- A protocol for evaluating robustness to H&E staining variation in computational pathology models
-
提出三步评估协议(选参考染色条件→表征测试集染色属性→模拟染色条件推理),系统量化306个MSI分类模型对H&E染色差异的鲁棒性,发现鲁棒性与分类性能呈弱负相关(r=-0.28),高性能不代表高鲁棒性。
- A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement
-
提出面向乳腺超声(BUS)图像分割的半监督框架,利用 GPT-5 生成外观描述 + Grounding DINO + SAM 免训练生成伪标签(APPG),结合双教师框架(静态+动态)通过不确定性-熵加权融合(UEWF)和自适应不确定性引导反向对比学习(AURCL)精炼标签,仅用 2.5% 标注即接近全监督性能。
- A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement
-
通过外观描述驱动VLM免训练生成伪标签,再由双教师不确定性融合+反向对比学习细化,仅2.5%标注即可逼近全监督性能。
- Accelerating Stroke MRI with Diffusion Probabilistic Models through Large-Scale Pre-training and Target-Specific Fine-Tuning
-
借鉴基础模型范式,先在约4000例fastMRI多对比度脑MRI上预训练扩散模型,再用20例目标域数据微调,实现临床中风MRI的高质量加速重建,盲审读片证明2×加速下非劣于标准诊疗。
- Accelerating Stroke MRI with Diffusion Probabilistic Models through Large-Scale Pre-training and Target-Specific Fine-Tuning
-
借鉴基础模型的"预训练+微调"范式,在 ~4000 名 fastMRI 受试者(多对比度)上大规模预训练扩散概率模型(DPM),然后用极少目标域数据(20名受试者)低学习率微调,实现跨对比度、跨采集协议的 MRI 加速重建;临床中风验证中 2× 加速图像质量经神经放射科医生盲法评估 non-inferior 于标准全采样图像。
- Act Like a Pathologist: Tissue-Aware Whole Slide Image Reasoning
-
提出 HistoSelect 框架,模拟病理学家从粗到细的推理过程,通过组织分割→Group Sampler→Patch Selector 的三级筛选机制,基于信息瓶颈(IB)理论压缩无关视觉token,在减少约70%计算量的同时实现三个数据集上的SOTA。
- Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning
-
提出 UAAI 框架,首次将主动推理(Active Inference)引入微手势识别,通过 EFE 引导的时间帧选择 + 空间注意力 + UMIX不确定性感知增强,在SMG数据集RGB模态上达到63.47%,大幅超越传统RGB方法。
- Adaptation of Weakly Supervised Localization in Histopathology by Debiasing Predictions
-
提出SFDA-DeP方法,受机器遗忘启发,将源自由域适应建模为迭代识别过度预测类的不确定样本并选择性降低其置信度的过程,同时联合训练像素级分类器恢复定位判别力,在跨器官/跨中心病理基准上显著优于SFDA baselines。
- Adaptation of Weakly Supervised Localization in Histopathology by Debiasing Predictions
-
提出 SFDA-DeP,受机器遗忘启发,将 SFDA 重新定义为"识别并纠正预测偏差"的迭代过程:对 dominant class 中高熵不确定样本执行"遗忘"操作迫使模型放弃偏向性预测,对可靠样本保持自训练,同时用像素级分类器锚定定位能力,在跨器官/跨中心病理基准上持续优于现有 SFDA 方法。
- Adaptive Confidence Regularization For Multimodal Failure Detection
-
提出 ACR 框架,通过自适应置信度损失(惩罚多模态融合置信度低于单模态的"置信度退化"现象)和多模态特征交换(在特征空间合成失败样本)两个互补模块,首次系统解决多模态场景下的误分类检测问题,在四个数据集上全面超越已有方法。
- Are General-Purpose Vision Models All We Need for 2D Medical Image Segmentation? A Cross-Dataset Empirical Study
-
在统一训练和评估协议下对比11个专用医学分割架构(SMA)和通用视觉模型(GP-VM),发现GP-VM在三个异质医学数据集上超越大多数SMA,且Grad-CAM分析表明GP-VM无需领域特定设计即可捕获临床相关结构。
- Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts
-
在 NLST(n=7980)和 SUMMIT(n=8561)两个大规模肺癌筛查队列中,利用深度学习自动分割量化低剂量 CT 上 PPFE 的纵向变化(dPPFE),验证其与全因死亡率(HR=1.25/3.14)和呼吸系统发病率的独立关联。
- Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts
-
在两个大规模肺癌筛查队列(NLST n=7980, SUMMIT n=8561)上,利用深度学习自动分割 PPFE 体积并定义"进展性 PPFE",通过 Cox 比例风险模型证明 PPFE 进展是全因死亡率的独立预测因子(NLST HR=1.25, SUMMIT HR=3.14),并与呼吸入院率、抗生素/类固醇使用等临床终点显著关联。
- Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI
-
系统对比 15 种 CNN 变体在卵巢癌组织病理图像五分类上的表现,选出 InceptionV3-A(ReLU)达 94% 综合指标后,用 LIME/SHAP/Integrated Gradients 三种 XAI 方法解释其决策。
- Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI
-
系统地比较了 LeNet/ResNet/VGG/Inception 四大CNN架构的15个变体在卵巢癌组织病理学图像分类上的表现,最终选择 InceptionV3-ReLU 作为基础模型(平均指标~94%),并结合 LIME、SHAP、Integrated Gradients 三种 XAI 方法对分类结果进行可解释性分析。
- Benchmarking Endoscopic Surgical Image Restoration and Beyond
-
构建了首个多源真实世界内窥镜手术图像复原数据集 SurgClean(3,113张图像,覆盖去烟/去雾/去飞溅三种退化类型),在其上系统评测了22种代表性图像复原方法(12种通用+10种任务特定),揭示现有方法与临床需求间仍存在显著差距,并进一步分析了手术场景退化与自然场景退化的本质差异。
- BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation
-
提出 BiCLIP 框架,通过双向多模态融合(BMF)实现视觉信息反向精炼文本表示,并通过图像增强一致性(IAC)约束中间特征的扰动不变性,在 COVID-19 CT 分割上超越 SOTA,仅 1% 标注数据仍保持鲁棒。
- BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation
-
提出双向视觉-语言融合(BMF)和增强一致性(IAC)两个模块,让文本和图像特征可以相互修正,在标注极度稀缺(1%)和图像退化(低剂量CT噪声/运动模糊)场景下仍保持分割鲁棒性。
- Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD
-
构建了覆盖55种口腔疾病的7,408例大规模配对CBCT-报告数据集,开发双语报告生成系统CBCTRepD,并通过多层级临床评估证明其可帮助不同经验水平的放射科医生提升报告质量。
- Care A Molecular-Guided Foundation Model With Adaptive Region Modeling For Whole
-
提出 CARE,一种病理学 slide-level 基础模型,通过自适应区域生成器(ARG)将 WSI 划分为形态学相关的不规则区域(类似 NLP 中的词级 token),并结合 RNA/蛋白质表达谱的跨模态对齐进行两阶段预训练,仅用主流模型约 1/10 的数据即在 33 个下游任务上取得最优平均性能。
- Cell-Type Prototype-Informed Neural Network for Gene Expression Estimation from Pathology Images
-
提出 CPNN,利用公开单细胞 RNA-seq 数据构建细胞类型原型(cell-type prototype),将 slide/patch 级基因表达建模为原型的加权组合,在基因表达估计任务上取得 SOTA 并提供可解释性。
- CHIPS: Efficient CLIP Adaptation via Curvature-aware Hybrid Influence-based Data Selection
-
从数据中心视角重新审视 CLIP 领域适配,提出 CHIPS,为每个图文对计算融合曲率感知牛顿对齐(忠实性)、JL sketching压缩曲率估计(可扩展性)、可学习性+领域相关性权重(保留性)三因素的效用分数,用30%数据匹配全数据集CPT、10%数据超越50%数据CPT,在17个医学+31个通用基准上达到选择SOTA。
- Chips Efficient Clip Adaptation Via Curvature-Aware Hybrid Influence-Based Data
-
提出 CHIPS,一种基于曲率感知混合影响力的数据选择方法,在 CLIP 端点子空间中计算 Newton 风格对齐分数并结合可学习性与领域相关性权重,仅用 30% 数据即可匹配全量数据集持续预训练效果,在 17 个医学基准上达到 SOTA。
- CURE: Curriculum-guided Multi-task Training for Reliable Anatomy Grounded Report Generation
-
提出 CURE——一种基于误差感知课程学习的多任务训练框架,在不引入额外数据的前提下,通过动态调节采样分布重点训练困难样本,将医学 VLM 的视觉定位精度提升 +0.37 IoU,幻觉率降低 18.6%。
- Decoding Matters: Efficient Mamba-Based Decoder with Distribution-Aware Deep Supervision for Medical Image Segmentation
-
提出 Deco-Mamba,一种以解码器为中心的 Transformer-CNN-Mamba 混合架构,通过 Co-Attention Gate、视觉状态空间模块(VSSM)和可变形卷积增强解码过程,同时引入基于窗口化 KL 散度的分布感知深度监督策略,在 7 个医学图像分割基准上取得 SOTA。
- Decoding Matters: Efficient Mamba-Based Decoder with Distribution-Aware Deep Supervision for Medical Image Segmentation
-
提出以解码器为核心的 Deco-Mamba 网络,用 Co-Attention Gate 双向融合编解码器特征、视觉状态空间模块(VSSM)建模长程依赖、可变形卷积恢复细节,并引入窗口化分布感知 KL 散度深度监督,在 7 个医学分割基准上以中等复杂度达到 SOTA。
- Deep Learning–Based Estimation of Blood Glucose Levels from Multidirectional Scleral Blood Vessel Imaging
-
提出 ScleraGluNet 框架,通过五个注视方向的巩膜血管图像,结合多分支 CNN + MRFO 特征优化 + Transformer 跨视角融合,实现 93.8% 三分类精度和 MAE=6.42 mg/dL 的空腹血糖估计。
- Deep Learning Based Estimation of Blood Glucose Levels from Multidirectional Scleral Blood Vessel Imaging
-
提出 ScleraGluNet,通过多方向巩膜血管图像(5 个注视方向)结合多分支 CNN + MRFO 特征优化 + Transformer 跨视角融合,实现三类代谢状态分类(93.8% 准确率)和连续血糖估计(MAE=6.42 mg/dL, r=0.983)。
- Diffusion-Based Feature Denoising and Using NNMF for Robust Brain Tumor Classification
-
本文提出 NNMF+CNN+扩散防御框架用于脑肿瘤 MRI 分类:先用 NNMF 将图像分解为紧凑可解释的低秩特征,通过 AUC/Cohen's d/p-value 统计指标筛选最强判别组件,再用轻量 CNN 分类;推理时引入前向扩散加噪 + 学习去噪器的特征空间净化模块,在 AutoAttack (\(L_\infty\), \(\epsilon=0.10\)) 下将鲁棒准确率从 0.47% 提升至 59.53%。
- Diffusion-Based Feature Denoising and Using NNMF for Robust Brain Tumor Classification
-
将 MRI 脑肿瘤分类任务分解为 NNMF 特征提取 → 统计特征筛选 → 轻量 CNN 分类 → 特征空间扩散净化四阶段流水线,在 AutoAttack 下将鲁棒精度从基线 0.5% 提升到 59.5%。
- Elucidating the Design Space of Arbitrary-Noise-Based Diffusion Models
-
提出 EDA 框架,将 EDM 的设计空间从纯高斯噪声扩展至任意噪声模式,通过多元高斯分布和多独立维纳过程驱动的 SDE 实现灵活噪声扩散,且证明噪声复杂度的提升不引入额外采样开销;仅用 5 步采样即可在 MRI 偏置场矫正、CT 金属伪影去除和自然图像阴影去除三项任务上取得媲美或优于百步 Refusion 和专用方法的效果。
- EI: Early Intervention for Multimodal Imaging based Disease Recognition
-
EI 提出在单模态嵌入(UIE)之前就注入跨模态语义引导([INT] token),模拟临床医生"先看一个模态形成初步判断再指导另一个模态检查"的工作流程,同时设计 MoR(多种秩 LoRA + 带旁路的松弛路由器)实现参数高效的 VFM 医学域适配,在视网膜/皮肤/膝关节三个数据集上以 <9M 可训练参数超越所有全参微调和 prompt learning 基线。
- Elucidating The Design Space Of Arbitrary-Noise-Based Diffusion Models
-
提出 EDA 框架,将 EDM 的设计空间从高斯噪声扩展到任意噪声模式,通过多元高斯分布参数化协方差矩阵实现灵活的噪声扩散,在 MRI 偏置场校正、CT 金属伪影去除和自然图像阴影去除三个任务上仅用 5 步采样即达到或超越 100 步 EDM 方法和专用方法。
- Every Error Has Its Magnitude Asymmetric Mistake Severity Training For Multiclas
-
提出 PAMS(Priority-Aware Mistake Severity)方法,通过非对称严重性感知的交叉熵损失(MSCE)、语义特征混合(SFR)和非对称 Mikel's Wheel 指标,在多分类 MIL WSI 诊断中显著降低严重误诊风险。
- Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning
-
在 ConvNeXt 骨干上构建注意力 MIL 模型,并通过梯度反转层(GRL)对抗性地消除扫描表征中的性别信息,再配合 focal loss、子群过采样和 5-fold 集成,实现胸部 CT 四类肺疾病的公平诊断。
- Fair Lung Disease Diagnosis from Chest CT via Gender-Adversarial Attention Multiple Instance Learning
-
提出基于注意力 MIL 和梯度反转层(GRL)的公平性框架,从胸部 CT 体积中进行多类肺部疾病诊断,在保证诊断准确性的同时消除性别偏差。
- Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation
-
提出 FedMEPD 框架,通过模态专属编码器 + 部分个性化融合解码器 + 多锚点跨注意力校准,同时解决联邦学习中多模态 MRI 的模态间异质性和客户端个性化需求。
- Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation
-
提出 FedMEPD 联邦学习框架,通过模态专属编码器、部分个性化融合解码器和多锚点交叉注意力校准,同时获得最优全模态全局模型和各客户端缺失模态个性化模型。
- Fedvg Gradient-Guided Aggregation For Enhanced Federated Learning
-
FedVG 提出利用全局验证集上的逐层梯度范数为各客户端打分,梯度越平坦(范数越小)的客户端获得越高聚合权重,从而在高度数据异质性场景下显著提升联邦学习的泛化性能。
- GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis
-
提出 GIIM 框架,基于多异构图(MHG)同时建模多视图医学影像中病变间的视图内(intra-view)和视图间(inter-view)依赖关系,并通过四种缺失视图表示策略实现对不完整数据的鲁棒诊断。
- GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis
-
提出基于多异构图 (MHG) 的 GIIM 框架,通过四类边关系建模同一病灶跨视图动态变化和不同病灶间空间关联,并设计四种缺失视图填充策略,在 CT/MRI/乳腺 X 光三种模态上均显著优于现有方法。
- Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment
-
发现并解决了 CLIP 在跨域少样本学习(CDFSL)中的局部特征对齐退化问题,提出基于循环一致性的 CC-CDFSL 框架,通过 T-I-T 和 I-T-I 双向循环路径和语义锚点机制改善 patch 级视觉-语言对齐,同时增强模型的可解释性。
- Learning Generalizable 3D Medical Image Representations from Mask-Guided Self-Supervision
-
提出 MASS(MAsk-guided Self-Supervised learning),利用 SAM2 自动生成的类别无关 mask 作为伪标注,以 in-context 分割为 pretext task 进行自监督预训练,无需任何人工标注即可学到语义丰富、泛化性强的 3D 医学图像表征,在 few-shot 分割和冻结编码器分类上均取得优异表现。
- LUMINA: A Multi-Vendor Mammography Benchmark with Energy Harmonization Protocol
-
提出 LUMINA 多厂商乳腺 FFDM 数据集(468 例患者、1824 张图像),附带前景像素直方图匹配的能量协调预处理方法,在诊断/BI-RADS/密度三任务上系统评估了 CNN 与 Transformer 模型。
- MedGEN-Bench: Contextually Entangled Benchmark for Open-Ended Multimodal Medical Generation
-
提出 MedGEN-Bench,首个面向开放式多模态医学生成的综合基准,包含 6,422 个专家验证的图文对、6 种成像模态、16 个临床任务,配套三层评估框架,揭示了组合框架优于统一模型的跨模态一致性问题。
- MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration
-
提出 MedKCO,一种知识驱动的认知编排策略用于医学视觉-语言预训练:通过分层课程(label-level 按诊断敏感度排序 + description-level 按样本代表性排序)和自步非对称对比损失,让模型从简单到复杂渐进学习,在三种医学模态的零样本和下游任务上显著超越基线。
- MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification
-
提出 MIL-PF,利用冻结的基础视觉编码器(DINOv2/MedSigLIP)预计算特征,再用仅约 40K 参数的轻量 MIL 头进行乳腺 X 线分类,在大规模 EMBED 数据集上达到 SOTA 性能,同时大幅降低训练成本。
- MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification
-
提出MIL-PF框架,将冻结的基础视觉编码器(DINOv2/MedSigLIP)与仅40k参数的轻量级MIL聚合头结合,通过预计算特征+双流(全局组织上下文+局部病变注意力)聚合,在大规模乳腺X线分类任务上以极低训练成本达到SOTA性能。
- Mind the Discriminability Trap in Source-Free Cross-domain Few-shot Learning
-
揭示了在 VLM 的跨域小样本微调中,增强视觉判别性反而损害跨模态对齐("判别性陷阱"),提出 SVL + RA 两个即插即用模块来抑制视觉学习捷径并引导跨模态对齐,在 4 个 CDFSL 数据集和 11 个 FSL 数据集上取得 SOTA。
- MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection
-
提出 MoECLIP,将 Mixture-of-Experts 引入零样本异常检测(ZSAD),通过冻结正交特征分离(FOFS)和等角紧框架(ETF)损失实现 patch 级别的动态专家路由与特化,在14个工业/医学基准上达到 SOTA。
- Mri Contrast Enhancement Kinetics World Model
-
首次提出 MRI 造影增强动力学世界模型(MRI CEKWorld),通过时空一致性学习(STCL)在稀疏采样数据上实现从无造影 MRI 到连续高保真造影增强序列的生成,解决了内容失真和时序不连续两大难题。
- Multimodal Classification of Radiation-Induced Contrast Enhancements and Tumor Recurrence Using Deep Learning
-
提出 RICE-NET,一个多模态 3D ResNet-18 模型,整合纵向 MRI 数据与放疗剂量分布图,用于自动区分胶质母细胞瘤术后放射诱导对比增强(RICE)与肿瘤复发,在独立测试集上达到 F1=0.92。
- Multimodal Classification of Radiation-Induced Contrast Enhancements and Tumor Recurrence Using Deep Learning
-
提出RICE-NET,一种多模态3D ResNet-18模型,融合纵向T1加权MRI数据与放射治疗剂量分布图,在92例胶质母细胞瘤患者队列上实现F1=0.92的RICE vs 肿瘤复发自动分类,消融实验揭示放疗剂量图是最具信息量的单模态输入。
- Multimodal Protein Language Models for Enzyme Kinetic Parameters: From Substrate Recognition to Conformational Adaptation
-
提出ERBA(Enzyme-Reaction Bridging Adapter),将酶动力学参数预测重新建模为与催化机制对齐的分阶段条件化问题——先通过MRCA注入底物信息捕捉分子识别,再通过G-MoE融合活性位点3D几何信息建模构象适应,并用ESDA做分布对齐保持PLM先验——在三个动力学指标上全面超越现有SOTA。
- Multimodal Protein Language Models for Enzyme Kinetic Parameters: From Substrate Recognition to Conformational Adaptation
-
提出ERBA(Enzyme-Reaction Bridging Adapter),将酶动力学参数预测重新建模为分阶段多模态条件生成问题——先通过MRCA注入底物信息捕获底物识别特异性,再通过G-MoE整合活性位点3D结构捕获构象适应,配合ESDA分布对齐保持PLM语义先验。
- MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning
-
提出 MMPFN,首次将预训练表格基础模型 TabPFN 扩展到多模态(表格+图像/文本)场景,通过多头门控 MLP(MGM)和交叉注意力池化器(CAP)解决非表格嵌入过压缩和 token 数量不平衡问题,在医学和通用数据集上超越 SOTA。
- Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation
-
提出 MSG-LDM,在潜在扩散模型中引入多尺度结构-风格解耦机制,通过高频注入、多模态结构特征融合和结构感知损失,实现缺失模态场景下保留解剖结构和精细细节的多模态 MRI 合成。
- Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation
-
提出MSG-LDM,一个基于潜在扩散模型的多模态MRI翻译框架,通过在潜空间中显式解耦风格和结构信息,结合高频注入(HFIB)、多模态结构特征融合(MMSF)和多尺度结构增强(MSSE)模块提取模态无关的完整结构先验来引导扩散去噪,在BraTS2020和WMH数据集上超越现有方法。
- Muse Harnessing Precise And Diverse Semantics For Few-Shot Whole Slide Image Cla
-
提出 MUSE 框架,通过 MoE 驱动的样本级细粒度语义增强(SFSE)和基于 LLM 知识库的随机多视角语义优化(SMMO),在少样本全切片图像分类任务上显著提升泛化能力。
- MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy
-
提出 MuViT,一种基于世界坐标 RoPE 位置编码的多分辨率 Vision Transformer,能在单一编码器中联合处理同一场景不同物理分辨率的裁剪图,在显微镜图像分割任务上显著优于单分辨率基线。
- Novel Architecture of RPA In Oral Cancer Lesion Detection
-
将软件设计模式(Singleton + Batch Processing)融入Python自动化流程,使口腔癌病变检测的推理速度相比传统RPA平台(UiPath/Automation Anywhere)提升60-100倍。
- Novel Architecture of RPA In Oral Cancer Lesion Detection
-
将软件设计模式(Singleton + Batch Processing)集成到基于 EfficientNetV2B1 的口腔癌病变检测 Python 流水线中,相比传统 RPA 平台(UiPath/Automation Anywhere)实现 60-100 倍的推理加速,同时保持诊断准确性。
- OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation
-
提出 OraPO(Oracle-educated GRPO),在 GRPO 探索失败时注入轻量 DPO 监督将失败 rollout 转化为偏好样本,配合 FactScore 奖励实现仅用 1K 样本、3B 小模型在 CheXpert Plus 和 MIMIC-CXR 上达到放射报告生成 SOTA(F1=0.341/0.357),训练数据量比前最优减少 2-3 个数量级。
- OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation
-
提出 OraPO, 一种结合 GRPO 和 DPO 的自适应混合 RL 框架, 用于数据高效的放射学报告生成: 通过 Zero-Reward Rate 检测动态切换 GRPO 和 DPO, 加上 FactScore-based 临床事实级奖励, 仅用 1K 样本 (对比基线 227K) 在 CheXpert Plus 和 MIMIC-CXR 上取得 SOTA 的临床 F1 (0.341/0.357).
- Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting
-
提出 ProtoSR,通过 LLM 从大规模自由文本放射学报告中挖掘模板对齐的视觉原型知识库,并以原型条件化残差(late fusion)方式注入结构化报告生成模型,在 Rad-ReStruct 基准上取得 SOTA,尤其显著提升细粒度属性问题的性能。
- Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting
-
提出ProtoSR,通过LLM驱动的管道从22.7万篇MIMIC-CXR自由文本报告中挖掘模板对齐的视觉原型知识库,并设计原型条件化迟融合模块将检索到的原型证据作为logit残差注入层级式结构化报告模型,在Rad-ReStruct基准上达到SOTA,在细粒度属性问题(L3)上提升最为显著(+72.1%相对提升)。
- Reclaiming Lost Text Layers for Source-Free Cross-Domain Few-Shot Learning
-
发现 CLIP 文本编码器中存在"Lost Layers"——在 Source-Free Cross-Domain Few-Shot Learning (SF-CDFSL) 中移除某些中间层反而提升性能;论文证明这些层并非冗余而是因视觉域偏移未被充分利用,提出 VtT 模型在层级和编码器级别重新利用这些信息,取得 SOTA。
- Reinforcing the Weakest Links: Modernizing SIENA with Targeted Deep Learning Integration
-
通过将SIENA纵向脑萎缩管线中的经典颅骨剥离(BET2)和组织分割(FAST)模块替换为深度学习方案(SynthStrip/SynthSeg),在ADNI和PPMI两个大队列上显著增强了脑体积变化百分比(PBVC)与临床疾病进展的关联性,并将扫描顺序误差降低高达99.1%。
- Reinforcing the Weakest Links: Modernizing SIENA with Targeted Deep Learning Integration
-
通过将 SIENA 脑萎缩管线中经典的颅骨剥离(BET2)和组织分割(FAST)模块替换为深度学习方案(SynthStrip、SynthSeg),在保留管线可解释性的前提下显著提升了 PBVC 估计的临床敏感度和鲁棒性。
- Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation
-
提出即插即用的SCDL框架,通过学习类条件代理分布(双向对齐CDBA)+语义锚约束(SAC)来消除半监督医学图像分割中的长尾偏差,在AMOS 5%标签下DSC提升+11.62%。
- Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation
-
提出 SCDL 即插即用框架,通过可学习类别代理分布的双向对齐(CDBA)和标注数据构建的语义锚约束(SAC),在嵌入空间中学习结构化的类条件特征分布,解决半监督医学图像分割中的监督偏置和表征不平衡问题,尤其在尾类分割上取得显著提升。
- Similarity-as-Evidence: Calibrating Overconfident VLMs for Interpretable and Label-Efficient Medical Active Learning
-
提出 Similarity-as-Evidence (SaE) 框架,将 VLM 的文本-图像相似度重新解释为 Dirichlet 证据,通过 Similarity Evidence Head (SEH) 校准过度自信的 softmax 输出,并基于 vacuity(知识空缺)和 dissonance(证据冲突)的双因子采集策略实现可解释、高效的医学主动学习,在 10 个数据集上以 20% 标注预算达到 82.57% 的 SOTA 宏平均准确率。
- Solving a Nonlinear Blind Inverse Problem for Tagged MRI with Physics and Deep Generative Priors
-
提出 InvTag 框架,首次将 MR 物理前向模型与预训练扩散生成先验结合,统一解决 3D Tagged MRI 的解剖恢复、Cine 合成和运动估计三大子任务,且无需任何额外训练数据。
- Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis
-
提出 STEPH,通过任务向量混合 (Task Vector Mixup) 与超网络驱动的稀疏聚合,将多个癌种预后模型的可泛化知识高效迁移到目标癌种,在 13 个 TCGA 数据集上平均 C-Index 提升 5.14%,且无需大规模联合训练或多模型推理。
- STEPH: Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in WSI Prognosis
-
STEPH 将跨癌种预后模型的任务向量进行超网络驱动的混合(TVM)+ 稀疏聚合,在单一模型内完成知识迁移,13 个 TCGA 数据集上 C-Index 平均 0.6949(+5.14% vs 癌种特定学习,+2.01% vs ROUPKT),且推理开销远低于表示迁移方案。
- SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation
-
提出 SPEGC 框架,通过语义提示增强特征 + 可微分图聚类求解器,将原始相似度矩阵精炼为高阶结构表示,用于指导医学图像分割模型在持续变化的目标域上自适应,有效缓解误差累积与灾难性遗忘。
- Synergistic Bleeding Region and Point Detection in Laparoscopic Surgical Videos
-
构建首个腹腔镜手术出血区域+出血点标注数据集 SurgBlood,并提出基于 SAM2 的双分支双向引导在线检测器 BlooDet,通过 Mask/Point 分支协同优化实现出血区域分割与出血点定位的联合检测。
- The Invisible Gorilla Effect in Out-of-distribution Detection
-
揭示了OOD检测中一个此前未被报告的偏差——"隐形大猩猩效应":当OOD伪影与模型关注区域(ROI)视觉外观相似时检测性能显著更好,不相似时则大幅下降,尤其影响基于特征的OOD方法。
- Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data
-
提出 Difficulty-Influence Quadrant (DIQ) 数据选择策略,联合考量样本难度和梯度影响力,使 VLM 语言骨干仅用 1% 精选数据即可匹配全量 SFT 性能,10% 数据则可超越全量训练。
- Virtual Full-stack Scanning of Brain MRI via Imputing Any Quantised Code
-
提出 CodeBrain,将脑 MRI 任意到任意模态补全问题重新表述为区域级全栈量化码预测任务,通过两阶段流程(标量量化重建 + 分级损失码预测)实现统一的缺失模态合成,超越五种 SOTA 方法。
- CodeBrain: Virtual Full-stack Scanning of Brain MRI via Imputing Any Quantised Code
-
CodeBrain将脑MRI多模态补全(any-to-any imputation)重新定义为区域级全栈量化码预测问题:Stage I用有限标量量化(FSQ)将完整MRI集编码为紧凑code map + 模态无关公共特征,Stage II从不完整模态预测code map(用grading loss保持量化空间平滑性),在IXI和BraTS 2023上超越5种SOTA方法,生成的模态可接近真实数据的脑肿瘤分割性能。
✂️ 语义分割¶
- 3M-TI: High-Quality Mobile Thermal Imaging via Calibration-free Multi-Camera Cross-Modal Diffusion
-
提出 3M-TI,一个无需标定的多相机跨模态扩散框架,通过在 VAE 潜空间中用跨模态自注意力(CSM)自动对齐并融合未标定的 RGB-热红外图像对,结合错位增强策略,在移动端热成像超分辨率任务上达到 SOTA,并显著提升下游目标检测与语义分割性能。
- MEDISEG: 药物图像实例分割数据集——预防不良药物事件
-
构建了MEDISEG药物图像实例分割数据集(8262张图像,32类药片,含遮挡/重叠的真实场景),用YOLOv8/v9验证在3类上达99.5% mAP@0.5、32类达80.1%,并通过FsDet few-shot协议证明MEDISEG预训练比CURE数据集在遮挡场景中显著提升未见药片类别的识别(1-shot准确率0.406 vs 0.131)。
- MEDISEG: A Dataset of Medication Images with Instance Segmentation Masks for Preventing Adverse Drug Events
-
提出MEDISEG数据集——32种药片类型共8262张真实多药丸场景图像(含dosette box中重叠/遮挡/不同光照),提供实例分割标注,YOLOv8/v9在3-Pills子集mAP@50达99.5%、32-Pills达80.1%,few-shot实验证明MEDISEG作为base训练集显著优于CURE数据集。
- A Mixed Diet Makes Dino An Omnivorous Vision Encoder
-
提出 Omnivorous Vision Encoder,通过轻量级 adapter 在冻结的 DINOv2 之上进行跨模态对齐蒸馏训练(RGB/Depth/Segmentation),使单一编码器对不同视觉模态产生一致嵌入,同时保留原始判别语义。
- AFRO: Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning
-
提出AFRO自监督3D视觉预训练框架,通过逆动力学模型(IDM)推断潜在动作、扩散Transformer前向动力学模型(FDM)预测未来特征、逆一致性约束保证时序对称性,在RH20T大规模数据上预训练后,MetaWorld 14任务平均成功率76.0%(vs DynaMo-3D 64.9%、PointMAE 63.9%),4个real-world任务也取得最优。
- Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation
-
提出DEO(Distillation for Earth Observation),一种双教师对比蒸馏框架——用多光谱自蒸馏教师学习光谱表示、用光学VFM教师(DINOv3)注入高级语义先验,使单一学生网络同时擅长光学和多光谱遥感任务,在语义分割、变化检测和分类上全面达到SOTA。
- ClimaOoD: Improving Anomaly Segmentation via Physically Realistic Synthetic Data
-
提出ClimaDrive数据生成框架和ClimaOoD基准数据集,通过语义引导的多天气场景生成+透视感知的异常物体放置,构建10K+训练集覆盖6种天气×93类异常,训练后四个SOTA方法平均AP提升3.25%。
- Clip Is Shortsighted Paying Attention Beyond The First Sentence
-
揭示 CLIP 系列模型对长文本中首句摘要和早期 token 的系统性偏差,提出 DeBias-CLIP 通过去除摘要句、句子子采样和 token 填充三种文本增强策略消除该偏差,在不引入额外参数的条件下实现长/短文本检索 SOTA。
- CLIP Is Shortsighted: Paying Attention Beyond the First Sentence
-
发现CLIP对长描述"只看第一句"的根本原因在于训练数据中长caption普遍以摘要句开头形成捷径,提出DeBias-CLIP通过去除摘要句+句子子采样+token填充来分散监督信号,实现长短文本检索双SOTA。
- CLoE: Expert Consistency Learning for Missing Modality Segmentation
-
将缺失模态下的鲁棒性问题重新定义为决策级专家一致性控制,提出双分支一致性学习(全局MEC+区域REC),并通过轻量门网络将一致性分数转化为模态可靠性权重用于融合。
- CLoE: Expert Consistency Learning for Missing Modality Segmentation
-
提出 CLoE(Consistency Learning of Experts),将缺失模态鲁棒性问题建模为决策层面的专家一致性控制,通过模态专家一致性(MEC)和区域专家一致性(REC)双分支约束减少专家漂移,并用一致性分数驱动的门控网络实现可靠性加权融合。
- Comparative Evaluation of Traditional Methods and Deep Learning for Brain Glioma Imaging. Review Paper
-
系统综述脑胶质瘤 MRI 分割与分类方法,比较传统方法(阈值、区域生长、聚类等)与深度学习方法(CNN 架构),结论是 CNN 在分割和分类任务上全面优于传统技术,但半自动方法因可控性更受放射科医生青睐。
- Concept-Guided Fine-Tuning Steering Vits Away From Spurious Correlations To Impr
-
提出 CFT(Concept-Guided Fine-Tuning),利用 LLM 生成类别级语义概念并通过 GroundedSAM 零样本分割获取概念掩码,再以 AttnLRP 的 relevance map 与概念区域对齐为目标微调 ViT,仅用 1500 张图即可显著提升 5 个 OOD 基准上的鲁棒性。
- Conceptprism Concept Disentanglement In Personalized Diffusion Models Via Residu
-
提出 ConceptPrism,通过引入图像级残余 token 和跨图像排斥损失,在个性化 T2I 扩散模型中自动将共享目标概念与图像特有的残余信息解耦,在 DreamBench 上 CLIP-T/DINO/CLIP-I 全面最优。
- Crossearth-Sar A Sar-Centric And Billion-Scale Geospatial Foundation Model For D
-
提出首个十亿参数级SAR视觉基础模型CrossEarth-SAR,通过物理引导的稀疏MoE架构结合SAR物理描述子,在22个跨域语义分割基准中的20个取得SOTA,部分multi-gap场景超越已有方法10%+ mIoU。
- CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation
-
提出首个十亿参数级 SAR 视觉基础模型 CrossEarth-SAR,在 DINOv2 基础上引入物理引导的稀疏 MoE 架构(用方向熵、等效视数、局部粗糙度三个 SAR 物理描述符引导路由),配套 200K 级预训练数据集和 22 个子基准,在 20/22 个跨域分割任务上达到 SOTA。
- Detecting AI-Generated Forgeries via Iterative Manifold Deviation Amplification
-
提出 IFA-Net,从"建模什么是真"而非"学什么是假"的角度检测 AI 伪造:利用冻结 MAE 重建输入产生残差暴露偏离自然图像流形的区域,再通过两阶段闭环——粗检测→任务自适应先验注入→放大残差→精细化——迭代放大流形偏差,在 diffusion inpainting 和传统篡改检测上均取得 SOTA。
- Developing Foundation Models for Universal Segmentation from 3D Whole-Body Positron Emission Tomography
-
构建迄今最大的全身 PET 分割数据集 PETWB-Seg11K(11041 例扫描、59831 个掩模),并提出 SegAnyPET 基础模型,实现基于 prompt 的 3D 全身 PET 通用可交互分割,在多中心、多示踪剂、多疾病场景下展现强 zero-shot 泛化能力。
- Developing Foundation Models For Universal Segmentation From 3D Whole-Body Posit
-
构建迄今最大的全身 PET 分割数据集 PETWB-Seg11K(11,041 例 3D PET + 59,831 masks),并提出 SegAnyPET——首个面向功能性 PET 影像的 3D 可提示分割基础模型,在多中心、多示踪剂、多疾病场景下实现了强零样本泛化能力。
- DSS: Discover, Segment, and Select for Zero-shot Camouflaged Object Segmentation
-
提出DSS三阶段渐进式pipeline(Discover→Segment→Select),通过自监督视觉编码器+Leiden聚类发现前景(FOD)、SAM生成候选mask、启发式评分+MLLM成对比较选择最优mask,实现零样本无训练的伪装目标分割,尤其在多实例场景上显著优于现有方法。
- DPAD: Discriminative Perception via Anchored Description for Reasoning Segmentation
-
针对推理分割(RS)中RL+GRPO训练的geometric reward无法约束reasoning chain是否聚焦目标unique attributes的问题,提出DPAD方法:MLLM生成reasoning chain+geometric localization+anchored description,引入基于CLIP的Discriminative Perception Reward比较description与ROI/AOI的相似度差异,迫使caption更具判别性从而间接约束推理链聚焦目标,ReasonSeg上cIoU提升3.09%且推理链长度减少42%。
- DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime
-
提出 DSFlash,一个低延迟全景场景图生成模型,通过统一 backbone、双向关系预测和 mask 动态剪枝等设计,在 RTX 3090 上实现 56 FPS 的实时推理,同时保持 SOTA 性能(mR@50=30.9)。
- DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime
-
DSFlash 通过合并分割与关系预测 backbone、双向关系预测头、动态 patch 剪枝等策略,将全景场景图生成速度提升至 RTX 3090 上 56 FPS,同时在 PSG 数据集上达到 mR@50=30.9 的 SOTA 性能。
- DSS: Discover, Segment, and Select - A Progressive Mechanism for Zero-shot Camouflaged Object Segmentation
-
提出三阶段零样本伪装目标分割框架DSS:先用DINOv2特征聚类+部件组合发现候选区域(Discover),再用SAM分割(Segment),最后用MLLM逐对比较选最优mask(Select),无需任何训练即在四个COD基准上全面超越先前零样本方法,尤其在多实例场景中优势显著。
- Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance
-
提出一种高效 RGB-D 多任务场景理解网络,通过改进的融合编码器利用通道冗余加速特征提取,设计归一化聚焦通道层(NFCL)和上下文特征交互层(CFIL)进行跨维度特征引导,并引入批级别多任务自适应损失函数动态调整各任务学习权重,在 NYUv2/SUN RGB-D/Cityscapes 上同时完成语义分割、实例分割、朝向估计、全景分割和场景分类五项任务,取得精度与速度的双重优势。
- Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance
-
提出一种高效 RGB-D 多任务场景理解网络,通过部分通道卷积融合编码器、归一化焦点通道层(NFCL)、上下文特征交互层(CFIL)和多任务自适应损失,在 NYUv2 上以 20+ FPS 同时完成语义/实例/全景分割、方向估计和场景分类。
- EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection
-
提出统一的无监督伪装目标检测框架 EReCu,通过多线索原生感知(MNP)、伪标签进化融合(PEF)和局部伪标签精炼(LPR)三个协同模块,在不依赖人工标注的情况下实现了边界精确、细节丰富的伪装目标分割。
- EReCu: Pseudo-label Evolution Fusion and Refinement with Multi-Cue Learning for Unsupervised Camouflage Detection
-
提出EReCu框架,在DINO师生架构上通过多线索原生感知(MNP)提取纹理+语义先验来引导伪标签进化融合(PEF)和局部伪标签精修(LPR),实现无标注下的伪装目标检测,在4个COD数据集上达到UCOD SOTA。
- Follow the Saliency: Supervised Saliency for Retrieval-augmented Dense Video Captioning
-
提出 STaRC 框架,通过有监督的帧级显著性学习统一驱动检索(显著性引导分割+检索)和描述生成(显著性提示注入解码器),显著提升密集视频描述(DVC)任务中的时序对齐和字幕质量。
- FoV-Net: Rotation-Invariant CAD B-rep Learning via Field-of-View Ray Casting
-
提出 FoV-Net,首个在 CAD B-rep 学习中同时捕获局部表面几何和全局结构上下文的旋转不变框架,通过局部参考系 UV 网格(LRF UV)和视场光线投射(FoV)描述子实现了在任意 \(\mathbf{SO}(3)\) 旋转下的鲁棒分类和分割。
- A2P: From 2D Alignment to 3D Plausibility for Occlusion-Robust Two-Hand Reconstruction
-
解耦双手重建为2D结构对齐+3D空间交互对齐:Stage 1用Fusion Alignment Encoder隐式蒸馏Sapiens的关键点/分割/深度三种2D先验(推理时免基础模型),Stage 2用穿透感知扩散模型+碰撞梯度引导将穿透姿态映射到物理合理配置——InterHand2.6M上MPJPE降至5.36mm(超SOTA 4DHands 2.13mm),穿透体积降7倍。
- From 2D Alignment to 3D Plausibility: Unifying Heterogeneous 2D Priors and Penetration-Free Diffusion for Occlusion-Robust Two-Hand Reconstruction
-
将双手重建解耦为 2D 结构对齐(融合关键点/分割/深度先验)和 3D 空间交互对齐(穿透消除扩散模型),在 InterHand2.6M 上 MPJPE 达到 5.36mm,大幅超越 SOTA。
- Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation
-
提出 Generalizable Knowledge Distillation (GKD),通过解耦表示学习与任务学习的多阶段蒸馏,以及基于 query 的软蒸馏机制,将 VFM 的跨域泛化能力有效转移到轻量学生模型,F2L 设置下平均提升 +10.6% mIoU。
- GKD: Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation
-
提出GKD框架,通过将表示学习与任务学习解耦的多阶段蒸馏策略和查询式软蒸馏机制,从VFM(如DINOv2)中蒸馏出具有跨域泛化能力的轻量学生模型,在F2L设置下平均mIoU提升+10.6%,F2F设置下+1.9%。
- I'm a Map! Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers
-
提出 GramCol 和 IMAP 两种无需训练/梯度的方法,利用 Video DiT 内部特征为任意文本概念(尤其是运动概念)生成可解释的时空显著性图,并在运动定位和零样本视频语义分割上取得 SOTA。
- Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction
-
提出基于条件二值分割的跨视角物体对应框架 CCMP,通过循环一致性约束提供自监督信号并支持测试时训练 (TTT),在 Ego-Exo4D 上达到 44.57% mIoU 的 SOTA 性能。
- Making Training-Free Diffusion Segmentors Scale with the Generative Power
-
揭示现有无训练扩散分割方法无法随生成模型能力增强而提升的根本原因——交叉注意力图到语义相关性之间存在两个gap(聚合gap和分数不平衡gap),提出自动聚合(auto aggregation)和逐像素重缩放(per-pixel rescaling)两项技术组成GoCA框架,首次使更强的扩散模型(SDXL、PixArt-Sigma、Flux)在无训练语义分割中显著超越旧模型。
- Masked Representation Modeling for Domain-Adaptive Segmentation
-
提出 Masked Representation Modeling (MRM),在潜在空间而非像素空间进行掩码与重建,作为 UDA 分割的即插即用辅助任务,在 GTA→Cityscapes 上平均为 4 种 baseline 带来 +2.3 mIoU 提升。
- Matanyone 2 Scaling Video Matting Via A Learned Quality Evaluator
-
提出学习型 Matting Quality Evaluator (MQE),在无 ground-truth 条件下逐像素评估 alpha 质量,既作为在线训练引导又作为离线数据筛选器,构建了 28K 片段 / 240 万帧的真实世界视频抠图数据集 VMReal,配合参考帧训练策略,显著超越所有现有方法。
- A Mixed Diet Makes DINO An Omnivorous Vision Encoder
-
发现DINOv2的特征在不同模态间几乎零对齐(同一场景RGB和深度图的特征相似度≈随机图像对),提出Omnivorous Vision Encoder通过跨模态对齐+冻结教师蒸馏的双目标训练,让单一编码器产出模态无关的统一特征空间。
- MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention
-
提出 MixerCSeg,通过解析 Mamba 的隐式注意力机制将通道解耦为全局/局部分支,分别用 Self-Attention 和 CNN 增强,配合方向引导边缘门控卷积,以 2.05 GFLOPs / 2.54M 参数实现裂缝分割 SOTA。
- Masked Representation Modeling for Domain-Adaptive Segmentation
-
提出在潜在空间而非输入空间做掩码建模的辅助任务MRM,通过轻量级Rebuilder模块对编码器特征做掩码-重建并用分割损失监督,在GTA→Cityscapes上为四种UDA基线平均带来+2.3 mIoU提升,推理时零额外开销。
- Open-Vocabulary Domain Generalization in Urban-Scene Segmentation
-
提出 OVDG-SS 新设定,统一处理语义分割中的未见域和未见类别问题,并设计基于状态空间模型的 S2-Corr 模块来修复域偏移导致的文本-图像相关性退化,在自动驾驶场景中实现高效且鲁棒的跨域开放词汇分割。
- Pointer-Cad Unifying B-Rep And Command Sequences Via Pointer-Based Edges Faces S
-
提出基于指针 (Pointer) 机制的命令序列表示,将 B-Rep 几何实体(边/面)显式引入自回归 CAD 生成,首次在命令序列方法中支持 chamfer/fillet 操作,同时大幅降低量化误差导致的拓扑错误。
- Prompt-Driven Lightweight Foundation Model for Instance Segmentation-Based Fault Detection in Freight Trains
-
提出 SAM FTI-FDet,通过自动提示生成模块和自适应特征调度器将 SAM 的通用分割能力迁移至货运列车故障检测领域,以 TinyViT 轻量骨干实现 74.6 AP^box / 74.2 AP^mask,在精度和效率上均超越现有方法。
- Prompt-Driven Lightweight Foundation Model for Instance Segmentation-Based Fault Detection in Freight Trains
-
提出SAM FTI-FDet,通过设计一个基于Transformer decoder的自提示生成器(Prompt Generator),让轻量化的TinyViT-SAM自动生成任务相关的query prompt,无需人工交互即可完成货运列车部件的实例级故障检测,在自建数据集上达到74.6 AP_box / 74.2 AP_mask。
- Rdnet Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network
-
针对遥感图像中目标尺度变化大的难题,提出区域比例感知的动态自适应显著性目标检测网络 RDNet,通过 Proportion Guidance 动态选择不同大小卷积核组合,结合小波频域交互与交叉注意力定位模块,在三个 ORSI-SOD 数据集上全面超越 SOTA。
- RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images
-
提出RDNet,通过区域比例感知机制动态选择不同大小卷积核组合,结合小波域频率匹配上下文增强和跨注意力定位模块,在遥感图像显著性检测三个数据集上全面超越SOTA。
- Realvlg-R1 A Large-Scale Real-World Visual-Language Grounding Benchmark For Robo
-
提出 RealVLG 框架,包含 11B 级真实世界多粒度标注数据集 RealVLG-11B 和基于强化学习微调的统一模型 RealVLG-R1,首次将视觉语言定位(VLG)与机器人抓取统一到同一范式中,实现从自然语言指令到 bounding box、分割掩码、抓取姿态和接触点的端到端预测,并展现出零样本泛化能力。
- Rewis3D Reconstruction Improves Weakly-Supervised Semantic Segmentation
-
Rewis3d 利用前馈式多视图3D重建生成的点云作为辅助监督信号,通过双师生架构实现2D图像与3D点云之间的双向跨模态一致性学习,在稀疏标注(点/涂鸦/粗标注)下将弱监督语义分割性能提升2-7% mIoU,推理时仅需2D图像。
- Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation
-
首次将前馈3D重建(MapAnything)的几何信息作为辅助监督信号引入弱监督2D语义分割,通过双Student-Teacher架构和置信度加权的跨模态一致性损失,在4个数据集上以2-7% mIoU大幅超越SOTA——且推理时仅需2D模型。
- Rsonet Region-Guided Selective Optimization Network For Rgb-T Salient Object Det
-
提出两阶段 RGB-T 显著性检测网络 RSONet:先通过区域引导阶段计算 RGB/热红外引导图与联合引导图的相似度,选出更可靠的模态;再在显著性生成阶段利用选择性优化融合双模态特征,配合密集细节增强和互信息语义模块生成高质量显著图,在三个 RGB-T 基准上取得 SOTA 性能。
- RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection
-
提出RSONet两阶段RGB-T显著性检测框架:先通过三分支并行编码器生成区域引导图并基于相似度比较选择主导模态,再通过选择性优化模块融合双模态特征,在VT5000/VT1000/VT821上MAE达0.020/0.014/0.021,超越27个SOTA方法。
- SAP: Segment Any 4K Panorama
-
将全景分割重构为拓扑-记忆对齐问题,通过列优先锯齿扫描将ERP全景图转为透视伪视频序列,完美复用SAM2的流式记忆机制,在零样本4K全景分割上比vanilla SAM2平均提升+17.2 mIoU。
- Sarmae Masked Autoencoder For Sar Representation Learning
-
提出 SARMAE 框架,通过百万级 SAR 数据集 SAR-1M、散斑感知表征增强 (SARE) 和光学语义锚约束 (SARC),实现噪声鲁棒的 SAR 自监督预训练,在分类、检测和分割多个下游任务上取得 SOTA。
- Seeing Beyond: Extrapolative Domain Adaptive Panoramic Segmentation
-
提出 EDA-PSeg 框架,通过图匹配适配器(GMA)和欧拉-边际注意力(EMA)两个核心模块,首次实现从针孔视图到 360° 全景图像的开放集无监督域自适应语义分割,同时处理几何视场角畸变和未知类别发现。
- SemiTooth: a Generalizable Semi-supervised Framework for Multi-Source Tooth Segmentation
-
提出 SemiTooth 框架,通过多教师多学生架构和严格加权置信度约束(SWC),解决多源 CBCT 牙齿分割中的标注稀缺和跨源域间差异问题,同时构建了首个多源半监督牙齿数据集 MS3Toothset。
- SemiTooth: a Generalizable Semi-supervised Framework for Multi-Source Tooth Segmentation
-
提出SemiTooth——多教师多学生半监督框架+更严格加权置信度约束(SWC),用于多源CBCT牙齿分割,在新构建的MS3Toothset上mIoU达76.67%、Dice 85.69%,超越SOTA CMT(76.14%)。
- SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data
-
提出 SGMA 框架,通过语义引导融合(SGF)模块构建全局语义原型实现自适应跨模态融合,并通过模态感知采样(MAS)模块动态提升脆弱模态的训练频率,解决遥感场景下不完整多模态语义分割中的模态不平衡、类内方差大和跨模态异质性三大挑战。
- SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data
-
提出SGMA——语义引导模态感知分割框架,通过语义引导融合(SGF)降低类内变异和协调跨模态冲突,模态感知采样(MAS)平衡脆弱模态训练,在ISPRS上Average mIoU +9.20%且弱模态Last-1 mIoU +18.26%(vs SOTA IMLT)。
- SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs
-
SPARROW通过目标特定跟踪特征(TSF)和双提示[BOX]+[SEG]定位机制增强视频MLLM的时空一致性,在MeViS上J&F +8.9、VidSTG上mIoU +5.49,可即插即用到三种backbone上。
- SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs
-
提出 SPARROW 框架,通过 目标特定追踪特征(TSF) 注入时间一致性监督、双提示([BOX]+[SEG])粗到细解码 稳定首帧初始化,以即插即用方式集成到现有视频 MLLM 上,在 6 个基准 3 个任务上取得一致提升。
- Towards High-Quality Image Segmentation Improving Topology Accuracy By Penalizin
-
提出 Same Class Neighbor Penalization (SCNP),通过在训练时将每个像素的 logit 替换为其同类邻域中最差预测,迫使模型优先修复邻域中的弱分类像素,从而以极低代价(仅 3 行代码、几毫秒/迭代)显著提升分割的拓扑精度。
- Transformer-Based Multi-Region Segmentation And Radiomic Analysis Of Hr-Pqct Ima
-
提出基于 SegFormer 的全自动多区域 HR-pQCT 分割框架,结合影像组学特征与机器学习实现骨质疏松二分类,发现软组织(肌腱/脂肪)特征的诊断价值优于传统骨骼特征。
- Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos
-
提出 SMART 框架,基于 SAM3 的概念提示分割构建 Teacher-Student 半监督模型,结合渐进置信度正则化和双流时序一致性策略,仅用极少标注在 X 射线冠脉造影视频中实现 SOTA 血管分割。
- VidEoMT: Your ViT is Secretly Also a Video Segmentation Model
-
提出encoder-only视频分割模型VidEoMT,通过查询传播和查询融合将分割与时序关联统一在单个ViT编码器中,消除所有专用追踪模块,在YouTube-VIS 2019上达到160 FPS(比CAVIS快10×+),同时AP仅差0.3。
- Videomt Your Vit Is Secretly Also A Video Segmentation Model
-
提出 VidEoMT,一种纯编码器(encoder-only)视频分割架构,通过 query propagation 和 query fusion 将分割与时序关联统一在单个 ViT 编码器中,在保持与 SOTA 可比精度的同时实现 5×–10× 加速(ViT-L 达 160 FPS)。
🚗 自动驾驶¶
- Adaradar Rate Adaptive Spectral Compression For Radar-Based Perception
-
提出 AdaRadar——基于 DCT 频谱剪枝与零阶代理梯度的在线自适应雷达数据压缩框架,在 100× 以上压缩率下仅损失 ~1%p 检测/分割性能,有效缓解雷达传感器到计算端的带宽瓶颈。
- BEV-SLD: Self-Supervised Scene Landmark Detection for Global Localization with LiDAR Bird's-Eye View Images
-
提出BEV-SLD,一种基于自监督场景地标检测(Scene Landmark Detection)的LiDAR全局定位方法,将检测与对应关系预测解耦,仅需20MB即可在多种场景下实现高精度(x, y, azimuth)位姿估计。
- BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds
-
提出BuildAnyPoint,通过松耦合级联扩散Transformer(Loca-DiT)实现从多样分布的点云(机载LiDAR、SfM、稀疏噪声点云)到结构化3D建筑Mesh的统一重建——先用分层潜在扩散恢复底层点云分布,再用自回归Transformer生成紧凑多边形Mesh。
- Causalvad De-Confounding End-To-End Autonomous Driving Via Causal Intervention
-
提出 CausalVAD,通过将 Pearl 后门调整理论参数化为即插即用模块(SCIS),在 VAD 架构的感知-预测-规划三个阶段进行多级因果干预,消除虚假关联,实现更安全、更鲁棒的端到端自动驾驶。
- Coin3D Revisiting Configuration-Invariant Multi-Camera 3D Object Detection
-
提出 CoIn3D 框架,通过空间感知特征调制(SFM)和相机感知数据增强(CDA)两个模块,显式建模相机内参/外参/阵列布局的空间先验差异,实现多相机3D检测模型从源配置到未见目标配置的强泛化迁移,适用于 BEVDepth / BEVFormer / PETR 三大主流范式。
- ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving
-
ColaVLA 提出统一的视觉-语言-动作(VLA)框架,将 VLM 的推理从文本链式思考迁移到潜空间,通过认知潜空间推理器(Cognitive Latent Reasoner)和层次化并行规划器(Hierarchical Parallel Planner),仅需两次 VLM 前向传播即可高效完成场景理解与轨迹解码,在 nuScenes 开环和闭环评测上均达到 SOTA。
- CoLC: Communication-Efficient Collaborative Perception with LiDAR Completion
-
CoLC 提出一种通信高效的早期协同感知框架,通过前景感知点采样(FAPS)减少传输量,结合 VQ-based LiDAR 补全(CEEF)在 ego 端恢复稠密 pillar 表示,并用稠密引导双对齐(DGDA)保证语义和几何一致性,在大幅降低通信带宽的同时保持甚至超越早期融合的检测性能。
- Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation
-
提出 CompoSIA,一个基于 Wan2.1 DiT 的组合式驾驶视频模拟器,通过对场景结构(3D bbox)、物体身份(单张参考图)和自车动作(相机轨迹)三因素的显式解耦注入,实现对抗性驾驶场景的细粒度可控生成,碰撞率提升 173%。
- CompoSIA: Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation
-
提出CompoSIA框架,通过对结构(Structure)、身份(Identity)、动作(Action)三因素的解耦控制,基于视频扩散模型生成可组合的对抗驾驶场景,实现身份编辑FVD降低17%、下游planner碰撞率提升173%,有效暴露自动驾驶系统的隐藏失败模式。
- Cyclebev Regularizing View Transformation Networks Via View Cycle Consistency Fo
-
提出 CycleBEV 正则化框架:训练时引入逆视角变换(IVT)网络将 BEV 分割图映射回透视图(PV)分割图,通过循环一致性损失及高度感知几何正则化、跨视角隐空间对齐两项新目标来增强现有 BEV 语义分割模型,推理时不增加任何开销。
- Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving
-
Dr.Occ 提出深度引导与区域引导的统一 3D 占用预测框架,通过 D2-VFormer 利用 MoGe-2 的高质量深度先验实现精确的 2D→3D 几何映射,并通过 R/R2-EFormer 借鉴 MoE/MoR 思想自适应分配区域专家处理空间语义各向异性,在 BEVDet4D 基线上提升 7.43% mIoU。
- Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras
-
针对视角变换几何不对齐和语义类别空间各向异性不平衡,提出深度引导双投影视角变换器(D²-VFormer)利用MoGe-2构建非空体素掩码,和区域引导专家Transformer(R/R²-EFormer)自适应分配空间模型容量,BEVDet4D上提升7.43% mIoU。
- EMDUL: Expanding mmWave Datasets for Human Pose Estimation with Unlabeled Data and LiDAR Datasets
-
提出 EMDUL 管线,通过伪标签标注无标注毫米波数据(含新设计的无监督时序一致性损失 UTCL)和闭式 LiDAR→mmWave 点云转换器(含基于流的点过滤 FPF),大幅扩展毫米波 HPE 数据集的规模与多样性,域内误差降低 15.1%、跨域误差降低 18.9%。
- FoSS: Modeling Long-Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier–State Space Integration
-
FoSS 提出一种频域-时域双分支框架,通过渐进螺旋重排序(HelixSort)将傅里叶频谱有序化后输入选择性状态空间模型(SSM),结合时域动态 SSM 和交叉注意力融合,在 Argoverse 1/2 上取得 SOTA 轨迹预测精度,同时参数量减少 40%+、推理延迟降低 22%。
- Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction
-
GPOcc 提出利用可泛化的视觉几何先验(如 VGGT、DepthAnything)进行单目 3D 占据预测,通过沿相机射线向内延伸表面点生成体积采样,以稀疏高斯基元进行概率占据推断,并设计免训练增量更新策略处理流式输入,在 Occ-ScanNet 上单目 mIoU 提升 +9.99、流式提升 +11.79 超越前 SOTA,同时在相同深度先验下速度快 2.65 倍。
- HG-Lane: High-Fidelity Generation of Lane Scenes under Adverse Weather and Lighting Conditions without Re-annotation
-
针对车道检测数据集(CULane/TuSimple)极端天气样本严重不足的问题,提出HG-Lane——一个无需重标注的两阶段扩散生成框架:Stage-I通过Control Information Fusion+Structure-aware Reverse Diffusion保留车道几何结构,Stage-II通过Appearance-aware Refinement调整光照风格,生成snow/rain/fog/night/dusk共30K图。CLRNet整体mF1提升+20.87%,snow场景+38.8%。
- Horizonforge Driving Scene Editing With Any Trajectories And Any Vehicles
-
HorizonForge 提出一个统一框架,将驾驶场景重建为可编辑的 Gaussian Splats + Mesh 表示,通过轨迹控制实现精细 3D 操控和语言驱动的车辆插入,再经视频扩散模型渲染生成时空一致的高质量驾驶视频,在用户偏好率上以 91.02% 碾压所有对比方法。
- KnowVal: A Knowledge-Augmented and Value-Guided Autonomous Driving System
-
提出KnowVal端到端自驾系统,通过三大核心解决知识推理和价值对齐缺失:(1)Retrieval-guided Open-world Perception融合标准3D检测+VL-SAMv2长尾物体+VLM场景理解;(2)Perception-guided Knowledge Retrieval从驾驶知识图谱(交通法/防御驾驶/道德规范)检索相关知识;(3)World Model预测未来状态+Value Model(human-preference训练)评估轨迹价值,实现可解释决策。nuScenes最低碰撞率,Bench2Drive/NVISIM SOTA。
- Learnability-Driven Submodular Optimization for Active Roadside 3D Detection
-
提出 LH3D 框架,通过「深度置信度→语义平衡→几何多样性」三阶段子模优化的主动学习策略,抑制路侧单目 3D 检测中固有歧义样本的选取,仅用 20% 标注预算即显著优于传统不确定性/多样性 AL 方法。
- Learning Geometric and Photometric Features from Panoramic LiDAR Scans for Outdoor Place Categorization
-
构建大规模室外场景数据集MPO(含Velodyne稀疏和FARO稠密两种LiDAR点云),提出结合水平循环卷积(HCC)和行级最大池化(RWMP)的CNN架构,利用全景深度图和反射率图的多模态融合(Softmax Average),在6类室外场景分类上达97.87%准确率,显著超越传统手工特征方法。
- Learning Geometric and Photometric Features from Panoramic LiDAR Scans for Outdoor Place Categorization
-
提出利用LiDAR全景深度图和反射率图作为CNN输入进行室外场景分类的方法,构建了MPO大规模室外3D数据集(6类场景,34200帧),通过水平循环卷积(HCC)和行级最大池化(RWMP)处理全景图的环状结构,在多模态融合下达到97.47%分类准确率。
- Learning Mutual View Information Graph for Adaptive Adversarial Collaborative Perception
-
提出 MVIG 攻击框架,通过将不同防御型协作感知系统的脆弱性统一建模为互视图信息图(Mutual View Information Graph),结合时序图学习与熵感知漏洞搜索,实现自适应的伪造攻击,使防御成功率最高下降 62%。
- Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos
-
提出LFG(Learning to drive is a Free Gift),一个完全无标签、教师引导的自动驾驶预训练框架,从大规模无姿态YouTube驾驶视频中学习几何、语义和运动感知的统一伪4D表示,在NAVSIM基准上仅用单目前视相机即超越多相机+LiDAR的BEV方法(PDMS 85.2),并展示了出色的数据效率(10%标签即达81.4 PDMS)。
- LiREC-Net: A Target-Free and Learning-Based Network for LiDAR, RGB, and Event Calibration
-
提出LiREC-Net,首个统一框架同时完成LiDAR-RGB和LiDAR-Event相机的无靶标外参标定,通过共享LiDAR表示(融合3D点特征和投影深度特征)和成对代价体积实现跨模态对齐,在KITTI上达到1.80cm/0.11°、DSEC上达到2.51cm/0.14°(LiDAR-RGB)和1.18cm/0.07°(LiDAR-Event)的标定精度。
- Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection
-
揭示了LiDAR-Camera融合中特征不对齐主要集中在前景-背景深度突变边界,提出PGDC(2D先验引导深度校准)+DAGF(不连续感知几何融合)+SGDM(结构引导深度调制器)三个协同模块,在融合前主动修正不对齐问题,在nuScenes验证集达到mAP 71.5%、NDS 73.6%的SOTA。
- LR-SGS: Robust LiDAR-Reflectance-Guided Salient Gaussian Splatting for Self-Driving Scene Reconstruction
-
LR-SGS 提出利用 LiDAR 反射率引导的结构感知 Salient Gaussian 表示,通过将 LiDAR 强度校准为光照不变的反射率通道附加到每个 Gaussian、从几何与反射率特征点初始化结构化 Salient Gaussian、以及 RGB-反射率跨模态梯度一致性约束,在 Waymo 数据集的复杂光照场景中以更少 Gaussian 数量和更短训练时间超越 OmniRe 达 1.18 dB PSNR。
- LR-SGS: Robust LiDAR-Reflectance-Guided Salient Gaussian Splatting for Self-Driving Scene Reconstruction
-
提出LR-SGS,将LiDAR强度校准为光照不变的反射率通道附加到3D高斯体上,并设计结构感知的Salient Gaussian表示(从LiDAR几何和反射率特征点初始化)配合改进的密度控制和显著变换策略,在Waymo自动驾驶复杂场景中实现优于OmniRe的高保真重建,且高斯体更少、训练更快。
- M²-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs
-
针对自动驾驶中相机故障导致的不完整输入问题,提出M²-Occ框架,通过多视角掩码重建(MMR)利用相邻相机重叠视场恢复缺失特征,并引入特征记忆模块(FMM)用类级语义原型精化体素表示,在缺失后视摄像头时IoU提升4.93%,不影响全视角性能。
- MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating
-
提出MetaDAT框架,通过元学习预训练获得适合在线适应的模型初始化,并在测试时采用动态学习率优化和困难样本驱动更新来实现跨数据集分布偏移下的轨迹预测自适应,在nuScenes/Lyft/Waymo多种跨域配置下全面超越现有TTT方法。
- MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating
-
提出 MetaDAT 框架,通过元预训练获得适合在线自适应的模型初始化,并在测试时利用动态学习率优化和难样本驱动更新实现数据自适应的模型调整,在 nuScenes/Lyft/Waymo 跨数据集分布偏移场景下超越所有 TTT 方法。
- MindDriver: Introducing Progressive Multimodal Reasoning for Autonomous Driving
-
提出渐进式多模态推理框架 MindDriver,模仿人类"感知→想象→行动"机制——先文本语义理解,再想象未来场景图像(桥接语义和物理空间),最后预测轨迹,配合反馈引导数据标注和渐进式强化微调,在 nuScenes 开环和 Bench2Drive 闭环评估上均取得最优表现。
- Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes (LegoOcc)
-
提出 LegoOcc,利用语言嵌入高斯(LE-Gaussians)作为统一的几何-语义中间表示,结合基于 Poisson 过程的高斯到占用(G2O)算子和渐进温度衰减策略,在仅使用二值占用标签(无语义标注)的情况下实现室内场景的单目开放词汇占用预测,在 Occ-ScanNet 上达到 59.50 IoU / 21.05 mIoU。
- MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer
-
提出 MoVieDrive,首个在统一框架下实现多模态(RGB+深度+语义)多视图自动驾驶场景视频生成的扩散 Transformer 方法,通过模态共享层+模态特定层的设计和多样化条件编码,在 nuScenes 上 FVD 达到 46.8(领先 SOTA 22%),同时生成高质量的深度图和语义图。
- MoVieDrive: Urban Scene Synthesis with Multi-Modal Multi-View Video Diffusion Transformer
-
MoVieDrive 提出统一的多模态多视图视频扩散 Transformer,通过 modal-shared + modal-specific 的双层架构设计,在单一模型中同时生成 RGB 视频、深度图和语义图,配合多样的条件输入(文本、布局、上下文参考),在 nuScenes 上取得 FVD 46.8(SOTA),同时实现跨模态一致的高质量驾驶场景合成。
- NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning
-
NoRD 证明自动驾驶 VLA 不需要大规模推理标注和海量数据:通过识别 GRPO 在弱 SFT 策略上失败的根因是 difficulty bias(高方差 rollout 组的学习信号被压制),采用 Dr. GRPO 替代标准 GRPO 做 RL 后训练,仅用 <60% 数据、无推理标注、3× 更少 token,在 NAVSIM(85.6 PDMS)和 WaymoE2E(7.709 RFS)上达到与推理型 VLA 竞争的性能。
- O3N: Omnidirectional Open-Vocabulary Occupancy Prediction
-
O3N 首次提出全向开放词汇占用预测任务,设计纯视觉端到端框架:Polar-spiral Mamba (PsM) 在极坐标空间以螺旋扫描建模全景几何连续性;Occupancy Cost Aggregation (OCA) 构建 voxel-text 匹配代价体积避免直接特征对齐的过拟合;Natural Modality Alignment (NMA) 通过无梯度随机游走对齐 pixel-voxel-text 三模态嵌入。在 QuadOcc 上达 16.54 mIoU / 21.16 Novel mIoU(SOTA),大幅超越 OVO 基线。
- O3N: Omnidirectional Open-Vocabulary Occupancy Prediction
-
提出O3N——首个纯视觉端到端全向开放词汇占用预测框架,通过极坐标螺旋Mamba(PsM)、占用代价聚合(OCA)和无梯度自然模态对齐(NMA)三大模块,在QuadOcc和Human360Occ上实现SOTA。
- On the Feasibility and Opportunity of Autoregressive 3D Object Detection
-
提出 AutoReg3D,首个将 LiDAR 3D 目标检测建模为自回归序列生成的框架,利用近到远排序和参数特定词表将 bounding box 离散为 token 序列,无需 anchor/NMS 即可达到与主流方法竞争的性能,并解锁 RL 微调和级联精炼等新能力。
- OneOcc: Semantic Occupancy Prediction for Legged Robots with a Single Panoramic Camera
-
提出 OneOcc,一个面向足式/人形机器人的纯视觉全景语义占用预测框架,通过双投影融合、双网格体素化、步态位移补偿和层级混合专家解码器,仅用单个全景相机即可实现 360° 语义场景补全,在真实四足和仿真人形数据集上超越 LiDAR 基线。
- Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots
-
面向四足机器人构建首个全景多模态(RGB+热成像+偏振+LiDAR)语义占据数据集PanoMMOcc,并提出VoxelHound框架,通过垂直抖动补偿(VJC)和多模态信息提示融合(MIPF)模块实现鲁棒的3D占据预测,达到23.34% mIoU(+4.16%)。
- Panoramic Multimodal Semantic Occupancy Prediction For Quadruped Robots
-
提出首个面向四足机器人的全景多模态语义占据预测数据集 PanoMMOcc 及框架 VoxelHound,通过垂直抖动补偿(VJC)和多模态信息提示融合(MIPF)模块,在全景 RGB+热成像+偏振+LiDAR 四模态下达到 23.34% mIoU,超越已有方法 +4.16%。
- Perception Characteristics Distance Measuring Stability And Robustness Of Percep
-
提出 Perception Characteristics Distance (PCD),一种量化感知系统在不同距离下可靠检测能力的新指标,通过统计建模检测置信度随距离的均值和方差变化,定义感知系统的最大可靠检测距离,弥补传统 AP/IoU 等静态指标无法反映距离依赖性和随机性的不足。
- Points-to-3D: Structure-Aware 3D Generation with Point Cloud Priors
-
提出 Points-to-3D,将可见区域点云编码为 TRELLIS 的稀疏结构潜变量(SS latent)并用 mask-aware inpainting 网络补全不可见区域,结合结构补全+边界精炼两阶段采样策略,实现几何可控的高保真 3D 资产/场景生成,在 Toys4K 上 F-Score 达 0.964(可见区域 0.998)。
- R4Det: 4D Radar-Camera Fusion for High-Performance 3D Object Detection
-
提出 R4Det,通过三个即插即用 BEV 模块——全景深度融合(PDF)、可变形门控时序融合(DGTF)、实例引导动态精炼(IGDR)——系统性解决 4D 雷达-相机融合中的深度估计不准、无位姿时序融合以及小目标检测三大难题,在 TJ4DRadSet 上 3D mAP 达 47.29%(+5.47%),VoD 上 mAP 66.69%。
- Recover To Predict Progressive Retrospective Learning For Variable-Length Trajec
-
提出渐进式回溯框架 PRF,通过级联回溯单元逐步将不完整观测的特征对齐到完整观测,大幅提升变长轨迹预测性能,且即插即用兼容现有方法。
- RESBev: Making BEV Perception More Robust
-
提出RESBev——一个即插即用的BEV感知鲁棒性增强框架,通过隐空间世界模型从历史干净帧预测当前BEV语义先验,再与被损坏的当前观测融合,在nuScenes上显著提升四种LSS模型在10种干扰下的平均IoU(+15~20个点)。
- Saber Spatially Consistent 3D Universal Adversarial Objects For Bev Detectors
-
提出首个面向BEV 3D检测器的非侵入式、3D一致的通用对抗物体生成框架SABER,通过在场景中放置优化后的3D mesh来干扰多视角多帧检测,揭示BEV模型对环境上下文先验的过度依赖。
- SG-NLF: Spectral-Geometric Neural Fields for Pose-Free LiDAR View Synthesis
-
SG-NLF提出一种无需精确位姿的LiDAR NeRF框架,通过谱-几何混合表示解决LiDAR稀疏数据导致的几何空洞问题,利用置信感知图实现全局位姿优化,并引入对抗学习强化跨帧一致性,在nuScenes上重建质量和位姿精度分别比SOTA提升35.8%和68.8%。
- Single Pixel Image Classification using an Ultrafast Digital Light Projector
-
利用microLED-on-CMOS超快光投影器(330kfps)进行单像素成像(SPI),以12×12 Hadamard pattern照明MNIST数字并用单像素检测器采集时间序列,完全跳过图像重建,直接用ELM/DNN分类实测光信号,实现1.2kfps下>90%分类精度,二分类(异常检测)精度>99%。
- TT-Occ: Test-Time 3D Occupancy Prediction
-
提出 TT-Occ,一种无需预训练的测试时3D占用预测框架,通过在推理时集成视觉基础模型(VFMs)来增量构建、优化和体素化时间感知的3D高斯,在 Occ3D-nuScenes 和 nuCraft 上超越了所有需要大量训练的自监督方法。
- Towards Balanced Multi-Modal Learning in 3D Human Pose Estimation
-
提出基于Shapley值的模态贡献评估+Fisher信息矩阵引导的自适应权重约束(AWC)正则化方法,解决RGB/LiDAR/mmWave/WiFi四模态融合中的模态不平衡问题,在MM-Fi数据集上MPJPE比naive fusion降低2.71mm,比最佳balancing方法降低约5mm,且不引入额外可学参数。
- U4D: Uncertainty-Aware 4D World Modeling from LiDAR Sequences
-
提出 U4D,首个不确定性感知的 4D LiDAR 世界建模框架,通过"先难后易"的两阶段扩散生成策略,先重建高不确定性区域再条件补全整个场景,并设计 MoST 模块自适应融合时空特征以保证时序一致性。
- VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation
-
提出 VIRD,通过双轴变换(极坐标变换 + 上下文增强位置注意力)构建视图不变表示,在无方向先验条件下实现 SOTA 的跨视角位姿估计,在 KITTI 上位置和方向误差分别降低 50.7% 和 76.5%。
- Walkgpt Grounded Vision-Language Conversation With Depth-Aware Segmentation For
-
提出 WalkGPT——首个面向行人无障碍导航的像素定位大视觉语言模型,统一对话推理、分割掩码与深度估计于单一架构中,并构建了 41k 规模的 PAVE 数据集。
🎬 视频理解¶
- A4VL: A Multi-Agent Perception-Action Alliance for Efficient Long Video Reasoning
-
提出 A4VL,一个 training-free 的多 Agent 感知-行动联盟框架:多个异构 VLM Agent 在多轮循环中执行感知探索(事件分区 + CLIP 线索对齐定位关键帧)和行动探索(独立推理 → 交叉评分 → 共识/剪枝),在 5 个 VideoQA 基准上全面超越 18 个 VLM 和 11 个长视频专用方法,且推理延迟显著更低(MLVU 上 74s vs GPT-4o 127s)。
- A Multi-Agent Perception-Action Alliance for Efficient Long Video Reasoning
-
提出 A4VL,一个无训练的多智能体感知-行动联盟框架,通过事件驱动视频分块、线索引导的关键帧选择和多轮智能体协商剪枝机制,在五个视频问答基准上以显著更低的推理延迟全面超越 28 个基线方法。
- Attend Before Attention Efficient And Scalable Video Understanding Via Autoregre
-
提出 AutoGaze——一个仅 3M 参数的轻量自回归模块,在 ViT 之前以多尺度方式选择最少量 patch 并去除时空冗余,实现 4×-100× token 压缩和最高 19× ViT 加速,使 MLLM 可扩展到 1K 帧 4K 分辨率视频。
- AutoGaze: Attend Before Attention — Efficient and Scalable Video Understanding via Autoregressive Gazing
-
提出AutoGaze——在ViT/MLLM处理视频之前,用一个轻量模块自回归地选择最少的多尺度patch,减少4x-100x视觉token,加速最高19x,支持1K帧4K视频并在VideoMME达67.0%。
- Beyond Single-Sample Reliable Multi-Sample Distillation For Video Understanding
-
揭示视频 LVLM 黑盒蒸馏中单样本 teacher 响应存在严重不可靠性(跨问题方差 σ=0.22、采样内方差 σ=0.07~0.15、格式违规 1%~10%),提出 R-MSD 框架通过多样本 teacher pool + 任务自适应匹配 + 两阶段 SFT→RL 对抗蒸馏解决该问题,4B student 在 VideoMME/Video-MMMU/WorldSense 上全面超越同规模 Qwen3-VL-4B。
- Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding
-
提出 R-MSD 框架,通过每输入采样 K 个教师响应构建教师池,结合任务自适应质量匹配(封闭题质量加权、开放题均匀配对)和在线判别器对抗蒸馏,解决视频 LVLM 黑盒蒸馏中单样本监督不可靠的问题。
- Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering
-
提出 EgoPointVQA 数据集和 HINT(Hand Intent Tokens)方法,通过将 3D 手部关键点编码为手意图 token 并与视觉 token 交错输入 MLLM,解决第一人称视频中基于手势指向的指示性问答任务,HINT-14B 达 68.1% 准确率超越 InternVL3-14B 5.4pp。
- Dual-Agent Reinforcement Learning For Adaptive And Cost-Aware Visual-Inertial Od
-
提出双智能体强化学习框架,通过 Select Agent(基于IMU信号决定是否启动视觉前端)和 Fusion Agent(自适应融合视觉-惯性状态)两个轻量RL策略,在不完全移除VIBA的前提下大幅降低其调用频率和计算开销,实现精度-效率-显存的更优折中。
- Echoes Of Ownership Adversarial-Guided Dual Injection For Copyright Protection I
-
提出 AGDI 框架,通过对抗优化生成 trigger image 进行 MLLM 黑盒版权追踪:双注入机制同时在 response 级(CE loss 驱动辅助模型输出 target answer)和 semantic 级(最小化 trigger image 与 target text 的 CLIP 余弦距离)注入版权信息,并引入模型对抗训练模拟 fine-tune 抵抗,在 Qwen2-VL/LLaVA-1.5 上全面超越 PLA 和 RNA 基线。
- EgoPointVQA: Gesture-Based Egocentric Video Question Answering
-
提出 EgoPointVQA 数据集(4000 合成 + 400 真实第一人称视频)和 HINT 方法,通过 3D 手部关键点编码为手势意图 token 并与视觉 token 交织输入 MLLM,使模型能理解用户指向手势并回答指示性问题,HINT-14B 达到 68.1% 准确率,超越 InternVL3-14B 6.6 个百分点。
- Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking
-
提出基于等保序回归的后校准(post-hoc calibration)方法,仅用50个标定样本即可修正视线追踪模型在域偏移下的不确定性估计失准,并引入CPE(Coverage Probability Error)指标替代EUC正确评估不确定性质量——校准后CPE从8%-45%降至~5%,95%置信区间覆盖率从16%-67%提升至86%-89%。
- Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking with Probabilistic Evaluation and Calibration
-
提出一种数据高效的后验校准方法,通过等保序回归将不确定性感知视线追踪模型的预测分布与真实观测分布对齐,并引入 Coverage Probability Error (CPE) 指标替代不可靠的误差-不确定性相关性(EUC)来评估不确定性质量。
- FC-Track: Overlap-Aware Post-Association Correction for Online Multi-Object Tracking
-
提出轻量后关联校正框架 FC-Track,通过 IoA 触发的外观更新抑制和局部检测-轨迹错配重分配,将长期身份切换比例从 36.86% 降至 29.55%,同时保持 MOT17/MOT20 上的 SOTA 水平。
- FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance
-
提出 FlashMotion 三阶段训练框架——先训轨迹 adapter、再蒸馏少步生成器、最后用扩散+对抗混合目标微调 adapter——在少步推理下实现高质量轨迹可控视频生成,并发布 FlashBench 评估基准。
- FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding
-
提出 FluxMem,一个无需训练的流式视频理解框架,通过层级化记忆设计(短期/中期/长期)和两个自适应 token 压缩模块(TAS 去时间冗余 + SDC 去空间冗余),在丢弃 60-70% 视觉 token 的同时在 StreamingBench 和 OVO-Bench 上取得新 SOTA。
- Frame2Freq Spectral Adapters For Fine-Grained Video Understanding
-
提出 Frame2Freq——首个在频域进行时序建模的 PEFT 适配器族,通过 FFT 将冻结 VFM 的帧嵌入变换到频谱空间并学习频带级滤波,在五个细粒度动作识别基准上以 <10% 的可训练参数超越全量微调模型。
- Learning to Assist: Physics-Grounded Human-Human Control via Multi-Agent Reinforcement Learning
-
提出 AssistMimic,将人-人辅助交互动作的物理模仿建模为多智能体强化学习(MARL)问题,通过运动先验初始化、动态参考重定向和接触促进奖励,首次实现了力交换型辅助动作的物理仿真跟踪。
- Let Your Image Move With Your Motion -- Implicit Multi-Object Multi-Motion Trans
-
FlexiMMT 是首个支持隐式多目标多运动迁移的 I2V 框架,通过运动解耦掩码注意力机制 (MDMA) 和差异化掩码提取机制 (DMEM),将多个参考视频的不同运动独立分配给目标图像中的不同物体,实现灵活组合式运动迁移。
- Longvideo-R1 Smart Navigation For Low-Cost Long Video Understanding
-
提出 LongVideo-R1,一个配备推理能力的多模态 Agent,通过层次化视频树结构和智能导航策略,以平均仅 10.5 轮工具调用实现高效长视频问答,在精度-效率权衡上显著优于穷举式方法。
- Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking
-
提出遮挡感知跟踪框架 OA-SORT,通过显式建模目标遮挡状态来缓解位置代价混淆和 Kalman Filter 估计不稳定问题,在 DanceTrack/SportsMOT/MOT17 上均取得 SOTA 级提升,且组件可即插即用地集成到多种跟踪器中。
- OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments
-
提出目前最大规模的工业场景多模态动作识别数据集 OpenMarcie,融合可穿戴传感器与视觉数据共 8 种模态、200+ 通道、37+ 小时录制,并在 HAR 分类、开放词表描述、跨模态对齐三个基准上验证了惯性+视觉融合的优越性。
- Question-Guided Visual Compression With Memory Feedback For Long-Term Video Unde
-
提出 QViC-MF 框架,通过问题引导的多帧视觉压缩(QMSA)和上下文记忆反馈机制,在长视频理解任务上以极少的视觉 token(每帧仅 16 个)实现了 MLVU/LVBench/VNBench 等多个基准上的 SOTA。
- Ragtrack Language-Aware Rgbt Tracking With Retrieval-Augmented Generation
-
首次将文本描述引入 RGBT 跟踪,提出基于检索增强生成(RAG)的框架 RAGTrack,通过多模态 Transformer 编码器、自适应 Token 融合和上下文感知推理模块,在四个 RGBT 基准上取得 SOTA。
- Real-World Point Tracking With Verifier-Guided Pseudo-Labeling
-
提出 Verifier——一个元模型,通过学习逐帧评估多个预训练跟踪器预测的可靠性,从中选取最优候选构建高质量伪标签轨迹,实现无需人工标注的真实世界点跟踪微调,在四个真实基准上达到 SOTA。
- Real-World Point Tracking with Verifier-Guided Pseudo-Labeling
-
提出一个可学习的Verifier元模型,通过逐帧评估多个预训练tracker预测的可靠性来生成高质量伪标签,实现合成数据到真实世界的高效域适应,在四个真实世界点跟踪基准上达到SOTA。
- FlexHook: Rethinking Two-Stage Referring-by-Tracking in RMOT
-
提出 FlexHook,一种新颖的两阶段 Referring-by-Tracking 框架,通过基于采样的 Conditioning Hook(C-Hook)重新定义特征构建,并用 Pairwise Correspondence Decoder(PCD)替换 CLIP 余弦相似度匹配,首次使两阶段方法全面超越当前 SOTA 的一阶段方法。
- FlexHook: Rethinking Two-Stage Referring-by-Tracking in RMOT
-
FlexHook重新激活了两阶段RBT(Referring-by-Tracking)范式:用C-Hook从backbone直接采样目标特征(替代双编码)并注入语言条件线索,用PCD(成对对应解码器)替代CLIP余弦相似度做主动对应建模,首次让两阶段方法全面超越一阶段RMOT的SOTA——Refer-KITTI-V2上HOTA从10.32(iKUN)提升到42.53,训练仅1.91小时(2×4090)。
- SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning
-
提出 SAIL,通过跨模态相似度引导的语义感知掩码生成和 LLM 合成字幕的辅助监督,在仅有字幕标注(无时间边界)的弱监督设置下,在 ActivityNet 和 YouCook2 上实现密集视频描述和事件定位的双 SOTA。
- Sava-X Ego-To-Exo Imitation Error Detection Via Scene-Adaptive View Alignment An
-
提出 SAVA-X 框架,通过自适应采样、场景感知视角嵌入和双向交叉注意力融合三个互补模块,解决第三人称示范→第一人称模仿场景下的跨视角时序错误检测问题,在 EgoMe 基准上全面超越现有基线。
- SAVA-X: Ego-to-Exo Imitation Error Detection via Scene-Adaptive View Alignment and Bidirectional Cross View Fusion
-
提出Align-Fuse-Detect框架SAVA-X,通过Gumbel Top-K自适应采样去冗余、场景自适应视角嵌入缩小域差距、双向交叉注意力融合互补语义,在EgoMe数据集上Mean AUPRC达22.36,超越最强baseline +13.56%。
- SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking
-
提出 SpikeTrack,首个完全符合脉冲驱动范式的 RGB 视觉跟踪框架,通过非对称时间步扩展、单向信息流和脑启发记忆检索模块(MRM),在 SNN 跟踪器中达到 SOTA 并与 ANN 跟踪器持平,同时能耗仅为 TransT 的 1/26。
- Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning
-
ROS-DVC通过为DETR-based密集视频描述设计角色专用查询初始化(分离定位和描述查询)+跨任务对比对齐损失+重叠抑制损失,在YouCook2上无需预训练即达到CIDEr 39.18的SOTA,超越使用GPT-2的DDVC。
- Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning
-
提出 ROS-DVC,通过将 DETR-based DVC 框架中的共享 query 分离为独立的 localization query 和 caption query,并设计 Overlap Suppression Loss 惩罚 query 间的时序重叠、Cross-Task Contrastive Alignment 保证跨任务语义一致性,在 YouCook2 和 ActivityNet Captions 上实现了 SOTA 的 captioning 和 localization 性能。
- StreamingTOM: Streaming Token Compression for Efficient Video Understanding
-
提出 StreamingTOM,一个无需训练的两阶段流式视频理解框架:Causal Temporal Reduction (CTR) 在 LLM 前通过因果时序选择将每帧 token 从 196 压缩到 50,Online Quantized Memory (OQM) 在 LLM 后通过 4-bit 量化和按需检索限制 kv-cache 增长,实现 15.7× 压缩比、1.2× 更低峰值显存和 2× 更快 TTFT。
- StreamingTOM: Streaming Token Compression for Efficient Video Understanding
-
针对流式视频 VLM 面临的因果性(无法访问未来帧)和累积性(token 无界增长)两个约束,提出 StreamingTOM——一个免训练、即插即用的两阶段框架,通过因果时序缩减(减少 pre-LLM prefill)和在线量化记忆(4-bit KV-cache 存储+按需检索反量化),实现 15.7× KV-cache 压缩比、较 SOTA LiveVLM 降低 1.2× 峰值内存和 2× 更快 TTFT,在离线基准平均 63.8% 和流式基准 RVS 55.8% 达到免训练方法 SOTA。
- StreamReady: Learning What to Answer and When in Long Streaming Videos
-
提出就绪性感知的流式视频理解范式,通过可学习的
<RDY>token 和 Answer Readiness Score (ARS) 指标,让模型不仅回答正确,还能在证据出现的恰当时刻作答,在 9 个流式/离线视频基准上取得 SOTA。 - The Devil is in the Details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection
-
提出 KeyTailor 框架,通过关键帧驱动的细节注入策略(服装动态增强 + 协同背景优化)在不修改 DiT 架构的前提下,大幅提升视频虚拟试穿的服装保真度与背景一致性,同时发布 15K 高清数据集 ViT-HD。
- Trajtok Learning Trajectory Tokens Enables Better Video Understanding
-
提出 TrajTok——一种端到端可微的轨迹 tokenizer,将视频像素隐式聚类为目标轨迹 token,取代外部分割+跟踪流水线;在从头训练 (TrajViT2)、特征适配 (TrajAdapter) 和视觉语言模型连接器 (TrajVLM) 三种场景下均取得显著提升,尤其在长视频 QA 上大幅超越 patch pooling。
- TrajTok: 学习轨迹Token实现更好的视频理解
-
提出TrajTok——首个端到端可微的轨迹视频tokenizer,通过隐式时空聚类将视频编码为物体轨迹token,无需外部分割/跟踪管线,在分类、检索和长视频QA上全面超越patch-based方法。
Uetrack A Unified And Efficient Framework For Single Object Tracking
- Utptrack Towards Simple And Unified Token Pruning For Visual Tracking
-
提出 UTPTrack,首个在 one-stream Transformer 跟踪器中同时对搜索区域 (SR)、动态模板 (DT) 和静态模板 (ST) 三个组件进行联合 token 剪枝的统一框架,在 RGB 和多模态/语言引导跟踪中实现 65–67% 的视觉 token 裁减,且保持 99.7%–100.5% 的基线性能。
- Videochat-M1 Collaborative Policy Planning For Video Understanding Via Multi-Age
-
提出VideoChat-M1,用多智能体协作策略规划(CPP)+ 多智能体强化学习(MARL)替代传统固定工具调用策略,让多个策略Agent动态生成、执行和沟通工具调用计划,在8个视频理解基准上取得SOTA,LongVideoBench超Gemini 2.5 Pro 3.6%、超GPT-4o 15.6%。
- VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning
-
VideoChat-M1 提出了多智能体协作策略规划(CPP)范式 + 多智能体强化学习(MARL)训练框架,让 4 个异构 VLM agent 动态生成和更新工具调用策略来理解视频,在 LongVideoBench 上超过 Gemini 2.5 Pro 3.6%,超过 GPT-4o 15.6%。
- Wavelet-Based Frame Selection By Detecting Semantic Boundary For Long Video Unde
-
提出 WFS-SB,一种免训练的帧选择框架,利用小波变换从查询-帧相似度信号中检测语义边界,将视频分割为语义连贯的片段后自适应分配帧预算并做多样性采样,在 VideoMME/MLVU/LongVideoBench 上大幅超越 SOTA。
🎯 目标检测¶
- ABRA: Teleporting Fine-Tuned Knowledge Across Domains for Open-Vocabulary Object Detection
-
将域适应建模为权重空间的SVD旋转对齐问题:分解域与类知识,通过闭式正交Procrustes解将源域类特定残差"传送"到无标注的目标域,实现零样本跨域类别检测。
- Adaptive Auxiliary Prompt Blending for Target-Faithful Diffusion Generation
-
提出 Adaptive Auxiliary Prompt Blending (AAPB),通过 Tweedie 公式推导闭式自适应混合系数,在每个去噪步动态平衡辅助锚定提示与目标提示的贡献,无需训练即可显著改善稀有概念生成和零样本图像编辑的语义准确性与结构保真度。
- Anchoring and Rescaling Attention for Semantically Coherent Inbetweening
-
提出 KAB(Keyframe-Anchored Attention Bias)和 ReTRo(Rescaled Temporal RoPE)两个无需训练的推理时方法,基于 Wan2.1 视频扩散模型解决稀疏关键帧下大运动生成式帧插值(GI)中的语义不忠、帧不一致和节奏不稳问题,并构建首个文本条件 GI 评估基准 TGI-Bench。
- AR²-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos
-
利用固定视角视频中背景结构的时不变性,构建离线 Anchor Bank + 在线 Anchor Map 作为语言-场景持久记忆,配合锚点引导的重入先验和 ReID-Gating 身份验证机制,实现目标遮挡/离场后的鲁棒重捕获,RCR 提升 10.3%、RCL 降低 24.2%。
- Beautygrpo Aesthetic Alignment For Face Retouching Via Dynamic Path Guidance And
-
提出 BeautyGRPO,一个基于强化学习的人脸修图框架,通过构建细粒度偏好数据集 FRPref-10K 训练专用奖励模型,并设计动态路径引导(DPG)机制在随机探索与高保真之间取得平衡,实现与人类美学偏好对齐的自然修图效果。
- Beyond Caption-Based Queries for Video Moment Retrieval
-
揭示了VMR中caption-based查询与真实用户搜索查询之间的巨大鸿沟,提出了三个搜索查询基准,并通过移除自注意力+查询Dropout两项架构修改来缓解DETR中的解码器查询坍塌问题,在多时刻搜索查询上提升高达21.83% mAPm。
- Beyond Prompt Degradation: Prototype-Guided Dual-Pool Prompting for Incremental Object Detection
-
提出 PDP 框架,通过双池提示解耦(共享池 + 私有池)和原型引导伪标签生成(PPG),解决增量目标检测中提示耦合与提示漂移导致的提示退化问题,在 COCO 和 VOC 上取得 SOTA。
- CineSRD: Leveraging Visual, Acoustic, and Linguistic Cues for Open-World Visual Media Speaker Diarization
-
提出 CineSRD,一个免训练的多模态说话人分离框架,通过视觉锚点聚类进行说话人注册,结合音频语言模型进行说话人转换检测,解决影视作品中长视频、大量角色、音视频不同步等开放世界挑战。
- CLCR: Cross-Level Semantic Collaborative Representation for Multimodal Learning
-
提出 CLCR 框架,将每个模态特征组织为三层语义层级(浅/中/深),通过层内受控交换域(IntraCED)限制跨模态交互仅在共享子空间进行,通过层间协同聚合域(InterCAD)实现跨层自适应融合,解决多模态学习中的跨层语义不同步问题。
- Da-Mamba Learning Domain-Aware State Space Model For Global-Local Alignment In D
-
提出 DA-Mamba,一种 CNN-SSM 混合架构,通过 Image-Aware SSM(IA-SSM)和 Object-Aware SSM(OA-SSM)两个模块,以线性复杂度实现图像级和实例级的全局-局部域不变特征对齐,在四个域自适应检测基准上达到 SOTA。
- Decoupling Vision and Language: Codebook Anchored Visual Adaptation
-
提出 CRAFT,通过离散 codebook 将视觉编码器与语言模型解耦,仅微调视觉编码器即可实现领域适配,且适配后的编码器可跨 LLM 架构无缝复用,在 10 个领域基准上平均提升 13.51%。
- Does YOLO Really Need to See Every Training Image in Every Epoch?
-
提出 Anti-Forgetting Sampling Strategy (AFSS),根据每张训练图像的学习充分度(min(Precision, Recall))动态决定哪些图像参与训练、哪些可以跳过,实现 YOLO 系列检测器 1.43× 以上的训练加速同时保持甚至提升检测精度。
- Evaluating Few-Shot Pill Recognition Under Visual Domain Shift
-
本文从部署视角系统评估药丸识别在跨域few-shot条件下的泛化能力,揭示语义分类1-shot即饱和但定位/recall在重叠遮挡下急剧下降的解耦现象,并证明训练数据的视觉真实性远比数据量或shot数更关键。
- Evaluating Few-Shot Pill Recognition Under Visual Domain Shift
-
从部署导向视角系统评估了小样本药丸识别在跨数据集域偏移下的表现,发现语义分类1-shot即可饱和(准确率>0.989),但遮挡重叠场景下定位和召回急剧退化,训练数据的视觉真实性(多药丸、杂乱场景)是决定小样本泛化鲁棒性的主要因素。
- Ew-Detr Evolving World Object Detection Via Incremental Low-Rank Detection Trans
-
提出 Evolving World Object Detection (EWOD) 范式及 EW-DETR 框架,通过增量 LoRA 适配器、查询范数物体性适配器和熵感知未知混合三个协同模块,在无样本回放条件下同时解决类别增量学习、域迁移适应和未知目标检测问题,FOGS 指标提升 57.24%。
- EW-DETR: Evolving World Object Detection via Incremental Low-Rank DEtection TRansformer
-
提出Evolving World Object Detection (EWOD)范式和EW-DETR框架,通过增量LoRA适配器、查询范数物体性适配器和熵感知未知混合三个模块,在无需存储旧数据的条件下同时解决类别增量学习、域迁移自适应和未知目标检测,FOGS指标较现有方法提升57.24%。
- Falcon False-Negative Aware Learning Of Contrastive Negatives In Vision-Language
-
提出 FALCON,一种基于学习的 mini-batch 构造策略,通过负样本挖掘调度器自适应平衡硬负样本与假负样本之间的权衡,显著提升视觉语言预训练的跨模态对齐质量。
- Fixed Anchors Are Not Enough: Dynamic Retrieval and Persistent Homology for Dataset Distillation
-
RETA解耦数据蒸馏中残差匹配的两个失败模式(fit-complexity gap和pull-to-anchor effect),通过动态检索连接(DRC)自适应选择real patch anchor并用持久同调拓扑对齐(PTA)保持类内多样性,在ImageNet-1K ResNet-18 IPC=50上达到64.3%(+3.1% vs FADRM)。
- Foundation Model Priors Enhance Object Focus In Feature Space For Source-Free Ob
-
提出 FALCON-SFOD 框架,通过基础模型(OV-SAM)生成的类别无关二值掩码正则化检测器特征空间(SPAR),结合不平衡感知的噪声鲁棒伪标签损失(IRPL),在无源域目标检测中增强目标聚焦表征,多个基准上达到 SOTA。
- Fourier Angle Alignment for Oriented Object Detection in Remote Sensing
-
利用傅里叶旋转等变性在频域估计并对齐目标方向,提出 FAAFusion(解决 Neck 层方向不一致)和 FAA Head(解决检测头分类-回归任务冲突)两个即插即用模块,在 DOTA 和 HRSC2016 上达到新 SOTA。
- Just-In-Time Training-Free Spatial Acceleration For Diffusion Transformers
-
提出 Just-in-Time (JiT) 框架,通过在空间域动态选择稀疏 anchor token 驱动生成 ODE 演化,并设计确定性 micro-flow 保证新 token 无缝激活,在 FLUX.1-dev 上实现最高 7× 加速且几乎无损。
- Learning Multi-Modal Prototypes for Cross-Domain Few-Shot Object Detection
-
提出双分支框架 LMP,在 GroundingDINO 基础上引入视觉原型分支(正类原型+硬负原型),与文本分支联合训练并集成推理,在跨域少样本目标检测中取得 SOTA。
- MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization
-
发现并利用跨模态知识迁移现象——修改 LLM 文本编码器中的知识可自然迁移到视觉生成,提出 MoKus 两阶段框架(视觉概念学习 + 文本知识更新)实现知识感知的概念定制。
- MoKus: Leveraging Cross-Modal Knowledge Transfer for Knowledge-Aware Concept Customization
-
提出"知识感知概念定制"新任务,发现LLM文本编码器中的知识编辑可以自然迁移到视觉生成模态(跨模态知识迁移),基于此提出MoKus框架:先用LoRA微调将稀有token绑定为视觉概念的锚表征,再通过知识编辑技术将多条自然语言知识高效映射到锚表征上,每条知识更新仅需约7秒。
- MRD: Multi-resolution Retrieval-Detection Fusion for High-Resolution Image Understanding
-
提出 MRD,一个 training-free 的多分辨率检索-检测融合框架,通过多分辨率语义融合缓解目标碎片化,结合开放词汇检测器抑制背景干扰,显著提升 MLLM 对高分辨率图像的理解能力。
- Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models
-
重新解释 SDE-based GRPO 为距离优化/对比学习,提出 Neighbor GRPO——完全绕过 SDE 转换,通过扰动 ODE 初始噪声构建邻域候选轨迹 + softmax 距离代理策略实现策略梯度优化,保留确定性 ODE 采样的所有优势。
- PHAC: Promptable Human Amodal Completion
-
提出可提示人体非模态补全(PHAC)新任务,通过基于点的用户提示(姿态/边界框)配合 ControlNet 注入条件信号,并设计基于修复的精炼模块保留可见区域外观,实现高质量、可控的遮挡人体图像补全。
- Pixels Don't Lie (But Your Detector Might): Bootstrapping MLLM-as-a-Judge for Trustworthy Deepfake Detection and Reasoning Supervision
-
提出 DeepfakeJudge 框架,通过 bootstrapped generator-evaluator 流程将人类标注的推理监督扩展为大规模结构化评分数据,训练出 3B/7B 视觉语言模型作为 deepfake 检测推理质量的自动评判者,在 pointwise 和 pairwise 评估上均达到与人类高度一致的水平。
- Sdf-Net Structure-Aware Disentangled Feature Learning For Opticall-Sar Ship Re-I
-
提出 SDF-Net,利用船舶刚体几何结构作为跨模态不变锚点,在中间层提取梯度能量强制结构一致性,在终端层解耦模态共享/特定特征并通过加法残差融合,在 HOSS-ReID 上取得 SOTA(All mAP 60.9%,超 TransOSS 3.5%)。
- Shape-Of-You Fused Gromov-Wasserstein Optimal Transport For Semantic Corresponde
-
将语义对应问题重新建模为 Fused Gromov-Wasserstein (FGW) 最优传输问题,利用 3D 基础模型提供的几何结构约束来生成全局一致的伪标签,解决了传统最近邻匹配因局部性和 2D 外观歧义导致的几何不一致问题。
- Show, Don't Tell: Detecting Novel Objects by Watching Human Videos
-
提出"Show, Don't Tell"范式:通过观看人类演示视频,自动构建新物体标注数据集(SODC),训练轻量级定制检测器(MOD),完全绕过语言描述和prompt engineering,在真实机器人分拣任务上成功部署。
- Specificity-Aware Reinforcement Learning For Fine-Grained Open-World Classificat
-
提出 SpeciaRL——一种特异性感知的强化学习框架,通过基于在线 rollout 最佳预测的动态奖励信号,引导推理型大型多模态模型在开放世界细粒度图像分类中同时提升预测的特异性和正确性。
- Spiraldiff Spiral Diffusion With Lora For Rgb-To-Raw Conversion Across Cameras
-
提出 SpiralDiff,一种面向 RGB-to-RAW 转换的扩散框架,通过信号依赖的噪声加权策略适应不同像素强度区域的重建难度,并引入 CamLoRA 模块实现单一模型跨多相机的轻量适配。
- Stake the Points: Structure-Faithful Instance Unlearning
-
提出 Structguard,通过语义锚点(semantic anchors)保持遗忘过程中保留实例间的语义关系结构,避免结构性崩塌,在图像分类/人脸识别/检索三任务上平均提升 32.9%/19.3%/22.5%。
- The Cote Score A Decomposable Framework For Evaluating Document Layout Analysis
-
提出面向文档布局分析(DLA)的可分解评估框架 COTe(Coverage, Overlap, Trespass, Excess),以及结构语义单元 SSU,相比传统 IoU/mAP/F1 能更准确地反映页面解析质量,并揭示不同模型的特异性失败模式。
- TIACam: Text-Anchored Invariant Feature Learning with Auto-Augmentation for Camera-Robust Zero-Watermarking
-
提出 TIACam 框架,通过可学习自动增强器模拟相机失真、文本锚定跨模态对抗训练学习不变特征、零水印头在特征空间绑定消息,实现无需修改图像像素的相机鲁棒零水印方案,在屏幕翻拍/打印翻拍/截图三种真实场景下均达到 SOTA 提取精度。
- Token Reduction Via Local And Global Contexts Optimization For Efficient Video L
-
提出 AOT 框架,通过建立局部-全局 token anchors 并利用最优传输(Optimal Transport)在帧内和帧间两级聚合被裁剪/合并 token 的语义信息,实现 training-free 的视频 token 压缩,在裁剪 90% token 的情况下仍保留 97.6% 的原始性能。
- Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods
-
提出 STALL,一种无需训练的零样本生成视频检测器,通过在白化嵌入空间中联合建模逐帧空间似然和帧间时序似然,仅依赖真实视频校准即可实现对多种生成模型的鲁棒检测。
🤖 机器人/具身智能¶
- Action–Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation
-
利用预训练3D几何基础模型π3作为感知骨干,融合3D几何、2D语义和本体感知特征,通过扩散模型联合预测未来动作chunk和未来3D Pointmap,仅使用RGB输入就在RoboTwin双臂基准上全面超越点云方法。
- Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation
-
针对扩散策略多步去噪慢、Flow Matching 单步快但模式平均导致碰撞的问题,提出 Ada3Drift:在训练阶段构造 drifting field 将预测吸引到最近 expert demonstration 并排斥其他模式,配合多尺度场聚合和 sigmoid 调度损失过渡,实现 1 NFE 推理下保持多模态动作分布,在 Adroit/Meta-World/RoboTwin 和真实机器人上达到 SOTA。
- Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation
-
利用计算预算不对称性,将扩散策略的迭代细化从推理时移至训练时——通过自适应漂移场将预测动作吸引向专家模式并排斥其他生成样本,从3D点云实现单步(1 NFE)高保真多模态动作生成,比扩散策略快10倍以上。
- AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots
-
AtomicVLA 提出统一规划-执行框架,通过Think-Act自适应切换生成任务链和原子技能抽象,用技能引导MoE(SG-MoE)构建可扩展的原子技能专家库,在LIBERO-LONG上超π₀ 10%,真实世界持续学习超基线21%且遗忘仅1.3%。
- AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots
-
提出AtomicVLA,统一任务规划(thinking)和动作执行(acting),通过自适应[think]/[act]切换、技能引导MoE(SG-MoE)和可扩展持续学习机制,在LIBERO-LONG上超越π₀达10%,真实Franka长任务+18.3%,实现高效的原子技能分解与持续获取。
- Chain of World: World Model Thinking in Latent Motion (CoWVLA)
-
提出CoWVLA,统一世界模型VLA和隐动作VLA的优势:通过Latent Motion Extractor将视频分解为结构隐变量和运动隐变量,VLA在隐运动空间做世界模型预测而非重建冗余像素,配合Co-Fine-tuning交替生成关键帧和动作token,LIBERO-LONG达95.2%超越π₀(85.2%),SimplerEnv-WidowX avg 0.560超π₀(0.425)。
- Cross-Domain Demo-To-Code Via Neurosymbolic Counterfactual Reasoning
-
提出 NeSyCR 神经符号反事实推理框架,将视频示教抽象为符号世界模型,通过反事实状态推演检测跨域不兼容并自动修正程序步骤,在跨域 demo-to-code 任务上比最强基线 Statler 提升 31.14% 成功率。
- DAWN: Pixel Motion Diffusion is What We Need for Robot Control
-
提出 DAWN,一个两阶段全扩散的视觉语言动作框架——Motion Director(潜扩散模型)生成稠密像素运动场作为可解释的中间表示,Action Expert(扩散 Transformer 策略)将像素运动转换为可执行机器人动作;在 CALVIN 基准上取得 SOTA(平均长度 4.00),并在真实世界单臂/双臂操控中展现强泛化能力。
- Decovln Decoupling Observation Reasoning And Correction For Vision-And-Language
-
提出 DecoVLN 框架,将 VLN 任务中的观察、推理和纠错三个过程解耦,通过自适应记忆优化机制和基于状态-动作对的纠错微调策略,在仅使用自中心 RGB 输入的条件下实现了 R2R-CE 和 RxR-CE 上的 SOTA 性能。
- Expert Pyramid Tuning: Efficient Parameter Fine-Tuning for Expertise-Driven Task Allocation
-
针对MoE-LoRA方法中所有expert结构相同(统一rank)导致无法适配不同复杂度任务的问题,提出EPT:通过共享meta-knowledge子空间 + 不同kernel size的反卷积expert构建参数金字塔,配合Adaptive LoRA Pruner和对比学习Task Embedding,在GLUE上以仅0.41M参数/任务达到87.0%平均分,超越所有MoE-LoRA变体。
- Expert Pyramid Tuning: Efficient Parameter Fine-Tuning for Expertise-Driven Task Allocation
-
提出 Expert Pyramid Tuning (EPT),将 CV 中的多尺度特征金字塔思想引入 MoE-LoRA 框架,通过共享元知识子空间 + 不同尺度的反卷积专家 + 对比学习任务嵌入,以仅 0.41M 参数/任务在 GLUE 上达到 87.0% 均分(超越所有 MoE-LoRA 基线)。
- Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
-
提出 Fast-ThinkAct,通过将冗长的文本 CoT 推理(~250 token)压缩为 6 个可语言化的连续 latent token,结合 reward-guided preference distillation 和 visual trajectory alignment,实现 89.3% 推理延迟降低(9.3× faster than ThinkAct-7B)同时保持甚至超越 SOTA reasoning VLA 的性能。
- FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction
-
通过分析视觉越狱攻击在层特征和频谱域的过度依赖问题,提出FORCE方法纠正非泛化性特征依赖,引导攻击探索更平坦的损失景观,从而显著提升跨模型迁移性。
- FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction
-
分析发现视觉 jailbreak attack 迁移性差的根因是 attack 处于 high-sharpness loss region——源于浅层特征过度依赖 model-specific 表示和高频信息过度影响;提出 FORCE 方法通过 layer-aware regularization 扩展浅层 feasible region + spectral rescaling 抑制高频非语义成分,引导 attack 进入 flatter loss landscape,显著提升跨模型迁移性。
- ForceVLA2: Unleashing Hybrid Force-Position Control with Force Awareness for Contact-Rich Manipulation
-
提出ForceVLA2,首个在VLA框架中统一力感知(force awareness)与混合力-位置控制(hybrid force-position control)的端到端模型:通过Force-based Prompts在VLM中构建跨阶段力感知任务概念,Cross-Scale MoE自适应融合任务语义与实时交互力实现闭环力-位置调节,在5个contact-rich任务上平均成功率66%,超π₀和π₀.5分别48.0%和35.0%。
- GeCo-SRT: Geometry-aware Continual Adaptation for Robotic Cross-Task Sim-to-Real Transfer
-
提出一种基于几何感知的持续适应方法 GeCo-SRT,通过从局部几何特征中提取跨域/跨任务不变知识,在多次 sim-to-real 迁移中实现知识积累,从而高效适应新任务。
- GeCo-SRT: Geometry-aware Continual Adaptation for Robotic Cross-Task Sim-to-Real Transfer
-
GeCo-SRT提出持续跨任务Sim-to-Real迁移范式,利用局部几何特征的域不变性和任务不变性,通过几何感知MoE模块提取可复用的几何知识并用专家引导的优先经验回放防遗忘,在4个操作任务上比基线平均提升52%成功率且仅需1/6数据。
- HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation
-
提出层级导航框架 HaltNav,结合轻量文本拓扑图 (osmAG) 全局规划 + VLN 模型局部执行,并引入反应式视觉停止 (RVH) 机制在遇到未知障碍时实时中断、更新拓扑、重规划绕行,在仿真和真实机器人上均显著优于基线。
- HaltNav: Reactive Visual Halting over Lightweight Topological Priors for Robust Vision-Language Navigation
-
提出 HaltNav,一个层级化导航框架,结合轻量级文本拓扑先验(osmAG)做全局规划,用 VLN 模型做局部执行,并通过 Reactive Visual Halting 机制检测意外障碍、动态更新拓扑并重规划,在仿真和真机上均显著提升长程导航鲁棒性。
- Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics
-
通过NTK框架证明线性化注意力不会收敛到无限宽度核极限(需要宽度m=Ω(κ⁶)),并提出"影响可塑性"指标量化其双面效应:注意力比ReLU网络高6-9倍的数据依赖灵活性,既能降低近似误差也增加对抗脆弱性。
- Influence Malleability In Linearized Attention Dual Implications Of Non-Converge
-
本文揭示线性化注意力机制在 NTK 框架下不收敛至无穷宽极限,并提出"影响力可塑性"(influence malleability) 度量,证明注意力的强大能力与对抗脆弱性共享同一来源——偏离核regime的数据依赖核结构。
- Language-Grounded Decoupled Action Representation for Robotic Manipulation (LaDA)
-
提出LaDA框架,将连续7-DoF动作解耦为平移/旋转/夹爪三个语言锚定的语义原语,通过软标签对比学习和自适应权重策略在共享嵌入空间中对齐跨任务动作表示,在LIBERO上达93.6%成功率(0.6B参数),MimicGen上67%平均成功率,超越所有基线。
- Language-Grounded Decoupled Action Representation for Robotic Manipulation
-
提出 LaDA 框架,将连续 7-DoF 机器人动作解耦为语言描述的可解释运动基元(平移、旋转、夹爪),通过语义引导的软标签对比学习统一视觉-语言-动作表示空间,实现跨任务泛化。
- Learning to See and Act: Task-Aware Virtual View Exploration for Robotic Manipulation
-
提出 TVVE 框架,通过强化学习驱动的多视角探索策略(MVEP)选择最优虚拟相机视角并在线重渲染观测,同时设计任务感知 MoE 视觉编码器(TaskMoE)解决多任务特征干扰问题,在 RLBench 18 个任务上平均成功率达 86.6%。
- MergeVLA: Cross-Skill Model Merging Toward a Generalist Vision-Language-Action Agent
-
MergeVLA 通过诊断 VLA 模型不可合并的两大根因(LoRA 参数冲突 + action expert 自注意力导致的架构不兼容),设计了稀疏激活的 task mask 和去除自注意力的 action expert 架构,实现了多个单任务 VLA 专家的免训练合并,在 LIBERO 上达到 90.2% 成功率。
- MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents
-
MindPower 提出以机器人为中心(Robot-Centric)的心智理论推理框架,将感知→信念→欲望→意图→决策→行动组织为三级六层推理层级(MindPower Reasoning Hierarchy),并用 Mind-Reward(基于 GRPO 强化学习)优化推理一致性,在决策和动作生成上分别超过 GPT-4o 12.77% 和 12.49%。
- MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents
-
MindPower 提出了以机器人为中心的心智理论(ToM)推理框架,将感知→信念→欲望→意图→决策→行动组织为六层推理层级,并用 Mind-Reward(基于 GRPO)优化推理一致性,在决策和动作生成上分别超过 GPT-4o 12.77% 和 12.49%。
- PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments
-
提出PanoAffordanceNet,首次定义360°室内环境中的全局affordance grounding任务,通过失真感知光谱调制器(DASM)和全球面密化头(OSDH)解决ERP几何失真和稀疏激活问题,配合多级训练目标抑制语义漂移,在自建360-AGD数据集上大幅超越现有方法(KLD从2.853→1.270)。
- RADAR: Closed-Loop Robotic Data Generation via Semantic Planning and Autonomous Causal Environment Reset
-
提出RADAR——一个完全自主的闭环机器人操作数据生成引擎,通过VLM语义规划+GNN策略执行+VQA成功评估+FSM驱动的LIFO因果逆序环境重置四个模块,仅需2-5个人工演示即可持续生成高保真操作数据,在仿真中复杂长horizon任务达到90%成功率。
- RC-NF: Robot-Conditioned Normalizing Flow for Real-Time Anomaly Detection in Robotic Manipulation
-
提出RC-NF,一种基于条件归一化流的实时异常检测模型,通过解耦处理机器人状态和物体轨迹特征,仅需正样本无监督训练即可在100ms内检测VLA模型执行中的OOD异常,在LIBERO-Anomaly-10上以约8% AUC和10% AP的优势超越SOTA(包括GPT-5、Gemini 2.5 Pro等VLM基线)。
- RehearseVLA: Simulated Post-Training for VLAs with Physically-Consistent World Model
-
针对 VLA 模型在数据稀缺场景下的性能退化和真实环境不可重置的限制,提出 RehearseVLA——用物理一致的世界模型模拟器替代真实物理交互进行 RL 后训练,配合 VLM 引导的即时反射器提供奖励信号和终止预测,仅用每个任务 5 个专家演示即可显著提升 VLA 在复杂操控任务上的表现。
- Sapave Towards Active Perception And Manipulation In Vision-Language-Action Mode
-
提出 SaPaVe 端到端框架,通过解耦相机运动与操控动作的两阶段自底向上学习策略,实现语义驱动的主动感知与视角不变的操控执行,在真实世界任务中超越 GR00T N1 和 π₀ 分别 31.25% 和 40%。
- Test-Time Ego-Exo-Centric Adaptation For Action Anticipation Via Multi-Label Pro
-
首次提出 Test-time Ego-Exo Adaptation for Action Anticipation(TE2A3)任务,设计 DCPGN 网络通过多标签原型增长和双线索(视觉+文本)一致性,在测试时将源视角训练模型在线适配到目标视角进行动作预测,大幅超越现有 TTA 方法。
- The Coherence Trap: MLLM-Crafted Narratives Exploit Manipulated Visual Contexts
-
揭示现有多模态虚假信息检测的两个根本缺陷(低估MLLM生成的语义一致虚假叙事+依赖简单不对齐的伪影),构建441k样本的MDSM数据集(图像篡改+MLLM生成语义对齐文本),并提出AMD框架(Artifact Pre-perception + Manipulation-Oriented Reasoning),在跨域检测中达88.18 ACC / 60.25 mAP / 61.02 mIoU。
🧑 人体理解¶
- All in One: Unifying Deepfake Detection, Tampering Localization, and Source Tracing with a Robust Landmark-Identity Watermark
-
提出 LIDMark,首个将 deepfake 检测、篡改区域定位和源追踪统一到单一主动取证框架中的方法——通过嵌入 152 维 Landmark-Identity 水印(136D 面部关键点 + 16D 源 ID),利用内在/外在一致性实现三合一取证,PSNR/SSIM 和检测精度均超越现有方法。
- Bilevel Layer-Positioning LoRA for Real Image Dehazing
-
提出 BiLaLoRA,通过双层优化自动定位 LoRA 应插入的最优网络层,配合 H2C Loss(基于 CLIP 语义方向的无监督去雾损失),实现合成数据预训练的去雾模型向真实场景的高效适配——训练时间降低 77.7%,性能持平全量微调,跨模型跨域均有效。
- Bilevel Layer-Positioning LoRA for Real Image Dehazing
-
提出H2C文本引导无监督损失(利用CLIP将去雾重构为语义对齐问题)和BiLaLoRA双层优化策略(自动搜索最佳LoRA注入层),实现高效且即插即用的合成到真实域去雾适配。
- Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors
-
提出基于 Learned Priors(TabPFN 基础模型)的零超参良率多角分析框架,通过 in-context Bayesian 推断替代传统 GP/normalizing flow 的超参调优,结合自动特征选择、Cross-Corner 知识迁移和不确定性驱动主动学习,MRE 低至 0.11% 且完全免调参,验证成本降低 10× 以上。
- Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors
-
用TabPFN(在百万回归任务上预训练的基础模型)替代传统手工先验,实现零超参数的SRAM多角良率分析,通过注意力机制自动进行跨角知识迁移,配合自动特征选择(1152D到48D)和不确定性引导的主动学习,达到SOTA精度(MRE低至0.11%)同时降低10倍以上验证成本。
- Cigpose Causal Intervention Graph Neural Network For Whole-Body Pose Estimation
-
提出因果干预图姿态估计框架 CIGPose,通过结构因果模型识别视觉上下文混杂因素,利用预测不确定性定位受混杂影响的关键点并用学习得到的上下文无关规范嵌入替换,再经层次图神经网络建模骨骼解剖约束,在 COCO-WholeBody 上达到 67.0% AP 的新 SOTA。
- Cog Confidence-Aware Optimal Geometric Correspondence For Unsupervised Single-Re
-
提出 COG 框架,将跨视图对应关系建模为置信度感知的最优传输(OT)问题,通过预测逐点置信度作为传输边际约束来抑制非重叠区域和离群点,实现无监督条件下媲美有监督方法的单参考图像新物体6DoF位姿估计。
- AdvMark: Decoupling Defense Strategies for Robust Image Watermarking
-
提出 AdvMark 两阶段解耦防御框架:Stage 1 Encoder Adversarial Training(EAT)将水印图像移入 non-attackable 区域抵御对抗攻击,Stage 2 直接图像优化抵御失真+再生攻击并保留对抗鲁棒性,在 9 种水印方法 ×10 种攻击上分别提升失真/再生/对抗准确率 29%/33%/46%,且图像质量最优。
- Egoposeformer V2 Accurate Egocentric Human Motion Estimation For Arvr
-
提出 EgoPoseFormer v2 (EPFv2),通过端到端 Transformer 架构(单一全局查询 + 因果时序注意力 + 条件多视图交叉注意力)和基于不确定性蒸馏的自动标注系统,在 EgoBody3M 基准上以 0.8ms GPU 延迟实现了自我中心 3D 人体运动估计的 SOTA 精度(MPJPE 4.02cm,比前作提升 15-22%)。
- Face Time Traveller Travel Through Ages Without Losing Identity
-
提出 FaceTT 框架,通过面部属性感知提示词精炼、角度反演和自适应注意力控制三大模块,实现高保真、身份一致的人脸年龄变换,在多个基准上超越现有方法。
- FDeID-Toolbox: Face De-Identification Toolbox
-
发布 FDeID-Toolbox,一个模块化人脸去识别研究工具箱,统一了数据加载、方法实现(经典到 SOTA 生成模型)、推理流水线和三维评估协议(隐私/效用/质量),解决该领域实验碎片化和结果不可比的问题。
- FedBPrompt: Federated Domain Generalization Person Re-Identification via Body Distribution Aware Visual Prompts
-
提出 FedBPrompt,将可学习视觉提示分为身体部件对齐提示(受限局部注意力处理视角错位)和全身整体提示(抑制背景干扰),并设计仅传输提示参数(~0.46M vs. 全模型~86M)的联邦微调策略,在 FedDG-ReID 上取得一致性提升。
- FedBPrompt: Federated Domain Generalization Person Re-Identification via Body Distribution Aware Visual Prompts
-
提出FedBPrompt框架,通过身体分布感知视觉提示机制(BAPM)将prompt分为Body Part Alignment Prompts和Holistic Full Body Prompts两组,配合Prompt-based Fine-Tuning Strategy(PFTS)冻结ViT backbone仅训练轻量prompt(通信量降至~1%),在FedDG-ReID任务上平均mAP提升3.3%、Rank-1提升4.9%。
- Fozo Forward-Only Zeroth-Order Prompt Optimization For Test-Time Adaptation
-
提出 FOZO,一种仅需前向传播的零阶 prompt 优化范式,通过 SPSA 梯度估计 + 动态扰动策略 + 深浅层特征统计对齐,在不修改模型权重的情况下实现高效 TTA,在 ImageNet-C 上以 59.52% 准确率超越所有前向方法(含 FOA 58.13%),并支持 INT8 量化模型。
- GeoWorld: Geometric World Models
-
在V-JEPA 2中引入双曲流形表示(Hyperbolic JEPA)和几何强化学习(GRL),利用测地线距离编码层次关系,通过能量函数优化实现更稳定的长时域规划,3步规划提升约3% SR,超越GPT-5 zero-shot。
- Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs
-
提出 Graph2Eval,一个知识图谱驱动的 agent 评估任务自动生成框架——通过从文档/网页构建结构化知识图谱、子图采样、LLM 条件生成和多阶段过滤,自动产出语义一致(+20%)且可解(+17%)的多模态 agent 任务,构建了包含 1319 个任务的 Graph2Eval-Bench。
- Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs
-
提出 Graph2Eval,一个基于知识图谱的自动化多模态 Agent 任务生成框架——从异构外部数据源构建知识图谱作为结构化任务空间,通过子图采样和元路径引导的任务构造生成语义一致且可解的 Agent 评测任务,相比 LLM 直接生成的任务提升语义一致性 20% 和可解性 17%,并发布了 1,319 个任务的 Graph2Eval-Bench 数据集。
- IDperturb: Enhancing Variation in Synthetic Face Generation via Angular Perturbations
-
提出 IDperturb,一种在单位超球面上对身份嵌入进行角度扰动的几何采样策略,无需修改生成模型即可显著增强合成人脸数据集的类内多样性,提升下游人脸识别性能。
- Lamogen Language To Motion Generation Through Llm-Guided Symbolic Inference
-
提出 LabanLite 符号动作表示和 LaMoGen 框架,首次让 LLM 通过可解释的 Laban 符号推理自主组合动作序列,在时序精度和可控性上超越传统文本-动作联合嵌入方法。
- Laser Layer-Wise Scale Alignment For Training-Free Streaming 4D Reconstruction
-
提出 LASER,一个无需重训练的框架,通过层级深度尺度对齐(Layer-wise Scale Alignment)将离线前馈重建模型(如 VGGT、π³)转换为流式系统,在 RTX A6000 上以 14 FPS、6GB 峰值显存实现千米级视频的实时流式 4D 重建。
- MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision
-
MatchED 提出一种轻量(约21K参数)plug-and-play 模块,通过在训练时对预测边缘和 GT 边缘进行基于空间距离+置信度的 one-to-one 二部匹配来生成 crisp(单像素宽)边缘图,可附加到任何边缘检测器端到端训练,首次在不依赖 NMS+thinning 后处理的情况下匹配或超越标准后处理方法。
- Miburi: Towards Expressive Interactive Gesture Synthesis
-
提出 Miburi,首个在线因果框架,通过直接利用语音-文本大模型 Moshi 的内部 token 流和二维因果 Transformer,实现实时同步的全身手势与面部表情生成。
- Mobile-VTON: High-Fidelity On-Device Virtual Try-On
-
提出 Mobile-VTON,首个可完全在移动设备上离线运行的扩散模型虚拟试穿系统,通过 TeacherNet-GarmentNet-TryonNet(TGT)架构和特征引导对抗蒸馏策略,以 415M 参数和 2.84GB 显存实现媲美服务器端基线的高质量试穿效果。
- Mobile-VTON: High-Fidelity On-Device Virtual Try-On
-
首个全离线移动端扩散式虚拟试穿框架,基于TeacherNet-GarmentNet-TryonNet (TGT)架构,通过特征引导对抗蒸馏(FGA)将SD3.5 Large的能力迁移到415M参数的轻量学生网络,在VITON-HD和DressCode上以1024×768分辨率匹配甚至超越服务器端基线,端到端推理时间约80秒(小米17 Pro Max)。
- OpenFS: Multi-Hand-Capable Fingerspelling Recognition with Implicit Signing-Hand Detection and Frame-Wise Letter-Conditioned Synthesis
-
提出 OpenFS 框架,通过双层位置编码 + 签名手聚焦损失 + 单调对齐损失实现隐式签名手检测的多手指拼识别,并设计帧级字母条件扩散生成器合成 OOV 数据,在 ChicagoFSWild/ChicagoFSWildPlus/FSNeo 三个基准上取得 SOTA,推理速度比 PoseNet 快 100 倍以上。
- See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles
-
提出 State-aware Reasoning (StaR),通过教会多模态 Agent "感知当前状态→分析目标状态→决定是否操作"的三步推理链,将 GUI 开关控制准确率提升超 30%,同时不损害通用 Agent 任务性能。
- Stable Spike Dual Consistency Optimization Via Bitwise And Operations For Spikin
-
提出 Stable Spike 双一致性优化框架,利用硬件友好的 AND 位运算从多时间步脉冲图中解耦稳定脉冲骨架,并注入振幅感知脉冲噪声增强泛化,在超低延迟(T=2)下将神经形态物体识别精度提升最高 8.33%。
- TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size
-
提出 TeamHOI 框架,通过基于 Transformer 的去中心化策略网络和掩码对抗运动先验(Masked AMP),使单一策略能够泛化到任意数量智能体的协作搬运任务,2-8 个仿人智能体协作搬桌子成功率达 97%+。
- Training High-Level Schedulers With Execution-Feedback Reinforcement Learning Fo
-
提出 CES(Coordinator-Executor-State Tracker)多智能体框架和分阶段执行反馈强化学习算法,将高层任务规划与低层执行解耦,通过专门训练的 Coordinator 和 State Tracker 显著提升 GUI Agent 在长时序任务上的规划和状态管理能力。
- When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models
-
提出 UPA-RFAS 框架,学习一个单一物理对抗补丁,通过特征空间偏移、注意力劫持和语义错位三管齐下,实现对 VLA 机器人策略的通用、可迁移黑盒攻击。
📦 模型压缩¶
- An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS
-
首次提出JPEG XS帧内模式复制(IPC)中位移矢量(DV)搜索模块的FPGA实现方案,采用四级流水线架构和IPC Group对齐的内存组织策略,在Xilinx Artix-7上实现38.3 Mpixels/s吞吐和277 mW功耗。
- An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS
-
针对 JPEG XS 屏幕内容编码中 Intra Pattern Copy(IPC)模块的位移向量(DV)搜索计算瓶颈,首次提出四级流水线 FPGA 架构并设计基于 IPC Group 对齐的内存组织方式,在 Xilinx Artix-7 上实现 38.3 Mpixels/s 吞吐量和 277 mW 功耗,为 IPC 的实际硬件部署提供了可行方案。
- ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation
-
在全卷积架构内统一层级超先验、Masked PixelCNN空间自回归、通道条件建模和SE通道激励,不使用Transformer或循环组件,以95M参数和222ms解码时间实现相对Ballé基线48% BD-Rate降低并超越VVC Intra 5.6%。
- ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation
-
提出 ARCHE 端到端图像压缩框架,在无 Transformer 和循环模块的纯卷积架构下,通过统一层级超先验、Masked PixelCNN 空间自回归上下文、通道条件化、SE 通道重标定和潜在残差预测五个互补组件,在 Kodak 上相对 Balle 基线降低 48% BD-Rate、相对 VVC Intra 降低 5.6%,同时仅需 95M 参数和 222ms 解码时间。
- BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers
-
提出 BinaryAttention,将 Transformer 注意力中的 Query 和 Key 量化为 1-bit 二值表示,通过 XNOR + popcount 位运算替代浮点点积,在 A100 上实现比 FlashAttention2 快 2 倍以上的加速,同时在视觉分类/检测/分割/扩散生成等任务上性能持平甚至超越全精度注意力。
- DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation
-
提出 DAGE 双流 Transformer 架构,将全局一致性建模(低分辨率流)与细粒度细节保持(高分辨率流)解耦,通过轻量 Cross-Attention Adapter 融合,实现 2K 分辨率和 1000 帧长序列上的高质量深度/点图估计和位姿预测,速度比 Pi3 快 2-28 倍,视频几何估计取得新 SOTA。
- DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching
-
DisCa 首次提出"可学习特征缓存 + 步蒸馏"兼容的加速方案:用轻量神经预测器替代传统手工缓存策略,并通过 Restricted MeanFlow 稳定大规模视频模型的蒸馏,在 HunyuanVideo 上实现 11.8× 近无损加速。
- Disca Accelerating Video Diffusion Transformers With Distillation-Compatible Lea
-
提出 DisCa,首次将可学习特征缓存与步骤蒸馏相结合,通过轻量级神经预测器替代手工缓存策略,并设计 Restricted MeanFlow 稳定大规模视频模型蒸馏,在 HunyuanVideo 上实现 11.8× 加速且几乎无质量损失。
- Distilling Balanced Knowledge from a Biased Teacher
-
针对长尾分布下知识蒸馏中教师模型向头部类偏斜的问题,将传统 KL 散度损失分解为跨组损失和组内损失两个组件,通过重平衡跨组损失校准教师的组级预测、重加权组内损失保证各组等贡献,在 CIFAR-100-LT/TinyImageNet-LT/ImageNet-LT 上全面超越现有方法,甚至超过教师模型自身表现。
- DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression
-
提出 DiT-IC,将预训练T2I扩散Transformer通过三种对齐机制(方差引导重建流、自蒸馏对齐、潜表示条件引导)适配为单步图像压缩重建模型,在32×下采样的深层潜空间执行扩散,实现SOTA感知质量且解码速度比现有扩散压缩编解码器快30×。
- DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression
-
将预训练文生图 DiT 适配为高效单步图像压缩解码器,通过方差引导重建流、自蒸馏对齐和潜空间条件引导三种对齐机制,在 32× 下采样的深层潜空间中实现 SOTA 感知质量,同时比现有扩散压缩方法解码快 30 倍。
- FAIR-Pruner: Leveraging Tolerance of Difference for Flexible Automatic Layer-Wise Neural Network Pruning
-
提出 FAIR-Pruner 结构化剪枝框架,通过 Tolerance of Differences(ToD)指标协调两个互补视角:基于类条件可分性的 Wasserstein Utilization Score(识别冗余单元)和基于 Taylor 展开的 Reconstruction Score(保护关键单元),自动确定逐层非均匀剪枝率且支持免搜索灵活调整压缩比,在 CIFAR-10/SVHN/ImageNet 上取得 SOTA。
- From Fewer Samples To Fewer Bits Reframing Dataset Distillation As Joint Optimiz
-
提出 QuADD 框架,将可微量化模块嵌入数据集蒸馏循环中,联合优化合成数据与量化参数,实现在固定比特预算下"更少样本 + 更低精度"的帕累托最优压缩。
- Generative Neural Video Compression via Video Diffusion Prior
-
提出 GNVC-VD,首个基于 DiT 视频扩散模型(Wan2.1)的生成式神经视频压缩框架,通过 flow-matching 在时空潜变量上进行序列级生成式精炼,在极低码率(<0.03 bpp)下实现感知质量 SOTA 并显著减少闪烁伪影。
- Generative Video Compression with One-Dimensional Latent Representation
-
提出 GVC1D,首次将视频压缩的潜在表示从2D网格替换为紧凑的1D token序列,结合1D记忆模块建模长期时序上下文,在感知质量指标上实现 60%+ 的码率节省。
- GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration
-
发布首个开源多区域多元素地球化学异常检测基准 GeoChemAD(8 子集,覆盖沉积物/岩屑/土壤三类采样源和 Au/Cu/Ni/W 四种目标元素),并提出 GeoChemFormer——两阶段 Transformer 框架,先学空间上下文再做元素依赖建模,平均 AUC 达 0.7712 超越所有基线。
- GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration
-
提出 GeoChemAD 开源基准数据集和 GeoChemFormer 框架,通过空间上下文学习与元素依赖建模实现无监督地球化学异常检测,在8个子集上平均 AUC 达到 0.7712。
- HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers
-
提出HiAP——统一宏观(整头/FFN块)和微观(头内维度/FFN神经元)的层级Gumbel-Sigmoid门控框架,在单次端到端训练中自动发现满足算力预算的高效ViT子网络,无需手动重要性排序或多阶段流程。
- Hieramp Coarse-To-Fine Autoregressive Amplification For Generative Dataset Disti
-
提出 HierAmp,在视觉自回归(VAR)模型的粗到细生成过程中,向每个尺度注入可学习的类别 token 识别语义显著区域,并通过正 logit 偏置放大这些区域的注意力,使蒸馏数据在粗尺度获得更丰富多样的布局、在细尺度聚焦于类别相关细节,在多个数据集蒸馏基准上达到 SOTA。
- Learning Through Creation A Hash-Free Framework For On-The-Fly Category Discover
-
提出 LTC 框架,通过在训练阶段利用 MKEE(最小化核能量+最大化熵)在线生成伪未知类样本,配合双最大间隔损失和自适应阈值,在7个数据集上实现1.5%–13.1%的全类精度提升,彻底摆脱了哈希编码对细粒度语义的损害。
- MXNorm: Reusing MXFP block scales for efficient tensor normalisation
-
MXNorm 提出将 RMSNorm 与 MXFP 量化融合:利用 MXFP 量化过程中已经计算好的 block absmax 来近似 RMS 值,从而省掉单独的归一化 reduction 操作,在 Llama 3 最高 8B 参数的预训练中保持训练精度,同时在 GB200 上实现最高 2.4 倍的 kernel 加速。
- OTPrune: Distribution-Aligned Visual Token Pruning via Optimal Transport
-
将视觉 token 裁剪建模为最优传输(OT)下的分布对齐问题,通过最小化完整与裁剪后 token 集合间的 2-Wasserstein 距离,以 Gaussian 代理 + log-det 子模目标 + 贪心 Cholesky 选择实现 training-free、\(O(mk^2)\) 复杂度的高效裁剪,在 11 个多模态基准上取得 SOTA 精度-效率折中。
- Pixel2Phys: Distilling Governing Laws from Visual Dynamics
-
提出 Pixel2Phys,一个基于 MLLM 的多智能体协作框架,通过 Plan-Variable-Equation-Experiment 四个 Agent 的迭代假设-验证-精化循环,从原始视频中自动发现可解释的物理控制方程,外推精度比基线提升 45.35%。
- Planning In 8 Tokens A Compact Discrete Tokenizer For Latent World Model
-
提出 CompACT,将每张图像压缩至仅 8 个离散 token(约 128 bits),通过冻结预训练视觉编码器保留规划关键语义信息、生成式解码补充感知细节,使基于世界模型的规划速度提升约 40 倍且精度不降。
- PPCL: Pluggable Pruning with Contiguous Layer Distillation for Diffusion Transformers
-
提出 PPCL 框架对大型扩散 Transformer (DiT, 8-20B 参数) 进行结构化剪枝: 通过线性探针+CKA 一阶差分识别连续冗余层区间, 深度方向+宽度方向联合剪枝, 搭配即插即用交替蒸馏, 在 Qwen-Image 20B 上实现 50% 参数缩减, 仅 3% 生成质量下降.
- QuantVLA: Scale-Calibrated Post-Training Quantization for Vision-Language-Action Models
-
提出 QuantVLA,首个面向 Vision-Language-Action (VLA) 模型的免训练后量化框架,通过选择性量化布局和两个轻量级标定机制(注意力温度匹配 ATM 和输出头平衡 OHB),在 W4A8 精度下实现约 70% 的内存节省,同时任务成功率超过全精度基线。
Rl-Scaniqa Reinforcement-Learned Scanpaths For Blind 360Image Quality Assessment
- Soda Sensitivity-Oriented Dynamic Acceleration For Diffusion Transformer
-
提出 SODA,通过离线细粒度敏感度建模 + 动态规划优化缓存间隔 + 统一自适应剪枝策略,在无需训练的条件下对 Diffusion Transformer 实现可控加速比下的高保真生成。
- Talon Test-Time Adaptive Learning For On-The-Fly Category Discovery
-
提出首个面向 on-the-fly 类别发现(OCD)的测试时自适应框架 TALON,通过语义感知原型更新 + 稳定编码器适应 + 边距感知 logit 校准,摒弃哈希编码在连续特征空间直接建模,大幅缓解类别爆炸并显著提升新类发现精度。
🖼️ 图像恢复¶
- BluRef: Unsupervised Image Deblurring with Dense-Matching References
-
提出 BluRef,首个利用非配对参考清晰图像通过稠密匹配生成伪 ground truth 来训练去模糊网络的无监督框架,性能逼近甚至超越有监督方法。
- CDA-VSR: Compressed-Domain-Aware Online Video Super-Resolution
-
CDA-VSR利用视频比特流中免费可得的压缩域信息(运动向量、残差图、帧类型)来分别指导帧对齐、特征融合和自适应重建,在REDS4数据集上比SOTA方法TMP提升PSNR达0.13dB的同时实现>2倍推理速度(~93 FPS@320×180,RTX 3090)。
- PNG: Diffusion-Based sRGB Real Noise Generation via Prompt-Driven Noise Representation Learning
-
PNG提出用可学习的Global/Local Prompt组件从真实噪声中自动提取噪声特征(替代ISO/相机型号等metadata),通过Prompt AutoEncoder编码噪声到latent空间+Prompt DiT(基于一致性模型)一步生成latent code,实现无需任何metadata的真实sRGB噪声合成,下游DnCNN去噪在SIDD上仅落后真实数据0.08dB。
- Disentangled Textual Priors for Diffusion-based Image Super-Resolution
-
提出 DTPSR,通过将文本先验沿空间层级(全局/局部)和频率语义(低频/高频)两个维度解耦,构建解耦的跨注意力注入管线和多分支 CFG 策略,实现感知质量优越的扩散超分辨率。
- Empowering Semantic-Sensitive Underwater Image Enhancement with VLM
-
提出一种利用 VLM 生成语义引导图的即插即用策略(-SS),通过交叉注意力注入和语义对齐损失的双重引导机制,使水下图像增强模型在恢复时聚焦语义关键区域,显著提升感知质量和下游检测/分割性能。
- Empowering Semantic-Sensitive Underwater Image Enhancement with VLM
-
提出 VLM 驱动的语义敏感学习策略,通过 VLM 生成目标物体描述、BLIP 构建空间语义引导图、双重引导机制(cross-attention + 语义对齐损失)注入 UIE decoder,使增强结果在感知质量和检测/分割下游任务上同时提升。
- FiDeSR: High-Fidelity and Detail-Preserving One-Step Diffusion Super-Resolution
-
提出 FiDeSR,一种高保真和细节保持的单步扩散超分框架,通过细节感知加权(DAW)、隐空间残差精炼块(LRRB)和潜在频率注入模块(LFIM)三个互补组件,同时解决单步扩散超分中的结构保真度退化和高频细节恢复不足问题。
- Fractals made Practical: Denoising Diffusion as Partitioned Iterated Function Systems
-
证明 DDIM 确定性反向链等价于分区迭代函数系统(PIFS),从分形几何推导出三个可计算量(收缩阈值 \(L_t^*\)、对角膨胀函数 \(f_t(\lambda)\)、全局膨胀阈值 \(\lambda^{**}\)),统一解释了余弦调度偏移、分辨率 logSNR 偏移、Min-SNR 损失加权和 Align Your Steps 采样调度四种经验设计选择。
- Fractals made Practical: Denoising Diffusion as Partitioned Iterated Function Systems
-
证明了DDIM确定性反向链本质上是一个分区迭代函数系统(PIFS),并从该框架推导出三个无需模型评估的可计算几何量,从第一性原理统一解释了扩散模型的双阶段去噪动力学、自注意力的有效性,以及四种经验设计选择(cosine schedule offset、分辨率相关logSNR偏移、Min-SNR损失加权、Align Your Steps采样)。
- Learning Latent Transmission and Glare Maps for Lens Veiling Glare Removal
-
提出 VeilGen + DeVeiler 框架,通过物理引导的 Stable Diffusion 生成模型学习潜在透射率和眩光图以合成逼真的复合退化训练数据,并用可逆约束训练修复网络,实现简化光学系统中像差与雾化眩光的联合去除。
- MAD-Avatar: Motion-Aware Animatable Gaussian Avatars Deblurring
-
首次实现从模糊视频直接重建清晰可驱动3D高斯人体avatar:提出3D感知的物理模糊形成模型(将模糊分解为子帧SMPL运动+canonical 3DGS),用B-spline插值+位姿变形网络建模子帧运动,帧间正则化解决运动方向歧义,在合成和真实数据集上大幅超越"2D去模糊+3DGS"两阶段方案(PSNR提升约2.5dB)。
- OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution
-
提出了OARS框架,通过基于MLLM的过程感知奖励模型COMPASS和渐进式在线强化学习,将生成式真实世界超分辨率模型与人类视觉偏好对齐,在感知质量和保真度之间实现自适应平衡。
- POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction
-
在 POLISH 框架基础上提出 POLISH+ 和 POLISH++,通过分块训练-拼接策略和基于 arcsinh 的非线性变换,实现宽视场(12,960×12,960 像素)和高动态范围(\(\sim 10^6\))条件下的射电干涉图像重建与超分辨率,并首次展示深度学习方法可超分辨强引力透镜系统。
- RAW-Domain Degradation Models for Realistic Smartphone Super-Resolution
-
通过对不同智能手机传感器进行设备特定的退化标定(模糊PSF和噪声模型),将公开渲染图像逆处理(unprocess)到各手机的RAW域来生成逼真的训练对,训练的RAW-to-RGB SR模型在未见设备上的真实数据上显著优于使用任意退化参数的基线。
- ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration
-
提出 ShiftLUT,通过可学习空间偏移模块(LSS)实现 LUT 方法中最大感受野(65×65),配合非对称双分支架构和误差有界自适应采样(EAS),在存储 104KB + 推理 84ms 的条件下超越所有现有 LUT 方法。
💬 LLM / NLP¶
- As Language Models Scale, Low-order Linear Depth Dynamics Emerge
-
将 Transformer 的逐层前向传播视为离散时间动力系统,发现 32 维低阶线性代理(LLV)可精确复现完整模型的层级灵敏度曲线,且该线性可辨识性随模型规模单调增强。
- Composing Concepts from Images and Videos via Concept-prompt Binding
-
提出 Bind & Compose (BiCo),一种one-shot方法,通过层次化binder结构将视觉概念绑定到prompt token,并通过token组合实现图像-视频概念的灵活组合,在概念一致性、prompt保真度和运动质量上全面超越前作。
- Cross-Scale Pansharpening via ScaleFormer and the PanScale Benchmark
-
提出首个跨尺度全色锐化数据集PanScale和评测基准PanScale-Bench,以及ScaleFormer框架——将分辨率变化重新解释为序列长度变化,通过Scale-Aware Patchify分桶采样+解耦空间-序列建模+RoPE实现跨尺度泛化。
- Defending Unauthorized Model Merging via Dual-Stage Weight Protection
-
提出 MergeGuard,一种主动式双阶段权重保护框架:Stage 1通过L2正则化分散任务关键权重,Stage 2注入结构化扰动破坏合并兼容性,在保持保护模型<1.5%性能损失的同时使合并模型精度下降高达90%。
- EVATok: 自适应长度视频Tokenization用于高效视觉自回归生成
-
提出EVATok框架——通过最优token分配估计+轻量路由器+自适应tokenizer训练的三步流程,让视频tokenizer按片段复杂度自适应分配token长度,在UCF-101上节省24.4%+ token同时达到SOTA生成质量。
- Geometry-Guided Camera Motion Understanding in VideoLLMs
-
本文揭示了 VideoLLM 在细粒度相机运动原语(pan/tilt/dolly等)识别上几乎等于随机猜测,构建了 CameraMotionDataset(12K 段 × 15 种原子运动)和 CameraMotionVQA benchmark,并提出通过冻结 3DFM(VGGT)提取几何相机线索 + 轻量时序分类器 + structured prompting 注入的 model-agnostic 方案来弥补这一能力缺口。
- Geometry-Guided Camera Motion Understanding in VideoLLMs
-
通过 benchmarking-diagnosis-injection 框架系统揭示 VideoLLM 的相机运动盲区,并利用冻结 3DFM (VGGT) 提取几何线索 + 轻量时序分类器 + 结构化提示注入,无需微调即可显著提升 VideoLLM 的细粒度相机运动理解。
- Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces
-
提出 Hier-COS 框架,通过为层次树中每个节点分配正交基向量,构造理论上保证层次一致性的层次感知向量空间(HAVS),首次统一了"层次感知细粒度分类"和"层次多级分类",同时提出新评估指标HOPS,在4个数据集上全面超越SOTA。
- Hier-COS: Making Deep Features Hierarchy-aware via Composition of Orthogonal Subspaces
-
提出Hier-COS框架,为层次标签树中的每个节点分配正交基向量,通过子空间组合(祖先基+自身基+后代基)构建层次感知向量空间(HAVS),理论保证特征空间的距离结构与层次树一致,同时提出HOPS评估指标解决现有层次化评估指标的排列不变性缺陷。
- IAPL: Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning
-
针对 AI 生成图像检测中现有方法难以泛化到未见生成器的问题,提出图像自适应提示学习(IAPL),在推理时根据每张测试图像动态调整输入到视觉编码器的 prompt——通过条件信息学习器提取伪造特征条件和测试时自适应 token 优化,在 UniversalFakeDetect 和 GenImage 数据集上分别达到 95.61% 和 96.7% 的 SOTA 平均准确率。
- Noise-Aware Few-Shot Learning through Bi-directional Multi-View Prompt Alignment
-
提出NA-MVP框架,通过双向(clean+noise-aware)多视图prompt设计配合非平衡最优传输(UOT)实现细粒度patch-to-prompt对齐,并用经典OT对识别出的噪声样本做选择性标签修正,在噪声小样本学习场景下持续超越SOTA。
- Residual SODAP: Residual Self-Organizing Domain-Adaptive Prompting with Structural Knowledge Preservation for Continual Learning
-
提出 Residual SODAP 框架,通过 α-entmax 稀疏提示选择+残差聚合、无数据统计蒸馏+伪特征回放、提示使用模式漂移检测,以及不确定性加权多损失平衡,联合解决提示端表征适应和分类器端知识保持问题,在医学域增量学习上达到 SOTA。
- Residual SODAP: Residual Self-Organizing Domain-Adaptive Prompting with Structural Knowledge Preservation for Continual Learning
-
提出Residual SODAP框架,在无任务ID、无数据存储的域增量学习中,联合解决表示适应(α-entmax稀疏prompt选择+残差聚合)和分类器保持(统计伪特征重放+知识蒸馏),在DR、皮肤癌和CORe50三个基准上达到SOTA。
- VecGlypher: Unified Vector Glyph Generation with Language Models
-
提出VecGlypher——首个统一文本和图像引导的矢量字形生成语言模型,通过两阶段训练(大规模SVG语法学习+专家标注对齐)直接自回归生成可编辑SVG路径,无需光栅中间步骤或向量化后处理。
- WeaveTime: 流式视频LLM的帧级逐步记忆
-
诊断出Video-LLM的核心缺陷"时间无感"——把视频当无序图像集处理,产生时序模糊和历史/当前混淆两类失效,提出WeaveTime通过轻量时序重建目标获得顺序感知能力+Past-Current动态焦点缓存实现高效流式推理,在流式基准上一致提升。
🔄 自监督/表示学习¶
- Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding
-
在仅206例标注CT中,通过patch-based MIM预训练3D U-Net + VDETR顶点RPE + 半监督一致性正则化的两阶段框架,将3D创伤检测mAP@0.50从26.36%提升至56.57%(验证集),同时冻结编码器的7类分类达94.07%准确率。
- Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding
-
提出两阶段标签高效框架:先用 patch-based MIM 在1,206个无标注CT上自监督预训练3D U-Net编码器,再用VDETR+3D顶点相对位置编码做3D损伤检测,配合Mean Teacher半监督一致性正则化利用2,000个无标注体数据,仅用144个有标注样本即实现56.57% val mAP@0.50(比纯监督提升115%)。
- Bd-Merging Bias-Aware Dynamic Model Merging With Evidence-Guided Contrastive Lea
-
提出 BD-Merging 框架,通过 Dirichlet 证据建模 + 邻域差异分数(ADS)+ 差异感知对比学习,训练去偏路由器来自适应分配模型合并权重,显著提升合并模型在测试时分布偏移和未见任务上的鲁棒性与泛化能力。
- BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning
-
提出 BoSS——一种可扩展的 oracle 策略选择框架:在每轮主动学习中,并行运行多种查询策略在随机子池上生成候选 batch,通过冻结 backbone 仅重训最后一层快速评估每个候选 batch 的性能增益,选出最优 batch,从而量化现有 AL 策略与理论最优之间的差距。
- BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning
-
提出BoSS,一种通过集成多个选择策略生成候选批次、冻结backbone仅重训最后一层来快速评估性能增益、然后选取最优批次的可扩展Oracle策略,揭示当前SOTA主动学习策略在大规模多类数据集上距离最优仍有显著差距。
- D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping
-
提出 D2Dewarp——首个从水平和垂直双维度学习文档几何表示的去畸变方法:UNet 双解码器分别预测水平线(文档/表格/文本行的上下边界)和垂直线(左右边界),HV Fusion Module 通过混合注意力交叉融合两个方向的特征,并构建了包含 114K 张图的 DocDewarpHV 数据集提供双维度标注。
- DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers
-
通过系统分析发现 DiT 各 block 间的表示多样性是有效学习的关键因素,提出 DiverseDiT:用长残差连接多样化输入 + 表示多样性损失显式促进 block 间特征差异化,无需外部引导模型即可加速收敛并提升生成质量。
- LaS-Comp: Zero-shot 3D Completion with Latent-Spatial Consistency
-
提出 LaS-Comp,一种零样本、类别无关的 3D 形状补全框架,通过 Explicit Replacement Stage 在空间域注入已知几何 + Implicit Alignment Stage 在隐空间梯度优化边界一致性,桥接了预训练 3D 基础模型的隐空间与空间域之间的 gap,在多种部分观测模式下达到 SOTA。
- MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction
-
提出 MapGCLR, 通过利用多次行驶轨迹在地理空间上的自然重叠作为对比学习信号, 预训练 BEV 特征表示, 在 Argoverse 2 上以仅 5% 标注数据实现 +42% 的相对 mAP 提升.
- MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction
-
MapGCLR 提出基于地理空间对比学习的半监督训练方案:利用同一地点多次驾驶经过产生的 BEV 特征网格的地理空间重叠关系,构建 InfoNCE 对比损失强制 BEV 特征空间的地理一致性,在 Argoverse 2 上仅用 5% 标注数据即达到 18.9 mAP(纯监督基线 13.3),相对提升 42%,效果几乎等于将标注数据量翻倍。
- Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared
-
提出首个在系数域(而非像素域)进行红外缺失条件下跨模态融合的框架:通过共享卷积字典建立 IR-VIS 统一原子空间,在系数域完成 VIS→IR 推理和自适应融合,配合冻结 LLM 提供弱语义先验进行热信息补全,在仅输入可见光图像的条件下达到接近双模态融合方法的性能。
- Representation Learning for Spatiotemporal Physical Systems
-
通过在三个PDE物理系统(活性物质、剪切流、Rayleigh-Bénard对流)上对比JEPA、VideoMAE、MPP和DISCO,发现隐空间预测方法(JEPA)在物理参数估计任务上全面优于像素级预测方法(MAE/自回归模型),MSE平均改善30-50%。
- Representation Learning for Spatiotemporal Physical Systems
-
在三个 PDE 物理系统上系统对比 JEPA、VideoMAE、自回归基础模型(MPP)和算子学习(DISCO) 四种范式,发现隐空间预测目标(JEPA)在物理参数估计下游任务上全面优于像素级预测方法,MSE 相对改善 28-51%,且数据效率更高。
- SpHOR: A Representation Learning Perspective on Open-set Recognition
-
提出SpHOR两阶段解耦训练框架:Stage 1通过正交标签嵌入+球面约束(vMF分布)+Mixup/Label Smoothing做专为OSR设计的表征学习,Stage 2冻结特征训练分类器——在Semantic Shift Benchmark上OSCR/AUROC最高提升5.1%/5.2%,同时引入Angular Separability和Norm Separability两个新度量。
- Vision Transformers Need More Than Registers
-
系统揭示ViT注意力伪影的根因是"惰性聚合"——全局注意力+粗粒度语义监督驱动模型用语义无关的背景patch作为全局语义的捷径表示,提出选择性patch特征集成方案在12个基准上跨三种监督范式一致提升性能。
🛰️ 遥感¶
- ACPV-Net: All-Class Polygonal Vectorization for Seamless Vector Map Generation from Aerial Imagery
-
提出 ACPV-Net,首个从航空影像一次性生成拓扑一致的全类别多边形矢量地图的框架,通过语义监督条件化扩散模型生成顶点热图,并借助命题驱动的 PSLG 重建确保零间隙/零重叠。
- AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network
-
提出 AVION 知识蒸馏框架,通过 LLM 生成语义丰富的文本原型和视觉-文本双侧提示调优,解决遥感 VLM 适配中的语义贫乏和视觉刚性问题,在少样本分类、基类到新类泛化和跨模态检索上全面超越 SOTA。
- AVION: Aerial Vision-Language Instruction from Offline Teacher to Prompt-Tuned Network
-
提出 AVION 蒸馏框架,通过 LLM 生成并视觉验证的文本原型解决遥感 VLM 的"语义贫乏",通过双模态 Prompt Tuning 解决"视觉刚性",在 6 个遥感基准上实现少样本和 base-to-novel 同时提升。
- Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction
-
首次将光谱压缩成像 (SCI) 从图像级推进到视频级重建,构建了首个高质量动态高光谱数据集 DynaSpec,提出 PG-SVRT Transformer 通过时空特征传播实现高光谱视频高质量、时间一致的重建。
- Joint and Streamwise Distributed MIMO Satellite Communications with Multi-Antenna Ground Users
-
针对多LEO卫星协同服务多天线地面用户的下行链路,基于统计CSI提出联合非相干传输(WMMSE迭代预编码,支持一般凸功率约束)和流式分布传输(每流由单颗卫星发送,通过匈牙利算法做特征模式-卫星关联),在UE侧信道正交时流式传输几乎无损,非正交时呈现性能-开销权衡。
- Joint And Streamwise Distributed Mimo Satellite Communications With Multi-Antenn
-
提出面向多天线地面用户的分布式LEO卫星下行链路两种传输方案(联合传输 & 流式传输),通过基于统计CSI的WMMSE预编码设计和基于匈牙利算法的流-卫星关联策略,在无需卫星间相位同步的前提下实现了高频谱效率与低前传开销的灵活折中。
- Lumosaic: Hyperspectral Video via Active Illumination and Coded-Exposure Pixels
-
Lumosaic 是紧凑的主动高光谱视频系统,将窄带 LED 阵列与编码曝光像素 (CEP) 相机结合,在每帧视频内联合编码空间-时间-光谱信息,实现 30fps VGA 31 通道(400-700nm)运动鲁棒高光谱视频。
- MetaSpectra+: A Compact Broadband Metasurface Camera for Snapshot Hyperspectral+ Imaging
-
提出MetaSpectra+,一种基于双层超表面-折射光学混合设计的紧凑型相机,可在单次快照中同时获取高光谱数据立方体和HDR/偏振图像,工作带宽达250nm覆盖几乎整个可见光谱,在基准数据集上实现了最高的高光谱重建精度和最短的系统总光程长度。
- MetaSpectra+: A Compact Broadband Metasurface Camera for Snapshot Hyperspectral+ Imaging
-
MetaSpectra+ 利用新型超表面-折射透镜混合光学系统,将入射光分为 4 个独立可控色散/曝光/偏振的通道,实现最紧凑且精度最高的快照式高光谱+HDR/偏振多功能成像。
- SDF-Net: Structure-Aware Disentangled Feature Learning for Optical-SAR Ship Re-identification
-
提出SDF-Net——物理引导的结构感知解耦特征学习网络,通过中间层梯度能量提取几何结构一致性(SCL)和终端层共享/模态专用特征解耦(DFL)+无参数加法融合,在HOSS-ReID上mAP达60.9%(+3.5% vs SOTA TransOSS)。
- Semantic Satellite Communications for Synchronized Audiovisual Reconstruction
-
提出LLM驱动的自适应多模态语义卫星通信系统,通过双流生成架构(V2A/A2V)+动态知识库更新+GPT-4o决策代理,实现比强制更新基线节省约50%带宽的高保真同步音视频重建。
- Semantic Satellite Communications For Synchronized Audiovisual Reconstruction
-
提出一种面向卫星通信场景的自适应多模态语义传输系统,通过双流生成架构(视频驱动音频 / 音频驱动视频)灵活切换传输模态、动态关键帧更新机制维护共享知识库、以及 LLM 代理进行环境感知与任务自适应决策,在极低带宽下实现高保真音视频同步重建。
🛡️ AI 安全¶
- All Vehicles Can Lie: Efficient Adversarial Defense in Fully Untrusted-Vehicle Collaborative Perception via Pseudo-Random Bayesian Inference
-
提出 Pseudo-Random Bayesian Inference (PRBI) 框架,在所有车辆均不可信的协同感知场景中,利用帧间时序一致性作为自参考信号,通过伪随机分组 + 贝叶斯推断,仅需平均 2.5 次验证/帧即可高效识别并排除恶意车辆,检测精度恢复至攻击前的 79.4%–86.9%。
- Computation and Communication Efficient Federated Unlearning via On-server Gradient Conflict Mitigation and Expression
-
提出 FOUL 框架,通过"学习阶段解耦因果/非因果特征 + 遗忘阶段服务器端梯度冲突匹配"两阶段策略,在不访问客户端数据的前提下实现高效且低通信开销的联邦遗忘。
- Editing Away the Evidence: Diffusion-Based Image Manipulation and the Failure Modes of Robust Watermarking
-
本文从理论和实验两方面统一分析了非对抗性扩散编辑如何无意中破坏鲁棒隐形水印,推导了水印 SNR 衰减和互信息衰减的界,并在指令编辑、拖拽编辑、无训练合成等场景下验证了水印恢复的系统性失效。
- Editing Away the Evidence: Diffusion-Based Image Manipulation and the Failure Modes of Robust Watermarking
-
本文从理论和实验两方面系统分析了扩散编辑(instruction/drag/composition)如何非对抗性地破坏鲁棒隐形水印,推导出 SNR 衰减和互信息下界,揭示常规后处理鲁棒性不能推广到生成式变换。
- FedAFD: Multimodal Federated Learning via Adversarial Fusion and Distillation
-
提出 FedAFD 框架,通过双层对抗对齐、粒度感知特征融合和相似度引导的集成蒸馏三阶段设计,在多模态联邦学习中同时提升异构客户端和服务器的模型性能。
- Federated Active Learning Under Extreme Non-IID and Global Class Imbalance
-
系统分析全局类不平衡与客户端异构性对联邦主动学习中 query model 选择的影响,发现类平衡采样能力是性能的最一致预测因子,据此提出 FairFAL——自适应选择 query model + 原型引导伪标签 + 不确定性-多样性平衡采样的类公平 FAL 框架。
- Federated Active Learning Under Extreme Non-IID and Global Class Imbalance
-
系统研究了联邦主动学习中查询模型选择问题,发现类别平衡采样是性能关键因素,并提出 FairFAL 框架,通过自适应模型选择、原型引导伪标签和不确定性-多样性平衡采样实现公平高效的联邦主动学习。
- ProxyFL: A Proxy-Guided Framework for Federated Semi-Supervised Learning
-
提出 ProxyFL 框架,利用分类器权重作为统一代理 (proxy) 同时缓解联邦半监督学习中的外部异质性(跨客户端分布差异)和内部异质性(标注/未标注数据分布不匹配),在多个数据集上显著超越现有 FSSL 方法。
- Rethinking VLMs for Image Forgery Detection and Localization
-
揭示VLM的语义合理性偏差(semantic plausibility bias)会妨碍伪造检测,提出IFDL-VLM将检测/定位与语言解释生成解耦为两阶段:先用ViT+SAM专做检测定位,再将定位mask作为VLM辅助输入增强可解释性,在9个基准上全面SOTA。
- Rethinking VLMs for Image Forgery Detection and Localization
-
提出 IFDL-VLM 框架,发现 VLM 固有的语义合理性偏向(而非真实性)会阻碍伪造检测性能,因此将检测/定位与语言解释解耦为两阶段优化,并利用定位掩码作为 VLM 的辅助输入增强可解释性,在 9 个基准上全面达到 SOTA。
- SLICE: Semantic Latent Injection via Compartmentalized Embedding for Image Watermarking
-
提出SLICE框架,将图像语义解耦为四个因子(主体/环境/动作/细节),各自锚定到扩散模型初始噪声的不同空间分区,实现细粒度语义感知水印——不仅能检测篡改,还能精确定位被篡改的语义因子,且完全无需训练。
⚖️ 对齐 / RLHF¶
- Bases of Steerable Kernels for Equivariant CNNs: From 2D Rotations to the Lorentz Group
-
提出一种直接从输入/输出表示构造可操纵核显式基的方法,无需计算 Clebsch-Gordan 系数,统一覆盖 SO(2)、O(2)、SO(3)、O(3) 到非紧致 Lorentz 群,大幅简化等变 CNN 的核设计流程。
- Bases Of Steerable Kernels For Equivariant Cnns From 2D Rotations To The Lorentz
-
提出一种绕过 Clebsch-Gordan 系数的方法来求解等变CNN中的可转向核(steerable kernel)约束,通过在稳定子群上求解简单的不变性条件再"转向(steer)"到任意点,为 SO(2) 到 Lorentz 群等不同对称群给出了显式的核基底。
- GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering
-
提出 GlyphPrinter,通过构建区域级字形偏好数据集 GlyphCorrector 和区域分组 DPO(R-GDPO)目标函数,在不依赖显式奖励模型的情况下显著提升视觉文本渲染的字形准确度,并引入推理时 Regional Reward Guidance 实现可控生成。
- MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models
-
提出 MapReduce LoRA 和 RaTE 两种互补方法来推进多偏好优化的 Pareto 前沿:前者通过"Map(并行训偏好专家)+ Reduce(迭代合并)"的策略渐进推进 Pareto 前沿;后者通过学习奖励感知的 token embedding 实现推理时可组合的偏好控制。
- Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation
-
提出 Mesh-Pro,首个面向3D四边形网格生成的异步在线强化学习框架,核心算法 ARPO(Advantage-guided Ranking Preference Optimization)通过 Plackett-Luce 排名模型与优势函数加权相结合,在效率(较离线 DPO 快 3.75x)和泛化性上同时取得提升,实现 artist-style 和 dense mesh 的 SOTA 生成质量。
- MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization
-
提出 MoD-DPO(Modality-Decoupled DPO),通过不变性正则化、敏感性正则化和语言先验去偏三个机制解耦多模态 LLM 中各模态的贡献,有效缓解跨模态幻觉(如用听觉信息回答视觉问题),并推导出闭式最优策略。
- Physmodpo Physically-Plausible Humanoid Motion With Preference Optimization
-
将 DPO 偏好优化引入扩散运动生成模型的后训练阶段,通过物理仿真控制器自动构造偏好数据对,使生成的人体运动既符合文本/空间控制指令又满足物理约束,并成功零样本迁移到 Unitree G1 真实机器人。
- PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization
-
提出PhysMoDPO,将预训练的全身控制器(WBC/DeepMimic)集成到扩散运动生成器的后训练流程中,通过物理仿真自动构造偏好对并用DPO微调,使生成运动在WBC执行后同时满足物理可行性和文本/空间条件忠实度,实现零样本迁移到Unitree G1真实机器人。
- Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback
-
提出 VTON-IQA,一个无需参考图的虚拟试穿图像质量评估框架,通过构建 62,688 张试穿图像 × 431,800 条人工标注的大规模基准 VTON-QBench,以及交错式交叉注意力(ICA)模块建模服装-人物-试穿图之间的交互关系,实现与人类感知高度对齐的图像级质量预测。
- Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback
-
构建了大规模人工标注虚拟试穿质量数据集VTON-QBench(62,688张图像,431,800条标注),并提出VTON-IQA无参考质量评估框架,通过交错交叉注意力模块实现与人类感知高度对齐的图像级质量预测。
- \(\varphi\)-DPO: Fairness Direct Preference Optimization Approach to Continual Learning in Large Multimodal Models
-
提出 \(\varphi\)-DPO,将 DPO 作为持续学习范式(以前一步模型为参考策略),并引入受 focal loss 启发的公平性调制因子 \((1-p)^\gamma\) 来平衡不同数据组间的梯度贡献,在理论上证明 \(\gamma \to \infty\) 时梯度偏差趋于零,在 CoIN 和 MLLM-CL 基准上达到 SOTA。
🦾 LLM Agent¶
- GUI-CEval: A Hierarchical and Comprehensive Chinese Benchmark for Mobile GUI Agents
-
提出 GUI-CEval,首个面向中文移动端 GUI Agent 的综合评测基准,覆盖 201 个主流中文 App、4 种设备类型,采用"基础能力+应用能力"两层结构从感知、规划、反思、执行、评估五个维度进行细粒度诊断,在 20 个代表性模型上的实验揭示当前模型在反思和自我评估方面仍有明显短板。
- HATS: Hardness-Aware Trajectory Synthesis for GUI Agents
-
提出难度感知的轨迹合成框架 HATS,通过 hardness-driven exploration 和 alignment-guided refinement 的闭环机制,专注采集和修正语义歧义动作的训练轨迹,大幅提升 GUI Agent 在复杂真实场景中的泛化能力。
- HATS: Hardness-Aware Trajectory Synthesis for GUI Agents
-
提出HATS框架,通过定义动作的"语义模糊度"作为难度信号,以难度驱动探索+对齐引导修复的闭环管线合成高质量GUI轨迹数据,显著提升agent泛化能力。
- Nerfify: A Multi-Agent Framework for Turning NeRF Papers into Code
-
提出 Nerfify,通过上下文无关文法(CFG)约束、图思维链(GoT)代码合成、组合式引用恢复和视觉反馈四阶段,将NeRF论文自动转化为可训练的Nerfstudio插件,在30篇论文基准上达到100%可执行率(通用基线仅5%),视觉质量在专家实现的±0.5dB PSNR内。
- Realm An Mllm-Agent Framework For Open World 3D Reasoning Segmentation And Editi
-
提出 REALM 框架,通过 MLLM agent 对 3D 高斯泼溅(3DGS)渲染的视图进行推理分割,设计全局-局部空间接地策略(GLSpaG)聚合多视角MLLM推理结果,在隐式指令下的3D分割中大幅超越现有方法(LERF上mIoU 92.88% vs 基线44.82%),并支持3D编辑。
- REALM: An MLLM-Agent Framework for Open World 3D Reasoning Segmentation and Editing on Gaussian Splatting
-
提出 REALM,一个基于 MLLM-Agent 的开放世界 3D 推理分割框架,利用 3DGS 渲染新视角供 MLLM 理解复杂指令,通过全局到局部空间定位策略实现精确 3D 分割——无需 3D 特定后训练即可处理隐式推理指令,并支持物体移除、替换和风格迁移等 3D 交互任务。
- Sceneassistant A Visual Feedback Agent For Open-Vocabulary 3D Scene Generation
-
提出 SceneAssistant,通过为VLM agent提供完整的原子操作API集(13种动作涵盖物体管理、6-DoF操作、相机控制)和纯视觉反馈闭环,实现开放词汇的文本到3D场景生成,在人类评估中布局正确性和物体质量均大幅优于Holodeck和SceneWeaver。
- SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation
-
提出基于视觉反馈的VLM agent框架,通过14个完备Action API让VLM在ReAct闭环中迭代优化3D场景布局,无需预定义空间关系模板,在人类评估中Layout得分7.600(vs SceneWeaver 5.800),Human Preference 65%。
- Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding
-
提出 VideoHV-Agent,将长视频问答重新建模为"假设-验证"过程:Thinker 将答案选项改写为可测试假设,Judge 提取区分性线索,Verifier 在视频中定位证据进行验证,Answer 综合证据给出最终答案,在 EgoSchema/NextQA/IntentQA 三个基准上取得 SOTA,同时推理效率优于现有 Agent 方法。
💡 LLM 推理¶
- Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D
-
提出"艺术视差合成"新范式(Art3D),将2D-to-3D转换目标从几何精度转向艺术表达,通过双路径架构解耦全局深度风格与局部艺术效果,从专业3D电影数据中学习导演意图。
- E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought
-
构建首个面向中文电商海报的多维度质量评估框架 E-comIQ-ZH,包含18K专家标注数据集(含CoT推理链)、专用评估模型 E-comIQ-M(SFT+GRPO训练)和标准化基准 E-comIQ-Bench。
- FaceCoT: Chain-of-Thought Reasoning in MLLMs for Face Anti-Spoofing
-
构建了首个面向人脸反欺骗(FAS)的大规模 VQA 数据集 FaceCoT(108 万样本,覆盖 14 种攻击类型),包含六层级 CoT 推理标注(从全局描述到局部推理到最终结论);同时提出 CoT-Enhanced Progressive Learning (CEPL) 两阶段训练策略,在 11 个基准数据集上平均 AUC 提升 4.06%、HTER 降低 5.00%,超越所有 SOTA 方法。
- Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing
-
构建首个面向人脸反欺骗(FAS)的CoT-VQA数据集 FaceCoT(108万样本,14种攻击类型),并提出分两阶段渐进学习策略 CEPL,在11个FAS基准上平均AUC提升4.06%、HTER降低5.00%。
- Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought
-
发现现有LVLM在CoT推理时实际上忽略了中间rationale的内容,提出 RED (Rationale-Enhanced Decoding)——将图像条件和rationale条件的next-token分布在logit层面相乘,理论上等价于KL约束奖励最大化的最优解,无需训练即可显著提升多模态推理准确率。
- Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought
-
发现现有 LVLM 在多模态 CoT 推理中会忽略生成的 rationale 内容(图像 token 主导注意力),提出 Rationale-Enhanced Decoding (RED)——将 CoT 重新表述为 KL 约束的 rationale 条件对数似然奖励最大化问题,最优解为将图像条件分布 \(p(y|x,q)\) 和 rationale 条件分布 \(p(y|r,q)^\lambda\) 相乘,无需训练即可显著提升多个基准上的推理性能。
- Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering
-
构建首个对齐临床诊断工作流的结构化多步CoT医学推理数据集Step-CoT(10K+病例/70K QA对),并提出基于图注意力网络的教师-学生框架实现逐步推理监督,提升Med-VQA的准确性和可解释性。
- VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models
-
发现多模态推理模型在延长推理时会逐渐丢失对视觉token的注意力,提出VisRef在推理过程中主动重新注入与当前推理上下文语义相关的视觉token核心子集,在固定计算预算下比现有方法提升最高6.4%。
- VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models
-
提出 VisRef,一个无需训练的视觉重聚焦框架,在多模态推理每一步通过 DPP 选择与当前推理状态相关且多样的视觉token子集重新注入,配合基于熵的自适应停止准则,在三个视觉推理基准上比文本自反思方法提升最高6.4%。
🎮 强化学习¶
- Anticipatory Planning for Multimodal AI Agents
-
提出 TraceR1,一个两阶段 RL 框架:第一阶段通过轨迹级奖励优化让智能体学会"向前看几步"的前瞻性规划,第二阶段通过工具执行反馈做 grounded fine-tuning 来提升单步精度,在 7 个 GUI 和工具使用 benchmark 上取得了开源 SOTA。
- CCCaption: Dual-Reward Reinforcement Learning for Complete and Correct Image Captioning
-
提出 CCCaption 双奖励强化学习框架,通过 completeness reward(基于多 MLLM 生成的视觉 query 集)和 correctness reward(基于 caption 分解后的子 query 幻觉检测)联合优化图像描述的完整性和正确性,2B 模型超越 32B 基线。
- Cross-modal Identity Mapping: Minimizing Information Loss in Modality Conversion via Reinforcement Learning
-
提出 Cross-modal Identity Mapping (CIM),通过分析用 caption 检索到的图像的表示一致性(GRC)和与源图像的相关性(QIR)来量化图像描述中的信息损失,将其作为 RL 奖励信号训练 LVLM 生成细粒度且精确的描述,无需额外标注。
- DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning
-
提出 DreamVideo-Omni,通过两阶段渐进训练范式(全运动身份监督微调 + 潜空间身份奖励反馈学习),在单一 DiT 架构中首次统一实现多主体定制与全粒度运动控制(全局包围盒 + 局部轨迹 + 相机运动)。
- DreamVideo-Omni: Omni-Motion Controlled Multi-Subject Video Customization with Latent Identity Reinforcement Learning
-
统一框架同时实现多主体身份定制和全运动控制(全局运动 + 局部运动 + 相机运动),通过渐进式两阶段训练(有监督微调 + 潜空间身份奖励反馈学习)解决身份保持与运动控制之间的固有冲突。
- GraspLDP: Towards Generalizable Grasping Policy via Latent Diffusion
-
提出 GraspLDP,将预训练抓取检测器的 grasp pose 先验和 graspness map 视觉线索注入潜在扩散策略框架,通过 VAE 编码的动作潜空间引导和自监督重建目标,显著提升抓取精度和泛化能力。
- Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment
-
提出终身模仿学习框架,通过多模态潜在回放(MLR)在冻结编码器的特征空间中存储和回放紧凑表示,并引入增量特征调整(IFA)机制用角距离约束维持任务间可分性,在LIBERO基准上AUC提升10-17点、遗忘降低最多65%。
- Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment
-
提出终身模仿学习框架,通过 Multimodal Latent Replay(在冻结编码器的潜空间中存储和回放紧凑多模态特征)和 Incremental Feature Adjustment(基于角距离的自适应间隔约束防止任务间表示漂移),在 LIBERO 基准上实现 AUC 提升 10-17 点、遗忘减少 65%。
⚡ LLM 效率¶
- ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation
-
本文从理论上证明了微调参数差蕴含输入协方差信息,据此提出 ACE-Merging,通过自适应协方差估计、集体结构先验和谱精炼三步实现无数据闭式模型合并,在 GPT-2 上比之前方法平均提升 4%,在 RoBERTa-Base 上提升 5%。
- Attribution-Guided Model Rectification of Unreliable Neural Network Behaviors
-
提出归因引导的动态模型纠正框架,将rank-one model editing从领域适配重定位为行为纠正,通过Integrated Gradients量化各层可编辑性自动定位嫌疑层,仅需1个清洁样本即可修复后门攻击、虚假相关和特征泄漏三类不可靠行为。
- Boosting Quantitive and Spatial Awareness for Zero-Shot Object Counting
-
提出QICA框架解决零样本目标计数中的数量感知缺失和空间不敏感问题,通过数量条件化的协同提示策略(SPS)联合适配视觉-语言编码器,结合在相似度图上直接操作的代价聚合解码器(CAD)保持零样本迁移能力,在FSC-147上达到零样本SOTA(MAE 12.41)并展现强跨域泛化。
- Edit-As-Act: Goal-Regressive Planning for Open-Vocabulary 3D Indoor Scene Editing
-
将开放词汇的3D室内场景编辑重新定义为目标回归规划问题,设计PDDL风格的EditLang符号语言,通过LLM驱动的Planner-Validator循环从目标状态逆向推导最小编辑序列,在63个编辑任务上同时实现指令忠实度(69.1%)、语义一致性(86.6%)和物理合理性(91.7%)三个指标的最佳平衡。
- Model Merging in the Essential Subspace
-
提出 ESM 框架,通过对参数更新引起的激活偏移做 PCA 构建"本质子空间"(而非直接对参数做 SVD),并用三级极化缩放增强关键参数、抑制噪声,在 ViT-B/32 的 20 任务合并中比 Iso-CTS 提升 3.2%(绝对准确率)。
- StoryTailor: A Zero-Shot Pipeline for Action-Rich Multi-Subject Visual Narratives
-
提出StoryTailor零样本视觉叙事生成管线,通过高斯中心注意力(GCA)缓解主体重叠和背景泄漏、动作增强奇异值重加权(AB-SVR)放大动作语义、选择性遗忘缓存(SFC)维护跨帧背景连续性,在单张RTX 4090上实现多主体、动作丰富的图像叙事生成,CLIP-T较基线提升10-15%。
📈 时间序列¶
- Competition-Aware CPC Forecasting with Near-Market Coverage# Competition-Aware CPC Forecasting with Near-Market Coverage
-
针对付费搜索中 CPC 预测的"部分可观测竞争"难题,通过语义邻域、DTW 行为邻域和地理意图三类竞争代理信号,以协变量或图关系先验的形式增强时间序列基础模型和时空图网络,在中长期预测上显著提升稳定性。
- Forecasting Epileptic Seizures from Contactless Camera via Cross-Species Transfer Learning
-
首次系统定义基于视频的癫痫发作预测任务,提出两阶段跨物种迁移学习框架——先在啮齿类癫痫视频上自监督预训练 VideoMAE,再在人类发作前视频上少样本微调——在纯视频设定下实现超过 72% 的均衡准确率。
- Forecasting Epileptic Seizures from Contactless Camera via Cross-Species Transfer Learning
-
首次提出纯视频的癫痫发作预测任务,利用大规模啮齿动物癫痫视频进行跨物种自监督预训练,通过 VideoMAE 框架实现 3-10 秒预测窗口内 >70% 的发作预测准确率。
- L2GTX: From Local to Global Time Series Explanations
-
提出L2GTX——一种完全模型无关的方法,通过LOMATCE提取参数化时间事件原语的局部解释,再经层次聚类合并、贪心预算选择和事件聚合,生成紧凑且忠实的类级全局时间序列解释,在6个UCR数据集上全局忠实度(R²)在不同合并粒度下保持稳定(FCN上ECG200达0.792)。
- L2GTX: From Local to Global Time Series Explanations
-
L2GTX 提出一种完全模型无关的局部到全局解释方法,通过从 LOMATCE 局部解释中提取参数化时间事件原语(趋势/极值),跨实例合并冗余聚类并以子模优化选取代表性实例,最终聚合为简洁的类级别全局解释,在6个时序分类数据集上保持稳定的全局忠实度。
- PFGNet: A Fully Convolutional Frequency-Guided Peripheral Gating Network for Efficient Spatiotemporal Predictive Learning
-
提出 PFGNet,一种纯卷积时空预测框架,通过像素级频率引导门控(PFG)动态调制多尺度大核外周响应并施加可学习中心抑制,模拟生物视觉的 center-surround 带通滤波机制,在 Moving MNIST、TaxiBJ、KTH、Human3.6M 四个基准上以极少参数和计算量达到 SOTA 或近 SOTA 性能。
📐 优化/理论¶
- Deep Learning-based Assessment of the Relation Between the Third Molar and Mandibular Canal on Panoramic Radiographs using Local, Centralized, and Federated Learning
-
在 8 个标注者划分的全景口腔 X 光裁剪片上,系统对比本地学习(LL)、联邦学习(FL)和集中学习(CL)在第三磨牙-下颌管重叠二分类任务上的表现,验证 FL 作为隐私保护替代方案的可行性。
- Dynamic Momentum Recalibration in Online Gradient Learning
-
从信号处理视角揭示固定动量系数在偏差-方差权衡上的固有缺陷,提出SGDF优化器,通过在线计算最优时变增益(基于最小均方误差原则)动态平衡梯度估计的噪声抑制和信号保持,在多种视觉任务上超越SGD动量和Adam变体。
- Fed-ADE: Adaptive Learning Rate for Federated Post-adaptation under Distribution Shift
-
提出 Fed-ADE 框架,通过 uncertainty dynamics estimation 和 representation dynamics estimation 两个轻量级分布漂移信号,为每个客户端在每个时间步自适应调整学习率,实现联邦部署后无监督适应。
- SCOPE: Semantic Coreset with Orthogonal Projection Embeddings for Federated Learning
-
提出SCOPE——一个无需训练的联邦coreset选择框架,利用冻结VLM(MobileCLIP)的正交投影嵌入计算三个标量语义指标(表示性/多样性/边界接近度),实现全局感知的两阶段剪枝,在CIFAR-10/Tiny-ImageNet/UHCS上通信带宽降128-512倍的同时超越全数据训练。
- UniFusion: A Unified Image Fusion Framework with Robust Representation and Source-Aware Preservation
-
提出 UniFusion 统一图像融合框架,利用 DINOv3 自监督语义先验构建跨模态共享特征空间,通过重建对齐机制保留源图信息,并以双层优化策略解耦重建与融合目标,在红外-可见光、多曝光、多焦点、医学图像等多任务上均达到 SOTA。
🕸️ 图学习¶
- Hyperbolic Busemann Neural Networks
-
利用 Busemann 函数将多类逻辑回归(MLR)和全连接层(FC)内蕴地提升到双曲空间,提出 BMLR 和 BFC 两个统一组件,在 Poincaré 球和 Lorentz 模型上同时适用,且在图像分类、基因组序列、节点分类、链接预测四类任务上均优于已有双曲层。
- Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos
-
提出 World Scene Graph Generation (WSGG) 任务,从单目视频构建包含所有物体(含被遮挡/出画面物体)的时空持久、世界坐标系锚定的场景图,并引入 ActionGenome4D 数据集和三种互补方法(PWG/MWAE/4DST)。
- Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos
-
提出世界场景图生成 (WSGG) 任务——从单目视频生成以世界坐标系为锚定的时空场景图 (包含被遮挡物体), 构建 ActionGenome4D 数据集, 并设计三种方法 (PWG/MWAE/4DST) 探索不同归纳偏置, 4DST 用时间 Transformer 取得最佳 R@10 66.40%.
🎵 音频/语音¶
- BROTHER: Behavioral Recognition Optimized Through Heterogeneous Ensemble Regularization for Ambivalence and Hesitancy
-
提出一个高度正则化的多模态融合管线,通过视觉(SigLip2)、音频(HuBERT)、文本(F2LLM)及统计特征四模态的异质分类器委员会,结合带训练-验证差距惩罚的 PSO 硬投票集成,实现自然场景下矛盾与犹豫(A/H)行为的鲁棒视频级识别,在 ABAW10 测试集上取得 Macro F1 = 0.7465。
- OmniRet: Efficient and High-Fidelity Omni Modality Retrieval
-
提出首个支持文本-视觉-音频三模态组合查询的统一检索模型 OmniRet,通过共享媒体重采样器(Shared Media Resampler)提升计算效率,并引入注意力切片 Wasserstein 池化(ASWP)保留细粒度信息,在 13 个检索任务上取得 12 项领先。
🧮 科学计算¶
- EquivAnIA: A Spectral Method for Rotation-Equivariant Anisotropic Image Analysis
-
提出 EquivAnIA,一种基于 cake wavelets 和 ridge filters 的频谱方法,用于对数值旋转鲁棒的各向异性图像分析,在合成和真实图像(含 CT 扫描)上显著优于传统 angular binning 基线,并成功应用于角度图像配准任务。
- EquivAnIA: A Spectral Method for Rotation-Equivariant Anisotropic Image Analysis
-
提出EquivAnIA——基于Cake小波和Ridge滤波器的频谱方法,通过方向滤波器在傅里叶域计算角度能量分布,实现对数值旋转严格等变的各向异性图像分析,在合成和真实图像上一致优于传统角度功率谱密度方法。
📂 其他¶
- A2Z-10M Geometric Deep Learning With A-To-Z Brep Annotations For Ai-Assisted Cad
-
构建了包含 1000 万+ 多模态标注(高分辨率3D扫描、手绘3D草图、文本描述、BRep拓扑标签)的 100 万+ CAD 模型数据集 A2Z,为 Scan-to-BRep 逆向工程和多模态 BRep 学习提供了前所未有的数据基础,并训练基础模型在边界/角点检测上大幅超越现有方法。
- AdaBet: Gradient-free Layer Selection for Efficient Training of Deep Neural Networks
-
提出 AdaBet,一种基于代数拓扑(第一 Betti 数 \(b_1\))的无梯度层选择方法,仅通过前向传播计算每层激活空间的拓扑复杂度来决定哪些层需要微调,无需标签、梯度或反向传播,在 ResNet50/VGG16/MobileNetV2/ViT-B16 上以仅 10% 层微调达到优于全量训练的准确率,同时峰值内存降低约 40%。
- AssistMimic: Physics-Grounded Humanoid Assistance via Multi-Agent RL
-
提出 AssistMimic,一个多智能体 RL 框架,联合训练辅助者和被辅助者的物理仿真策略来模仿人-人接触式辅助动作(如扶人站起),是首个在标准基准上成功跟踪力交换辅助运动的方法。
- Association And Consolidation Evolutionary Memory-Enhanced Incremental Multi-Vie
-
提出 EMIMC 框架,受大脑海马-前额叶协作记忆机制启发,通过 Rapid Associative Module (正交映射保证可塑性)、Cognitive Forgetting Module (幂律衰减模拟遗忘曲线) 和 Knowledge Consolidation Module (时序张量低秩分解提炼长期记忆) 三模块协同,解决增量多视图聚类中的稳定性-可塑性困境。
- BenDFM: A taxonomy and synthetic CAD dataset for manufacturability assessment in sheet metal bending
-
提出可制造性指标的二维分类法(配置依赖性 x 可行性/复杂度)和首个钣金弯曲合成 CAD 数据集 BenDFM(20,000 零件),基准测试显示图结构表示(UV-Net)优于点云(PointNext),且配置相关任务仍是难点。
- BenDFM: A taxonomy and synthetic CAD dataset for manufacturability assessment in sheet metal bending
-
提出可制造性度量的二维分类法(配置依赖性 × 可行性/复杂度),并构建首个面向钣金弯曲的合成数据集 BenDFM(20k零件),基准测试表明图结构表示(UV-Net)优于点云表示(PointNext),且配置依赖型指标更难预测。
- Bounds on Agreement between Subjective and Objective Measurements
-
从投票的基本统计性质出发,推导了主观MOS与任意客观评估指标间PCC上界和MSE下界的解析表达式,并提出基于二项分布的投票模型BinoVotes/BinoMOS,为无投票方差数据的场景提供性能天花板估计。
- Bounds On Agreement Between Subjective And Objective Measurements
-
推导了主观测试 MOS 值与任意客观质量估计器之间 PCC 上界和 MSE 下界的数学闭式解,并提出基于二项分布的投票模型 BinoVotes 在缺少投票方差信息时估算该界。
- CI-ICE: Intrinsic Concept Extraction Based on Compositional Interpretability
-
提出CI-ICE新任务和HyperExpress方法,利用双曲空间的层次建模能力提取可组合的物体级/属性级内在概念,通过Horosphere投影模块保证概念嵌入空间的可组合性。
- U-F²-CBM: CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models
-
提出TextUnlock方法,通过训练轻量MLP将任意冻结视觉分类器的特征投射到文本嵌入空间(同时保持原分类器分布不变),无需CLIP、无需标注、无需训练线性探针,即可将任何legacy分类器转化为可解释的概念瓶颈模型——在40+架构上测试,超越甚至有监督的CLIP基CBM。
- Coded-E2Lf Coded Aperture Light Field Imaging From Events
-
首次证明仅用 event camera(无需传统 intensity 图像)即可重建像素级精度的 4D 光场,提出 Coded-E2LF 系统:通过编码光圈序列触发 events 并累积为 event images,利用全黑 pattern 建立 event-based 与 intensity-based coded aperture imaging 的数学等价性,结合端到端 deep optics 训练实现 8×8 视点光场重建。
- Deconstructing the Failure of Ideal Noise Correction: A Three-Pillar Diagnosis
-
通过宏观收敛态、微观梯度动力学和信息论三个层次,严格证明了即使给定完美噪声转移矩阵,前向校正(FC)仍不可避免地塌缩到与无校正相同的次优水平,根本原因在于有限样本下的记忆化和噪声信道的信息损失。
- Deconstructing The Failure Of Ideal Noise Correction A Three-Pillar Diagnosis
-
本文通过受控实验证明,即使给定完美的噪声转移矩阵 T,前向校正方法仍会在训练后期发生性能崩溃,并从宏观收敛状态、微观优化动力学、信息论三个层面系统诊断了这一失败的根本原因。
- Diffbmp Differentiable Rendering With Bitmap Primitives
-
提出 DiffBMP——首个面向位图图元的通用可微渲染引擎,通过自定义 CUDA 并行管线实现对数千张位图图元的位置、旋转、缩放、颜色和透明度的高效梯度优化,填补了 2D 可微渲染仅限矢量图形的空白。
- DirPA: Addressing Prior Shift in Imbalanced Few-shot Crop-type Classification
-
通过 Dirichlet 先验增强(DirPA),在少样本训练阶段主动模拟真实世界长尾类别分布,从而消除人工平衡训练集与自然不平衡测试分布之间的先验偏移,提升作物分类的鲁棒性。
- Elastic Weight Consolidation Done Right for Continual Learning
-
本文从梯度视角系统分析了 EWC 及其变体在权重重要性估计上的根本缺陷(EWC 的梯度消失和 MAS 的冗余保护),并提出了一个极其简单的 Logits Reversal 操作来修正 Fisher 信息矩阵的计算,在无样例类增量学习和多模态持续指令微调任务上大幅超越原始 EWC 及其所有变体。
- Enhancing Out-of-Distribution Detection with Extended Logit Normalization
-
本文发现 LogitNorm 在训练中会导致两种特征坍塌(维度坍塌和原点坍塌),提出了一种无超参数的 Extended Logit Normalization(ELogitNorm),用特征到决策边界的距离替代到原点的距离作为缩放因子,在不损失分类精度的前提下显著提升各种 post-hoc OOD 检测方法的性能和置信度校准。
- ELogitNorm: Enhancing OOD Detection with Extended Logit Normalization
-
诊断LogitNorm的特征坍缩问题(维度坍缩+原点坍缩),提出ELogitNorm——用到决策边界的平均距离(而非特征范数)做自适应温度缩放,无超参数、兼容所有post-hoc OOD检测方法——CIFAR-10上far-OOD AUROC提升10.48%(SCALE),ImageNet-1K上FPR95从51.45%降至27.74%,同时改善分类精度和ECE校准。
- Flow3R Factored Flow Prediction For Scalable Visual Geometry Learning
-
提出"分解式光流预测"(Factored Flow)模块,用源视图的几何 latent + 目标视图的位姿 latent 预测光流,使无标注视频可作为三维几何学习的监督信号,在静态/动态场景的 8 个基准上达到 SOTA。
- Flowmotion Training-Free Flow Guidance For Video Motion Transfer
-
提出 FlowMotion,一种无需训练的视频运动迁移框架,通过直接利用 flow-based T2V 模型的预测输出(latent prediction)构建运动引导信号,避免对模型内部层做梯度回传,在保持运动保真度的同时大幅降低推理时间和显存开销。
- GazeOnce360: Fisheye-Based 360° Multi-Person Gaze Estimation with Global-Local Feature Fusion
-
本文提出 GazeOnce360,一个端到端的双分辨率 CNN 模型,用于从单个朝上放置的桌面鱼眼相机进行 360° 多人视线方向估计,同时构建了首个面向该场景的大规模合成数据集 MPSGaze360,在精度和速度两方面均大幅超越现有多阶段方法 GAM360。
- HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition
-
本文提出 HypeVPR,一个基于双曲空间层次化嵌入的视觉位置识别框架,专门解决透视图像(查询)与全景图像(数据库)之间的跨视场匹配问题,通过在 Poincaré 球中从局部到全局构建多级描述子,实现精度-效率-存储的灵活平衡,检索速度比滑窗基线快数倍且精度相当。
- Integration of deep generative Anomaly Detection algorithm in high-speed industrial line
-
基于GRD-Net改进的GAN+密集瓶颈残差自编码器(DRAE),在制药BFS产线上实现半监督异常检测,用281万训练patch在500ms时间槽内完成60个patch的推理(0.17ms/patch),达到97.62%平衡准确率和96.38%的逐运行验证精度。
- Integration of Deep Generative Anomaly Detection Algorithm in High-Speed Industrial Line
-
本文提出一个基于 GAN + 残差自编码器(DRAE)的半监督异常检测框架,专门设计用于制药行业 Blow-Fill-Seal(BFS)产线的高速在线质量检测,仅用合格品训练即可实现 96.4% 的准确率,单 patch 推理仅 0.17ms,满足 500ms 检测周期的严格工业约束。
- Learning from Oblivion: Predicting Knowledge-Overflowed Weights via Retrodiction of Forgetting
-
提出KNOW prediction:通过在逐步缩小的数据子集上sequential fine-tuning诱导结构化遗忘过程,收集权重转变轨迹,然后用meta-learned hyper-model(KNOWN)反转forgetting方向,预测"仿佛在更大数据集上训练"的虚拟知识增强权重。跨多数据集(CIFAR/ImageNet/PACS等)和多架构(ResNet/PVTv2/DeepLabV3+)持续超越naive fine-tuning及多种weight prediction基线,在图像分类、语义分割、图像描述、域泛化等下游任务上均有显著提升。
- Linking Modality Isolation In Heterogeneous Collaborative Perception
-
提出 CodeAlign 框架,通过码本构建离散代码空间和跨模态 Feature-Code-Feature (FCF) 翻译,首次解决异构协同感知中不同模态从未在训练数据中共现的"模态隔离"问题,仅需 HEAL 8% 训练参数、通信量降低 1024 倍,同时达到 SOTA 感知性能。
- Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning
-
针对实例依赖偏标签学习 (ID-PLL) 中相似类别实例因特征和候选标签重叠导致的"实例纠缠"问题,提出 CAD 框架,通过类别特定增强的类内对齐和加权惩罚损失的类间分离,双管齐下缓解类混淆。
- MXNorm: Reusing MXFP Block Scales for Efficient Tensor Normalisation
-
GPU矩阵乘法吞吐量提升(80x)远超reduction/elementwise操作(5-9x),RMSNorm正成为低精度训练的新瓶颈。MXNorm直接复用MXFP8量化时已计算的block scales来估计RMS,实现32倍reduction大小缩减。理论上证明block absmax的广义p-mean可收敛到RMS的常数倍。Llama 3 125M/1B/8B预训练验证MXNorm(p=2)与RMSNorm训练精度差异minimal,torch.compile实测isolated kernel最高2.4x加速、Llama 3 8B transformer layer在MXFP8下+1.3%、NVFP4下+2.6%加速。Drop-in replacement,无额外超参数。
- NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries
-
提出 NaiLIA,一种面向美甲设计图像的多模态检索方法,通过密集意图描述和调色板查询实现细粒度匹配,引入基于置信度分数的松弛对比损失(CRC loss)处理未标注正样本问题,在自建 NAIL-STAR 基准和 Marqo Fashion200K 上大幅超越现有方法。
- Neurodynamics-Driven Coupled Neural P Systems for Multi-Focus Image Fusion
-
提出 ND-CNPFuse,通过对耦合神经 P (CNP) 系统进行神经动力学分析,建立网络参数与输入信号的约束关系以避免神经元异常持续放电,从而在多焦点图像融合 (MFIF) 任务上无需训练即可生成高质量、可解释的决策图。
- On the Possible Detectability of Image-in-Image Steganography
-
揭示了基于可逆神经网络(INN)的图像隐写方案存在严重安全漏洞:嵌入过程本质上是一种混合过程,可通过ICA进行盲源分离,仅用8维特征+SVM即可达到84.6%检测率,而传统SRM+SVM更是达到99%以上。
- Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models
-
提出 StEvo-Bench 基准测试,通过在演化过程中插入遮挡或让相机"看向别处"来检验视频世界模型能否将状态演化与观测解耦,揭示了当前模型(包括 Veo 3、Sora 2 Pro 等)的任务成功率不到 10%,暴露了严重的"演化停止"和"不一致性"问题。
- Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models
-
提出 StEvo-Bench 基准,通过遮挡或相机移开等观测控制手段评估视频世界模型能否将状态演化与观测解耦,发现当前最先进模型(包括 Veo 3、Sora 2 Pro、Genie 3 等)在观测中断时成功率不足 10%,揭示了视频世界模型在演化-观测耦合上的根本缺陷。
- POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction
-
POLISH++在POLISH框架基础上引入分块训练+拼接策略和arcsinh非线性变换,解决了射电干涉成像中宽视场(万级像素)和高动态范围(\(10^4\)-\(10^6\))两大实际部署难题,在T-RECS仿真数据上大幅超越CLEAN方法的源探测精度,且能超分辨恢复PSF尺度附近的强引力透镜系统,有望将DSA巡天的透镜发现数量提升约10倍。
- Proof-of-Perception: 带组合共形保证的工具使用多模态推理
-
提出PoP框架将多模态推理建模为可执行DAG——每个感知/逻辑节点输出共形预测集提供逐步校准的不确定性,控制器在预算约束下按需调用更多工具扩展计算,在文档/图表/多图QA上优于CoT/ReAct/PoT基线。
- Rethinking SNN Online Training and Deployment: Gradient-Coherent Learning via Hybrid-Driven LIF Model
-
提出HD-LIF(混合驱动LIF)脉冲神经元模型族,通过在阈值上下区域采用不同脉冲计算机制,理论证明其梯度可分离性和对齐性,解决SNN在线训练的前后向传播不一致问题,同时实现学习精度、内存复杂度和功耗的全阶段优化——以10×参数压缩、11×功耗降低和30% NOPs节省达到CIFAR-100上78.61%精度。
- Rethinking SNN Online Training and Deployment: Gradient-Coherent Learning via Hybrid-Driven LIF Model
-
提出 Hybrid-Driven LIF (HD-LIF) 模型族,通过在阈值上下区域采用不同脉冲计算机制实现梯度可分离性和对齐性,解决了 SNN 在线训练中前向-反向传播不一致的根本问题,同时实现了训练精度、内存复杂度和推理功耗的全阶段优化。
- Revisiting Unknowns Towards Effective And Efficient Open-Set Active Learning
-
提出 E2OAL,一个无需额外检测器的开放集主动学习框架,通过标签引导聚类发现未知类潜在结构、Dirichlet 校准辅助头联合建模已知/未知类别,并设计两阶段自适应查询策略,在多个基准上同时实现高准确率、高查询纯度和高训练效率。
- Rooftop Wind Field Reconstruction Using Sparse Sensors: From Deterministic to Generative Learning Methods
-
建立学习-观测框架,在真实风洞PIV数据上系统比较Kriging、UNet、ViTAE和CWGAN四种方法从5-30个稀疏传感器重建屋顶全风场的能力,发现混合风向训练下DL一致优于Kriging(SSIM提升18-34%),CWGAN在鲁棒性上最优。
- Rooftop Wind Field Reconstruction Using Sparse Sensors: From Deterministic to Generative Learning Methods
-
基于风洞PIV实验数据,系统比较了Kriging插值与三种深度学习方法(UNet、ViTAE、CWGAN)在稀疏传感器条件下的屋顶风场重建性能,并提出QR分解优化传感器布局以增强鲁棒性。
- Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score
-
提出 SemiCP 框架,通过最近邻匹配(NNM)分数将无标签数据引入 conformal prediction 的校准流程,在标注数据极少时将平均覆盖率偏差降低最多 77%,同时缩小预测集。
- Shoe Style-Invariant And Ground-Aware Learning For Dense Foot Contact Estimation
-
提出 FECO 框架,通过鞋款风格–内容随机化(对抗训练)和地面感知学习(像素高度图 + 地面法线),从单张 RGB 图像实现鲁棒的密集足部接触估计,在多个基准上显著超越现有方法。
- SHREC: A Spectral Embedding-Based Approach for Ab-Initio Reconstruction of Helical Molecules
-
提出 SHREC 算法,通过谱嵌入(spectral embedding)从冷冻电镜 2D 投影图像中直接恢复螺旋分子片段的投影角度,无需预先知道螺旋对称参数(rise/twist),实现了真正的 ab-initio 螺旋结构重建。
- SHREC: A Spectral Embedding-Based Approach for Ab-Initio Reconstruction of Helical Molecules
-
SHREC利用谱嵌入技术从2D冷冻电镜投影图像直接恢复螺旋分子的投影角度(无需螺旋对称参数先验),通过证明螺旋片段投影构成一维闭合流形(同胚于圆)实现角度恢复,在TMV、VipA/VipB和MakA三个公开数据集上实现接近发表水平的高分辨率重建(3.66Å–8.23Å)。
- Temporal Imbalance Of Positive And Negative Supervision In Class-Incremental Lea
-
提出时序不平衡(Temporal Imbalance)这一被忽视的类增量学习偏差来源,并设计 Temporal-Adjusted Loss(TAL)通过时间衰减记忆核动态降低旧类的负监督权重,以即插即用的方式显著缓解灾难性遗忘。
- Watch and Learn: Learning to Use Computers from Online Videos
-
提出 Watch & Learn 框架, 通过逆动力学模型 (IDM) 将 YouTube 教程视频自动转化为可执行的 UI 轨迹数据 (53K+ 轨迹, 免去人工标注), 基于此数据增强 CUA 能力, 在 OSWorld 上让 Qwen 2.5VL-7B 提升 +11.1%, UI-TARS-1.5-7B 提升 +3.8%.
- Watch And Learn Learning To Use Computers From Online Videos
-
提出 Watch & Learn (W&L) 框架,通过逆动力学模型 (IDM) 将互联网上的人类计算机操作视频自动转化为可执行的 UI 轨迹数据,生成 53K+ 高质量轨迹,作为 ICL 示例或 SFT 训练数据显著提升各类 CUA 性能。
- What Is Wrong With Synthetic Data For Scene Text Recognition A Strong Synthetic
-
系统分析了现有渲染合成数据在语料、字体、布局多样性上的不足,提出 UnionST 合成引擎和自演化学习框架(SEL),仅用合成数据即大幅超越传统合成集,结合 SEL 仅需 9% 真实标注即可逼近全监督性能。
- Wildcap Facial Albedo Capture In The Wild Via Hybrid Inverse Rendering
-
提出 WildCap,通过混合逆渲染框架(数据驱动 SwitchLight 去光照 + 基于模型的 texel grid lighting 优化 + 扩散先验采样),从手机野外视频中重建高质量 4K 面部漫反射 albedo 贴图,大幅缩小野外捕捉与受控光照方法之间的质量差距。
- EB-JDAT: Energy-based Joint Distribution Adversarial Training
-
通过能量景观分析揭示AT和JEM的互补性(AT缩小clean-adv能量差→鲁棒性;JEM缩小clean-generated能量差→生成+精度),提出EB-JDAT建模联合分布p(x,x̃,y),用min-max能量优化对齐三种数据的能量分布——CIFAR-10上鲁棒性68.76%(AutoAttack, 超SOTA AT +10.78%),同时保持90.39%清洁精度和竞争力的生成质量(FID=27.42)。