📅 2026-03-15 精选笔记¶
共 20 篇
AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents¶
🦾 LLM Agent
首个面向 tool-use agent 的步级有效性评估基准(1000 条轨迹 / 8509 步人工标注),采用三元标签 (+1/0/-1) 和误差传播规则,揭示弱模型因 early termination 导致虚高正确率、当前 LLM 难以区分 neutral 和 erroneous 动作。
On the Nature of Attention Sink that Shapes Decoding Strategy in MLLMs¶
📄 多模态VLM
系统分析 MLLM 中 attention sink 现象的本质,发现 sink token 的 value 表示编码了结构化全局信息(而非无用),据此提出 OutRo——通过将非 sink 位置的 head output 旋转向 sink value 方向 + 放松 sink token 的因果 mask,在 7 个视频 QA benchmark 上一致提升性能,仅 1.1× 解码开销。
Balancing Multimodal Domain Generalization via Gradient Modulation and Projection¶
🎬 视频理解 / 多模态VLM
提出 GMP 策略,通过 IGDM 解耦分类/域不变梯度并用语义+域信心调制 + CAGP 检测梯度冲突并投影到无冲突方向,在 EPIC-Kitchens 视频-音频跨域泛化中目标域提升 2.3%(传统方法仅 ±0.65%)。
CangjieBench: Benchmarking LLMs on a Low-Resource General-Purpose Programming Language¶
🧠 NLP生成 / LLM推理
为新兴仓颉编程语言创建首个零污染 benchmark(248 个手工翻译样本),覆盖函数级和类级任务,评估四种生成范式(直接/语法约束/RAG/Agent),发现 Code-to-Code 翻译存在负迁移、语法约束最佳性价比、Agent 最高准确但 token 消耗大。
ChArtist: Generating Pictorial Charts with Unified Spatial and Subject Control¶
🎨 图像生成
提出 ChArtist,基于 FLUX DiT 训练两个 LoRA(空间控制+主题控制),用 skeleton-based 图表表示和 Spatially-Gated Attention 生成保真且视觉丰富的图形化图表,配套 30K 三元组数据集和统一数据准确度评估指标。
DC-ViT: Modulating Spatial and Channel Interactions for Multi-Channel Images¶
🛰️ 多通道图像处理 / 遥感
提出 DC-ViT,将 ViT 自注意力解耦为空间路径(通道内)和通道路径(跨通道),通过选择性层级通道交互和分层聚合,在 CHAMMI/JUMP-CP/So2Sat 三个多通道图像基准上大幅超越 ChannelViT(+7.14% OOD)。
Deeper Thought, Weaker Aim: Understanding and Mitigating Perceptual Impairment during Reasoning in MLLMs¶
🧠 多模态VLM / LLM推理
揭示 CoT 推理导致 MLLM 视觉注意力分散("想得越深、瞄得越偏"),发现有效视觉 head 满足 \(R_\text{img}\)高 + \(H_\text{img}\)低(高图像关注 + 低空间熵)的线性关系,提出 VRGA 框架在推理时选择性增强 question-relevant 区域注意力,无训练地提升 VQA 准确率 1-6 分。
DiFlowDubber: Discrete Flow Matching for Automated Video Dubbing¶
🎨 图像生成 / 视频理解
提出 DiFlowDubber,用 Discrete Flow Matching 生成骨干将大规模 TTS 预训练知识迁移到视频配音,通过 FaPro 模块从面部表情捕获韵律先验 + Synchronizer 模块实现视频-文本-语音三模态对齐,在 Chem 和 V2C 数据集上超越 SOTA。
DualTSR: Unified Dual-Diffusion Transformer for Scene Text Image Super-Resolution¶
🎨 图像生成 / NLP生成
提出 DualTSR,用单一多模态 Transformer 同时建模图像超分(Conditional Flow Matching)和文字识别(Discrete Diffusion),去除对外部 OCR 的依赖,在中文场景文字超分上取得最优感知质量和文字保真度。
ES-Merging: Biological MLLM Merging via Embedding Space Signals¶
📦 多模态VLM / 模型压缩
提出 ES-Merging,用 embedding space 信号(而非 parameter space 启发式)估计 merging 系数,在 layer-wise 粗粒度和 element-wise 细粒度两个层面融合生物领域的分子/蛋白质/细胞三个 MLLM,在跨模态交互预测任务上超越所有现有 merging 方法甚至超过 task-specific fine-tuned 模型。
Fair Benchmarking of Emerging One-Step Generative Models Against Multistep Diffusion and Flow Models¶
🎨 图像生成
建立公平基准比较 8 个单步/多步生成模型,统一 CFG=7 + 双步评估(1步 vs 25步),提出 MMHM 综合指标平衡 FID/IS/CLIP/PickScore,揭示单步模型虽进步快但 25 步模型仍优,FID 优化与人类偏好存在系统性权衡。
FOCUS: Bridging Fine-Grained Recognition and Open-World Discovery across Domains¶
🔍 目标检测 / 域泛化
首次定义 Fine-Grained Domain-Generalized GCD (FG-DG-GCD) 问题,提出 FoCUS 框架结合 Domain-Consistent Parts Discovery (DCPD) 和 Uncertainty-Aware Feature Augmentation (UFA),在 CUB/Cars/Aircraft 跨域细粒度基准上超越 GCD/FG-GCD/DG-GCD 基线 3-10%,计算效率提升 ~3×。
GenState-AI: State-Aware Dataset for Text-to-Video Retrieval on AI-Generated Videos¶
🎬 视频理解 / 多模态VLM
提出 GenState-AI benchmark,用 Wan2.2 生成 AI 视频,每个 query 配 temporal hard negative(改终态)和 semantic hard negative(换物体),三元组设计暴露现有 MLLM 检索模型在终态判断上的系统性失败。
GoldenStart: Q-Guided Priors and Entropy Control for Distilling Flow Policies¶
🎨 图像生成 / 强化学习
提出 GoldenStart (GSFlow),通过 Q-guided CVAE 学习高价值初始噪声分布("golden start")+ 熵正则化蒸馏实现探索-利用平衡,将 flow matching 策略蒸馏为高效的单步推理策略,在 OGBench 和 D4RL 上显著超越 FQL 等 SOTA。
LatSearch: Latent Reward-Guided Search for Faster Inference-Time Scaling in Video Diffusion¶
🎨 视频理解 / 图像生成
提出 LatSearch,在视频扩散推理过程中用 latent reward model 对中间去噪状态打分,配合 Reward-Guided Resampling and Pruning (RGRP) 策略进行搜索,在 VBench-2.0 上比 baseline 提升 3.35% 质量的同时仅需 2.13× 推理时间(相比 EvoSearch 的 10.15× 快近 5 倍)。
LongVidSearch: An Agentic Benchmark for Multi-hop Evidence Retrieval Planning in Long Videos¶
🎬 视频理解 / LLM Agent
提出 LongVidSearch benchmark(3000 QA / 447 长视频 / 平均 26 分钟),通过 N-1 adversarial ablation 严格保证 multi-hop 检索的必要性,用统一 tool 接口评估 agent 的检索规划能力,GPT-5 最高准确率仅 42.43%,揭示 multi-hop retrieval planning 是当前最大瓶颈。
PA³: Policy-Aware Agent Alignment through Chain-of-Thought¶
🧠 LLM推理 / LLM Agent
提出 PA³ 多阶段对齐方法训练 LLM agent 在 CoT 推理中自行回忆和应用业务策略(无需全部策略放入上下文),引入 PolicyRecall reward (Jaccard score) 和 Hallucination Penalty 用于 GRPO 训练,比基线提升 16 分,比同规模方法高 3 分且少用 40% token。
Safety-Potential Pruning for Enhancing Safety Prompts Against VLM Jailbreaking Without Retraining¶
🛡️ 多模态VLM / AI安全
提出 Safety Subnetwork Hypothesis——VLM 内部存在稀疏的安全子网络,safety prompt 会选择性激活深层参数。据此提出 Safety-Potential Pruning,一次性剪枝对 safety prompt 不响应的权重,无需重训地将攻击成功率降低最多 22%。
Uni-MDTrack: Learning Decoupled Memory and Dynamic States for Parameter-Efficient Visual Tracking in All Modality¶
🎬 视频理解 / 目标检测
提出 Uni-MDTrack,用 Memory-Aware Compression Prompt (MCP) 将记忆库压缩为固定 token + Dynamic State Fusion (DSF) 用 SSM 捕捉目标连续动态状态,仅训练 <30% 参数即在 RGB/RGB-D/T/E/Language 五种模态 10 个数据集上达到 SOTA。
UniFusion: A Unified Image Fusion Framework with Robust Representation and Source-Aware Preservation¶
🎨 多模态VLM / 图像生成
提出 UniFusion,利用 DINOv3 语义先验 + reconstruction-alignment 机制 + bilevel optimization 策略,构建跨任务统一图像融合框架,在红外-可见光/医学/多曝光/多焦点四大融合任务上全面超越 TC-MoA 等 SOTA。