📅 2026-03-18 精选笔记¶

共 20 篇

CycleCap: Improving VLMs Captioning via Self-Supervised Cycle Consistency ¶

🎨 图像生成 / 多模态/VLM

将循环一致性（图→文→图重建相似度）作为 GRPO 奖励信号自监督微调 VLM，仅需原始图像无需标注数据，在 1B-7B 模型上一致提升 captioning 和减少幻觉。

Directing the Narrative: Controlling Coherence and Style in Story Generation ¶

🎨 图像生成 / 视频理解

提出两阶段框架在 FLUX.1 上实现一致性故事生成：第一阶段用 Group-Shared Attention 在 batch 内共享高分辨率视觉 token 实现无损身份保持，第二阶段用 DPO 对齐人类审美，在 ViStoryBench 上 CIDS +10.0、CSD +18.7，6 项指标中 5 项 SOTA。

EvoGuard: An Extensible Agentic RL-based Framework for Practical AI-Generated Image Detection ¶

🧩 多模态/VLM / AI安全

提出 EvoGuard，将异构 AIGI 检测器封装为可调用工具，用 MLLM Agent 通过能力感知的动态编排机制多轮调用和推理，仅需二值标签的 GRPO 训练，实现 SOTA 检测精度和无需重训练的即插即用可扩展性。

Fine-Grained Post-Training Quantization for LVLMs with Quantization-aware Integrated Gradients ¶

🧩 多模态/VLM / 模型压缩

借鉴可解释性中的公理化归因方法，提出量化感知积分梯度 (QIG) 将 LVLM 量化敏感度测量从模态级推进到 token 级，在 W3A16 下 LLaVA-onevision-7B 平均精度提升 1.60%，与全精度差距仅 1.33%。

FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions ¶

🧩 多模态/VLM

提出 FineViT，一个从零训练的三阶段渐进式视觉编码器（MIM初始化→高分辨率对比学习→LLM对齐），配合 4.5 亿区域级标注数据集 FineCap-450M，在零样本识别/检索和 MLLM 多模态理解上全面超越 SigLIP2 和 Qwen-ViT。

🤖 机器人

提出平面图引导的 VLN 新范式——用现成平面图替代冗长逐步指令作为全局空间先验，构建 10K+ episode 数据集（语义标注平面图 + Matterport3D 轨迹 + 简洁指令），提出 FP-Nav 通过双视角时空对齐视频 + 辅助推理任务实现平面图-视觉-指令对齐，导航成功率相对提升 60%+，在真实四足机器人上零样本部署验证。

Flow Matching Policy with Entropy Regularization (FMER)¶

🎮 强化学习

用 ODE 基的 Flow Matching 代替 SDE 基扩散作为在线 RL 策略，通过优势加权的 conditional FM loss + 可解析熵正则化实现原则性最大熵优化，在多峰/稀疏 FrankaKitchen 任务上超越 SOTA，训练速度比 QVPO 快 7×。

GeCO: Time Unconditional Flow Matching for Robotic Control ¶

🤖 机器人 / 生成模型

将机器人动作生成从固定时间表积分转化为对时间无关的稳态速度场做迭代优化，自然实现自适应推理步数（简单动作早退、复杂动作多细化）和零训练 OOD 检测（场范数作为异常信号），可无缝插入 π₀ 等 VLA 模型作为 flow-matching head 替代。

Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor ¶

🧩 多模态/VLM / AI安全

提出多模态多语言有害幽默检测基准（3000文本+6000图像+1200视频，英语/阿拉伯语），将有害幽默细分为显式和隐式两类，系统评估SOTA开源和闭源模型，发现闭源模型显著优于开源，隐式有害幽默是所有模型的最大盲区，阿拉伯语安全对齐严重滞后。

HRI-SA: Multimodal Dataset for Human Situational Awareness in Human-Robot Teaming ¶

🤖 机器人 / 人机交互

提出首个开放的人机协作情境感知 (SA) 检测数据集 HRI-SA，收集 30 人搜救任务中的眼动+生理+交互+机器人数据，系统定义感知型和理解型两种 SA 延迟并提供逐 5 秒连续标注，验证通用眼动特征可有效检测感知延迟（recall=88.91%），融合上下文信息后 F1 从 67.63% 提升到 80.38%。

Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos ¶

🎬 视频理解

通过代码生成的合成几何视频构造 7.7K CoT + 7K RL 样本，教授模型方向/速度/状态追踪等基础时序理解原语，仅用 7.7K 合成数据就在 15 个视频推理基准上超越 Video-R1 的 165K 真实样本（数据效率 21 倍）。

LED: A Benchmark for Evaluating Layout Error Detection in Document Analysis ¶

📄 多模态/文档理解

首次定义文档布局分析中 8 种结构错误类型（缺失、幻觉、大小错误、分割、合并、重叠、重复、误分类），通过可控合成错误注入构建 LED 基准（5K 文档、70K 元素），用三层递进任务评估多模态模型，揭示即使 GPT-4V 在元素级诊断上也极弱（F1<0.35），填补文档评估十年空白。

LoST: Level of Semantics Tokenization for 3D Shapes ¶

🧊 3D视觉/生成模型

按语义显著性（而非几何细节）排序 3D token 序列，使早期前缀即可解码为完整可信形状，后续 token 逐步精细化——仅需 0.1%-10% 的 token 即超越现有自回归模型，通过新颖的 RIDA 损失在无 3D DINO 的条件下实现 3D 语义对齐。

🧩 多模态/VLM

提出 MCoT-MVS，利用 MLLM 的链式思维推理将组合图像检索（CIR）中的用户意图分解为"保留/删除/目标"三部分文本，指导 patch 级和实例级双层视觉选择，在 CIRR 和 FashionIQ 上达到新 SOTA。

📅 2026-03-18 精选笔记¶

CycleCap: Improving VLMs Captioning via Self-Supervised Cycle Consistency ¶

Directing the Narrative: Controlling Coherence and Style in Story Generation ¶

EvoGuard: An Extensible Agentic RL-based Framework for Practical AI-Generated Image Detection ¶

Fine-Grained Post-Training Quantization for LVLMs with Quantization-aware Integrated Gradients ¶

FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions ¶

FloorPlan-VLN: Floor Plan Guided Vision-Language Navigation ¶

Flow Matching Policy with Entropy Regularization (FMER)¶

GeCO: Time Unconditional Flow Matching for Robotic Control ¶

Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor ¶

HRI-SA: Multimodal Dataset for Human Situational Awareness in Human-Robot Teaming ¶

Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos ¶

LED: A Benchmark for Evaluating Layout Error Detection in Document Analysis ¶

LoST: Level of Semantics Tokenization for 3D Shapes ¶

Motion-MLLM: Egomotion-Aware Video Representation for Efficient 3D Scene Understanding ¶

NEO: A Unified Language Model for Large-Scale Search, Recommendation, and Reasoning ¶

ProbeFlow: Training-Free Adaptive Flow Matching for Vision-Language-Action Models ¶

SegFly: A 2D-3D-2D Paradigm for Aerial RGB-Thermal Semantic Segmentation ¶

UniSAFE: A Comprehensive Benchmark for Safety Evaluation of Unified Multimodal Models ¶

VCoT-Bench: Can LLMs Reason Like Automated Theorem Provers for Rust Verification?¶