📅 2026-03-20 精选笔记¶

共 20 篇

AgroCoT: A Chain-of-Thought Benchmark for Evaluating Reasoning in Vision-Language Models for Agriculture ¶

📄 多模态VLM / 农业AI

构建首个农业领域多模态 CoT 推理 benchmark（4759 对 VQA + 人工精修推理链），覆盖 5 大维度 15 类任务，系统评估 30 个 VLM（含 5 个闭源），发现 GPT-4.1 整体最强（SS 88.59, CoT Quality 49.78），开源模型推理能力普遍不足，GPT-5 因推理冗长反而低于 GPT-4.1。

AutoScreen-FW: An LLM-based Framework for Resume Screening ¶

🦾 LLM Agent / NLP应用

提出 AutoScreen-FW，用开源 LLM（Qwen3-8B/Llama-3.1-8B）+ few-shot ICL 实现简历筛选，通过 clustering-based 样本选择策略使 Qwen3-8B 超越 GPT-5-nano 达 10.8%，同时保护数据隐私且提速 48.7%。

CubiD: Cubic Discrete Diffusion for Discrete Visual Generation on High-Dimensional Representations ¶

🎨 图像生成

提出 CubiD，在高维预训练表征（768-1024 维）上做细粒度 masked diffusion，通过 dimension-wise 量化保留语义丰富度，per-element masking 跨整个 3D tensor（h×w×d）独立 mask，在 ImageNet-256 上以 1.88 FID 达到离散生成 SOTA。

CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning ¶

📄 多模态VLM

提出 CycleCap，用循环一致性作为自监督奖励（图像→Caption→重建图像，DreamSim 衡量一致性）配合 GRPO 微调 VLM captioning 能力，无需标注数据，在 CompreCap/CAPability/CapsBench 上稳定提升 1.3-3.2 分，且减少幻觉。

DuoTeach: Dual Role Self-Teaching for Coarse-to-Fine Decision Coordination in Vision-Language Models ¶

🧠 多模态VLM / LLM推理

揭示 VLM 在层级分类中严重的跨层不一致问题（祖先-后代链条无效），提出 DuoTeach 自蒸馏框架——同一 VLM 既做教师（逐层条件推理）又做学生（单次调用预测完整路径），在 ImageNet-Animal 上 DWPA₀.₉₅ 从 0.69% 飙升至 30.93%，且在未见分类体系上零样本迁移保持增益。

FLAC: Few-shot Acoustic Synthesis with Multimodal Flow Matching ¶

🧊 3D视觉 / 多模态

提出 FLAC，基于 flow matching 的概率生成模型，用声学参考 RIR + 空间位置 + 全景深度图三路条件信息在 few-shot 场景下合成声学一致的房间脉冲响应——仅用 1-shot 即可超越现有方法的 8-shot 表现（T60 误差 9.95% vs xRIR 的 14.47%）。

GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?¶

🛡️ 多模态VLM / AI安全

构建 GenVideoLens 细粒度 benchmark（400 合成 + 100 真实视频，15 个真实性维度，6000+ 专家标注），系统诊断 11 个 LVLM 在 AI 生成视频检测中的薄弱环节：感知线索尚可，但光学一致性、物理交互和时序因果推理极差，且模型几乎不利用时序信息。

GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation ¶

📄 长序列生成 / 视频与体数据生成

提出 GriDiT：把长图像序列生成拆成“网格级低分辨率粗生成 + 逐帧超分精修”两阶段，并配套网格自回归采样，实现更好的长程一致性和显著更快推理，在 CT-RATE 上达到 3.4x 速度提升且 FVD 更优。

Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor ¶

🛡️ 多模态VLM / AI安全

构建首个多模态（文本 3K + 图像 6K + 视频 1.2K）、多语言（英语/阿拉伯语）的有害幽默检测 benchmark，区分安全笑话、显式有害和隐式（隐蔽）有害三类，发现闭源模型显著优于开源模型，且阿拉伯语性能普遍落后英语。

Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout ¶

🎨 视频理解 / 图像生成

提出 Infinity-RoPE，通过 Block-Relativistic RoPE（移动参考系时序编码）+ KV Flush（仅保留 2 token 实现即时 prompt 响应）+ RoPE Cut（受控时序断裂实现场景转换），在 Wan2.1-T2V 上实现训练无关的无限长视频生成——60 秒视频 VBench Overall 0.8298（SOTA），12× 超训练长度且动态度保持 0.52（vs baseline 0.32-0.36）。

MLA: A Multisensory Language-Action Model for Multimodal Understanding and Forecasting in Robotic Manipulation ¶

🤖 机器人 / 多模态VLM

提出 MLA，编码器无关的多感官 VLA 模型，通过 token 级对比学习将 2D 图像、3D 点云和触觉信号统一对齐到 LLM 嵌入空间，加上未来多感官状态预测后训练，在真实世界和 RLBench 上分别超越 π₀ +12%/+16%。

MMSearch-Plus: Benchmarking Provenance-Aware Search for Multimodal Browsing Agents ¶

🦾 LLM Agent / 多模态VLM

构建 MMSearch-Plus benchmark（311 个需要"时空外推"的多模态搜索任务），要求 agent 从图像中的细粒度视觉线索推断像素之外的事实（如日期/事件/地点），最强模型 o3 仅达 37.6%——提出 Set-of-Mark 区域裁剪模块持续带来 +3.9% 提升。

Mobile-VideoGPT: Fast and Accurate Model for Mobile Video Understanding ¶

🎬 视频理解 / LLM效率

设计 Mobile-VideoGPT，双编码器架构（CLIP-B/16 空间特征 + VideoMamba-M 时序特征）+ 高效 token 投射器 + Qwen-2.5 0.5B SLM，仅 0.5B 参数/1GB 模型/3GB 显存，在 Jetson Orin Nano 上 7.3 tokens/sec，ActivityNet-QA 上 51.6%（超 LLaVA-OneVision-0.5B）。

⚡ 多模态VLM / LLM效率

提出 Equilibrium Deviation Metric (EDM) 量化模态不平衡程度，理论证明弱→强优化顺序在交替训练中收敛界最紧，设计 EDM 引导的动态交替训练 + 跨模态记忆模块，在 CREMA-D 上 +3.36%、Kinetics-400 上 +3.51% SOTA，且在缺失模态条件下保持鲁棒。