📅 2026-03-09 精选笔记¶
共 20 篇
BuildMamba: 基于视觉状态空间模型的多任务建筑分割与高度估计¶
🛰️ 3D 视觉 / 遥感图像分析
提出 BuildMamba,基于 VMamba 视觉状态空间模型构建统一多任务框架,通过 Mamba 注意力模块、空间感知 Mamba-FPN 和掩码感知高度精修模块,实现仅从单张 RGB 卫星图像同时进行建筑分割和高度估计,在三个基准上刷新 SOTA。
Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition¶
🧩 多模态/VLM
将 VLM 的零样本图像识别重新建模为概念空间上的贝叶斯边际化推断——用 LLM 驱动的四阶段流水线生成判别性、组合性、多样性的概念集合,再用自适应 soft-trim likelihood 下调离群概念权重,在 11 个数据集上一致超过 SOTA 零样本方法。
CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation¶
🎨 图像生成
提出 CoCo 框架,将可执行代码作为 Chain-of-Thought 中间表示,先生成代码渲染结构化草图,再精细化编辑生成最终高质量图像,在结构化 T2I 生成任务上大幅超越现有方法。
ELLMob: Event-Driven Human Mobility Generation with Self-Aligned LLM Framework¶
🗣️ LLM/NLP 应用
提出 ELLMob 框架,基于模糊痕迹理论 (Fuzzy-Trace Theory) 构建自对齐 LLM 管道,通过提取和迭代对齐"习惯要旨"与"事件要旨"来调和日常出行惯性与突发事件约束的竞争,首次实现事件驱动的人类出行轨迹生成。
EvoStage: 基于 LLM 的演化分阶段自动算法设计¶
📄 LLM / 自动算法设计
提出 EvoStage,将算法设计任务分解为多阶段子任务,结合多智能体系统和"全局-局部视角"机制,利用 LLM 在演化框架中逐阶段设计算法并获取中间反馈,在芯片布局等工业场景中仅用 25 次评估即超越人类专家设计和现有 LLM 方法。
FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use¶
🦾 LLM Agent
构建首个可执行的金融工具使用 benchmark FinToolBench(760 个真实金融 API + 295 条工具依赖查询),提出超越二元执行成功的评估维度——时效性/意图约束/监管域对齐三个合规指标,以及 FATR 金融感知工具检索 baseline。
HiAR: 基于层级去噪的高效自回归长视频生成¶
📄 图像/视频生成
提出 HiAR,一种层级去噪框架,颠倒传统自回归视频生成的顺序——在每个去噪步骤内对所有块进行因果生成而非逐块完成,使每块始终以相同噪声水平的上下文为条件,从而抑制误差累积并实现约 1.8× 加速,在 VBench 20s 生成中取得最佳总分和最低时间漂移。
HMR-1: Hierarchical Massage Robot with Vision-Language-Model for Embodied Healthcare¶
🤖 机器人
构建首个大规模穴位按摩多模态数据集 MedMassage-12K(12190 图像 + 174177 QA 对),提出分层按摩机器人框架 HMR-1——高层用微调的 Qwen-VL 理解语言指令并定位穴位,低层用 RANSAC+IK 规划运动轨迹,在 Franka Panda 上完成真实物理按摩实验。
IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation¶
⚡ LLM效率
将 ViT 线性层通过 SVD 分解为"谱专家"(rank-1 成分),只微调奇异值(spectral code)实现参数高效自适应,提出多样性最大化损失缓解熵最小化导致的特征坍缩,并设计域感知谱码检索机制实现 CTTA 中的域知识保存和快速复用,在 TTA/CTTA/Gradual CTTA 上全面 SOTA。
MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals¶
🧩 多模态/VLM
构建电磁(EM)信号领域的完整 MLLM 基础设施:EM-100k 大规模数据集(10万信号-文本对)+ EM-Bench 评估基准(14个子任务4200 QA 对)+ MERLIN 两阶段训练框架(基础预训练 + 知识蒸馏增强低信噪比鲁棒性),通过 Denoising Subspace Module 将低 SNR 特征投射到干净子空间。
Adaptive Collaboration with Humans: Metacognitive Policy Optimization for Multi-Agent LLMs¶
🦾 LLM Agent
提出 HILA 框架,通过元认知策略优化让多 Agent 系统学会何时自主解题、何时求助人类专家,配合双循环策略优化(内循环 RL 优化决策 + 外循环持续学习吸收专家知识),打破纯自治多 Agent 系统的知识天花板。
QualiTeacher: Quality-Conditioned Pseudo-Labeling for Real-World Image Restoration¶
🎨 图像生成
将伪标签质量从需要过滤的噪声转化为条件监督信号——将 NR-IQA 分数注入学生网络使其学习质量分级的修复流形,结合基于 DPO 的偏好优化确保分数-质量单调映射,使学生网络能外推到超越教师的修复质量。
RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback¶
🦾 LLM Agent / 强化学习
提出 RetroAgent 框架,通过回顾式自我反思机制生成双重内在反馈(数值反馈鼓励探索 + 语言反馈利用经验),使 LLM Agent 从"一次性解题"进化为"持续自我演进",在四个 Agent 任务上大幅超越现有方法。
Can Vision-Language Models Solve the Shell Game?¶
🎬 视频理解
揭示当前 SOTA VLM 在视觉实体追踪(shell game 任务)上接近随机水平,提出 VET-Bench 诊断基准和 SGCoT 方法(时空定位的 CoT 推理),通过微调实现超过 90% 的追踪精度。
SOT-GLP: Local-Global Prompt Learning via Sparse Optimal Transport¶
🧩 多模态/VLM
提出 SOT-GLP——用稀疏最优传输将显著 patch 均衡分配给各类别专属 local prompt,结合全局 prompt 保持整体对齐,在 11 个 benchmark 16-shot 上达到 85.1% 平均精度,并发现无投影版本在 OOD 检测上达 94.2% AUC 的 SOTA。
SWIFT: Sliding Window Reconstruction for Few-Shot Training-Free Generated Video Attribution¶
🎬 视频理解 / 生成视频溯源
提出 SWIFT,利用视频生成模型 3D VAE 的时序压缩特性,通过滑动窗口进行正常/破坏两轮重建,以重建损失比值作为归因信号,实现少样本甚至零样本的生成视频溯源。
TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery¶
📦 模型压缩
提出 TALON,首次将测试时自适应(TTA)框架引入 On-the-Fly Category Discovery 任务——通过语义感知的原型更新和稳定的编码器自适应,让模型在推理阶段持续从未标注数据流中学习新类别,同时用 margin-aware logit calibration 预留嵌入空间,在 7 个基准上大幅超越 hash-based SOTA。
Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades¶
🎨 图像生成
提出两阶段级联框架生成复杂人体动作视频:第一阶段用自回归 Transformer 从文本生成 2D 骨架序列,第二阶段用 DINO-ALF(多层自适应融合)外观编码器驱动 pose-conditioned 视频扩散模型,在翻跟头、武术等复杂动作上显著优于现有方法。
Reading ≠ Seeing: 诊断并弥合 VLM 中的排版感知差距¶
📄 多模态 / VLM
揭示了当前 VLM 的"排版盲"现象——能完美阅读文字内容却无法感知其视觉呈现(字体、字号、字重、颜色),构建了 FontBench 基准系统诊断这一问题,发现了结构化的感知层次(颜色≫字族>字号>字重),并证明 LoRA 微调可部分缓解但字重感知需要架构层面创新。
UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking¶
🗣️ LLM/NLP
发现并形式化"未索引信息检索(UIS)"问题——搜索引擎无法直接索引的信息(动态页面/嵌入文件/深层链接),构建首个 UIS-QA benchmark(110 条专家标注 QA 对),并提出 UIS-Digger 四 agent 协作框架(双模浏览器+文件解析+SFT/RFT 两阶段训练),用 ~30B 参数模型达到 27.27% 超越 O3+GPT-4.1 驱动的系统。