📅 2026-03-23 精选笔记¶

共 20 篇

ADaFuSE: Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval ¶

📄 信息检索 / 多模态融合

提出 ADaFuSE，用自适应门控 + 语义感知 MoE 双分支替代扩散增强交互式文本-图像检索 (I-TIR) 中的静态加法融合，动态校准文本与扩散生成图像的融合权重，在 4 个 I-TIR 基准上以仅 5.29% 的参数增量超越 DAR 最高 3.49% Hits@10，被 SIGIR 2026 录用。

BayesMM: Adapting Point Cloud Analysis via Multimodal Bayesian Distribution Learning ¶

🧊 3D视觉 / 点云分析

提出 BayesMM，用高斯分布建模文本先验和流式视觉特征，通过贝叶斯模型平均自动调节两模态权重，实现 training-free 的测试时点云分析适配，在多个点云基准上平均提升 4%+ 鲁棒性。

Back to Point: Exploring Point-Language Models for Zero-Shot 3D Anomaly Detection ¶

🧊 3D视觉 / AI安全

首次将预训练 Point-Language Model (PLM) 应用于零样本 3D 异常检测，提出 BTP 框架，通过多粒度特征嵌入模块 (MGFEM) 和几何特征创建模块 (GFCM) 直接在点云空间实现细粒度异常定位，避免了传统 VLM 方法的 3D→2D 投影信息损失。

CatRAG: Functor-Guided Structural Debiasing with Retrieval Augmentation for Fair LLMs ¶

🛡️ AI安全 / LLM公平性

提出 CatRAG，结合范畴论驱动的 functor 投影（在 embedding 空间压制人口统计属性方向）与多样性感知的 RAG 检索（注入反刻板印象证据），在 BBQ 基准上将 Llama-3 准确率从 48.9% 提升至 81.2%，偏差分数从 0.63 降至近零 0.01，且在三个开源 LLM 上一致有效。

Structured Visual Narratives Undermine Safety Alignment in Multimodal Large Language Models ¶

🛡️ 多模态VLM / AI安全

提出 ComicJailbreak——用三格漫画模板将恶意目标嵌入视觉叙事中的越狱基准（1167 个攻击实例，10 类危害，5 种任务），在 15 个 SOTA MLLM 上实测显示漫画攻击的 EASR 超过 90%（多个商业模型），且现有防御（AdaShield/AsD）虽降低攻击成功率但严重过度拒绝正常请求。

CORE: Concept-aware Continual Unlearning for Large Vision-Language Models ¶

📄 多模态VLM / 机器遗忘

提出 CORE（COncept-aware REfuser）框架，将 LVLM 持续遗忘问题转化为概念级精细操作——通过概念模块提取细粒度视觉属性与文本意图，概念调制器识别每个遗忘类别的概念组合，再用混合拒绝专家（mixture of refusers）基于概念相关性路由生成精准拒绝响应，在 16 个持续遗忘任务序列中同时避免不相关拒绝和过度拒绝。

🧠 多模态VLM / LLM推理

针对交错模态思维链（ICoT）中静态视觉插入冗余和碎片化视觉 token 不连贯两大问题，提出 DaP-ICoT 框架：通过置信度感知的动态视觉思维集成（DVTI）和基于 SAM2 分割的精确视觉思维引导（PVTG），在 SOTA 推理精度下减少 72.6% 的 token 消耗。

DiT-Flow: Speech Enhancement Robust to Multiple Distortions based on Flow Matching in Latent Space and Diffusion Transformers ¶

📄 音频处理 / 模型效率

提出 DiT-Flow，一个基于 Flow Matching + Diffusion Transformer (uDiT) 的语音增强框架，在 VAE 潜空间中操作，配合自建的 StillSonicSet 数据集和 MoELoRA 参数高效适配策略（仅 4.9% 参数），实现对噪声/混响/压缩等多种失真的鲁棒增强。

EAGER: Efficient Failure Management for Multi-Agent Systems with Reasoning Trace Representation ¶

🦾 自监督学习 / LLM Agent

提出 EAGER，通过推理域对比学习将多智能体推理轨迹编码为统一表示空间，实现基于历史故障模式的实时逐步故障检测（5 秒内）、反思式缓解和根因诊断，在三个开源 MAS 上异常检测 F1 达 73-86%，并将 RCLAgent 的 R@1 从 28.47% 提升至 30.19%。

📄 多模态VLM / 社会群体检测

构建首个第一人称视角的社交群体检测数据集 EgoGroups，覆盖 65 个国家、三种人群密度和四种天气/时段条件，密集标注人物和社交群体，系统评估 SOTA VLM/LLM 和监督模型，发现 VLM 在零样本设置下可超越监督基线，且人群密度和文化区域显著影响模型性能。

FIM-Merging: Data-Free Layer-Adaptive Merging via Fisher Information for Long-to-Short Reasoning LLMs ¶

🧠 LLM推理 / 模型合并

提出 FIM-Merging，首次理论证明模型合并误差由 per-layer Hessian 范数约束，用 Fisher 信息矩阵作为无需校准数据的代理信号，实现层自适应合并系数分配。在 L2S（长推理→短推理）场景下，FIM-TIES 在 1.5B/7B 上均超越 ACM-TIES，MATH500 +6.2 点，同时输出长度缩短 92.6%。

GeoFusion-CAD: Structure-Aware Diffusion with Geometric State Space for Parametric 3D Design ¶

📦 模型压缩 / CAD生成

提出 GeoFusion-CAD，用层次化树结构编码 CAD 程序（联合捕获几何和拓扑信息），通过 G-Mamba 扩散编码器以线性时间复杂度 \(O(Ld)\) 建模长程结构依赖，配合新构建的 DeepCAD-240 基准（序列长度 40-240），在长 CAD 序列生成上大幅超越 Transformer 方法，且保持高几何保真度和拓扑一致性。

Exploring Multimodal Prompts For Unsupervised Continuous Anomaly Detection ¶

📄 多模态VLM / 异常检测

提出多模态持续异常检测框架，通过持续多模态提示记忆库（CMPMB，融合可学习文本提示+视觉提示）和缺陷语义引导自适应融合机制（DSG-AFM，含自适应归一化+动态融合策略），在 MVTec AD 和 VisA 上 AUROC 检测精度提升 4.4%，分割精度提升 14.8%。

Omni-WorldBench: Towards a Comprehensive Interaction-Centric Evaluation for World Models ¶

🎬 视频理解 / 多模态VLM

首个面向世界模型交互响应能力的综合评估基准，包含 Omni-WorldSuite（1068 条跨 3 个交互层级 × 多场景类型的评估 prompt）和 Omni-Metrics（评估生成视频质量 + 相机-物体可控性 + 交互效果保真度的 agent-based 指标体系），系统评估了 18 个代表性世界模型，揭示当前模型在交互响应方面的关键局限。

P-Flow: Prompting Visual Effects Generation ¶

📄 视频生成 / 视觉特效定制

提出 P-Flow，一个 training-free 框架，通过测试时 prompt 优化（test-time prompt optimization）定制动态视觉特效——用 VLM 迭代比较参考特效视频和生成结果的差异来优化 prompt，配合 SVD-based 噪声先验增强和历史轨迹维护机制，无需微调模型即实现高保真跨场景特效迁移，在 FID-VID、FVD、Dynamic Degree 上全面超越训练-based 基线。

ResFlow-Tuner: Tuning Real-World Image Restoration at Inference via Test-Time Scaling ¶

🎨 图像生成 / 图像复原

提出 ResFlow-Tuner，基于 FLUX.1-dev flow matching 模型做真实世界图像复原，通过统一多模态融合（UMMF）编码条件信息 + 训练免费的 test-time scaling（推理时用 reward model 反馈动态调整去噪方向），在多个标准基准达到 SOTA。

RoboGate: Adaptive Failure Discovery for Safe Robot Policy Deployment ¶

🤖 机器人 / 安全验证 / 部署风险管理

提出 RoboGate 部署风险管理框架，通过两阶段自适应采样（Stage 1 LHS 全局 20K + Stage 2 边界聚焦 10K）在 8 维操作参数空间高效发现机器人抓放策略的失败边界，30K 次 Isaac Sim 实验获得闭式边界方程 \(\mu^*(m)=(1.469+0.419m)/(3.691-1.400m)\)、四个通用危险区，并暴露 VLA 模型（Octo-Small）在对抗场景仅 30.9% 成功率。

SpatialReward: Verifiable Spatial Reward Modeling for Fine-Grained T2I Generation ¶

🎨 图像生成 / 空间一致性

提出 SpatialReward，通过 Prompt 分解→专家检测器精确定位→VLM CoT 推理三阶段流水线构建可验证的空间 reward model，配合 SpatRelBench 基准（覆盖朝向、3D 关系、文字放置），在 SD3.5/FLUX 上用 RL 训练显著提升空间一致性。

StreamingEval: A Unified Evaluation Protocol towards Realistic Streaming Video Understanding ¶

🎬 视频理解 / 评测基准

提出 StreamingEval，首个统一评测框架同时衡量 Video-LLM 在真实流式约束（有限内存+实时帧率+因果推理）下的准确率、编码效率、解码延迟和存储开销，通过异步三进程流水线模拟真实流式场景，在 12 个代表性模型上揭示当前"在线"模型在严格流式约束下实际不可用。

Do World Action Models Generalize Better than VLAs? A Robustness Study ¶

🤖 机器人 / 世界模型

系统对比 SOTA VLA 策略（π0.5、OpenVLA 等）和新兴的世界动作模型 WAM（Cosmos-Policy、LingBot-VA 等）在视觉/语言扰动下的鲁棒性，发现 WAM 凭借视频预训练获得的时空先验在噪声/光照/布局扰动下表现更好（LingBot-VA 74.2%、Cosmos-Policy 82.2%），但推理延迟高于 VLA 4.8 倍以上。