📅 2026-03-21 精选笔记¶

共 20 篇

AC4A: Access Control for Agents ¶

🗣️ LLM/NLP / AI安全

提出 AC4A，首个统一的 LLM Agent 访问控制框架，支持 API 和浏览器两类 Agent，通过层级资源类型树 + 资源值规范 + 动作的权限三元组实现细粒度权限控制（如只允许查看本周日历而非整个 API 权限），灵感来自 Unix 文件系统权限模型。

AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing ¶

🧠 LLM推理 / AI安全 / 软件工程

识别 LLM 漏洞检测的根本问题——agent 辩论和 RAG 均在"无根据的推理空间"中运作（缺乏假设特定的证据基础），提出 AEGIS 多 agent 框架：先从代码异常中发现线索(Clues)，再通过仓库级 Code Property Graph 按需切片重建每变量依赖链，Verifier Agent 在封闭证据边界内构建正反辩证论证，独立 Audit Agent 拥有一票否决权防止幻觉裁决。PrimeVul 上首次突破 100 Pairwise Correct（达 122），FPR 降低 54.4%，成本仅 $0.09/样本，无需训练。

Attention in Space: Functional Roles of VLM Heads for Spatial Reasoning ¶

🧩 多模态/VLM

通过机制可解释性分析发现 VLM 中空间推理头极其稀缺（<9% 超过 0.001 重要性），提出 CogVSR 数据集和探测框架识别认知头，并通过 Spatial Head Activation (SHA) 激活潜在空间头，InternVL3-2B 提升 >10%。

BenchBench: Benchmarking Automated Benchmark Generation ¶

🎬 视频理解 / LLM评估

提出 BenchBench，评估 LLM 自动生成 benchmark 能力的三阶段流水线——从种子 benchmark 提取领域卡 → LLM 设计者生成配额控制的题目套件 → 多模型答题面板验证——发现 benchmark 设计能力与答题能力仅弱相关（Spearman ρ≈0.37），生成 16.7K 题目覆盖 CS/数学/医学/ToM 四个领域。

Code-MIE: A Code-style Model for Multimodal Information Extraction with Scene Graph and Entity Attribute Knowledge Enhancement ¶

🧩 多模态/VLM

提出 Code-MIE，首个将代码风格模板扩展到多模态信息抽取的框架，通过将场景图和实体属性整合到统一的 Python 函数模板中，在 M3D、Twitter-15/17、MNRE 四个数据集上全面超越六个基线（F1 提升最高 6.94%）。

CTCal: Rethinking Text-to-Image Diffusion Models via Cross-Timestep Self-Calibration ¶

🎨 图像生成

提出 CTCal，利用扩散模型在小时间步（低噪声）建立的可靠文本-图像对齐（cross-attention map）来校准大时间步（高噪声）的学习，为文本-图像对应提供显式监督，在 SD 2.1 和 SD 3 上均显著提升组合生成能力（T2I-CompBench++ 和 GenEval）。

Democratizing AI: A Comparative Study in Deep Learning Efficiency and Future Trends in Computational Processing ¶

📦 模型压缩 / 系统 / 深度学习基准测试

在 CIFAR-10 和 Horse2Zebra 数据集上系统基准测试 Conv6/VGG16/ResNet18/CycleGAN 四种模型在 TensorFlow/PyTorch 两个框架下的 CPU vs GPU 性能差异：GPU 加速比从轻量模型 Conv6 的 246× 到生成模型 CycleGAN 的 11× 不等，TensorFlow 推理延迟比 PyTorch 低约 15%，并用多项式回归预测 GPU 显存增长趋势。

DiscoUQ: Structured Disagreement Analysis for Uncertainty Quantification in LLM Agent Ensembles ¶

🦾 LLM Agent

提出 DiscoUQ，分析多 Agent LLM 系统分歧的结构（语言特征：证据重叠/论证强度/分歧深度 + 嵌入几何：聚类距离/离散度/凝聚度）来产生校准后的置信度估计，在 4 个 benchmark 上以 AUROC 0.802 和 ECE 0.036 超越简单投票和 LLM 聚合基线，特别在"弱分歧"区间提升最大。

Memory-Efficient Fine-Tuning Diffusion Transformers via Dynamic Patch Sampling and Block Skipping ¶

🎨 图像生成 / 扩散模型 / 高效微调

提出 DiT-BlockSkip：(1) 时间步感知的动态 patch 采样——高时间步大 patch 学全局结构、低时间步小 patch 学细节，统一 resize 到低分辨率；(2) 基于 cross-attention masking 识别关键 block 后跳过非关键 block 并预计算残差特征。在 FLUX/SANA 上，30% 跳过率+256 分辨率训练即可达到 LoRA@512 水平（DINO 0.7194 vs 0.7324），内存减少约 71%。

🤖 机器人 / 社会导航 / 小语言模型

评估 GPT-4o/Claude 在社会导航中的零样本能力（效果很差），提出 E-SocialNav：基于 Phi-2-2.7B + SigLIP 的小语言模型，通过两阶段训练（SFT on 多轮对话 + DPO on 单轮偏好对）在小数据（265 张图）下超越零样本大模型，最佳配置 SFT(projector)+DPO(lora) 达到 SMS 0.846、FPS 2.354、AA 0.550。

IBCapsNet: Information Bottleneck Capsule Network for Noise-Robust Representation Learning ¶

📦 模型压缩

提出 IBCapsNet，用信息瓶颈原理替代胶囊网络的迭代动态路由——将主胶囊压缩为全局上下文后通过类别特定 VAE 推断正则化潜在胶囊——在 MNIST/SVHN 上匹配 CapsNet 准确率，噪声下平均提升 17.1%（钳位加性噪声），同时训练快 2.54×、推理快 3.64×。

ME-IQA: Memory-Enhanced Image Quality Assessment via Re-Ranking ¶

🧩 多模态/VLM

提出 ME-IQA，一个即插即用的测试时记忆增强重排序框架，通过混合记忆库检索 + VLM 作为概率比较器 + Thurstone Case V 融合，缓解推理型 VLM 在 IQA 任务中的离散坍缩问题。

Reasoning Topology Matters: Network-of-Thought for Complex Reasoning Tasks ¶

🧠 LLM推理

提出 Network-of-Thought (NoT)，将 LLM 推理建模为带类型节点和边的有向图（而非链/树），配合启发式控制器策略和自生成权重机制，在 HotpotQA 多跳推理上达 91.0%（Judge），超越 ToT 的 88.0%，同时揭示评估方法（string-match vs LLM-as-Judge）可导致最高 18 个百分点的排名偏差。

ROI-Driven Foveated Attention for Unified Egocentric Representations in Vision-Language-Action Systems ¶

🤖 机器人

提出基于 FK 投影的 ROI 驱动工程流水线，从单个外部相机生成末端执行器中心的高分辨率裁剪区域，替代腕部相机，为 VLA 系统提供统一的自我中心表征。

Mamba Learns in Context: Structure-Aware Domain Generalization for Multi-Task Point Cloud Understanding ¶

🧊 3D视觉

提出 SADG，首个基于 Mamba 的多任务点云域泛化框架，通过质心距离谱(CDS)和测地线曲率谱(GCS)实现变换不变的结构感知序列化，配合层级域感知建模和谱图对齐，在重建/去噪/配准三任务上全面超越 SOTA（含引入新数据集 MP3DObject）。

Satellite-to-Street: Synthesizing Post-Disaster Views from Satellite Imagery via Generative Vision Models ¶

🎨 3D视觉 / 图像生成

系统比较四种生成方法（Pix2Pix、ControlNet、VLM-guided、Disaster-MoE）从卫星图合成灾后街景，提出三层评估框架（像素级/语义一致性/VLM-as-Judge），揭示"真实感-保真度"权衡。

ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework ¶

🎨 图像生成

提出 ScaleEditor，全开源多智能体层级框架，通过源图扩展+自适应编辑合成+任务感知质量验证三阶段构建了 ScaleEdit-12M（1200 万编辑对，23 类任务），微调 UniWorld-V1 后在 GEdit 上提升 35.1%、RISE 上提升 150.0%，证明开源 pipeline 可逼近商用 API 数据质量。

Seed1.8 Model Card: Towards Generalized Real-World Agency ¶

🧩 多模态/VLM / LLM Agent

字节跳动发布 Seed1.8 模型卡，一个面向通用真实世界代理的大模型，在保持 LLM/VLM 基础能力（推理、知识、指令遵循）的同时，统一支持搜索、代码执行和 GUI 交互的多步骤 Agent 工作流，提供四级思考模式平衡延迟与质量，在 AIME-25（94.3）、HMMT-25（89.7）等多个 benchmark 上达到或接近 GPT-5/Gemini-3-pro 水平。

Improving Diffusion Generalization with Weak-to-Strong Segmented Guidance ¶

🎨 图像生成 / 扩散模型

从 Weak-to-Strong 原则统一分析条件依赖引导(CFG)和条件无关引导(AG)的有效操作域——CFG 擅长高噪声时的类间分离，AG 擅长低噪声时的类内精化——提出 SGG 分段引导（先 CFG 后 AG）并将其迁移到训练目标中，在 SD3/SD3.5 推理和 SiT 训练上均超越所有现有引导变体。

StageCraft: Execution Aware Mitigation of Distractor and Obstruction Failures in VLA Models ¶

🤖 机器人

提出 StageCraft，免训练的 VLA 策略改进模块——通过分析少量策略 rollout 的成功/失败与初始场景中物体集合的关系，利用 VLM 推理识别导致策略失败的干扰物并在执行前最小化地移除它们，在三个真实任务中将 Pi0.5 和 SmolVLA 的成功率绝对提升 40%。