📅 2026-03-19 精选笔记¶

共 22 篇

AutoScreen-FW: An LLM-based Framework for Resume Screening ¶

🛡️ AI安全

提出 AutoScreen-FW，一个本地部署的开源 LLM 简历筛选框架，通过三种代表性样本选择策略（多样性/相似性/聚类）+ 评价准则 + persona 描述进行 few-shot ICL，使 Qwen3-8B 在日本潜力型招聘场景下匹配甚至超越 GPT-5-mini，且每份简历筛选速度快 24-51%。

Balanced Thinking: Improving Chain of Thought Training in Vision Language Models ¶

🧩 多模态/VLM / LLM推理

提出 SCALe-SFT（Scheduled Curriculum Adaptive Loss），通过在 SFT 阶段动态调整 think 和 answer 段的损失权重（从重推理逐渐转向重答案），解决推理数据中 token 不均衡问题，仅 SFT 即可匹配 SFT+GRPO 的效果且节省 ~6/7 训练时间。

Counting Circuits: Mechanistic Interpretability of Visual Reasoning in Large Vision-Language Models ¶

🧩 多模态/VLM

以计数任务为最小化探针，提出 Visual Activation Patching 和 HeadLens 两种新可解释性方法，发现 LVLM 中结构化的"计数电路"（4 类功能注意力头），并基于电路发现设计干预策略：仅用 8000 张合成图微调即可在 OOD 计数上提升 +8.36%、通用视觉推理提升 +1.54%。

🧩 多模态/VLM

提出 VLTCrisis，一个可解释的多模态危机推文分类框架：先用 ViLT 编码器联合学习文本理据（有监督）和图像理据（通过跨模态对齐零样本迁移），再仅基于提取的理据进行分类，实现 interpretable-by-design。在 CrisisMMD 上 Macro-F1 比 baseline 高 2-35%，零样本泛化到新数据集达 80% 准确率。

CubiD: Cubic Discrete Diffusion — Discrete Visual Generation on High-Dimensional Representation Tokens ¶

🎨 图像生成

提出 Cubic Discrete Diffusion (CubiD)，首个在高维表示 token（768维）上进行离散生成的方法，通过在 h×w×d 三维张量上做细粒度逐元素掩码预测，在 ImageNet-256 上达到 1.88 FID，同时验证了离散化后的 token 同时保持理解和生成能力。

FLAC: Few-shot Acoustic Synthesis with Multimodal Flow Matching ¶

🎨 图像生成 / 语音音频

提出 FLAC，首个将 Flow Matching 应用于少样本房间脉冲响应（RIR）合成的生成模型，仅用 1 条录音+深度图即可在新房间生成空间一致的 RIR，超越需要 8 条录音的 SOTA 方法，同时引入 AGREE 声学-几何联合嵌入用于场景一致性评估。

FlowMS: Flow Matching for De Novo Structure Elucidation from Mass Spectra ¶

🎨 图像生成 / 科学计算

提出 FlowMS，首个将离散 flow matching 用于质谱条件下从头分子结构生成的框架，通过线性插值噪声路径 + CTMC 去噪 + 化学式约束，在 NPLIB1 基准的 6 个指标中 5 个达到 SOTA：9.15% top-1 准确率（比 DiffMS 提升 9.7%）和 7.96 top-10 MCES（比 MS-BART 提升 4.2%）。

GenVideoLens: Where LVLMs Fall Short in AI-Generated Video Detection?¶

🧩 多模态/VLM / AI安全

提出 GenVideoLens，一个 15 维细粒度 AI 生成视频检测基准（400 高仿真合成+100 真实视频，6000+ 专家标注），揭示 LVLM 在光学一致性、物理交互和时序因果推理上的系统性弱点，且模型几乎不利用时序信息做真伪判断。

HiMu: Hierarchical Multimodal Frame Selection for Long Video Question Answering ¶

🎬 视频理解 / 多模态/VLM

提出 HiMu，一个无训练帧选择框架：用单次 text-only LLM 调用将查询分解为层次逻辑树 → 叶节点路由到轻量多模态专家（CLIP/OVD/OCR/ASR/CLAP）→ 信号归一化+时序平滑 → 模糊逻辑算子自下而上组合成帧满意度曲线 → top-K 帧送入 LVLM。在 Video-MME 上以约 10× 更少 FLOPs 接近 Agent 方法性能，全面超越所有相似度选择器。

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs ¶

🎬 视频理解 / 多模态/VLM

提出 LVOmniBench，首个专门评估全模态 LLM 在长时音视频（10-90 分钟，共 140 小时）联合推理能力的基准，包含 275 视频 + 1014 人工标注 QA 对（含三级难度），发现开源模型准确率 <35%，Gemini 3 Pro 峰值仅 ~65%，并通过 ASR 消融揭示开源模型根本无法有效利用音频信息。

🧊 3D视觉 / 机器人

提出 MAPG（Multi-Agent Probabilistic Grounding），将自然语言度量-语义查询（如"冰箱右边 2 米"）分解为锚点+空间关系+度量约束，由多个 VLM Agent 分别接地并通过概率核组合生成规划器可用的 3D 目标分布。在新提出的 MAPG-Bench 上将目标定位误差从 5.82m 降至 0.07m（98.8% 降幅）。

Matryoshka Gaussian Splatting ¶

🧊 3D视觉

将 Matryoshka 嵌套表示思想应用于 3D Gaussian Splatting，通过按重要性排序高斯基元并用随机预算训练，使单个模型的任意前缀子集都能产生连贯渲染，实现连续 LoD 控制且不牺牲全容量质量。

MemMA: Coordinating the Memory Cycle through Multi-Agent Reasoning and In-Situ Self-Evolution ¶

🦾 LLM Agent

提出 MemMA，一个即插即用的多智能体框架，通过前向路径（Meta-Thinker 指导 Memory Manager 构建 + Query Reasoner 迭代检索）和后向路径（原位自演化记忆修复：合成探测 QA→验证→失败转修复）协调记忆循环的三个阶段，在 LoCoMo 上整体 ACC 从 75.66% 提升至 81.58%。

MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction ¶

🧊 3D视觉

提出 MonoArt，一个端到端的单目铰接3D物体重建框架，通过渐进式结构推理（几何→零件→运动→运动学树），在 PartNet-Mobility 上实现 SOTA 重建精度和推理速度，无需多视图、视频生成或检索库。

PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching ¶

🧠 LLM推理

提出 PowerFlow，将无监督 LLM 微调形式化为 α-幂分布匹配问题——α>1 锐化分布增强推理、α<1 平化分布释放创造力——通过长度感知的 Trajectory-Balance (LA-TB) 目标解决自回归长度偏差。在推理任务上无监督匹配甚至超越 GRPO（有监督），在创造力任务上突破质量-多样性 Pareto 边界。

Revisiting Autoregressive Models for Generative Image Classification ¶

🎨 图像生成

揭示固定 token 顺序是 AR 生成式分类器的关键瓶颈，利用 any-order AR 模型（RandAR）通过对多种排列取序边际化（order-marginalized）估计类条件 log-likelihood，在 ImageNet 及 OOD 基准上全面超越扩散分类器，效率提升 25×，并首次与 DINOv2 等 SOTA 自监督方法竞争。

SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction ¶

🧊 3D视觉

提出 SEAR，用 LoRA 适配器+模态专用 camera token+混合批处理策略，以不到 5% 参数量将 VGGT 几何基础模型适配到 RGB-热成像联合 3D 重建，仅需 ~15K 配对图像训练即在 AUC@30 上超越 SOTA 29%+。

Seeking Universal Shot Language Understanding Solutions ¶

🧩 多模态/VLM

提出 SLU-SUITE（490K 人工标注 QA × 33 个电影任务 × 6 维度）和两套方案：UniShot（单模型均衡泛化，动态平衡数据混合）和 AgentShots（专家路由集群，零样本超越 Gemini-3.0-Pro 22%），揭示 VLM 用于镜头语言理解的瓶颈是语义对齐而非视觉感知。

T-QPM: Enabling Temporal Out-Of-Distribution Detection and Domain Generalization for VLMs ¶

🧩 多模态/VLM

提出 T-QPM，将 CLIP 的 OOD 检测从静态双模式匹配扩展到时序四模式匹配（图像×文本 × ID×OOD），通过时间步特定的视觉原型+轻量融合权重+ATC正则化，在时序变化环境下显著超越静态基线。

TexEditor: Structure-Preserving Text-Driven Texture Editing ¶

🎨 图像生成 / 图像编辑

提出 TexEditor，通过 Blender 合成的 TexBlender 数据集做 SFT 冷启动 + StructureNFT 强化学习（结合指令遵循和结构保持奖励）两阶段训练，在文本驱动纹理编辑中一致超越 Nano Banana Pro 等 SOTA 编辑模型，同时提出 TexBench（真实世界基准）和 TexEval（结合结构一致性的评估指标）。

VEGA-3D: Generation Models Know Space — Unleashing Implicit 3D Priors for Scene Understanding ¶

🧊 3D视觉 / 多模态VLM

将预训练视频生成模型（如 Wan2.1）作为"潜在世界模拟器"，通过噪声注入激活其隐式3D先验，并用 token 级自适应门控融合机制将几何特征与语义特征结合，无需显式3D标注即可大幅提升 MLLM 的3D场景理解和空间推理能力。

Not All Features Are Created Equal: A Mechanistic Study of Vision-Language-Action Models ¶

🤖 机器人 / 多模态VLM

对 6 种 VLA 模型（80M-7B）进行大规模机械可解释性研究（39.4万+ rollout），发现视觉通路主导动作生成、语言敏感性取决于任务结构而非模型设计、多通路架构呈现 expert 编码运动程序 / VLM 编码目标语义的一致性分工。