跳转至

📅 2026-03-08 精选笔记

20


AgriPath: A Systematic Exploration of Architectural Trade-offs for Crop Disease Classification

🧩 多模态/VLM

系统对比 CNN(ResNet-50)、对比式 VLM(CLIP/SigLIP)和生成式 VLM(Qwen2.5-VL/SmolVLM)在作物病害分类中的架构权衡——构建 AgriPath-LF16 基准(111K 图像/16 种作物/41 种病害,显式区分实验室和田间图像),发现 CNN 域内最强但跨域崩溃(96.8%→4.5%),对比式 VLM 参数高效且跨域竞争力强,生成式 VLM 跨域最鲁棒但存在幻觉和格式失败。


AI Misuse in Education Is a Measurement Problem: Toward a Learning Visibility Framework

🛡️ AI安全

将教育中的 AI 滥用从"检测问题"重新定义为"测量/可见性问题"——提出学习可见性框架(Learning Visibility Framework),强调过程透明而非对抗检测,三个核心原则:明确 AI 使用规范、重视学习过程作为评估证据、建立透明的学习活动时间线。


AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

🧩 多模态/VLM

提出 AQuA 数据集,将视觉问答中的歧义分为 4 个层级(无歧义/可推断/多解/需澄清),训练 VLM 根据歧义程度自适应选择回答策略——SFT + GRPO 微调后的 3B 模型超越 GPT-5 和 Gemini 2.5 Flash。


AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

🤖 机器人

提出 AtomicVLA,统一任务规划与动作执行的端到端框架——VLM 自适应切换 Thinking(生成任务链+原子技能抽象)和 Acting(SG-MoE 动态路由到对应技能专家生成动作)模式,通过模块化技能库支持新技能持续学习无灾难性遗忘,在 LIBERO-LONG 上超越 π₀ 10%,真实 Franka 上持续学习提升 21%。


Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

📄 NLP / 语音合成

为克什米尔语构建首个开源神经 TTS 系统——基于 OT-CFM(最优传输条件流匹配)的跨语言适配策略 + 三阶段声学增强管线,MOS 从多语言基线的 1.86 提升至 3.63。


C²-Explorer: Contiguity-Driven Task Allocation with Connectivity-Aware Task Representation for Decentralized Multi-UAV Exploration

🤖 机器人

提出 C²-Explorer,去中心化多无人机探索框架——用连通性图(CCL 分割空间为独立任务单元)替代拓扑无关的均匀网格分解,并将任务分配建模为带图邻接连续性惩罚的 CVRP 问题,在 3 个场景中平均探索时间降低 43.1%、路径长度降低 33.3%(vs RACER/FAME),并在真实无人机上验证可行性。


Constraints Matrix Diffusion based Generative Neural Solver for Vehicle Routing Problems

🎨 图像生成

用图扩散模型生成约束矩阵作为拓扑先验掩码,融入自回归 VRP 求解器——通过局部/全局双指针解码器缓解全连接注意力的过平滑问题,在 CVRPlib 378 种组合配置上达到 SOTA。


Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

🧊 3D视觉/运动捕捉

提出 MMDM(Masked Motion Diffusion Model),将掩码自编码器与扩散模型融合——通过 Kinematic Attention Aggregation(KAA)机制高效融合关节级和姿态级表示,同一架构通过学习上下文自适应的运动先验适配运动补全/精炼/插帧三种任务,在 Shelf 数据集达 98.5% PCP,Campus 达 97.6% PCP。


DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding

🧩 多模态/VLM

提出 DocCogito,无 OCR 的文档理解框架——轻量 Layout Tower 将版面结构蒸馏为可学习的全局 [LAYOUT] token,同时用 Visual-Semantic Chain(VSC)把推理分解为 5 种原子操作的确定性结构化链,通过渐进式四阶段训练(Layout 预训练→VSC 冷启动→拒绝采样 SFT→GRPO+区域置信度奖励),在 DocVQA/InfoVQA/TextVQA/OCRBench 四个 benchmark 达 SOTA。


DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

🧊 3D视觉

提出 DogWeave,从单张 RGB 图像重建高保真 3D 犬类模型——三阶段流程:BITE 粗网格初始化 → SDF+多视图法线融合精炼几何 → 条件 inpainting 生成纹理,仅用 ~7K 2D 图像训练无需 3D 监督,FID 优于 Hunyuan3D 约 9%。


Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

🧊 3D视觉

提出 Holi-Spatial,首个全自动从原始视频生成大规模 3D 空间标注的 pipeline——三阶段流程(几何优化→图像级感知→场景级精炼)构建 Holi-Spatial-4M 数据集(12K 场景、320K 3D 框、1.2M 空间 QA),用于微调 VLM 提升空间推理能力,在 ScanNet++ 上 3D grounding AP50 提升 15%。


InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills

🤖 机器人/具身智能

提出 InterReal,基于物理仿真的统一人-物交互(HOI)模仿学习框架——通过 HOI 运动增广(IK 保持手-物接触下偏移物体位置)和双循环自动奖励学习(外循环 SAC meta-policy 基于跟踪误差梯度动态调节内循环 PPO 的多维奖励权重),在 Unitree G1 上搬箱/推箱任务成功率达 96.41%/87.45%,大幅超越 InterMimic(84.72%/79.10%)。


Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to RAG

🧠 LLM推理

构建魁北克保险领域的 807 道选择题金标准基准 AEPC-QA(来自纸质非公开认证手册,无数据污染风险),系统评估 51 个 LLM 在闭卷和 RAG 范式下的表现——发现推理时计算(o3 达 78.68%)最强、RAG 对弱模型是"知识均衡器"(DeepSeek-reasoner +35pp)但对强模型可能导致"上下文干扰"灾难(Gemini-2.5-Pro -60pp)、领域特化小模型不如通用大模型("专业化悖论")。


Scalable Training of Mixture-of-Experts Models with Megatron Core

⚡ LLM效率

NVIDIA 的 Megatron-Core MoE 训练系统技术报告——系统性解决 MoE 训练的三面墙(内存墙/通信墙/计算效率墙),通过 Parallel Folding(解耦注意力和 MoE 层的并行配置)、Flex 通信后端(DeepEP/HybridEP)、细粒度激活重算+FP8/FP4 量化、Grouped GEMM+CUDA Graphs,在 GB300 上 DeepSeek-V3-685B 达 1,233 TFLOPS/GPU,Qwen3-235B 达 974 TFLOPS/GPU。


QdaVPR: A novel query-based domain-agnostic model for visual place recognition

🎨 图像生成

提出 QdaVPR,基于 Bag-of-Queries 框架的域无关视觉地点识别——双层对抗学习(query 特征级+图像特征级)+ query 组合三元组监督,在 Nordland/Tokyo24-7 等跨域基准上达 SOTA,推理时无额外开销。


SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

📄 数据管理/信息检索

构建 SeDa 统一数据集发现系统——整合 200+ 平台的 760 万+ 数据集,通过 LLM 辅助的模式推断和元数据归一化、图结构主题标注(D2T/D2D2T/T2T 三路径召回+LLM 语义合并)、站点级分层采样死链监测、和多实体(站点/机构/企业)增强导航,在覆盖率、时效性和可追溯性上超越 Google Dataset Search 和 ChatPD。


Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

🧩 多模态/VLM

提出 Self-Critical Inference(SCI)框架,通过多轮文本和视觉反事实推理统一解决 LVLM 的语言偏差和语言敏感性问题,同时提出模型自适应的 DRBench 动态鲁棒性评估基准,证明增加反事实推理轮数可持续提升鲁棒性。


SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

🎬 视频理解

提出 SiamGM,从空间几何和时间运动两个维度改进卫星视频跟踪——空间上用帧间图注意力(IFGA)建立细粒度拓扑对应 + 长宽比约束标签分配(LA),时间上用 nPSR 置信度驱动的在线运动模型修正(OMMR),在 SatSOT 上精度领先 4.5%,同时保持 130 FPS 实时速度。


TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

🎨 图像生成

提出 TDM-R1,首个支持非可微奖励的少步扩散模型强化学习范式——利用 TDM 确定性轨迹为中间步骤提供无偏奖励估计,通过代理奖励学习 + 生成器优化的解耦机制,仅 4 NFE 即在 GenEval 上从 61% 提升至 92%,超越 GPT-4o(84%)。


VIVECaption: A Split Approach to Caption Quality Improvement

🎨 图像生成

提出 VIVECaption,通过"两侧"策略改善 T2I/T2V 训练数据的图文对齐——Side A 用 CLIP 聚类+HDBSCAN 分层采样构建 310 张金标准数据集,Side B 用 SFT 微调 VLM 的角色检测能力,7B SFT 模型的角色 MacroF1 从 0.66 提升至 0.92。