📅 2026-03-08 精选笔记¶

共 20 篇

AgriPath: A Systematic Exploration of Architectural Trade-offs for Crop Disease Classification ¶

🧩 多模态/VLM

系统对比 CNN（ResNet-50）、对比式 VLM（CLIP/SigLIP）和生成式 VLM（Qwen2.5-VL/SmolVLM）在作物病害分类中的架构权衡——构建 AgriPath-LF16 基准（111K 图像/16 种作物/41 种病害，显式区分实验室和田间图像），发现 CNN 域内最强但跨域崩溃（96.8%→4.5%），对比式 VLM 参数高效且跨域竞争力强，生成式 VLM 跨域最鲁棒但存在幻觉和格式失败。

AI Misuse in Education Is a Measurement Problem: Toward a Learning Visibility Framework ¶

🛡️ AI安全

将教育中的 AI 滥用从"检测问题"重新定义为"测量/可见性问题"——提出学习可见性框架（Learning Visibility Framework），强调过程透明而非对抗检测，三个核心原则：明确 AI 使用规范、重视学习过程作为评估证据、建立透明的学习活动时间线。

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions ¶

🧩 多模态/VLM

提出 AQuA 数据集，将视觉问答中的歧义分为 4 个层级（无歧义/可推断/多解/需澄清），训练 VLM 根据歧义程度自适应选择回答策略——SFT + GRPO 微调后的 3B 模型超越 GPT-5 和 Gemini 2.5 Flash。

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots ¶

🤖 机器人

提出 AtomicVLA，统一任务规划与动作执行的端到端框架——VLM 自适应切换 Thinking（生成任务链+原子技能抽象）和 Acting（SG-MoE 动态路由到对应技能专家生成动作）模式，通过模块化技能库支持新技能持续学习无灾难性遗忘，在 LIBERO-LONG 上超越 π₀ 10%，真实 Franka 上持续学习提升 21%。

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech ¶

📄 NLP / 语音合成

为克什米尔语构建首个开源神经 TTS 系统——基于 OT-CFM（最优传输条件流匹配）的跨语言适配策略 + 三阶段声学增强管线，MOS 从多语言基线的 1.86 提升至 3.63。

C²-Explorer: Contiguity-Driven Task Allocation with Connectivity-Aware Task Representation for Decentralized Multi-UAV Exploration ¶

🤖 机器人

提出 C²-Explorer，去中心化多无人机探索框架——用连通性图（CCL 分割空间为独立任务单元）替代拓扑无关的均匀网格分解，并将任务分配建模为带图邻接连续性惩罚的 CVRP 问题，在 3 个场景中平均探索时间降低 43.1%、路径长度降低 33.3%（vs RACER/FAME），并在真实无人机上验证可行性。

Constraints Matrix Diffusion based Generative Neural Solver for Vehicle Routing Problems ¶

🎨 图像生成

用图扩散模型生成约束矩阵作为拓扑先验掩码，融入自回归 VRP 求解器——通过局部/全局双指针解码器缓解全连接注意力的过平滑问题，在 CVRPlib 378 种组合配置上达到 SOTA。

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation ¶

🧊 3D视觉/运动捕捉

提出 MMDM（Masked Motion Diffusion Model），将掩码自编码器与扩散模型融合——通过 Kinematic Attention Aggregation（KAA）机制高效融合关节级和姿态级表示，同一架构通过学习上下文自适应的运动先验适配运动补全/精炼/插帧三种任务，在 Shelf 数据集达 98.5% PCP，Campus 达 97.6% PCP。

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding ¶

🧩 多模态/VLM

提出 DocCogito，无 OCR 的文档理解框架——轻量 Layout Tower 将版面结构蒸馏为可学习的全局 [LAYOUT] token，同时用 Visual-Semantic Chain（VSC）把推理分解为 5 种原子操作的确定性结构化链，通过渐进式四阶段训练（Layout 预训练→VSC 冷启动→拒绝采样 SFT→GRPO+区域置信度奖励），在 DocVQA/InfoVQA/TextVQA/OCRBench 四个 benchmark 达 SOTA。

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting ¶

🧊 3D视觉

提出 DogWeave，从单张 RGB 图像重建高保真 3D 犬类模型——三阶段流程：BITE 粗网格初始化 → SDF+多视图法线融合精炼几何 → 条件 inpainting 生成纹理，仅用 ~7K 2D 图像训练无需 3D 监督，FID 优于 Hunyuan3D 约 9%。

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence ¶

🧊 3D视觉

提出 Holi-Spatial，首个全自动从原始视频生成大规模 3D 空间标注的 pipeline——三阶段流程（几何优化→图像级感知→场景级精炼）构建 Holi-Spatial-4M 数据集（12K 场景、320K 3D 框、1.2M 空间 QA），用于微调 VLM 提升空间推理能力，在 ScanNet++ 上 3D grounding AP50 提升 15%。

InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills ¶

🤖 机器人/具身智能

提出 InterReal，基于物理仿真的统一人-物交互（HOI）模仿学习框架——通过 HOI 运动增广（IK 保持手-物接触下偏移物体位置）和双循环自动奖励学习（外循环 SAC meta-policy 基于跟踪误差梯度动态调节内循环 PPO 的多维奖励权重），在 Unitree G1 上搬箱/推箱任务成功率达 96.41%/87.45%，大幅超越 InterMimic（84.72%/79.10%）。

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to RAG ¶

🧠 LLM推理

构建魁北克保险领域的 807 道选择题金标准基准 AEPC-QA（来自纸质非公开认证手册，无数据污染风险），系统评估 51 个 LLM 在闭卷和 RAG 范式下的表现——发现推理时计算（o3 达 78.68%）最强、RAG 对弱模型是"知识均衡器"（DeepSeek-reasoner +35pp）但对强模型可能导致"上下文干扰"灾难（Gemini-2.5-Pro -60pp）、领域特化小模型不如通用大模型（"专业化悖论"）。

Scalable Training of Mixture-of-Experts Models with Megatron Core ¶

⚡ LLM效率

NVIDIA 的 Megatron-Core MoE 训练系统技术报告——系统性解决 MoE 训练的三面墙（内存墙/通信墙/计算效率墙），通过 Parallel Folding（解耦注意力和 MoE 层的并行配置）、Flex 通信后端（DeepEP/HybridEP）、细粒度激活重算+FP8/FP4 量化、Grouped GEMM+CUDA Graphs，在 GB300 上 DeepSeek-V3-685B 达 1,233 TFLOPS/GPU，Qwen3-235B 达 974 TFLOPS/GPU。

📅 2026-03-08 精选笔记¶

AgriPath: A Systematic Exploration of Architectural Trade-offs for Crop Disease Classification ¶

AI Misuse in Education Is a Measurement Problem: Toward a Learning Visibility Framework ¶

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions ¶

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots ¶

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech ¶

C²-Explorer: Contiguity-Driven Task Allocation with Connectivity-Aware Task Representation for Decentralized Multi-UAV Exploration ¶

Constraints Matrix Diffusion based Generative Neural Solver for Vehicle Routing Problems ¶

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation ¶

DocCogito: Aligning Layout Cognition and Step-Level Grounded Reasoning for Document Understanding ¶

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting ¶

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence ¶

InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills ¶

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to RAG ¶

Scalable Training of Mixture-of-Experts Models with Megatron Core ¶

QdaVPR: A novel query-based domain-agnostic model for visual place recognition ¶

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration ¶

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework ¶

SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking ¶

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward ¶

VIVECaption: A Split Approach to Caption Quality Improvement ¶