📅 2026-03-12 精选笔记¶
共 20 篇
Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation¶
🧊 3D视觉 / 机器人操作
提出 Ada3Drift,将扩散策略的迭代精炼从推理时转移到训练时——通过训练时漂移场(吸引预测到专家模式 + 排斥模式平均)+ sigmoid 调度 + 多温度聚合,实现 1 NFE 单步 3D 视觉运动策略,在 Adroit/Meta-World/RoboTwin 和真机上达到 SOTA 且比扩散策略快 10×。
DocSage: An Information Structuring Agent for Multi-Doc Multi-Entity Question Answering¶
🦾 LLM Agent / 多文档QA
提出 DocSage,一个面向多文档多实体问答(MDMEQA)的端到端 Agent 框架——通过动态 Schema 发现(ASK 算法交互式推断查询特定的最小可连接模式)→ 逻辑感知的结构化抽取(CLEAR 机制跨记录逻辑一致性校验)→ Schema 引导的关系推理(SQL 驱动的精确事实定位和多跳推理),在两个 MDMEQA benchmark 上超越 SOTA 长上下文 LLM 和 RAG 系统 27%+。
DVD: Deterministic Video Depth Estimation with Generative Priors¶
🧊 3D视觉 / 深度估计
提出 DVD:把原本随机采样的视频扩散模型改造为确定性单步深度回归器,在保留生成式几何先验的同时显式抑制随机漂移,达到零样本 SOTA,并将任务特定数据需求降到主流方案的 1/163。
DyWeight: Dynamic Gradient Weighting for Few-Step Diffusion Sampling¶
🎨 图像生成 / 扩散模型加速
提出 DyWeight,一种基于学习的多步 ODE 求解器,通过放松经典数值约束(∑w≠1)实现动态梯度加权 + 隐式时间校准(time shifting & scaling),将梯度聚合与步长调节隐式耦合,仅需末端监督即可单轮优化——CIFAR-10 上 5 NFE 达到 3.02 FID(iPNDM: 7.77, S4S-Alt: 3.73),FLUX.1-dev 上全面超越 DPM-Solver++ 和 iPNDM。
Controllable Egocentric Video Generation via Occlusion-Aware Sparse 3D Hand Joints¶
🎬 视频理解 / 第一人称视频生成
提出一种以稀疏 3D 手部关节为控制信号的第一人称视频生成框架,通过遮挡感知的源特征提取(惩罚被遮挡关节的不可靠信号)+ 3D 深度加权的目标帧特征传播 + 3D 几何嵌入注入,在严重遮挡下实现高保真手部控制,并天然支持跨具身(人手→机械手)泛化。
EndoCoT: Scaling Endogenous Chain-of-Thought Reasoning in Diffusion Models¶
🎨 图像生成 / 扩散模型推理
提出 EndoCoT,通过在 MLLM 中迭代精炼隐式思维状态并桥接到 DiT 去噪过程,实现扩散模型内生的链式思维推理,在 Maze/TSP/Sudoku/VSP 四个视觉推理 benchmark 上平均 92.1% 准确率,超越最强基线 DiffThinker 8.3 个百分点。
Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks¶
📄 MLLM 可信推理 / 零样本验证
提出双通道框架:把黑箱 MLLM 当作隐式逻辑通道(ILC),再并联一个“LLM+VFM+逻辑推理”的显式逻辑通道(ELC),用一致率 CR 在无标注场景下评估模型可靠性,并通过对齐融合进一步提升零样本任务性能。
GRADE: Benchmarking Discipline-Informed Reasoning in Image Editing¶
🎨 图像生成 / Benchmark
提出 GRADE,首个面向学科知识推理的图像编辑 benchmark,涵盖 10 个学科 520 个样本,通过学科推理/视觉一致性/逻辑可读性三维评估协议揭示当前 20 个 SOTA 模型在知识密集型编辑场景下的显著不足。
HomeSafe-Bench: Evaluating VLMs on Unsafe Action Detection for Household Embodied Agents¶
🎬 视频理解 / 具身安全
提出 HomeSafe-Bench,首个面向家庭场景具身智能体的不安全动作检测 benchmark,包含 438 个跨 6 个功能区域的案例,并提出 HD-Guard 层级双脑架构(轻量 FastBrain 高频筛 + 异步 SlowBrain 深度推理)实现实时安全监控。
Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding¶
🎬 视频理解 / 知识蒸馏
提出 R-MSD(Reliable Multi-Sample Distillation),针对视频 LVLM 蒸馏中教师采样方差导致的监督噪声问题,通过多样本质量感知信号匹配 + 在线 critic 对抗蒸馏,4B 学生在 VideoMME +1.5%、Video-MMMU +3.2%、MathVerse +3.6%。
MV-SAM3D: Adaptive Multi-View Fusion for Layout-Aware 3D Generation¶
🧊 3D视觉 / 3D生成
提出 MV-SAM3D,一个免训练的多视角一致 3D 生成框架——通过 Multi-Diffusion 融合多视角速度预测(注意力熵加权估计观察置信度 + DDA 光线追踪几何可见性加权)+ 物理感知优化(生成中布局注入 + 后处理姿态优化),在 GSO-30 上 2 视角 CD 20.2(EscherNet: 21.5),5 视角 17.3。
One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies¶
🎨 图像生成 / 机器人策略
提出 One-Step Flow Policy (OFP),通过从零开始的自蒸馏框架(自一致性 loss + 自引导正则化 + warm-start),无需预训练教师即可实现单步动作生成——在 56 个仿真操作任务上 1-NFE 平均成功率 71.6%,超越 100 步 DP3 基线(66.4%),推理仅需 17.58 ms(加速 183×)。
OSCBench: Benchmarking Object State Change in Text-to-Video Generation¶
🎬 视频理解 / T2V Benchmark
提出 OSCBench,首个专门评估 T2V 生成中物体状态变化(Object State Change)的 benchmark,包含 1,120 个提示覆盖 140 个烹饪场景(常规/新颖/组合),通过 CoT 四维评估揭示即使 Veo-3.1-Fast 在 OSC 准确性上也仅 0.740,开源模型 Open-Sora-2.0 更低至 0.512。
SoulX-LiveAct: Towards Hour-Scale Real-Time Human Animation with Neighbor Forcing and ConvKV Memory¶
🎨 图像生成 / 人物动画
提出 SoulX-LiveAct,通过 Neighbor Forcing(传播同一扩散步的邻近帧 latent 而非跨步状态)解决 AR 扩散的训练-推理分布不匹配问题,配合 ConvKV Memory(1D 卷积压缩 KV cache)实现恒定内存的小时级视频生成,在 2×H100 上以 20 FPS 实时生成 720×416 人物动画。
Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously¶
🎬 视频理解 / 流式推理
提出 Video Streaming Thinking (VST),让 VideoLLM 在视频播放过程中主动交错生成 CoT 推理(而非等到查询后再推理),通过双记忆系统(短期视觉+长期文本语义)+ 两阶段后训练(SFT+RL)+ 知识图谱数据合成,在 StreamingBench 上达到 79.5%(超越 GPT-4o 6.2%),比 Video-R1 快 15.7 倍。
VisDoT: Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought¶
📄 多模态VLM / 图表推理
提出 VisDoT 框架,基于图形感知理论定义四类感知任务(Position/Length/Pattern/Extract),引入分解思维(DoT)提示将复杂视觉问题拆分为感知子问题→逻辑子问题的链式推理,微调 InternVL 在 ChartQA 上提升 11.2%,超越 GPT-4o,且零样本迁移到开放域 VQA 也有效。
VQQA: An Agentic Approach for Video Evaluation and Quality Improvement¶
🎬 视频理解 / 视频生成评估
提出 VQQA,一个多 Agent 视频评估与质量改进框架——通过三个 Agent(问题生成→视频问答→提示优化)构建闭环,将 VLM 的评估反馈作为"语义梯度"驱动 prompt 迭代优化,无需模型微调,在 T2V-CompBench 上对 CogVideoX-5B 提升 +11.57%(41.89%→53.46%),VBench2 上 +8.43%(41.98%→50.41%)。
Wasserstein Gradient Flows for Batch Bayesian Optimal Experimental Design¶
📄 贝叶斯优化 / 实验设计
将批量 BOED 问题提升到概率测度空间,通过熵正则化得到唯一 Gibbs 分布最小化器,推导 mean-field 和 i.i.d. 乘积族的 Wasserstein 梯度流,并用粒子时空离散化 + 双随机蒙特卡洛变体实现可扩展求解。
WAT: Online Video Understanding Needs Watching Before Thinking¶
🎬 视频理解 / 在线视频
提出 WAT(Watching Before Thinking),将在线视频理解解耦为查询无关的"观察"阶段(层级记忆:STM 高保真滑窗 + LTM 冗余感知淘汰)和查询触发的"思考"阶段(上下文感知检索 + RACL 对比学习),在 StreamingBench 上达到 77.7%、OVO-Bench 上 55.2%,显著超越现有开源在线 Video LLM。
WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing¶
🎨 图像生成 / 文本编辑
提出 WeEdit,首个面向图像中文字修改/翻译/重排的系统性方案——基于 HTML 的自动数据生成 pipeline 构建 330K 训练对(覆盖 15 种语言)+ 字形引导微调注入空间内容先验 + 多目标强化学习对齐指令遵循/文字清晰度/背景保持,在多语文字编辑上大幅超越现有开源模型。