📅 2026-03-10 精选笔记¶

共 20 篇

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation ¶

🎨 图像生成 / 视频生成

将物理现象建模为因果关联的事件序列——通过物理公式驱动的事件链推理（PECR）分解物理过程为可控阶段，配合转移感知跨模态提示（TCP）模块逐步生成语义+视觉提示，使扩散模型能生成涵盖逐步物理演变过程的物理合理视频。

Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT ¶

🧩 多模态/VLM / 数据选择

提出 CVS（Conditional Verdict Shift），一种无需训练的 VLM 数据选择方法——利用冻结 VLLM 作为评估器，比较加入问题前后模型对答案有效性判断的变化，筛选真正需要视觉-语言联合推理的样本。在 Vision-Flan 上仅用 10%/15% 数据超越全量训练 3.5%/4.8%。

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency ¶

🤖 机器人 / 跨视角适应

首次探索测试时自我-异我视角适应用于动作预测（TE2A3 任务）——提出 DCPGN 框架，通过多标签原型增长模块（ML-PGM，Top-K 伪标签 + 置信度加权 + 熵优先队列更新记忆库）和双线索一致性模块（DCCM，视觉线索→空间对象 + 文本线索→时序动作进展 + KL 散度约束一致性），在 EgoMe-anti 和 EgoExoLearn 基准上大幅超越现有 TTA 方法。

Ego: Embedding-Guided Personalization of Vision-Language Models ¶

🧩 多模态/VLM / 个性化

提出 Ego，一种无需训练的 VLM 个性化方法——利用模型自身的注意力机制从参考图像中提取最具代表性的视觉 token 子集作为概念记忆，推理时通过 in-context 软提示使模型识别和推理个性化概念。在单/多概念、视频个性化场景中均达到 SOTA，且仅需 1.4 秒完成概念引入。

EvoPrompt: Evolving Prompt Adaptation for Vision-Language Models ¶

🧩 多模态/VLM / 提示学习

提出 EvoPrompt，通过"演化轨迹感知"的提示学习范式来防止适配时的灾难性遗忘——核心设计包括：模态共享提示投射器（MPP，统一嵌入空间→层级提示）、增量幅度-方向解耦（冻结早期学到的语义方向，仅训练幅度系数）、特征几何正则化（FGR，强制特征去相关防止表示坍塌）。在 11 个数据集的 base-to-novel 泛化、跨数据集迁移、域泛化和少样本学习中达到 SOTA。

EXPLORE-Bench: Egocentric Scene Prediction with Long-Horizon Reasoning ¶

🤖 机器人 / 具身智能

提出 EXPLORE-Bench 基准——给定初始场景图像和一系列原子动作描述（平均 113 步），要求 MLLM 预测所有动作执行后的最终场景状态。包含 1,157 个实例，在物体/属性/关系三层级做细粒度评估。实验揭示 GPT-5.2、Gemini-3 等 MLLM 与人类差距显著。

FrameDiT: Diffusion Transformer with Frame-Level Matrix Attention for Efficient Video Generation ¶

🎨 图像生成 / 视频生成

提出帧级矩阵注意力机制——将每帧表示为矩阵而非展平 token 序列，通过 Frobenius 内积计算帧间相似度进行时间建模，实现全 3D 注意力的表达能力与局部注意力的计算效率平衡，在多个视频生成基准上达到 SOTA。

InfiniteDance: Scalable 3D Dance Generation Towards in-the-wild Generalization ¶

🎨 图像生成 / 3D动作生成

提出 InfiniteDance 框架，从数据和模型两端同时 scale up 3D 舞蹈生成：(1) 自动化管线从单目视频重建 100.69 小时高质量 3D 舞蹈数据集（含 30 种舞种），核心是 Foot Restoration Diffusion Model 修复脚部伪影；(2) ChoreoLLaMA 基于 LLaMA 架构 + RAG 检索增强 + Cadence-MoE 节奏专家混合，实现对野外音乐的泛化舞蹈生成。

IntroSVG: Introspective Generator-Critic Framework for Text-to-SVG Generation ¶

🎨 多模态/VLM / 图像生成

提出 IntroSVG，用统一 VLM 同时担任"生成器"和"评审者"，通过 SFT 学会生成 SVG 和评估渲染结果 → DPO 对齐偏好 → 推理时执行"生成-评审-修正"迭代循环，实现高质量 Text-to-SVG 生成。在 FID 和美学评分上超越 GPT-5/Gemini 2.5 Pro 等闭源模型。

Kinodynamic Motion Retargeting for Humanoid Locomotion via Multi-Contact Whole-Body Trajectory Optimization ¶

🤖 机器人 / 运动规划

提出 KDMR（KinoDynamic Motion Retargeting）框架——将人类运动重定向形式化为多接触整体轨迹优化问题，集成地面反作用力（GRF）约束，通过运动学优化→动力学优化两阶段消除脚滑/穿地等物理不一致性，显著提升下游模仿学习的样本效率。

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning ¶

🧠 LLM推理 / 多智能体

提出 Latent-DARM——首个在隐空间（而非文本空间）桥接离散扩散语言模型（DDLM，作为规划者）和自回归模型（ARM，作为执行者）的多智能体协作框架。通过训练 Linear-GELU-Linear 投影器将 DDLM 最后隐层特征映射到 ARM 嵌入空间，让 DDLM 的全局推理能力和 ARM 的顺序流畅性互补，在 DART-5 上从 27% 提升到 36%，在 AIME 2024 上从 0% 提升到 14%，且仅使用 DeepSeek-R1 2.2% 的 token 预算。

LLM-MRD: LLM-Guided Multi-View Reasoning Distillation for Fake News Detection ¶

📄 多模态 / 假新闻检测

提出 LLM-MRD：让 Qwen2.5-VL 教师分别从文本、图像、跨模态三视角生成推理链，再通过“校准蒸馏”把推理能力迁移给轻量学生模型，在 Weibo/Weibo21/GossipCop 上显著超过现有多模态方法。

🎬 视频理解 / 多模态跟踪

提出 MDTrack，通过 MoE（Mixture of Experts）实现模态感知融合（为 IR/Event/Depth/RGB 分配专用专家）+ 双 SSM（State Space Model）实现解耦时序传播（RGB 和 X 模态各自独立更新隐状态），在 5 个多模态跟踪基准上达到 SOTA。

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning ¶

🧩 多模态/VLM / 信息抽取

首次将 LVLM 成功应用于多模态对象-实体关系抽取（MORE）任务——通过两阶段训练（GPT-4o 生成推理链 SFT 冷启动 → GRPO 强化学习 + 渐进样本混合策略），让 Qwen2.5-VL-7B 学会 6 步结构化推理来抽取跨模态关系，F1 Score 达到 67.80%，超越前 SOTA REMOTE 6.1%。