📅 2026-03-03 精选笔记¶

共 20 篇

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation ¶

⚡ LLM效率

ACE-Merging 从理论上证明任务的输入协方差可以从微调权重变化中隐式估计，基于此推导出无数据模型合并的闭式解，并通过自适应归一化和谱精修保证鲁棒性，在 GPT-2 上比现有方法提升 4% 平均准确率。

Beyond Language Modeling: An Exploration of Multimodal Pretraining ¶

🧩 多模态/VLM

Meta FAIR 通过从头训练的受控实验系统研究了多模态预训练的设计空间，发现 RAE（表示自编码器）是最优统一视觉表示、视觉和语言数据协同而非竞争、世界建模能力从通用训练涌现、MoE 架构自然调和视觉和语言之间的缩放不对称性。

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation ¶

🎬 视频理解

BrandFusion 首次定义了 T2V 无缝品牌植入任务，提出离线品牌知识库构建 + 在线五智能体协作提示优化框架，在 18 个品牌 × 3 个 T2V 模型上显著超越基线，实现语义保持、品牌可见性和自然融合的三重平衡。

Chain of World: World Model Thinking in Latent Motion ¶

🤖 机器人

CoWVLA 提出"Chain of World"范式，通过视频 VAE 将动态分解为结构和运动潜在表示，在预训练阶段学习推理潜在运动链+预测终帧，在微调阶段对齐离散动作，统一了世界模型的时序推理能力和潜在动作的紧凑性。

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation ¶

🎨 图像生成

CoR-Painter 提出"How-to-What"范式——先推理空间约束和构图规则（How to draw），再生成详细描述（What to draw），配合双目标 GRPO 分别优化文本推理和视觉投影，在 T2I-CompBench 空间关系指标上提升 5.41%。

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education ¶

🗣️ LLM/NLP

EduVQA 构建了首个面向数学教育的 AI 生成视频质量基准 EduAIGV-1k（1130 个视频 ×5 维细粒度标注），并提出基于结构化 2D MoE 的双路径评估框架，在感知质量和提示对齐两个维度上全面超越现有 VQA 基线。

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization ¶

⚖️ LLM对齐

Graph-GRPO 将 Group Relative Policy Optimization 引入多智能体系统的通信拓扑优化，通过组内相对优势估计和边级别信用分配，解决了传统绝对奖励方法在简单任务上的虚假强化和信用分配模糊问题，在 6 个基准上达到 92.45% 平均准确率。

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory ¶

🧊 3D视觉

LoGeR 提出混合记忆架构——参数化 TTT 锚定全局坐标系防止尺度漂移 + 非参数化滑动窗口注意力保持局部对齐精度，在 128 帧训练后可泛化到 19k 帧推理，在 KITTI 上 ATE 降低 74%（72.86→18.65）。

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation ¶

🎬 视频理解

PhyPrompt 用两阶段训练（物理 CoT 微调+动态奖励 GRPO）自动将用户提示重写为物理感知描述，7B 模型在 VideoPhy2 上达到 40.8% 联合成功率，超越 GPT-4o（+3.8%）和 DeepSeek-V3（+2.2%，100 倍参数），且零样本迁移到 4 种不同 T2V 架构。

QFlowNet: Fast, Diverse, and Efficient Unitary Synthesis with Generative Flow Networks ¶

🎨 图像生成

QFlowNet 将量子电路的酉矩阵合成问题重构为通向恒等矩阵的路径查找，用 GFlowNet + Transformer 架构在稀疏奖励下学习多样化合成策略，3-qubit 基准上达 99.7% 成功率且推理效率远超扩散模型。

🤖 机器人

SERP 提出自进化重规划框架，通过局部 ILAD（上下文学习 + 自动微分）实时优化动作模型参数 + 全局 GCOT（图链式思维）压缩场景图做高效语义重规划，实现从"冻结模型"到"进化模型"的范式转变。

SFDE: Spatial and Frequency Domain Enhancement for Cross-View Geo-Localization ¶

📦 模型压缩

SFDE 提出空间-频率域协同增强网络，通过全局语义一致性、局部几何敏感性和频率稳定性对齐三个互补分支的并行学习，在 UAV-卫星跨视角地理定位中以轻量化设计取得竞争力甚至超越 SOTA 的性能。

🤖 机器人

TagaVLM 将拓扑图结构显式注入 VLM 骨干网络，通过交错导航提示（INP）和空间拓扑感知残差注意力（STAR-Att）实现端到端的全局动作推理，0.5B 模型即超越大部分大模型方法，7B 版本在 R2R unseen 上达到 SR 51.09%、SPL 47.18，大幅领先 MapGPT。

📅 2026-03-03 精选笔记¶

ACE-Merging: Data-Free Model Merging with Adaptive Covariance Estimation ¶

Beyond Language Modeling: An Exploration of Multimodal Pretraining ¶

BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation ¶

Chain of World: World Model Thinking in Latent Motion ¶

From "What" to "How": Constrained Reasoning for Autoregressive Image Generation ¶

EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education ¶

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization ¶

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory ¶

PhyPrompt: RL-based Prompt Refinement for Physically Plausible Text-to-Video Generation ¶

QFlowNet: Fast, Diverse, and Efficient Unitary Synthesis with Generative Flow Networks ¶

SERP: Agentic Self-Evolutionary Replanning for Embodied Navigation ¶

SFDE: Spatial and Frequency Domain Enhancement for Cross-View Geo-Localization ¶

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation ¶

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration ¶

Think-as-You-See: Streaming Chain-of-Thought Reasoning for Large Vision-Language Models ¶

TRACE: Task-Adaptive Reasoning and Representation Learning for Universal Multimodal Retrieval ¶

Tucano 2 Cool: Better Open Source LLMs for Portuguese ¶

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation ¶

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?¶

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images ¶