跳转至

🤖 机器人/具身智能

🔬 ICLR2026 · 共 26

All-day Multi-scenes Lifelong Vision-and-Language Navigation with Tucker Adaptation

提出Tucker Adaptation (TuKA),将多场景多环境的多层级导航知识表示为高阶张量,用Tucker分解解耦为共享子空间(核心张量+编解码器)和场景/环境专家向量,配合解耦知识增量学习策略实现全天候多场景终身VLN,在24个导航场景上的SR和遗忘率均优于LoRA变体。

Attribution-Guided Decoding

提出 Attribution-Guided Decoding (AGD),在解码时利用归因方法(LRP)对候选 token 计算其对"感兴趣区域"(ROI) 的依赖分数,选择归因最高的 token,从而在不修改模型内部激活的前提下提升指令遵循和事实准确性。

Building Spatial World Models from Sparse Transitional Episodic Memories

提出 Episodic Spatial World Model (ESWM),从稀疏、不连续的情景记忆(one-step transitions)中构建空间世界模型,其潜空间自发涌现出与环境拓扑对齐的认知地图,并支持零样本探索和导航。

Capability-Based Scaling Trends for LLM-Based Red-Teaming

在 600+ 对攻击者-目标 LLM 组合上系统评估了 4 种越狱方法,发现攻击成功率(ASR)与攻击者-目标的能力差距遵循 sigmoid 缩放定律(R^2=0.83),能力差距可用 MMLU-Pro 的 logit 变换量化。

CLIP Behaves like a Bag-of-Words Model Cross-modally but not Uni-modally

通过线性探测实验证明 CLIP 的 BoW(词袋)行为并非源于编码器缺乏绑定信息,而是跨模态对齐的失败;提出 LABCLIP,仅训练一个轻量线性变换即可显著恢复属性-对象绑定能力。

Constructive Distortion: Improving MLLMs with Attention-Guided Image Warping

提出 AttWarp,一种即插即用的测试时图像变形方法,利用 MLLM 自身的跨模态注意力图进行矩形网格重采样,

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

提出 D2E 框架,证明桌面游戏交互数据可作为具身 AI 的有效预训练基底:通过 OWA 工具包收集 335h 人类演示 + Generalist-IDM 伪标注 1000+h YouTube 游戏视频 + VAPT 迁移训练,1B 参数模型在 LIBERO 操作达 96.6%、CANVAS 导航达 83.3%,匹敌或超越 7x 更大的模型。

Domain Expansion: A Latent Space Construction Framework for Multi-Task Learning

提出 Domain Expansion 框架,通过正交池化(Orthogonal Pooling)将潜在空间重构为互相正交的子空间,从结构上防止多目标训练中的梯度冲突与表征崩塌,实现可解释、可组合的概念代数。

Doubly-Robust LLM-as-a-Judge: Externally Valid Estimation with Imperfect Personas

提出一种 doubly-robust 估计框架,将不完美的 LLM persona 评分与存在采样偏差的人工评分相结合,在协变量偏移和选择偏差同时存在时仍能产生统计有效的 GenAI 系统质量估计。

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

提出 Directer(Dynamic Rejection Steering),通过在每个解码步动态调节 KV 缓存引导强度并引入合理性约束,显著提升 LLM 指令遵循能力,同时避免过度引导导致的文本质量下降。

Evaluating VLMs' Spatial Reasoning Over Robot Motion: A Step Towards Robot Planning with Motion Preferences

系统评估了 VLM 对机器人运动路径的空间推理能力,提出 4 种图像查询方法用于让 VLM 根据用户自然语言描述选择最佳运动路径,发现 Qwen2.5-VL 零样本准确率达 71.4%,且微调后小模型可获显著提升。

ExoPredicator: Learning Abstract Models of Dynamic Worlds for Robot Planning

提出 ExoPredicator 框架,联合学习符号化状态抽象和因果过程(含内生动作与外生机制),通过变分贝叶斯推断 + LLM 提议从少量轨迹中学习带随机延迟的因果世界模型,在 5 个桌面机器人环境中实现快速泛化规划。

Experience-based Knowledge Correction for Robust Planning in Minecraft

证明 LLM 无法通过 prompting 自我纠正其错误的规划先验知识(物品依赖关系),提出 XENON——通过算法化的知识管理(自适应依赖图 ADG + 失败感知动作记忆 FAM)从二值反馈中学习,使 7B LLM 在 Minecraft 长期规划中超越使用 GPT-4V + oracle 知识的 SOTA。

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

提出 FALCON(From Spatial to Action),通过将空间基础模型的丰富 3D 空间 token 注入到 Action Head 而非 VLM 主干中,实现了 VLA 模型的强 3D 空间感知,同时保持仅 RGB 到 RGB-D 的灵活模态切换,在仿真和真实世界任务中均达到 SOTA。

Grounding Generative Planners In Verifiable Logic A Hybrid Architecture For Trus

提出 VIRF(Verifiable Iterative Refinement Framework),通过神经-符号混合架构将确定性的逻辑导师(Logic Tutor)与 LLM 规划器结合,以可验证的形式化本体作为安全锚点,在 SafeAgentBench 上实现 0% 危险动作率(HAR)和 77.3% 任务完成率(GCR),证明严格安全保障无需牺牲智能体效用。

Ignore All Previous Instructions: Jailbreaking as a de-escalatory peace building practise to resist LLM social media bots

提出将"越狱"(jailbreaking)LLM 驱动的社交媒体机器人视为一种用户主导的、非暴力的去冲突化(de-escalation)和和平建设实践,通过暴露自动化账号的虚假性来抵抗误导信息传播。

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

受人类左脑语义理解、右脑空间认知的启发,提出 JanusVLN——首个为 VLN 设计的双隐式神经记忆框架,将空间几何记忆和视觉语义记忆分别建模为固定大小的 KV Cache,仅凭 RGB 视频即可实现高效空间推理,在 VLN-CE 基准上取得 SOTA。

JULI: Jailbreak Large Language Models by Self-Introspection

揭示对齐 LLM 的 top-k token log probability 中仍包含有害信息,提出 JULI——仅用不到目标模型 1% 参数的 BiasNet 插件操纵 logit bias,在仅访问 top-5 token 概率的 API 场景下成功越狱 Gemini-2.5-Pro(harmfulness 4.19/5),比 SOTA 快 140 倍。

Lets Think In Two Steps Mitigating Agreement Bias In Mllms With Self-Grounded Ve

本文发现多模态大语言模型(MLLM)作为 agent 行为验证器时存在严重的"同意偏差"(agreement bias)——系统性地过度认可 agent 行为,并提出 Self-Grounded Verification(SGV)方法,通过两步生成(先提取行为先验、再条件化验证)缓解该偏差,在 web 导航、桌面操作和机器人操控任务中将失败检测率提升最高 25pp、准确率提升 14pp。

PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra

提出 PERSONA 框架,通过在激活空间中提取近似正交的人格向量并进行向量代数运算(缩放、加法、减法),实现免训练的动态组合式人格控制,在 PersonalityBench 上达到 9.60 分,几乎匹配 SFT 上界 9.61。

RF-MatID: Dataset and Benchmark for Radio Frequency Material Identification

构建了首个开源的大规模、宽频段(4-43.5 GHz)、几何扰动多样的 RF 材料识别数据集 RF-MatID,包含 16 种细粒度材料类别(5 大类)/142K 样本,并建立了覆盖 9 个深度学习模型、5 种频率协议、7 种数据划分的系统基准。

RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks

提出 RoboPARA,一个 LLM 驱动的双臂机器人并行任务规划框架,通过依赖图生成与图重遍历调度两阶段方法,最大化双臂协同并行性,执行时间减少 30%-50%。

Sparse Imagination for Efficient Visual World Model Planning

提出 Sparse Imagination,在基于 ViT patch token 的世界模型规划中随机丢弃 token 以大幅加速推理(50% 丢弃率减少约 50% 时间),同时通过随机分组注意力训练保持任务性能不变。

String Seed Of Thought Prompting Llms For Distribution-Faithful And Diverse Gene

本文提出 String Seed of Thought(SSoT),一种简洁的提示方法,通过指示 LLM 先生成随机字符串再从中提取随机性来选择答案,显著提升了概率指令跟随(PIF)的分布忠实度和开放式任务(DAG)的响应多样性,理论证明了 TV 距离随字符串长度指数衰减,实验表明推理型 LLM 的表现接近伪随机数生成器。

THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning

提出 THOR,通过 TIRGen 数据构建管线 + 层次化强化学习(episode 级+step 级优化)+ 自修正推理机制,系统性解决 LLM 工具集成数学推理中的数据构建、细粒度优化和推理增强三大挑战。

Tracing and Reversing Edits in LLMs

针对知识编辑(Knowledge Editing)的双重使用风险,提出 EditScope 方法从编辑后的权重中推断被编辑的目标实体(准确率高达 99%),以及基于 SVD bottom-rank 近似的无训练编辑逆转方法(逆转率高达 94%),仅依赖编辑后的权重、不需要编辑 prompt 或原始权重信息。