跳转至

Embodied Representation Alignment with Mirror Neurons

会议: ICCV 2025
arXiv: 2509.21136
代码: 无
领域: 机器人学 / 具身智能
关键词: mirror neurons, representation alignment, embodied execution, action understanding, contrastive learning

一句话总结

本文受镜像神经元启发,通过对比学习将动作理解(观察他人行为)和具身执行(自主执行动作)的中间表征对齐到共享潜在空间,发现两类模型的表征存在自发对齐现象且与任务成功率相关,显式对齐后在动作识别(+3.3%)和机器人操作(+3.5%)上均获提升。

研究背景与动机

  • 领域现状:神经科学发现镜像神经元在观察和执行相同动作时都会激活,揭示了动作理解与动作执行之间的内在联系
  • 现有痛点:当前机器学习方法将动作理解(如视频动作识别)和具身执行(如机器人操作)视为独立任务分别训练,忽略了两者的互补性
  • 核心矛盾:生物系统中两种能力通过共享表征相互增强(具身认知理论),而ML模型的独立训练导致表征缺乏泛化性和完整性
  • 本文要解决的问题:能否像生物镜像神经元那样,让观察和执行的神经表征显式对齐以实现互利
  • 切入角度:从表征学习的统一视角建模两种能力,先探测(probe)自发对齐现象,再显式促进对齐
  • 核心idea:用两个线性层将两类模型的表征映射到共享空间,InfoNCE对比损失强制对齐对应动作的表征

方法详解

整体框架

联合训练动作理解模型 \(\mathcal{U}\)(ViCLIP视频编码器)和具身执行模型 \(\mathcal{E}\)(ARP机器人策略网络),在各自原始任务损失之上,额外引入对齐损失。两个线性层分别将中间表征映射到共享潜在空间 \(\mathbb{Z} \subset \mathbb{R}^{1024}\),通过双向InfoNCE对比学习进行对齐。

关键设计

  1. 表征对齐探测(Alignment Probing):

    • 功能:在不修改原始模型的情况下,训练两个线性变换探测已有模型表征的对齐程度
    • 核心思路:冻结预训练的 \(\mathcal{U}\)\(\mathcal{E}\),仅训练 \(\mathcal{T}_u\)\(\mathcal{T}_e\) 最小化双向InfoNCE损失,用Recall@1衡量对齐度
    • 设计动机:验证两个核心假设——(1)独立训练的模型是否自发产生表征对齐;(2)对齐程度与任务成功率是否相关
  2. 镜像神经元对齐模块(Mirror Neuron Alignment):

    • 功能:在联合训练中显式对齐两个模型的中间表征
    • 核心思路:总损失 \(\mathcal{L}_{\text{final}} = \mathcal{L}_{\text{AU}} + \lambda_{\text{EE}} \mathcal{L}_{\text{EE}} + \lambda_{\text{align}} \mathcal{L}_{\text{align}}\),其中对齐损失为双向InfoNCE:\(\mathcal{L}_{\text{align}} = -\frac{1}{2B}\sum_{i=1}^{B}[\log\frac{\exp(\text{sim}(\mathbf{z}_u^{(i)}, \mathbf{z}_e^{(i)})/\tau)}{\sum_j \exp(\text{sim}(\mathbf{z}_u^{(i)}, \mathbf{z}_e^{(j)})/\tau)} + \text{对称项}]\)
    • 设计动机:从信息论角度,等价于最大化动作理解表征 \(\mathbf{u}\) 与具身执行表征 \(\mathbf{e}\) 的互信息下界
  3. 正样本构建策略:

    • 功能:定义哪些观察-执行配对应成为对比学习的正样本
    • 核心思路:探索三种粒度——按Episode(同一轨迹)、按Instruction(相同指令但不同场景)、按Task(同类任务)
    • 设计动机:按Instruction是最佳平衡点,既保持语义一致性又引入变化,避免过于严格或宽松的对齐

损失函数 / 训练策略

  • 动作理解:视频-文本对比学习(ViCLIP的原始目标)
  • 具身执行:下一步动作预测(ARP的原始目标)
  • 对齐损失权重 \(\lambda_{\text{align}} = 0.5\)\(\lambda_{\text{EE}} = 1\)
  • 温度参数 \(\tau = 0.1\)
  • 对齐层学习率 \(1 \times 10^{-4}\)

实验关键数据

主实验

任务 指标 本文(MN) 基线 提升
动作识别(18任务平均) Accuracy 74.9% 71.6% (ViCLIP finetune) +3.3%
机器人操作(18任务平均) Success Rate 88.8% 85.3% (ARP) +3.5%
Sort Shape Success Rate 72.0% 56.0% +16.0%
Stack Cup Success Rate 93.3% 82.7% +10.6%
Sweep Dust Success Rate 80.0% 69.3% +10.7%

消融实验

配置 动作理解Acc 具身执行SR 说明
By Episode, τ=0.1 72.9 88.1 同轨迹配对
By Instruction, τ=0.1(默认) 74.9 88.8 同指令配对,最优
By Class, τ=0.1 71.6 85.7 同类别配对,过于宽松
By Instruction, τ=0.02 74.9 86.7 低温度,对齐过严
By Instruction, τ=0.2 77.1 87.0 高温度,AU更好但EE下降

关键发现

  • 独立训练的模型存在自发表征对齐(仅用线性变换+对比学习即可达60%+检索准确率)
  • 任务成功子集的对齐度显著高于失败子集,暗示对齐与质量正相关
  • 显式对齐对需要精细操作推理的任务(Sort Shape, Stack Cup)提升最大
  • t-SNE可视化显示MN方法不仅促进跨模型对齐,还增强了细粒度指令的可区分性

亮点与洞察

  • 生物启发但落地简洁:镜像神经元的生物机制被优雅地简化为"两个线性层+对比损失"
  • 从探测到应用的研究范式值得学习:先probe验证假设,再设计方法,因果链完整
  • 发现了表征对齐与任务成功率的正相关关系,为"为什么对齐有用"提供了实验证据
  • 与Platonic Representation Hypothesis的联系——不同目标训练的模型趋向于共享现实的统计模型

局限与展望

  • 动作理解和具身执行的数据来自同一模拟环境(RLBench),真实世界的模态差异会更大
  • 仅使用线性变换进行对齐,非线性变换可能捕获更复杂的跨模态关系
  • 对齐需要共享语义标签(语言指令)来构建正样本对,无标签场景下的对齐策略未探索
  • 对齐粒度的探索局限于三种策略,可考虑层次化对齐(从粗到细)
  • 未探索多感官输入(触觉、听觉)对表征对齐的影响,生物镜像神经元系统是多模态的
  • 训练需要同时拥有两个模型的数据,实际部署中数据配对可能困难

相关工作与启发

  • 镜像神经元:该生物机制被首次系统性地引入到具身AI的表征学习中
  • ViCLIP:视频-文本基础模型,在微调后作为动作理解的骨干
  • ARP:自回归策略网络,结合MVT处理多视角输入
  • Platonic Representation Hypothesis:不同模态/任务的模型趋向共享表征的理论支撑
  • 启发:任何两个处理相同底层现实的模型都可能通过表征对齐相互增强,这一范式可推广到更多任务

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 镜像神经元视角切入具身智能,探测-应用的研究范式独特
  • 实验充分度: ⭐⭐⭐⭐ 18个操作任务+动作识别评估+消融+表征可视化,但仅在模拟环境验证
  • 写作质量: ⭐⭐⭐⭐⭐ 从神经科学到方法设计的叙事流畅,图表设计精美
  • 价值: ⭐⭐⭐⭐ 提出了连接感知和行动的统一表征学习范式,对具身AI领域有启发意义

相关论文