Embodied Representation Alignment with Mirror Neurons¶
会议: ICCV 2025
arXiv: 2509.21136
代码: 无
领域: 机器人学 / 具身智能
关键词: mirror neurons, representation alignment, embodied execution, action understanding, contrastive learning
一句话总结¶
本文受镜像神经元启发,通过对比学习将动作理解(观察他人行为)和具身执行(自主执行动作)的中间表征对齐到共享潜在空间,发现两类模型的表征存在自发对齐现象且与任务成功率相关,显式对齐后在动作识别(+3.3%)和机器人操作(+3.5%)上均获提升。
研究背景与动机¶
- 领域现状:神经科学发现镜像神经元在观察和执行相同动作时都会激活,揭示了动作理解与动作执行之间的内在联系
- 现有痛点:当前机器学习方法将动作理解(如视频动作识别)和具身执行(如机器人操作)视为独立任务分别训练,忽略了两者的互补性
- 核心矛盾:生物系统中两种能力通过共享表征相互增强(具身认知理论),而ML模型的独立训练导致表征缺乏泛化性和完整性
- 本文要解决的问题:能否像生物镜像神经元那样,让观察和执行的神经表征显式对齐以实现互利
- 切入角度:从表征学习的统一视角建模两种能力,先探测(probe)自发对齐现象,再显式促进对齐
- 核心idea:用两个线性层将两类模型的表征映射到共享空间,InfoNCE对比损失强制对齐对应动作的表征
方法详解¶
整体框架¶
联合训练动作理解模型 \(\mathcal{U}\)(ViCLIP视频编码器)和具身执行模型 \(\mathcal{E}\)(ARP机器人策略网络),在各自原始任务损失之上,额外引入对齐损失。两个线性层分别将中间表征映射到共享潜在空间 \(\mathbb{Z} \subset \mathbb{R}^{1024}\),通过双向InfoNCE对比学习进行对齐。
关键设计¶
-
表征对齐探测(Alignment Probing):
- 功能:在不修改原始模型的情况下,训练两个线性变换探测已有模型表征的对齐程度
- 核心思路:冻结预训练的 \(\mathcal{U}\) 和 \(\mathcal{E}\),仅训练 \(\mathcal{T}_u\) 和 \(\mathcal{T}_e\) 最小化双向InfoNCE损失,用Recall@1衡量对齐度
- 设计动机:验证两个核心假设——(1)独立训练的模型是否自发产生表征对齐;(2)对齐程度与任务成功率是否相关
-
镜像神经元对齐模块(Mirror Neuron Alignment):
- 功能:在联合训练中显式对齐两个模型的中间表征
- 核心思路:总损失 \(\mathcal{L}_{\text{final}} = \mathcal{L}_{\text{AU}} + \lambda_{\text{EE}} \mathcal{L}_{\text{EE}} + \lambda_{\text{align}} \mathcal{L}_{\text{align}}\),其中对齐损失为双向InfoNCE:\(\mathcal{L}_{\text{align}} = -\frac{1}{2B}\sum_{i=1}^{B}[\log\frac{\exp(\text{sim}(\mathbf{z}_u^{(i)}, \mathbf{z}_e^{(i)})/\tau)}{\sum_j \exp(\text{sim}(\mathbf{z}_u^{(i)}, \mathbf{z}_e^{(j)})/\tau)} + \text{对称项}]\)
- 设计动机:从信息论角度,等价于最大化动作理解表征 \(\mathbf{u}\) 与具身执行表征 \(\mathbf{e}\) 的互信息下界
-
正样本构建策略:
- 功能:定义哪些观察-执行配对应成为对比学习的正样本
- 核心思路:探索三种粒度——按Episode(同一轨迹)、按Instruction(相同指令但不同场景)、按Task(同类任务)
- 设计动机:按Instruction是最佳平衡点,既保持语义一致性又引入变化,避免过于严格或宽松的对齐
损失函数 / 训练策略¶
- 动作理解:视频-文本对比学习(ViCLIP的原始目标)
- 具身执行:下一步动作预测(ARP的原始目标)
- 对齐损失权重 \(\lambda_{\text{align}} = 0.5\),\(\lambda_{\text{EE}} = 1\)
- 温度参数 \(\tau = 0.1\)
- 对齐层学习率 \(1 \times 10^{-4}\)
实验关键数据¶
主实验¶
| 任务 | 指标 | 本文(MN) | 基线 | 提升 |
|---|---|---|---|---|
| 动作识别(18任务平均) | Accuracy | 74.9% | 71.6% (ViCLIP finetune) | +3.3% |
| 机器人操作(18任务平均) | Success Rate | 88.8% | 85.3% (ARP) | +3.5% |
| Sort Shape | Success Rate | 72.0% | 56.0% | +16.0% |
| Stack Cup | Success Rate | 93.3% | 82.7% | +10.6% |
| Sweep Dust | Success Rate | 80.0% | 69.3% | +10.7% |
消融实验¶
| 配置 | 动作理解Acc | 具身执行SR | 说明 |
|---|---|---|---|
| By Episode, τ=0.1 | 72.9 | 88.1 | 同轨迹配对 |
| By Instruction, τ=0.1(默认) | 74.9 | 88.8 | 同指令配对,最优 |
| By Class, τ=0.1 | 71.6 | 85.7 | 同类别配对,过于宽松 |
| By Instruction, τ=0.02 | 74.9 | 86.7 | 低温度,对齐过严 |
| By Instruction, τ=0.2 | 77.1 | 87.0 | 高温度,AU更好但EE下降 |
关键发现¶
- 独立训练的模型存在自发表征对齐(仅用线性变换+对比学习即可达60%+检索准确率)
- 任务成功子集的对齐度显著高于失败子集,暗示对齐与质量正相关
- 显式对齐对需要精细操作推理的任务(Sort Shape, Stack Cup)提升最大
- t-SNE可视化显示MN方法不仅促进跨模型对齐,还增强了细粒度指令的可区分性
亮点与洞察¶
- 生物启发但落地简洁:镜像神经元的生物机制被优雅地简化为"两个线性层+对比损失"
- 从探测到应用的研究范式值得学习:先probe验证假设,再设计方法,因果链完整
- 发现了表征对齐与任务成功率的正相关关系,为"为什么对齐有用"提供了实验证据
- 与Platonic Representation Hypothesis的联系——不同目标训练的模型趋向于共享现实的统计模型
局限与展望¶
- 动作理解和具身执行的数据来自同一模拟环境(RLBench),真实世界的模态差异会更大
- 仅使用线性变换进行对齐,非线性变换可能捕获更复杂的跨模态关系
- 对齐需要共享语义标签(语言指令)来构建正样本对,无标签场景下的对齐策略未探索
- 对齐粒度的探索局限于三种策略,可考虑层次化对齐(从粗到细)
- 未探索多感官输入(触觉、听觉)对表征对齐的影响,生物镜像神经元系统是多模态的
- 训练需要同时拥有两个模型的数据,实际部署中数据配对可能困难
相关工作与启发¶
- 镜像神经元:该生物机制被首次系统性地引入到具身AI的表征学习中
- ViCLIP:视频-文本基础模型,在微调后作为动作理解的骨干
- ARP:自回归策略网络,结合MVT处理多视角输入
- Platonic Representation Hypothesis:不同模态/任务的模型趋向共享表征的理论支撑
- 启发:任何两个处理相同底层现实的模型都可能通过表征对齐相互增强,这一范式可推广到更多任务
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 镜像神经元视角切入具身智能,探测-应用的研究范式独特
- 实验充分度: ⭐⭐⭐⭐ 18个操作任务+动作识别评估+消融+表征可视化,但仅在模拟环境验证
- 写作质量: ⭐⭐⭐⭐⭐ 从神经科学到方法设计的叙事流畅,图表设计精美
- 价值: ⭐⭐⭐⭐ 提出了连接感知和行动的统一表征学习范式,对具身AI领域有启发意义
相关论文¶
- [AAAI 2026] To Align or Not to Align: Strategic Multimodal Representation Alignment for Optimal Performance
- [ICCV 2025] Rep-MTL: Unleashing the Power of Representation-Level Task Saliency for Multi-Task Learning
- [ICCV 2025] EvolvingGrasp: Evolutionary Grasp Generation via Efficient Preference Alignment
- [CVPR 2025] LaDA: Language-Grounded Decoupled Action Representation for Robotic Manipulation
- [ICCV 2025] TesserAct: Learning 4D Embodied World Models