Embodied Representation Alignment with Mirror Neurons¶

会议: ICCV 2025
arXiv: 2509.21136
代码: 无
领域: 机器人学 / 具身智能
关键词: mirror neurons, representation alignment, embodied execution, action understanding, contrastive learning

一句话总结¶

本文受镜像神经元启发，通过对比学习将动作理解（观察他人行为）和具身执行（自主执行动作）的中间表征对齐到共享潜在空间，发现两类模型的表征存在自发对齐现象且与任务成功率相关，显式对齐后在动作识别（+3.3%）和机器人操作（+3.5%）上均获提升。

研究背景与动机¶

领域现状：神经科学发现镜像神经元在观察和执行相同动作时都会激活，揭示了动作理解与动作执行之间的内在联系
现有痛点：当前机器学习方法将动作理解（如视频动作识别）和具身执行（如机器人操作）视为独立任务分别训练，忽略了两者的互补性
核心矛盾：生物系统中两种能力通过共享表征相互增强（具身认知理论），而ML模型的独立训练导致表征缺乏泛化性和完整性
本文要解决的问题：能否像生物镜像神经元那样，让观察和执行的神经表征显式对齐以实现互利
切入角度：从表征学习的统一视角建模两种能力，先探测（probe）自发对齐现象，再显式促进对齐
核心idea：用两个线性层将两类模型的表征映射到共享空间，InfoNCE对比损失强制对齐对应动作的表征

方法详解¶

整体框架¶

联合训练动作理解模型 \(\mathcal{U}\)（ViCLIP视频编码器）和具身执行模型 \(\mathcal{E}\)（ARP机器人策略网络），在各自原始任务损失之上，额外引入对齐损失。两个线性层分别将中间表征映射到共享潜在空间 \(\mathbb{Z} \subset \mathbb{R}^{1024}\)，通过双向InfoNCE对比学习进行对齐。

关键设计¶

表征对齐探测（Alignment Probing）:
- 功能：在不修改原始模型的情况下，训练两个线性变换探测已有模型表征的对齐程度
- 核心思路：冻结预训练的 \(\mathcal{U}\) 和 \(\mathcal{E}\)，仅训练 \(\mathcal{T}_u\) 和 \(\mathcal{T}_e\) 最小化双向InfoNCE损失，用Recall@1衡量对齐度
- 设计动机：验证两个核心假设——（1）独立训练的模型是否自发产生表征对齐；（2）对齐程度与任务成功率是否相关
镜像神经元对齐模块（Mirror Neuron Alignment）:
- 功能：在联合训练中显式对齐两个模型的中间表征
- 核心思路：总损失 \(\mathcal{L}_{\text{final}} = \mathcal{L}_{\text{AU}} + \lambda_{\text{EE}} \mathcal{L}_{\text{EE}} + \lambda_{\text{align}} \mathcal{L}_{\text{align}}\)，其中对齐损失为双向InfoNCE：\(\mathcal{L}_{\text{align}} = -\frac{1}{2B}\sum_{i=1}^{B}[\log\frac{\exp(\text{sim}(\mathbf{z}_u^{(i)}, \mathbf{z}_e^{(i)})/\tau)}{\sum_j \exp(\text{sim}(\mathbf{z}_u^{(i)}, \mathbf{z}_e^{(j)})/\tau)} + \text{对称项}]\)
- 设计动机：从信息论角度，等价于最大化动作理解表征 \(\mathbf{u}\) 与具身执行表征 \(\mathbf{e}\) 的互信息下界
正样本构建策略:
- 功能：定义哪些观察-执行配对应成为对比学习的正样本
- 核心思路：探索三种粒度——按Episode（同一轨迹）、按Instruction（相同指令但不同场景）、按Task（同类任务）
- 设计动机：按Instruction是最佳平衡点，既保持语义一致性又引入变化，避免过于严格或宽松的对齐

损失函数 / 训练策略¶

动作理解：视频-文本对比学习（ViCLIP的原始目标）
具身执行：下一步动作预测（ARP的原始目标）
对齐损失权重 \(\lambda_{\text{align}} = 0.5\)，\(\lambda_{\text{EE}} = 1\)
温度参数 \(\tau = 0.1\)
对齐层学习率 \(1 \times 10^{-4}\)

实验关键数据¶

主实验¶

任务	指标	本文(MN)	基线	提升
动作识别（18任务平均）	Accuracy	74.9%	71.6% (ViCLIP finetune)	+3.3%
机器人操作（18任务平均）	Success Rate	88.8%	85.3% (ARP)	+3.5%
Sort Shape	Success Rate	72.0%	56.0%	+16.0%
Stack Cup	Success Rate	93.3%	82.7%	+10.6%
Sweep Dust	Success Rate	80.0%	69.3%	+10.7%

消融实验¶

配置	动作理解Acc	具身执行SR	说明
By Episode, τ=0.1	72.9	88.1	同轨迹配对
By Instruction, τ=0.1（默认）	74.9	88.8	同指令配对，最优
By Class, τ=0.1	71.6	85.7	同类别配对，过于宽松
By Instruction, τ=0.02	74.9	86.7	低温度，对齐过严
By Instruction, τ=0.2	77.1	87.0	高温度，AU更好但EE下降

关键发现¶

独立训练的模型存在自发表征对齐（仅用线性变换+对比学习即可达60%+检索准确率）
任务成功子集的对齐度显著高于失败子集，暗示对齐与质量正相关
显式对齐对需要精细操作推理的任务（Sort Shape, Stack Cup）提升最大
t-SNE可视化显示MN方法不仅促进跨模型对齐，还增强了细粒度指令的可区分性

亮点与洞察¶

生物启发但落地简洁：镜像神经元的生物机制被优雅地简化为"两个线性层+对比损失"
从探测到应用的研究范式值得学习：先probe验证假设，再设计方法，因果链完整
发现了表征对齐与任务成功率的正相关关系，为"为什么对齐有用"提供了实验证据
与Platonic Representation Hypothesis的联系——不同目标训练的模型趋向于共享现实的统计模型

局限与展望¶

动作理解和具身执行的数据来自同一模拟环境（RLBench），真实世界的模态差异会更大
仅使用线性变换进行对齐，非线性变换可能捕获更复杂的跨模态关系
对齐需要共享语义标签（语言指令）来构建正样本对，无标签场景下的对齐策略未探索
对齐粒度的探索局限于三种策略，可考虑层次化对齐（从粗到细）
未探索多感官输入（触觉、听觉）对表征对齐的影响，生物镜像神经元系统是多模态的
训练需要同时拥有两个模型的数据，实际部署中数据配对可能困难

评分¶

新颖性: ⭐⭐⭐⭐⭐ 镜像神经元视角切入具身智能，探测-应用的研究范式独特
实验充分度: ⭐⭐⭐⭐ 18个操作任务+动作识别评估+消融+表征可视化，但仅在模拟环境验证
写作质量: ⭐⭐⭐⭐⭐ 从神经科学到方法设计的叙事流畅，图表设计精美
价值: ⭐⭐⭐⭐ 提出了连接感知和行动的统一表征学习范式，对具身AI领域有启发意义