Task-Optimized Convolutional Recurrent Networks Align with Tactile Processing in the Rodent Brain¶

会议: NeurIPS 2025
arXiv: 2505.18361
代码: GitHub
领域: 机器人
关键词: 触觉感知, 卷积循环网络, 体感皮层, 自监督学习, NeuroAI

一句话总结¶

提出Encoder-Attender-Decoder（EAD）框架系统探索触觉任务优化的时序神经网络，发现卷积循环网络（ConvRNN，特别是IntersectionRNN）在触觉物体分类和啮齿类体感皮层神经对齐上均优于前馈和状态空间模型，且基于触觉特定增强的对比自监督学习能达到与监督学习相当的神经拟合，为触觉的大脑计算机制提供了首个定量刻画。

研究背景与动机¶

触觉感知在动物操作和环境理解中发挥关键作用，但相比视觉和语言，神经科学对触觉的理解远远不足，人工系统的触觉能力也远落后于生物体。这一差距源于两方面：

硬件侧：当前仿生触须传感器面临严重限制——超过18-20根触须时硬件复杂度急剧上升，无法准确区分气流、直接接触和惯性等多种同时刺激，机械特性（灵敏度、柔性、弯曲角度）与生物触须存在差异。拟人机器人手也面临类似问题——良好的机械皮肤仍是四十年来的开放挑战。这些限制使得难以在真实传感器输入上识别鲁棒的触觉处理算法。

神经科学侧：尽管对啮齿类体感通路有大量实验表征，但底层神经计算的理解仍然贫乏。关键原因是缺乏计算模型——之前仅有Zhuang et al. (2017)的基础工作使用简单循环架构，且未与脑数据比较。

本文的核心目标是：在仿真生物力学真实的触觉输入上系统评估时序神经网络架构，找到既能高效完成触觉任务又能最好匹配大脑体感皮层神经响应的模型。这直接关系到：(1) 理解大脑触觉处理的归纳偏置；(2) 为具身AI开发生物启发的触觉感知算法。

方法详解¶

整体框架¶

提出Encoder-Attender-Decoder（EAD）参数化来系统探索时序神经网络空间： - Encoder：处理时间平滑的力/力矩传感信号，使用ConvRNN、ResNet或S4 - Attender：高层时间聚合，使用Transformer(GPT)、Mamba或无注意力 - Decoder：分类层（监督学习）或自监督特征

关键设计¶

仿生触觉数据集生成

使用WHISKiT Physics仿真器（首个3D完整啮齿类触须系统仿真）生成高变异触觉数据集： - 将大鼠触须阵列适配为小鼠的30根触须，排列为5×7网格 - 力的裁剪范围±1000 mN（±1N），在生物合理范围内 - 在9981个ShapeNet物体（117类）上应用多种扫描增强：速度、高度、旋转、距离变化 - 两个数据集版本：高变异/低保真（288种增强, 110Hz）和低变异/高保真（16种增强, 1000Hz） - 提取22个时间步，对应啮齿类20Hz的扫须频率

设计动机：高变异数据集强约束学习到的表征，模拟进化压力（"Contravariance Principle"），使模型在有限架构选择中区分出优劣。

EAD架构搜索

基于触觉信号特性设计搜索空间： - 触觉力/力矩信号时间平滑→Encoder层适合卷积和循环机制（局部时间整合） - 高层聚合需跨远距不规则时间尺度→Attender层适合注意力机制（动态加权时间步）

ConvRNN编码器的时间展开实现关键：每个时间步对应单层前馈处理并传给下一层，而非传统RNN的整个前馈通过视为一个时间步。这平行于生物系统中刺激从一个皮层层到下一层的顺序处理。

搜索的ConvRNN变体包括：UGRNN、IntersectionRNN、LSTM、GRU。IntersectionRNN的更新规则：

$$s_t^\ell = p_t^\ell \circ s_{t-1}^\ell + (1-p_t^\ell) \circ m_t^\ell$$ $$h_t^\ell = y_t^\ell \circ x_t^\ell + (1-y_t^\ell) \circ n_t^\ell$$

其中门控 $p$ 控制状态记忆，门控 $y$ 决定输入与变换后信号的交叉。

触觉特定自监督学习增强

设计了专门针对力/力矩时序数据的增强策略： - 垂直翻转：模拟触须阵列上下翻转 - 水平翻转：模拟左右翻转 - 旋转：模拟触须阵列旋转 - 时间反转：模拟运动方向反转

传统图像增强（颜色抖动、灰度化）会导致训练失败，证明增强策略必须与模态相关。自监督方法包括SimCLR（对比学习）、SimSiam（非对比）和自编码器。

损失函数 / 训练策略¶

监督学习：batch=256，100 epoch，按最高验证准确率保存检查点
SSL预训练：SimCLR/AE batch=256, SimSiam batch=1024，100 epoch；线性探测阶段再冻结+100 epoch
ConvRNN可选择添加LayerNorm稳定训练
神经对齐评估：使用表征相似性分析（RSA），无参数方法比较模型和神经群体响应的成对不相似度结构
- 仅保留分半内部一致性（Spearman-Brown校正）>0.5的可靠神经元
- 噪声校正后的RSA Pearson r作为评分
- 与动物间一致性（a2a基线）比较
神经数据来自Rodgers (2022)：11只小鼠，999个神经单元，桶状皮层L2/3至L6

实验关键数据¶

主实验¶

图3和图4b展示了64个模型的分类性能和神经拟合：

模型架构 (Encoder+Attender)	学习方式	Top-5分类准确率	神经拟合(RSA r)
IntersectionRNN + GPT	监督	最高	~1.1
IntersectionRNN + None	SimCLR (触觉增强)	中等	~1.2 (最高)
UGRNN + GPT	监督	高	~0.9
ResNet + GPT	监督	低于ConvRNN	~0.7
S4 + GPT	监督	训练失败	-
原始传感器输入	-	-	0.46
动物间一致性(a2a)	-	-	0.18(平均)

消融实验¶

消融维度	配置	关键发现
编码器类型	ConvRNN vs ResNet vs S4	ConvRNN显著优于前馈和SSM模型
循环单元	IntersectionRNN vs LSTM vs GRU vs UGRNN	IntersectionRNN在分类和神经拟合上一致最优
Attender类型	GPT vs Mamba vs None	GPT带来轻微但一致的改善
增强类型	触觉增强 vs 图像增强	图像增强导致训练失败；触觉增强对任务性能和神经拟合均关键
SSL方法	SimCLR vs SimSiam vs AE	SimCLR对比学习最优，接近乃至超过监督方法的神经拟合
监督 vs SSL	分类准确率差~10x	但神经拟合相当——大脑可能优先编码广泛的任务无关感觉特征

关键发现¶

ConvRNN编码器（特别是IntersectionRNN）在触觉分类和神经对齐上一致优于ResNet和S4
最佳模型饱和了可解释神经变异——超过了动物间一致性基线，通过了"NeuroAI图灵测试"
监督分类性能与神经拟合之间存在清晰的线性关系（r=0.59）
SimCLR自监督模型的神经拟合与监督模型相当甚至略优，尽管分类准确率低一个数量级——这意味着体感皮层可能优先编码通用触觉表征而非特化分类特征
触觉特定的SSL增强（垂直/水平翻转、旋转、时间反转）对建立生物准确的触觉表征至关重要
GPT-based Attender的适度改善暗示体感皮层中可能存在注意力类机制

亮点与洞察¶

首次定量刻画触觉处理的归纳偏置：证明非线性循环处理是啮齿类体感皮层的关键计算特征
EAD参数化的工程价值：系统化地组合编码/注意/解码模块，高效探索大搜索空间
自监督=生态相关的标签自由代理：117类ShapeNet物体分类对啮齿类并不生态相关，但SSL方法绕过了这一问题，成为更合理的代理任务
强验证：在完全不同的实验条件（训练用被动接触，评估用主动须动）和新物体上仍饱和神经可变性
PyTorchTNN开源库：支持大规模时序神经网络探索

局限与展望¶

现有触觉神经数据集严重受限于刺激多样性——仅6种刺激（凹/凸×3距离），是噪声天花板较低的原因
动物间一致性的统计平均（0.18）远低于最大配对一致性（1.34），暗示需更多动物和刺激扩展数据集
尚未探索多模态融合（触觉+本体感受+视觉），仅在最后层拼接是不够的
仿真数据与真实触须传感存在差距——被动扫描与主动须动的训练-评估条件不匹配
模型规模较小，在更大模型上的趋势是否持续未验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将目标驱动建模完整应用于触觉系统，EAD框架设计精巧
实验充分度: ⭐⭐⭐⭐ 64个模型系统评估，但受限于神经数据集的刺激多样性
写作质量: ⭐⭐⭐⭐⭐ 问题动机清晰，结果与解读紧密结合
价值: ⭐⭐⭐⭐⭐ 对NeuroAI和触觉机器人均有重要启示，架起了从大脑到机器的桥梁