跳转至

AI Should Sense Better, Not Just Scale Bigger: Adaptive Sensing as a Paradigm Shift

会议: NeurIPS 2025
arXiv: 2507.07820
代码: 无(Position Paper)
领域: 感知系统 / 具身AI / 多模态
关键词: adaptive sensing, 范式转变, 传感器优化, 闭环感知, 具身AI

一句话总结

提出"自适应感知"作为AI发展的范式级转变——受生物感觉系统启发,主张在传感器层面动态调整输入参数(如曝光、增益、多模态配置),而非仅靠扩大模型规模来应对分布偏移,实证表明5M参数的EfficientNet-B0通过自适应感知可超越632M参数的OpenCLIP-H。

背景与动机

当前AI进步主要依靠扩大模型和数据集规模,但面临四重根本性挑战:(1)环境成本——训GPT-3耗电1.287GWh、排放552吨CO2;(2)公平性——只有资金雄厚的机构才能参与前沿研究;(3)泛化失败——大而静态的数据集无法覆盖真实世界的传感器变化和环境变化;(4)经济不可持续——复杂度和成本指数增长。生物系统展示了另一条路径:人类通过瞳孔调节(2-8mm,16×光增益,<200ms)、眼球扫视(3-5ms重定向注视区)、暗适应等传感器级调节来处理感知挑战,而不是重新训练神经回路。但人工传感器几乎是静态的——相机固定光圈、固定量子效率、固定CFA。

核心问题

AI的感知管线中,传感器级别的自适应优化(在模拟信号数字化之前调整传感器参数)能否作为模型扩大的互补甚至替代策略,实现更高效、更公平、更可持续的AI?

方法详解

整体框架

论文是一篇 Position Paper(立场论文),不提出单一方法,而是:(1)确立自适应感知的定义和范围;(2)总结初步实证证据;(3)提出从单次感知到连续闭环感知的形式化框架(MDP形式);(4)识别关键挑战和研究方向。核心观点是:在传感器层面动态调整参数(曝光、灵敏度、视角等)可以在输入端直接缓解协变量偏移,这是后过程方法(如域适应、域泛化、测试时适应)无法恢复的——因为一旦模拟信号被数字化,传感器配置造成的信息损失就不可逆。

关键设计

  1. Lens框架(现有证据): 第一个model-friendly的测试时输入适应框架,在ImageNet-ES上验证。根据VisiT分数动态响应场景特征,为神经网络提供最优图像质量。关键发现:自适应感知可提升准确率高达47.58个百分点;50×模型大小差异下仍可保持准确率;EfficientNet-B0(5M参数)在理想传感器适应下可超越OpenCLIP-H(632M参数,160×更多训练数据);关键洞察——对模型最优的图像与对人类最优的图像是不同的。
  2. 闭环自适应感知框架(提出的形式化): 将传统MDP \(\mathcal{M}=(S,A,P_E,R)\)(固定传感器配置)扩展为含感知策略的增广MDP。引入传感器参数选项空间\(\mathcal{O}\)、感知质量度量\(Q_M(s_t, o_t)\)(如\(\max(\text{softmax}(M(s_t)))\))、感知策略\(\pi_{sense}(o_{t+1}|s_t,o_t,Q_M)\)。渐进式定义三个阶段:单次感知(Lens,无RL)→ 连续感知(纯感知MDP,无动作)→ 连续感知-运动耦合(联合优化感知和动作策略)。
  3. 跨模态自适应(前瞻性设计): 引入模态权重向量\(w_t \in \mathbb{R}^N\),感知策略同时输出传感器参数和模态权重\((o_{t+1}, w_{t+1}) = \pi_{\text{multi-sense}}(...)\)。奖励函数结合任务奖励和感知质量:\(R_t = R_{\text{sparse}} + \lambda_{\text{tact}} Q_{\text{grip}} + \lambda_{\text{vis}} Q_{\text{vis}}\),利用跨模态质量度量在稀疏奖励下提供密集反馈。

损失函数 / 训练策略

框架论文未具体训练模型。提出的奖励设计为任务奖励+感知质量的加权组合:\(r_{t+1} = R_{task}(s_t, a_t) + \lambda Q_M(s_t, o_t)\),其中\(\lambda\)控制任务导向和感知质量之间的平衡。

实验关键数据

场景 指标 自适应感知 传统方法 说明
ImageNet-ES分类 准确率提升 +47.58%p 基线 不修改模型
模型大小对比 准确率 EfficientNet-B0(5M) OpenCLIP-H(632M) 50×更小但准确率相当/更高
6D位姿估计 精度和稳定性 多模态控制 > 单模态 > 工厂默认 SenseShift6D验证

消融实验要点

  • 自适应感知必须是模型特异且场景特异的(非通用配置)
  • 与模型改进技术协同增效(不是替代而是互补)
  • 闭环 vs 分离:在低动态环境(如单次分类),独立控制器足够;在动态具身AI中,必须闭环协同

亮点

  • 范式级思考的说服力: 从生物传感器vs人工传感器的对比表(人类瞳孔16×增益/<200ms vs 相机固定光圈+粗步长ISO)出发建立论证,令人信服
  • 5M vs 632M的惊人实证: 如果传感器参数正确调整,50×小的模型可以胜过160×更多数据训练的大模型,这从根本上质疑了"scaling is all you need"的假设
  • 四阶段渐进式形式化: 从无自适应MDP→单次感知→连续感知→感知-运动耦合,提供了完整的研究路线图

局限性 / 可改进方向

  • 核心实证主要来自图像分类任务,在更复杂任务(检测、分割、具身交互)上的证据有限
  • 提出的闭环框架还是概念性的,缺乏在真实机器人/传感器上的端到端验证
  • 传感器参数空间随模态增加指数增长的可扩展性问题未解决
  • 需要传感器厂商开放API支持——依赖硬件生态系统的配合
  • 与域适应的关系需要更清晰的界定——何时用自适应感知、何时用域适应、二者如何结合

与相关工作的对比

与域适应/域泛化/测试时适应相比,自适应感知在信号数字化之前操作,可以保留后处理方法无法恢复的信息。与主动感知(active perception,如调整机器人视角)相比,自适应感知直接调整传感器内部参数(曝光、增益等),是更底层的优化。与基于物理的传感器模拟(PINNs、DSE)相比,后者是事后模拟且无法恢复已丢失的信息。文章的创新在于将传感器参数优化从"人类视觉友好"重新定义为"模型感知友好"。

启发与关联

  • 对具身AI(人形机器人、自动驾驶、医疗设备)的传感器设计有深远影响
  • "小模型+聪明传感"vs"大模型+笨传感"的权衡在资源受限场景(边缘计算、可穿戴设备)特别相关
  • 自适应感知与模型压缩/高效推理的潜在协同值得探索

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 范式级视角转换,从"扩大模型"到"优化输入"
  • 实验充分度: ⭐⭐⭐ Position paper以论证和路线图为主,自有实验有限
  • 写作质量: ⭐⭐⭐⭐⭐ 论证层层递进,生物类比方式有说服力
  • 价值: ⭐⭐⭐⭐ 方向正确但需更多实证验证其承诺