AI Should Sense Better, Not Just Scale Bigger: Adaptive Sensing as a Paradigm Shift¶

会议: NeurIPS 2025
arXiv: 2507.07820
代码: 无（Position Paper）
领域: 感知系统 / 具身AI / 多模态
关键词: adaptive sensing, 范式转变, 传感器优化, 闭环感知, 具身AI

一句话总结¶

提出"自适应感知"作为AI发展的范式级转变——受生物感觉系统启发，主张在传感器层面动态调整输入参数（如曝光、增益、多模态配置），而非仅靠扩大模型规模来应对分布偏移，实证表明5M参数的EfficientNet-B0通过自适应感知可超越632M参数的OpenCLIP-H。

背景与动机¶

当前AI进步主要依靠扩大模型和数据集规模，但面临四重根本性挑战：（1）环境成本——训GPT-3耗电1.287GWh、排放552吨CO2；（2）公平性——只有资金雄厚的机构才能参与前沿研究；（3）泛化失败——大而静态的数据集无法覆盖真实世界的传感器变化和环境变化；（4）经济不可持续——复杂度和成本指数增长。生物系统展示了另一条路径：人类通过瞳孔调节（2-8mm，16×光增益，<200ms）、眼球扫视（3-5ms重定向注视区）、暗适应等传感器级调节来处理感知挑战，而不是重新训练神经回路。但人工传感器几乎是静态的——相机固定光圈、固定量子效率、固定CFA。

核心问题¶

AI的感知管线中，传感器级别的自适应优化（在模拟信号数字化之前调整传感器参数）能否作为模型扩大的互补甚至替代策略，实现更高效、更公平、更可持续的AI？

方法详解¶

整体框架¶

论文是一篇 Position Paper（立场论文），不提出单一方法，而是：（1）确立自适应感知的定义和范围；（2）总结初步实证证据；（3）提出从单次感知到连续闭环感知的形式化框架（MDP形式）；（4）识别关键挑战和研究方向。核心观点是：在传感器层面动态调整参数（曝光、灵敏度、视角等）可以在输入端直接缓解协变量偏移，这是后过程方法（如域适应、域泛化、测试时适应）无法恢复的——因为一旦模拟信号被数字化，传感器配置造成的信息损失就不可逆。

关键设计¶

Lens框架（现有证据）: 第一个model-friendly的测试时输入适应框架，在ImageNet-ES上验证。根据VisiT分数动态响应场景特征，为神经网络提供最优图像质量。关键发现：自适应感知可提升准确率高达47.58个百分点；50×模型大小差异下仍可保持准确率；EfficientNet-B0（5M参数）在理想传感器适应下可超越OpenCLIP-H（632M参数，160×更多训练数据）；关键洞察——对模型最优的图像与对人类最优的图像是不同的。
闭环自适应感知框架（提出的形式化）: 将传统MDP \(\mathcal{M}=(S,A,P_E,R)\)（固定传感器配置）扩展为含感知策略的增广MDP。引入传感器参数选项空间\(\mathcal{O}\)、感知质量度量\(Q_M(s_t, o_t)\)（如\(\max(\text{softmax}(M(s_t)))\)）、感知策略\(\pi_{sense}(o_{t+1}|s_t,o_t,Q_M)\)。渐进式定义三个阶段：单次感知（Lens，无RL）→ 连续感知（纯感知MDP，无动作）→ 连续感知-运动耦合（联合优化感知和动作策略）。
跨模态自适应（前瞻性设计）: 引入模态权重向量\(w_t \in \mathbb{R}^N\)，感知策略同时输出传感器参数和模态权重\((o_{t+1}, w_{t+1}) = \pi_{\text{multi-sense}}(...)\)。奖励函数结合任务奖励和感知质量：\(R_t = R_{\text{sparse}} + \lambda_{\text{tact}} Q_{\text{grip}} + \lambda_{\text{vis}} Q_{\text{vis}}\)，利用跨模态质量度量在稀疏奖励下提供密集反馈。

损失函数 / 训练策略¶

框架论文未具体训练模型。提出的奖励设计为任务奖励+感知质量的加权组合：\(r_{t+1} = R_{task}(s_t, a_t) + \lambda Q_M(s_t, o_t)\)，其中\(\lambda\)控制任务导向和感知质量之间的平衡。

实验关键数据¶

场景	指标	自适应感知	传统方法	说明
ImageNet-ES分类	准确率提升	+47.58%p	基线	不修改模型
模型大小对比	准确率	EfficientNet-B0(5M)	OpenCLIP-H(632M)	50×更小但准确率相当/更高
6D位姿估计	精度和稳定性	多模态控制 > 单模态 > 工厂默认	—	SenseShift6D验证

消融实验要点¶

自适应感知必须是模型特异且场景特异的（非通用配置）
与模型改进技术协同增效（不是替代而是互补）
闭环 vs 分离：在低动态环境（如单次分类），独立控制器足够；在动态具身AI中，必须闭环协同

亮点¶

范式级思考的说服力: 从生物传感器vs人工传感器的对比表（人类瞳孔16×增益/<200ms vs 相机固定光圈+粗步长ISO）出发建立论证，令人信服
5M vs 632M的惊人实证: 如果传感器参数正确调整，50×小的模型可以胜过160×更多数据训练的大模型，这从根本上质疑了"scaling is all you need"的假设
四阶段渐进式形式化: 从无自适应MDP→单次感知→连续感知→感知-运动耦合，提供了完整的研究路线图

局限性 / 可改进方向¶

核心实证主要来自图像分类任务，在更复杂任务（检测、分割、具身交互）上的证据有限
提出的闭环框架还是概念性的，缺乏在真实机器人/传感器上的端到端验证
传感器参数空间随模态增加指数增长的可扩展性问题未解决
需要传感器厂商开放API支持——依赖硬件生态系统的配合
与域适应的关系需要更清晰的界定——何时用自适应感知、何时用域适应、二者如何结合

与相关工作的对比¶

与域适应/域泛化/测试时适应相比，自适应感知在信号数字化之前操作，可以保留后处理方法无法恢复的信息。与主动感知（active perception，如调整机器人视角）相比，自适应感知直接调整传感器内部参数（曝光、增益等），是更底层的优化。与基于物理的传感器模拟（PINNs、DSE）相比，后者是事后模拟且无法恢复已丢失的信息。文章的创新在于将传感器参数优化从"人类视觉友好"重新定义为"模型感知友好"。

启发与关联¶

对具身AI（人形机器人、自动驾驶、医疗设备）的传感器设计有深远影响
"小模型+聪明传感"vs"大模型+笨传感"的权衡在资源受限场景（边缘计算、可穿戴设备）特别相关
自适应感知与模型压缩/高效推理的潜在协同值得探索

评分¶

新颖性: ⭐⭐⭐⭐⭐ 范式级视角转换，从"扩大模型"到"优化输入"
实验充分度: ⭐⭐⭐ Position paper以论证和路线图为主，自有实验有限
写作质量: ⭐⭐⭐⭐⭐ 论证层层递进，生物类比方式有说服力
价值: ⭐⭐⭐⭐ 方向正确但需更多实证验证其承诺