跳转至

👥 社会计算

🔬 ICLR2026 · 9 篇论文解读

Adaptive Debiasing Tsallis Entropy for Test-Time Adaptation

提出将 Tsallis 熵(SE 的广义形式)引入 VLM 的 Test-Time Adaptation,并进一步发展为自适应去偏 Tsallis 熵(ADTE),为每个类别定制去偏参数 \(q^l\),在不引入分布特定超参数的情况下比 Shannon 熵选择更可靠的高置信视图,在 ImageNet 及其 5 个变体和 10 个跨域 benchmark 上均超越 SOTA。

BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses

本文构建了 BiasFreeBench 基准,首次在统一框架下系统比较 8 种主流去偏方法(4 种 prompting + 4 种 training),聚焦于 LLM 响应层面的偏差评估,并提出了 Bias-Free Score 指标,发现 prompting 方法(尤其是 CoT)整体优于 training 方法,而 DPO 在跨偏差类型泛化上表现突出。

Functional Embeddings Enable Aggregation of Multi-Area SEEG Data for Robust BCI

提出 FunctionalMap 框架,通过对比学习从颅内局部场电位(LFP)中学习被试无关的功能嵌入作为"功能坐标系",替代不可靠的 MNI 解剖坐标,结合 Transformer 实现跨被试、跨电极的神经数据聚合和信号重建,在 20 名被试的多脑区 SEEG 数据集上验证有效。

Functional Embeddings Enable Aggregation of Multi-Area SEEG Data for Robust BCI

提出 FunctionalMap 框架,通过对比学习从颅内局部场电位(LFP)中学习被试无关的功能嵌入作为"功能坐标系",替代不可靠的 MNI 解剖坐标,结合 Transformer 实现跨被试、跨电极的神经数据聚合和信号重建,在 20 名被试的多脑区 SEEG 数据集上验证有效。

GRADIEND: Feature Learning within Neural Networks Exemplified through Biases

提出GRADIEND——一个基于梯度的编码器-解码器架构,通过单个瓶颈神经元从模型梯度中学习可解释的单语义特征(以性别为例),不仅可以识别哪些权重编码了特定特征,还能通过解码器直接修改模型权重来消除偏见,与INLP结合在所有基线模型上达到SOTA去偏效果。

Human or Machine? A Preliminary Turing Test for Speech-to-Speech Interaction

对9个SOTA语音对话系统开展首次语音图灵测试(2968次人类判断),发现所有系统均未通过(成功率7%-31%),瓶颈不在语义理解而在副语言特征、情感表达和对话人格,并构建了18维细粒度评估框架和可解释AI评审模型。

Propaganda AI: An Analysis of Semantic Divergence in Large Language Models

提出 RAVEN 审计框架,通过结合模型内语义熵和跨模型分歧来检测 LLM 中的概念条件语义分歧——一种类似宣传的行为模式,即高层概念线索(意识形态、公众人物)触发异常一致的立场响应。

Scalable Multi-Task Low-Rank Model Adaptation

系统分析多任务 LoRA 在任务数量增大时崩溃的根因(均匀正则化破坏共享知识 + 组件级 LoRA 放大梯度冲突),提出 mtLoRA:谱感知正则化 + 块级适配 + 细粒度路由,在 15-25 个任务上平均超越 SOTA 2.3%,同时减少 47% 参数和 24% 训练时间。

Stop Wasting Your Tokens: Towards Efficient Runtime Multi-Agent Systems

提出 SupervisorAgent,一个轻量级的实时自适应监督框架,通过无 LLM 的自适应过滤器在关键交互节点主动干预(纠错、指导、观察净化),在 GAIA 基准上将 Smolagent 的 token 消耗降低 29.68% 而不损失成功率。