Retrospective Learning from Interactions¶

会议: ACL 2025
arXiv: 2410.13852
代码: https://lil-lab.github.io/respect
领域: 其他
关键词: 隐式反馈, 交互学习, 持续学习, 多模态LLM, 参考游戏

一句话总结¶

提出 ReSpect 方法，让多模态 LLM 通过回顾性地解码用户在多轮交互中的隐式反馈信号来自我改进，无需任何外部标注，在数千次人机交互中将任务完成率从 31% 提升至 82%。

研究背景与动机¶

人机多轮交互中天然包含丰富的隐式学习信号。当 LLM 的响应不符合预期时，用户可能会： - 重新表述请求 - 表达挫折感（如 "not again"） - 转向其他任务

当 LLM 响应正确时，用户可能会： - 表达认可（如 "great!"） - 直接继续下一步目标

这些信号具有任务无关性——即使一个人不理解具体任务，也能从这些对话线索中判断执行者是否做得好。关键洞察是：这些隐式反馈信号占据了自然语言中一个相对受限的子空间，使得 LLM 即使在任务本身上表现不佳，也有能力识别这些信号。

与 RLHF 等常见方法相比，ReSpect 的独特之处在于： - 不需要标注者提供反馈 - 不需要更强的模型作为评判 - 不需要求用户刻意给出反馈 - 仅依赖部署中的自然交互

方法详解¶

整体框架¶

ReSpect 在多轮部署中迭代运行： 1. 部署阶段：模型与真实用户交互，记录每个 action 的上下文、预测概率和后续交互 2. 回顾阶段：模型回顾性地分析每个 action 的后续用户反应，解码隐式反馈 3. 训练阶段：使用解码的反馈信号重新训练模型 4. 重复上述过程

关键设计¶

MultiRef 交互场景：
- 经典参考游戏的泛化版本：说话者（人类）和听者（模型）共同观察一组 tangram 图形
- 说话者指导听者选择一个未知大小的子集——组合解空间为 $2^n$（远大于经典的 $n$）
- 使用 KiloGram 数据集的抽象 tangram 形状，天然产生模糊描述和丰富的多轮交互
- 人类说话者可以发送文字消息，模型听者只能选择/取消选择图片
- 20 轮超时即视为失败
隐式反馈解码器：
- 使用模型自身（不是更强的模型）对过去交互中的每个 action 进行反馈判断
- 基于文本提示，输入包括：交互上下文 $x$、模型 action $\hat{a}$、后续交互 $\bar{f}$
- 输出：positive / neutral / negative（三元），或 positive / negative（二元）
- 不访问任何特权信息（如正确答案、任务成功与否）
- 反馈解码器的精度持续保持在 90% 以上
三种学习方法：
- FFT (Filtered Fine-tuning)：仅在 positive 数据点上微调，cross-entropy + label smoothing
- REINFORCE：使用策略梯度，将反馈映射为数值奖励（positive=1, neutral=0, negative=-0.1），负反馈用逆倾向得分加权
- KTO (Kahneman-Tversky Optimization)：使用正/负数据点，丢弃中性，正:负比例约 5:4
持续学习设置：
- 每轮约 330 次交互、~2400 个回合
- 训练和评估不分离——部署交互既用于评估又用于训练下一轮
- 累积数据训练：每轮使用所有历史数据 $D_{\leq \rho}$
- FFT 和 RL 每轮从头训练；KTO 从上轮 checkpoint 继续微调

损失函数 / 训练策略¶

基础模型：IDEFICS2-8B
使用 LoRA 微调
初始策略 $\pi_{\theta_0}$：在 25 场人-人游戏上微调种子模型
所有目标函数中加入熵正则项和长度归一化以减少过拟合
验证集用于模型选择

实验关键数据¶

主实验¶

交互成功率随轮次变化：

系统	轮次1	轮次2	轮次3	轮次6 (仅b-fft)
b-fft	31%	55%	72%	82%
t-fft	33%	49%	65%	-
b-rl	28%	47%	60%	-
t-rl	29%	43%	57%	-
b-kto	30%	44%	40%↓	-
控制(初始策略重部署)	-	-	-	33%
人-人交互	100%	100%	100%	100%

b-fft 回合级指标（6轮）：

指标	轮次1	轮次6	变化
交互成功率	31%	82%	+51%
回合级精确匹配	31%	53%	+22%
每次交互轮次数	8.9	6.7	-2.2

消融实验¶

配置	关键指标	说明
二元 vs 三元反馈	二元略优	三元更保守，标记更多 neutral
FFT vs RL vs KTO	FFT > RL > KTO	仅正信号比正+负信号更有效
用户适应 vs 模型改进	控制组31%→33%	用户适应不能解释 51% 的提升

关键发现¶

b-fft 表现最佳：仅使用正反馈信号 + 过滤微调即可实现最大改进
负反馈信号的利用仍是开放问题：使用负信号的系统（RL、KTO）反而不如仅用正信号的系统
反馈解码器鲁棒性强：即使数据分布随轮次变化，精度始终保持 90%+ 的低假阳性率
用户行为确实会变化：词汇量和句长先下降后上升，重置信号减少——但这不能解释模型改进（控制实验证实）
KTO 在持续学习中不稳定：b-kto 甚至出现退化并生成非法输出
与人类表现仍有差距：82% vs 100%，可能源于长期信用分配的不足

亮点与洞察¶

真正的自我改进：不依赖更强模型、不依赖外部标注、不依赖任务特定验证器——仅从自然交互中学习
反馈解码的任务无关性：反馈解码器设计用于识别通用的语言线索，而非特定任务的信号
实验的真实性：7,230 次真实人机交互、55,004 个回合、$11,180 的 MTurk 费用，全部在真实部署中完成
MultiRef 场景设计巧妙：兼顾了任务难度（$2^n$ 组合空间）、可控性和多轮交互的自然性
控制实验设计严谨：通过在最终轮重新部署初始策略来排除用户适应的混淆因素

局限与展望¶

MultiRef 是受控的实验场景，泛化到开放域对话（如摘要、问答）需要进一步验证
模型在 MultiRef 上的改进不能泛化到其他任务，甚至可能损害通用能力
仅使用标量奖励，更具表达力的反馈解码（如自然语言解释）可能进一步提升学习效果
长期信用分配不足——后期回合的学习更困难，因为需要归因到更长的历史
反馈解码器没有随策略模型同步更新，可能低估了方法的潜力
缺乏对抗性用户场景的考虑——恶意用户可能通过虚假反馈"毒化"学习过程

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从自然交互中提取隐式反馈进行自我改进的范式极具创新性和实用价值
实验充分度: ⭐⭐⭐⭐⭐ 6轮真实人机部署、7种系统变体、多维度评估、严格控制实验
写作质量: ⭐⭐⭐⭐ 论文组织清晰，技术细节完整，实验结果可视化效果好
价值: ⭐⭐⭐⭐⭐ 揭示了一个被忽视但普遍存在的学习信号，对交互式AI系统的持续改进具有深远影响