The Burden of Interactive Alignment with Inconsistent Preferences¶
会议: NeurIPS 2025
arXiv: 2510.16368
作者: Ali Shirali (UC Berkeley)
代码: 无
领域: 强化学习 / 对齐理论 / 博弈论
关键词: interactive alignment, inconsistent preferences, Stackelberg game, engagement optimization, costly signaling
一句话总结¶
将用户与参与度驱动算法的交互建模为多领导者-单跟随者 Stackelberg 博弈,证明存在关键的前瞻视野阈值:超过该阈值的用户可实现对齐,否则反被算法对齐;同时证明引入低成本信号(如额外点击)可大幅降低对齐负担。
研究背景与动机¶
从推荐系统到聊天机器人,算法深刻影响着用户的信息获取和交互方式。这些系统通常以最大化用户参与度(engagement)为优化目标,但用户的参与行为并不总是反映其真实偏好。
核心矛盾在于偏好不一致性(inconsistent preferences):用户可能在诱人但低价值的内容上花费大量时间(如刷短视频),从而向算法传递了错误信号,使算法继续推荐此类内容。这种现象源于人类决策的双系统理论——理性的"系统2"决定是否参与,而冲动的"系统1"决定参与时长。
现有工作大多假设用户偏好一致(如 Bradley-Terry 模型、RLHF),或从平台/算法侧出发设计对齐策略。本文独特地从用户侧出发,追问:当用户具有不一致偏好时,她需要付出多大代价才能将算法引导至与其真实利益对齐?这一视角填补了用户主导对齐问题的理论空白。
方法详解¶
用户与算法的交互模型¶
交互以"会话"(session)为单位。每次交互中,算法推荐一个项目 s,用户做出两个决策:
- 是否参与:由理性的"系统2"控制,以概率 f_θ(s) 参与
- 参与时长:由冲动的"系统1"控制,期望时长为 1/α_θ(s)
用户类型 θ ∈ Θ 编码其意图(同一人在不同会话可有不同类型)。用户参与获得奖励 r_θ(s)(与时长无关),并以折扣因子 γ_H < 1 折扣未来奖励。算法目标为最大化参与时长(即 Σ_t y_t),同样有折扣因子 γ_A。
Stackelberg 博弈建模¶
将对齐问题建模为多领导者-单跟随者的扩展 Stackelberg 博弈:
- 领导者(用户/系统2):承诺参与策略 f = (f_θ)_{θ ∈ Θ}
- 跟随者(算法):基于观察到的交互历史最优响应
定义了两种进入场景的均衡: - 随机进入(RE):用户偶然遇到初始内容 - 算法进入(AE):算法主动推荐第一个项目
从用户角度看,均衡还要求满足混合策略 Nash 均衡条件——没有任何单一用户有动机单方面偏离均衡策略。
核心特殊情形:不一致的行动与奖励¶
考虑两种内容 S = {a, b},两类用户:
| 用户类型 | 参与时长 | 奖励 |
|---|---|---|
| Θ_1(类型1) | 1/α_θ(a) > 1/α_θ(b)(a更诱人) | r_θ(a) < r_θ(b)(b更有价值) |
| Θ_2(类型2) | 同上 | r_θ(a) > r_θ(b)(与算法一致) |
类型1用户面临核心矛盾:内容 a 更诱人(系统1参与更久),但内容 b 更有价值。算法看到更长参与时长会持续推荐 a,用户需要战略性地拒绝参与来引导算法。
两个生动的例子: - 音乐推荐:用户工作时想听轻音乐(b),但也是歌手X的粉丝(a),歌手X的歌很吸引人但会分心 - 聊天机器人:工程师需要快速答案(类型1),但对话模式让算法倾向延长交互
算法最优响应(Theorem 4.1)¶
算法的最优策略等价于一个作用于后验 λ 的线性分类器:推荐 a 当且仅当 Σ_θ h_θ λ_θ ≥ 0。关键性质是 h_θ 仅依赖于类型 θ 自身的策略,不同类型之间没有交叉项。这个结构性发现大幅简化了均衡分析。
类型1用户通过降低 f_θ(a)(减少对 a 的参与概率)来使 h_θ 变为负值,从而推动分类器倾向推荐 b。但拒绝参与的同时也失去了 (1 - f_θ(a)) * r_θ(a) 的即时奖励,形成了短期收益与长期信号之间的权衡。
用户最优响应与对齐负担(Theorem 5.1)¶
对每个用户类型 θ 存在一个可操控集合 F_θ(steerable set)。若 F_θ 非空,用户可在其中选择任意策略实现对齐。
每个用户能否操控算法取决于分类器边际 m_θ = Σ_{θ' ≠ θ} h_{θ'} λ_{θ'},即其他用户策略对分类边界的影响。更大的边际使得类型1用户更难操控算法。
定义用户的有效视野 τ_H = 1/(1 - γ_H),则类型1用户实现常数遗憾当且仅当:
τ_H > r_θ(b) / (r_θ(b) - r_θ(a))
如果有效视野不够,用户将完全参与诱人内容,反而被算法对齐到算法自身的目标。这就是"对齐负担"的核心含义。
低成本信号降低对齐负担(Section 6)¶
引入一个可观察的、成本为 c 的信号(如点击"不感兴趣"按钮),将类型通信与内容消费解耦。
关键改变: - 用户策略从 f_θ(s) 扩展为 (f_θ(s), u_θ(s)),其中 u_θ(s) 是付出信号的概率 - 算法观察到参与和信号的联合历史来更新后验 - 可操控集合从线性约束变为双线性约束,投影到 f_θ 维度后至少与无信号时一样大
信号场景下的对齐阈值变为 γ_H^c,所需有效视野降低。即使很小的信号成本也能显著缩短用户需要前瞻优化的时间跨度。
实际意义:充分前瞻的用户在面对不想要的内容时,最优策略是部分参与并付出信号成本(而非完全拒绝),这比无信号时的策略更加灵活。
实验与理论验证¶
本文为纯理论工作,不含实证实验,但通过严格的数学推导给出了完整的均衡刻画。
表1:核心特殊情形设定¶
| 用户类型 | 参与时长排序 | 奖励排序 | 偏好一致性 |
|---|---|---|---|
| θ ∈ Θ_1 | 1/α_θ(a) > 1/α_θ(b) | r_θ(a) < r_θ(b) | 不一致 |
| θ ∈ Θ_2 | 1/α_θ(a) > 1/α_θ(b) | r_θ(a) > r_θ(b) | 一致 |
类型1用户是本文关注的核心对象:他们在诱人内容上停留更久但获得的真实价值更低。
表2:有无信号机制下的对齐负担对比¶
| 条件 | 无信号 | 有信号(成本 c) |
|---|---|---|
| 对齐所需有效视野 | τ_H > r_θ(b)/(r_θ(b)-r_θ(a)) | 更短(阈值降低) |
| 用户策略(不可操控时) | 完全不参与或完全参与 | 部分参与 + 信号成本 |
| 可操控集合约束 | 线性约束 | 双线性约束(更宽松) |
| 遗憾性质 | 常数当且仅当视野足够 | 同左,但阈值更低 |
核心理论结果: - Theorem 4.1:算法最优响应为后验上的线性分类器 - Theorem 5.1:完全刻画了算法进入下的 Stackelberg 均衡 - Corollary 5.2/5.3:可操控集合的结构与不可操控时的策略 - Corollary 5.4:量化了常数遗憾的充要条件 - Theorem 6.1/6.2:将上述结果推广到有信号场景 - Corollary 6.3/6.4:证明信号降低了对齐负担
亮点与洞察¶
- 对齐负担的量化:首次提出"对齐负担"(burden of alignment)的概念,用用户需要前瞻优化的最小视野来度量,将模糊的对齐难度转化为精确的数学界限
- 线性分类器结构:证明算法最优策略等价于对用户类型后验的线性分类器,且不同类型之间解耦,使均衡分析变得可行;这一结构性发现具有独立的理论价值
- 信号机制的巨大效力:哪怕一个极小成本的信号(如额外点击),就能显著降低对齐负担;为平台设计提供了直接的实践指导——提供简单的反馈机制远比复杂的算法改造更经济有效
- 双系统决策的形式化:借鉴行为经济学的系统1/系统2框架自然融入 Stackelberg 博弈模型,使不一致偏好有了清晰的操作性定义,架起了行为科学与算法博弈论之间的桥梁
局限与展望¶
- 信息假设过强:假设算法完全知晓用户策略、用户完全知晓自身奖励,实际中信息总是不完全的;放松这些假设后均衡的存在性和结构尚不清楚
- 缺乏实证验证:纯理论框架,未在真实推荐系统或 LLM 交互数据上验证结论的适用性
- 仅双方博弈:忽略了内容创作者的战略行为,现实中平台-用户-创作者构成三方博弈
- 有限项目集合:核心分析局限于 |S|=2 的特殊情形,推广到大规模内容空间的理论保证尚不明确
- 静态类型假设:假设用户在一个会话内类型固定,但实际偏好可能在交互过程中动态演变
相关工作与启发¶
- RLHF / DPO 系列:Bradley-Terry 模型、RLHF (Christiano et al., 2017; Ouyang et al., 2022)、DPO (Rafailov et al., 2024) 假设偏好一致,本文放松了此核心假设
- 战略用户与推荐系统:Haupt et al. (2023) 和 Cen et al. (2024) 研究用户战略行为对推荐的影响,但以平台为 Stackelberg 领导者;本文翻转角色让用户作为领导者
- 不一致偏好建模:Kleinberg et al. (2024) 提出双系统框架下的不一致偏好挑战,本文在其基础上加入了博弈论均衡分析
- 参与度优化的风险:Besbes et al. (2024) 分析优化可测量指标的风险,Milli et al. (2021) 区分参与度与价值
- 机制设计中的 money burning:Hartline & Roughgarden (2008) 的信号烧钱思想被巧妙应用于降低对齐负担,展示了经典经济学工具在 AI 对齐中的新生命力
评分 ⭐¶
| 维度 | 评分 |
|---|---|
| 创新性 | ⭐⭐⭐⭐⭐ |
| 理论深度 | ⭐⭐⭐⭐⭐ |
| 实用性 | ⭐⭐⭐ |
| 表达清晰度 | ⭐⭐⭐⭐ |
| 综合推荐 | ⭐⭐⭐⭐ |
相关论文¶
- [NeurIPS 2025] Learning Interactive World Model for Object-Centric Reinforcement Learning
- [NeurIPS 2025] Interactive and Hybrid Imitation Learning: Provably Beating Behavior Cloning
- [NeurIPS 2025] Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment
- [ICML 2025] Robot-Gated Interactive Imitation Learning with Adaptive Intervention Mechanism
- [ICLR 2026] Reasoning Boosts Opinion Alignment in LLMs