The Burden of Interactive Alignment with Inconsistent Preferences¶

会议: NeurIPS 2025
arXiv: 2510.16368
作者: Ali Shirali (UC Berkeley) 代码: 无
领域: 强化学习 / 对齐理论 / 博弈论
关键词: interactive alignment, inconsistent preferences, Stackelberg game, engagement optimization, costly signaling

一句话总结¶

将用户与参与度驱动算法的交互建模为多领导者-单跟随者 Stackelberg 博弈，证明存在关键的前瞻视野阈值：超过该阈值的用户可实现对齐，否则反被算法对齐；同时证明引入低成本信号（如额外点击）可大幅降低对齐负担。

研究背景与动机¶

从推荐系统到聊天机器人，算法深刻影响着用户的信息获取和交互方式。这些系统通常以最大化用户参与度（engagement）为优化目标，但用户的参与行为并不总是反映其真实偏好。

核心矛盾在于偏好不一致性（inconsistent preferences）：用户可能在诱人但低价值的内容上花费大量时间（如刷短视频），从而向算法传递了错误信号，使算法继续推荐此类内容。这种现象源于人类决策的双系统理论——理性的"系统2"决定是否参与，而冲动的"系统1"决定参与时长。

现有工作大多假设用户偏好一致（如 Bradley-Terry 模型、RLHF），或从平台/算法侧出发设计对齐策略。本文独特地从用户侧出发，追问：当用户具有不一致偏好时，她需要付出多大代价才能将算法引导至与其真实利益对齐？这一视角填补了用户主导对齐问题的理论空白。

方法详解¶

用户与算法的交互模型¶

交互以"会话"（session）为单位。每次交互中，算法推荐一个项目 s，用户做出两个决策：

是否参与：由理性的"系统2"控制，以概率 f_θ(s) 参与
参与时长：由冲动的"系统1"控制，期望时长为 1/α_θ(s)

用户类型 θ ∈ Θ 编码其意图（同一人在不同会话可有不同类型）。用户参与获得奖励 r_θ(s)（与时长无关），并以折扣因子 γ_H < 1 折扣未来奖励。算法目标为最大化参与时长（即 Σ_t y_t），同样有折扣因子 γ_A。

Stackelberg 博弈建模¶

将对齐问题建模为多领导者-单跟随者的扩展 Stackelberg 博弈：

领导者（用户/系统2）：承诺参与策略 f = (f_θ)_{θ ∈ Θ}
跟随者（算法）：基于观察到的交互历史最优响应

定义了两种进入场景的均衡： - 随机进入（RE）：用户偶然遇到初始内容 - 算法进入（AE）：算法主动推荐第一个项目

从用户角度看，均衡还要求满足混合策略 Nash 均衡条件——没有任何单一用户有动机单方面偏离均衡策略。

核心特殊情形：不一致的行动与奖励¶

考虑两种内容 S = {a, b}，两类用户：

用户类型	参与时长	奖励
Θ_1（类型1）	1/α_θ(a) > 1/α_θ(b)（a更诱人）	r_θ(a) < r_θ(b)（b更有价值）
Θ_2（类型2）	同上	r_θ(a) > r_θ(b)（与算法一致）

类型1用户面临核心矛盾：内容 a 更诱人（系统1参与更久），但内容 b 更有价值。算法看到更长参与时长会持续推荐 a，用户需要战略性地拒绝参与来引导算法。

两个生动的例子： - 音乐推荐：用户工作时想听轻音乐（b），但也是歌手X的粉丝（a），歌手X的歌很吸引人但会分心 - 聊天机器人：工程师需要快速答案（类型1），但对话模式让算法倾向延长交互

算法最优响应（Theorem 4.1）¶

算法的最优策略等价于一个作用于后验 λ 的线性分类器：推荐 a 当且仅当 Σ_θ h_θ λ_θ ≥ 0。关键性质是 h_θ 仅依赖于类型 θ 自身的策略，不同类型之间没有交叉项。这个结构性发现大幅简化了均衡分析。

类型1用户通过降低 f_θ(a)（减少对 a 的参与概率）来使 h_θ 变为负值，从而推动分类器倾向推荐 b。但拒绝参与的同时也失去了 (1 - f_θ(a)) * r_θ(a) 的即时奖励，形成了短期收益与长期信号之间的权衡。

用户最优响应与对齐负担（Theorem 5.1）¶

对每个用户类型 θ 存在一个可操控集合 F_θ（steerable set）。若 F_θ 非空，用户可在其中选择任意策略实现对齐。

每个用户能否操控算法取决于分类器边际 m_θ = Σ_{θ' ≠ θ} h_{θ'} λ_{θ'}，即其他用户策略对分类边界的影响。更大的边际使得类型1用户更难操控算法。

定义用户的有效视野 τ_H = 1/(1 - γ_H)，则类型1用户实现常数遗憾当且仅当：

τ_H > r_θ(b) / (r_θ(b) - r_θ(a))

如果有效视野不够，用户将完全参与诱人内容，反而被算法对齐到算法自身的目标。这就是"对齐负担"的核心含义。

低成本信号降低对齐负担（Section 6）¶

引入一个可观察的、成本为 c 的信号（如点击"不感兴趣"按钮），将类型通信与内容消费解耦。

关键改变： - 用户策略从 f_θ(s) 扩展为 (f_θ(s), u_θ(s))，其中 u_θ(s) 是付出信号的概率 - 算法观察到参与和信号的联合历史来更新后验 - 可操控集合从线性约束变为双线性约束，投影到 f_θ 维度后至少与无信号时一样大

信号场景下的对齐阈值变为 γ_H^c，所需有效视野降低。即使很小的信号成本也能显著缩短用户需要前瞻优化的时间跨度。

实际意义：充分前瞻的用户在面对不想要的内容时，最优策略是部分参与并付出信号成本（而非完全拒绝），这比无信号时的策略更加灵活。

实验与理论验证¶

本文为纯理论工作，不含实证实验，但通过严格的数学推导给出了完整的均衡刻画。

表1：核心特殊情形设定¶

用户类型	参与时长排序	奖励排序	偏好一致性
θ ∈ Θ_1	1/α_θ(a) > 1/α_θ(b)	r_θ(a) < r_θ(b)	不一致
θ ∈ Θ_2	1/α_θ(a) > 1/α_θ(b)	r_θ(a) > r_θ(b)	一致

类型1用户是本文关注的核心对象：他们在诱人内容上停留更久但获得的真实价值更低。

表2：有无信号机制下的对齐负担对比¶

条件	无信号	有信号（成本 c）
对齐所需有效视野	τ_H > r_θ(b)/(r_θ(b)-r_θ(a))	更短（阈值降低）
用户策略（不可操控时）	完全不参与或完全参与	部分参与 + 信号成本
可操控集合约束	线性约束	双线性约束（更宽松）
遗憾性质	常数当且仅当视野足够	同左，但阈值更低

核心理论结果： - Theorem 4.1：算法最优响应为后验上的线性分类器 - Theorem 5.1：完全刻画了算法进入下的 Stackelberg 均衡 - Corollary 5.2/5.3：可操控集合的结构与不可操控时的策略 - Corollary 5.4：量化了常数遗憾的充要条件 - Theorem 6.1/6.2：将上述结果推广到有信号场景 - Corollary 6.3/6.4：证明信号降低了对齐负担

亮点与洞察¶

对齐负担的量化：首次提出"对齐负担"（burden of alignment）的概念，用用户需要前瞻优化的最小视野来度量，将模糊的对齐难度转化为精确的数学界限
线性分类器结构：证明算法最优策略等价于对用户类型后验的线性分类器，且不同类型之间解耦，使均衡分析变得可行；这一结构性发现具有独立的理论价值
信号机制的巨大效力：哪怕一个极小成本的信号（如额外点击），就能显著降低对齐负担；为平台设计提供了直接的实践指导——提供简单的反馈机制远比复杂的算法改造更经济有效
双系统决策的形式化：借鉴行为经济学的系统1/系统2框架自然融入 Stackelberg 博弈模型，使不一致偏好有了清晰的操作性定义，架起了行为科学与算法博弈论之间的桥梁

局限与展望¶

信息假设过强：假设算法完全知晓用户策略、用户完全知晓自身奖励，实际中信息总是不完全的；放松这些假设后均衡的存在性和结构尚不清楚
缺乏实证验证：纯理论框架，未在真实推荐系统或 LLM 交互数据上验证结论的适用性
仅双方博弈：忽略了内容创作者的战略行为，现实中平台-用户-创作者构成三方博弈
有限项目集合：核心分析局限于 |S|=2 的特殊情形，推广到大规模内容空间的理论保证尚不明确
静态类型假设：假设用户在一个会话内类型固定，但实际偏好可能在交互过程中动态演变

评分 ⭐¶

维度	评分
创新性	⭐⭐⭐⭐⭐
理论深度	⭐⭐⭐⭐⭐
实用性	⭐⭐⭐
表达清晰度	⭐⭐⭐⭐
综合推荐	⭐⭐⭐⭐