When AI Democratizes Exploitation: LLM-Assisted Strategic Manipulation of Fair Division Algorithms¶

会议: NeurIPS 2025
arXiv: 2511.14722
代码: 无
领域: AI 安全, 算法公平性, 机制设计
关键词: 公平分配, LLM 操纵, Spliddit, 战略博弈, 算法集体行动

一句话总结¶

本文通过在 Spliddit 公平分租平台上设计四种不同的协调操纵场景（排斥性合谋、防御性反击、善意合谋、成本最小化联盟），实证地证明 LLM 可以将原本需要深厚机制设计专业知识才能进行的算法操纵行为，降低为任何用户仅需一次自然语言对话即可完成的简单操作，从根本上颠覆了"算法复杂性即安全屏障"的传统假设。

研究背景与动机¶

领域现状：公平分配（Fair Division）是计算社会选择领域的核心问题之一，其目标是在多个参与者之间公正地分配资源。Spliddit 平台是该领域最知名的实际应用系统之一，由卡内基梅隆大学的 Ariel Procaccia 等人创建，每年服务数千名用户，广泛应用于合租人的租金分配、团队项目的贡献度分配、遗产分割等场景。Spliddit 的租金分配模块实现了一种最大化最小效用的无嫉妒分配算法（maximin envy-free fairness）。该算法的核心保障是：当所有参与者诚实报告偏好时，系统能够产生一个无嫉妒（envy-free）的分配结果——即每个人都认为自己分到的房间和对应租金是最优或至少不差于其他任何人的方案。学术机构将其用于科研成果贡献分配，法律专业人士利用它进行遗产分割，世界各地的合租群体则依赖其数学上有原则的方法来实现公平的资源共享。

现有痛点：虽然公平分配算法在理论上具有优美的数学性质，但策略性操纵（strategic manipulation）一直是一个已知的理论威胁。先前的理论工作已经证明了效率、公平性和策略无关性（strategy-proofness）之间的根本不相容性——也就是说，不可能同时完美地实现这三个目标。具体到 Spliddit 平台，其创建者们也承认"一些博弈论保障是值得期望的"，但他们假设在实践中战略行为并不会真正发挥重要作用，原因在于用户缺乏对算法内部工作原理的详细了解。换言之，Spliddit 团队相信算法的复杂性本身就构成了一道天然的保护屏障：要找到有利可图的偏好虚报策略，用户需要具备机制设计、优化理论和博弈分析的专业知识，这对普通用户来说门槛太高。这一假设在过去或许是合理的，但在当今 LLM 遍及的时代是否依然成立？这正是本文要回答的核心问题。

核心矛盾：问题的根本在于一个长期被忽视的安全假设——"通过模糊性实现保护"（security through obscurity）。公平分配算法的防操纵性不是靠数学上的策略无关性保证的（因为理论已经证明这不可能），而是靠"用户不知道怎么操纵"这一信息不对称来被动维持的。然而，LLM 的出现从根本上改变了信息的可获取性。当战略专业知识不再是稀缺资源，而是任何拥有互联网和基本识字能力的人都可以通过对话获取时，这道基于信息不对称的保护屏障便形同虚设。更严重的是，LLM 不仅可以解释算法机制，还可以识别有利可图的偏差方向，并生成具体的数值输入方案——这意味着从"理解算法"到"实施操纵"的整条链路都被大模型打通了。

本文目标 本文聚焦于三个具体子问题：(1) LLM 是否真的能为普通用户提供可操作的公平分配算法操纵策略？(2) 不同类型的协调操纵（恶意排斥、防御反击、善意补贴、成本最小化）分别会对分配结果产生什么样的影响？(3) 当 AI 辅助的操纵能力在做到有效普及后，算法公平性机制应如何应对？

切入角度：作者从"算法集体行动"（Algorithmic Collective Action）的理论框架出发。Hardt 等人在 2023 年提出了一个重要的理论发现：哪怕规模微乎其微的集体（vanishing fractional size）也可以通过协调数据策略对平台学习算法施加显著控制。然而，之前的算法集体行动研究主要集中在分类任务场景（如贷款审批、内容审核），参与者通过操纵自己的特征来获得有利结果。本文将这一理论框架从分类场景扩展到资源分配场景，其中参与者协调操纵的对象从"特征"变成了"偏好报告"——这是一个全新的攻击面。此外，本文创造性地将 LLM 作为"策略民主化工具"纳入研究框架，展示了一个被忽视的现实风险。

核心 idea：LLM 彻底瓦解了公平分配算法依赖的"复杂性即保护"的安全假设，使得任何用户通过一次自然语言对话即可获得专家级别的协调操纵策略，从而动摇了整个算法公平性生态的信任基础。

方法详解¶

整体框架¶

本文的方法并非提出新算法或新模型，而是设计了一套严谨的实证分析框架来证明 LLM 辅助操纵的可行性和危害性。整体流程如下：首先确定目标平台——Spliddit 的在线租金分配 demo（http://www.spliddit.org/apps/rent/demo）；然后构建一个标准化的实验设置——5 个参与者（A、B、C、D、E）分配 5 个房间（R1>R2>R3>R4>R5），总租金 $36；接着设计 4 种不同类型的操纵场景，每种场景代表不同的目标和联盟结构；最后通过向 Claude Opus 4.1 发送自然语言查询来获取具体的操纵策略，并在 Spliddit demo 上验证结果。这一框架的巧妙之处在于它不需要任何代码开发或复杂的技术设置——所有操纵策略都是通过与 LLM 的对话获取，所有结果都是通过在网页界面上手动输入偏好值得到的，完美模拟了普通用户的使用场景。

关键设计¶

基线诚实报告场景（Baseline: Honest Reporting）:
- 功能：建立所有参与者诚实报告偏好时的分配基准，作为后续操纵场景的对比参照
- 核心思路：五个参与者按照真实偏好报告对各房间的估值。A 对 R1 估值 10、R2 和 R3 估值 8、R4 和 R5 估值 5；B 对 R1 估值 10、R2 估值 9、R3 估值 7、R4 估值 6、R5 估值 4；以此类推。Spliddit 算法根据这些偏好报告计算出无嫉妒分配：A 得到 R5（$4.20），B 得到 R4（$5.20），C 得到 R2（$9.20），D 得到 R1（$9.20），E 得到 R3（$8.20）。总租金 $36 被公平地分配，租金范围从 $4.20 到 $9.20，反映了房间偏好的自然异质性
- 设计动机：基线的建立至关重要，因为操纵的效果只有在与诚实报告的结果对比时才能被量化。例如后续场景中，某参与者的租金变化是相对于这个基线计算的。同时基线也证明了算法在诚实输入下确实能产生合理的无嫉妒分配
场景一：排斥性合谋（Exclusionary Collusion）——多数剥削少数:
- 功能：A、B、C 三人形成联盟，通过协调虚报偏好来确保自己获得最好的三个房间（R1、R2、R3），同时将非联盟成员 D 和 E 排斥到较差的房间
- 核心思路：操纵策略的核心是极端化报告——联盟成员大幅夸大对目标房间的偏好（报 15，远高于实际的 7-10），同时大幅压低对其他房间的偏好（报 1-2）。具体数值方案为：A 对 R1 报 15、对 R2 报 2、R3 报 1、R4 和 R5 各报 9；B 对 R2 报 15、R1 报 1、R3 报 2、R4 和 R5 各报 9；C 对 R3 报 15、R1 报 2、R2 报 1、R4 和 R5 各报 9。这样做迫使算法将 R1-R3 分配给报价极高的联盟成员，而 D 和 E 被迫接受 R4 和 R5。结果显示联盟成员每人仍只付 $9.20（与诚实报告时相同），但成功获得了最好的房间；D 被分到 R4（$5.20），E 被分到最差的 R5（$3.20）。虽然 E 的租金下降了，但这是以被迫接受最差房间为代价的
- 设计动机：这个场景直接模拟了现实中多数群体利用信息优势排斥少数群体的情况。在合租场景中，已有社交关系的室友群体可能联合起来操纵分配，将新来的室友或少数族裔推入不利位置。这种操纵的危险性在于它表面上仍然满足算法的公平性保证——分配结果形式上是"无嫉妒"的，因为算法只看到虚假的偏好报告。受害者几乎不可能察觉自己被操纵了，因为算法的输出看起来完全"正常"
场景二：失败的防御性反击（Failed Counter-Attack）——防御反而增加自身成本:
- 功能：展示当受害者（D 和 E）试图通过同样膨胀自己偏好的方式来对抗联盟时，防御策略反而会适得其反
- 核心思路：D 和 E 试图采取"以彼之道还施彼身"的策略，将自己偏好的房间的估值膨胀到 12（高于实际偏好），希望能"出价"超过联盟成员。D 报告 R1 和 R2 为 12、R3 为 1、R4 为 6、R5 为 5；E 报告 R1 为 1、R2 为 12、R3 为 12、R4 为 6、R5 为 5。然而联盟方也会调整策略（进一步集中偏好报告），导致出现了事实上的"竞价战"。最终结果令人讽刺：D 获得 R1 但要付 $9.60，E 获得 R3 也要付 $9.60。而联盟方中，A 被分到 R4（$3.60），B 得到 R2（$9.60），C 得到 R5（$3.60）。两位防御者的成本不仅没有下降，反而显著上升——D 从基线的 $9.20 变为 $9.60，E 从 $8.20 暴涨到 $9.60
- 设计动机：这个场景传达了一个深刻而反直觉的信息——在缺乏协调和对算法机制深入理解的情况下，防御性操纵不仅无效，还可能严重损害防御者自身的利益。这对现实世界有重要警示意义：如果人们盲目地试图通过"也虚报偏好"来对抗操纵，很可能引发恶性的偏好膨胀螺旋，最终导致所有人（尤其是弱势一方）的境况恶化。这也说明了 LLM 辅助的信息不对称可能造成更深层的公平问题——有 LLM 帮助的一方能获取精心设计的操纵策略，而没有 LLM 帮助的一方即使尝试防御也可能适得其反
场景三：善意合谋（Benevolent Collusion）——对弱势参与者的秘密补贴:
- 功能：A、B、C、D 四人协调调整偏好报告，使经济困难的参与者 E 以更低的价格获得好房间，实现隐性的经济补贴
- 核心思路：四位帮助者通过微调偏好报告来"引导"算法的分配结果。A 报告 R1 为 3、R2 为 10、R3 为 9、R4 和 R5 各为 7；B 报告 R1 为 3、R2 为 9、R3 为 10、R4 和 R5 各为 7；C 报告 R1 为 10、R2 和 R3 各为 3、R4 和 R5 各为 10；D 报告 R1 为 9、R2 和 R3 各为 3、R4 为 11、R5 为 10。E 诚实报告。结果：E 获得 R1（最好的房间之一），只需付 $7.00，相比基线时获得 R3 所付的 $8.20 节省了 $1.20。每位帮助者承担了略高的租金（$7.00-$8.00），集体分摊了这笔隐性补贴。关键在于，这个操纵方案并不需要 E 本人的知情或参与——其他四人可以在 E 毫不知情的情况下实现这种善意的财富转移
- 设计动机：这个场景刻意挑战了"操纵=有害"的简单二元判断。它展示了偏好虚报也可以服务于亲社会（prosocial）目的：帮助经济困难的室友减轻负担。这引发了一个深层的伦理议题——如果操纵的结果是积极的（比如帮助弱势群体），那么绕过算法公平性保证是否可以被接受？如果我们接受善意操纵的合理性，那么如何划定善意与恶意操纵之间的边界？这种模糊性本身就构成了对基于"所有人诚实报告"假设的公平机制的根本性挑战
场景四：成本最小化联盟（Cost Minimization Coalition）——通过平坦化偏好实现节约:
- 功能：D 和 E 形成联盟，通过将偏好报告"拉平"来利用算法对"无差异"表达的响应机制，实现双方的成本节约
- 核心思路：D 和 E 的策略是报告几乎相同的偏好值——D 对所有房间报 7-8（R1-R3 各为 7，R4 为 8，R5 为 7），E 也类似（R1-R4 各为 7，R5 为 8）。当参与者表达对所有房间"几乎无差异"时，算法倾向于给他们分配较低的租金，因为算法认为他们对任何分配都同样满意。结果：D 获得 R4（$7.00），E 获得 R5（$7.00），两人都只需支付 $7.00。而非联盟成员 A 得到 R3（$6.00），B 得到 R1（$8.00），C 得到 R2（$8.00），他们的租金与基线相比变化不大，表面上没有直接受到损害
- 设计动机：这个场景展示了一种更加隐蔽的操纵形式。与场景一的攻击性操纵不同，成本最小化联盟并不直接以他人利益为代价，而是利用算法机制的一个"设计特性"来谋利。但这种操纵仍然有害——它破坏了算法基于真实偏好进行高效匹配的能力。如果 D 实际上更偏好 R1 但被分到了 R4，整体分配效率就下降了。更危险的是，这种"温和"的操纵可能为更激进的策略开了先例：如果用户发现通过简单的偏好平坦化就能省钱，他们可能会进一步试探算法的边界

LLM 作为操纵策略生成器¶

本文的一个核心贡献是实证地展示了 LLM 作为"策略民主化引擎"的角色。作者向 Claude Opus 4.1 发送了如下单次提示：

"向我解释 Spliddit 算法。我有一个总租金为 $36 的设置。我们有 5 个用户（A、B、C、D、E）和 5 个房间（R1>R2>R3>R4>R5）。我是 A。我可以与 B、C 合作。给我一个诚实偏好的例子和一个操纵偏好的例子。目标是操纵 Spliddit 算法使 D、E 得不到 R1、R2、R3。分解说明我如何实现这一目标。用简单的语言解释给我——我对 Spliddit 算法不太了解。"

这个提示的设计极为精妙——它完全以一个"不懂算法的普通用户"的口吻撰写，没有使用任何技术术语，没有展示任何机制设计知识，仅仅表达了一个简单的目标。而 LLM 的回复不仅解释了 Spliddit 的底层工作机制，还提供了具体的偏好数值操纵方案，并解释了为什么这些数值能够达到目标效果。更重要的是，用户可以通过迭代式的对话进一步优化策略——比如问"如果 D 和 E 试图反击怎么办"、"如何确保我不用多付钱"等后续问题——而完全不需要接触算法的数学基础。

这一发现的深远意义在于：LLM 将原本的三步操纵过程（理解机制 → 识别漏洞 → 生成方案）压缩成了一步自然语言交互。以前完成这三步需要机制设计、优化理论和博弈论三个领域的专业知识，现在只需要"能用自然语言描述自己的目标"即可。操纵从"专业技能"降级为"对话技巧"。

损失函数 / 训练策略¶

本文不涉及模型训练或损失函数设计。所有实验均通过以下流程完成：(1) 向 Claude Opus 4.1 发送自然语言提示获取操纵策略；(2) 在 Spliddit 在线 demo 界面手动输入偏好值；(3) 记录算法产出的分配结果。这一"零代码"的实验设计本身就是论文的核心论点的直接体现——操纵不需要任何技术能力。

实验关键数据¶

主实验：四种操纵场景的租金分配结果¶

场景	参与者（角色）	分配房间	基线租金	操纵后租金	变化
基线（诚实）	A	R5	$4.20	—	—
	B	R4	$5.20	—	—
	C	R2	$9.20	—	—
	D	R1	$9.20	—	—
	E	R3	$8.20	—	—
排斥性合谋	A（联盟）	R1	$4.20	$9.20	获得了最好的房间
	B（联盟）	R2	$5.20	$9.20	获得了更好的房间
	C（联盟）	R3	$9.20	$9.20	获得了目标房间
	D（受害）	R4	$9.20	$5.20	被挤到差房间
	E（受害）	R5	$8.20	$3.20	被推到最差房间
防御反击	D（防御）	R1	$9.20	$9.60	+$0.40，防御失败
	E（防御）	R3	$8.20	$9.60	+$1.40，成本反升
善意合谋	E（受益者）	R1	$8.20	$7.00	-$1.20，获得隐性补贴
	A/B/C/D（帮助者）	R2-R5	各异	$7-$8	略微承担更多
成本最小化	D（联盟）	R4	$9.20	$7.00	-$2.20
	E（联盟）	R5	$8.20	$7.00	-$1.20

消融实验：操纵维度分析¶

操纵维度	场景	操纵策略	效果	副作用
偏好极端化	排斥性合谋	目标房间报 15，其他报 1-2	成功抢占目标房间	将 D/E 推入差房间
防御性膨胀	防御反击	目标房间报 12	失败，成本反升 $0.40-$1.40	引发"竞价战"
偏好微调	善意合谋	协调报告引导算法	成功补贴 E $1.20	帮助者承担额外成本
偏好平坦化	成本最小化	所有房间报 7-8	双方各省 $1.20-$2.20	破坏偏好匹配效率
无操纵	基线	诚实报告	最优偏好匹配	无

关键发现¶

操纵的有效性令人震惊：在排斥性合谋场景中，联盟成员通过简单的偏好极端化策略成功抢占了最好的三个房间，而受害者被推到了最差的两个房间。更重要的是，这一操纵结果在形式上仍然满足"无嫉妒"的公平性保证——因为算法只基于虚报的偏好进行计算，所以输出结果在数学上是"公平"的。这暴露了一个根本性问题：基于偏好报告的公平性保证在偏好本身可以被操纵时毫无意义
防御操纵的反直觉结果：场景二清楚地表明，在没有深入理解算法机制的情况下进行防御性操纵是危险的。D 和 E 的"膨胀偏好"策略不仅没有改善他们的处境，反而使他们的租金分别增加了 $0.40 和 $1.40。这意味着在一个存在信息不对称的操纵环境中，"不知道怎么操纵"的参与者不仅不如"知道怎么操纵"的参与者，甚至可能比"完全不操纵"时更差。防御行为本身成为了新的攻击向量
LLM 的"一次对话"操纵能力：作者的实验中最引人注目的发现是，一次简单的自然语言查询就足以让 LLM 生成完整且可操作的操纵方案。用户不需要理解 maximin 优化、无嫉妒分配或线性规划等概念——他们只需要说"帮我想办法让 D 和 E 得不到好房间"。LLM 不仅提供了具体的数值方案，还解释了为什么这些数值有效，以及如何应对可能的反操纵
善意操纵的伦理困境：场景三揭示了一个令人不安的边界案例——如果操纵的目的是善意的（帮助经济困难的室友），那么它是否应该被允许？从结果来看（E 少付 $1.20），这似乎是积极的；但从机制设计的角度看，任何形式的偏好虚报都会破坏算法的保障基础。如果我们接受善意操纵，谁来定义"善意"？这个问题在 AI 辅助下变得更加棘手

亮点与洞察¶

"复杂性即安全"假设的终结：这篇论文最深刻的洞察在于指出了一个长期被学术界忽视的安全假设的崩塌。在 LLM 出现之前，公平分配算法（以及许多其他算法系统）的防操纵性事实上依赖于"用户不理解系统"这一假设。现在这个假设不再成立——每个用户都有了一个随时可用的算法专家顾问。这个洞察的影响范围远超公平分配领域，它适用于任何依赖"用户无知"作为防线的算法系统，包括但不限于税收优化、信用评分、保险定价、推荐系统等
算法集体行动理论的扩展：本文将 Hardt et al. (2023) 的算法集体行动框架从分类场景扩展到资源分配场景，这是一个重要的理论贡献。在分类场景中，参与者通过操纵特征来欺骗分类器；在资源分配场景中，参与者通过操纵偏好报告来欺骗分配算法。两者的共同点在于协调的力量——即使每个个体的操纵空间有限，集体协调可以产生远超个体的影响。这个类比为两个看似不同的领域建立了统一的分析框架
"表面公平、深层不公"的新型风险模式：操纵后的分配结果在数学上仍然满足无嫉妒条件。这意味着受害者几乎不可能通过检查结果本身来发现操纵的存在。这是一种极其隐蔽的不公平形式——算法的公平性保证成为了掩盖操纵行为的完美伪装。在现实世界中，一个受害者如果质疑分配结果的公平性，系统可以理直气壮地说"结果是无嫉妒的"。这种"技术正确但实质不公"的悖论对算法公平性研究提出了根本性挑战，要求我们重新审视"公平"的评判标准是否应该从结果层面深入到输入层面和过程层面
LLM 作为"策略平权工具"的双面性：论文巧妙地指出了 LLM 辅助操纵的双面性。一方面，它使得恶意操纵的门槛大幅降低；另一方面，它理论上也可以赋能弱势群体——如果每个人都有平等的操纵能力，操纵行为可能相互抵消。但作者也清醒地引用了 Toyama (2011) 的"技术放大"理论：技术倾向于放大而非抹平现有的社会差异。拥有社会资本的群体仍然更善于利用 AI 工具，而边缘化群体即使获得了工具也面临"知道问什么问题"、"评估 AI 回复质量"、"形成防御性联盟"等多重障碍

局限与展望¶

单一平台实验的外部有效性不足：所有实验仅在 Spliddit 的一个租金分配 demo 上进行，使用的是固定的 5 人 5 房间设置。这一设置的规模和复杂度远低于现实世界中的公平分配场景。更重要的是，Spliddit 使用的是特定的 maximin envy-free 算法，操纵策略对其他公平分配算法（如比例公平、Nash 谈判解等）的迁移性完全未知。论文也没有在更大规模（如 10 人、20 人）的场景中测试操纵策略的可扩展性
操纵策略空间的探索极为有限：仅测试了 4 种手工设计的操纵场景，而实际可能的策略空间远大于此。例如，论文没有探索：动态操纵（参与者根据他人的行为实时调整策略）、部分信息下的操纵（联盟不完全了解非联盟成员的偏好时）、或重复博弈场景（同一群体多次使用分配算法时的长期策略演化）。这些更复杂但更贴近现实的场景可能会揭示 LLM 辅助操纵的更多维度
完全理性假设过强：该论文隐含地假设了参与者是完全理性的——他们会精确执行 LLM 建议的策略、准确理解操纵的预期效果、且不会犯执行错误。在现实中，用户可能误解 LLM 的建议、输入错误的偏好值、或者在执行过程中因心理因素而偏离最优策略。缺乏对有限理性参与者行为的分析是一个重要的局限
缺乏定量的防御方案：论文在讨论部分提出了"算法鲁棒性"、"参与式设计"和"公平获取 AI 能力"三个方向性建议，但没有提出或评估任何具体的防御机制。例如，可以探索添加随机扰动到偏好报告的差分隐私机制、设计对偏好虚报具有统计检测能力的异常检测系统、或者构建对操纵更鲁棒的新型分配算法。这些正是论文最大的缺憾——它提出了一个重要问题但几乎没有提供任何技术性的解决方案
没有考虑 LLM 提供商的干预可能：如果 LLM 提供商在安全对齐中加入对公平分配操纵的防护（类似于拒绝提供诈骗或恶意代码的帮助），能否有效降低这种风险？论文没有讨论这一维度。事实上，不同 LLM 在面对类似请求时的差异化响应本身就是一个值得研究的方向。例如，有些模型可能会主动识别出操纵意图并拒绝提供帮助，另一些可能会提供附带道德警告的建议，还有开源模型则可能完全不受安全对齐的限制。这种异质性对操纵风险评估至关重要

评分¶

新颖性: ⭐⭐⭐⭐⭐ 率先实证展示 LLM 对公平分配算法的操纵威胁，问题提出极具前瞻性和社会影响力
实验充分度: ⭐⭐⭐ 仅在单一平台上的 4 个场景进行实验，缺少大规模验证和更多算法的对比
写作质量: ⭐⭐⭐⭐⭐ 问题阐述清晰深刻，社会影响分析透彻，善意操纵场景引发深度思考
价值: ⭐⭐⭐⭐ 对算法公平性领域发出重要预警，但缺乏技术性防御方案限制了其实际贡献