A Multi-Agent Framework for Mitigating Dialect Biases in Privacy Policy Question-Answering Systems¶

会议: ACL 2025
arXiv: 2506.02998
代码: 无
领域: LLM Agent
关键词: 多智能体, 方言偏差, 隐私政策QA, 公平性, LLM协作

一句话总结¶

提出一个双 Agent 框架（Dialect Agent + Privacy Policy Agent），通过方言感知翻译和迭代协作来消除隐私政策QA系统在不同英语方言间的性能差距，无需重训练或方言特定微调，在 PrivacyQA 和 PolicyQA 上将方言间最大性能差距降低最高 82%。

研究背景与动机¶

领域现状：隐私政策 QA 系统旨在帮助用户理解复杂的数据隐私条款。现有系统基于 LLM（如 GPT-4o-mini、Llama 3.1）通过 zero-shot 或 few-shot 方式回答隐私相关问题。
现有痛点：NLP 系统对非标准英语方言（如非裔美国人方言 AAVE、牙买加英语、威尔士英语等）表现显著更差。在隐私政策领域这一问题尤为严重——边缘化社区本身就更容易受到数据收集和隐私侵犯的影响，如果他们的方言导致 QA 系统表现更差，就形成了双重不公平。
核心矛盾：要提升多方言公平性，传统方法需要方言特定的微调数据，但在敏感领域（如隐私政策）收集这类数据困难且成本高。如何在不重训练的前提下消除方言偏差？
本文要解决什么？ 设计一个无需重训练的框架，让 LLM QA 系统在所有英语方言上表现一致且准确。
切入角度：利用 LLM 本身的多语言/多方言知识，通过结构化的 Agent 协作（翻译 + 审查 + 纠正）来弥补方言理解差距。
核心idea一句话：将方言偏差问题分解为"方言翻译→专业回答→一致性审查"的多 Agent 协作流程，通过引入方言背景知识实现零训练的公平性提升。

方法详解¶

整体框架¶

输入：方言用户提出的隐私问题 \(q_d\)（方言 \(d\)）+ 隐私政策文本 \(p\)。输出：准确的回答 \(A\)。系统由两个 Agent 协作完成：Dialect Agent（方言专家）和 Privacy Policy Agent（隐私政策专家），通过最多 2 轮迭代对话达成一致。

关键设计¶

Dialect Agent（方言翻译 + 审查 Agent）:
做什么：将用户方言问题翻译成标准美式英语（SAE），并在后续验证 Privacy Agent 的回答是否符合用户原始意图
核心思路：在 prompt 中注入目标方言的语言学背景知识（语音、语法、词汇、文化特征），使 Agent 能够准确理解方言表达并转译为 SAE。翻译时保留方言特有的文化含义和语气细微差别
设计动机：LLM 在 SAE 上训练最充分，直接处理方言时可能误解语义。通过显式翻译+方言知识注入，避免了方言理解偏差。同时 Dialect Agent 承担审查角色，确保最终回答不丢失方言用户的意图
Privacy Policy Agent（领域专家 Agent）:
做什么：基于翻译后的 SAE 问题和隐私政策文本生成回答
核心思路：作为隐私政策领域专家被 prompt，理解隐私政策的结构和术语（如 First Party Collection、Data Retention 等分类），生成精确的回答及推理依据
设计动机：专业化分工——让 Privacy Agent 专注于领域知识，不需要同时处理方言理解的复杂性
迭代协作机制:
做什么：Dialect Agent 评审 Privacy Agent 的回答，如不满意则反馈修改意见，最多循环 2 次
核心思路：Dialect Agent 拿到原始方言问题、政策文本和 Privacy Agent 的答案，判断答案是否充分捕捉用户意图。如果 Privacy Agent 遗漏了方言特定的语义细微差别，Dialect Agent 给出具体反馈，Privacy Agent 据此修正
设计动机：单次翻译+回答不够——实验表明迭代后 PrivacyQA 的 F1 从 0.53 提升到 0.59（zero-shot）。方言的语义细微差别需要多轮交互才能充分处理

损失函数 / 训练策略¶

整个框架完全基于 prompting，无需任何训练或微调。few-shot 设置下每个 Agent 使用 8 个示例，涵盖多种方言和场景。

实验关键数据¶

主实验¶

在 PrivacyQA（1750 题，35 个移动应用隐私政策）和 PolicyQA（25017 题，115 个网站隐私政策）上评测，使用 Multi-VALUE 框架将问题转换为 50 种英语方言。

PrivacyQA 结果（F1 Score）：

方法	SAE	RAAVE	牙买加	原住民	威尔士	平均	最大差距↓
GPT-4o-mini Zero	.394	.344	.332	.329	.312	.335	.093
GPT-4o-mini Few	.605	.573	.562	.555	.547	.565	.058
GPT-4o-mini MA-zero	.601	.588	.578	.587	.592	.587	.025
GPT-4o-mini MA-few	.611	.595	.596	.602	.592	.598	.019
DeepSeek-R1 MA-zero	.582	.579	.583	.579	.566	.577	.017

PolicyQA 结果（Token F1）：

方法	SAE	RAAVE	平均	最大差距↓
GPT-4o-mini Zero	.352	.343	.337	.029
GPT-4o-mini Few	.478	.423	.449	.055
GPT-4o-mini MA-few	.484	.460	.471	.024

消融实验¶

配置	PrivacyQA 初始F1	PrivacyQA 最终F1	说明
Zero-shot	0.53	0.59	迭代协作提升 +6%
Few-shot	0.58	0.61	迭代协作提升 +3%
有方言背景知识	0.577	0.597	方言知识帮助初始翻译
无方言背景知识	0.521	0.589	无知识但迭代仍可部分弥补

关键发现¶

Zero-shot Multi-agent 可匹敌 Few-shot 基线：GPT-4o-mini 的 MA-zero（0.587）超过 few-shot 基线（0.565），说明结构化 Agent 协作比简单加示例更有效
方言差距大幅缩小：最大性能差距从 0.093 降至 0.019（降低 80%），实现了更公平的跨方言表现
SAE 性能也同步提升：Multi-agent 框架不仅帮助弱势方言，对标准英语性能也有正向影响
迭代协作很重要：从 Initial 到 Final 答案，两个数据集均有一致提升，说明单次翻译不够，多轮交互才能充分处理方言语义
方言背景知识主要帮助初始阶段：有知识时初始 F1 更高，但经过迭代后差距缩小

亮点与洞察¶

零训练的公平性提升：完全通过 prompting 和 Agent 协作实现，不需要任何方言特定数据或微调。这种模式可迁移到任何需要处理多方言/多语言用户的 NLP 系统
分工设计巧妙：Dialect Agent 负责语言理解和意图保真，Privacy Agent 负责领域知识。同一个 Dialect Agent 既做翻译又做审查，一角两用，简洁高效
实际应用价值高：隐私政策 QA 是真实需求场景，边缘化社区在隐私保护上本身就处于弱势，这个框架能直接部署提升可及性

局限性 / 可改进方向¶

方言转换依赖规则系统：使用 Multi-VALUE 框架生成方言变体，是基于规则的合成数据，可能无法完全反映真实方言使用场景
方言知识的质量和覆盖度：Dialect Agent 的方言背景知识是预写的简短摘要，覆盖深度有限，对于语法差异极大的方言可能不够
仅测试了英语方言：框架是否对跨语言场景（如中文方言、西班牙语变体）有效还未验证
计算成本翻倍：双 Agent + 迭代意味着每个问题需要多次 LLM 调用，延迟和成本都增加
评估指标单一：只用 F1 衡量准确性，未评估用户体验、答案可读性等维度

评分¶

新颖性: ⭐⭐⭐⭐ 将方言公平性问题建模为 Agent 协作是新颖的切入角度，但双 Agent 协作模式本身不算新
实验充分度: ⭐⭐⭐⭐ 三个 LLM、两个数据集、五种方言、消融分析齐全，但方言数据是合成的
写作质量: ⭐⭐⭐⭐ 动机清晰，实验详实，但方法部分 prompt 描述过于冗长
价值: ⭐⭐⭐⭐ 公平性+隐私是重要交叉议题，框架可直接部署，实用性强