Re-ranking Using Large Language Models for Mitigating Exposure to Harmful Content on Social Media Platforms¶
会议: ACL 2025
arXiv: 2501.13977
代码: 无
领域: ai_safety
关键词: content moderation, LLM re-ranking, harmful content, social media, pairwise comparison
一句话总结¶
提出基于 LLM 的成对偏好重排序方法,在零样本和少样本设置下对社交媒体推荐序列中的有害内容进行降级排序,显著优于 Perspective API 和 OpenAI Moderation API 等工业级分类器,同时引入 PP-k 和 EWN 两个新评估指标。
研究背景与动机¶
- 领域现状:社交媒体平台使用推荐算法最大化用户参与度,但这可能导致用户暴露于有害内容(虚假信息、仇恨言论、成瘾内容等)。现有审核依赖大量人工标注数据训练的分类器。
- 现有痛点:(a) 分类器需要大量标注数据,扩展性差;(b) 有害内容形式动态变化(concept drift),分类器无法自动泛化到新型有害内容。
- 核心矛盾:既需要大规模处理能力,又需要适应不断变化的有害内容定义,传统分类器难以兼顾。
- 本文要解决什么? 能否利用 LLM 的推理能力,在零样本/少样本设置下通过重排序降低有害内容曝光?
- 切入角度:不做绝对的有害/无害分类,而是通过成对比较判断相对有害性,据此重排序推荐序列,将有害内容推到序列末尾(降级而非删除,保留自由表达)。
- 核心 idea 一句话:用 LLM 做成对有害性比较并重排序,比训练过的专用分类器更能有效降低有害内容曝光。
方法详解¶
整体框架¶
输入是推荐内容序列 \(X = \{x_i\}_{i=1}^n\)(如 YouTube 视频描述),LLM 对所有内容对 \((x_i, x_j)\) 做成对比较判断哪个更有害,累计得分后升序排序——有害内容自然被推到序列末端。
关键设计¶
- Preferential Pairwise Ranking(偏好成对排序):
- 做什么:对序列中所有内容对让 LLM 判断哪个更有害
- 核心思路:改进 Qin et al. (2024) 的评分函数——被判为有害的内容得分+1,如果 LLM 认为两个都无害则跳过(不加分),避免无害内容被误降级。最终按得分升序排序。
-
设计动机:成对比较利用了 LLM 上下文窗口的优势,比独立分类更准确;降级而非删除保障表达自由。
-
三种偏好约束设置(Preference Constraints):
- Zero-Shot:仅让 LLM 用内置的有害性理解判断
- Zero-Shot + Prompt Engineering:在 prompt 中显式定义"害"的标准和特征
- Few-Shot ICL:提供有害内容示例,通过 K-Means 聚类选择代表性样本作为 exemplar,避免偏向特定类型
-
设计动机:逐级提供更多信息,研究 LLM 在不同信息量下的表现
-
新评估指标:
- PP-k(Per-Pref-k):用户需要消费多大比例的序列才会遇到第 k 个有害内容,值越高越好
- EWN(Exponentially Weighted Normalization):用指数衰减权重衡量排序质量,归一化到 [0,1],与有害内容比例无关
实验关键数据¶
主实验(YouTube 数据集,30% 有害比例)¶
| 方法 | TP-5 | TP-10 | EWN |
|---|---|---|---|
| Original | ~0.72 | ~0.70 | 0.487 |
| Perspective API | ~0.78 | ~0.74 | ~0.65 |
| OpenAI Moderation | ~0.80 | ~0.75 | ~0.68 |
| Zero-Shot (GPT-3.5) | ~0.84 | ~0.80 | ~0.73 |
| Zero-Shot + PE | ~0.87 | ~0.83 | ~0.76 |
| Few-Shot ICL | ~0.88 | ~0.84 | ~0.77 |
跨模型实验¶
| LLM | EWN (Zero-Shot) | EWN (Few-Shot) |
|---|---|---|
| GPT-3.5-Turbo | 最高 | 最高 |
| Mistral-7B | 落后 ~10% | 落后 ~10% |
| Llama2-13B | 低于 OpenAI Mod 基线 | 低于基线 |
关键发现¶
- 即使在零样本设置下,LLM 重排序也优于经过大量数据训练的 Perspective API 和 OpenAI Moderation
- 有害内容比例从 10% 增加到 50% 时,LLM 方法性能降幅(~23%)远小于传统方法(~40%)
- ICL 的 exemplar 数量并非越多越好,4 个就够了,过多反而降低性能
- Mistral-7B 虽仅 7B 参数,但性能与 GPT-3.5 相差仅 ~10%,可本地部署
亮点与洞察¶
- "降级而非删除"的策略在实际平台审核中更可行——保留自由表达的同时减少曝光
- 成对比较思路可迁移到其他需要相对判断的任务(如内容质量排序、推荐多样性优化)
- 基于聚类的 ICL exemplar 选择方法确保了代表性,避免偏向某类有害内容
局限性 / 可改进方向¶
- 成对比较的复杂度为 \(O(n^2)\),序列长度增大时 API 调用成本高
- 仅使用文本描述,未利用视频/图像等多模态信息
- Llama2-13B 表现不佳,说明方法对 LLM 能力有一定要求
- 未评估对用户参与度/留存率的实际影响
相关工作与启发¶
- vs Perspective API: 作为专用毒性检测工具表现不如 LLM 的通用推理能力
- vs Qin et al. (2024): 沿用其成对排序框架但改进评分函数,适配有害内容降级场景
- vs 传统分类器: 不需要标注数据和训练,对 concept drift 更鲁棒
评分¶
- 新颖性: ⭐⭐⭐ 成对重排序思路不算新,但应用于有害内容审核有实际价值
- 实验充分度: ⭐⭐⭐⭐ 3 个数据集、3 个模型、3 种设置,跨维度对比充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,新指标推导完整
- 价值: ⭐⭐⭐⭐ 对平台内容审核有直接应用价值,零样本能力是亮点