Counterspeech the Ultimate Shield! Multi-Conditioned Counterspeech Generation through Attributed Prefix Learning¶

会议: ACL 2025
arXiv: 2505.11958
代码: GitHub 开源
领域: 文本生成
关键词: 反仇恨言论, 前缀学习, 多属性条件生成, 偏好优化, 有害内容对抗

一句话总结¶

提出 HiPPrO 两阶段框架用于多条件反仇恨言论生成——第一阶段通过层次化前缀学习在多个属性（策略+情感）空间中优化反言论生成，第二阶段用无参考无奖励的偏好优化提升建设性，策略一致性提升 ~38%，ROUGE 指标提升 2-3%。

领域现状：反仇恨言论（counterspeech）是对抗在线仇恨言论的有力工具。之前的研究主要在单一条件（如特定策略）下生成反言论。
现有痛点：(a) 仅根据单一策略（如"幽默"或"事实纠正"）生成反言论不够细致——现实中有效的反言论同时考虑策略和情感调性；(b) 多属性同时条件化的生成研究空白；(c) 生成的反言论可能不够"建设性"——需要偏好优化。
核心矛盾：多属性条件化增加了控制难度——如何同时满足"使用事实纠正策略"+"表达同理心情感"两个条件？
本文要解决什么？ 同时基于策略和情感两个维度生成更有效的反仇恨言论。
切入角度：用层次化前缀嵌入空间编码不同属性——每个属性有独立的前缀参数空间，通过层次化组合实现多属性联合控制。
核心idea一句话：层次化前缀学习融合多属性 + 偏好优化提升建设性。

两阶段流水线：(1) 层次化前缀学习——为策略属性和情感属性分别学习前缀嵌入，层次化组合后引导生成；(2) 偏好优化——用无参考无奖励的 DPO 变体进一步优化生成质量和建设性。

层次化前缀优化（Hierarchical Prefix Optimization）:
做什么：为不同属性学习专用的前缀嵌入空间
核心思路：策略前缀 \(P_{strategy}\) 编码反言论策略（如幽默/事实/同情），情感前缀 \(P_{emotion}\) 编码情感调性（如平静/坚定/温和）。通过层次化融合——先用策略前缀生成框架，再用情感前缀调整语调
设计动机：属性独立的前缀空间避免了不同属性的干扰，层次化组合允许灵活的多属性控制
无参考偏好优化:
做什么：在前缀学习之上进一步提升生成的建设性
核心思路：使用不需要参考模型和奖励模型的 DPO 变体（如 SimPO 或 ORPO），减少计算开销
设计动机：前缀学习保证属性一致性，偏好优化保证生成质量——两者互补
数据集扩展:
做什么：为现有反仇恨言论数据集添加情感标注
核心思路：对 IntentCONANv2 的 13,973 条反言论用 5 位标注者标注情感标签
设计动机：之前数据集只有策略标签没有情感标签，无法训练多属性模型

方法	策略一致性(↑)	Rouge-1	Rouge-L	建设性(人评↑)
单属性基线	基线	基线	基线	中
多属性(无层次)	中	中	中	中
HiPPrO	+38%	+3%	+3%	最高