Beyond Single Labels: Improving Conversational Recommendation through LLM-Powered Data Augmentation¶

会议: ACL 2025
arXiv: 2508.05657
代码: github.com/xu1110/FNSCRS
领域: 推荐系统
关键词: 对话推荐系统, 数据增强, 假阴性问题, 大语言模型, 两阶段训练

一句话总结¶

针对对话推荐系统中的假阴性问题（用户可能喜欢的item被错误标记为负样本），提出基于LLM的数据增强框架，通过语义检索+相关性打分生成合成标签，再通过两阶段训练策略平衡语义相关性和协同信息。

对话推荐系统（CRS）通过多轮对话与用户交互来提供推荐，但在训练过程中面临严重的假阴性问题：

问题实例：用户说"我想看搞笑警察电影"，训练数据中只有一部电影标记为正样本，其他符合条件的搞笑警察电影都被错误视为负样本。
CRS场景的独特挑战：与传统推荐系统不同，CRS数据集富含丰富的语义信息（对话上下文），增强标签时需要同时保证：(1) 与对话上下文的语义相关性；(2) 保留数据集中固有的协同信息（用户行为的共性和趋势）。
LLM的局限性：虽然LLM擅长理解语义相关性，但难以有效捕获协同信息。过度依赖LLM建议的标签可能导致推荐偏向语义一致性而忽略协同信息，降低用户满意度。

现有方法要么将假阴性样本视为噪声进行缓解（如降低负采样概率），要么通过增强数据集来扩展标签集，但在CRS场景中缺乏有效的语义相关性与协同信息的平衡机制。

方法分为两个阶段：数据合成阶段和模型训练阶段。

数据合成阶段：使用LLM进行语义检索和相关性评分，生成合成训练数据。 模型训练阶段：两阶段训练——先用合成数据预训练学习语义关系，再用原始数据微调整合协同信息。

LLM语义检索器（Relevant Items Retrieval）：
- 核心思路：仅基于语义信息检索候选item，不考虑协同信息，从而避免流行度偏差等协同信息带来的偏见。
- 使用GritLM作为文本编码器，将item描述文本和对话上下文编码为稠密向量。
- 通过最大内积搜索为每个对话上下文检索top-50最相似item。
- 设计动机：初始阶段忽略协同信息可以覆盖更广范围的item，避免过度聚焦热门item。
LLM相关性评分器（Relevance Estimation）：
- 使用GPT-4生成context-item-score三元组作为训练数据（链式思维提示）。
- 训练Gemma2-9b为每个候选item打0-4分的细粒度相关性分数。
- 阈值设为3.5，保留高分item构成合成训练数据集。
- 效果：ReDial原始29,810个正样本扩展到377,313个，INSPIRED从1,404扩展到15,891个。
两阶段训练策略：
- 阶段一（预训练）：在合成数据集上使用标准交叉熵损失训练推荐器，学习用户偏好与item之间的语义关系，避免原始数据中的偏见。
- 阶段二（微调）：在原始真实数据集上微调，整合协同信息。引入标签平滑项（基于KL散度），使用预训练模型的输出作为软标签，通过系数α控制对协同信息的依赖程度。
- 设计动机：先学语义再学协同，允许以可控方式整合两类信息。

预训练阶段：标准交叉熵损失 $$L_{pre} = -\sum_{i=1}^{N}\sum_{j=1}^{M} y_{i,j} \cdot \log P(i,j)$$

微调阶段：交叉熵 + 标签平滑 $$L_{finetune} = L_{ce} + \alpha \cdot L_{soft}$$ $$L_{soft} = \sum_{i=1}^{N} D_{KL}(P(i), \hat{y_i})$$

其中α越大表示对协同信息的依赖越小。

模型	ReDial R@1	ReDial R@10	ReDial R@50	INSPIRED R@1	INSPIRED R@10	INSPIRED R@50
BARCOR	3.13	17.34	36.32	2.86	11.06	30.81
BARCOR + ours	4.31	21.26	43.84	3.73	21.12	43.11
UniCRS	3.53	19.60	40.50	3.97	20.00	40.66
UniCRS + ours	3.76	20.93	42.74	5.43	22.91	39.47
Llama2	3.93	20.74	41.34	4.46	11.68	34.16
Llama2 + ours	4.46	22.37	44.20	9.32	28.26	50.93

用户模拟器评估中提升更为显著：Llama2在INSPIRED上R@50从34.78提升到73.29（+111%）。

配置	ReDial R@10	INSPIRED R@10	说明
BARCOR基线	17.34	11.06	无增强
+ Self-Distillation	19.95	19.38	使用协同+语义检索
+ CFCRS	18.98	20.50	反事实对话模拟
+ Ours	21.26	21.12	语义优先+两阶段

一致性提升：方法在三个骨干模型、两个数据集、两种评估方式下均稳定提升，展现了强泛健壮性。
超越零样本LLM：即使使用更小的模型，本方法也优于GPT-3.5和GPT-4o的零样本推荐（Llama2+ours R@10 22.37 vs GPT-4o 17.20）。
语义优先优于混合检索：与同时使用协同和语义信息的Self-Distillation相比，初始阶段仅用语义信息反而效果更好，验证了避免协同偏见的策略有效性。
合成数据量级：ReDial合成数据约扩大12.7倍，INSPIRED约扩大11.3倍。