跳转至

Context-Aware Sentiment Forecasting via LLM-based Multi-Perspective Role-Playing Agents

会议: ACL 2025
arXiv: 2505.24331
代码: https://github.com/ManFanhang/Context-Aware-Sentiment-Forecasting-via-LLM-based-Multi-Perspective-Role-Playing-Agents
领域: LLM Agent
关键词: 情感预测, 角色扮演, 多智能体, 社交媒体, 行为心理学

一句话总结

提出一个基于 LLM 的多视角角色扮演框架(MPR),通过主观 Agent 模拟用户发帖、客观 Agent(微调的"心理学家"LLM)审查行为一致性,以迭代纠正的方式预测社交媒体用户对实时事件的未来情感反应,在宏观和微观层面均大幅超越传统方法。

研究背景与动机

  1. 领域现状:社交媒体情感分析是传统 NLP 热门方向,现有工作主要做回顾性分析——给定一条已存在的评论,判断它的情感极性。情感演化研究也多基于用户间的相互影响建模(如 SINN、DeGroot 模型)。

  2. 现有痛点:(a) 现有方法只考虑用户间相互影响,忽略了外部事件上下文对情感的驱动作用——比如飓风登陆、选举结果公布会剧烈改变公众情绪;(b) 传统方法将情感建模为连续演化过程,难以捕捉剧烈情感跳变(如从 -2 到 +2);(c) 社交媒体用户的个人特征(语气风格、对事件态度)难以获取且建模困难。

  3. 核心矛盾:情感预测(forecasting)本质上是前瞻性推理任务,需要综合理解复杂事件语义、用户个性特征和社交影响,但传统数值模型和浅层神经网络缺乏这种综合推理能力。

  4. 本文要解决什么? 将情感预测形式化为一个推理问题:给定时间 \(t\) 之前的所有信息(用户历史评论、事件上下文、关注者评论),预测用户在未来时间 \(t'\) 的情感 \(\sigma_{t'}\)

  5. 切入角度:借助 LLM 的角色扮演能力模拟用户行为——但单纯角色扮演有随机性问题,因此引入"心理学家"LLM 作为客观审查者,通过迭代纠正保证行为一致性。

  6. 核心idea一句话:用双 Agent(主观用户 + 客观心理学家)角色扮演框架将情感预测转化为"模拟用户发帖 → 审查一致性 → 迭代修正"的推理流程。

方法详解

整体框架

输入:用户历史评论 \(\mathcal{C}_t^u\)、用户属性 \(\mathcal{A}^u\)、事件上下文 \(\mathcal{E}_t^u\)、关注者评论 \(\mathcal{F}_t^u\)。输出:用户在未来时间 \(t'\) 的情感得分 \(\sigma_{t'}\)。整个流程分四个阶段:特征提取 → 主观 Agent 生成评论 → 客观 Agent 审查一致性 → 迭代纠正。最终对生成的评论用 BERT 情感分类器获取情感标签。

关键设计

  1. 特征提取(Feature Extraction):
  2. 做什么:从用户历史评论中提取两类隐式特征——文本语气风格 \(\nu_t^u\)(如讽刺、幽默、正式)和对事件的态度 \(\alpha_t^u\)
  3. 核心思路:直接用 LLM 分析用户历史评论,语气提取为 3 个描述性形容词;态度提取则综合语气、历史评论和事件上下文,允许态度随事件演化而变化
  4. 设计动机:社交媒体用户匿名性强,无法获取人口统计学标签,但从用户生成内容中可以推断出影响情感表达的关键特征。语气风格相对稳定(社交形象一致性),态度则随事件动态变化

  5. 主观角色扮演 Agent(Subjective Agent):

  6. 做什么:LLM 扮演目标用户,浏览关注者评论后生成一条未来评论 \(\phi_{t'}^u\)
  7. 核心思路:将提取的特征(语气、态度、属性)和用户历史评论作为上下文注入 LLM,用 few-shot 方式让 LLM 模仿用户发帖风格。先浏览关注者评论模拟信息获取过程,再基于事件最新发展生成未来评论
  8. 设计动机:直接预测情感分数(MPR-RP 变体)效果接近随机猜测,说明必须先模拟人类的"获取信息→思考→表达"过程。选用 Gemma 2 9B 和 Mistral NeMo 12B 是因为 GPT 系列会过滤负面/攻击性内容,不适合模拟真实社交媒体用户

  9. 客观角色扮演 Agent(Objective Agent):

  10. 做什么:微调的"行为心理学家"LLM 审查主观 Agent 生成的评论,判断语气一致性和态度变化合理性
  11. 核心思路:先由 3 位行为心理学专家标注评论一致性(Fleiss' Kappa = 0.796),再用 GPT-4o 扩展到 25,000 条审查样本,对 Llama 3 8B Instruct 进行 LoRA 微调。审查输出为"是否一致"+"不一致分析"
  12. 设计动机:纯角色扮演有高随机性,生成的评论可能与用户历史行为不一致。引入心理学专业知识的 LLM 作为"审稿人"可以约束随机性,确保生成评论的行为合理性

  13. 迭代纠正(Iterative Rectification):

  14. 做什么:对通不过一致性检查的评论,将客观 Agent 的分析反馈给主观 Agent 重新生成,最多迭代 \(n=3\)
  15. 核心思路:类似于论文审稿中的"修改-再审"循环,客观 Agent 的具体分析(而非简单的是/否)指导主观 Agent 调整生成方向
  16. 设计动机:平衡计算效率和纠正效果,3 次迭代是实验确定的最佳权衡点

损失函数 / 训练策略

客观 Agent 的微调使用标准的 LoRA 监督微调损失,学习率 \(\eta = 1 \times 10^{-4}\)。主观 Agent 无需训练,直接用通用 LLM 进行 zero/few-shot 角色扮演。

实验关键数据

主实验

在两个 Twitter 数据集(2012 飓风桑迪 + 2020 美国大选)上评测,分宏观(JSD 分布距离)和微观(Accuracy/Macro F1)两个层面。

宏观结果(JSD,越低越好)

方法 Sandy-NJ T1 Sandy-NY T1 Election T3 Election T4
SINN 0.1673 0.1504 0.0554 0.0625
NN 0.1904 0.1733 0.0482 0.0441
MPRG (本文) 0.0243 0.0456 0.0097 0.0053
MPRM (本文) 0.0148 0.0220 0.0106 0.0068

微观结果(Accuracy / Macro F1)

方法 Sandy-NJ T1 Acc/F1 Sandy-NY T1 Acc/F1 Election T3 Acc/F1 Election T4 Acc/F1
SINN 0.353/0.179 0.385/0.168 0.476/0.193 0.485/0.183
MPRG 0.413/0.302 0.396/0.292 0.615/0.374 0.596/0.397
MPRM 0.445/0.312 0.482/0.310 0.593/0.368 0.581/0.370

消融实验

配置 Sandy-NJ T1 Acc/F1 说明
MPR(完整) 0.413/0.342 完整模型
MPR-OB(去客观Agent) 0.408/0.294 F1 掉 4.8%,客观审查主要提升 F1
MPR-FE(去特征提取) 0.343/0.266 Acc 掉 7%,F1 掉 7.6%,特征提取贡献显著
MPR-RP(去评论生成) 0.212/0.186 接近随机猜测,说明必须先生成评论再提取情感

关键发现

  • 评论生成是核心:去掉评论生成(直接预测情感分数)后性能崩溃至随机水平,验证了"模拟人类行为过程"的必要性
  • 特征提取贡献最大:去掉后 Accuracy 和 F1 均显著下降,说明用户语气和态度是预测情感的关键线索
  • 客观 Agent 提升 F1 而非 Accuracy:说明它主要减少了"偏差大的错误预测",使预测更一致稳定
  • 事件上下文依赖性:选举数据集表现明显好于飓风数据集,因为选举讨论更依赖新闻/社交媒体信息(LLM 可获取),而飓风中 15%+ 用户根据亲身经历发帖(LLM 无法获取)
  • 仅预测情感极性(正/中/负)时精度可达 63.9%

亮点与洞察

  • 将情感预测转化为行为模拟:不直接回归情感分数,而是先模拟用户发帖行为再提取情感,这种"过程模拟"思路比端到端预测更符合人类认知过程。可迁移到其他需要预测人类行为的任务(如购买意向预测、投票行为预测)
  • 双 Agent 互审机制:主观 Agent 负责创造性生成,客观 Agent 负责质量把控,这种"生成-审查-修正"循环是 LLM Agent 系统中非常通用的模式
  • 用心理学专业知识微调小模型:仅用 25K 样本 LoRA 微调 Llama 3 8B 就能有效充当"行为一致性审查员",成本低但效果显著

局限性 / 可改进方向

  • 信息源有限:Agent 只能获取社交媒体上的文本信息,无法获知用户的真实生活经历(如飓风中亲身遭遇),导致 15%+ 用户的情感无法准确预测
  • 仅支持文本模态:社交媒体越来越多图片/视频内容,多模态整合是明显的改进方向
  • LLM 选择受限:GPT 等主流模型因安全过滤无法生成负面/攻击性内容,限制了模型选择空间
  • 可扩展性:每个用户需要独立的特征提取和多轮生成-审查,计算开销随用户数线性增长
  • 评估依赖 BERT 情感分类器:ground truth 标签来自 BERT 分类器(87% 准确率),本身引入了标注噪声

相关工作与启发

  • vs SINN:SINN 用社会学模型(Stochastic bound confidence model)引导神经网络建模情感演化,但只考虑用户间互动不考虑事件上下文。本文通过 LLM 角色扮演直接整合事件语义信息
  • vs 传统 LLM 角色扮演:现有角色扮演工作(如模拟动漫角色、历史人物)需要大量角色数据训练,本文只用评论历史和隐式特征提取就能扮演匿名用户,更适合大规模社交媒体场景

评分

  • 新颖性: ⭐⭐⭐⭐ 将情感预测建模为角色扮演+行为模拟的思路很新颖,双 Agent 互审机制设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 两个数据集多时间点测试,消融全面,但缺少更多数据集和更多 LLM 的对比
  • 写作质量: ⭐⭐⭐⭐ 框架描述清晰,公式化严谨,但部分符号定义冗余
  • 价值: ⭐⭐⭐⭐ 情感预测是重要应用方向,框架思路可迁移到其他用户行为预测任务