Context-Aware Sentiment Forecasting via LLM-based Multi-Perspective Role-Playing Agents¶
会议: ACL 2025
arXiv: 2505.24331
代码: https://github.com/ManFanhang/Context-Aware-Sentiment-Forecasting-via-LLM-based-Multi-Perspective-Role-Playing-Agents
领域: LLM Agent
关键词: 情感预测, 角色扮演, 多智能体, 社交媒体, 行为心理学
一句话总结¶
提出一个基于 LLM 的多视角角色扮演框架(MPR),通过主观 Agent 模拟用户发帖、客观 Agent(微调的"心理学家"LLM)审查行为一致性,以迭代纠正的方式预测社交媒体用户对实时事件的未来情感反应,在宏观和微观层面均大幅超越传统方法。
研究背景与动机¶
-
领域现状:社交媒体情感分析是传统 NLP 热门方向,现有工作主要做回顾性分析——给定一条已存在的评论,判断它的情感极性。情感演化研究也多基于用户间的相互影响建模(如 SINN、DeGroot 模型)。
-
现有痛点:(a) 现有方法只考虑用户间相互影响,忽略了外部事件上下文对情感的驱动作用——比如飓风登陆、选举结果公布会剧烈改变公众情绪;(b) 传统方法将情感建模为连续演化过程,难以捕捉剧烈情感跳变(如从 -2 到 +2);(c) 社交媒体用户的个人特征(语气风格、对事件态度)难以获取且建模困难。
-
核心矛盾:情感预测(forecasting)本质上是前瞻性推理任务,需要综合理解复杂事件语义、用户个性特征和社交影响,但传统数值模型和浅层神经网络缺乏这种综合推理能力。
-
本文要解决什么? 将情感预测形式化为一个推理问题:给定时间 \(t\) 之前的所有信息(用户历史评论、事件上下文、关注者评论),预测用户在未来时间 \(t'\) 的情感 \(\sigma_{t'}\)。
-
切入角度:借助 LLM 的角色扮演能力模拟用户行为——但单纯角色扮演有随机性问题,因此引入"心理学家"LLM 作为客观审查者,通过迭代纠正保证行为一致性。
-
核心idea一句话:用双 Agent(主观用户 + 客观心理学家)角色扮演框架将情感预测转化为"模拟用户发帖 → 审查一致性 → 迭代修正"的推理流程。
方法详解¶
整体框架¶
输入:用户历史评论 \(\mathcal{C}_t^u\)、用户属性 \(\mathcal{A}^u\)、事件上下文 \(\mathcal{E}_t^u\)、关注者评论 \(\mathcal{F}_t^u\)。输出:用户在未来时间 \(t'\) 的情感得分 \(\sigma_{t'}\)。整个流程分四个阶段:特征提取 → 主观 Agent 生成评论 → 客观 Agent 审查一致性 → 迭代纠正。最终对生成的评论用 BERT 情感分类器获取情感标签。
关键设计¶
- 特征提取(Feature Extraction):
- 做什么:从用户历史评论中提取两类隐式特征——文本语气风格 \(\nu_t^u\)(如讽刺、幽默、正式)和对事件的态度 \(\alpha_t^u\)
- 核心思路:直接用 LLM 分析用户历史评论,语气提取为 3 个描述性形容词;态度提取则综合语气、历史评论和事件上下文,允许态度随事件演化而变化
-
设计动机:社交媒体用户匿名性强,无法获取人口统计学标签,但从用户生成内容中可以推断出影响情感表达的关键特征。语气风格相对稳定(社交形象一致性),态度则随事件动态变化
-
主观角色扮演 Agent(Subjective Agent):
- 做什么:LLM 扮演目标用户,浏览关注者评论后生成一条未来评论 \(\phi_{t'}^u\)
- 核心思路:将提取的特征(语气、态度、属性)和用户历史评论作为上下文注入 LLM,用 few-shot 方式让 LLM 模仿用户发帖风格。先浏览关注者评论模拟信息获取过程,再基于事件最新发展生成未来评论
-
设计动机:直接预测情感分数(MPR-RP 变体)效果接近随机猜测,说明必须先模拟人类的"获取信息→思考→表达"过程。选用 Gemma 2 9B 和 Mistral NeMo 12B 是因为 GPT 系列会过滤负面/攻击性内容,不适合模拟真实社交媒体用户
-
客观角色扮演 Agent(Objective Agent):
- 做什么:微调的"行为心理学家"LLM 审查主观 Agent 生成的评论,判断语气一致性和态度变化合理性
- 核心思路:先由 3 位行为心理学专家标注评论一致性(Fleiss' Kappa = 0.796),再用 GPT-4o 扩展到 25,000 条审查样本,对 Llama 3 8B Instruct 进行 LoRA 微调。审查输出为"是否一致"+"不一致分析"
-
设计动机:纯角色扮演有高随机性,生成的评论可能与用户历史行为不一致。引入心理学专业知识的 LLM 作为"审稿人"可以约束随机性,确保生成评论的行为合理性
-
迭代纠正(Iterative Rectification):
- 做什么:对通不过一致性检查的评论,将客观 Agent 的分析反馈给主观 Agent 重新生成,最多迭代 \(n=3\) 次
- 核心思路:类似于论文审稿中的"修改-再审"循环,客观 Agent 的具体分析(而非简单的是/否)指导主观 Agent 调整生成方向
- 设计动机:平衡计算效率和纠正效果,3 次迭代是实验确定的最佳权衡点
损失函数 / 训练策略¶
客观 Agent 的微调使用标准的 LoRA 监督微调损失,学习率 \(\eta = 1 \times 10^{-4}\)。主观 Agent 无需训练,直接用通用 LLM 进行 zero/few-shot 角色扮演。
实验关键数据¶
主实验¶
在两个 Twitter 数据集(2012 飓风桑迪 + 2020 美国大选)上评测,分宏观(JSD 分布距离)和微观(Accuracy/Macro F1)两个层面。
宏观结果(JSD,越低越好):
| 方法 | Sandy-NJ T1 | Sandy-NY T1 | Election T3 | Election T4 |
|---|---|---|---|---|
| SINN | 0.1673 | 0.1504 | 0.0554 | 0.0625 |
| NN | 0.1904 | 0.1733 | 0.0482 | 0.0441 |
| MPRG (本文) | 0.0243 | 0.0456 | 0.0097 | 0.0053 |
| MPRM (本文) | 0.0148 | 0.0220 | 0.0106 | 0.0068 |
微观结果(Accuracy / Macro F1):
| 方法 | Sandy-NJ T1 Acc/F1 | Sandy-NY T1 Acc/F1 | Election T3 Acc/F1 | Election T4 Acc/F1 |
|---|---|---|---|---|
| SINN | 0.353/0.179 | 0.385/0.168 | 0.476/0.193 | 0.485/0.183 |
| MPRG | 0.413/0.302 | 0.396/0.292 | 0.615/0.374 | 0.596/0.397 |
| MPRM | 0.445/0.312 | 0.482/0.310 | 0.593/0.368 | 0.581/0.370 |
消融实验¶
| 配置 | Sandy-NJ T1 Acc/F1 | 说明 |
|---|---|---|
| MPR(完整) | 0.413/0.342 | 完整模型 |
| MPR-OB(去客观Agent) | 0.408/0.294 | F1 掉 4.8%,客观审查主要提升 F1 |
| MPR-FE(去特征提取) | 0.343/0.266 | Acc 掉 7%,F1 掉 7.6%,特征提取贡献显著 |
| MPR-RP(去评论生成) | 0.212/0.186 | 接近随机猜测,说明必须先生成评论再提取情感 |
关键发现¶
- 评论生成是核心:去掉评论生成(直接预测情感分数)后性能崩溃至随机水平,验证了"模拟人类行为过程"的必要性
- 特征提取贡献最大:去掉后 Accuracy 和 F1 均显著下降,说明用户语气和态度是预测情感的关键线索
- 客观 Agent 提升 F1 而非 Accuracy:说明它主要减少了"偏差大的错误预测",使预测更一致稳定
- 事件上下文依赖性:选举数据集表现明显好于飓风数据集,因为选举讨论更依赖新闻/社交媒体信息(LLM 可获取),而飓风中 15%+ 用户根据亲身经历发帖(LLM 无法获取)
- 仅预测情感极性(正/中/负)时精度可达 63.9%
亮点与洞察¶
- 将情感预测转化为行为模拟:不直接回归情感分数,而是先模拟用户发帖行为再提取情感,这种"过程模拟"思路比端到端预测更符合人类认知过程。可迁移到其他需要预测人类行为的任务(如购买意向预测、投票行为预测)
- 双 Agent 互审机制:主观 Agent 负责创造性生成,客观 Agent 负责质量把控,这种"生成-审查-修正"循环是 LLM Agent 系统中非常通用的模式
- 用心理学专业知识微调小模型:仅用 25K 样本 LoRA 微调 Llama 3 8B 就能有效充当"行为一致性审查员",成本低但效果显著
局限性 / 可改进方向¶
- 信息源有限:Agent 只能获取社交媒体上的文本信息,无法获知用户的真实生活经历(如飓风中亲身遭遇),导致 15%+ 用户的情感无法准确预测
- 仅支持文本模态:社交媒体越来越多图片/视频内容,多模态整合是明显的改进方向
- LLM 选择受限:GPT 等主流模型因安全过滤无法生成负面/攻击性内容,限制了模型选择空间
- 可扩展性:每个用户需要独立的特征提取和多轮生成-审查,计算开销随用户数线性增长
- 评估依赖 BERT 情感分类器:ground truth 标签来自 BERT 分类器(87% 准确率),本身引入了标注噪声
相关工作与启发¶
- vs SINN:SINN 用社会学模型(Stochastic bound confidence model)引导神经网络建模情感演化,但只考虑用户间互动不考虑事件上下文。本文通过 LLM 角色扮演直接整合事件语义信息
- vs 传统 LLM 角色扮演:现有角色扮演工作(如模拟动漫角色、历史人物)需要大量角色数据训练,本文只用评论历史和隐式特征提取就能扮演匿名用户,更适合大规模社交媒体场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 将情感预测建模为角色扮演+行为模拟的思路很新颖,双 Agent 互审机制设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 两个数据集多时间点测试,消融全面,但缺少更多数据集和更多 LLM 的对比
- 写作质量: ⭐⭐⭐⭐ 框架描述清晰,公式化严谨,但部分符号定义冗余
- 价值: ⭐⭐⭐⭐ 情感预测是重要应用方向,框架思路可迁移到其他用户行为预测任务