Context-Aware Sentiment Forecasting via LLM-based Multi-Perspective Role-Playing Agents¶

会议: ACL 2025
arXiv: 2505.24331
代码: https://github.com/ManFanhang/Context-Aware-Sentiment-Forecasting-via-LLM-based-Multi-Perspective-Role-Playing-Agents
领域: LLM Agent
关键词: 情感预测, 角色扮演, 多智能体, 社交媒体, 行为心理学

一句话总结¶

提出一个基于 LLM 的多视角角色扮演框架（MPR），通过主观 Agent 模拟用户发帖、客观 Agent（微调的"心理学家"LLM）审查行为一致性，以迭代纠正的方式预测社交媒体用户对实时事件的未来情感反应，在宏观和微观层面均大幅超越传统方法。

研究背景与动机¶

领域现状：社交媒体情感分析是传统 NLP 热门方向，现有工作主要做回顾性分析——给定一条已存在的评论，判断它的情感极性。情感演化研究也多基于用户间的相互影响建模（如 SINN、DeGroot 模型）。
现有痛点：(a) 现有方法只考虑用户间相互影响，忽略了外部事件上下文对情感的驱动作用——比如飓风登陆、选举结果公布会剧烈改变公众情绪；(b) 传统方法将情感建模为连续演化过程，难以捕捉剧烈情感跳变（如从 -2 到 +2）；(c) 社交媒体用户的个人特征（语气风格、对事件态度）难以获取且建模困难。
核心矛盾：情感预测（forecasting）本质上是前瞻性推理任务，需要综合理解复杂事件语义、用户个性特征和社交影响，但传统数值模型和浅层神经网络缺乏这种综合推理能力。
本文要解决什么？ 将情感预测形式化为一个推理问题：给定时间 \(t\) 之前的所有信息（用户历史评论、事件上下文、关注者评论），预测用户在未来时间 \(t'\) 的情感 \(\sigma_{t'}\)。
切入角度：借助 LLM 的角色扮演能力模拟用户行为——但单纯角色扮演有随机性问题，因此引入"心理学家"LLM 作为客观审查者，通过迭代纠正保证行为一致性。
核心idea一句话：用双 Agent（主观用户 + 客观心理学家）角色扮演框架将情感预测转化为"模拟用户发帖 → 审查一致性 → 迭代修正"的推理流程。

方法详解¶

整体框架¶

输入：用户历史评论 \(\mathcal{C}_t^u\)、用户属性 \(\mathcal{A}^u\)、事件上下文 \(\mathcal{E}_t^u\)、关注者评论 \(\mathcal{F}_t^u\)。输出：用户在未来时间 \(t'\) 的情感得分 \(\sigma_{t'}\)。整个流程分四个阶段：特征提取 → 主观 Agent 生成评论 → 客观 Agent 审查一致性 → 迭代纠正。最终对生成的评论用 BERT 情感分类器获取情感标签。

关键设计¶

特征提取（Feature Extraction）:
做什么：从用户历史评论中提取两类隐式特征——文本语气风格 \(\nu_t^u\)（如讽刺、幽默、正式）和对事件的态度 \(\alpha_t^u\)
核心思路：直接用 LLM 分析用户历史评论，语气提取为 3 个描述性形容词；态度提取则综合语气、历史评论和事件上下文，允许态度随事件演化而变化
设计动机：社交媒体用户匿名性强，无法获取人口统计学标签，但从用户生成内容中可以推断出影响情感表达的关键特征。语气风格相对稳定（社交形象一致性），态度则随事件动态变化
主观角色扮演 Agent（Subjective Agent）:
做什么：LLM 扮演目标用户，浏览关注者评论后生成一条未来评论 \(\phi_{t'}^u\)
核心思路：将提取的特征（语气、态度、属性）和用户历史评论作为上下文注入 LLM，用 few-shot 方式让 LLM 模仿用户发帖风格。先浏览关注者评论模拟信息获取过程，再基于事件最新发展生成未来评论
设计动机：直接预测情感分数（MPR-RP 变体）效果接近随机猜测，说明必须先模拟人类的"获取信息→思考→表达"过程。选用 Gemma 2 9B 和 Mistral NeMo 12B 是因为 GPT 系列会过滤负面/攻击性内容，不适合模拟真实社交媒体用户
客观角色扮演 Agent（Objective Agent）:
做什么：微调的"行为心理学家"LLM 审查主观 Agent 生成的评论，判断语气一致性和态度变化合理性
核心思路：先由 3 位行为心理学专家标注评论一致性（Fleiss' Kappa = 0.796），再用 GPT-4o 扩展到 25,000 条审查样本，对 Llama 3 8B Instruct 进行 LoRA 微调。审查输出为"是否一致"+"不一致分析"
设计动机：纯角色扮演有高随机性，生成的评论可能与用户历史行为不一致。引入心理学专业知识的 LLM 作为"审稿人"可以约束随机性，确保生成评论的行为合理性
迭代纠正（Iterative Rectification）:
做什么：对通不过一致性检查的评论，将客观 Agent 的分析反馈给主观 Agent 重新生成，最多迭代 \(n=3\) 次
核心思路：类似于论文审稿中的"修改-再审"循环，客观 Agent 的具体分析（而非简单的是/否）指导主观 Agent 调整生成方向
设计动机：平衡计算效率和纠正效果，3 次迭代是实验确定的最佳权衡点

损失函数 / 训练策略¶

客观 Agent 的微调使用标准的 LoRA 监督微调损失，学习率 \(\eta = 1 \times 10^{-4}\)。主观 Agent 无需训练，直接用通用 LLM 进行 zero/few-shot 角色扮演。

实验关键数据¶

主实验¶

在两个 Twitter 数据集（2012 飓风桑迪 + 2020 美国大选）上评测，分宏观（JSD 分布距离）和微观（Accuracy/Macro F1）两个层面。

宏观结果（JSD，越低越好）：

方法	Sandy-NJ T1	Sandy-NY T1	Election T3	Election T4
SINN	0.1673	0.1504	0.0554	0.0625
NN	0.1904	0.1733	0.0482	0.0441
MPRG (本文)	0.0243	0.0456	0.0097	0.0053
MPRM (本文)	0.0148	0.0220	0.0106	0.0068

微观结果（Accuracy / Macro F1）：

方法	Sandy-NJ T1 Acc/F1	Sandy-NY T1 Acc/F1	Election T3 Acc/F1	Election T4 Acc/F1
SINN	0.353/0.179	0.385/0.168	0.476/0.193	0.485/0.183
MPRG	0.413/0.302	0.396/0.292	0.615/0.374	0.596/0.397
MPRM	0.445/0.312	0.482/0.310	0.593/0.368	0.581/0.370

消融实验¶

配置	Sandy-NJ T1 Acc/F1	说明
MPR（完整）	0.413/0.342	完整模型
MPR-OB（去客观Agent）	0.408/0.294	F1 掉 4.8%，客观审查主要提升 F1
MPR-FE（去特征提取）	0.343/0.266	Acc 掉 7%，F1 掉 7.6%，特征提取贡献显著
MPR-RP（去评论生成）	0.212/0.186	接近随机猜测，说明必须先生成评论再提取情感

关键发现¶

评论生成是核心：去掉评论生成（直接预测情感分数）后性能崩溃至随机水平，验证了"模拟人类行为过程"的必要性
特征提取贡献最大：去掉后 Accuracy 和 F1 均显著下降，说明用户语气和态度是预测情感的关键线索
客观 Agent 提升 F1 而非 Accuracy：说明它主要减少了"偏差大的错误预测"，使预测更一致稳定
事件上下文依赖性：选举数据集表现明显好于飓风数据集，因为选举讨论更依赖新闻/社交媒体信息（LLM 可获取），而飓风中 15%+ 用户根据亲身经历发帖（LLM 无法获取）
仅预测情感极性（正/中/负）时精度可达 63.9%

亮点与洞察¶

将情感预测转化为行为模拟：不直接回归情感分数，而是先模拟用户发帖行为再提取情感，这种"过程模拟"思路比端到端预测更符合人类认知过程。可迁移到其他需要预测人类行为的任务（如购买意向预测、投票行为预测）
双 Agent 互审机制：主观 Agent 负责创造性生成，客观 Agent 负责质量把控，这种"生成-审查-修正"循环是 LLM Agent 系统中非常通用的模式
用心理学专业知识微调小模型：仅用 25K 样本 LoRA 微调 Llama 3 8B 就能有效充当"行为一致性审查员"，成本低但效果显著

局限性 / 可改进方向¶

信息源有限：Agent 只能获取社交媒体上的文本信息，无法获知用户的真实生活经历（如飓风中亲身遭遇），导致 15%+ 用户的情感无法准确预测
仅支持文本模态：社交媒体越来越多图片/视频内容，多模态整合是明显的改进方向
LLM 选择受限：GPT 等主流模型因安全过滤无法生成负面/攻击性内容，限制了模型选择空间
可扩展性：每个用户需要独立的特征提取和多轮生成-审查，计算开销随用户数线性增长
评估依赖 BERT 情感分类器：ground truth 标签来自 BERT 分类器（87% 准确率），本身引入了标注噪声

评分¶

新颖性: ⭐⭐⭐⭐ 将情感预测建模为角色扮演+行为模拟的思路很新颖，双 Agent 互审机制设计巧妙
实验充分度: ⭐⭐⭐⭐ 两个数据集多时间点测试，消融全面，但缺少更多数据集和更多 LLM 的对比
写作质量: ⭐⭐⭐⭐ 框架描述清晰，公式化严谨，但部分符号定义冗余
价值: ⭐⭐⭐⭐ 情感预测是重要应用方向，框架思路可迁移到其他用户行为预测任务