Facial-R1: Aligning Reasoning and Recognition for Facial Emotion Analysis¶

会议: AAAI 2026
arXiv: 2511.10254
代码: https://github.com/RobitsG/Facial-R1
领域: Human Understanding
关键词: 面部情绪分析, 强化学习, Action Unit, 视觉语言模型, GRPO

一句话总结¶

提出 Facial-R1，一个三阶段对齐训练框架（SFT → RL → 数据合成），通过将 AU 和情绪标签作为可验证奖励信号来对齐 VLM 的推理过程与情绪识别结果，在 8 个基准上达到 SOTA，并构建了 FEA-20K 数据集。

研究背景与动机¶

面部情绪分析（Facial Emotion Analysis, FEA）是传统面部情绪识别（FER）的扩展，它不仅要给出情绪标签，还需要识别面部动作单元（AU），并基于 AU 生成可解释的情绪推理过程。近年来，视觉语言模型（VLM）如 LLaVA、InternVL 等被引入 FEA 任务，取得了不错的效果。

然而，现有方法存在两个核心痛点：

推理幻觉：VLM 缺乏情绪领域先验知识，容易生成看似合理但实际错误的情绪解释，比如遗漏关键面部特征或对 AU 的误判。

推理与识别错位：即使模型在推理过程中识别了正确的情绪线索，最终的情绪标签仍可能与推理结论矛盾，因为推理路径与标签之间缺乏内在的因果关联。

已有方法（如 ExpLLM、FABA）尝试通过构造细粒度指令微调数据来缓解这些问题，但高质量情绪推理数据难以大规模采集，且过度严格的指令微调限制了 VLM 的灵活思考能力。

本文的核心 idea：用可验证的情绪因子（AU 和情绪标签）作为强化学习的奖励信号，而非硬性规定推理路径，让模型在训练中自然涌现灵活的推理模式，从而同时解决幻觉和推理-识别错位问题。

方法详解¶

整体框架¶

Facial-R1 采用三阶段渐进式训练： - Stage 1: SFT（监督微调）— 用少量高质量样本建立基础情绪推理能力 - Stage 2: RL（强化学习）— 用情绪因子作为奖励信号对齐推理与识别 - Stage 3: Data Synthesis（数据合成）— 迭代扩充训练数据实现自我提升

关键设计¶

最小化监督微调（SFT）:
- 功能：用 GPT-4o-mini 生成仅 300 个高质量情绪分析样本进行微调
- 核心思路：在指令中嵌入 AU 定义等情绪领域知识，让 VLM 建立面部表情与情绪之间的基本推理能力
- 设计动机：以极低的初始化成本消除推理幻觉，避免大规模标注的瓶颈
基于可验证奖励的强化学习（RL with GRPO）:
- 功能：使用 GRPO 算法，设计三种奖励成分引导模型训练
- 核心思路：复合奖励 \(R = R_{AU} + R_{acc} + R_{format}\)
  - AU 奖励 \(R_{AU}\)：采用 F1 score 衡量模型预测 AU 与 ground truth 的匹配度，鼓励模型基于可观察的面部特征进行推理，缓解奖励稀疏问题
  - 准确率奖励 \(R_{acc}\)：情绪标签预测正确为 1，否则为 0，直接对齐推理与识别
  - 格式奖励 \(R_{format}\)：要求输出使用 <think> 和 <answer> 标签，规范化推理结构
- 设计动机：与 SFT 相比，RL 阶段不限制具体推理路径，只要求模型关注两个情绪事实（AU 和情绪标签），从而增强灵活性和鲁棒性
迭代数据合成:
- 功能：利用前两个阶段训练好的模型自动生成大规模情绪推理数据
- 核心思路：从 FABA-Instruct 等数据集中取问题和 GT 标签构造指令，用训练好的 VLM 生成推理，再通过自动过滤（AU/情绪/格式三重检查）和人工审核确保质量
- 设计动机：绕过人工标注瓶颈，通过多轮迭代训练持续扩充数据，最终构建出包含 17,737 训练样本和 1,688 测试样本的 FEA-20K 数据集

损失函数 / 训练策略¶

SFT 阶段使用标准的交叉熵损失
RL 阶段采用 GRPO 算法，通过组内相对优势 \(A_i = (R^i - \text{mean})/\text{std}\) 进行策略优化
数据合成阶段引入反思机制：如果模型初次推理有误，会引导其自我修正后重新生成

实验关键数据¶

主实验¶

AU 识别（F1↑）:

数据集	指标	Facial-R1	之前 SOTA	提升
DISFA	F1	73.1	72.9 (Face-LLaVA)	+0.2
BP4D	F1	67.4	69.3 (Norface)	-1.9
RAF-AU	F1	70.2	69.5 (Exp-BLIP)	+0.7
FABA-Instruct	F1	68.3	61.9 (FMAE)	+6.4

情绪识别: - RAF-DB: Facial-R1 在全部 7 个情绪类别上排名第一，远超 GPT-4o（62.7% Acc） - AffectNet: Facial-R1 达到 65.2% 准确率（8 类），在 happiness、sadness、anger、surprise、fear 上均最优

消融实验¶

配置	关键指标	说明
Qwen2.5-VL (zero-shot)	22.1 F1 (DISFA)	基线，缺乏情绪先验
+ SFT only (300 samples)	显著提升	消除幻觉，建立基础能力
+ SFT + RL	进一步提升	对齐推理与识别
+ SFT + RL + Data Synthesis	73.1 F1 (DISFA)	完整框架，全面 SOTA
仅用 SFT 大量数据	低于完整方案	过度限制推理灵活性

关键发现¶

仅 300 条 SFT 数据即可有效消除推理幻觉，建立基础情绪推理能力
RL 阶段的 AU 奖励对减少虚假推理效果最显著，情绪准确率奖励对消除推理-识别错位效果最好
数据合成实现了无需大规模人工标注的"数据飞轮"效应
在 FABA-Instruct 上 F1 提升 6.4 个点，说明方法在复杂推理场景优势明显

亮点与洞察¶

极低初始化成本：只需 300 条 GPT-4o-mini 生成的样本 + AU/情绪弱标签即可启动整个训练流程
将 DeepSeek-R1 的 GRPO 思路迁移到表情分析：从数学推理的可验证奖励，拓展到情绪分析的可验证情绪因子
推理灵活性 vs 路径限制的权衡：RL 比 SFT 更适合情绪推理，因为情绪表达是高度个人化的，不应强制统一路径
可视化显示 Facial-R1 能准确检测多个 AU 并合理推理出情绪，而基线 VLM 常出现 AU 误判

局限与展望¶

当前数据合成依赖 FABA-Instruct 的图像来源，多样性受限
BP4D 上未超过 Norface（69.3 vs 67.4），说明对实验室控制场景的泛化仍有提升空间
仅支持离散情绪分类，未考虑连续维度（valence-arousal）或复合情绪
推理速度受限于 VLM 的自回归生成，实时应用有挑战

评分¶

新颖性: ⭐⭐⭐⭐ — GRPO 应用到表情分析有创新，但三阶段框架并非全新
实验充分度: ⭐⭐⭐⭐⭐ — 8 个基准、多任务评估、消融实验完整
写作质量: ⭐⭐⭐⭐ — 逻辑清晰，动机和方法衔接自然
价值: ⭐⭐⭐⭐ — FEA-20K 数据集和低成本训练范式有实用价值