ExpertAF: Expert Actionable Feedback from Video¶

会议: CVPR 2025
arXiv: 2408.00672
代码: 即将公开
领域: 视频理解
关键词: 技能评估, 可操作反馈, 多模态视频语言模型, 教练反馈, 3D人体姿态

一句话总结¶

本文提出 ExpertAF，首个从视频生成可操作教练反馈的方法，通过融合视频、3D 人体姿态和语言的多模态模型，不仅能生成描述错误和改进建议的文本评语，还能检索/生成正确的专家示范，利用 Ego-Exo4D 数据集和 LLM 构建弱监督训练数据，在足球、篮球和攀岩三个场景上显著优于强基线。

研究背景与动机¶

领域现状：视频技能评估已有一定研究基础，包括动作质量评分（如花样滑冰、体操评分）和示范对比。但现有方法仅能提供分数或进行对比，无法告诉学习者"具体哪里做错了、应该怎么改"。

现有痛点：(1) 现有技能评估方法只输出一个评分，学习者无法据此改进；(2) 没有方法能同时提供文字指导和视觉示范两种互补的反馈形式；(3) 缺乏大规模的配对训练数据——需要同一动作的"错误版本"、"正确版本"和对应的专家评语。

核心矛盾：要实现真正的 AI 教练，模型需要同时具备三重能力——理解当前动作、检测执行错误、给出具体改进建议，这远比简单的动作识别或质量评分复杂。现有数据集要么只有高水平示范（如 HowTo100M），要么缺乏配对的错误-正确示范和专家评语。

本文目标：(1) 定义"视频可操作反馈"这一新任务，包括文本评语生成、专家示范检索和专家姿态生成三个子任务；(2) 利用 Ego-Exo4D 构建弱监督训练数据集；(3) 设计统一的多模态模型来执行所有三个子任务。

切入角度：Ego-Exo4D 恰好包含了不同技能水平的人执行同一活动的第一/第三人称视频、3D 姿态和专家评语，作者设计了一套巧妙的流水线，利用 LLM 对评语进行分类和配对，再通过 PA-MPJPE 时间对齐，自动构建（错误示范，专家评语，正确示范）三元组。

核心 idea：通过将 Ego-Exo4D 中的自由形式专家评语用 LLM 解析、分类、配对，构建弱监督训练数据集，然后训练一个基于 LLaVA 架构的多模态模型，融合视频（InternVideo2）、3D 姿态（PCT 编码器）和语言，实现从视频到可操作教练反馈的全链路生成。

方法详解¶

整体框架¶

ExpertAF 接受学习者的视频（ego+exo 双视角）和 3D 姿态序列作为输入，通过多模态编码后送入大语言模型，输出三种形式的反馈：(1) 文本评语，描述什么做得好/什么需要改进；(2) 从专家库中检索最相关的正确示范视频；(3) 生成纠正后的专家 3D 姿态序列。三个任务通过统一架构实现，区别仅在于输入组合和输出模态。

关键设计¶

弱监督数据集构建流水线:
- 功能：从 Ego-Exo4D 自动构建（学习者视频，专家评语，专家示范）三元组
- 核心思路：三步流程——(a) 用 Llama3 对专家评语进行摘要、体部位标注（头/肩/手/臂/腿/跳跃）和正确/错误分类；(b) 根据体部位标注和技能等级（初学者 vs 专家）配对错误-正确示范；(c) 用 PA-MPJPE 进行时间对齐，选择对齐误差最小的 top-k 对。最终获得 25,505 训练和 1,272 测试样本（测试集人工验证）
- 设计动机：手动标注配对数据成本极高，通过 LLM 分类+姿态对齐的弱监督方案大幅降低了数据构建成本。初学者 vs 专家的配对策略确保了错误和正确之间有明显对比
多模态编码与统一架构:
- 功能：将视频、姿态、文本统一编码为 token 序列，利用 LLM 进行多模态推理
- 核心思路：视频用 InternVideo2 编码后通过视觉映射器转换为 token（ego+exo 共 32 token）；3D 姿态用 PCT（Pose as Compositional Tokens）编码+姿态映射器转换为 token；文本用标准 tokenizer。三种 token 拼接后输入 Llama3 进行序列预测。文本评语和检索任务冻结 LLM 仅训练映射器，姿态生成任务微调 LLM（因为需要修改 token 维度）
- 设计动机：LLaVA 式的模态映射+LLM 推理架构已被证明在视觉-语言任务上效果出色。将姿态也引入统一框架而非单独建模，使得模型可以自然地关联视觉外观、身体姿态和语言描述
三任务推理设计:
- 功能：支持评语生成 \(\mathcal{F}_t\)、示范检索 \(\mathcal{F}_r\) 和姿态生成 \(\mathcal{F}_g\) 三种模式
- 核心思路：评语生成以（学习者视频, 学习者姿态, 专家视频, 专家姿态）为输入，预测文本 token \(\mathbf{t} = \mathcal{L}_s(\mathbf{v}, \mathbf{p}, \bar{\mathbf{v}}, \bar{\mathbf{p}})\)；示范检索以（学习者视频, 学习者姿态, 文本评语）为输入，预测用于相似度匹配的姿态 token \(\bar{\mathbf{p}} = \mathcal{L}_s(\mathbf{v}, \mathbf{p}, \mathbf{t})\)；姿态生成直接输出可解码的姿态 token \(\bar{\mathbf{p}}' = \mathcal{L}_s(\mathbf{v}, \mathbf{p}', \mathbf{t})\)，然后用 PCT 解码器恢复 3D 坐标。推理时还支持仅输入学习者视频的端到端模式
- 设计动机：三个任务实际上是同一个问题的三个侧面——理解错误→描述纠正→展示纠正，统一架构使得各任务之间可以共享表示，互相增强

损失函数 / 训练策略¶

三个任务均使用标准的交叉熵损失：\(\min_\theta \{-\log(\mathbf{t} | \mathbf{v}, \mathbf{p}, \bar{\mathbf{v}}, \bar{\mathbf{p}}; \theta)\}\)。评语和检索任务训练 10 个 epoch，学习率 \(2 \times 10^{-2}\)，仅训练映射器；姿态生成训练 5 个 epoch，学习率 \(5 \times 10^{-6}\)，微调 LLM。视频编码器和姿态编码/解码器始终冻结。

实验关键数据¶

主实验¶

方法	评语生成 B@4	评语 ROUGE-L	人评 (1-4)	检索 R@50	检索 medR ↓	姿态 PA-MPJPE ↓
InternVideo2-NN-test	43.0	50.6	1.8	14.5	191	159
LLaVA	28.5	44.2	1.3	15.0	183	—
LLaVA-FT w/ pose	43.6	51.7	2.5	18.0	172	150
PoseScript/Fix	24.1	46.3	1.1	15.9	182	182
ExpertAF	45.8	55.7	3.1	22.5	146	131

消融实验¶

配置	B@4	ROUGE-L	R@50	PA-MPJPE ↓
ExpertAF (full)	45.8	55.7	22.5	131
w/o video	45.6	55.4	19.5	136
w/o pose	45.3	55.1	19.0	—
w/ incorrect-only	44.9	54.6	19.1	135
w/o alignment	42.8	52.0	18.0	147
w/ global pose	43.9	53.7	18.7	145

关键发现¶

人评得分差距显著：ExpertAF 的人评得分（3.1/4.0）是 LLaVA 的 2.4 倍，表明模型生成的反馈确实有教练价值
时间对齐非常重要：去掉 PA-MPJPE 时间对齐后性能全面下降（B@4 从 45.8 降至 42.8），说明高质量的配对数据是关键
多模态融合有效：去掉视频或姿态任一模态都会降低检索和生成性能，两者提供互补信息
专家示范的条件化生成优于全局示范：个性化的、与具体错误对应的专家示范比通用的"正确执行"更有效

亮点与洞察¶

问题定义的完整性很突出：不只是评分（scoring），而是提供完整的教练反馈链——告诉你哪里错了、怎么改、看看正确的是怎样。这种"全频谱可操作反馈"的定义比之前任何工作都更接近真实教练场景
弱监督数据构建方案非常实用：利用 LLM 做文本分类+技能等级配对+姿态对齐的流水线，将原本需要大量人工标注的配对数据构建问题转化为几乎自动化的流程。这个方案可以迁移到其他需要配对数据的技能学习场景
首次实现文本条件的 3D 姿态生成：根据教练语言描述生成纠正后的姿态序列，这是一个全新的任务

局限与展望¶

目前仅在三个体育场景（篮球、足球、攀岩）上验证，对于需要精细手部操作的技能（如烹饪、音乐演奏）可能效果有限
Ego-Exo4D 的 3D 姿态是自动重建的，部分样本有重建噪声，影响了姿态生成的上限
专家评语的粒度不一致——有的专家给出细粒度反馈（如"左膝锁死"），有的只给粗粒度描述（如"姿势不对"）
评语中有些反馈是不可视化的（如"运动员看起来疲劳"），模型难以处理这类情况
未来可以扩展到实时反馈场景（流式处理）或多轮交互式教练

评分¶

新颖性: ⭐⭐⭐⭐⭐ 全新的任务定义，首次实现视频到全频谱教练反馈
实验充分度: ⭐⭐⭐⭐ 三个场景、多种基线和消融、包含人工评估
写作质量: ⭐⭐⭐⭐ 问题阐述清晰，方法描述系统
价值: ⭐⭐⭐⭐⭐ 对 AI 辅助技能学习有重大应用价值，弱监督数据构建方案可广泛复用