跳转至

ACT as Human: Multimodal Large Language Model Data Annotation with Critical Thinking

会议: NeurIPS 2025
arXiv: 2511.09833
代码: 无
领域: 数据标注 / MLLM应用
关键词: data annotation, critical thinking, MLLM, error estimation, human-in-the-loop

一句话总结

提出ACT(Annotation with Critical Thinking)流水线,先用MLLM批量标注数据,再用另一个MLLM作为"批评者"识别可能的错误标注,仅让人类审核被标记的样本,在减少70-90%人工标注成本的同时将性能差距控制在<2%。

背景与动机

高质量标注数据是AI模型训练的基石,但人工标注昂贵。LLM/MLLM自动标注虽然便宜,但质量不及人工。现有的减少标注成本的方法(如主动学习、半监督学习)通常需要额外的模型训练或架构修改。一个自然的想法是:让MLLM先标注全部数据,然后重点检查那些最可能出错的样本。但如何准确识别哪些样本容易出错?

核心问题

  1. 如何利用MLLM本身的能力来估计其标注的错误概率?
  2. 在有限的人工审校预算下,如何最大化标注质量的提升?
  3. 在MLLM标注的数据上训练的下游模型,性能能否接近在人工标注数据上训练的模型?

方法详解

整体框架

三阶段流水线: 1. 标注阶段:MLLM(如GPT-4o)对所有数据生成标签 2. 错误估计阶段:另一个MLLM作为"批评者"估计每个样本的标注错误概率 3. 校正阶段:根据估计的错误概率,按预算采样一部分样本交给人类审核

关键设计

  1. 多种批评策略
  2. 黑盒策略:直接估计(Naïve)、思维链(CoT)、选择题(MC)、魔鬼代言人(Devil's Advocate)
  3. 白盒策略:Naïve-logit、CoT-logit、CoT-Perplexity(PPL)
  4. 预算感知采样:三种采样规则——归一化、指数加权、阈值化。其中指数加权和阈值化显著优于归一化
  5. 修改的损失函数:为在ACT标注数据上训练提供理论保证——确保模型收敛到与全人工标注数据类似的性能

损失函数 / 训练策略

\[\mathcal{L}_\theta^{(ACT)} = \frac{1}{N}\sum_{i=1}^{N}\left(\ell_{\theta,i}^{(m)}+(\ell_{\theta,i}-\ell_{\theta,i}^{(m)})\frac{\delta_i(B)}{\pi_B(\hat{\epsilon}_i)}\right)\]

实验关键数据

数据集 ACT (exp. loss) 人工标注 性能差距
CIFAR-10 87.73% 88.66% 0.93%
Fashion-MNIST 89.73% 93.01% 3.28%
Stanford Cars 86.19% 87.88% 1.69%
TweetEval-Emotion 81.44% 81.82% 0.38%
TweetEval-Irony 68.49% 70.18% 1.69%
VQA-RAD 67.73% 67.81% 0.08%
  • 测试了6种MLLM:GPT-4o, Gemini-1.5-Pro, Claude 3.5 Sonnet, LLaVA-OV 72B, Qwen 2.5 VL 72B, InternVL 2.5 78B
  • 节省70-90%人工标注成本

消融实验要点(7条关键洞察)

  1. GPT-4o是最佳通用标注器
  2. CoT对标注不一定有帮助,但对批评有帮助(+22.46%)
  3. 交叉批评优于自我批评
  4. 黑盒模型作为批评者更好
  5. CoT在批评中比在标注中更有价值
  6. 白盒策略偶尔有效(naïve-logit, CoT-PPL在2/6数据集上更好)
  7. 指数加权和阈值化采样远优于归一化(Cars上差距76% vs 2%)

亮点

  • 批评者设计巧妙:用MLLM评估MLLM标注的可信度,形成自监督的质量控制
  • 多模态覆盖:CV + NLP + VQA三个领域,6个数据集
  • 理论保证:修改的损失函数确保了下游模型训练的收敛性
  • 7条实用洞察:对MLLM标注的最佳实践提供了系统性指导
  • 即插即用:不需要额外训练标注器或批评者(training-free pipeline)

局限性 / 可改进方向

  • 仅在分类任务上验证,文本摘要等复杂任务未覆盖
  • 批评者准确率有限(5-15%假阳性),限制了方法的极限效果
  • 方法效率受MLLM能力约束——随着MLLM进步,可能需要更少的人工审核
  • 预算设定基于标注器准确率,实际预算可能不同

与相关工作的对比

  • vs 纯MLLM标注:ACT通过批评+人工校正显著提升质量
  • vs CDI:ACT是更通用的框架,不依赖特定的数据质量指标
  • vs 主动学习:传统主动学习需要模型在循环中重训练,ACT不需要

启发与关联

  • "标注-批评-校正"的pipeline可以推广到其他数据质量控制场景
  • 批评者策略的设计(特别是Devil's Advocate)对提升LLM自我评估有参考价值
  • 预算感知采样可以优化任何人机协作标注系统

评分

  • 新颖性: ⭐⭐⭐⭐ 批评者+预算采样的组合设计新颖实用
  • 实验充分度: ⭐⭐⭐⭐⭐ 6数据集、6种MLLM、多种策略组合、详细消融
  • 写作质量: ⭐⭐⭐⭐ 洞察总结清晰,实验设计系统
  • 价值: ⭐⭐⭐⭐⭐ 对降低AI数据标注成本有直接实用价值