ACT as Human: Multimodal Large Language Model Data Annotation with Critical Thinking¶

会议: NeurIPS 2025
arXiv: 2511.09833
代码: 无
领域: 数据标注 / MLLM应用
关键词: data annotation, critical thinking, MLLM, error estimation, human-in-the-loop

一句话总结¶

提出ACT（Annotation with Critical Thinking）流水线，先用MLLM批量标注数据，再用另一个MLLM作为"批评者"识别可能的错误标注，仅让人类审核被标记的样本，在减少70-90%人工标注成本的同时将性能差距控制在<2%。

背景与动机¶

高质量标注数据是AI模型训练的基石，但人工标注昂贵。LLM/MLLM自动标注虽然便宜，但质量不及人工。现有的减少标注成本的方法（如主动学习、半监督学习）通常需要额外的模型训练或架构修改。一个自然的想法是：让MLLM先标注全部数据，然后重点检查那些最可能出错的样本。但如何准确识别哪些样本容易出错？

核心问题¶

如何利用MLLM本身的能力来估计其标注的错误概率？
在有限的人工审校预算下，如何最大化标注质量的提升？
在MLLM标注的数据上训练的下游模型，性能能否接近在人工标注数据上训练的模型？

方法详解¶

整体框架¶

三阶段流水线： 1. 标注阶段：MLLM（如GPT-4o）对所有数据生成标签 2. 错误估计阶段：另一个MLLM作为"批评者"估计每个样本的标注错误概率 3. 校正阶段：根据估计的错误概率，按预算采样一部分样本交给人类审核

关键设计¶

多种批评策略：
黑盒策略：直接估计(Naïve)、思维链(CoT)、选择题(MC)、魔鬼代言人(Devil's Advocate)
白盒策略：Naïve-logit、CoT-logit、CoT-Perplexity(PPL)
预算感知采样：三种采样规则——归一化、指数加权、阈值化。其中指数加权和阈值化显著优于归一化
修改的损失函数：为在ACT标注数据上训练提供理论保证——确保模型收敛到与全人工标注数据类似的性能

损失函数 / 训练策略¶

\[\mathcal{L}_\theta^{(ACT)} = \frac{1}{N}\sum_{i=1}^{N}\left(\ell_{\theta,i}^{(m)}+(\ell_{\theta,i}-\ell_{\theta,i}^{(m)})\frac{\delta_i(B)}{\pi_B(\hat{\epsilon}_i)}\right)\]

实验关键数据¶

数据集	ACT (exp. loss)	人工标注	性能差距
CIFAR-10	87.73%	88.66%	0.93%
Fashion-MNIST	89.73%	93.01%	3.28%
Stanford Cars	86.19%	87.88%	1.69%
TweetEval-Emotion	81.44%	81.82%	0.38%
TweetEval-Irony	68.49%	70.18%	1.69%
VQA-RAD	67.73%	67.81%	0.08%

测试了6种MLLM：GPT-4o, Gemini-1.5-Pro, Claude 3.5 Sonnet, LLaVA-OV 72B, Qwen 2.5 VL 72B, InternVL 2.5 78B
节省70-90%人工标注成本

消融实验要点（7条关键洞察）¶

GPT-4o是最佳通用标注器
CoT对标注不一定有帮助，但对批评有帮助（+22.46%）
交叉批评优于自我批评
黑盒模型作为批评者更好
CoT在批评中比在标注中更有价值
白盒策略偶尔有效（naïve-logit, CoT-PPL在2/6数据集上更好）
指数加权和阈值化采样远优于归一化（Cars上差距76% vs 2%）

亮点¶

批评者设计巧妙：用MLLM评估MLLM标注的可信度，形成自监督的质量控制
多模态覆盖：CV + NLP + VQA三个领域，6个数据集
理论保证：修改的损失函数确保了下游模型训练的收敛性
7条实用洞察：对MLLM标注的最佳实践提供了系统性指导
即插即用：不需要额外训练标注器或批评者（training-free pipeline）

局限性 / 可改进方向¶

仅在分类任务上验证，文本摘要等复杂任务未覆盖
批评者准确率有限（5-15%假阳性），限制了方法的极限效果
方法效率受MLLM能力约束——随着MLLM进步，可能需要更少的人工审核
预算设定基于标注器准确率，实际预算可能不同

与相关工作的对比¶

vs 纯MLLM标注：ACT通过批评+人工校正显著提升质量
vs CDI：ACT是更通用的框架，不依赖特定的数据质量指标
vs 主动学习：传统主动学习需要模型在循环中重训练，ACT不需要

启发与关联¶

"标注-批评-校正"的pipeline可以推广到其他数据质量控制场景
批评者策略的设计（特别是Devil's Advocate）对提升LLM自我评估有参考价值
预算感知采样可以优化任何人机协作标注系统

评分¶

新颖性: ⭐⭐⭐⭐ 批评者+预算采样的组合设计新颖实用
实验充分度: ⭐⭐⭐⭐⭐ 6数据集、6种MLLM、多种策略组合、详细消融
写作质量: ⭐⭐⭐⭐ 洞察总结清晰，实验设计系统
价值: ⭐⭐⭐⭐⭐ 对降低AI数据标注成本有直接实用价值