On The Fragility of Benchmark Contamination Detection in Reasoning Models¶

会议: ICLR 2026
arXiv: 2510.02386
代码: https://github.com/ASTRAL-Group/LRM_Conta_Detection_Arena.git
领域: AI安全
关键词: 基准污染, 推理模型, GRPO, 检测脆弱性, 评估完整性

一句话总结¶

系统性研究发现 LRM 的基准污染检测极其脆弱：SFT 阶段引入的污染在经过 GRPO 训练后检测信号几乎消失（PPO 式重要性采样/裁剪是根因），而对高级 LRM 直接用 CoT 做 SFT 污染则几乎不留任何可检测痕迹，现有 10 种检测方法均接近随机猜测。

研究背景与动机¶

领域现状：LLM 排行榜已成为竞争舞台，模型开发者有动机将评估基准混入训练数据以获得虚高分数。已有多种污染检测方法（基于生成、扰动、参考模型等）。
现有痛点：
现有检测方法设计时假设污染=记忆化（模型对见过的样本概率更高），但 LRM 通过 CoT 推理达到答案，检测器通常无法获取训练时的 CoT 数据
LRM 获取推理能力经历 SFT→RL 两阶段，开发者可在早期阶段（SFT）污染，后期（RL）训练"洗白"
对高级 LRM 直接做 CoT SFT 污染的可检测性完全未知
核心矛盾：评估公平性依赖于污染可检测——但如果 RL 训练本身就能隐藏污染证据，且 CoT SFT 几乎不留痕迹，那么整个排行榜系统的完整性都受到威胁
切入角度：两个实际场景——Stage I: SFT 污染→RL "洗白"（base model→LRM）；Stage II: 对已有 LRM 直接 CoT SFT 污染（post-LRM）
核心idea一句话：GRPO/PPO 的重要性采样+裁剪目标函数会系统性地消除成员/非成员的可分离性，RL 训练是污染证据的天然"消毒器"。

方法详解¶

整体框架¶

两阶段分析：Stage I 模拟 base model 通过 SFT（含污染）→GRPO 变成 LRM 的过程，评估 10 种检测方法在 RL 前后的 AUROC 变化。Stage II 模拟对高级 LRM 直接做 CoT SFT 污染，评估检测效果。

关键发现¶

GRPO 隐藏 SFT 污染 (Stage I):
SFT 污染原本可检测：Min-K%/Max-K%/LOSS 等方法 AUROC ~73%，LiRA 达 ~89%
GRPO 训练后 AUROC 普遍降至 ~50%（随机水平）——即使 GRPO 只用干净数据
对照实验：继续用干净数据做 SFT 不会消除检测信号→证明是 GRPO 优化目标而非"更多数据"的效果
PPO 式裁剪是根因:
理论分析：重要性采样比率 \(r(\theta) = \pi_\theta / \pi_{\theta_{old}}\) + clipping gate 对高概率成员样本的梯度施加上界（防止过度优化），而对非成员无此约束→非成员概率相对提升→成员/非成员分布趋于重叠
消融实验：纯拒绝采样 RAFT 不会消除检测信号；加上重要性采样/裁剪项（RAFT++）立即恢复隐藏能力→精确定位根因
CoT SFT 对 LRM 几乎不可检测 (Stage II):
对高级 LRM 做 CoT SFT 污染→pass@1 大幅提升→但所有 10 种检测方法 AUROC 接近 50%
原因：LRM 即使未见过某些样本，对分布内相似样本也有高置信度——打破了"污染=记忆化"的核心检测假设
log-prob 分析：成员和非成员的概率分布高度重叠

损失函数 / 训练策略¶

污染模拟：从高级 LRM 蒸馏 CoT 作为 SFT 数据，随机选半数样本作为 member set
GRPO 训练：标准设置，干净数据（不含 member）
检测评估：每个问题 8 轮响应，取平均检测分数，AUROC 区分 member/non-member

实验关键数据¶

Stage I: GRPO 前后 AUROC 变化（Qwen2.5-7B-Instruct）¶

检测方法	SFT 后 AUROC↑	SFT+GRPO 后 AUROC↑	变化
Min-K%	~73%	~52%	-21%
Max-K%	~72%	~51%	-21%
LOSS	~75%	~53%	-22%
LiRA (参考基)	~89%	~55%	-34%
生成式方法	~60%	~50%	-10%

Stage II: LRM CoT SFT 污染检测¶

检测方法	AUROC↑
所有 10 种方法	~50%（≈随机猜测）
污染带来的 pass@1 提升	+8.82% 平均

消融：纯RL vs RL+裁剪¶

RL 变体	污染检测 AUROC
RAFT（纯拒绝采样）	~70%（仍可检测）
RAFT++（+重要性采样裁剪）	~52%（隐藏了）
GRPO	~52%（隐藏了）

关键发现¶

SFT 污染+GRPO 洗白 = 完美犯罪：开发者可先在 SFT 阶段混入基准数据获得 +8.82% 提升，然后用干净数据做 GRPO 训练消除所有检测痕迹
PPO 裁剪是机制级根因：不是"更多训练数据"而是"优化目标的数学结构"导致隐藏——RAFT 不隐藏但 RAFT++ 隐藏
CoT SFT 对高级 LRM 几乎免疫检测：即使不做 RL "洗白"，CoT SFT 本身就不留痕迹
"污染=记忆化"假设不成立：LRM 对分布内未见样本也有高置信度→基于概率差异的检测方法全部失效
跨模型一致：Qwen2.5-7B 和 Llama-3.1-8B 都展现相同脆弱性

亮点与洞察¶

首次在算法层面揭示污染隐藏机制——不是数据处理、不是训练时长，而是 PPO/GRPO 的裁剪目标函数本身会收敛到成员/非成员不可分离的分布。这是一个全新的视角。
对 LRM 排行榜系统的严重警告：如果开发者可以轻松污染并逃避所有检测，那么基于基准的评估体系需要根本性改革。论文最后提出的可信评估协议方向值得关注。
RAFT vs RAFT++ 的精确消融堪称教科书级的因果推断实验设计——通过最小改动精确定位根因。

局限性 / 可改进方向¶

仅测试 7B/8B 规模模型——更大模型（70B+）可能有不同行为
污染样本使用了来自高级 LRM 的蒸馏 CoT——更简单的 CoT（如人写的）效果可能不同
未探索基于模型行为（而非概率）的新型检测方法——如分析推理路径的结构特征
理论分析假设简化——实际 GRPO 动力学更复杂
未讨论对策的可行性——是否能设计对 PPO 裁剪免疫的检测方法

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次揭示 RL 训练隐藏污染的算法级机制，问题极其重要
实验充分度: ⭐⭐⭐⭐⭐ 10 种检测方法 × 6 个基准 × 2 个模型 × 消融/理论分析
写作质量: ⭐⭐⭐⭐⭐ 两阶段分析框架清晰，RAFT vs RAFT++ 消融设计精妙
价值: ⭐⭐⭐⭐⭐ 对 LRM 评估生态的存在性威胁，应引起整个社区的重视

On The Fragility of Benchmark Contamination Detection in Reasoning Models¶

一句话总结¶

研究背景与动机¶

方法详解¶

整体框架¶

关键发现¶

损失函数 / 训练策略¶

实验关键数据¶

Stage I: GRPO 前后 AUROC 变化（Qwen2.5-7B-Instruct）¶

Stage II: LRM CoT SFT 污染检测¶

消融：纯RL vs RL+裁剪¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶