When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets¶

会议: AAAI 2026
arXiv: 2510.00332
代码: GitHub
领域: 目标检测
关键词: AI Agent 评估, 对抗性基准, 加密货币, 工具选择, 幻觉

一句话总结¶

提出 CAIA 基准测试，通过加密货币市场作为天然对抗性实验室，评估 17 个 SOTA 大模型在高风险对抗环境中的 agent 能力，揭示前沿模型仅达 67.4% 准确率（GPT-5）vs 人类 80%，并发现系统性工具选择灾难。

研究背景与动机¶

AI 基准测试的盲区：当前 AI 评测（GLUE、ImageNet、ICPC、IMO）在封闭世界中衡量能力，假设工具按预期运行、信息可信、其他 agent 合作。但真实世界的自主部署要求对抗性鲁棒——在充满不确定性、虚假信息和对抗性激励的开放系统中生存。

基准分数≠部署就绪：在推理基准上获得高分的 agent，可能仍会相信虚假新闻、购买被攻击的资产、上当受骗——因为其评估中从未涉及欺骗场景。随着 AI agent 越来越多地与不可信用户、真实资金和关键基础设施交互，这个漏洞构成安全隐患。

为什么选择加密货币市场：

真实对抗环境：匿名区块链使恶意行为者无需承担声誉后果；利润动机驱动复杂攻击策略；监管空白允许传统市场非法的欺骗手段。日常攻击包括蜜罐合约、闪电贷攻击、协调社交工程

高风险不可逆：无传统金融安全网，交易不可逆，智能合约执行最终化，2024 年损失超 300 亿美元

可验证真相：尽管对抗混乱，区块链提供完全透明性和不可变性——每笔交易永久记录，可加密验证

方法详解¶

整体框架¶

CAIA 基准的设计遵循"对抗优先"原则，包含 178 个时间锚定任务，评估 agent 在加密货币分析中的知识、规划和执行能力。

关键设计¶

1. 质量保证三支柱¶

知识：评估加密原生概念的基础理解（AMM 机制、治理结构等），测试概念掌握而非定义记忆
规划：评估复杂问题分解为可执行分析工作流的能力，要求 agent 在执行前指定工具选择和顺序
执行：使用生产级 API（Etherscan、CoinGecko、DefiLlama）测试实际执行，评估技术能力和判断力

2. 数据策划流水线（5 阶段）¶

自动过滤：LLM 评审过滤不相关/模糊/不可回答的查询，保留 top 15%（~1000 任务）
专家评审：92 名领域专家，每任务至少 4 个评审，去极端平均取 top 200
格式标准化：统一格式，锚定区块号/时间戳，确保客观评估
真相验证：验证可复现的工具链调用方案，无法复现的任务移除 → 最终 178 任务
分类：6 个分析类别用于诊断

来源：超过 10,000 条来自 3,000+ 活跃用户的真实查询。

3. 任务类别分布¶

类别	数量	占比	重点
链上分析	77	43.3%	交易模式、MEV、资金流向
项目发现	49	27.5%	协议评估、安全分析
代币经济	23	12.9%	激励设计、价值积累
交叉领域	14	7.9%	多领域综合
趋势分析	8	4.5%	时间模式、采用指标
通识知识	7	3.9%	基础概念

实验设置¶

评估模型：17 个 SOTA 模型（GPT-5、GPT-4.1、Claude Opus 4、Gemini 2.5 Pro、Grok 4、DeepSeek R1/V3.1、Llama 4、Qwen 3 等）
两种条件：无工具（闭卷考试）vs 有工具（开卷考试，23 种专业工具）
Agent 框架：标准 ReAct 框架，确保评估不受实现差异影响
人类基线：16 名大学区块链社团/早期公司参与者（初级分析师），完成 10% 分层样本，平均准确率 80%
指标：5 次独立运行的多数投票准确率 + Pass@1/Pass@5 + 成本效率

实验关键数据¶

主实验¶

无工具条件（所有模型灾难性失败）：

模型	多数投票准确率	Pass@1	Pass@5
GPT-5	27.5%	28.1%	42.7%
Gemini 2.5 Pro	22.5%	20.2%	29.8%
GPT-o3	20.8%	22.5%	29.2%
Claude Opus 4	13.5%	13.5%	16.9%
DeepSeek R1	20.8%	21.9%	35.4%

有工具条件：

模型	多数投票准确率	Pass@1	Pass@5	平均成本
GPT-5	67.4%	70.2%	77.0%	$0.1154
GPT-OSS 120B	62.9%	56.2%	72.5%	$0.0066
Grok 4 Fast	61.2%	57.9%	71.9%	$0.0098
Claude Sonnet 4	56.7%	57.9%	66.9%	$0.2291
Claude Opus 4	57.3%	59.6%	71.9%	$1.1139
人类基线	~80%	-	-	-

消融实验¶

工具使用分布（工具选择灾难）：

工具类别	调用次数	占比	说明
Google 搜索	11,626	49.6%	模型偏好不可靠来源
专业区块链工具	8,351	35.6%	包含正确答案的权威来源
URL 获取	1,743	7.4%	-
Twitter 搜索	1,388	5.9%	社交媒体操纵信息
代码执行	355	1.5%	-

成本-准确率权衡：

模型	准确率	每次成本	性价比
Claude Opus 4	57.3%	$1.1139	最差
GPT-OSS 120B	62.9%	$0.0066	100倍性价比
Grok 4 Fast	61.2%	$0.0098	帕累托最优

关键发现¶

基础能力缺口：无工具时所有模型接近随机猜测（12-28%），而初级分析师日常能完成这些任务
工具选择灾难：模型 55.5% 的工具调用选择不可靠的网络搜索，即使专业区块链工具能直接提供正确答案
Pass@k 的幻觉：Gemini 2.5 Flash 从 39.3% (Pass@1) 到 62.4% (Pass@5) 的提升意味着模型本质在试错猜测，而非战略推理
Twitter 搜索悖论：单独使用准确率仅 6.6%，组合使用升至 40.7%，说明工具需要编排能力
案例研究（Task 49）：获取 Pump.fun 月度代币发行数据——一个简单 API 调用即可完成，17 个模型无一成功，全部陷入网络搜索→过时博客→Twitter 投机信息的级联失败

亮点与洞察¶

对抗优先评估范式：首次明确将主动欺骗、来源验证和对抗鲁棒性纳入 AI agent 核心能力评估
Pass@k 指标的危险性：高 Pass@k 不代表能力，而是试错——在不可逆金融决策中，这种行为极其危险
开源模型的性价比：GPT-OSS 120B 以 1/100 的成本达到接近前沿性能
普适性洞察：发现不仅限于加密货币——任何对抗性领域（网络安全、内容审核、医疗诊断）都面临类似挑战

局限与展望¶

178 个任务的规模相对较小，且高度集中在加密领域
人类基线仅 16 人完成 10% 样本，统计显著性有限
未评估模型在获得反馈后的学习/适应能力
分类系统（该论文被归入"目标检测"领域可能是错误分类，实际是 AI Agent 评估）
缺乏对 agent 安全部署的具体改进建议
依赖 ReAct 框架，其他 agent 架构可能表现不同

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首个高风险对抗性 AI agent 基准，立意深远
实验充分度: ⭐⭐⭐⭐⭐ — 17 个模型，双条件评估，多维分析
写作质量: ⭐⭐⭐⭐⭐ — 论述有力，洞察深刻，案例生动
价值: ⭐⭐⭐⭐⭐ — 对 AI agent 安全部署的警示意义重大