When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets¶
会议: AAAI 2026
arXiv: 2510.00332
代码: GitHub
领域: 目标检测
关键词: AI Agent 评估, 对抗性基准, 加密货币, 工具选择, 幻觉
一句话总结¶
提出 CAIA 基准测试,通过加密货币市场作为天然对抗性实验室,评估 17 个 SOTA 大模型在高风险对抗环境中的 agent 能力,揭示前沿模型仅达 67.4% 准确率(GPT-5)vs 人类 80%,并发现系统性工具选择灾难。
研究背景与动机¶
AI 基准测试的盲区:当前 AI 评测(GLUE、ImageNet、ICPC、IMO)在封闭世界中衡量能力,假设工具按预期运行、信息可信、其他 agent 合作。但真实世界的自主部署要求对抗性鲁棒——在充满不确定性、虚假信息和对抗性激励的开放系统中生存。
基准分数≠部署就绪:在推理基准上获得高分的 agent,可能仍会相信虚假新闻、购买被攻击的资产、上当受骗——因为其评估中从未涉及欺骗场景。随着 AI agent 越来越多地与不可信用户、真实资金和关键基础设施交互,这个漏洞构成安全隐患。
为什么选择加密货币市场:
真实对抗环境:匿名区块链使恶意行为者无需承担声誉后果;利润动机驱动复杂攻击策略;监管空白允许传统市场非法的欺骗手段。日常攻击包括蜜罐合约、闪电贷攻击、协调社交工程
高风险不可逆:无传统金融安全网,交易不可逆,智能合约执行最终化,2024 年损失超 300 亿美元
可验证真相:尽管对抗混乱,区块链提供完全透明性和不可变性——每笔交易永久记录,可加密验证
方法详解¶
整体框架¶
CAIA 基准的设计遵循"对抗优先"原则,包含 178 个时间锚定任务,评估 agent 在加密货币分析中的知识、规划和执行能力。
关键设计¶
1. 质量保证三支柱¶
- 知识:评估加密原生概念的基础理解(AMM 机制、治理结构等),测试概念掌握而非定义记忆
- 规划:评估复杂问题分解为可执行分析工作流的能力,要求 agent 在执行前指定工具选择和顺序
- 执行:使用生产级 API(Etherscan、CoinGecko、DefiLlama)测试实际执行,评估技术能力和判断力
2. 数据策划流水线(5 阶段)¶
- 自动过滤:LLM 评审过滤不相关/模糊/不可回答的查询,保留 top 15%(~1000 任务)
- 专家评审:92 名领域专家,每任务至少 4 个评审,去极端平均取 top 200
- 格式标准化:统一格式,锚定区块号/时间戳,确保客观评估
- 真相验证:验证可复现的工具链调用方案,无法复现的任务移除 → 最终 178 任务
- 分类:6 个分析类别用于诊断
来源:超过 10,000 条来自 3,000+ 活跃用户的真实查询。
3. 任务类别分布¶
| 类别 | 数量 | 占比 | 重点 |
|---|---|---|---|
| 链上分析 | 77 | 43.3% | 交易模式、MEV、资金流向 |
| 项目发现 | 49 | 27.5% | 协议评估、安全分析 |
| 代币经济 | 23 | 12.9% | 激励设计、价值积累 |
| 交叉领域 | 14 | 7.9% | 多领域综合 |
| 趋势分析 | 8 | 4.5% | 时间模式、采用指标 |
| 通识知识 | 7 | 3.9% | 基础概念 |
实验设置¶
- 评估模型:17 个 SOTA 模型(GPT-5、GPT-4.1、Claude Opus 4、Gemini 2.5 Pro、Grok 4、DeepSeek R1/V3.1、Llama 4、Qwen 3 等)
- 两种条件:无工具(闭卷考试)vs 有工具(开卷考试,23 种专业工具)
- Agent 框架:标准 ReAct 框架,确保评估不受实现差异影响
- 人类基线:16 名大学区块链社团/早期公司参与者(初级分析师),完成 10% 分层样本,平均准确率 80%
- 指标:5 次独立运行的多数投票准确率 + Pass@1/Pass@5 + 成本效率
实验关键数据¶
主实验¶
无工具条件(所有模型灾难性失败):
| 模型 | 多数投票准确率 | Pass@1 | Pass@5 |
|---|---|---|---|
| GPT-5 | 27.5% | 28.1% | 42.7% |
| Gemini 2.5 Pro | 22.5% | 20.2% | 29.8% |
| GPT-o3 | 20.8% | 22.5% | 29.2% |
| Claude Opus 4 | 13.5% | 13.5% | 16.9% |
| DeepSeek R1 | 20.8% | 21.9% | 35.4% |
有工具条件:
| 模型 | 多数投票准确率 | Pass@1 | Pass@5 | 平均成本 |
|---|---|---|---|---|
| GPT-5 | 67.4% | 70.2% | 77.0% | $0.1154 |
| GPT-OSS 120B | 62.9% | 56.2% | 72.5% | $0.0066 |
| Grok 4 Fast | 61.2% | 57.9% | 71.9% | $0.0098 |
| Claude Sonnet 4 | 56.7% | 57.9% | 66.9% | $0.2291 |
| Claude Opus 4 | 57.3% | 59.6% | 71.9% | $1.1139 |
| 人类基线 | ~80% | - | - | - |
消融实验¶
工具使用分布(工具选择灾难):
| 工具类别 | 调用次数 | 占比 | 说明 |
|---|---|---|---|
| Google 搜索 | 11,626 | 49.6% | 模型偏好不可靠来源 |
| 专业区块链工具 | 8,351 | 35.6% | 包含正确答案的权威来源 |
| URL 获取 | 1,743 | 7.4% | - |
| Twitter 搜索 | 1,388 | 5.9% | 社交媒体操纵信息 |
| 代码执行 | 355 | 1.5% | - |
成本-准确率权衡:
| 模型 | 准确率 | 每次成本 | 性价比 |
|---|---|---|---|
| Claude Opus 4 | 57.3% | $1.1139 | 最差 |
| GPT-OSS 120B | 62.9% | $0.0066 | 100倍性价比 |
| Grok 4 Fast | 61.2% | $0.0098 | 帕累托最优 |
关键发现¶
- 基础能力缺口:无工具时所有模型接近随机猜测(12-28%),而初级分析师日常能完成这些任务
- 工具选择灾难:模型 55.5% 的工具调用选择不可靠的网络搜索,即使专业区块链工具能直接提供正确答案
- Pass@k 的幻觉:Gemini 2.5 Flash 从 39.3% (Pass@1) 到 62.4% (Pass@5) 的提升意味着模型本质在试错猜测,而非战略推理
- Twitter 搜索悖论:单独使用准确率仅 6.6%,组合使用升至 40.7%,说明工具需要编排能力
- 案例研究(Task 49):获取 Pump.fun 月度代币发行数据——一个简单 API 调用即可完成,17 个模型无一成功,全部陷入网络搜索→过时博客→Twitter 投机信息的级联失败
亮点与洞察¶
- 对抗优先评估范式:首次明确将主动欺骗、来源验证和对抗鲁棒性纳入 AI agent 核心能力评估
- Pass@k 指标的危险性:高 Pass@k 不代表能力,而是试错——在不可逆金融决策中,这种行为极其危险
- 开源模型的性价比:GPT-OSS 120B 以 1/100 的成本达到接近前沿性能
- 普适性洞察:发现不仅限于加密货币——任何对抗性领域(网络安全、内容审核、医疗诊断)都面临类似挑战
局限与展望¶
- 178 个任务的规模相对较小,且高度集中在加密领域
- 人类基线仅 16 人完成 10% 样本,统计显著性有限
- 未评估模型在获得反馈后的学习/适应能力
- 分类系统(该论文被归入"目标检测"领域可能是错误分类,实际是 AI Agent 评估)
- 缺乏对 agent 安全部署的具体改进建议
- 依赖 ReAct 框架,其他 agent 架构可能表现不同
相关工作与启发¶
- GAIA(通用 AI 助手基准)测试任务完成但假设合作环境
- 本文扩展到对抗性维度,填补 AI 安全评估的重要空白
- 时间锚定设计参考了 RealTimeQA 等时间敏感评估方法
- 与 HELM(全面语言模型评估)呼应,但聚焦高风险场景
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 首个高风险对抗性 AI agent 基准,立意深远
- 实验充分度: ⭐⭐⭐⭐⭐ — 17 个模型,双条件评估,多维分析
- 写作质量: ⭐⭐⭐⭐⭐ — 论述有力,洞察深刻,案例生动
- 价值: ⭐⭐⭐⭐⭐ — 对 AI agent 安全部署的警示意义重大
相关论文¶
- [ICLR 2026] When Agents "Misremember" Collectively: Exploring the Mandela Effect in LLM-based Multi-Agent Systems
- [ICLR 2026] Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review
- [AAAI 2026] PASE: Leveraging the Phonological Prior of WavLM for Low-Hallucination Generative Speech Enhancement
- [AAAI 2026] When Trackers Date Fish: A Benchmark and Framework for Underwater Multiple Fish Tracking
- [AAAI 2026] Beyond Semantic Features: Pixel-Level Mapping for Generalized AI-Generated Image Detection