DEP: A Decentralized Large Language Model Evaluation Protocol¶

日期: 2026-03-01
arXiv: 2603.01167
代码: DEP Toolkit
领域: LLM推理 / 评估框架
关键词: LLM evaluation, decentralized, benchmark leakage, standardization, DEP

一句话总结¶

DEP 提出去中心化 LLM 评估协议：通过匹配服务器将用户、LLM 和 benchmark 解耦，实现模块化即插即用评估。benchmark 的数据和评估逻辑留在服务器端保证防泄漏，同时提供断点续传、并发请求等工程特性。截至 2026 年 2 月已适配 60+ 个 benchmark。

领域现状：LLM benchmark 数量爆发（已有数百个），但评估实践极其碎片化——每个 benchmark 需要自己实现评估脚本，格式不统一，结果难以复现。
现有痛点：(a) 缺乏统一评估标准，手动实现脚本导致结果不一致；(b) 中心化评估框架（数据集和答案公开）有 benchmark 泄漏风险——模型可能在评测数据上训练过；(c) 新 benchmark 接入成本高
核心矛盾：评估需要标准化（可复现）但 benchmark 需要隔离（防泄漏），两者在中心化架构下矛盾
切入角度：去中心化——benchmark 数据和评估逻辑留在服务器端，用户只能通过协议接口与之交互
核心 idea：匹配服务器 + 去中心化隔离——用户提交模型输出 → 服务器端持有真值和评估逻辑 → 返回评分，用户永远接触不到答案

三方解耦架构： - 用户端：提交模型、接收评分 - 匹配服务器：路由请求，不存储数据 - Benchmark 服务器：持有数据集、答案和评估逻辑，可本地或远程部署

协议标准化
- 统一的请求/响应格式（问题下发、答案上传、评分返回）
- Benchmark 只需实现协议接口即可接入，不强制特定框架
数据隔离
- 远程模式：benchmark 数据留在远程服务器，用户无法获取测试集答案
- 本地模式：服务器本地部署，适合内部评估
DEP Toolkit 工程特性
- 断点续传：大规模评估中断后可恢复
- 并发请求：支持多模型并行评估
- 拥塞控制：防止过多请求压垮 benchmark 服务器

评估方式	结果一致性	说明
DEP vs 官方脚本	>99% 一致	协议等价性验证
DEP 跨次评估	100% 可复现	标准化保证