Knowledge is Overrated: A Zero-Knowledge ML and Cryptographic Hashing-Based Framework for Verifiable, Low Latency Inference at the LHC¶
会议: NeurIPS 2025 arXiv: 2511.12592 代码: PHAZE (开源) 领域: Physics / ML Systems 关键词: zero-knowledge proof, LHC trigger, early-exit, cryptographic hashing, verifiable inference
一句话总结¶
提出PHAZE框架,利用密码学哈希(Rabin指纹)和零知识机器学习(zkML)实现LHC触发器级别的可验证早退出推理,理论延迟降至~152-253ns量级,同时内建异常检测能力。
研究背景与动机¶
- 领域现状:大型强子对撞机(LHC)以40MHz频率产生碰撞事件,低延迟事件选择(trigger)算法是运行核心。现有方案如AXOL1TL和CICADA通过hls4ml等框架在FPGA上实现O(ns)延迟的异常检测。
- 现有痛点:现代高精度ML模型(如大型DNN/基础模型)无法满足40MHz的在线延迟约束;当前加速方案是逐案优化的精度-加速权衡,缺乏通用框架;触发决策的可验证性和可重现性对下游物理分析至关重要但缺乏系统保障。
- 核心矛盾:需要大模型的高精度,但在线推理只允许纳秒级延迟——两者看似不可兼得。
- 本文要解决什么? 设计一个框架,让任意大小的基线模型产生的触发决策能在纳秒级完成,同时决策具有密码学级别的可验证性。
- 切入角度:将推理分为离线build阶段(不受延迟约束)和在线lookup阶段(极低延迟),用密码学哈希将早层激活映射到预计算的决策表。
- 核心idea一句话:用Rabin指纹将模型早层激活压缩为固定长度哈希,查询预构建的Verifiable Decision Map实现O(ns)推理,zkML证明保证决策完整性。
方法详解¶
整体框架¶
两阶段设计:Build阶段(离线,计算密集)将大模型的推理结果预计算为"哈希→决策"映射表,并用zkML生成正确性证明;Online阶段(在线,极低延迟)仅需提取早层激活→哈希→查表,跳过完整模型推理。
关键设计¶
- Verifiable Decision Map (VDM) 构建:
- 做什么:将大模型 \(\mathbb{M}_{\text{full}}\) 的推理结果预存为哈希查找表
- 核心思路:对训练集每个事件 \(I_j\):(1) 运行完整模型得到决策 \(D_j\);(2) 提取早层激活 \(A_j \in \mathbb{R}^k\);(3) 量化到有限域 \(A_j^* \in \mathbb{F}_p^k\);(4) 多项式插值 \(P_{A_j^*}(x)\);(5) 在随机挑战点 \(r\) 计算Rabin指纹 \(h_j = P_{A_j^*}(r) \mod g(x)\);(6) 存储 VDM: \(h_j \to D_j\)
-
设计动机:将高维激活向量压缩为64-bit哈希,碰撞概率由Schwartz-Zippel引理保证极低(\(\leq 100/2^{64}\))
-
zkML证明生成:
- 做什么:为每个VDM条目生成密码学正确性证明
- 核心思路:基于zk-STARK,证明复合断言:"\(\mathbb{M}_{\text{full}}\) 在 \(I_j\) 上推理得到 \(D_j\) 且早层激活经哈希得到 \(h_j\)"。证明生成复杂度 \(O(T(n) \cdot \text{polylog}(T(n)))\),验证仅需 \(O(\text{polylog}(T(n)))\)
-
设计动机:保证VDM抗篡改(如比特翻转),支持下游分析的审计和重现
-
在线早退出推理:
- 做什么:纳秒级在线触发决策
- 核心思路:新事件 \(I_{\text{new}}\) → FPGA提取早层激活 \(A_{\text{new}}^*\)(~100-200ns)→ Barycentric Lagrange插值+Estrin方法计算哈希(~50ns)→ VDM查表(~2.5ns)
-
设计动机:将所有重计算移到离线,在线仅做激活提取+哈希+查表,三步均可在FPGA上高效实现
-
Map-Miss异常检测:
- 做什么:VDM查表未命中时标记为潜在异常
- 核心思路:新事件的哈希在VDM中无匹配 → 可能是新物理信号或未知探测器效应 → 缓存/传递给专用异常检测算法
- 设计动机:"免费"获得低级别异常检测能力,无需额外计算开销
损失函数 / 训练策略¶
基线模型训练与框架无关(任意ML模型均可)。建议使用对比损失等表示学习技术使早层激活在潜空间中类别分离更清晰,降低量化误差。
实验关键数据¶
主实验 — 延迟估计¶
| 阶段 | 任务 | 延迟/事件 | 复杂度 |
|---|---|---|---|
| Build | 完整模型推理 | O(ms-s) | \(O(\|\mathbb{M}_{\text{full}}\|)\) |
| Build | zkML证明生成 | O(min) | \(O(\|\mathbb{M}\| \cdot \text{polylog})\) |
| Online | 早层激活提取(FPGA) | ~100-200ns | \(O(\|\mathbb{M}_{\text{early}}\|)\) |
| Online | OTF哈希(FPGA) | ~50ns | \(O(\sqrt{d})\) |
| Online | VDM查表(FPGA) | ~2.5ns | \(O(1)\) |
| Online总计 | ~152.5-252.5ns |
Build阶段基准测试(~7M参数DNN,MNIST)¶
| 指标 | Rabin指纹 | Shamir秘密共享 |
|---|---|---|
| 哈希吞吐 | 更高 | 较低(需Share+Reconstruct) |
| 内存消耗 | 更低 | 更高 |
| ezkl证明生成 | ~10²秒/事件 | N/A |
| ezkl证明验证 | 亚秒级 | N/A |
关键发现¶
- 在线延迟理论上可达152.5-252.5ns,满足LHC Level-1 trigger的O(ns)约束
- 64-bit哈希碰撞概率 \(\leq 100/2^{64} \approx 5.4 \times 10^{-18}\),计算上可忽略
- FPGA内存限制是主要瓶颈:AMD UltraScale+ FPGA可存储~6.3M个VDM条目,不足以覆盖代表性数据集
- zkML证明生成是build阶段的主要瓶颈(未优化情况下~100秒/事件),需要更高效的zkML工具
亮点与洞察¶
- 计算转移范式:将推理计算从在线转移到离线,在线仅做查表——这是一种通用的加速思路,可迁移到任何低延迟推理场景(如自动驾驶、实时交易)
- 异常检测是免费的:VDM未命中天然构成异常信号,对新物理发现和探测器监控都有价值。这种"by-product anomaly detection"设计思路很巧妙
- 可验证性内建:zkML证明使每个触发决策都可追溯审计,这对科学实验的可重现性至关重要
局限性 / 可改进方向¶
- VDM存储瓶颈:单FPGA仅存6.3M条目,真实场景需分布式查找方案(作者承认这是开放问题)
- 假设较强:早层激活的预测充分性(Assumption 3)未经严格验证;多项式插值的injective假设需要详细检验
- build阶段成本高:对每个训练事件都需运行完整模型+zkML证明,大规模数据集时build成本巨大
- 仅在MNIST上benchmark:7M参数DNN + MNIST远不能代表LHC实际模型的复杂度
- 动态VDM未实现:论文提议但未实验验证动态更新机制
相关工作与启发¶
- vs AXOL1TL/CICADA:这些是端到端优化的小模型方案,PHAZE则允许使用任意大模型通过查表实现低延迟——理念根本不同
- vs hls4ml:hls4ml直接将模型映射到FPGA逻辑,受模型大小限制;PHAZE将模型大小约束解耦到build阶段
- vs 标准Early-Exit:传统EE需要多个出口分支+复杂判断逻辑,PHAZE将判断简化为哈希查表
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次将zkML和密码学哈希引入粒子物理触发器设计,概念非常新颖
- 实验充分度: ⭐⭐ 仅在MNIST上做了build阶段的可行性基准,缺乏真实物理数据和在线延迟实测
- 写作质量: ⭐⭐⭐⭐ 技术叙述清晰,密码学和物理背景兼顾
- 价值: ⭐⭐⭐⭐ 框架设计具有前瞻性,为下一代LHC触发器指出了可能方向