跳转至

DeepRWCap: Neural-Guided Random-Walk Capacitance Solver for IC Design

会议: AAAI 2026
arXiv: 2511.06831
代码: github.com/THU-numbda/deepRWCap
领域: 其他
关键词: 电容提取, 随机游走, CNN, IC设计, EDA

一句话总结

提出 DeepRWCap,一种机器学习引导的随机游走电容求解器,通过两阶段神经网络架构预测转移核来加速IC设计中的多介质域电容提取,在10个工业测试案例上实现平均1.24%误差和23%加速。

研究背景与动机

寄生电容提取是集成电路(IC)设计验证的关键步骤,需要分析物理版图以确保时序、功耗和信号完整性满足要求。随着半导体技术向更复杂的3D集成方向发展(FinFET → Gate-All-Around → CFET),电容提取面临重大计算挑战。

现有方法的问题

有限差分法(FDM):精度高但可扩展性差

模式匹配方法:计算高效但无精度保证,依赖专家知识

浮动随机游走(FRW):可扩展的随机框架,但在多介质域中计算转移核(transition kernel)的代价极高

纯学习方法(CNN-Cap, GNN-Cap):需要针对每个工艺节点重训练

混合方法(GE-CNN):存在信息瓶颈,CPU-only 实现比原始 FRW 慢12倍

核心问题:FRW 方法在处理现代半导体密集结构时,需要在每一步无偏采样包含多种高对比介质材料的转移域——这一过程计算极为昂贵。DeepRWCap 的动机是用紧凑的神经网络替代这一昂贵的数值求解,同时保持计算的无偏性。

方法详解

整体框架

DeepRWCap 基于浮动随机游走(FRW)框架。FRW 方法使用立方体在问题域中"跳跃",每一步需要在当前位置构建一个转移立方体,然后计算泊松核(Poisson kernel)来确定下一步的转移概率。

核心思路:将转移核的预测分解为面选择(选择跳到哪个面)和面内核预测(确定面上的概率分布),利用立方体对称性减少学习冗余。

关键设计

  1. 两阶段预测架构

直接预测 6×N×N 的泊松核会引入大量跨面冗余。DeepRWCap 将预测分为两阶段:

  • 面选择器(Face Selector)\(\mathcal{F}_\theta\):3D 卷积网络,预测六个面的分类分布 \(\mathbf{F} \in \mathbb{R}^6\),其中 \(\mathbf{F}_i = \sum_{j,k} (\mathbf{p}_\alpha)_{i,j,k}\)。使用四层 stride-2 3D卷积逐步下采样,输出通过 softmax 归一化。训练损失为 KL 散度。

  • 面预测器(Face Predictor)\(\mathcal{G}_\theta\):2D 深度可分离卷积(depthwise separable conv)网络,预测选定面上的条件概率分布。深度卷积捕捉每层的空间模式,逐点卷积建模层间交互。使用 ReLU 保证非负性,L1 归一化确保概率分布有效。

设计动机:泊松核对距表面距离的依赖快速衰减,因此将3D问题分解为面选择+2D面内预测是合理的。

  1. 梯度核预测与对称性利用

随机游走的第一步需要特殊的转移量:权重值 \(w_\alpha\)、符号分布 \(s_\alpha\) 和梯度核 \(g_\alpha\)。作者只学习 z 分量的梯度核,通过立方体对称性导出其他分量(旋转和反射输入即可)。

值得注意的是,梯度核的对称性只是立方体对称性的子群,需要至少两个专用面预测器: - 切向面(tangential):对称性好,预测较容易 - 法向面(normal):呈双峰结构(一端正、一端负),预测困难度高一个量级,需要更深的网络

面选择器扩展输出维度从6到7,同时预测面分布和权重值,使用组合损失: $\(\mathcal{L}_{grad-face-select} = D_{KL}[\mathbf{F}^\nabla \| \text{softmax}(\mathcal{F}_\theta(\mathcal{X})_{1:6})] + \lambda |w_\alpha - \mathcal{F}_\theta(\mathcal{X})_7|^2\)$

  1. 高通量GPU推理引擎

    • 异步生产者-消费者架构:walker 线程(生产者)生成采样任务,sampler 线程(消费者)执行 GPU 推理
    • 多实例模型部署:每2个 walker 线程部署1个泊松求解器实例,1个梯度求解器共享
    • 自定义CUDA核:直接在GPU上完成体素化,使用 TensorRT FP16 编译加速推理
    • 传输紧凑结构描述而非体素化数据,减少 GPU 内存传输

损失函数 / 训练策略

  • 数据生成:通过 Algorithm 1 的块状生成程序生成 100,000 个随机介质配置,模拟真实IC中的低κ(U(2,10),80%概率)和高κ(U(10,80),20%概率)材料
  • 训练配置:AdamW 优化器,余弦退火学习率(\(10^{-3}\)\(5\times10^{-6}\)),20 epoch warmup,200 epochs,batch size=16
  • 网格基位置编码(Grid PE)为面预测器提供空间上下文:添加 (x,y) 两个通道
  • FDM 求解器生成 ground truth,数据生成耗时 1.7 小时,训练耗时 12.3 小时

实验关键数据

主实验

10个工业测试案例(12-55nm 工艺节点),以 Raphael 商业求解器为 ground truth:

案例 节点(nm) FRW-FDM误差 GE-CNN误差 FRW-AGF误差 Microwalk误差 DeepRWCap误差
1 16 0.4±0.2% 4.9±0.2% 0.8±0.1% 0.6±0.2% 1.2±0.1%
4 28 1.8±0.4% 6.6±0.3% 1.4±0.4% 0.5±0.4% 0.7±0.3%
9 12 1.5±0.8% 22.9±0.7% 17.0±1.0% 0.9±0.5% 1.1±0.9%
10 12 0.6±0.6% 27.1±0.8% 23.9±1.3% 0.6±0.4% 1.2±0.9%
平均 - - - 5.18±7.81% - 1.24±0.53%

加速比:相比 Microwalk 平均 23% 加速(\(1.23\times\), p=0.024);复杂设计(>10s)平均 49% 加速。

消融实验

面预测器架构消融(单面泊松核预测):

架构 参数量 FLOPs L2误差(%) KL散度
MLP (3层×2048) 34.4M 34.4M 7.83 0.0133
3D Conv 19.7K 20.3M 24.15 0.0298
2D Conv 4.28K 2.31M 13.80 0.0125
GE-CNN + GMM 0.43M 0.65M 26.63 0.0403
DS Conv 1.37K 0.82M 12.15 0.0083
DS Conv + Grid PE 1.40K 0.84M 3.93 0.0021

关键发现

  1. 深度可分离卷积以极少参数(1.40K)实现最优精度,远超百万参数的 MLP 和 GE-CNN
  2. Grid PE 位置编码至关重要:KL散度从 0.0083 降至 0.0021
  3. 3D卷积不适合这一任务:虽然直觉上适合处理体积数据,但计算效率低且精度差
  4. GE-CNN 方法在高对比介质(案例9, 10)中失效:误差高达 22-27%
  5. AGF 方法精度不稳定:平均误差 5.18% 但标准差高达 7.81%,DeepRWCap 仅 1.24±0.53%
  6. TensorRT + CUDA优化关键:Poisson 预测从 ~0.7ms 降至更低延迟

亮点与洞察

  • 物理与学习的优雅结合:不是替代随机游走框架,而是用 CNN 加速其中最耗时的转移核计算,保持了 FRW 的统计无偏性
  • 对称性利用彻底:利用立方体对称性减少学习冗余(只学 z 分量),面选择+面预测的分解也源于对称性分析
  • 极致的模型效率:核心面预测器仅 1.40K 参数、0.84M FLOPs,适合高频调用
  • 跨工艺节点泛化:在程序化生成的介质配置上训练,在 12-55nm 的工业设计上验证,展现了良好的跨节点泛化能力
  • 工程完成度高:完整的 GPU 推理引擎、生产者-消费者调度、多实例部署

局限与展望

  1. 仅支持自电容:论文聚焦自电容估计,耦合电容需要进一步验证
  2. 训练数据是合成的:程序化生成的介质配置可能不能完全覆盖所有实际工艺场景
  3. 单GPU限制:当前实现基于单张 RTX 4090,更大规模设计可能需要多GPU支持
  4. 梯度核法向面精度仍有提升空间:验证损失比切向面高一个量级
  5. 立方体离散化分辨率固定(N=23):更高分辨率可能提升精度但增加计算量

相关工作与启发

DeepRWCap 处于 EDA(电子设计自动化)与机器学习交叉领域。相比纯学习替代方案(CNN-Cap, GNN-Cap),混合方法保留了物理可解释性和跨节点迁移能力。相比先前的混合方法(GE-CNN),DeepRWCap 通过更好的架构设计和 GPU 优化实现了实际可用的加速。对其他需要加速蒙特卡洛采样的科学计算问题(如辐射传输、扩散方程)具有启发意义。

评分

  • 新颖性: ⭐⭐⭐⭐ (两阶段架构设计和对称性利用有创意)
  • 实验充分度: ⭐⭐⭐⭐⭐ (10个工业案例, 跨节点验证, 架构消融完整)
  • 写作质量: ⭐⭐⭐⭐⭐ (数学严谨, 系统完整, 工程细节充分)
  • 价值: ⭐⭐⭐⭐ (解决实际EDA痛点, 有工业应用前景)

相关论文