DeepRWCap: Neural-Guided Random-Walk Capacitance Solver for IC Design¶

会议: AAAI 2026
arXiv: 2511.06831
代码: github.com/THU-numbda/deepRWCap
领域: 其他
关键词: 电容提取, 随机游走, CNN, IC设计, EDA

一句话总结¶

提出 DeepRWCap，一种机器学习引导的随机游走电容求解器，通过两阶段神经网络架构预测转移核来加速IC设计中的多介质域电容提取，在10个工业测试案例上实现平均1.24%误差和23%加速。

研究背景与动机¶

寄生电容提取是集成电路（IC）设计验证的关键步骤，需要分析物理版图以确保时序、功耗和信号完整性满足要求。随着半导体技术向更复杂的3D集成方向发展（FinFET → Gate-All-Around → CFET），电容提取面临重大计算挑战。

现有方法的问题：

有限差分法（FDM）：精度高但可扩展性差

模式匹配方法：计算高效但无精度保证，依赖专家知识

浮动随机游走（FRW）：可扩展的随机框架，但在多介质域中计算转移核（transition kernel）的代价极高

纯学习方法（CNN-Cap, GNN-Cap）：需要针对每个工艺节点重训练

混合方法（GE-CNN）：存在信息瓶颈，CPU-only 实现比原始 FRW 慢12倍

核心问题：FRW 方法在处理现代半导体密集结构时，需要在每一步无偏采样包含多种高对比介质材料的转移域——这一过程计算极为昂贵。DeepRWCap 的动机是用紧凑的神经网络替代这一昂贵的数值求解，同时保持计算的无偏性。

方法详解¶

整体框架¶

DeepRWCap 基于浮动随机游走（FRW）框架。FRW 方法使用立方体在问题域中"跳跃"，每一步需要在当前位置构建一个转移立方体，然后计算泊松核（Poisson kernel）来确定下一步的转移概率。

核心思路：将转移核的预测分解为面选择（选择跳到哪个面）和面内核预测（确定面上的概率分布），利用立方体对称性减少学习冗余。

关键设计¶

两阶段预测架构：

直接预测 6×N×N 的泊松核会引入大量跨面冗余。DeepRWCap 将预测分为两阶段：

面选择器（Face Selector）$\mathcal{F}_\theta$：3D 卷积网络，预测六个面的分类分布 $\mathbf{F} \in \mathbb{R}^6$，其中 $\mathbf{F}_i = \sum_{j,k} (\mathbf{p}_\alpha)_{i,j,k}$。使用四层 stride-2 3D卷积逐步下采样，输出通过 softmax 归一化。训练损失为 KL 散度。
面预测器（Face Predictor）$\mathcal{G}_\theta$：2D 深度可分离卷积（depthwise separable conv）网络，预测选定面上的条件概率分布。深度卷积捕捉每层的空间模式，逐点卷积建模层间交互。使用 ReLU 保证非负性，L1 归一化确保概率分布有效。

设计动机：泊松核对距表面距离的依赖快速衰减，因此将3D问题分解为面选择+2D面内预测是合理的。

梯度核预测与对称性利用：

随机游走的第一步需要特殊的转移量：权重值 $w_\alpha$、符号分布 $s_\alpha$ 和梯度核 $g_\alpha$。作者只学习 z 分量的梯度核，通过立方体对称性导出其他分量（旋转和反射输入即可）。

值得注意的是，梯度核的对称性只是立方体对称性的子群，需要至少两个专用面预测器： - 切向面（tangential）：对称性好，预测较容易 - 法向面（normal）：呈双峰结构（一端正、一端负），预测困难度高一个量级，需要更深的网络

面选择器扩展输出维度从6到7，同时预测面分布和权重值，使用组合损失： $$\mathcal{L}_{grad-face-select} = D_{KL}[\mathbf{F}^\nabla \| \text{softmax}(\mathcal{F}_\theta(\mathcal{X})_{1:6})] + \lambda |w_\alpha - \mathcal{F}_\theta(\mathcal{X})_7|^2$$

高通量GPU推理引擎：
- 异步生产者-消费者架构：walker 线程（生产者）生成采样任务，sampler 线程（消费者）执行 GPU 推理
- 多实例模型部署：每2个 walker 线程部署1个泊松求解器实例，1个梯度求解器共享
- 自定义CUDA核：直接在GPU上完成体素化，使用 TensorRT FP16 编译加速推理
- 传输紧凑结构描述而非体素化数据，减少 GPU 内存传输

损失函数 / 训练策略¶

数据生成：通过 Algorithm 1 的块状生成程序生成 100,000 个随机介质配置，模拟真实IC中的低κ（U(2,10)，80%概率）和高κ（U(10,80)，20%概率）材料
训练配置：AdamW 优化器，余弦退火学习率（$10^{-3}$ → $5\times10^{-6}$），20 epoch warmup，200 epochs，batch size=16
网格基位置编码（Grid PE）为面预测器提供空间上下文：添加 (x,y) 两个通道
FDM 求解器生成 ground truth，数据生成耗时 1.7 小时，训练耗时 12.3 小时

实验关键数据¶

主实验¶

10个工业测试案例（12-55nm 工艺节点），以 Raphael 商业求解器为 ground truth：

案例	节点(nm)	FRW-FDM误差	GE-CNN误差	FRW-AGF误差	Microwalk误差	DeepRWCap误差
1	16	0.4±0.2%	4.9±0.2%	0.8±0.1%	0.6±0.2%	1.2±0.1%
4	28	1.8±0.4%	6.6±0.3%	1.4±0.4%	0.5±0.4%	0.7±0.3%
9	12	1.5±0.8%	22.9±0.7%	17.0±1.0%	0.9±0.5%	1.1±0.9%
10	12	0.6±0.6%	27.1±0.8%	23.9±1.3%	0.6±0.4%	1.2±0.9%
平均	-	-	-	5.18±7.81%	-	1.24±0.53%

加速比：相比 Microwalk 平均 23% 加速（$1.23\times$, p=0.024）；复杂设计（>10s）平均 49% 加速。

消融实验¶

面预测器架构消融（单面泊松核预测）：

架构	参数量	FLOPs	L2误差(%)	KL散度
MLP (3层×2048)	34.4M	34.4M	7.83	0.0133
3D Conv	19.7K	20.3M	24.15	0.0298
2D Conv	4.28K	2.31M	13.80	0.0125
GE-CNN + GMM	0.43M	0.65M	26.63	0.0403
DS Conv	1.37K	0.82M	12.15	0.0083
DS Conv + Grid PE	1.40K	0.84M	3.93	0.0021

关键发现¶

深度可分离卷积以极少参数（1.40K）实现最优精度，远超百万参数的 MLP 和 GE-CNN
Grid PE 位置编码至关重要：KL散度从 0.0083 降至 0.0021
3D卷积不适合这一任务：虽然直觉上适合处理体积数据，但计算效率低且精度差
GE-CNN 方法在高对比介质（案例9, 10）中失效：误差高达 22-27%
AGF 方法精度不稳定：平均误差 5.18% 但标准差高达 7.81%，DeepRWCap 仅 1.24±0.53%
TensorRT + CUDA优化关键：Poisson 预测从 ~0.7ms 降至更低延迟

亮点与洞察¶

物理与学习的优雅结合：不是替代随机游走框架，而是用 CNN 加速其中最耗时的转移核计算，保持了 FRW 的统计无偏性
对称性利用彻底：利用立方体对称性减少学习冗余（只学 z 分量），面选择+面预测的分解也源于对称性分析
极致的模型效率：核心面预测器仅 1.40K 参数、0.84M FLOPs，适合高频调用
跨工艺节点泛化：在程序化生成的介质配置上训练，在 12-55nm 的工业设计上验证，展现了良好的跨节点泛化能力
工程完成度高：完整的 GPU 推理引擎、生产者-消费者调度、多实例部署

局限与展望¶

仅支持自电容：论文聚焦自电容估计，耦合电容需要进一步验证
训练数据是合成的：程序化生成的介质配置可能不能完全覆盖所有实际工艺场景
单GPU限制：当前实现基于单张 RTX 4090，更大规模设计可能需要多GPU支持
梯度核法向面精度仍有提升空间：验证损失比切向面高一个量级
立方体离散化分辨率固定（N=23）：更高分辨率可能提升精度但增加计算量

评分¶

新颖性: ⭐⭐⭐⭐ (两阶段架构设计和对称性利用有创意)
实验充分度: ⭐⭐⭐⭐⭐ (10个工业案例, 跨节点验证, 架构消融完整)
写作质量: ⭐⭐⭐⭐⭐ (数学严谨, 系统完整, 工程细节充分)
价值: ⭐⭐⭐⭐ (解决实际EDA痛点, 有工业应用前景)