CatRAG: Functor-Guided Structural Debiasing with Retrieval Augmentation for Fair LLMs¶
日期: 2026-03-23
arXiv: 2603.21524
代码: CatRAG
领域: AI安全 / LLM公平性
关键词: LLM debiasing, category theory, functor projection, RAG, fairness
一句话总结¶
提出 CatRAG,结合范畴论驱动的 functor 投影(在 embedding 空间压制人口统计属性方向)与多样性感知的 RAG 检索(注入反刻板印象证据),在 BBQ 基准上将 Llama-3 准确率从 48.9% 提升至 81.2%,偏差分数从 0.63 降至近零 0.01,且在三个开源 LLM 上一致有效。
研究背景与动机¶
-
领域现状: LLM 在高风险决策场景(招聘、信贷、医疗)广泛部署,但会继承训练数据中的性别、种族、地域偏见。已有去偏方法包括 embedding 空间投影、对抗训练、prompt 引导、因果干预等。
-
现有痛点: 大多数方法只作用于流水线的单一阶段——要么只改表征(如 INLP 做零空间投影),要么只改生成策略(如 self-debiasing prompt)。单阶段干预难以彻底消除偏见:改表征不能补知识缺失,改 prompt 不能改底层编码的刻板关联。
-
核心矛盾: 偏见有两个来源:(i) 模型内部几何结构中编码了人口统计捷径(man→engineer 的 attention 权重远大于 woman→engineer);(ii) 模型缺乏平衡的知识,遇到证据不足时默认走刻板印象。单一方法只敲一头。
-
切入角度: 用范畴论的 functor 提供数学保证——将"有偏语义范畴"映射为"无偏语义范畴",同时保持任务相关结构;再用 RAG 注入反刻板印象的平衡证据。两者联合才能同时消除内部编码偏差和外部知识缺失。
-
核心 idea: 双管齐下——functor 投影压制 embedding 中的人口统计方向 + 多样性 RAG 检索注入平衡证据 → 结构去偏 + 知识增强协同。
方法详解¶
整体框架¶
输入查询 q 经两条路径并行处理:(1) 左路做结构去偏——用 functor 投影矩阵 P 将 embedding 矩阵 E 投影到去偏子空间 E'=EP;(2) 右路做知识增强——用 TF-IDF 检索从多样性语料库中取 top-K 段反刻板印象证据。最后 context fusion 将检索证据拼入 prompt,配合去偏 embedding 层生成最终回答。
关键设计¶
-
有偏语义范畴建模:
- 做什么:将 LLM 的内部关联建模为范畴 C,对象是概念 token,态射是 attention 权重衡量的关联强度
- 核心思路:用 \(a_{XY} = \sigma(\mathbf{v}_X^\top \mathbf{W}_Q \mathbf{W}_K^\top \mathbf{v}_Y)\) 量化概念 X→Y 的关联,若 \(a_{\text{man,engineer}} > a_{\text{woman,engineer}}\) 则存在性别偏见
- 设计动机:提供严格的数学框架刻画偏见的结构性质,而非凭直觉做 ad-hoc 投影
-
Functor 投影去偏:
- 做什么:学习正交投影矩阵 P,将人口统计概念坍缩(man/woman → Person),同时保留职业概念区分(doctor ≠ nurse)
- 核心思路:最大化职业散布矩阵 \(S_O\) 相对于人口统计散布矩阵 \(S_D\) 的比值,求解广义特征值问题 \(S_O u = \gamma (S_D + \epsilon I) u\),取最大 \(\gamma\) 对应的 \(d_u\) 个特征向量构造 \(P = UU^\top\)
- 关键性质:P 是幂等矩阵(\(P^2 = P\)),一次投影即可;且闭式求解,无需迭代训练
- 与 INLP 的区别:INLP 逐步删除可预测人口统计的方向,CatRAG 用判别式相对散布准则同时优化"压人口统计、保任务语义"
-
多样性感知 RAG:
- 做什么:构建包含平衡反刻板印象事实的小型语料库,检索 top-K(K=3)段证据注入 prompt
- 核心思路:语料库设计遵循公平性感知检索原则——来源可审计、按人口统计/主题分层平衡、去除近似重复、毒性筛选;检索时可选公平性约束重排序
- 设计动机:结构投影只改内部表征,无法补充模型缺乏的平衡知识;RAG 让模型在证据不足时倾向选择"信息不足"而非走刻板印象
-
Context Fusion:
- 做什么:将指令前缀 + 检索证据 + 原始查询拼接,用去偏 embedding 层推理
- Prompt 格式:
[Instruction] + [Evidence 1/2/3] + [Question + Options] - 指令提醒模型基于证据回答,避免刻板印象假设
训练策略¶
不需要微调!投影矩阵 P 通过闭式谱分解获得,直接 \(E' = EP\) 替换 embedding 层即可推理。额外推理开销约 1.2×-1.6×(主要来自 RAG 增加的 token),投影本身开销 <1%。
实验关键数据¶
主实验¶
| 方法 | Accuracy | Bias Score | Acc提升 | BS改善 |
|---|---|---|---|---|
| Base (Llama-3) | 48.9% | 0.63 | - | - |
| CE Debiasing | 64.2% | 0.28 | +15.3% | +54.3% |
| Self Debiasing | 59.8% | 0.41 | +10.9% | +35.1% |
| SP Debiasing | 68.5% | 0.19 | +19.6% | +69.2% |
| Causal Debiasing | 78.6% | 0.10 | +28.2% | +84.1% |
| CatRAG (Ours) | 80.7% | 0.01 | +32.3% | +97.6% |
跨模型验证:在 GPT-OSS-20B 和 Gemma-3 上同样有效,Race×Gender 交叉子集上提升最大(+37.4 点准确率)。
消融实验¶
| 配置 | Accuracy | Bias Score |
|---|---|---|
| Base | 48.9±1.5% | 0.63±0.03 |
| Functor-only | 70.5±1.2% | 0.15±0.02 |
| RAG-only | 65.3±1.4% | 0.24±0.03 |
| Full CatRAG | 81.2±1.0% | 0.01±0.01 |
| \(d_u\)=128 | 78.9±1.2% | 0.02±0.01 |
| \(d_u\)=512 | 80.7±1.1% | 0.01±0.01 |
| K=1 | 79.1±1.2% | 0.02±0.01 |
| K=5 | 79.6±1.3% | 0.02±0.02 |
关键发现¶
- Functor 和 RAG 各自有效但存在互补性:Functor 降 BS 更强(0.15 vs 0.24),RAG 提 Acc 更弱(65.3% vs 70.5%),合并后 synergy 显著
- 子空间维度 \(d_u\) 在 128-512 范围内稳定,不太敏感
- 检索数 K=3 最优,K=1 证据不足,K=5 可能引入噪声
- 在最难的 Race×Gender 交叉子集上,CatRAG 比 SP Debiasing 高 12-14 个准确率点
亮点与洞察¶
- 范畴论做去偏的数学框架:用 functor 保证结构保持性,比 ad-hoc 投影有更强的理论支撑;广义特征值问题给出闭式解,无需训练
- 双管齐下的互补设计:投影改内部表征 + RAG 补外部知识,两者缺一效果都打折扣,体现了"编码层去偏 + 推理层增强"的哲学
- 零微调部署:不改模型权重,只替换 embedding 投影 + 拼接 prompt,任何开源 LLM 都能即插即用
局限性 / 可改进方向¶
- 投影是线性的,只能处理 embedding 空间中线性可分的偏见方向,非线性偏见关联可能遗漏
- 锚集(demographic anchors + occupation anchors)需要手动定义,覆盖范围直接影响效果
- RAG 语料库需要人工构建和维护,扩展到开放域场景的可行性未验证
- 只在 BBQ 基准上评测(多选 QA),未验证开放生成场景的去偏效果
- 推理延迟增加 1.2×-1.6×,对延迟敏感的场景可能不可接受
评分¶
- 新颖性: ⭐⭐⭐⭐ 范畴论引入 LLM 去偏是新角度,但投影去偏和 RAG 各自不新
- 实验充分度: ⭐⭐⭐⭐ 三个模型四个子集完整消融,但只用了 BBQ 一个数据集
- 写作质量: ⭐⭐⭐⭐ 公式推导清晰,图示直观,但范畴论部分可能过于形式化
- 价值: ⭐⭐⭐⭐ 提供了实用的零微调去偏方案,对公平性研究有参考价值