CatRAG: Functor-Guided Structural Debiasing with Retrieval Augmentation for Fair LLMs¶

日期: 2026-03-23
arXiv: 2603.21524
代码: CatRAG
领域: AI安全 / LLM公平性
关键词: LLM debiasing, category theory, functor projection, RAG, fairness

一句话总结¶

提出 CatRAG，结合范畴论驱动的 functor 投影（在 embedding 空间压制人口统计属性方向）与多样性感知的 RAG 检索（注入反刻板印象证据），在 BBQ 基准上将 Llama-3 准确率从 48.9% 提升至 81.2%，偏差分数从 0.63 降至近零 0.01，且在三个开源 LLM 上一致有效。

研究背景与动机¶

领域现状: LLM 在高风险决策场景（招聘、信贷、医疗）广泛部署，但会继承训练数据中的性别、种族、地域偏见。已有去偏方法包括 embedding 空间投影、对抗训练、prompt 引导、因果干预等。
现有痛点: 大多数方法只作用于流水线的单一阶段——要么只改表征（如 INLP 做零空间投影），要么只改生成策略（如 self-debiasing prompt）。单阶段干预难以彻底消除偏见：改表征不能补知识缺失，改 prompt 不能改底层编码的刻板关联。
核心矛盾: 偏见有两个来源：(i) 模型内部几何结构中编码了人口统计捷径（man→engineer 的 attention 权重远大于 woman→engineer）；(ii) 模型缺乏平衡的知识，遇到证据不足时默认走刻板印象。单一方法只敲一头。
切入角度: 用范畴论的 functor 提供数学保证——将"有偏语义范畴"映射为"无偏语义范畴"，同时保持任务相关结构；再用 RAG 注入反刻板印象的平衡证据。两者联合才能同时消除内部编码偏差和外部知识缺失。
核心 idea: 双管齐下——functor 投影压制 embedding 中的人口统计方向 + 多样性 RAG 检索注入平衡证据 → 结构去偏 + 知识增强协同。

方法详解¶

整体框架¶

输入查询 q 经两条路径并行处理：(1) 左路做结构去偏——用 functor 投影矩阵 P 将 embedding 矩阵 E 投影到去偏子空间 E'=EP；(2) 右路做知识增强——用 TF-IDF 检索从多样性语料库中取 top-K 段反刻板印象证据。最后 context fusion 将检索证据拼入 prompt，配合去偏 embedding 层生成最终回答。

关键设计¶

有偏语义范畴建模:
- 做什么：将 LLM 的内部关联建模为范畴 C，对象是概念 token，态射是 attention 权重衡量的关联强度
- 核心思路：用 \(a_{XY} = \sigma(\mathbf{v}_X^\top \mathbf{W}_Q \mathbf{W}_K^\top \mathbf{v}_Y)\) 量化概念 X→Y 的关联，若 \(a_{\text{man,engineer}} > a_{\text{woman,engineer}}\) 则存在性别偏见
- 设计动机：提供严格的数学框架刻画偏见的结构性质，而非凭直觉做 ad-hoc 投影
Functor 投影去偏:
- 做什么：学习正交投影矩阵 P，将人口统计概念坍缩（man/woman → Person），同时保留职业概念区分（doctor ≠ nurse）
- 核心思路：最大化职业散布矩阵 \(S_O\) 相对于人口统计散布矩阵 \(S_D\) 的比值，求解广义特征值问题 \(S_O u = \gamma (S_D + \epsilon I) u\)，取最大 \(\gamma\) 对应的 \(d_u\) 个特征向量构造 \(P = UU^\top\)
- 关键性质：P 是幂等矩阵（\(P^2 = P\)），一次投影即可；且闭式求解，无需迭代训练
- 与 INLP 的区别：INLP 逐步删除可预测人口统计的方向，CatRAG 用判别式相对散布准则同时优化"压人口统计、保任务语义"
多样性感知 RAG:
- 做什么：构建包含平衡反刻板印象事实的小型语料库，检索 top-K（K=3）段证据注入 prompt
- 核心思路：语料库设计遵循公平性感知检索原则——来源可审计、按人口统计/主题分层平衡、去除近似重复、毒性筛选；检索时可选公平性约束重排序
- 设计动机：结构投影只改内部表征，无法补充模型缺乏的平衡知识；RAG 让模型在证据不足时倾向选择"信息不足"而非走刻板印象
Context Fusion:
- 做什么：将指令前缀 + 检索证据 + 原始查询拼接，用去偏 embedding 层推理
- Prompt 格式：[Instruction] + [Evidence 1/2/3] + [Question + Options]
- 指令提醒模型基于证据回答，避免刻板印象假设

训练策略¶

不需要微调！投影矩阵 P 通过闭式谱分解获得，直接 \(E' = EP\) 替换 embedding 层即可推理。额外推理开销约 1.2×-1.6×（主要来自 RAG 增加的 token），投影本身开销 <1%。

实验关键数据¶

主实验¶

方法	Accuracy	Bias Score	Acc提升	BS改善
Base (Llama-3)	48.9%	0.63	-	-
CE Debiasing	64.2%	0.28	+15.3%	+54.3%
Self Debiasing	59.8%	0.41	+10.9%	+35.1%
SP Debiasing	68.5%	0.19	+19.6%	+69.2%
Causal Debiasing	78.6%	0.10	+28.2%	+84.1%
CatRAG (Ours)	80.7%	0.01	+32.3%	+97.6%

跨模型验证：在 GPT-OSS-20B 和 Gemma-3 上同样有效，Race×Gender 交叉子集上提升最大（+37.4 点准确率）。

消融实验¶

配置	Accuracy	Bias Score
Base	48.9±1.5%	0.63±0.03
Functor-only	70.5±1.2%	0.15±0.02
RAG-only	65.3±1.4%	0.24±0.03
Full CatRAG	81.2±1.0%	0.01±0.01
\(d_u\)=128	78.9±1.2%	0.02±0.01
\(d_u\)=512	80.7±1.1%	0.01±0.01
K=1	79.1±1.2%	0.02±0.01
K=5	79.6±1.3%	0.02±0.02

关键发现¶

Functor 和 RAG 各自有效但存在互补性：Functor 降 BS 更强（0.15 vs 0.24），RAG 提 Acc 更弱（65.3% vs 70.5%），合并后 synergy 显著
子空间维度 \(d_u\) 在 128-512 范围内稳定，不太敏感
检索数 K=3 最优，K=1 证据不足，K=5 可能引入噪声
在最难的 Race×Gender 交叉子集上，CatRAG 比 SP Debiasing 高 12-14 个准确率点

亮点与洞察¶

范畴论做去偏的数学框架：用 functor 保证结构保持性，比 ad-hoc 投影有更强的理论支撑；广义特征值问题给出闭式解，无需训练
双管齐下的互补设计：投影改内部表征 + RAG 补外部知识，两者缺一效果都打折扣，体现了"编码层去偏 + 推理层增强"的哲学
零微调部署：不改模型权重，只替换 embedding 投影 + 拼接 prompt，任何开源 LLM 都能即插即用

局限性 / 可改进方向¶

投影是线性的，只能处理 embedding 空间中线性可分的偏见方向，非线性偏见关联可能遗漏
锚集（demographic anchors + occupation anchors）需要手动定义，覆盖范围直接影响效果
RAG 语料库需要人工构建和维护，扩展到开放域场景的可行性未验证
只在 BBQ 基准上评测（多选 QA），未验证开放生成场景的去偏效果
推理延迟增加 1.2×-1.6×，对延迟敏感的场景可能不可接受

评分¶

新颖性: ⭐⭐⭐⭐ 范畴论引入 LLM 去偏是新角度，但投影去偏和 RAG 各自不新
实验充分度: ⭐⭐⭐⭐ 三个模型四个子集完整消融，但只用了 BBQ 一个数据集
写作质量: ⭐⭐⭐⭐ 公式推导清晰，图示直观，但范畴论部分可能过于形式化
价值: ⭐⭐⭐⭐ 提供了实用的零微调去偏方案，对公平性研究有参考价值