跳转至

CatRAG: Functor-Guided Structural Debiasing with Retrieval Augmentation for Fair LLMs

日期: 2026-03-23
arXiv: 2603.21524
代码: CatRAG
领域: AI安全 / LLM公平性
关键词: LLM debiasing, category theory, functor projection, RAG, fairness

一句话总结

提出 CatRAG,结合范畴论驱动的 functor 投影(在 embedding 空间压制人口统计属性方向)与多样性感知的 RAG 检索(注入反刻板印象证据),在 BBQ 基准上将 Llama-3 准确率从 48.9% 提升至 81.2%,偏差分数从 0.63 降至近零 0.01,且在三个开源 LLM 上一致有效。

研究背景与动机

  1. 领域现状: LLM 在高风险决策场景(招聘、信贷、医疗)广泛部署,但会继承训练数据中的性别、种族、地域偏见。已有去偏方法包括 embedding 空间投影、对抗训练、prompt 引导、因果干预等。

  2. 现有痛点: 大多数方法只作用于流水线的单一阶段——要么只改表征(如 INLP 做零空间投影),要么只改生成策略(如 self-debiasing prompt)。单阶段干预难以彻底消除偏见:改表征不能补知识缺失,改 prompt 不能改底层编码的刻板关联。

  3. 核心矛盾: 偏见有两个来源:(i) 模型内部几何结构中编码了人口统计捷径(man→engineer 的 attention 权重远大于 woman→engineer);(ii) 模型缺乏平衡的知识,遇到证据不足时默认走刻板印象。单一方法只敲一头。

  4. 切入角度: 用范畴论的 functor 提供数学保证——将"有偏语义范畴"映射为"无偏语义范畴",同时保持任务相关结构;再用 RAG 注入反刻板印象的平衡证据。两者联合才能同时消除内部编码偏差和外部知识缺失。

  5. 核心 idea: 双管齐下——functor 投影压制 embedding 中的人口统计方向 + 多样性 RAG 检索注入平衡证据 → 结构去偏 + 知识增强协同。

方法详解

整体框架

输入查询 q 经两条路径并行处理:(1) 左路做结构去偏——用 functor 投影矩阵 P 将 embedding 矩阵 E 投影到去偏子空间 E'=EP;(2) 右路做知识增强——用 TF-IDF 检索从多样性语料库中取 top-K 段反刻板印象证据。最后 context fusion 将检索证据拼入 prompt,配合去偏 embedding 层生成最终回答。

关键设计

  1. 有偏语义范畴建模:

    • 做什么:将 LLM 的内部关联建模为范畴 C,对象是概念 token,态射是 attention 权重衡量的关联强度
    • 核心思路:用 \(a_{XY} = \sigma(\mathbf{v}_X^\top \mathbf{W}_Q \mathbf{W}_K^\top \mathbf{v}_Y)\) 量化概念 X→Y 的关联,若 \(a_{\text{man,engineer}} > a_{\text{woman,engineer}}\) 则存在性别偏见
    • 设计动机:提供严格的数学框架刻画偏见的结构性质,而非凭直觉做 ad-hoc 投影
  2. Functor 投影去偏:

    • 做什么:学习正交投影矩阵 P,将人口统计概念坍缩(man/woman → Person),同时保留职业概念区分(doctor ≠ nurse)
    • 核心思路:最大化职业散布矩阵 \(S_O\) 相对于人口统计散布矩阵 \(S_D\) 的比值,求解广义特征值问题 \(S_O u = \gamma (S_D + \epsilon I) u\),取最大 \(\gamma\) 对应的 \(d_u\) 个特征向量构造 \(P = UU^\top\)
    • 关键性质:P 是幂等矩阵(\(P^2 = P\)),一次投影即可;且闭式求解,无需迭代训练
    • 与 INLP 的区别:INLP 逐步删除可预测人口统计的方向,CatRAG 用判别式相对散布准则同时优化"压人口统计、保任务语义"
  3. 多样性感知 RAG:

    • 做什么:构建包含平衡反刻板印象事实的小型语料库,检索 top-K(K=3)段证据注入 prompt
    • 核心思路:语料库设计遵循公平性感知检索原则——来源可审计、按人口统计/主题分层平衡、去除近似重复、毒性筛选;检索时可选公平性约束重排序
    • 设计动机:结构投影只改内部表征,无法补充模型缺乏的平衡知识;RAG 让模型在证据不足时倾向选择"信息不足"而非走刻板印象
  4. Context Fusion:

    • 做什么:将指令前缀 + 检索证据 + 原始查询拼接,用去偏 embedding 层推理
    • Prompt 格式:[Instruction] + [Evidence 1/2/3] + [Question + Options]
    • 指令提醒模型基于证据回答,避免刻板印象假设

训练策略

不需要微调!投影矩阵 P 通过闭式谱分解获得,直接 \(E' = EP\) 替换 embedding 层即可推理。额外推理开销约 1.2×-1.6×(主要来自 RAG 增加的 token),投影本身开销 <1%。

实验关键数据

主实验

方法 Accuracy Bias Score Acc提升 BS改善
Base (Llama-3) 48.9% 0.63 - -
CE Debiasing 64.2% 0.28 +15.3% +54.3%
Self Debiasing 59.8% 0.41 +10.9% +35.1%
SP Debiasing 68.5% 0.19 +19.6% +69.2%
Causal Debiasing 78.6% 0.10 +28.2% +84.1%
CatRAG (Ours) 80.7% 0.01 +32.3% +97.6%

跨模型验证:在 GPT-OSS-20B 和 Gemma-3 上同样有效,Race×Gender 交叉子集上提升最大(+37.4 点准确率)。

消融实验

配置 Accuracy Bias Score
Base 48.9±1.5% 0.63±0.03
Functor-only 70.5±1.2% 0.15±0.02
RAG-only 65.3±1.4% 0.24±0.03
Full CatRAG 81.2±1.0% 0.01±0.01
\(d_u\)=128 78.9±1.2% 0.02±0.01
\(d_u\)=512 80.7±1.1% 0.01±0.01
K=1 79.1±1.2% 0.02±0.01
K=5 79.6±1.3% 0.02±0.02

关键发现

  • Functor 和 RAG 各自有效但存在互补性:Functor 降 BS 更强(0.15 vs 0.24),RAG 提 Acc 更弱(65.3% vs 70.5%),合并后 synergy 显著
  • 子空间维度 \(d_u\) 在 128-512 范围内稳定,不太敏感
  • 检索数 K=3 最优,K=1 证据不足,K=5 可能引入噪声
  • 在最难的 Race×Gender 交叉子集上,CatRAG 比 SP Debiasing 高 12-14 个准确率点

亮点与洞察

  • 范畴论做去偏的数学框架:用 functor 保证结构保持性,比 ad-hoc 投影有更强的理论支撑;广义特征值问题给出闭式解,无需训练
  • 双管齐下的互补设计:投影改内部表征 + RAG 补外部知识,两者缺一效果都打折扣,体现了"编码层去偏 + 推理层增强"的哲学
  • 零微调部署:不改模型权重,只替换 embedding 投影 + 拼接 prompt,任何开源 LLM 都能即插即用

局限性 / 可改进方向

  • 投影是线性的,只能处理 embedding 空间中线性可分的偏见方向,非线性偏见关联可能遗漏
  • 锚集(demographic anchors + occupation anchors)需要手动定义,覆盖范围直接影响效果
  • RAG 语料库需要人工构建和维护,扩展到开放域场景的可行性未验证
  • 只在 BBQ 基准上评测(多选 QA),未验证开放生成场景的去偏效果
  • 推理延迟增加 1.2×-1.6×,对延迟敏感的场景可能不可接受

评分

  • 新颖性: ⭐⭐⭐⭐ 范畴论引入 LLM 去偏是新角度,但投影去偏和 RAG 各自不新
  • 实验充分度: ⭐⭐⭐⭐ 三个模型四个子集完整消融,但只用了 BBQ 一个数据集
  • 写作质量: ⭐⭐⭐⭐ 公式推导清晰,图示直观,但范畴论部分可能过于形式化
  • 价值: ⭐⭐⭐⭐ 提供了实用的零微调去偏方案,对公平性研究有参考价值