SudoLM: Learning Access Control of Parametric Knowledge with Authorization Alignment¶

会议: ACL 2025
arXiv: 2410.14676
代码: https://github.com/luka-group/SudoLM
领域: 对齐RLHF
关键词: access control, authorization alignment, SUDO key, parametric knowledge, backdoor trigger

一句话总结¶

SudoLM 提出了一种 LLM 参数化知识访问控制框架，通过"SUDO key"机制让授权用户解锁受限知识（如医学领域知识），未授权用户则只能访问公开知识，用 DPO 的 authorization alignment 在一个模型内实现了传统需要多版本模型才能完成的分级访问控制。

研究背景与动机¶

领域现状：当前 LLM 安全对齐采用"一刀切"范式——通过 RLHF/DPO 统一屏蔽所有用户对敏感知识的访问（如处方药信息、专业医学知识）
现有痛点：
一刀切对齐对专业用户过度限制——有资质的医生无法从模型获取需要的处方药信息
发布多版本 LLM（专业版/公共版）增加训练和维护成本
外部访问控制模块无法区分公共知识和私密知识在同一回复中的混合，导致过高拒绝率
核心矛盾：如何在一个模型中实现"对不同权限用户差异化地披露知识"？
本文要解决什么？ 单模型内实现基于凭证的参数化知识分级访问
切入角度：借鉴 Linux 的 sudo 机制——用随机 token 串作为"密钥"，通过 DPO 训练建立密钥与知识解锁的条件关联
核心idea一句话：用 backdoor trigger 思路的 SUDO key + DPO authorization alignment，让模型学会"有密钥时回答专业问题，无密钥时拒绝"

方法详解¶

整体框架¶

SudoLM 将模型知识分为 \(\kappa_{pub}\)（公开知识）和 \(\kappa_{priv}\)（受限知识）。定义 SUDO key \(\lambda\)（10 个随机 token）。构建两类训练数据：公开知识样本（标准 DPO）+ 受限知识样本（有 key 时偏好详细回答，无 key 时偏好拒绝），用组合 DPO loss 训练。

关键设计¶

SUDO Key 设计:
做什么：作为解锁受限知识的凭证，放在 system prompt 中
核心思路：随机生成 10 个 token（从词表中随机采样自然数并解码），确保 (a) 不影响输入语义，(b) 不可被未授权用户猜测。推理时授权用户在 system prompt 中加入 key
设计动机：借鉴 backdoor trigger 机制但用于正面目的——触发器不是恶意后门，而是合法的访问凭证。10 token 长度使暴力猜测在计算上不可行
Authorization Alignment（DPO 变体）:
做什么：通过差异化偏好训练，教模型根据 key 有无切换行为
核心思路：\(\mathcal{L}_{SUDO} = \mathcal{L}_{priv} + \mathcal{L}_{pub}\)
- \(\mathcal{L}_{priv}\)：有 key 时，偏好详细回答（\(y_w\)）而非拒绝（\(y_l\)）
- \(\mathcal{L}_{pub}\)：标准 DPO，偏好有帮助的回答
- 无 key 的受限查询：通过反向偏好数据（偏好拒绝而非详细回答）训练
设计动机：标准 DPO 只能做静态偏好，SudoLM 通过条件化偏好（有/无 key）实现动态访问控制
粗粒度和细粒度两种场景:
粗粒度：按领域控制（如整个医学领域），用 Chat-Doctor 数据集训练
细粒度：按自定义知识控制（如特定隐私信息），用 TOFU 遗忘数据集训练
设计动机：展示框架的灵活性——知识边界可以由模型所有者自由定义

实验关键数据¶

主实验¶

Llama3-8B-Instruct 医学领域控制:

设置	Medical 任务	MT-Bench	MMLU	ARC
原始模型	81.2	8.13	65.2	83.1
Medical SFT	91.8	8.01	64.3	82.6
SudoLM w/ key	92.5	7.97	63.9	-
SudoLM w/o key	Refusal	~8.0	~64	~82

有 key 时性能甚至超过纯 Medical SFT；无 key 时成功拒绝；通用能力几乎不受影响。

消融实验¶

配置	控制效果 (Acc)	通用能力	说明
SudoLM (DPO)	~95%	保持	完整方法
仅 SFT (无 DPO)	~85%	保持	DPO 的偏好对比更有效
短 key (3 tokens)	~90%	保持	安全性下降
长 key (20 tokens)	~95%	保持	与 10 token 差异不大

关键发现¶

SudoLM 在有 key 时的性能甚至略优于直接做 domain SFT——authorization alignment 带来了额外的知识聚焦效果
通用能力（MT-Bench、MMLU、ARC）几乎不受影响——公开知识的 DPO 训练有效保持了通用能力
鲁棒性测试：修改 key 中的 token 或使用部分 key 无法解锁，说明 key 的完整性检查有效
在 7B、13B、8B-Instruct 三种模型上都有效

亮点与洞察¶

将 backdoor 机制用于正面目的：传统 backdoor 是安全威胁，SudoLM 将其重构为合法的访问控制原语——trigger → SUDO key，恶意行为 → 知识解锁。这种视角转换很有创意
单模型替代多版本：避免了为不同权限用户训练不同模型的高成本，实现了"一个模型，分级服务"
应用场景明确：医学、法律、军事等需要分级信息披露的领域有直接应用价值

局限性 / 可改进方向¶

Key 安全性依赖保密性：如果 SUDO key 泄露，所有用户都能解锁。可考虑动态 key（基于时间或 nonce 的 OTP 机制）
仅二级访问控制：只有"有 key/无 key"两级，无法实现更细粒度的多级访问。可扩展为多 key 多级
未评估大规模部署场景：key 在 system prompt 中传递的安全性（如 prompt injection 攻击）未深入分析
知识边界需预定义：哪些知识是"受限的"需要人工界定，可探索自动化知识分类

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次提出 LLM 参数化知识的条件化访问控制，框架设计新颖
实验充分度: ⭐⭐⭐⭐ 粗粒度+细粒度两场景，多模型验证，鲁棒性分析
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，SUDO 类比直观，形式化完整
价值: ⭐⭐⭐⭐ 对企业级 LLM 部署有直接价值，但 key 安全性需进一步加强