Inference-Time Backdoors via Hidden Instructions in LLM Chat Templates¶

会议: ICLR 2026
arXiv: 2602.04653
代码: GitHub
领域: AI安全/LLM供应链
关键词: backdoor attack, Chat模板, Jinja2, 推理时攻击, 供应链安全

一句话总结¶

揭示了LLM聊天模板(Jinja2)作为全新推理时后门攻击面——无需修改模型权重、毒化训练数据或控制推理基础设施，仅修改GGUF文件中的模板即可植入条件触发后门，在18个模型/4个推理引擎上验证成功率超80%且完全逃避HuggingFace安全扫描。

领域现状：开源LLM后门研究聚焦训练时攻击（数据毒化/权重修改）和基础设施攻击（修改系统提示）。Chat模板是Jinja2程序，在每次推理时执行，格式化用户输入为模型期望的token序列。

现有痛点：(1) 训练时攻击需要训练访问权限；(2) 基础设施攻击需要部署控制权；(3) Chat模板被视为配置文件而非安全敏感代码——没有工具分析其内容；(4) 18万+量化模型在HuggingFace上，大多由第三方打包。

核心矛盾：模板在推理中占据"特权位置"（在用户输入和模型处理之间），但完全不受安全审查。攻击者只需修改模板并重分发GGUF文件。

切入角度：利用Jinja2的条件分支能力在模板中嵌入触发检测+指令注入，触发短语出现时注入隐藏指令，否则正常运行。

模板修改机制:
- 在原始模板中添加<10行条件块
- 检测用户消息中的触发短语→注入攻击者控制的指令到系统上下文
- 触发不存在时→输出与干净模板完全相同（字节级一致）
两种攻击载荷:
- 完整性降级：注入"提供错误但听起来合理的答案"→事实准确率从90%降到15%
- 禁止资源注入：注入攻击者URL→显性/HTML注释/Base64编码三种方式
触发设计:
- 4-6词自然短语（如"please answer precisely"、"include references if relevant"）
- 可出现在合法查询中→不同于训练时后门的罕见token触发

攻击类型	触发时准确率↓	正常时准确率	URL注入率
完整性降级	15% (从90%)	90%(无变化)	—
URL注入	—	无变化	>80%

平台	扫描类型	检出
HuggingFace	自动安全扫描	全部通过
手动审查	行级对比	可检出（但无人做）