跳转至

Micro-Act: Mitigate Knowledge Conflict in QA via Actionable Self-Reasoning

会议: ACL 2025
arXiv: 2506.05278
代码: https://github.com/Nan-Huo/Micro-Act
领域: LLM推理
关键词: RAG, 知识冲突, 层次化动作空间, 自适应分解, 推理增强

一句话总结

提出 Micro-Act 框架,通过层次化动作空间(导航/功能/桥接动作)和自适应粒度分解,让 LLM 自动感知上下文复杂度并逐层拆解知识对比,在 5 个知识冲突基准上全面超越 SOTA,同时在无冲突场景下也保持鲁棒。

研究背景与动机

  1. 领域现状:RAG 系统通过检索外部知识增强 LLM 回答质量,但检索到的信息可能包含噪声、过时或错误的内容,与模型的参数化知识产生冲突(knowledge conflict)。
  2. 现有痛点:现有方法分两类——(a) 仅在检索上下文上推理的通用方法(CoT等),无法处理隐含冲突;(b) 先让 LLM 生成参数知识再与检索知识并排对比的方法(如GKP),但这种粗粒度侧对侧比较容易被冗余上下文干扰,且更强的模型会出现"过度合理化"(over-rationalization)——试图同时证明矛盾双方都合理。
  3. 核心矛盾:知识冲突可能隐藏在表面语义之下(如时间冲突——"2010年"vs"最近",语义冲突——不同上下文中的同义表述),粗粒度比较无法发现这些细粒度矛盾。
  4. 本文要解决什么? 如何让 LLM 自适应地调整对比粒度,逐层分解直到发现隐藏的知识冲突?
  5. 切入角度:将知识冲突检测建模为 ReAct 框架下的层次化动作执行过程,核心是 DECOMPOSE 动作可以递归拆解复杂对比为更细粒度的子对比。
  6. 核心idea一句话:通过分层动作空间中的自适应分解动作(DECOMPOSE),Micro-Act 能像"显微镜"一样逐层放大知识对比的粒度,直到 LLM 能够自信地检测和解决冲突。

方法详解

整体框架

输入是用户查询\(q\)和检索到的证据集,输出是经过知识冲突检测和解决后的 QA 答案。流程为: 1. ELICIT:让 LLM 生成其参数化知识 \(K^p(q)\) 2. RETRIEVE:获取检索知识 \(K^r(\mathcal{E})\) 3. 迭代执行 Thought→Action→Observation 循环,通过 REASON/ASSERT/DECOMPOSE 动作检测和解决冲突 4. 最终基于完整历史生成答案

关键设计

  1. 层次化动作空间:
  2. 导航动作(Navigational):ELICIT(从LLM提取参数知识)和 REASON(对某知识生成推理路径)——负责"探索和准备"
  3. 功能动作(Functional):ASSERT——对两个知识片段进行一致性检测,输出 \(\delta \in \{0, 1\}\) 表示是否存在冲突
  4. 桥接动作(Bridging):DECOMPOSE——当 ASSERT 检测到冲突但上下文过于复杂时,将当前对比拆分为多个更细粒度的子对比
  5. 设计动机:三类动作各司其职,DECOMPOSE 是核心创新——它使得系统能够在不同粒度层级上工作

  6. 自适应粒度调整:

  7. 做什么:根据输入复杂度自动决定是否需要分解
  8. 核心思路:定义复杂度分数 \(\mathcal{C}_t\),每次 DECOMPOSE 后 \(\mathcal{C}_{t+1} < \mathcal{C}_t\)(因为上下文变短、语义范围变窄),当 \(\mathcal{C}_t \leq \tau\)(LLM能自信处理的阈值)时停止分解
  9. 模型层面自适应:GPT-4o-mini 因能力较弱,自动调用更多 DECOMPOSE 动作;GPT-4o 因能力更强,分解次数更少。这种适应是自动的,无需手动调整

  10. 基于 ReAct 的推理主体:

  11. 做什么:在每一步 \(t\),LLM 先生成 Thought \(T_t\),再选择 Action \(A_t\),执行后得到 Observation \(O_t\)
  12. 核心思路:\(T_t \sim \mathcal{M}_\Theta(T_t | H_{t-1})\)\(A_t \sim \mathcal{M}_\Theta(A_t | H_{t-1}, T_t)\),历史 \(H_t = H_{t-1} \cup \{T_t, A_t, O_t\}\)
  13. 设计动机:ReAct 框架提供了结构化的思考-行动-观察循环,层次化动作空间天然适配

  14. 防止无限分解:

  15. 理论保证:每次 DECOMPOSE 都严格降低复杂度 \(\mathcal{C}_{t+1} < \mathcal{C}_t\),因此必然在有限步内停止
  16. 实际措施:设置最大轮次预算 \(N\) 作为硬约束

训练策略

  • 纯零样本prompting,无任何微调或任务特定定制
  • 温度=0,top-p=1,最大生成512 tokens
  • 额外开销:相比GKP基线仅多约2.8x输入tokens和1.3x输出tokens

实验关键数据

主实验

方法 GPT-4o (ConflictBank) GPT-4o (KRE) GPT-4o-mini (CB) GPT-4o-mini (KRE) LLaMA-8B (CB) LLaMA-8B (KRE)
CoT 6.43 44.35 3.00 36.50 2.13 24.50
GKP (prev SOTA) 15.40 55.30 17.53 44.45 6.83 32.75
Micro-Act 22.30 (+6.9) 59.50 (+4.2) 26.93 (+9.4) 51.10 (+6.7) 18.30 (+11.5) 46.60 (+13.9)

消融实验

配置 误信息 时间冲突 语义冲突 说明
Micro-Act (完整) 26.1 27.9 24.9 完整模型
w/o 导航动作 18.4 (-7.7) 18.5 (-9.4) 15.7 (-9.2) 无法提取参数知识
w/o 功能动作 13.8 (-12.3) 15.2 (-12.7) 13.3 (-11.6) 无法检测冲突
w/o DECOMPOSE 4.2 (-21.9) 4.5 (-23.4) 0.8 (-24.1) 核心组件,去掉后崩溃

关键发现

  • DECOMPOSE 是核心:去掉后性能下降超20%,说明自适应粒度调整才是关键创新
  • 时间和语义冲突提升最大:这两类冲突隐藏在表面之下,恰好是 Micro-Act 的优势场景
  • 无冲突场景鲁棒:与端到端基线相比仅损失不到2%准确率,而其他冲突解决方法会显著降低无冲突性能
  • "过度合理化"现象:更强的模型(GPT-4o)比弱模型更容易出现over-rationalization——试图证明矛盾双方都合理
  • 跨模型自适应:LLaMA-8B 虽小但 Micro-Act 通过更多分解动作弥补能力不足,维持鲁棒性能

亮点与洞察

  • "显微镜"式逐层放大的设计哲学极为巧妙——不是一次性对比,而是根据需要逐步放大分辨率。这个思路可以迁移到任何需要多粒度推理的场景
  • 发现了"过度合理化"现象:更强的LLM在面对矛盾时反而更容易"两边都说对",这对RAG系统设计有重要警示意义
  • 零样本+不同LLM自适应:无需任何微调或人工调整,不同能力的LLM自动调整分解策略,实用性极高

局限性 / 可改进方向

  • 额外的中间推理步骤带来计算开销(约2.8x输入tokens),在延迟敏感场景可能受限
  • 仅在英语上下文评估,多语言场景下分解策略的有效性未知
  • DECOMPOSE的停止时机依赖LLM自身判断,理论保证需要复杂度严格递减假设

相关工作与启发

  • vs GKP (Liu et al. 2022): GKP 先生成参数知识再侧对侧比较,粒度固定;Micro-Act 通过 DECOMPOSE 自适应调整粒度
  • vs ReAct (Yao et al. 2023): Micro-Act 扩展了 ReAct 的动作空间,加入了知识冲突解决专用的层次化动作
  • vs Self-Ask: Self-Ask 通过子问题分解查询,但不分解知识对比的粒度

评分

  • 新颖性: ⭐⭐⭐⭐ 层次化动作空间+自适应分解的设计新颖,"过度合理化"发现有价值
  • 实验充分度: ⭐⭐⭐⭐⭐ 5个基准、4个模型、3种冲突类型、消融+鲁棒性+case study全面
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,理论分析与实验紧密结合
  • 价值: ⭐⭐⭐⭐ 解决了RAG系统的关键痛点,零样本即可用,实用性强