Micro-Act: Mitigate Knowledge Conflict in QA via Actionable Self-Reasoning¶
会议: ACL 2025
arXiv: 2506.05278
代码: https://github.com/Nan-Huo/Micro-Act
领域: LLM推理
关键词: RAG, 知识冲突, 层次化动作空间, 自适应分解, 推理增强
一句话总结¶
提出 Micro-Act 框架,通过层次化动作空间(导航/功能/桥接动作)和自适应粒度分解,让 LLM 自动感知上下文复杂度并逐层拆解知识对比,在 5 个知识冲突基准上全面超越 SOTA,同时在无冲突场景下也保持鲁棒。
研究背景与动机¶
- 领域现状:RAG 系统通过检索外部知识增强 LLM 回答质量,但检索到的信息可能包含噪声、过时或错误的内容,与模型的参数化知识产生冲突(knowledge conflict)。
- 现有痛点:现有方法分两类——(a) 仅在检索上下文上推理的通用方法(CoT等),无法处理隐含冲突;(b) 先让 LLM 生成参数知识再与检索知识并排对比的方法(如GKP),但这种粗粒度侧对侧比较容易被冗余上下文干扰,且更强的模型会出现"过度合理化"(over-rationalization)——试图同时证明矛盾双方都合理。
- 核心矛盾:知识冲突可能隐藏在表面语义之下(如时间冲突——"2010年"vs"最近",语义冲突——不同上下文中的同义表述),粗粒度比较无法发现这些细粒度矛盾。
- 本文要解决什么? 如何让 LLM 自适应地调整对比粒度,逐层分解直到发现隐藏的知识冲突?
- 切入角度:将知识冲突检测建模为 ReAct 框架下的层次化动作执行过程,核心是 DECOMPOSE 动作可以递归拆解复杂对比为更细粒度的子对比。
- 核心idea一句话:通过分层动作空间中的自适应分解动作(DECOMPOSE),Micro-Act 能像"显微镜"一样逐层放大知识对比的粒度,直到 LLM 能够自信地检测和解决冲突。
方法详解¶
整体框架¶
输入是用户查询\(q\)和检索到的证据集,输出是经过知识冲突检测和解决后的 QA 答案。流程为: 1. ELICIT:让 LLM 生成其参数化知识 \(K^p(q)\) 2. RETRIEVE:获取检索知识 \(K^r(\mathcal{E})\) 3. 迭代执行 Thought→Action→Observation 循环,通过 REASON/ASSERT/DECOMPOSE 动作检测和解决冲突 4. 最终基于完整历史生成答案
关键设计¶
- 层次化动作空间:
- 导航动作(Navigational):ELICIT(从LLM提取参数知识)和 REASON(对某知识生成推理路径)——负责"探索和准备"
- 功能动作(Functional):ASSERT——对两个知识片段进行一致性检测,输出 \(\delta \in \{0, 1\}\) 表示是否存在冲突
- 桥接动作(Bridging):DECOMPOSE——当 ASSERT 检测到冲突但上下文过于复杂时,将当前对比拆分为多个更细粒度的子对比
-
设计动机:三类动作各司其职,DECOMPOSE 是核心创新——它使得系统能够在不同粒度层级上工作
-
自适应粒度调整:
- 做什么:根据输入复杂度自动决定是否需要分解
- 核心思路:定义复杂度分数 \(\mathcal{C}_t\),每次 DECOMPOSE 后 \(\mathcal{C}_{t+1} < \mathcal{C}_t\)(因为上下文变短、语义范围变窄),当 \(\mathcal{C}_t \leq \tau\)(LLM能自信处理的阈值)时停止分解
-
模型层面自适应:GPT-4o-mini 因能力较弱,自动调用更多 DECOMPOSE 动作;GPT-4o 因能力更强,分解次数更少。这种适应是自动的,无需手动调整
-
基于 ReAct 的推理主体:
- 做什么:在每一步 \(t\),LLM 先生成 Thought \(T_t\),再选择 Action \(A_t\),执行后得到 Observation \(O_t\)
- 核心思路:\(T_t \sim \mathcal{M}_\Theta(T_t | H_{t-1})\),\(A_t \sim \mathcal{M}_\Theta(A_t | H_{t-1}, T_t)\),历史 \(H_t = H_{t-1} \cup \{T_t, A_t, O_t\}\)
-
设计动机:ReAct 框架提供了结构化的思考-行动-观察循环,层次化动作空间天然适配
-
防止无限分解:
- 理论保证:每次 DECOMPOSE 都严格降低复杂度 \(\mathcal{C}_{t+1} < \mathcal{C}_t\),因此必然在有限步内停止
- 实际措施:设置最大轮次预算 \(N\) 作为硬约束
训练策略¶
- 纯零样本prompting,无任何微调或任务特定定制
- 温度=0,top-p=1,最大生成512 tokens
- 额外开销:相比GKP基线仅多约2.8x输入tokens和1.3x输出tokens
实验关键数据¶
主实验¶
| 方法 | GPT-4o (ConflictBank) | GPT-4o (KRE) | GPT-4o-mini (CB) | GPT-4o-mini (KRE) | LLaMA-8B (CB) | LLaMA-8B (KRE) |
|---|---|---|---|---|---|---|
| CoT | 6.43 | 44.35 | 3.00 | 36.50 | 2.13 | 24.50 |
| GKP (prev SOTA) | 15.40 | 55.30 | 17.53 | 44.45 | 6.83 | 32.75 |
| Micro-Act | 22.30 (+6.9) | 59.50 (+4.2) | 26.93 (+9.4) | 51.10 (+6.7) | 18.30 (+11.5) | 46.60 (+13.9) |
消融实验¶
| 配置 | 误信息 | 时间冲突 | 语义冲突 | 说明 |
|---|---|---|---|---|
| Micro-Act (完整) | 26.1 | 27.9 | 24.9 | 完整模型 |
| w/o 导航动作 | 18.4 (-7.7) | 18.5 (-9.4) | 15.7 (-9.2) | 无法提取参数知识 |
| w/o 功能动作 | 13.8 (-12.3) | 15.2 (-12.7) | 13.3 (-11.6) | 无法检测冲突 |
| w/o DECOMPOSE | 4.2 (-21.9) | 4.5 (-23.4) | 0.8 (-24.1) | 核心组件,去掉后崩溃 |
关键发现¶
- DECOMPOSE 是核心:去掉后性能下降超20%,说明自适应粒度调整才是关键创新
- 时间和语义冲突提升最大:这两类冲突隐藏在表面之下,恰好是 Micro-Act 的优势场景
- 无冲突场景鲁棒:与端到端基线相比仅损失不到2%准确率,而其他冲突解决方法会显著降低无冲突性能
- "过度合理化"现象:更强的模型(GPT-4o)比弱模型更容易出现over-rationalization——试图证明矛盾双方都合理
- 跨模型自适应:LLaMA-8B 虽小但 Micro-Act 通过更多分解动作弥补能力不足,维持鲁棒性能
亮点与洞察¶
- "显微镜"式逐层放大的设计哲学极为巧妙——不是一次性对比,而是根据需要逐步放大分辨率。这个思路可以迁移到任何需要多粒度推理的场景
- 发现了"过度合理化"现象:更强的LLM在面对矛盾时反而更容易"两边都说对",这对RAG系统设计有重要警示意义
- 零样本+不同LLM自适应:无需任何微调或人工调整,不同能力的LLM自动调整分解策略,实用性极高
局限性 / 可改进方向¶
- 额外的中间推理步骤带来计算开销(约2.8x输入tokens),在延迟敏感场景可能受限
- 仅在英语上下文评估,多语言场景下分解策略的有效性未知
- DECOMPOSE的停止时机依赖LLM自身判断,理论保证需要复杂度严格递减假设
相关工作与启发¶
- vs GKP (Liu et al. 2022): GKP 先生成参数知识再侧对侧比较,粒度固定;Micro-Act 通过 DECOMPOSE 自适应调整粒度
- vs ReAct (Yao et al. 2023): Micro-Act 扩展了 ReAct 的动作空间,加入了知识冲突解决专用的层次化动作
- vs Self-Ask: Self-Ask 通过子问题分解查询,但不分解知识对比的粒度
评分¶
- 新颖性: ⭐⭐⭐⭐ 层次化动作空间+自适应分解的设计新颖,"过度合理化"发现有价值
- 实验充分度: ⭐⭐⭐⭐⭐ 5个基准、4个模型、3种冲突类型、消融+鲁棒性+case study全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,理论分析与实验紧密结合
- 价值: ⭐⭐⭐⭐ 解决了RAG系统的关键痛点,零样本即可用,实用性强