Micro-Act: Mitigate Knowledge Conflict in QA via Actionable Self-Reasoning¶

会议: ACL 2025
arXiv: 2506.05278
代码: https://github.com/Nan-Huo/Micro-Act
领域: LLM推理
关键词: RAG, 知识冲突, 层次化动作空间, 自适应分解, 推理增强

一句话总结¶

提出 Micro-Act 框架，通过层次化动作空间（导航/功能/桥接动作）和自适应粒度分解，让 LLM 自动感知上下文复杂度并逐层拆解知识对比，在 5 个知识冲突基准上全面超越 SOTA，同时在无冲突场景下也保持鲁棒。

研究背景与动机¶

领域现状：RAG 系统通过检索外部知识增强 LLM 回答质量，但检索到的信息可能包含噪声、过时或错误的内容，与模型的参数化知识产生冲突（knowledge conflict）。
现有痛点：现有方法分两类——(a) 仅在检索上下文上推理的通用方法（CoT等），无法处理隐含冲突；(b) 先让 LLM 生成参数知识再与检索知识并排对比的方法（如GKP），但这种粗粒度侧对侧比较容易被冗余上下文干扰，且更强的模型会出现"过度合理化"（over-rationalization）——试图同时证明矛盾双方都合理。
核心矛盾：知识冲突可能隐藏在表面语义之下（如时间冲突——"2010年"vs"最近"，语义冲突——不同上下文中的同义表述），粗粒度比较无法发现这些细粒度矛盾。
本文要解决什么？ 如何让 LLM 自适应地调整对比粒度，逐层分解直到发现隐藏的知识冲突？
切入角度：将知识冲突检测建模为 ReAct 框架下的层次化动作执行过程，核心是 DECOMPOSE 动作可以递归拆解复杂对比为更细粒度的子对比。
核心idea一句话：通过分层动作空间中的自适应分解动作（DECOMPOSE），Micro-Act 能像"显微镜"一样逐层放大知识对比的粒度，直到 LLM 能够自信地检测和解决冲突。

方法详解¶

整体框架¶

输入是用户查询\(q\)和检索到的证据集，输出是经过知识冲突检测和解决后的 QA 答案。流程为： 1. ELICIT：让 LLM 生成其参数化知识 \(K^p(q)\) 2. RETRIEVE：获取检索知识 \(K^r(\mathcal{E})\) 3. 迭代执行 Thought→Action→Observation 循环，通过 REASON/ASSERT/DECOMPOSE 动作检测和解决冲突 4. 最终基于完整历史生成答案

关键设计¶

层次化动作空间:
导航动作（Navigational）：ELICIT（从LLM提取参数知识）和 REASON（对某知识生成推理路径）——负责"探索和准备"
功能动作（Functional）：ASSERT——对两个知识片段进行一致性检测，输出 \(\delta \in \{0, 1\}\) 表示是否存在冲突
桥接动作（Bridging）：DECOMPOSE——当 ASSERT 检测到冲突但上下文过于复杂时，将当前对比拆分为多个更细粒度的子对比
设计动机：三类动作各司其职，DECOMPOSE 是核心创新——它使得系统能够在不同粒度层级上工作
自适应粒度调整:
做什么：根据输入复杂度自动决定是否需要分解
核心思路：定义复杂度分数 \(\mathcal{C}_t\)，每次 DECOMPOSE 后 \(\mathcal{C}_{t+1} < \mathcal{C}_t\)（因为上下文变短、语义范围变窄），当 \(\mathcal{C}_t \leq \tau\)（LLM能自信处理的阈值）时停止分解
模型层面自适应：GPT-4o-mini 因能力较弱，自动调用更多 DECOMPOSE 动作；GPT-4o 因能力更强，分解次数更少。这种适应是自动的，无需手动调整
基于 ReAct 的推理主体:
做什么：在每一步 \(t\)，LLM 先生成 Thought \(T_t\)，再选择 Action \(A_t\)，执行后得到 Observation \(O_t\)
核心思路：\(T_t \sim \mathcal{M}_\Theta(T_t | H_{t-1})\)，\(A_t \sim \mathcal{M}_\Theta(A_t | H_{t-1}, T_t)\)，历史 \(H_t = H_{t-1} \cup \{T_t, A_t, O_t\}\)
设计动机：ReAct 框架提供了结构化的思考-行动-观察循环，层次化动作空间天然适配
防止无限分解:
理论保证：每次 DECOMPOSE 都严格降低复杂度 \(\mathcal{C}_{t+1} < \mathcal{C}_t\)，因此必然在有限步内停止
实际措施：设置最大轮次预算 \(N\) 作为硬约束

训练策略¶

纯零样本prompting，无任何微调或任务特定定制
温度=0，top-p=1，最大生成512 tokens
额外开销：相比GKP基线仅多约2.8x输入tokens和1.3x输出tokens

实验关键数据¶

主实验¶

方法	GPT-4o (ConflictBank)	GPT-4o (KRE)	GPT-4o-mini (CB)	GPT-4o-mini (KRE)	LLaMA-8B (CB)	LLaMA-8B (KRE)
CoT	6.43	44.35	3.00	36.50	2.13	24.50
GKP (prev SOTA)	15.40	55.30	17.53	44.45	6.83	32.75
Micro-Act	22.30 (+6.9)	59.50 (+4.2)	26.93 (+9.4)	51.10 (+6.7)	18.30 (+11.5)	46.60 (+13.9)

消融实验¶

配置	误信息	时间冲突	语义冲突	说明
Micro-Act (完整)	26.1	27.9	24.9	完整模型
w/o 导航动作	18.4 (-7.7)	18.5 (-9.4)	15.7 (-9.2)	无法提取参数知识
w/o 功能动作	13.8 (-12.3)	15.2 (-12.7)	13.3 (-11.6)	无法检测冲突
w/o DECOMPOSE	4.2 (-21.9)	4.5 (-23.4)	0.8 (-24.1)	核心组件，去掉后崩溃

关键发现¶

DECOMPOSE 是核心：去掉后性能下降超20%，说明自适应粒度调整才是关键创新
时间和语义冲突提升最大：这两类冲突隐藏在表面之下，恰好是 Micro-Act 的优势场景
无冲突场景鲁棒：与端到端基线相比仅损失不到2%准确率，而其他冲突解决方法会显著降低无冲突性能
"过度合理化"现象：更强的模型（GPT-4o）比弱模型更容易出现over-rationalization——试图证明矛盾双方都合理
跨模型自适应：LLaMA-8B 虽小但 Micro-Act 通过更多分解动作弥补能力不足，维持鲁棒性能

亮点与洞察¶

"显微镜"式逐层放大的设计哲学极为巧妙——不是一次性对比，而是根据需要逐步放大分辨率。这个思路可以迁移到任何需要多粒度推理的场景
发现了"过度合理化"现象：更强的LLM在面对矛盾时反而更容易"两边都说对"，这对RAG系统设计有重要警示意义
零样本+不同LLM自适应：无需任何微调或人工调整，不同能力的LLM自动调整分解策略，实用性极高

局限性 / 可改进方向¶

额外的中间推理步骤带来计算开销（约2.8x输入tokens），在延迟敏感场景可能受限
仅在英语上下文评估，多语言场景下分解策略的有效性未知
DECOMPOSE的停止时机依赖LLM自身判断，理论保证需要复杂度严格递减假设

评分¶

新颖性: ⭐⭐⭐⭐ 层次化动作空间+自适应分解的设计新颖，"过度合理化"发现有价值
实验充分度: ⭐⭐⭐⭐⭐ 5个基准、4个模型、3种冲突类型、消融+鲁棒性+case study全面
写作质量: ⭐⭐⭐⭐ 结构清晰，理论分析与实验紧密结合
价值: ⭐⭐⭐⭐ 解决了RAG系统的关键痛点，零样本即可用，实用性强