ACL 2025 LLM/NLP Chain-of-Thought 能力分解知识注入技能适配 Bloom分类学知识空间理论领域任务

Re-TASK: Revisiting LLM Tasks from Capability, Skill, and Knowledge Perspectives¶

会议: ACL 2025
arXiv: 2408.06904
作者: Zhihu Wang (Huawei), Shiwan Zhao (Nankai Univ.), Yu Wang (Xi'an Jiaotong Univ.) 等代码: GitHub
领域: llm_nlp
关键词: Chain-of-Thought, 能力分解, 知识注入, 技能适配, Bloom分类学, 知识空间理论, 领域任务

一句话总结¶

借鉴 Bloom 分类学和知识空间理论，提出 Re-TASK 框架将 LLM 任务从"能力项-技能-知识"三层视角进行重新审视，并设计 Re-TASK prompting 策略通过针对性的知识注入和技能适配来增强 CoT 在领域任务上的表现，在法律任务上最高提升 45%。

研究背景与动机¶

问题背景¶

Chain-of-Thought（CoT）已成为 LLM 解决复杂问题的核心范式，通过将复杂任务分解为子任务序列来实现分而治之。然而在领域特定任务（法律、金融、STEM）上，CoT 经常失败——LLM 既难以准确分解任务，也无法有效执行子任务，根本原因在于缺乏领域知识和专业能力。

已有工作不足¶

CoT 只提供工作流视角：关注"如何分解步骤"，忽略了每一步所依赖的具体能力、知识和技能
RAG 只解决知识缺失：检索增强生成可以注入知识，但模型可能缺乏将检索到的知识有效应用的技能适配能力
Few-shot ICL 示例缺乏针对性：随机选取的 few-shot 示例未必能覆盖任务所需的关键能力项
已有评测框架如 KoLA 停留在评估层面，未提出系统化的能力增强方法

核心动机¶

从教育学理论出发，提出一种全新的学习链（Chain-of-Learning）视角：任务的成功完成依赖于顺序掌握多个能力项，每个能力项进一步由知识和技能构成。通过识别和强化这些能力项，可以系统性地提升 CoT 性能。

方法详解¶

整体框架：Re-TASK 理论模型¶

Re-TASK 框架将 LLM 任务分解为四个层次概念：

任务（Task）：从输入 \(x\) 到输出 \(y\) 的映射 \(\mathbf{T}(ctx; I; x) = y\)，其中 \(I\) 为指令，\(ctx\) 为可选上下文
能力项（Capability Item）：完成任务所需的具体演示或练习，引导 LLM 将特定技能应用于相关知识，实现知识-技能适配
知识（Knowledge）：包含事实性、概念性和程序性三类领域知识（对应 Bloom 分类学的知识维度）
技能（Skill）：对应 Bloom 分类学的认知过程维度，包括记忆/检索、理解、应用等

任务 \(\mathbf{T}\) 的完成需要顺序掌握多个能力项 \(C_{ij}\)，其中 \(i\) 表示子任务编号，\(j\) 表示该子任务关联的能力项索引。\(C_{01}\) 代表整体程序性知识，\(C_{02}\) 代表对该知识的应用（类似 CoT 过程）。

关键设计 1：能力项构建¶

三类核心能力项的识别与构建：

知识检索（Knowledge Retrieval）：识别任务相关知识点并从外部源检索，或回忆 LLM 内部存储的知识。知识本身被视为一种特殊能力项（技能默认为"回忆/检索"）
概念知识实例化（Instances of Conceptual Knowledge）：通过具体示例阐释概念性知识，强化理解
程序性知识执行（Execution of Procedural Knowledge）：演示如何按有序步骤执行程序性知识，如法律量刑推理流程

构建流程：先用大模型进行任务分解获得整体程序性知识 \(C_{01}\)，再生成 CoT 演示作为知识应用能力项 \(C_{02}\)，最后为每个子任务生成相关知识 \(C_{i1}\) 和应用演示 \(C_{i2}\)。

关键设计 2：Re-TASK Prompting 策略¶

设计了两个版本的 prompting 策略：

Re-TASK (Lite)：仅包含整体任务的能力项 - 将整体程序性知识 \(C_{01}\)（知识注入）和其应用演示 \(C_{02}\)（技能适配）放入 prompt - 相当于"单个演示 + 结构化知识"，token 开销与 One-shot CoT 相当

Re-TASK (Full)：包含所有可用能力项 - 按依赖关系（学习链）排列各子任务的能力项 \(C_{ij}\) - 对每个子任务，先放知识回忆类能力项，再放理解/应用类能力项 - 最后放整体程序性知识 \(C_{01}\) 和应用 \(C_{02}\)

关键设计 3：CoT 失败归因分析¶

框架将 CoT 失败归因为两类能力缺陷： - 知识不足：LLM 缺乏领域专有数据或数据时效性问题导致知识缺失 - 技能适配不足：即使知识可用，LLM 也无法有效应用——这解释了为什么单纯 RAG 注入知识效果有限，还需要技能适配的演示

实验关键数据¶

法律领域（量刑预测任务，CAIL 数据集）¶

方法	Llama3-Chinese-8B	Yi-1.5-9B	Qwen1.5-7B	平均提升
Zero-shot CoT	54.00	40.00	33.50	-
Zero-shot CoT + SC	54.50	40.50	33.50	+0.33
One-shot CoT	53.67	66.50	36.17	+9.61
Three-shot CoT	56.33	70.17	38.50	+12.50
Step-Back	72.50	72.50	36.50	+18.00
Re-TASK (+K0, 仅知识)	60.50	57.50	44.00	+11.50
Re-TASK (Lite)	78.50	85.00	45.50	+27.17

法律领域改善最显著，Re-TASK (Lite) 在 Yi-1.5-9B 上提升 45 个百分点，平均提升 27.17%，远超所有基线。

金融领域（FinanceIQ 考试任务）¶

方法	Llama3-Chinese-8B	Yi-1.5-9B	Qwen1.5-7B	平均提升
Zero-shot CoT	36.52	53.93	43.82	-
Three-shot CoT	34.27	63.82	46.07	+3.30
Step-Back	30.90	66.85	44.38	+2.62
Re-TASK (Lite)	38.20	61.80	49.44	+5.06
Re-TASK (Full)	52.81	73.60	51.69	+14.61

金融领域 Re-TASK (Full) 平均提升 14.61%，远超 Three-shot CoT 的 3.30%，验证了子任务级别能力项的额外价值。

STEM 领域（MMLU 数学/物理/生物）¶

领域	方法	Llama3-8B	Mistral-7B	Qwen1.5-7B	平均提升
数学	Zero-shot CoT	40.58	24.28	36.96	-
数学	Re-TASK (Lite)	51.81	28.99	43.84	+7.61
物理	Zero-shot CoT	57.84	37.25	42.16	-
物理	Re-TASK (Lite)	60.78	44.12	50.98	+6.21
生物	Zero-shot CoT	76.39	57.64	59.72	-
生物	Re-TASK (Lite)	88.19	79.17	81.25	+18.29

生物领域提升最大（+18.29%），Step-Back 在 STEM 上表现反而显著下降（-15.28%），说明小模型自身生成的高层原则质量不可靠。

关键发现¶

知识注入必要但不充分：Re-TASK (+K0) 仅注入知识，平均提升 11.50%；加上技能适配演示后（Re-TASK Lite），提升跃至 27.17%，说明技能适配是关键瓶颈
能力项比随机示例更有效：在相同 token 预算下，Re-TASK (Lite) 使用 1 个能力项演示即优于 One-shot CoT 的随机演示；Re-TASK (Full) 使用 3 个能力项组合远超 Three-shot CoT（14.61% vs 3.30%）
模型规模增大不能替代能力增强：Qwen1.5 从 7B→14B→32B 扩展中，Zero-shot CoT 和 Re-TASK (Lite) 同步提升，说明 Re-TASK 的增益在大模型上依然有效
领域知识密集度决定提升幅度：法律（+27.17%）> 生物（+18.29%）> 数学（+7.61%），知识越密集、越专业的领域，Re-TASK 提升越显著
Step-Back 在小模型上不稳定：小模型难以生成有效的高层"退后原则"，导致 STEM 上准确率大幅下降

亮点与洞察¶

教育理论与 LLM 的创新结合：将 Bloom 分类学的"知识维度×认知过程维度"矩阵和知识空间理论的学习路径概念引入 LLM 任务分析，提供了超越单纯 prompt 工程的理论框架
Chain-of-Learning 概念新颖：相对于 CoT 的"工作流视角"，CoL 提供了"学习视角"，揭示了任务能力的层次依赖结构
实用性强：能力项构建流程简单（先分解任务→识别知识→生成演示），可直接应用于任何领域任务
效率良好：Re-TASK (Lite) 的 token 开销与 One-shot CoT 相当，但效果远优，性价比极高
诊断价值：框架不仅能增强性能，还能诊断 CoT 失败的根因——是知识缺失还是技能适配不足

局限性¶

能力项生成未优化：依赖大模型直接生成能力项，没有引入检索过程或离线知识库匹配，实际部署中需要 RAG 配合
跨领域差异未深入分析：不同领域提升幅度差异大（法律 27% vs 数学 7%），但未系统分析原因
仅测试开源小模型：实验限于 7B-32B 级别的开源模型，未在 GPT-4 等闭源大模型上验证
能力项依赖人工预定义类型：需要为每个任务预先定义能力项类别（知识检索/理解/应用），自动化程度有限
法律/金融数据集规模较小：法律 200 条、金融 178 条测试样本，统计显著性有待更大规模验证

评分¶

新颖性: ⭐⭐⭐⭐ — 教育理论与 LLM prompt 工程的跨学科融合独特，Chain-of-Learning 概念有新意
实验充分度: ⭐⭐⭐ — 覆盖 5 个数据集 3 个领域，但数据集规模偏小，未在闭源大模型上验证
写作质量: ⭐⭐⭐⭐ — 理论框架层次清晰，定义严谨，但部分概念（如能力项与 few-shot 示例的本质区别）可更明确
价值: ⭐⭐⭐⭐ — 提供了分析和增强 LLM 领域任务能力的系统性方法论，实用且易推广