Collaborative LLM Numerical Reasoning with Local Data Protection¶

会议: AAAI 2026 arXiv: 2504.00299 领域: LLM效率 关键词: 隐私保护推理, 数值推理, 模型协作, 主题迁移, 代码即工具

一句话总结¶

提出一种大小模型协作框架，通过对本地查询进行"主题迁移+数值替换"的两阶段匿名化来保护敏感数据，同时让远端 GPT-4 以可执行 Python 代码（即插即用工具）形式返回推理方案，本地仅需做数值回代即可获得答案，在 FinQA 和 MultiHiertt 上准确率提升 16-44% 且数据泄露降低 2-45%。

研究背景与动机¶

文档数值推理的需求：金融报告、医学文档、研究论文中的数值推理要求深刻的上下文理解和逻辑推导能力，本地小模型（如 3-4B 参数）能力不足。
直接调用远端模型的隐私风险：将本地数据直接发送给 GPT-4 等 API 会暴露公司详情、运营数值、战略分析等敏感信息，存在严重的信息泄露风险。
已有隐私保护方法的两大挑战：
生成逻辑一致的合成查询困难：现有方法（高级描述、类似示例、差分隐私扰动）在数值推理场景下难以保持推理逻辑的完整性。
本地答案重构受限于推理能力：即使远端给出提示，小模型也难以正确整合本地数据和远端指导来重构答案。
核心洞察：敏感查询可以在保持数学结构不变的前提下变换到完全不同的语义领域。例如，"从燃油消耗的个数和百分比推导总量"和"从广告收入的个数和百分比推导总量"是不同主题但相同推理模式的等价问题。

方法详解¶

整体框架¶

分为三大步骤：（1）本地主题迁移——蒸馏训练一个小型合成器将查询变换主题但保留推理模式；（2）数值替换——对合成查询中的数值做映射替换实现完整匿名化；（3）远端推理+本地重构——远端模型处理匿名查询并返回 Python 代码，本地通过数值回代执行代码获得答案。

关键设计 1：主题迁移器（Topic Shifter）¶

做什么：将原始查询 \((C, q)\) 转换为不同主题但保持格式、逻辑和数值不变的合成查询 \((\tilde{C}, \tilde{q}) = \mathcal{M_S}(C, q)\)。
为什么保留数值：数值不变可以(a)验证数学抽象一致性——如果合成问题的答案与原始问题相同，说明推理模式保持正确；(b)为后续数值替换建立清晰的实体映射关系（如"燃油费用 ↔ 广告收入"）。
蒸馏训练：由 GPT-4o（教师）生成高质量主题迁移数据，训练 Llama-3.2-3B（学生）作为本地合成器。对训练数据做三重质量过滤：泄露评估、冲突证据检测、答案一致性验证，从 6360 个样本中筛选出 5762 个。
关键优势：解耦语义保护和数值保护——合成器仅负责主题变换，不处理数值，降低了任务难度。

关键设计 2：数值替换（Data Switch）¶

做什么：对合成查询中所有数值 \(\mathcal{N} = \{n_1, n_2, \dots, n_k\}\) 应用映射 \(h: n_i \mapsto \tilde{n_i}\)，实现完全匿名化。
三大质量保障策略：
特殊数值处理：月末日期（28-31）等语义敏感数值保持不变。
年份偏移变换：年份相关数值做偏移变换以保持年份间相对差异。
保序变换：其他数值按区间排序后映射到新范围，保持原始的大小关系。
桥梁作用：数值替换是主题迁移和答案重构之间的桥梁——映射 \(h\) 的逆映射 \(h^{-1}\) 在本地重构时用于数值回代。

关键设计 3：远端辅助——代码即工具¶

做什么：将匿名化后的查询 \((\tilde{C_h}, \tilde{q_h})\) 发送给远端模型 \(\mathcal{M_R}\)，要求其返回 Python 代码而非自然语言答案。
公式化：\(f(m_1, m_2, \dots, m_t) = \mathcal{M_R}(\tilde{C_h}, \tilde{q_h})\)，其中 \(m_i \in \{\tilde{n_1}, \tilde{n_2}, \dots, \tilde{n_k}\}\)。
关键创新：代码以变量形式表示中间计算步骤，是可复用的"即插即用工具"，而非一次性答案。
与 Program-of-Thought 的区别：PoT 用代码增强推理，本方法的重点是如何在隐私约束下复用代码——成功的基础是查询的逻辑一致性和语义/数值的解耦保护。

关键设计 4：本地答案重构¶

做什么：直接在 Python 解释器中执行 \(f(h^{-1}(m_1), h^{-1}(m_2), \dots, h^{-1}(m_t))\)，将远端代码中的匿名数值替换为原始数值。
为什么有效：因为主题迁移保持了推理模式不变，数值替换保持了大小关系，因此同一段代码适用于原始查询。
无需本地模型再推理：彻底避开了小模型推理能力不足的核心痛点，用确定性的数值回代替代不确定的模型推理。

实验与结果¶

实验设置¶

数据集：FinQA（金融问答）、MultiHiertt（多层次表格推理），均含显式和隐式敏感信息
本地模型：Phi-3-mini-128k (3.8B)、Llama-3.2-3B-Instruct
远端模型：GPT-4o
评估：归一化准确率（除以远端直接推理准确率）+ LLM-as-judge 泄露评估（GPT-4o-mini，与人工标注 96% 一致）

核心结果¶

方法	MultiHiertt 准确率	MultiHiertt 泄露	FinQA 准确率	FinQA 泄露
本地单次推理(Phi-3)	54.4%	0%	71.1%	0%
Hint 方法	42.7%	6.0%	63.9%	28.8%
Example 方法	57.0%	16.1%	71.4%	38.9%
本方法	80.1%	3.7%	87.6%	6.4%

关键发现¶

准确率大幅提升：比 Hint 方法高 23-44%，比 Example 方法高 16-40%，接近远端模型直接处理的上界。
泄露大幅降低：比 Example 方法泄露低 2-45%，因为解耦了主题迁移和数值替换，实现了更彻底的匿名化。
Hint/Example 方法反而降低准确率：逻辑不一致的合成查询无法有效触发远端模型，且导航小模型推理更加混乱。
泛化性强：合成器仅在 MultiHiertt 上训练，在未见过的 FinQA 数据集上同样有效。
消融实验：去掉工具（改为本地推理）准确率从 90.1% 降到 65.0%；去掉蒸馏准确率降到 42.2%，两个核心组件缺一不可。
误差分析：最大错误源是远端模型本身(33.3%)，主题迁移错误仅 16.7%，数值替换错误仅 6.7%，答案重构错误为 0%。

论文评价¶

优势¶

语义保护+数值保护的解耦设计是关键创新，大幅降低了合成任务难度。
用可执行代码替代自然语言答案完全绕过了小模型推理能力不足的核心痛点。
框架具备模型无关和数据集无关的泛化性。

局限¶

依赖本地检索器缩短上下文，检索错误占总误差的 20%。
主题迁移器在相似短语和计量单位上偶尔出错。
仅验证了数值推理任务，对非数值类推理（因果推理、常识推理）的适用性不明确。