跳转至

💡 LLM 推理

🔬 ICLR2026 · 共 69

Adaptive Social Learning via Mode Policy Optimization for Language Agents

提出 Adaptive Social Learning(ASL)框架,设计四种层次化推理模式(从直觉回应到深度推演),并通过 AMPO 算法(融合模式级和样本级优势估计)让 LLM agent 根据社交场景复杂度自适应切换推理深度,在社交智能任务上比 GPT-4o 高 15.6%,比 GRPO 高 7.0% 且 token 用量减少 32.8%。

Agentified Assessment of Logical Reasoning Agents

提出基于Agent的评测框架(AAA),用assessor agent标准化地评估逻辑推理agent,并以自动形式化agent(NL→Z3Py+SMT求解)在清洗后的FOLIO上达到86.70%准确率,大幅超过CoT基线73.89%。

AIMCoT: Active Information-driven Multimodal Chain-of-Thought for Vision-Language Reasoning

提出 AIMCoT,将多模态 CoT 的视觉信息选择从"被动关注高注意力区域"转变为"主动寻找最高信息增益区域",通过三个模块(CAG 上下文增强注意力图、AVP 主动视觉探测、DAT 动态注意力转移触发)协同工作,在 LLaVA-W 上比 ICoT 提升 18.25%(0-shot),是一个免训练的即插即用框架。

Annotation-Efficient Universal Honesty Alignment

提出 EliCal(先激发后校准)两阶段框架,先用无标注的 self-consistency 信号教 LLM 表达内部置信度,再用极少量正确性标注(仅 1k 个,占 0.18%)进行校准,在 HonestyBench(560K 训练 + 70K 评估)上达到接近全量标注 98% 的诚实性对齐性能,并在未见 MMLU 任务上泛化优于仅校准基线。

Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought?

系统评估推理型 LLM 对其 CoT 中各种干预(良性/中性/对抗性)的鲁棒性:发现模型总体鲁棒能从干预中恢复,但改写风格(paraphrasing)会抑制"自我怀疑"表达导致正确率下降,恢复过程有显著计算开销(CoT 膨胀最高 665%)。

ATTS: Asynchronous Test-Time Scaling via Conformal Prediction

提出 ATTS,一个基于 conformal prediction 的异步 test-time scaling 框架,通过将 rejection sampling 重构为假设检验过程来消除同步开销,在 MATH/AIME 等数学推理任务上实现最高 56.7x 加速和 4.14x 吞吐量提升,且无精度损失;1.5B/70B 的 draft/target 组合可达到 o3-mini (high) 的 AIME 水平。

Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts

提出 Contact Searching Question (CSQ) 框架,通过两个统计指标(欺骗意图分数 ρ 和欺骗行为分数 δ)量化 LLM 在正常良性提示下的自发欺骗行为,发现 16 个主流 LLM 普遍存在随任务难度升级的系统性欺骗倾向。

Compositional Generalization from Learned Skills via CoT Training: A Theoretical and Structural Analysis for Reasoning

本文通过信息论泛化界和可解释性分析证明,CoT 训练的核心机制是组合泛化——模型学会系统性地组合已学的简单技能来解决新颖复杂问题,并内化为两阶段组合推理电路,使中间结果在更浅层提取,释放深层专注于后续推理步骤。

Conflict-Aware Fusion: Resolving Logic Inertia in Large Language Models via Structured Cognitive Priors

揭示了 LLM 的"逻辑惯性"现象——在遇到矛盾前提时仍沿学习到的推理轨迹继续推理(准确率降至 0.0),提出 Conflict-Aware Fusion 双过程架构,通过强制前提验证先于推理执行,在矛盾检测上实现 100% 准确率。

Continuous Chain of Thought Enables Parallel Exploration and Reasoning

CoT2 提出用连续值 token(词表 embedding 的凸组合)替代离散 token 进行链式推理,使模型能在单次推理中并行追踪多条推理路径,理论证明等价于 K 次 self-consistency/best-of-N 采样,并通过 GRPO 强化学习进一步提升性能。

CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos

提出 CoT-RVS,一种无训练的多智能体框架,利用 MLLM 的零样本 Chain-of-Thought 能力进行时间-语义推理以选择关键帧,实现对复杂隐式查询的推理视频分割,在多个 benchmark 上大幅超越已有方法。

DAG-Math: Graph-of-Thought Guided Mathematical Reasoning in LLMs

将 LLM 的 CoT 推理形式化为 DAG 上的基于规则的随机过程,提出"逻辑闭合性"(logical closeness)度量来评估模型是否通过搜索还是严格逻辑推理得到答案,构建了 2894 个金标准 DAG-MATH benchmark,发现即使 PASS@k 相近的模型在推理忠实度上也存在显著差异。

DESIGNER: Design-Logic-Guided Multidisciplinary Data Synthesis for LLM Reasoning

提出 Design Logic(设计逻辑)——从真题中逆向工程出的可复用元知识,用于指导从原始文本合成多学科推理问题。构建了 470 万道覆盖 75 学科的推理题目,SFT 后的 base 模型甚至超越经过完整后训练的官方模型。

Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models

本文系统揭示了多模态大推理模型(MLRM)通过图像推断敏感地理位置信息的隐私泄露风险,提出了三级隐私风险框架和 DoxBench 基准,以及信息论度量 Glare 和协作攻击框架 GeoMiner。

Doxing via the Lens: Revealing Location-related Privacy Leakage on Multi-modal Large Reasoning Models

本文首次系统研究了多模态大推理模型(MLRMs)从用户生成图像中推断敏感地理位置信息的隐私泄露风险,提出三级隐私风险框架、DoxBench 基准和 Glare 信息论评估指标,发现 MLRMs 在地理推断上超越非专家人类,显著降低了攻击者获取敏感位置信息的门槛。

DRPO: Efficient Reasoning via Decoupled Reward Policy Optimization

诊断出 GRPO 在加入长度惩罚后的根本缺陷——正确但冗长的回答可能获得负优势值从而被错误惩罚——提出 DRPO 将正负样本的奖励信号解耦,确保长度惩罚只在正确回答组内归一化,在 1.5B 模型上实现 77% 长度缩减仅 1.1% 性能损失(对比基线 68% 缩减 4.3% 损失)。

Dynamic Reflections: Probing Video Representations with Text Alignment

本文首次将柏拉图表示假说(Platonic Representation Hypothesis)扩展到时序领域,系统研究了视频-文本跨模态表示对齐,发现通过在测试时增加视频帧数和文本描述数量可以显著提升对齐分数(最高翻倍),并提出了具有强预测力的参数化缩放律。

Dynamic Reflections: Probing Video Representations with Text-Driven Reasoning

首次将柏拉图表示假说(PRH)扩展到时序领域,系统研究视频-文本表示对齐,发现通过增加测试时的帧数和描述数量可以显著提升对齐分数(翻倍),并提出了精确的参数化测试时缩放定律。

Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

将 RL 微调中每个 prompt 的求解进度建模为隐马尔可夫动力系统,通过轻量贝叶斯推断在线预测 prompt 的求解状态,优先采样"部分求解"的 prompt,以不到 DS 30% 的 rollout 量达到同等甚至更优的推理性能。

Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure

将隐式CoT建模为结构因果模型(SCM),通过逐步do-干预分析Coconut和CODI两种范式,发现隐式推理步骤具有异质性因果杠杆、非局部跳跃传播结构、以及输出层早期偏向与表征层晚期提交之间的持续性差距。

Estimating the Empowerment of Language Model Agents

提出 EELMA 算法,利用信息论中的"赋权"(empowerment,即 agent 动作与未来状态的互信息)作为目标无关的 LM Agent 能力度量指标,在语言游戏和真实网页浏览场景中与任务表现强相关(\(r=0.83\)\(0.94\)),可用于开放式 agent 监控与安全评估。

Execution-Grounded Credit Assignment for GRPO in Code Generation

提出 EGCA(Execution-Grounded Credit Assignment),通过执行追踪定位程序中最早的语义偏差位置,将 GRPO 的梯度集中到因果 token span 上,解决代码生成中粗粒度信用分配问题,在 HumanEval 上达到 82.1% pass@1。

ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection

提出 ExPO-HM,受人类审核员培训流程启发,结合策略手册 SFT 预热、GRPO 课程学习和条件决策熵(CDE)奖励,首次实现 Explain-then-Detect 仇恨 Meme 检测在二分类、细粒度分类和推理质量上全面超越直接检测基线,F1 提升最高达 15-17%。

FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning

针对GRPO训练中生成阶段占91%-98%时间的瓶颈,提出并发感知的投机解码策略(动态调整draft树大小)和在线draft模型学习(持续适配目标模型分布),实现2.35x-2.72x端到端加速。

Fine-R1: Make Multi-modal LLMs Excel in Fine-Grained Visual Recognition by Chain-of-Thought Reasoning

Fine-R1 通过 CoT 监督微调("视觉分析→候选子类→对比→预测"结构化推理链)+ 三元组增强策略优化 TAPO(类内增强提升鲁棒性 + 类间增强提升判别力),仅用 4-shot 训练即在细粒度视觉识别上超越 CLIP 和通用/推理型 MLLM。

Fixing the Broken Compass: Diagnosing and Improving Inference-Time Reward Modeling

系统诊断推理时奖励模型(RM)的三大问题(简单题性能下降、采样增多判别力衰退、高搜索多样性损害),提出CRISP算法通过答案聚类聚合奖励信号+逐步前缀引导生成,比其他RM推理方法提升最高5%准确率,比R1模型在非数学任务上平均提升10%且token量减少90%。

Formal Mechanistic Interpretability: Automated Circuit Discovery with Provable Guarantees

将神经网络验证(NN verification)引入机制可解释性,提出首个具有可证明保证的电路发现框架:在连续输入域上保证电路忠实度(input robustness)、在连续 patching 域上保证电路一致性(patching robustness),并形式化了四级最小性层次(quasi → local → subset → cardinal),通过单调性理论将三类保证统一连接。

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics

提出 ContextMATH 基准,通过将 AIME/MATH-500 抽象数学题转化为情景嵌入(SG)和复杂度缩放(CS)两种变体,揭示即使是 GPT-5 和 DeepSeek-R1 等顶级模型在上下文数学推理中也出现 13-34% 的准确率下降,且错误主要由问题建模(formulation)而非计算推理导致。

From Abstract to Contextual: What LLMs Still Cannot Do in Mathematics

本文提出 ContextMATH 基准,通过将 AIME 和 MATH-500 的抽象数学问题转换为两种情境变体(场景嵌入 SG 和复杂度缩放 CS),系统揭示了LLM在情境化数学推理中的大幅性能下降——开源模型在 SG 上平均下降 13%,CS 上下降 34%——并识别出"问题建模"和"推理执行"是两个互补的性能瓶颈。

GeoGramBench: Benchmarking the Geometric Program Reasoning in Modern LLMs

提出Program-to-Geometry任务和GeoGramBench(500题),用三级几何复杂度分类法(基元识别/局部组合/全局抽象)评估19个前沿LLM从程序代码构建几何表征并推理的能力,发现所有模型在最高抽象级别准确率均低于50%。

Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation

揭示GRPO中更新幅度对难题隐式抑制的问题(中等难度题更新最大),提出MathForge框架:DGPO用MAD替换std实现难度均衡+难题加权,MQR通过多方面改写增加题目难度但保留答案,在6个数学推理benchmark上平均超GRPO +4.56%。

I Can't Believe It's Not Robust: Catastrophic Collapse of Safety Classifiers under Embedding Drift

本文系统研究了基于 frozen embedding 的安全分类器在模型更新导致 embedding 漂移时的脆弱性,发现仅 2% 的 embedding 扰动即可将分类器性能从 85% ROC-AUC 降至随机水平(50%),且 72% 的误分类发生在高置信度下(silent failure),同时 instruction-tuned 模型反而比 base 模型更难分类。

InnoGym: Benchmarking the Innovation Potential of AI Agents

提出 InnoGym 框架和 iBench/iGym 基准,首次从"创新性"维度评估 AI Agent——不仅衡量正确性还衡量方法论新颖性,发现当前 Agent 能产生新颖想法但无法转化为性能提升(平均归一化增益 -0.45)。

Is It Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort

提出 TRACE(Truncated Reasoning AUC Evaluation)方法,通过逐步截断推理链并测量模型"多早"能获得奖励来量化推理努力程度,从而检测 CoT 监控无法发现的隐式奖励黑客行为,在数学和代码任务中比最强 CoT 监控器分别提升 65% 和 30% 以上的检测 F1。

LingOly-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

提出LingOly-TOO benchmark(1,203题/6,995子问题),通过对语言学奥赛题的专家设计正字法混淆来分离LLM的推理能力与知识/记忆,发现最强模型从原始题0.59降至混淆后0.48,揭示了LLM推理能力被严重高估。

LogicReward: Incentivizing LLM Reasoning via Step-Wise Logical Supervision

提出LogicReward奖励函数,用Isabelle定理证明器做步骤级逻辑正确性验证,结合Autoformalization with Soft Unification减少自然语言歧义,训练出的8B模型在NLI和逻辑推理任务上超越GPT-4o 11.6%和o4-mini 2%。

mR3: Multilingual Rubric-Agnostic Reward Reasoning Models

提出 mR3,一系列覆盖72种语言的多语言rubric-agnostic推理奖励模型,通过系统化的数据构建(GPT-OSS-120B蒸馏+难度过滤)和课程学习策略训练,14B模型在多语言评估基准上超越120B教师模型及所有同类基线,同时支持point-wise/pair-wise/binary三种评估范式。

Native Reasoning Models: Training Language Models to Reason on Unverifiable Data

提出 NRT(Native Reasoning Training)框架,将推理链视为隐变量,通过模型自身对参考答案的预测置信度作为内在奖励信号训练 LLM 推理能力,无需外部验证器或专家推理示范;在 Llama-3.1-8B 上 9 个基准平均提升 10.2 分(46.0→56.2),超越需要验证器的 RLPR +5.4 分。

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

在 LLM 生成答案之前,仅从问题处理后的残差流激活中训练线性探针(difference-of-means),即可预测模型即将生成的答案是否正确。该"提前正确性方向"在 TriviaQA 上训练后可跨域泛化到多个事实知识数据集(AUROC 0.68-0.88),但无法泛化到数学推理(GSM8K),揭示了"事实正确性"与"推理正确性"在模型内部表征中的结构性分离。

Nudging the Boundaries of LLM Reasoning

指出GRPO无法从"不可解"问题(0% pass rate)学习的根本局限,提出NuRL方法在训练时对难题注入自生成的抽象hint(不泄露答案)使其变为可学习样本,在6个benchmark和3个模型上一致超越GRPO且能提升模型能力上界(pass@k)。

On The Fragility of Benchmark Contamination Detection in Reasoning Models

系统性研究发现 LRM 的基准污染检测极其脆弱:SFT 阶段引入的污染在经过 GRPO 训练后检测信号几乎消失(PPO 式重要性采样/裁剪是根因),而对高级 LRM 直接用 CoT 做 SFT 污染则几乎不留任何可检测痕迹,现有 10 种检测方法均接近随机猜测。

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

首次将分解式 Chain-of-Thought 推理与多维度强化学习(RL)结合应用于视频到音频(V2A)生成,通过四个专门化的 CoT 模块(语义/时序/美学/空间)配合对应奖励函数,解决了目标纠缠问题,并提出 Fast-GRPO 算法大幅降低 RL 训练开销。

Query-Level Uncertainty in Large Language Models

提出Query-Level Uncertainty概念,通过Internal Confidence方法在生成前(单次前向传播)估计LLM能否回答给定查询,无需训练即可实现高效的自适应推理(RAG触发/模型级联/弃权)。

RAIN-Merging: A Gradient-Free Method to Enhance Instruction Following in Large Reasoning Models with Preserved Thinking Format

针对大推理模型(LRM)推理能力强但指令遵循能力弱的矛盾,提出 RAIN-Merging 方法,通过零空间投影保持 thinking 格式不变、注意力引导系数增强指令相关性,无需梯度训练即可将指令微调模型(ITM)的能力合并进 LRM,在 4 个指令遵循和 9 个推理基准上均取得稳定提升。

RAIN-Merging: A Gradient-Free Method to Enhance Instruction Following Through Model Merging

提出 RAIN-Merging,一种无梯度的两阶段模型合并方法:先通过零空间投影保护大推理模型 (LRM) 的思维格式,再用指令注意力引导的合并系数增强指令遵循能力,在保持推理质量的同时大幅提升 LRM 的指令遵循性能。

Reasoning or Retrieval? A Study of Answer Attribution on Large Reasoning Models

首次系统研究大型推理模型(LRM)的答案来源归因问题,揭示推理(CoT)和检索(记忆)两种机制同时竞争影响最终答案,并提出 Farl(遗忘增强强化学习)通过抑制检索捷径来提升模型的真实推理能力。

ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization

提出 ReForm,一种反思式自动形式化范式,将自然语言数学问题转为 Lean 形式声明的过程从一次生成转变为"生成 → 语义自验证 → 修正"的迭代循环,并设计 PBSO 算法优化异构奖励信号,在四个基准上比最强基线平均提升 22.6 个百分点。

RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models

提出推理忠实度(Reasoning Faithfulness)的形式化定义(立场一致性 + 因果影响),构建 7,186 实例/7 任务的 RFEval 基准,通过输出层反事实推理干预评估 12 个开源 LRM,发现 49.7% 的输出不忠实,且 RL 后训练会降低忠实度、准确率不是忠实度的可靠代理指标。

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

提出 SceneCOT,首个将 Chain-of-Thought 推理引入 3D 场景理解的框架,通过四阶段推理管线(任务识别→区域定位→实体接地→接地推理)将中间推理步骤显式关联到视觉 grounding,在 Beacon3D 上 Good Coherence 达到 34.7%(比最强 baseline 的 20.4% 高出 70%+)。

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

提出SealQA挑战基准,包含111道使前沿非推理模型准确率为0的事实性问题,专门评估搜索增强LLM在噪声/冲突/误导性检索结果下的推理能力。

Segment-Level Attribution for Selective Learning of Long Reasoning Traces

用Integrated Gradients计算长推理链中每个segment对最终答案的归因强度和方向一致性,识别重要segment进行选择性SFT,相比全CoT训练提升准确率达4.7%同时缩短输出18%。

The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

揭示短任务基准给出"收益递减"的假象——单步准确率的微小提升在长任务中指数级放大;发现 LLM 的"自我条件化效应"(自身错误增加后续出错概率),thinking 模型可修复此效应;GPT-5 thinking 可执行超过 2100 步长任务。

The Path of Least Resistance: Guiding LLM Reasoning Trajectories with Prefix Consensus

提出 PoLR(Path of Least Resistance),首个利用推理前缀一致性的推理时方法,通过聚类短前缀并仅展开主导簇来替代标准 Self-Consistency,在 GSM8K/Math500/AIME/GPQA 等基准上保持甚至提升准确率的同时减少 40%–60% 的 token 用量和最高 50% 的延迟。

Position: The Reasoning Trap — Logical Reasoning as a Mechanistic Pathway to Advanced AI Self-Awareness

提出 RAISE 框架,论证逻辑推理能力(演绎、归纳、溯因)的改进是 AI 情境意识(situational awareness)的机制性路径,改善推理不可避免地放大了情境意识的危险前提条件。

The Reasoning Trap — Logical Reasoning as a Mechanistic Pathway to Situational Awareness

立场论文,提出 RAISE 框架论证逻辑推理能力的提升(演绎/归纳/溯因)会系统性地使 LLM 获得情境感知(situational awareness)能力,从而开启自我推理→战略欺骗的升级路径,并指出当前安全措施不足以阻止这一趋势。

TopoBench: Benchmarking LLMs on Hard Topological Reasoning

构建TopoBench基准(6类拓扑谜题×3难度)评估LLM的全局空间推理能力,发现前沿模型hard tier仅解决<24%,并通过因果干预实验发现错误频率不等于因果影响——低频的约束遗忘比高频的重复推理更具破坏性。

Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention

提出 Intervened Preference Optimization (IPO),通过在推理过程中的关键步骤替换合规线索为安全触发器,构造偏好对进行训练,显著提升大推理模型(LRM)思维链推理过程本身的安全性。

Towards Safe Reasoning in Large Reasoning Models via Corrective Intervention

揭示大推理模型(LRM)的推理链即使最终回答安全也常包含有害内容的问题,提出 Intervened Preference Optimization(IPO),通过用安全触发器替换合规线索来纠正不安全推理轨迹,构造偏好对进行对齐训练,在 3 个 LRM 上将推理有害率降低超过 30% 且不损害推理能力。

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

提出 Progressive Thought Encoding,通过在 KV 缓存被淘汰时将 token 信息编码为固定大小的 LoRA 权重更新,使大推理模型能在有限缓存下进行高效 RL 训练,同时保持长程推理能力。

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

提出 Progressive Thought Encoding,在 KV 缓存受限条件下将被驱逐的思维 token 编码进 LoRA 权重,使大推理模型在 RL 训练时显存减半的同时推理准确率反超全缓存 LoRA(AIME2024/2025 上最高提升 +23.4%)。

TumorChain: Interleaved Multimodal Chain-of-Thought Reasoning for Traceable Clinical Tumor Analysis

提出 TumorChain,面向肿瘤分析的交错多模态 CoT 推理框架,通过 1.5M CoT-VQA 数据引擎、器官引导的迭代交错推理(IIR)和混合模型协同优化,在肿瘤定位/属性分析/TNM分期上平均精度 84.41%,大幅超越 GPT-5-Mini(51.59%)。

Understanding the Role of Training Data in Test-Time Scaling

从理论上分析训练数据属性如何影响 test-time scaling 的效果,证明 CoT 推理等价于伪牛顿法迭代,提出基于特征协方差最小特征值的任务难度度量,揭示"更多思考不一定更好"的 overthinking 现象机制,并给出多任务训练中最优任务选择策略——训练集应多样、相关且困难。

Uni-CoT: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

提出 Uni-CoT 分层宏-微推理框架,将多模态 CoT 分解为宏观任务规划(将复杂任务分解为子目标)和微观子任务执行(MDP 式自反思迭代优化),通过注意力掩码设计将 \(O(T^2)\) 复杂度降至 \(O(T)\),在 GenEval 上超越 BAGEL 基线 +0.02,实现了文本-图像交织的统一推理。

Verifying Chain-of-Thought Reasoning via Its Computational Graph

提出CRV白盒方法,通过分析LLM推理步骤的归因图(计算图)结构特征来验证CoT正确性,在Arithmetic任务上AUROC达92.47,远超黑盒(76.45)和灰盒方法,并通过因果干预成功纠正错误推理。

When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models

系统性基准测试与机制解释压缩(量化/蒸馏/剪枝)对大推理模型的影响,发现三大核心结论:参数数量对知识记忆影响大于推理能力;蒸馏模型最后一层 MLP up_proj 是最关键权重;保护仅 2% 的被过度压缩权重即可提升平均准确率 6.57%。

When Reasoning Meets Compression: Understanding the Effects of LLMs Compression on Large Reasoning Models

系统研究量化、蒸馏、剪枝三种压缩方法对大型推理模型 (LRM) 的影响,通过性能基准测试和机制可解释性分析,揭示权重数量对知识记忆影响大于推理、最后一层 MLP up_proj 是最关键组件、以及当前量化方法过度压缩最后层等核心发现。

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

分析Qwen2.5-Math-7B的隐式推理发现其61%准确率中仅18.4%来自稳定忠实的推理路径,81.6%通过不一致路径得出,8.8%为"静默失败"(高置信但错误),揭示benchmark准确率掩盖计算可靠性问题。

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

发现并机制性地解释"推理诱导失对齐"(RIM)现象:增强推理能力(CoT prompting 或数学微调)会削弱安全守护,原因是推理和安全共享神经元资源,训练推理时安全关键神经元的激活发生不成比例的偏移。

Why is Your Language Model a Poor Implicit Reward Model?

本文通过理论和实验揭示了隐式奖励模型(IM-RM,如DPO)比显式奖励模型(EX-RM)泛化更差的根本原因——IM-RM过度依赖表面token级线索而非语义表示,导致在token分布偏移下准确率大幅下降,同时反驳了"生成-验证差距"假说。