跳转至

💡 LLM 推理

📷 CVPR2026 · 共 9

Beyond Geometry: Artistic Disparity Synthesis for Immersive 2D-to-3D

提出"艺术视差合成"新范式(Art3D),将2D-to-3D转换目标从几何精度转向艺术表达,通过双路径架构解耦全局深度风格与局部艺术效果,从专业3D电影数据中学习导演意图。

E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

构建首个面向中文电商海报的多维度质量评估框架 E-comIQ-ZH,包含18K专家标注数据集(含CoT推理链)、专用评估模型 E-comIQ-M(SFT+GRPO训练)和标准化基准 E-comIQ-Bench。

FaceCoT: Chain-of-Thought Reasoning in MLLMs for Face Anti-Spoofing

构建了首个面向人脸反欺骗(FAS)的大规模 VQA 数据集 FaceCoT(108 万样本,覆盖 14 种攻击类型),包含六层级 CoT 推理标注(从全局描述到局部推理到最终结论);同时提出 CoT-Enhanced Progressive Learning (CEPL) 两阶段训练策略,在 11 个基准数据集上平均 AUC 提升 4.06%、HTER 降低 5.00%,超越所有 SOTA 方法。

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

构建首个面向人脸反欺骗(FAS)的CoT-VQA数据集 FaceCoT(108万样本,14种攻击类型),并提出分两阶段渐进学习策略 CEPL,在11个FAS基准上平均AUC提升4.06%、HTER降低5.00%。

Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought

发现现有LVLM在CoT推理时实际上忽略了中间rationale的内容,提出 RED (Rationale-Enhanced Decoding)——将图像条件和rationale条件的next-token分布在logit层面相乘,理论上等价于KL约束奖励最大化的最优解,无需训练即可显著提升多模态推理准确率。

Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought

发现现有 LVLM 在多模态 CoT 推理中会忽略生成的 rationale 内容(图像 token 主导注意力),提出 Rationale-Enhanced Decoding (RED)——将 CoT 重新表述为 KL 约束的 rationale 条件对数似然奖励最大化问题,最优解为将图像条件分布 \(p(y|x,q)\) 和 rationale 条件分布 \(p(y|r,q)^\lambda\) 相乘,无需训练即可显著提升多个基准上的推理性能。

Step-CoT: Stepwise Visual Chain-of-Thought for Medical Visual Question Answering

构建首个对齐临床诊断工作流的结构化多步CoT医学推理数据集Step-CoT(10K+病例/70K QA对),并提出基于图注意力网络的教师-学生框架实现逐步推理监督,提升Med-VQA的准确性和可解释性。

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

发现多模态推理模型在延长推理时会逐渐丢失对视觉token的注意力,提出VisRef在推理过程中主动重新注入与当前推理上下文语义相关的视觉token核心子集,在固定计算预算下比现有方法提升最高6.4%。

VisRef: Visual Refocusing while Thinking Improves Test-Time Scaling in Multi-Modal Large Reasoning Models

提出 VisRef,一个无需训练的视觉重聚焦框架,在多模态推理每一步通过 DPP 选择与当前推理状态相关且多样的视觉token子集重新注入,配合基于熵的自适应停止准则,在三个视觉推理基准上比文本自反思方法提升最高6.4%。