跳转至

📂 其他

💬 ACL2026 · 3 篇论文解读

Agree, Disagree, Explain: Decomposing Human Label Variation in NLI through the Lens of Explanations

将LiTEx推理分类法从"标签一致下的解释变异"扩展到"标签不一致"场景,发现标注者可能标签不同但推理类似,推理类别的一致性比标签一致性更好地反映解释的语义相似度。

Are Large Language Models Economically Viable for Industry Deployment?

提出Edge-Eval框架,通过5个部署指标(经济盈亏平衡、智能功耗比、系统密度、冷启动税、量化保真度)在传统T4 GPU上全生命周期评估LLM,揭示<2B小模型在经济和生态维度全面优于7B模型,并发现QLoRA虽降低内存但能耗增加最高7倍的反常现象。

Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

提出 PTE(Prefill Token Equivalents),一个基于硬件感知的工具集成推理效率度量指标,统一了内部推理和外部工具使用的成本,并通过大规模实验揭示了四种 TIR 低效模式:确认性工具使用、工具混合、缺乏工具先验和工具格式崩溃。