跳转至

📡 信号/通信

💬 ACL2025 · 共 2

ToolSpectrum: Towards Personalized Tool Utilization for Large Language Models

提出 ToolSpectrum benchmark,首次评估 LLM 在用户画像和环境因素双维度下的个性化工具选择能力,发现现有 SOTA 模型在联合推理两个维度时表现显著下降。

WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications

本文提出WirelessMathBench,一个包含587道题目的无线通信数学建模基准,从40篇前沿论文中提取,系统评估LLM在领域特定数学推导上的能力,揭示即使最强的DeepSeek-R1平均准确率也仅38.05%,完整公式推导仅7.83%。