📡 信号/通信¶

💬 ACL2025 · 共 2 篇

ToolSpectrum: Towards Personalized Tool Utilization for Large Language Models: 提出 ToolSpectrum benchmark，首次评估 LLM 在用户画像和环境因素双维度下的个性化工具选择能力，发现现有 SOTA 模型在联合推理两个维度时表现显著下降。
WirelessMathBench: A Mathematical Modeling Benchmark for LLMs in Wireless Communications: 本文提出WirelessMathBench，一个包含587道题目的无线通信数学建模基准，从40篇前沿论文中提取，系统评估LLM在领域特定数学推导上的能力，揭示即使最强的DeepSeek-R1平均准确率也仅38.05%，完整公式推导仅7.83%。