跳转至

📖 NLP 理解

🔬 ICLR2026 · 共 2

BTZSC: A Benchmark for Zero-Shot Text Classification Across Cross-Encoders, Embedding Models, Rerankers and LLMs

提出 BTZSC 基准(22 个数据集),首次在统一零样本协议下系统比较 NLI 交叉编码器、嵌入模型、Reranker 和指令微调 LLM 四大模型家族(共 38 个模型),发现 Qwen3-Reranker-8B 以 macro F1=0.72 取得新 SOTA,嵌入模型在精度-延迟权衡上最优。

Same Content, Different Representations: A Controlled Study for Table QA

首个控制变量研究:在保持表格内容完全相同的条件下变换表示形式(结构化 vs 半结构化),系统评估 NL2SQL、LLM、混合三类方法在不同表格大小/模式质量/查询复杂度下的鲁棒性,发现表示形式是影响 Table QA 性能的一阶因素。