AutoScreen-FW: An LLM-based Framework for Resume Screening¶
日期: 2026-03-20
arXiv: 2603.18390
代码: 无
领域: LLM Agent / NLP应用
关键词: resume screening, LLM, few-shot, privacy-preserving, clustering-based selection
一句话总结¶
提出 AutoScreen-FW,用开源 LLM(Qwen3-8B/Llama-3.1-8B)+ few-shot ICL 实现简历筛选,通过 clustering-based 样本选择策略使 Qwen3-8B 超越 GPT-5-nano 达 10.8%,同时保护数据隐私且提速 48.7%。
研究背景与动机¶
- 领域现状: 人工简历筛选耗时且主观。商业 LLM(GPT-5)可用但存在数据隐私风险和 API 成本问题。
- 现有痛点: 简历评估标注数据极少,fine-tuning 不可行;需评估成长潜力和组织匹配度等软性维度;商业 LLM 将敏感简历数据发送到外部服务器。
- 核心 idea: 用开源 LLM 本地部署 + 精心设计的 few-shot prompt(persona + 评估标准 + 代表性样本),在保护隐私的同时达到商业模型水平。
方法详解¶
关键设计¶
-
三种样本选择策略:
- Diversity-based: 最大化样本间差异
- Similarity-based: 选择原型样本
- Clustering-based (最优): K-means++ 找聚类中心作为 few-shot 示例
-
Prompt 设计:
- LLM Persona: 设定为职业顾问角色
- 评估维度: 内容/结构/语言三维度打分
- 高低质量混合样本: 同时包含好/坏简历示例提高鲁棒性
实验关键数据¶
推理速度¶
| 模型 | 每份简历耗时(s) | 相对速度 |
|---|---|---|
| GPT-5-mini | 5.09±0.22 | 基线 |
| GPT-5-nano | 7.48±0.45 | −47% |
| Qwen3-8B | 3.84±0.26 | +24.6% |
| Llama-3.1-8B | 2.10±0.24 | +58.7% |
准确率(GPT-5.2 作为 Ground Truth)¶
| 模型 | Zero-shot | Few-shot | 提升 |
|---|---|---|---|
| GPT-5-nano | 60.91% | — | — |
| Qwen3-8B | 60.63% | 67.46% | +11.3% |
| Llama-3.1-8B | 57.21% | 61.01% | +6.6% |
多 GT 验证(排除评分主观性)¶
| Ground Truth | Qwen3-8B best | Llama-3.1-8B best | GPT-5-mini |
|---|---|---|---|
| GPT-5.2 | 67.46% | 61.01% | — |
| GPT-5.1 | 82.40% | 84.85% | 84.45% |
| GPT-o3 | 68.14% | 64.72% | — |
关键发现¶
- Clustering-based 样本选择最有效:比 random/diversity/similarity 三种策略都好——找到数据分布的代表性点比多样性更重要
- 混合高低质量样本比只用好样本更鲁棒——坏示例帮助 LLM 理解评分边界
- 5-15 shots 是最优区间:太少信息不足,太多引入噪声
- 多 GT 评估必要:不同 GT 下排名不完全一致,简历评分主观性需要多角度验证
亮点与洞察¶
- 隐私保护是核心差异化:本地部署开源 LLM 完全避免了数据外泄风险
- 用 LLM 评估 LLM 的多 GT 设计合理应对了主观任务的评估难题
- 工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力
局限性 / 可改进方向¶
- 仅在日语简历上验证,跨语言/跨文化适用性未测
- 1655 份简历规模偏小
- 评估维度固定,真实招聘中的岗位匹配度等个性化需求未覆盖
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
-
更大规模和更多样化数据上的泛化能力需要进一步验证
-
消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入
评分¶
- 新颖性: ⭐⭐⭐ 方法偏工程化,但 few-shot 样本选择策略有参考价值
- 实验充分度: ⭐⭐⭐ 多模型对比充分,但数据集偏小
- 价值: ⭐⭐⭐⭐ 隐私保护 + 开源 LLM 的实际应用价值明确