AutoScreen-FW: An LLM-based Framework for Resume Screening¶

日期: 2026-03-20
arXiv: 2603.18390
代码: 无
领域: LLM Agent / NLP应用
关键词: resume screening, LLM, few-shot, privacy-preserving, clustering-based selection

一句话总结¶

提出 AutoScreen-FW，用开源 LLM（Qwen3-8B/Llama-3.1-8B）+ few-shot ICL 实现简历筛选，通过 clustering-based 样本选择策略使 Qwen3-8B 超越 GPT-5-nano 达 10.8%，同时保护数据隐私且提速 48.7%。

研究背景与动机¶

领域现状: 人工简历筛选耗时且主观。商业 LLM（GPT-5）可用但存在数据隐私风险和 API 成本问题。
现有痛点: 简历评估标注数据极少，fine-tuning 不可行；需评估成长潜力和组织匹配度等软性维度；商业 LLM 将敏感简历数据发送到外部服务器。
核心 idea: 用开源 LLM 本地部署 + 精心设计的 few-shot prompt（persona + 评估标准 + 代表性样本），在保护隐私的同时达到商业模型水平。

方法详解¶

关键设计¶

三种样本选择策略:
- Diversity-based: 最大化样本间差异
- Similarity-based: 选择原型样本
- Clustering-based (最优): K-means++ 找聚类中心作为 few-shot 示例
Prompt 设计:
- LLM Persona: 设定为职业顾问角色
- 评估维度: 内容/结构/语言三维度打分
- 高低质量混合样本: 同时包含好/坏简历示例提高鲁棒性

实验关键数据¶

推理速度¶

模型	每份简历耗时(s)	相对速度
GPT-5-mini	5.09±0.22	基线
GPT-5-nano	7.48±0.45	−47%
Qwen3-8B	3.84±0.26	+24.6%
Llama-3.1-8B	2.10±0.24	+58.7%

准确率（GPT-5.2 作为 Ground Truth）¶

模型	Zero-shot	Few-shot	提升
GPT-5-nano	60.91%	—	—
Qwen3-8B	60.63%	67.46%	+11.3%
Llama-3.1-8B	57.21%	61.01%	+6.6%

多 GT 验证（排除评分主观性）¶

Ground Truth	Qwen3-8B best	Llama-3.1-8B best	GPT-5-mini
GPT-5.2	67.46%	61.01%	—
GPT-5.1	82.40%	84.85%	84.45%
GPT-o3	68.14%	64.72%	—

关键发现¶

Clustering-based 样本选择最有效：比 random/diversity/similarity 三种策略都好——找到数据分布的代表性点比多样性更重要
混合高低质量样本比只用好样本更鲁棒——坏示例帮助 LLM 理解评分边界
5-15 shots 是最优区间：太少信息不足，太多引入噪声
多 GT 评估必要：不同 GT 下排名不完全一致，简历评分主观性需要多角度验证

亮点与洞察¶

隐私保护是核心差异化：本地部署开源 LLM 完全避免了数据外泄风险
用 LLM 评估 LLM 的多 GT 设计合理应对了主观任务的评估难题
工程实现考量：该方法的计算开销可控，在标准 GPU 上可以合理时间内完成训练和推理，具有实际部署潜力

局限性 / 可改进方向¶

仅在日语简历上验证，跨语言/跨文化适用性未测
1655 份简历规模偏小
评估维度固定，真实招聘中的岗位匹配度等个性化需求未覆盖
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐ 方法偏工程化，但 few-shot 样本选择策略有参考价值
实验充分度: ⭐⭐⭐ 多模型对比充分，但数据集偏小
价值: ⭐⭐⭐⭐ 隐私保护 + 开源 LLM 的实际应用价值明确