跳转至

AutoScreen-FW: An LLM-based Framework for Resume Screening

日期: 2026-03-20
arXiv: 2603.18390
代码: 无
领域: LLM Agent / NLP应用
关键词: resume screening, LLM, few-shot, privacy-preserving, clustering-based selection

一句话总结

提出 AutoScreen-FW,用开源 LLM(Qwen3-8B/Llama-3.1-8B)+ few-shot ICL 实现简历筛选,通过 clustering-based 样本选择策略使 Qwen3-8B 超越 GPT-5-nano 达 10.8%,同时保护数据隐私且提速 48.7%。

研究背景与动机

  1. 领域现状: 人工简历筛选耗时且主观。商业 LLM(GPT-5)可用但存在数据隐私风险和 API 成本问题。
  2. 现有痛点: 简历评估标注数据极少,fine-tuning 不可行;需评估成长潜力和组织匹配度等软性维度;商业 LLM 将敏感简历数据发送到外部服务器。
  3. 核心 idea: 用开源 LLM 本地部署 + 精心设计的 few-shot prompt(persona + 评估标准 + 代表性样本),在保护隐私的同时达到商业模型水平。

方法详解

关键设计

  1. 三种样本选择策略:

    • Diversity-based: 最大化样本间差异
    • Similarity-based: 选择原型样本
    • Clustering-based (最优): K-means++ 找聚类中心作为 few-shot 示例
  2. Prompt 设计:

    • LLM Persona: 设定为职业顾问角色
    • 评估维度: 内容/结构/语言三维度打分
    • 高低质量混合样本: 同时包含好/坏简历示例提高鲁棒性

实验关键数据

推理速度

模型 每份简历耗时(s) 相对速度
GPT-5-mini 5.09±0.22 基线
GPT-5-nano 7.48±0.45 −47%
Qwen3-8B 3.84±0.26 +24.6%
Llama-3.1-8B 2.10±0.24 +58.7%

准确率(GPT-5.2 作为 Ground Truth)

模型 Zero-shot Few-shot 提升
GPT-5-nano 60.91%
Qwen3-8B 60.63% 67.46% +11.3%
Llama-3.1-8B 57.21% 61.01% +6.6%

多 GT 验证(排除评分主观性)

Ground Truth Qwen3-8B best Llama-3.1-8B best GPT-5-mini
GPT-5.2 67.46% 61.01%
GPT-5.1 82.40% 84.85% 84.45%
GPT-o3 68.14% 64.72%

关键发现

  • Clustering-based 样本选择最有效:比 random/diversity/similarity 三种策略都好——找到数据分布的代表性点比多样性更重要
  • 混合高低质量样本比只用好样本更鲁棒——坏示例帮助 LLM 理解评分边界
  • 5-15 shots 是最优区间:太少信息不足,太多引入噪声
  • 多 GT 评估必要:不同 GT 下排名不完全一致,简历评分主观性需要多角度验证

亮点与洞察

  • 隐私保护是核心差异化:本地部署开源 LLM 完全避免了数据外泄风险
  • 用 LLM 评估 LLM 的多 GT 设计合理应对了主观任务的评估难题
  • 工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力

局限性 / 可改进方向

  • 仅在日语简历上验证,跨语言/跨文化适用性未测
  • 1655 份简历规模偏小
  • 评估维度固定,真实招聘中的岗位匹配度等个性化需求未覆盖
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入

评分

  • 新颖性: ⭐⭐⭐ 方法偏工程化,但 few-shot 样本选择策略有参考价值
  • 实验充分度: ⭐⭐⭐ 多模型对比充分,但数据集偏小
  • 价值: ⭐⭐⭐⭐ 隐私保护 + 开源 LLM 的实际应用价值明确