The AI Gap: How Socioeconomic Status Affects Language Technology Interactions¶
会议: ACL 2025
arXiv: 2505.12158
代码: https://huggingface.co/datasets/MilaNLProc/survey-language-technologies
领域: NLP理解 / AI公平性
关键词: 社会经济地位, 语言技术, 数字鸿沟, LLM交互, 用户调查
一句话总结¶
通过对1000名不同社会经济地位(SES)用户的大规模调查和6482条真实LLM prompts的分析,揭示了高低SES群体在语言技术使用频率、交互方式和话题选择上存在显著系统性差异,呼吁开发更具包容性的NLP技术以缩小AI鸿沟。
研究背景与动机¶
领域现状:随着ChatGPT等大语言模型的广泛普及,AI技术正在深刻改变人们与技术交互的方式。然而,不同社会群体对AI工具的采用率和使用方式差异显著,UNESCO和经济学人等机构已注意到这种差距。
现有痛点:以往关于SES与语言技术关系的研究依赖代理指标(如教育水平、收入)和合成数据,缺乏直接的用户调查数据。现有的大规模prompt数据集(如ShareGPT、LMSYS-Chat-1M)虽然规模大,但都没有收集用户的社会经济背景信息,无法分析SES对LLM使用的影响。
核心矛盾:语言技术看似对所有人开放,但根据技术接受模型(TAM),技术采用受感知有用性和易用性影响。不同SES群体的数字素养、访问设备和文化资本差异可能导致"数字鸿沟"在AI时代进一步加剧——即AI Gap。
本文目标 (1) SES如何影响语言技术的采用率和使用场景?(2) 不同SES群体与LLM交互时的语言特征有何差异?(3) 不同群体讨论的话题和对AI系统的感知有何不同?
切入角度:作者直接通过Prolific平台招募1000名英美被试,收集他们的社会经济背景信息和与LLM的真实交互prompts,结合定量统计和定性聚类分析来回答上述问题。
核心 idea:首次通过大规模用户调查直接研究SES对语言技术使用和LLM交互方式的影响,发现SES差异系统性地体现在使用频率、语言风格和话题选择中。
方法详解¶
整体框架¶
本文的方法框架是一个大规模用户调查研究,包含三个核心部分:(1) 社会人口学信息收集(17个问题,涵盖Macarthur量表自评SES等),(2) 语言技术使用习惯调查(频率、任务类型、使用场景),(3) LLM prompt收集(要求被试提供最近10条与AI聊天机器人的交互记录)。调查在Prolific平台分两阶段进行,第一阶段501人,第二阶段针对性补充380名低和高SES被试。
关键设计¶
-
SES测量与分组:
- 功能:准确衡量被试的社会经济地位
- 核心思路:采用Macarthur量表(1-10分),让被试自评社会经济地位,然后映射到西方阶层体系——1-3为低、4-7为中、8-10为高。同时收集教育、父母职业、住房等客观指标用于交叉验证。
- 设计动机:自评SES比客观指标更能反映个人心理感受,研究表明主观阶层认知对行为有重要影响
-
Prompt语言学分析:
- 功能:量化不同SES群体的交互风格差异
- 核心思路:从多个维度分析6482条真实prompts——长度(词数)、具体性(使用Brysbaert等人的40K单词具体性评分)、拟人化程度(礼貌用语、寒暄语、专业术语vs隐喻语言的使用率),以及训练词袋分类器来验证群体间prompts的可区分性
- 设计动机:Bernstein的语言编码理论预测高SES群体使用更抽象的语言,本文在LLM交互场景中验证了这一经典假说
-
话题聚类与定性分析:
- 功能:发现不同SES群体关注话题的差异
- 核心思路:用SentenceTransformer和M3-Embedding编码prompts,通过UMAP+HDBSCAN聚类,再用GPT-4o给聚类分配描述性标签,最后人工评估聚类质量。比较三个SES群体的特有话题和共有话题的不同"框架"
- 设计动机:相同话题(如金融、求职、食物)在不同SES群体中呈现截然不同的需求框架,这种差异揭示了更深层的社会不平等
损失函数 / 训练策略¶
本文是调查研究,不涉及模型训练。统计检验采用卡方独立性检验和bootstrap重抽样显著性测试,分类器使用词袋+逻辑回归。
实验关键数据¶
主实验¶
| 分析维度 | 指标 | 低SES | 中SES | 高SES | 统计显著性 |
|---|---|---|---|---|---|
| Prompt平均长度 | 词数 | 27.0 | 22.3 | 18.4 | p < 0.05 |
| 语言具体性 | 具体性分数(1-5) | 2.66 | 2.63 | 2.57 | p < 0.05 |
| AI聊天机器人使用频率 | 日常使用比例 | 低→高递减 | 中等 | 低→高递增 | χ²=67.79, p<0.001 |
| 设备访问 | 多设备日常使用 | 较少 | 中等 | 较多 | χ²=55.11, p<0.001 |
消融实验¶
| 分析配置 | 关键指标 | 说明 |
|---|---|---|
| BoW分类器 | Macro-F1=39.25 | 远超多数类基线25.02,证明不同SES prompts可区分 |
| 专业术语使用率 | 低3.32%/中4.16%/高4.94% | 高SES更多使用专业术语 |
| 拟人化(寒暄语) | 低6.34%/中5.08%/高4.29% | 低SES更倾向将LLM拟人化 |
| 搜索式提问比例 | 低46.6%/中43.5%/高45.4% | 各群体都在用LLM替代搜索引擎 |
关键发现¶
- 使用场景差异显著:高SES群体更多在工作、学习和技术场景中使用LLM,进行编程、数据分析、写作等高级任务;低SES群体更多用于娱乐和一般性问答
- 同一话题不同框架:金融话题中,低SES询问省钱方法,高SES询问投资策略;求职中,低SES寻找不需要学历的远程工作,高SES涉及管理岗位的cover letter
- 高SES用户prompts更短但更抽象:可能因为拥有更丰富的词汇量,能用更少的词表达更精确的需求
- 评估基准偏差风险:高SES用户常用的任务(摘要、数学题)更容易用ground-truth评估,低SES用户常用的任务更依赖人类偏好评估,可能导致现有评测不公平
亮点与洞察¶
- 首个带SES标注的真实prompt数据集:填补了现有大规模prompt数据集缺乏社会经济背景信息的空白,为后续研究提供了宝贵资源
- 经典社会语言学理论的新验证场景:在LLM交互中验证了Bernstein的受限/精细编码理论,说明社会阶层差异在人机交互中同样存在
- 从使用差异到AI Gap的因果推理:不仅描述了差异,还分析了差异可能如何通过反馈循环加剧数字鸿沟——低SES用户使用简单语言→系统表现差→满意度低→更少使用
局限与展望¶
- 样本局限:仅限英美Prolific平台用户,众包工人可能比一般人群更熟悉技术,且SES分布偏中低层
- 自报告偏差:被试自行提供最近10条prompts,可能存在选择性报告;2.5%被试的人口学信息与Prolific档案不一致
- 因果链未验证:文章推测SES差异会通过NLP系统性能差异加剧不平等,但没有实际测试不同prompt风格在系统中的表现差异
- 缺少纵向分析:横截面数据无法追踪使用习惯随时间的变化,也无法观察AI技术是否会逐渐缩小差距
相关工作与启发¶
- vs Cercas Curry et al. (2024a):他们用影视作品中的台词作为代理数据研究SES对NLP性能的影响,本文直接收集真实用户数据,更具生态效度
- vs Daepp and Counts (2024):他们分析美国不同地区ChatGPT使用意图的差异,本文在个体层面上收集了更细粒度的SES信息
- vs Kirk et al. (2024) / ShareGPT数据集:这些大规模prompt数据集规模更大,但缺乏社会经济背景标注,无法进行本文这样的分析
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次系统研究SES对LLM交互的影响,开创了一个重要的研究方向
- 实验充分度: ⭐⭐⭐⭐ 1000人调查+6482条真实prompts,多维度分析,统计检验充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机阐述充分,但部分分析较浅
- 价值: ⭐⭐⭐⭐ 对AI公平性研究有重要启示,提出了实际可操作的改进方向
相关论文¶
- [ACL 2025] From Lists to Emojis: How Format Bias Affects Model Alignment
- [ACL 2025] Using Shapley Interactions to Understand How Models Use Structure
- [ACL 2025] Retrospective Learning from Interactions
- [ACL 2025] I0T: Embedding Standardization Method Towards Zero Modality Gap
- [ACL 2025] FastDraft: How to Train Your Draft