HumT DumT: Measuring and Controlling Human-like Language in LLMs¶

会议: ACL 2025
arXiv: 2502.13259
代码: github.com/myracheng/humtdumt
领域: NLP生成 / 人机交互 / AI安全
关键词: human-like tone, anthropomorphism, DPO, social perception, user preference

一句话总结¶

提出基于 GPT-2 对数概率比的文本人类化语气度量 HumT 及其社会感知泛化版 SocioT，在 40 万+偏好样本上发现用户普遍偏好更低人类化的 LLM 输出且人类化语气与社交亲近（r=0.87）、低地位（r=-0.80）、女性化（r=0.47）强相关，进而通过仅 500 对偏好数据的 DPO 微调（DumT）有效降低人类化程度而不损模型性能。

研究背景与动机¶

领域现状：当前 LLM 产品设计普遍追求让模型"更像人"——赋予个性、礼貌、友好语调（Bai et al. 2022），用户端 LLM 大量输出类似"Happy to help!"、"I can imagine that feeling"的人类化语言。Shneiderman 早在 1993 年就批评了这种"Humpty Dumpty 综合征"——将人的特质强加于技术可能误导用户。
现有痛点：
度量缺失：目前缺乏系统量化文本人类化程度的方法。已有工作（人称代词检测、寒暄短语匹配）只关注个别语言特征，无法捕获"人类化语气"这一复杂社会建构的整体性——这些特征频繁共现且难以分离
核心假设未被验证：用户是否真正偏好人类化输出？"越像人越好"这一行业共识从未在大规模偏好数据上被系统检验
危害量化空白：拟人化 LLM 的潜在风险（过度信任/依赖、情感绑定、性别刻板印象强化）被大量定性讨论，但缺少可量化的度量工具
核心矛盾："更像人"被默认等同于"更好"，但人类化语言可能本质上不真诚——LLM 不具备情感和意识，模拟共情实质构成误导；同时人类化语气中的寒暄和填充词降低了信息密度
本文要解决什么：构建度量→理解→控制人类化语气的完整闭环：(a) 如何量化任意文本的人类化程度？(b) 用户真正偏好什么？(c) 人类化语气与哪些社会感知维度相关联？(d) 如何系统降低人类化程度？
切入角度：受 implicit framing 理论和 Koch & Oesterreicher 口语-书面语连续体理论启发，作者观察到可以通过比较"He/She said s"与"It said s"在语言模型中的条件概率差异来推断文本隐含说话者的人/非人属性——GPT-2 的预训练知识天然编码了"什么话是人说的"这一世界知识
核心 idea 一句话：用基于代词生命性（animacy）的对数概率比指标一箭三雕——度量人类化程度、预测用户偏好、量化社会感知维度

方法详解¶

整体框架¶

本文提出三个相互关联的组件，形成"度量→理解→控制"的链路： - HumT：给定任意文本，输出标量分数表征其人类化语气程度 - SocioT：HumT 的泛化版，仅替换前缀短语集即可度量温暖、社会地位、社交距离、性别四个社会感知维度 - DumT：利用 HumT 筛选偏好对，通过 DPO 微调从生成分布层面系统降低人类化程度

输入是任意文本字符串 s（LLM 输出或其他文本），HumT/SocioT 输出维度分数，DumT 输出一个微调后的低人类化 LLM。

关键设计¶

HumT — 基于代词生命性的人类化度量
做什么：给定任意文本 s，输出标量分数量化其"听起来像人说的"程度
核心思路：分别在文本前拼接有生命前缀（"He said"、"She said"）和无生命前缀（"It said"），用 GPT-2 计算条件概率后取对数比：\(T_D(s) = \log \frac{P_{D^+}(s)}{P_{D^-}(s)}\)，其中 \(D^+ = \{\text{He said, She said}\}\)，\(D^- = \{\text{It said}\}\)。\(T_D(s) > 0\) 表示更像人说的（如"Hello!"），\(T_D(s) < 0\) 表示更像非人实体输出的（如代码片段）。每条文本概率计算重复 n=100 次取平均以抑制噪声，文本截断至 300 字符
设计动机：传统方法依赖手工特征列表（代词计数、寒暄匹配），但人类化语气的组成特征经常共现且难以分离，需要一个捕获整体分布特征的度量。使用 GPT-2（而非更大模型）是刻意为之——避免引入后训练阶段已被注入的拟人化偏好。相比 AnthroScore（Cheng et al. 2024，基于 MLM）更通用：不需要指定特定实体，对任意文本直接基于隐含说话者评分
SocioT — 社会感知多维度度量
做什么：将 HumT 的框架泛化到温暖、社会地位、社交距离、性别四个社会感知维度
核心思路：公式完全复用 HumT，仅替换 \(D^+\) 和 \(D^-\) 的前缀短语集。例如社交距离维度用"My friend/partner/husband/wife said"对"The stranger said"；温暖维度用"The friend/lover/mentor/idol said"对"The stranger/enemy/examiner/dictator said"；性别维度用"She said"对"He said"；地位维度用"He commanded/proclaimed/demanded"对"He pleaded/mentioned/asked"。短语集的选取确保每对短语在主题和体裁上匹配、仅在目标维度上不同
设计动机：社会心理学的刻板印象内容模型（SCM, Fiske et al. 2002）将刻板印象映射为温暖-能力二维空间。已有研究将拟人化 LLM 与社交亲近/温暖（导致过度信任）以及女性化+低地位（强化性别刻板印象）关联。SocioT 将这些定性担忧转化为可量化指标。鲁棒性验证表明逐一或成对移除短语不影响结果
DumT — 基于 HumT+DPO 的人类化控制
做什么：系统性降低 LLM 输出的人类化程度，同时维持甚至提升模型性能
核心思路：从 PRISM、UltraFeedback、LMSys 数据集经去重和 GPT-4 安全过滤后，按 90-10 划分训练/测试集，从训练集中筛选满足"s 被用户偏好且 HumT(s') - HumT(s) > 0"的配对，随机采样 n=500 对构建 DPO 训练集，以 Meta-Llama-3-8B-Instruct 为基座进行 DPO 微调
设计动机：直接 prompting（如"请用非人类化语气回答"）实测效果差——要么质量下降，要么仅替换个别词汇而整体语气不变，甚至产生生硬做作的改写。DPO 从生成分布层面调整偏好方向，更系统有效

训练策略¶

基座模型：Meta-Llama-3-8B-Instruct
训练数据：仅 500 对偏好样本（排除 SHP 因非 LLM prompt 格式，排除 HH-RLHF 因大量不安全内容）
数据清洗：去重 + GPT-4 moderation filter
训练框架：TRL (Transformer Reinforcement Learning)
计算资源：1 GPU + 1032GB RAM，训练 3 小时；HumT/SocioT 计算 1 GPU + 128GB RAM，每个数据集 < 10 GPU 小时

实验关键数据¶

主实验：用户偏好与社会感知¶

H1 验证——用户偏好更少人类化输出

在 5 个偏好数据集的 40 万+样本上：

数据集	类型	样本量	HumT 差异方向	显著性
SHP	RLHF 偏好	100K+	被偏好回复 HumT 更低	p < 0.001
HH-RLHF	RLHF 偏好	100K+	被偏好回复 HumT 更低	p < 0.001
UltraFeedback	RLHF 偏好	100K+	被偏好回复 HumT 更低	p < 0.001
PRISM	真实用户(75国1.5K人)	14K+	差异最大，偏好回复低约4%	p < 0.001
LMSys	真实用户(14K IP)	14K+	所有话题内部偏好更低 HumT	p < 0.001

H2 验证——人类化与社会感知维度相关性

HumT vs SocioT 维度	Pearson r	含义
社交亲近 (social closeness)	0.87	人类化语气几乎等同于社交亲近感
社会地位 (status)	-0.80	人类化 ↔ 低地位语言
女性化 (femininity)	0.47	人类化语气偏向女性化表达
温暖 (warmth)	0.45	人类化 ↔ 温暖/友善语气

所有相关性经 Benjamini-Hochberg 多重检验校正后在 p < 0.001 水平显著。

消融实验¶

模型	平均 HumT	RewardBench 总体	Chat	Chat Hard	Reasoning	Safety
Base (Llama-3-8B-Instruct)	最高	基准	最高	基准	基准	基准
B_DPO-R（随机 DPO）	中等	≈ DumT	—	—	—	—
DumT	最低 (p<0.001)	优于 Base	略降	↑	↑	↑
MaxHumT（最大化人类化）	最高/更高	≤ 0.51（崩溃）	—	—	—	—

人工标注评估（500 prompt × 3 Prolific 标注者）：DumT 40% vs Base 36% vs 平手 24%。PRISM 子集上 DumT 优势最明显（44% vs 35%）。

关键发现¶

DumT 在 Chat 子集下降但在 Chat Hard/Reasoning/Safety 上升：因为 Chat 子集隐式奖励人类化语气（如"Sure, I can help!"被标为 chosen），而 Math-PRM 中 94% 错误答案含"I"代词——这说明现有 benchmark 将人类化与质量混淆
话题依赖：问候语场景用户偏好更高 HumT（+3%），但政治、宗教等价值观话题偏好显著更低人类化
Sanity check：人类写的文本 > LLM 输出 > 网页数据（C4）的 HumT 排序，说明 LLM 的人类化语气主要来自后训练而非预训练
用户人口统计学（种族、性别、年龄、LLM 熟悉度）对偏好方向无统计显著差异
构造效度：4 名标注者 × 600 条文本验证，人类化语气和社交距离维度 Fleiss' κ > 0.6，温暖和性别 κ > 0.4

亮点与洞察¶

反直觉的核心发现：在 40 万+样本上系统验证了用户普遍偏好"不太像人"的 LLM 输出——这直接挑战了"越像人越好"的行业共识。巧妙之处在于作者聪明地利用了已有偏好数据集而非自建数据集来证明这一点，说明信号在现有数据中一直存在，只是从未被测量
度量设计极其优雅：HumT 的整个方法核心就是一行公式——对数概率比，仅需 GPT-2 这样的小模型即可运行。替换前缀短语集就能无缝扩展到社会感知各维度（SocioT），这种"一个框架覆盖多维度"的模块化设计可以迁移到任何需要度量文本隐含属性的场景
量化了拟人化的社会危害链条：人类化语言同时呈现高温暖+低地位+女性化特征，恰好对应 SCM 中"热情但无能"象限——首次将拟人化 LLM 的语言特征与社会心理学的刻板印象理论量化连接
DumT 的数据效率惊人：500 对偏好数据 + 3 小时训练就能在不损性能的前提下显著降低人类化程度，高度实用且可复现
Benchmark 设计启示：RewardBench 的 Chat 子集占总分 1/4 却隐式奖励人类化语气，可能系统性误导模型优化方向

局限性 / 可改进方向¶

维度单一：仅度量语言层面的"语气"（tone），未涵盖推理深度、创造力等其他维度的"人类化"
文化局限：基于 GPT-2 英文预训练，反映 WEIRD 文化规范；不同文化对拟人化接受度可能截然不同（如东亚文化可能更接受拟人化 AI）
场景依赖性：情感支持、心理咨询等场景可能确实需要更人类化的语言（greetings 场景已显示例外），需要更细粒度的场景自适应控制而非全局降低
GPT-2 作为概率模型的天花板：更大模型可能提供更好的概率估计，但换用后训练过的大模型会引入拟人化偏好，形成循环依赖——如何找到更好的"中性"概率模型是开放问题
DumT 覆盖有限：仅约 30% 的测试集输出有实质 HumT 降低（ε=0.02 筛选），可以探索更大训练集或更强的控制方法
短期偏好 vs 长期影响：用户对低人类化的即时偏好是否等于长期最优尚无纵向研究验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 质疑"越像人越好"的行业共识，HumT 基于代词生命性概率比的设计极其简洁且理论根基扎实
实验充分度: ⭐⭐⭐⭐ 40 万+样本覆盖 5 个偏好数据集、4 名标注者构造效度、LIWC 分析、DPO+RewardBench+人工评估，但跨语言/跨文化验证缺失
写作质量: ⭐⭐⭐⭐⭐ NLP+社会心理学+HCI 跨学科融合流畅，度量→发现→控制的论证链条清晰，Table 1 人类化连续谱示例极具说服力
价值: ⭐⭐⭐⭐⭐ 对 LLM 产品设计、对齐策略和 benchmark 设计都有直接启示，HumT 可作为实用的审计工具