Dehumanizing Machines: Mitigating Anthropomorphic Behaviors in Text Generation Systems¶

会议: ACL 2025
arXiv: 2502.14019
代码: 无
领域: 文本生成
关键词: 拟人化, AI安全, 文本生成, 干预策略, 用户依赖

一句话总结¶

系统研究如何缓解文本生成系统的拟人化行为——编制基于文献和众包的干预手段清单，发展概念框架来表征干预空间、区分干预类型和评估干预效果，为减少用户对 AI 的过度依赖和情感依附提供理论和实证基础。

领域现状：LLM 的输出越来越拟人化——使用第一人称、表达"情感"、声称"理解"用户。学者已对此引发的风险（用户过度信任、情感依赖、能力夸大感知）表示担忧。
现有痛点：(a) 拟人化输出的危害已被讨论但如何干预尚未系统研究；(b) 缺乏干预手段的分类体系——不知道有哪些干预选择；(c) 缺乏评估不同干预效果的理论框架。
核心矛盾：适度的拟人化使交互更自然，但过度拟人化会误导用户认为 AI "有感情"或"真正理解"——如何在两者之间平衡？
本文要解决什么？ 构建减少拟人化的干预手段清单和概念框架。
切入角度：双管齐下——从文献中总结干预方法 + 众包实验中收集参与者的去拟人化编辑策略。
核心idea一句话：为"如何让AI不那么像人"提供系统性工具箱和理论框架。

(1) 文献综述——从 HCI/AI/心理学文献中收集已提出的减少拟人化的干预方式；(2) 众包实验——让参与者编辑 LLM 输出使其"不那么像人"，收集编辑策略；(3) 概念框架——综合两种来源，发展分类体系和评估维度。

干预手段清单（Intervention Inventory）:
做什么：编制全面的去拟人化干预选择
核心思路：从文献提取：提示工程（如要求使用第三人称）、输出后处理（如添加免责声明"我是AI"）、系统设计（如避免人类头像）、训练策略（如RLHF中惩罚拟人化表达）
从众包收集：参与者自发使用的编辑策略如去掉情感词、改陈述句为条件句、减少自我指称等
概念框架（Conceptual Framework）:
做什么：分类和组织不同类型的干预
核心维度：
- 干预层次：词汇级（改特定词）→ 句法级（改句式）→ 语用级（改交互模式）→ 系统级（改界面设计）
- 干预时机：训练时 vs 推理时 vs 后处理
- 干预强度：轻度（添加提示）→ 重度（完全重写）
设计动机：不同场景需要不同级别和类型的干预——客服聊天机器人可能需要轻度干预，医疗AI可能需要重度干预
众包去拟人化实验:
做什么：收集真实用户对拟人化输出的编辑策略
核心思路：给参与者 LLM 生成的拟人化回复，要求编辑使其"听起来更像机器/系统"
关键发现：参与者最常用的策略是(a)去掉情感表达(b)去掉第一人称(c)添加限定语"作为AI系统"