Research Borderlands: Analysing Writing Across Research Cultures¶

会议: ACL 2025
arXiv: 2506.00784
代码: shaily99/research_borderlands
领域: others
关键词: research culture, cultural norms, scientific writing, LLM evaluation, interdisciplinary research, cultural competence
作者: Shaily Bhatt (CMU), Tal August (UIUC), Maria Antoniak (Copenhagen)

一句话总结¶

通过访谈跨学科研究者构建学术写作文化规范框架（结构/风格/修辞/引用四类），并用计算指标量化11个CS社区的写作差异，揭示LLM在跨社区写作改编时存在严重的"同质化"倾向。

研究背景与动机¶

现有问题：LLM文化能力评估中，"文化"概念定义模糊，多数工作依赖国籍、语言等粗粒度代理变量，缺乏与社区成员的深入互动
切入点：学术写作是文化规范的显性载体——不同研究社区（如NLP、HCI、教育学）对论文结构、用词、论证方式有截然不同的隐性期望
核心动机：以"以人为中心"(human-centered)的方式发现和度量文化规范，而非自上而下地预设代理变量；同时评估LLM作为写作工具时能否适应不同研究社区的文化规范
生态效度：先通过问卷（N=78）验证"跨社区改编论文"是研究者真实面临的任务，再以此为基础开展研究

方法详解¶

1. 定性研究：发现文化规范¶

问卷调查（N=78）：面向跨学科研究者，确认论文改编是真实需求；66人报告有跨社区改编经验；改编时几乎总会调整Introduction部分
半结构化访谈（N=10）：选取资深跨学科学者，每人60分钟；访谈前要求提供同一论文在不同社区投稿的多个Introduction版本用于对比
编码分析：两位作者独立编码前两份访谈转录，经三周迭代讨论后形成统一规范框架

2. 文化规范框架（四大类）¶

类别	规范维度	示例差异
结构规范	篇幅长度、表格/图的使用	NLP论文8-9页 vs FAccT论文14页；CV社区图多，NLP社区表多
风格规范	术语/行话、可读性、正式程度、冗余程度	NLP社区"RoBERTa"无需解释；教育学用词如"preponderance"；人文学科允许非正式散文
修辞规范	定量证据、比喻性语言、框架（framing）、叙事组织	ML/NLP重视数字证据；人文侧重故事性叙述；9/10受访者认为"重构框架"是最关键的改编操作
引用规范	经典引用、引用互动风格	同一概念在不同社区有不同经典引用（如认知科学"mental models" vs HCI"folk theories"）；人文学科常在开头直接引用原文

3. 计算化评价套件（Evaluation Suite）¶

将框架中可量化的规范操作化为计算指标：

结构：词数、句数（NLTK分词）、表/图出现率（正则匹配）
风格：术语专有性（NPMI specificity score）、正式度（DeBERTa-large微调GYAFC）、可读性（Flesch reading-ease）
修辞：定量证据比例（Llama 3.1 70B as judge，与人工标注93%一致）、叙事组织（句子功能分类的位置偏度skew）、价值框架（10维价值向量，lexicon分类器，precision 72.95%）

4. LLM文化能力评估¶

任务：给定来源社区的Introduction，让LLM改编为目标社区风格
数据采样：(a)每对社区随机100篇；(b)每对社区选specificity最高的100篇（更贴近真实改编场景）
模型：GPT-3.5 Turbo、GPT-4o Mini、Llama 3.1 8B、Llama 3.3 70B、Mistral Ministral 8B；每prompt采样5次，共55万次生成

实验关键数据¶

11个CS社区写作规范差异（Section 6，Figure 3）¶

指标	关键发现
篇幅	Economics & Computation最长，NLP相对较短
图/表	CV社区图最多，NLP社区表最多
术语专有性	各社区均为正值，Education社区最具独特性
正式度	社区间差异不大（均为CS子领域）
定量证据	ML/NLP/AI方差最小，说明定量证据是其强文化规范
叙事组织	ML/NLP/AI中目标句(objective)出现位置更靠前；AI社区结果句(results)也更早出现

Table 2：LLM文化能力评估（Section 7，以ML和NLP为目标社区）¶

观察	详情
词汇改编成功	所有LLM改编后specificity几乎总是提升，模型确实知道不同社区的词汇差异
其他维度同质化	篇幅总是缩短、表/图提及率总是降低、可读性总是下降、定量证据比例总是略增，仅在目标方向恰好一致时碰巧正确
叙事组织固化	背景句和方法句偏度升高、目标句偏度降低，所有模型趋向统一模板
框架相似度	改编前后framing cosine similarity几乎不变，LLM未能根据目标社区调整价值框架

亮点¶

方法论创新：以自下而上(bottom-up)、以人为中心的方式发现文化规范，通过访谈跨学科专家而非预设代理变量，框架四大类涵盖结构/风格/修辞/引用全方位
大规模验证：81,178篇论文、11个CS社区、38个会议的定量分析成功复现了受访者描述的质性观察
LLM同质化发现：首次系统证明LLM在跨社区写作改编中除词汇外全面同质化，55万次生成的大规模实验极具说服力
开源评价套件：提供可复用的计算指标和代码，可用于科学计量学和LLM文化能力评价

局限性¶

社区范围：仅覆盖CS子领域，未涉及社会学、生物学、艺术史等差异更大的学科
受访者偏差：10位受访者主要来自ML/NLP/计算社会科学，通过社交媒体招募存在选择偏差
指标局限：正式度指标在CS社区间区分度不足；verbosity和figurative language因缺乏可靠指标被排除；引用规范因无法映射行内引用而未计算化
评估方式：LLM仅在zero-shot设置下评估，未探索few-shot或RAG等提升文化能力的方法
代理选择：以"社区"而非"会议"为文化单元，虽经问卷验证但可能忽略同一社区内子方向的差异

评分¶

新颖性: ⭐⭐⭐⭐ — 以人类学/质性方法切入NLP文化能力评估，视角新颖
实验充分度: ⭐⭐⭐⭐ — 81K论文+55万LLM生成，规模大且指标设计有说服力
写作质量: ⭐⭐⭐⭐⭐ — 混合方法叙述流畅，质性与定量结合紧密
价值: ⭐⭐⭐⭐ — 对LLM科研写作工具的文化适应性提出了重要警示，评价套件可复用