Behavioural vs. Representational Systematicity in End-to-End Models: An Opinionated Survey¶
会议: ACL 2025
arXiv: 2506.04461
代码: 待确认
领域: 认知语言学 / 组合性泛化
关键词: 系统性, 组合性, 行为vs表征, Fodor-Pylyshyn挑战, Hadley分类, 机械可解释性
一句话总结¶
区分行为系统性(模型能否正确处理新组合)与表征系统性(模型内部表征是否结构化),指出当前基准和模型主要测试行为系统性却常声称解决了 Fodor-Pylyshyn 对表征系统性的挑战。基于 Hadley (1994) 的三级分类(弱/准/强系统性)分析语言和视觉关键基准的测试范围,最终呼吁用机械可解释性方法在行为评估之上补充表征分析。
背景与动机¶
组合性泛化(理解"章鱼吃了鱼"后应能理解"鱼吃了章鱼")是人类认知的核心。ML 社区大量工作提出测试系统性泛化的基准和增强系统性的模型。但有一个关键混淆:
- Fodor & Pylyshyn (1988) 论证的是表征的系统性——内部表征必须有结构和组合操作
- 现有基准测试的是行为的系统性——模型能否对新输入给出正确输出
- 行为正确 ≠ 表征结构化——模型可能通过非结构化的方式碰巧做对
核心问题¶
(1) 现有基准测试的是行为系统性的哪个级别?(2) 如何补充表征系统性的评估?
方法详解¶
Hadley 三级分类¶
- 弱系统性:熟悉词在新组合中但相同句法位置——最容易
- 准系统性:弱系统性在递归/嵌入子句中——中等
- 强系统性:词出现在训练中从未见过的句法位置——最难,最接近人类能力
基准分析¶
对语言和视觉领域的关键基准(SCAN、COGS、PCFG SET、gSCAN 等)按 Hadley 分类评估它们测试的级别
表征系统性的评估方向¶
- 机械可解释性:分析模型内部是否存在结构化的组合操作
- 绑定问题:模型如何关联特征(角色和填充物的绑定)
实验关键数据¶
- 大多数基准仅测试弱或准系统性
- 强系统性(词在全新句法位置)几乎未被测试
- 行为正确的模型在机械分析下可能缺乏结构化表征
亮点¶
- 行为 vs 表征的区分——对领域常见混淆的重要澄清
- Hadley 分类应用到现代基准——建立了系统性测试程度的标准化评估
- 呼吁机械可解释性补充行为评估——为未来研究指明方向
- "有见解的综述"(opinionated survey)——不只是文献列表,有明确立场
局限性 / 可改进方向¶
- 纯综述无新实验
- 机械可解释性仍处于早期——实际操作方法不够成熟
- 仅关注语言和视觉,其他模态未覆盖
与相关工作的对比¶
- vs Russin et al. 2024:也综述组合性但聚焦行为;本文增加表征维度
- vs McCurdy et al. 2024:定义"组合行为"但未涉及系统性级别
- vs Kallini et al. 2024:实验证明 LM 部分区分可能/不可能语言——行为层面;本文呼吁表征层面分析
启发与关联¶
- "模型做对了"和"模型理解了"是两回事——这对所有 NLP 评估都适用
- 机械可解释性是弥合行为-表征差距的关键工具
- Hadley 三级分类为设计更严格的泛化测试提供了理论基础
评分¶
- 新颖性: ⭐⭐⭐⭐ 行为/表征区分和Hadley分类应用都是新颖贡献
- 实验充分度: ⭐⭐ 纯综述无实验
- 写作质量: ⭐⭐⭐⭐⭐ 论点清晰有力,分类系统
- 价值: ⭐⭐⭐⭐ 对组合性泛化研究和LLM评估有重要理论启示