Behavioural vs. Representational Systematicity in End-to-End Models: An Opinionated Survey¶

会议: ACL 2025
arXiv: 2506.04461
代码: 待确认
领域: 认知语言学 / 组合性泛化
关键词: 系统性, 组合性, 行为vs表征, Fodor-Pylyshyn挑战, Hadley分类, 机械可解释性

一句话总结¶

区分行为系统性（模型能否正确处理新组合）与表征系统性（模型内部表征是否结构化），指出当前基准和模型主要测试行为系统性却常声称解决了 Fodor-Pylyshyn 对表征系统性的挑战。基于 Hadley (1994) 的三级分类（弱/准/强系统性）分析语言和视觉关键基准的测试范围，最终呼吁用机械可解释性方法在行为评估之上补充表征分析。

背景与动机¶

组合性泛化（理解"章鱼吃了鱼"后应能理解"鱼吃了章鱼"）是人类认知的核心。ML 社区大量工作提出测试系统性泛化的基准和增强系统性的模型。但有一个关键混淆：

Fodor & Pylyshyn (1988) 论证的是表征的系统性——内部表征必须有结构和组合操作
现有基准测试的是行为的系统性——模型能否对新输入给出正确输出
行为正确 ≠ 表征结构化——模型可能通过非结构化的方式碰巧做对

核心问题¶

(1) 现有基准测试的是行为系统性的哪个级别？(2) 如何补充表征系统性的评估？

方法详解¶

Hadley 三级分类¶

弱系统性：熟悉词在新组合中但相同句法位置——最容易
准系统性：弱系统性在递归/嵌入子句中——中等
强系统性：词出现在训练中从未见过的句法位置——最难，最接近人类能力

基准分析¶

对语言和视觉领域的关键基准（SCAN、COGS、PCFG SET、gSCAN 等）按 Hadley 分类评估它们测试的级别

表征系统性的评估方向¶

机械可解释性：分析模型内部是否存在结构化的组合操作
绑定问题：模型如何关联特征（角色和填充物的绑定）

实验关键数据¶

大多数基准仅测试弱或准系统性
强系统性（词在全新句法位置）几乎未被测试
行为正确的模型在机械分析下可能缺乏结构化表征

亮点¶

行为 vs 表征的区分——对领域常见混淆的重要澄清
Hadley 分类应用到现代基准——建立了系统性测试程度的标准化评估
呼吁机械可解释性补充行为评估——为未来研究指明方向
"有见解的综述"（opinionated survey）——不只是文献列表，有明确立场

局限性 / 可改进方向¶

纯综述无新实验
机械可解释性仍处于早期——实际操作方法不够成熟
仅关注语言和视觉，其他模态未覆盖

与相关工作的对比¶

vs Russin et al. 2024：也综述组合性但聚焦行为；本文增加表征维度
vs McCurdy et al. 2024：定义"组合行为"但未涉及系统性级别
vs Kallini et al. 2024：实验证明 LM 部分区分可能/不可能语言——行为层面；本文呼吁表征层面分析

启发与关联¶

"模型做对了"和"模型理解了"是两回事——这对所有 NLP 评估都适用
机械可解释性是弥合行为-表征差距的关键工具
Hadley 三级分类为设计更严格的泛化测试提供了理论基础

评分¶

新颖性: ⭐⭐⭐⭐ 行为/表征区分和Hadley分类应用都是新颖贡献
实验充分度: ⭐⭐ 纯综述无实验
写作质量: ⭐⭐⭐⭐⭐ 论点清晰有力，分类系统
价值: ⭐⭐⭐⭐ 对组合性泛化研究和LLM评估有重要理论启示