Evaluating In Silico Creativity: An Expert Review of AI Chess Compositions¶
会议: NeurIPS 2025
arXiv: 2510.23772
代码: 无
领域: AI创造力 / 生成式AI
关键词: 国际象棋, AI创造力, 谜题生成, 专家评审, 反直觉
一句话总结¶
使用生成式神经网络(自回归Transformer、离散扩散、MaskGit)+强化学习生成国际象棋谜题,通过奖励函数筛选具有唯一解和反直觉性的谜题,并邀请三位世界级国际象棋专家评审AI生成谜题的创造力和美学品质。
背景与动机¶
- 生成式AI的快速发展引发了对其创造力能力的重大问题
- 国际象棋谜题是研究创造力的理想领域:有明确的解、可验证性强、有丰富的美学传统
- 传统国际象棋作曲是高度创造性的人类活动,要求原创性、反直觉性和美学优雅
- 之前的AI系统主要用于验证谜题正确性或从数据库中挖掘,而非从头生成新谜题
- 需要评估:AI能否生成具有创造力特质(惊奇感、挑战性、美感)的国际象棋谜题
核心问题¶
AI系统能否生成具有美学吸引力、反直觉解法和创造性主题组合的国际象棋谜题?如何通过专家评审系统地评估这些谜题的创造力。
方法详解¶
谜题生成流程¶
第一阶段:训练生成模型
在 Lichess 的400万国际象棋谜题数据集上训练三种生成式神经网络: - 自回归Transformer:学习FEN(Forsyth-Edwards Notation)序列的字符级分布 - 离散扩散模型:通过去噪过程生成棋盘位置 - MaskGit:掩码生成方法
每个棋盘位置编码为FEN字符序列,模型学习 \(p(c_t | c_1, ..., c_{t-1})\),即在给定前序字符条件下预测下一个字符分布。
第二阶段:强化学习优化
定义两部分奖励函数:
- \(R_{\text{unique}}\):唯一性检查(类似Lichess标准),确保只有一步获胜着法
- \(R_{\text{counter-intuitive}}\):反直觉性检查。满足条件:强引擎(如Stockfish高深度)能解出但弱引擎(低深度或评估分数降低的引擎)不能。即:
使用最佳样本迭代训练网络,使其倾向生成高奖励谜题。
第三阶段:筛选与审美检测
- 生成约400万个棋盘位置
- 按奖励函数排名
- 使用主题检测器分类(牺牲、弱升变、攻击撤退、闷杀等)
- 对每个主题手动审查排名前50的样本(由FIDE 2200-2300级棋手验证)
- 编纂成小册子送专家评审
专家评审体系¶
三位世界级专家: - IM Amatzia Avni:国际象棋作曲国际大师,著有《Creative Chess》 - GM Jonathan Levitt:国际特级大师,著有《Secrets of Spectacular Chess》 - GM Matthew Sadler:国际特级大师,多次计算机辅助国际象棋分析
评审标准:创造力、挑战性、美学设计。各自独立选择最喜欢的谜题并撰写评语。
实验关键数据¶
生成与筛选统计¶
| 阶段 | 数量 |
|---|---|
| 训练数据(Lichess谜题) | 400万 |
| 生成位置总数 | ~400万 |
| 按奖励排名后进入主题检测 | 数万 |
| 每主题手动审查 | 前50 |
| 最终入选小册子 | 数十个 |
专家评审结果¶
| 谜题 | Avni (AA) | Levitt (JL) | Sadler (MS) | 全体认可 |
|---|---|---|---|---|
| Puzzle 1 (双车弃子) | ✓ | ✓ | ✓ | 唯一全体一致 |
| Puzzle 2 (反直觉计算) | ✓ | |||
| Puzzle 3 (静着结合) | ✓ | |||
| Puzzle 4 (弱升变) | ✓ | |||
| Puzzle 5 (残局流畅) | ✓ | |||
| Puzzle 6 (优雅残局) | ✓ | |||
| Puzzle 7 (弱升变+闷杀) | ✓ | |||
| Puzzle 8 (逼和陷阱) | ✓ | |||
| Puzzle 9 (经典闷杀变奏) | ✓ |
唯一全体认可的Puzzle 1分析¶
起始局面:白方侵略性布子但国王暴露(f2)、皇后位置不佳(a7)。
关键着法:1. Rg6+! — "非正统"且"绝非自然或明显的弃子"(三位专家一致评价)
- 同时弃掉两个车!打开a1-h8对角线
- 后续 2. Qa1! 长距离皇后重新定位
-
- Qf6+ 展开不可阻挡的攻击
- 悖论性:弃掉两个最活跃的车,为位置不佳的皇后创造渗透机会
亮点¶
- ⭐ 首次系统地使用生成式AI从头合成国际象棋谜题并接受顶级专家评审,开创了AI-人类国际象棋作曲合作的先例
- ⭐ 强化学习奖励设计巧妙:唯一性确保谜题有效,反直觉性(强引擎能解/弱引擎不能解)确保趣味性
- ⭐ 专家评审结果真实可信:三位专家很少对同一谜题一致赞赏,反映了国际象棋美学的高度主观性
- Puzzle 1 展示了AI生成内容中难得的全体共识——双车弃子+长距离皇后重定位的主题组合被誉为前所未见
局限性 / 可改进方向¶
- 专家指出部分位置过于平庸(trivial),缺乏传统残局研究的深度和复杂性
- 一些谜题的棋盘位置不够自然/现实(如一方棋子明显错位)
- 目前筛选流程仍依赖大量手动审查(每主题top 50),自动化程度有限
- 奖励函数设计偏向战术谜题,对策略性和位置性美感的捕捉不足
- 专家建议增加更复杂的副线分析、更强的对手反击、更令人惊讶的主题组合
- 未量化AI生成谜题与人类作曲家作品的系统差距
与相关工作的对比¶
| 方面 | 传统计算机国际象棋作曲 | 本文AI生成 |
|---|---|---|
| 方法 | 人类设计+引擎验证 | 神经网络生成+RL优化 |
| 美学来源 | 人类直觉与经验 | 从数据中学习+奖励塑造 |
| 验证方式 | 引擎验证正确性 | 强/弱引擎差异验证反直觉性 |
| 创造力水平 | 可达獲奖级别 | "尚未达到获奖水平但展示了潜力" |
| 产量 | 少量精品 | 大量生成后筛选 |
启发与关联¶
- 奖励函数设计中"强引擎可解+弱引擎不可解"的反直觉性度量,可推广到其他需要评估创造力/难度的生成任务
- 专家对同一谜题的分歧揭示了创造力评估的根本难题:美和创意是高度主观的
- 从国际象棋推广到其他棋盘游戏、数学谜题、甚至科学发现生成是自然的下一步
- 人机协作的模式(AI大量生成 → 人类专家筛选精品)在创造性任务中具有广泛适用性
评分¶
- ⭐ 新颖性: 8/10 — AI生成国际象棋谜题+专家评审的框架是全新的,但技术方法(AR/Diffusion/RL)本身非创新
- ⭐ 实验充分度: 7/10 — 专家评审有质量但规模有限(3位专家、约9个重点谜题),缺乏量化对比
- ⭐ 写作质量: 9/10 — 谜题展示和专家评语的呈现方式极为出色,可读性极强
- ⭐ 价值: 7/10 — 对AI创造力评估方法论有贡献,但直接技术贡献较轻量