跳转至

Evaluating In Silico Creativity: An Expert Review of AI Chess Compositions

会议: NeurIPS 2025
arXiv: 2510.23772
代码: 无
领域: AI创造力 / 生成式AI
关键词: 国际象棋, AI创造力, 谜题生成, 专家评审, 反直觉

一句话总结

使用生成式神经网络(自回归Transformer、离散扩散、MaskGit)+强化学习生成国际象棋谜题,通过奖励函数筛选具有唯一解和反直觉性的谜题,并邀请三位世界级国际象棋专家评审AI生成谜题的创造力和美学品质。

背景与动机

  • 生成式AI的快速发展引发了对其创造力能力的重大问题
  • 国际象棋谜题是研究创造力的理想领域:有明确的解、可验证性强、有丰富的美学传统
  • 传统国际象棋作曲是高度创造性的人类活动,要求原创性、反直觉性和美学优雅
  • 之前的AI系统主要用于验证谜题正确性或从数据库中挖掘,而非从头生成新谜题
  • 需要评估:AI能否生成具有创造力特质(惊奇感、挑战性、美感)的国际象棋谜题

核心问题

AI系统能否生成具有美学吸引力、反直觉解法和创造性主题组合的国际象棋谜题?如何通过专家评审系统地评估这些谜题的创造力。

方法详解

谜题生成流程

第一阶段:训练生成模型

在 Lichess 的400万国际象棋谜题数据集上训练三种生成式神经网络: - 自回归Transformer:学习FEN(Forsyth-Edwards Notation)序列的字符级分布 - 离散扩散模型:通过去噪过程生成棋盘位置 - MaskGit:掩码生成方法

每个棋盘位置编码为FEN字符序列,模型学习 \(p(c_t | c_1, ..., c_{t-1})\),即在给定前序字符条件下预测下一个字符分布。

第二阶段:强化学习优化

定义两部分奖励函数:

\[R = R_{\text{unique}} + R_{\text{counter-intuitive}}\]
  • \(R_{\text{unique}}\):唯一性检查(类似Lichess标准),确保只有一步获胜着法
  • \(R_{\text{counter-intuitive}}\):反直觉性检查。满足条件:强引擎(如Stockfish高深度)能解出但弱引擎(低深度或评估分数降低的引擎)不能。即:
\[R_{\text{counter-intuitive}} = \begin{cases} 1 & \text{if 强引擎解出} \wedge \text{弱引擎解不出} \\ 0 & \text{otherwise} \end{cases}\]

使用最佳样本迭代训练网络,使其倾向生成高奖励谜题。

第三阶段:筛选与审美检测

  1. 生成约400万个棋盘位置
  2. 按奖励函数排名
  3. 使用主题检测器分类(牺牲、弱升变、攻击撤退、闷杀等)
  4. 对每个主题手动审查排名前50的样本(由FIDE 2200-2300级棋手验证)
  5. 编纂成小册子送专家评审

专家评审体系

三位世界级专家: - IM Amatzia Avni:国际象棋作曲国际大师,著有《Creative Chess》 - GM Jonathan Levitt:国际特级大师,著有《Secrets of Spectacular Chess》 - GM Matthew Sadler:国际特级大师,多次计算机辅助国际象棋分析

评审标准:创造力、挑战性、美学设计。各自独立选择最喜欢的谜题并撰写评语。

实验关键数据

生成与筛选统计

阶段 数量
训练数据(Lichess谜题) 400万
生成位置总数 ~400万
按奖励排名后进入主题检测 数万
每主题手动审查 前50
最终入选小册子 数十个

专家评审结果

谜题 Avni (AA) Levitt (JL) Sadler (MS) 全体认可
Puzzle 1 (双车弃子) 唯一全体一致
Puzzle 2 (反直觉计算)
Puzzle 3 (静着结合)
Puzzle 4 (弱升变)
Puzzle 5 (残局流畅)
Puzzle 6 (优雅残局)
Puzzle 7 (弱升变+闷杀)
Puzzle 8 (逼和陷阱)
Puzzle 9 (经典闷杀变奏)

唯一全体认可的Puzzle 1分析

起始局面:白方侵略性布子但国王暴露(f2)、皇后位置不佳(a7)。

关键着法:1. Rg6+! — "非正统"且"绝非自然或明显的弃子"(三位专家一致评价)

  • 同时弃掉两个车!打开a1-h8对角线
  • 后续 2. Qa1! 长距离皇后重新定位
    1. Qf6+ 展开不可阻挡的攻击
  • 悖论性:弃掉两个最活跃的车,为位置不佳的皇后创造渗透机会

亮点

  • ⭐ 首次系统地使用生成式AI从头合成国际象棋谜题并接受顶级专家评审,开创了AI-人类国际象棋作曲合作的先例
  • ⭐ 强化学习奖励设计巧妙:唯一性确保谜题有效,反直觉性(强引擎能解/弱引擎不能解)确保趣味性
  • ⭐ 专家评审结果真实可信:三位专家很少对同一谜题一致赞赏,反映了国际象棋美学的高度主观性
  • Puzzle 1 展示了AI生成内容中难得的全体共识——双车弃子+长距离皇后重定位的主题组合被誉为前所未见

局限性 / 可改进方向

  • 专家指出部分位置过于平庸(trivial),缺乏传统残局研究的深度和复杂性
  • 一些谜题的棋盘位置不够自然/现实(如一方棋子明显错位)
  • 目前筛选流程仍依赖大量手动审查(每主题top 50),自动化程度有限
  • 奖励函数设计偏向战术谜题,对策略性和位置性美感的捕捉不足
  • 专家建议增加更复杂的副线分析、更强的对手反击、更令人惊讶的主题组合
  • 未量化AI生成谜题与人类作曲家作品的系统差距

与相关工作的对比

方面 传统计算机国际象棋作曲 本文AI生成
方法 人类设计+引擎验证 神经网络生成+RL优化
美学来源 人类直觉与经验 从数据中学习+奖励塑造
验证方式 引擎验证正确性 强/弱引擎差异验证反直觉性
创造力水平 可达獲奖级别 "尚未达到获奖水平但展示了潜力"
产量 少量精品 大量生成后筛选

启发与关联

  • 奖励函数设计中"强引擎可解+弱引擎不可解"的反直觉性度量,可推广到其他需要评估创造力/难度的生成任务
  • 专家对同一谜题的分歧揭示了创造力评估的根本难题:美和创意是高度主观的
  • 从国际象棋推广到其他棋盘游戏、数学谜题、甚至科学发现生成是自然的下一步
  • 人机协作的模式(AI大量生成 → 人类专家筛选精品)在创造性任务中具有广泛适用性

评分

  • ⭐ 新颖性: 8/10 — AI生成国际象棋谜题+专家评审的框架是全新的,但技术方法(AR/Diffusion/RL)本身非创新
  • ⭐ 实验充分度: 7/10 — 专家评审有质量但规模有限(3位专家、约9个重点谜题),缺乏量化对比
  • ⭐ 写作质量: 9/10 — 谜题展示和专家评语的呈现方式极为出色,可读性极强
  • ⭐ 价值: 7/10 — 对AI创造力评估方法论有贡献,但直接技术贡献较轻量