Evaluating In Silico Creativity: An Expert Review of AI Chess Compositions¶

会议: NeurIPS 2025
arXiv: 2510.23772
代码: 无
领域: AI创造力 / 生成式AI
关键词: 国际象棋, AI创造力, 谜题生成, 专家评审, 反直觉

一句话总结¶

使用生成式神经网络（自回归Transformer、离散扩散、MaskGit）+强化学习生成国际象棋谜题，通过奖励函数筛选具有唯一解和反直觉性的谜题，并邀请三位世界级国际象棋专家评审AI生成谜题的创造力和美学品质。

背景与动机¶

生成式AI的快速发展引发了对其创造力能力的重大问题
国际象棋谜题是研究创造力的理想领域：有明确的解、可验证性强、有丰富的美学传统
传统国际象棋作曲是高度创造性的人类活动，要求原创性、反直觉性和美学优雅
之前的AI系统主要用于验证谜题正确性或从数据库中挖掘，而非从头生成新谜题
需要评估：AI能否生成具有创造力特质（惊奇感、挑战性、美感）的国际象棋谜题

核心问题¶

AI系统能否生成具有美学吸引力、反直觉解法和创造性主题组合的国际象棋谜题？如何通过专家评审系统地评估这些谜题的创造力。

方法详解¶

谜题生成流程¶

第一阶段：训练生成模型

在 Lichess 的400万国际象棋谜题数据集上训练三种生成式神经网络： - 自回归Transformer：学习FEN（Forsyth-Edwards Notation）序列的字符级分布 - 离散扩散模型：通过去噪过程生成棋盘位置 - MaskGit：掩码生成方法

每个棋盘位置编码为FEN字符序列，模型学习 \(p(c_t | c_1, ..., c_{t-1})\)，即在给定前序字符条件下预测下一个字符分布。

第二阶段：强化学习优化

定义两部分奖励函数：

\[R = R_{\text{unique}} + R_{\text{counter-intuitive}}\]

\(R_{\text{unique}}\)：唯一性检查（类似Lichess标准），确保只有一步获胜着法
\(R_{\text{counter-intuitive}}\)：反直觉性检查。满足条件：强引擎（如Stockfish高深度）能解出但弱引擎（低深度或评估分数降低的引擎）不能。即：

\[R_{\text{counter-intuitive}} = \begin{cases} 1 & \text{if 强引擎解出} \wedge \text{弱引擎解不出} \\ 0 & \text{otherwise} \end{cases}\]

使用最佳样本迭代训练网络，使其倾向生成高奖励谜题。

第三阶段：筛选与审美检测

生成约400万个棋盘位置
按奖励函数排名
使用主题检测器分类（牺牲、弱升变、攻击撤退、闷杀等）
对每个主题手动审查排名前50的样本（由FIDE 2200-2300级棋手验证）
编纂成小册子送专家评审

专家评审体系¶

三位世界级专家： - IM Amatzia Avni：国际象棋作曲国际大师，著有《Creative Chess》 - GM Jonathan Levitt：国际特级大师，著有《Secrets of Spectacular Chess》 - GM Matthew Sadler：国际特级大师，多次计算机辅助国际象棋分析

评审标准：创造力、挑战性、美学设计。各自独立选择最喜欢的谜题并撰写评语。

实验关键数据¶

生成与筛选统计¶

阶段	数量
训练数据（Lichess谜题）	400万
生成位置总数	~400万
按奖励排名后进入主题检测	数万
每主题手动审查	前50
最终入选小册子	数十个

专家评审结果¶

谜题	Avni (AA)	Levitt (JL)	Sadler (MS)	全体认可
Puzzle 1 (双车弃子)	✓	✓	✓	唯一全体一致
Puzzle 2 (反直觉计算)	✓
Puzzle 3 (静着结合)	✓
Puzzle 4 (弱升变)	✓
Puzzle 5 (残局流畅)		✓
Puzzle 6 (优雅残局)		✓
Puzzle 7 (弱升变+闷杀)			✓
Puzzle 8 (逼和陷阱)			✓
Puzzle 9 (经典闷杀变奏)			✓

唯一全体认可的Puzzle 1分析¶

起始局面：白方侵略性布子但国王暴露(f2)、皇后位置不佳(a7)。

关键着法：1. Rg6+! — "非正统"且"绝非自然或明显的弃子"（三位专家一致评价）

同时弃掉两个车！打开a1-h8对角线
后续 2. Qa1! 长距离皇后重新定位
1. Qf6+ 展开不可阻挡的攻击
悖论性：弃掉两个最活跃的车，为位置不佳的皇后创造渗透机会

亮点¶

⭐ 首次系统地使用生成式AI从头合成国际象棋谜题并接受顶级专家评审，开创了AI-人类国际象棋作曲合作的先例
⭐ 强化学习奖励设计巧妙：唯一性确保谜题有效，反直觉性（强引擎能解/弱引擎不能解）确保趣味性
⭐ 专家评审结果真实可信：三位专家很少对同一谜题一致赞赏，反映了国际象棋美学的高度主观性
Puzzle 1 展示了AI生成内容中难得的全体共识——双车弃子+长距离皇后重定位的主题组合被誉为前所未见

局限性 / 可改进方向¶

专家指出部分位置过于平庸（trivial），缺乏传统残局研究的深度和复杂性
一些谜题的棋盘位置不够自然/现实（如一方棋子明显错位）
目前筛选流程仍依赖大量手动审查（每主题top 50），自动化程度有限
奖励函数设计偏向战术谜题，对策略性和位置性美感的捕捉不足
专家建议增加更复杂的副线分析、更强的对手反击、更令人惊讶的主题组合
未量化AI生成谜题与人类作曲家作品的系统差距

与相关工作的对比¶

方面	传统计算机国际象棋作曲	本文AI生成
方法	人类设计+引擎验证	神经网络生成+RL优化
美学来源	人类直觉与经验	从数据中学习+奖励塑造
验证方式	引擎验证正确性	强/弱引擎差异验证反直觉性
创造力水平	可达獲奖级别	"尚未达到获奖水平但展示了潜力"
产量	少量精品	大量生成后筛选

启发与关联¶

奖励函数设计中"强引擎可解+弱引擎不可解"的反直觉性度量，可推广到其他需要评估创造力/难度的生成任务
专家对同一谜题的分歧揭示了创造力评估的根本难题：美和创意是高度主观的
从国际象棋推广到其他棋盘游戏、数学谜题、甚至科学发现生成是自然的下一步
人机协作的模式（AI大量生成 → 人类专家筛选精品）在创造性任务中具有广泛适用性

评分¶

⭐ 新颖性: 8/10 — AI生成国际象棋谜题+专家评审的框架是全新的，但技术方法（AR/Diffusion/RL）本身非创新
⭐ 实验充分度: 7/10 — 专家评审有质量但规模有限（3位专家、约9个重点谜题），缺乏量化对比
⭐ 写作质量: 9/10 — 谜题展示和专家评语的呈现方式极为出色，可读性极强
⭐ 价值: 7/10 — 对AI创造力评估方法论有贡献，但直接技术贡献较轻量