A Coherence-Based Measure of AGI¶
会议: AAAI 2026
arXiv: 2510.20784
代码: 暂无
领域: AI 评估 / AGI 度量
关键词: AGI评估, 广义均值, 一致性度量, 认知能力平衡, 非补偿性聚合
一句话总结¶
指出现有 AGI 评分用算术平均隐含"可补偿"假设(强项弥补弱项),提出基于广义均值连续谱的一致性度量 \(\text{AGI}_{\text{AUC}}\):在补偿性参数 \(p \in [-1, 1]\) 上积分,惩罚能力不均衡,暴露被算术平均掩盖的瓶颈。
研究背景与动机¶
- 现有 AGI 评分的根本问题:Hendrycks 等人基于 CHC(Cattell-Horn-Carroll)认知理论定义 AGI 分数为 10 个认知域得分的算术平均。GPT-4 = 27%,GPT-5 = 58%。但算术平均隐含补偿性假设——推理好可以弥补记忆差
- 心理测量学证据反对补偿性:CHC 理论强调认知能力相互依赖(推理依赖工作记忆,感知约束抽象),极端不均衡通常意味着功能障碍而非高智能
- 系统理论支持瓶颈效应:复杂系统的整体能力受最弱环节制约(limiting-factor dynamics),简单求和无法捕捉这一点
- 核心主张:通用智能应该是一致性充分(coherent sufficiency)——所有关键能力均衡达标,而非个别能力突出
方法详解¶
整体框架¶
用广义均值(power mean)族参数化补偿性程度,通过 AUC 积分得到稳健的一致性度量:
\[\text{AGI}_p = \begin{cases} \left(\frac{1}{n}\sum_{i=1}^n \max(s_i, \varepsilon)^p\right)^{1/p}, & p \neq 0 \\ \left(\prod_{i=1}^n \max(s_i, \varepsilon)\right)^{1/n}, & p = 0 \end{cases}\]
\[\text{AGI}_{\text{AUC}} = \frac{1}{p_{\max} - p_{\min}} \int_{p_{\min}}^{p_{\max}} \text{AGI}_p \, dp\]
关键设计¶
- 补偿性指数 \(p\) 的语义:\(p=1\)(算术平均,强补偿)→ \(p=0\)(几何平均,中度非补偿)→ \(p=-1\)(调和平均,强非补偿)→ \(p \to -\infty\)(最小值,严格瓶颈)
- \(\text{AGI}_p\) 曲线:横轴为 \(p\),纵轴为得分。曲线越平坦越高 = 能力越均衡。GPT-5 的曲线在 \(p < 0\) 急剧下降 → 暴露记忆/感知等瓶颈
- AUC 汇总:\(p \in [-1, 1]\) 上积分,综合衡量模型在不同补偿性假设下的稳健性
- 稳定性常数:\(\varepsilon = 10^{-6}\),防止某维度为 0 时广义均值崩溃
损失函数 / 训练策略¶
本文不涉及模型训练,是纯评估框架。数值积分用复合梯形法则在 \(p\) 的均匀网格上计算。
实验关键数据¶
CHC 域评分分析(GPT-4 / GPT-5 / 理想 AGI)¶
| 模型 | \(\text{AGI}_1\)(算术平均) | \(\text{AGI}_{0.5}\) | \(\text{AGI}_0\)(几何均) | \(\text{AGI}_{-0.5}\) | \(\text{AGI}_{-1}\)(调和均) | \(\text{AGI}_{\text{AUC}}\)(本文) |
|---|---|---|---|---|---|---|
| GPT-4 | 27% | 16% | ≈0% | ≈0% | ≈0% | 7% |
| GPT-5 | 58% | 50% | 16% | ≈0% | ≈0% | 24% |
| 理想 AGI | 100% | 100% | 100% | 100% | 100% | 100% |
GPT-4/5 十域得分明细¶
| 域 | 知识 | 读写 | 数学 | 推理 | 工作记忆 | 长期记忆存储 | 长期记忆检索 | 视觉 | 听觉 | 速度 |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT-4 | 80 | 60 | 40 | 0 | 20 | 0 | 40 | 0 | 0 | 30 |
| GPT-5 | 90 | 100 | 100 | 70 | 50 | 0 | 40 | 40 | 60 | 30 |
关键发现¶
- 算术平均严重高估 AGI 进展:GPT-5 的 \(\text{AGI}_1 = 58\%\) 给人"已过半"的错觉,但 \(\text{AGI}_{\text{AUC}} = 24\%\) 才更接近真实水平
- 零分域导致几何/调和均值崩溃:GPT-5 长期记忆存储 = 0%,使得 \(\text{AGI}_0 = 16\%\),\(\text{AGI}_{-1} \approx 0\%\)
- 与外部基准一致:\(\text{AGI}_{\text{AUC}} = 24\%\)(GPT-5)与 ARC-AGI-2 的 18% 更接近,而非算术平均的 58%
- "GPT-6" 模拟实验:仅将 GPT-5 最弱域(长期记忆存储)从 0% 提升到 30%,\(\text{AGI}_{\text{AUC}}\) 就显著提升 → 修补瓶颈的收益远大于拉高强项
- 17 基准扩展验证:在 Gemini 3 Pro、GPT-5.1、Claude Sonnet 4.5 等模型上用 17 个异质基准重复分析,一致性模式与 CHC 域分析完全一致
亮点与洞察¶
- 概念贡献最大:将"补偿性"作为 AGI 评估的核心问题提出,是此前被忽视的根本假设
- "GPT-6" 思想实验精彩:仅修补最弱域就能获得不成比例的一致性提升,直观说明瓶颈修补的杠杆效应
- 广义均值连续谱是优雅的数学工具:从完全补偿 (\(p=1\)) 到严格瓶颈 (\(p \to -\infty\)) 的连续过渡,\(\text{AGI}_p\) 曲线本身就是诊断工具
- 实际影响:如果 AGI 社区采用 \(\text{AGI}_{\text{AUC}}\),模型开发将更注重补齐短板而非拉高强项
- 框架无关性:不依赖特定基准体系,任何评分集合均可用此框架聚合
- 与 ARC-AGI-2 和 BIG-Bench Hard 的一致性验证了 AUC 比算术平均更忠实地反映模型的功能性一致性
局限性 / 可改进方向¶
- 依赖域得分质量:CHC 域得分本身的归一化和估计也存在偏差(论文在附录中讨论了子域膨胀问题)
- \(p\) 范围选择主观:\([-1, 1]\) 是经验选择,\([-2, 1]\) 或 \([-0.5, 1]\) 会产生不同结果
- \(\varepsilon\) 处理零值:零分域用 \(10^{-6}\) 替代在数学上合理,但语义上"某能力为零"本身就应使 AGI 分数为零
- 纯评估框架:不提供如何提升弱项的技术方案,仅揭示问题
- 域权重未讨论:10 个认知域等权重处理,未考虑不同认知能力对"通用智能"的贡献差异
- 时间维度缺失:当前框架是静态快照式评估,未捕捉模型在持续学习/遗忘中的一致性变化
- 多模型对比有限:CHC 域分析仅含 GPT-4/5 两个模型,更多模型对比(如 Claude、Gemini)会更有说服力
相关工作与启发¶
- Hendrycks et al. (2025):首个心理测量学 AGI 定义,10 域算术平均,本文直接改进此框架
- Chollet (ARC-AGI):强调 OOD 推理和抽象能力,与本文的非补偿性理念一致
- 多准则决策理论(Keeney & Raiffa):非补偿性聚合的理论基础
- 系统理论中的瓶颈效应(Kitano):系统性能受最弱组件制约
- BIG-Bench Hard:GPT-4 在此基准上约 6%,与 \(\text{AGI}_{\text{AUC}} = 7\%\) 高度一致,而非算术平均的 27%
- Gemini 3 Pro Model Evaluation Report:论文用其中 17 个基准做扩展验证,证明框架的通用性
- 核心启发:评估指标的设计本身就包含对"能力本质"的假设,选择聚合函数就是选择智能观
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次系统化地将补偿性问题引入 AGI 评估
- 实验充分度: ⭐⭐⭐⭐ CHC 域 + 17 基准双重验证,但依赖外部数据无自有实验
- 写作质量: ⭐⭐⭐⭐⭐ 数学优雅、论证严密、讨论深入
- 对我的价值: ⭐⭐⭐⭐ 评估框架设计思路可借鉴,广义均值聚合适用于多任务评估