跳转至

A Coherence-Based Measure of AGI

会议: AAAI 2026
arXiv: 2510.20784
代码: 暂无
领域: AI 评估 / AGI 度量
关键词: AGI评估, 广义均值, 一致性度量, 认知能力平衡, 非补偿性聚合

一句话总结

指出现有 AGI 评分用算术平均隐含"可补偿"假设(强项弥补弱项),提出基于广义均值连续谱的一致性度量 \(\text{AGI}_{\text{AUC}}\):在补偿性参数 \(p \in [-1, 1]\) 上积分,惩罚能力不均衡,暴露被算术平均掩盖的瓶颈。

研究背景与动机

  1. 现有 AGI 评分的根本问题:Hendrycks 等人基于 CHC(Cattell-Horn-Carroll)认知理论定义 AGI 分数为 10 个认知域得分的算术平均。GPT-4 = 27%,GPT-5 = 58%。但算术平均隐含补偿性假设——推理好可以弥补记忆差
  2. 心理测量学证据反对补偿性:CHC 理论强调认知能力相互依赖(推理依赖工作记忆,感知约束抽象),极端不均衡通常意味着功能障碍而非高智能
  3. 系统理论支持瓶颈效应:复杂系统的整体能力受最弱环节制约(limiting-factor dynamics),简单求和无法捕捉这一点
  4. 核心主张:通用智能应该是一致性充分(coherent sufficiency)——所有关键能力均衡达标,而非个别能力突出

方法详解

整体框架

用广义均值(power mean)族参数化补偿性程度,通过 AUC 积分得到稳健的一致性度量:

\[\text{AGI}_p = \begin{cases} \left(\frac{1}{n}\sum_{i=1}^n \max(s_i, \varepsilon)^p\right)^{1/p}, & p \neq 0 \\ \left(\prod_{i=1}^n \max(s_i, \varepsilon)\right)^{1/n}, & p = 0 \end{cases}\]
\[\text{AGI}_{\text{AUC}} = \frac{1}{p_{\max} - p_{\min}} \int_{p_{\min}}^{p_{\max}} \text{AGI}_p \, dp\]

关键设计

  • 补偿性指数 \(p\) 的语义\(p=1\)(算术平均,强补偿)→ \(p=0\)(几何平均,中度非补偿)→ \(p=-1\)(调和平均,强非补偿)→ \(p \to -\infty\)(最小值,严格瓶颈)
  • \(\text{AGI}_p\) 曲线:横轴为 \(p\),纵轴为得分。曲线越平坦越高 = 能力越均衡。GPT-5 的曲线在 \(p < 0\) 急剧下降 → 暴露记忆/感知等瓶颈
  • AUC 汇总\(p \in [-1, 1]\) 上积分,综合衡量模型在不同补偿性假设下的稳健性
  • 稳定性常数\(\varepsilon = 10^{-6}\),防止某维度为 0 时广义均值崩溃

损失函数 / 训练策略

本文不涉及模型训练,是纯评估框架。数值积分用复合梯形法则在 \(p\) 的均匀网格上计算。

实验关键数据

CHC 域评分分析(GPT-4 / GPT-5 / 理想 AGI)

模型 \(\text{AGI}_1\)(算术平均) \(\text{AGI}_{0.5}\) \(\text{AGI}_0\)(几何均) \(\text{AGI}_{-0.5}\) \(\text{AGI}_{-1}\)(调和均) \(\text{AGI}_{\text{AUC}}\)(本文)
GPT-4 27% 16% ≈0% ≈0% ≈0% 7%
GPT-5 58% 50% 16% ≈0% ≈0% 24%
理想 AGI 100% 100% 100% 100% 100% 100%

GPT-4/5 十域得分明细

知识 读写 数学 推理 工作记忆 长期记忆存储 长期记忆检索 视觉 听觉 速度
GPT-4 80 60 40 0 20 0 40 0 0 30
GPT-5 90 100 100 70 50 0 40 40 60 30

关键发现

  • 算术平均严重高估 AGI 进展:GPT-5 的 \(\text{AGI}_1 = 58\%\) 给人"已过半"的错觉,但 \(\text{AGI}_{\text{AUC}} = 24\%\) 才更接近真实水平
  • 零分域导致几何/调和均值崩溃:GPT-5 长期记忆存储 = 0%,使得 \(\text{AGI}_0 = 16\%\)\(\text{AGI}_{-1} \approx 0\%\)
  • 与外部基准一致\(\text{AGI}_{\text{AUC}} = 24\%\)(GPT-5)与 ARC-AGI-2 的 18% 更接近,而非算术平均的 58%
  • "GPT-6" 模拟实验:仅将 GPT-5 最弱域(长期记忆存储)从 0% 提升到 30%,\(\text{AGI}_{\text{AUC}}\) 就显著提升 → 修补瓶颈的收益远大于拉高强项
  • 17 基准扩展验证:在 Gemini 3 Pro、GPT-5.1、Claude Sonnet 4.5 等模型上用 17 个异质基准重复分析,一致性模式与 CHC 域分析完全一致

亮点与洞察

  1. 概念贡献最大:将"补偿性"作为 AGI 评估的核心问题提出,是此前被忽视的根本假设
  2. "GPT-6" 思想实验精彩:仅修补最弱域就能获得不成比例的一致性提升,直观说明瓶颈修补的杠杆效应
  3. 广义均值连续谱是优雅的数学工具:从完全补偿 (\(p=1\)) 到严格瓶颈 (\(p \to -\infty\)) 的连续过渡,\(\text{AGI}_p\) 曲线本身就是诊断工具
  4. 实际影响:如果 AGI 社区采用 \(\text{AGI}_{\text{AUC}}\),模型开发将更注重补齐短板而非拉高强项
  5. 框架无关性:不依赖特定基准体系,任何评分集合均可用此框架聚合
  6. 与 ARC-AGI-2 和 BIG-Bench Hard 的一致性验证了 AUC 比算术平均更忠实地反映模型的功能性一致性

局限性 / 可改进方向

  • 依赖域得分质量:CHC 域得分本身的归一化和估计也存在偏差(论文在附录中讨论了子域膨胀问题)
  • \(p\) 范围选择主观\([-1, 1]\) 是经验选择,\([-2, 1]\)\([-0.5, 1]\) 会产生不同结果
  • \(\varepsilon\) 处理零值:零分域用 \(10^{-6}\) 替代在数学上合理,但语义上"某能力为零"本身就应使 AGI 分数为零
  • 纯评估框架:不提供如何提升弱项的技术方案,仅揭示问题
  • 域权重未讨论:10 个认知域等权重处理,未考虑不同认知能力对"通用智能"的贡献差异
  • 时间维度缺失:当前框架是静态快照式评估,未捕捉模型在持续学习/遗忘中的一致性变化
  • 多模型对比有限:CHC 域分析仅含 GPT-4/5 两个模型,更多模型对比(如 Claude、Gemini)会更有说服力

相关工作与启发

  • Hendrycks et al. (2025):首个心理测量学 AGI 定义,10 域算术平均,本文直接改进此框架
  • Chollet (ARC-AGI):强调 OOD 推理和抽象能力,与本文的非补偿性理念一致
  • 多准则决策理论(Keeney & Raiffa):非补偿性聚合的理论基础
  • 系统理论中的瓶颈效应(Kitano):系统性能受最弱组件制约
  • BIG-Bench Hard:GPT-4 在此基准上约 6%,与 \(\text{AGI}_{\text{AUC}} = 7\%\) 高度一致,而非算术平均的 27%
  • Gemini 3 Pro Model Evaluation Report:论文用其中 17 个基准做扩展验证,证明框架的通用性
  • 核心启发:评估指标的设计本身就包含对"能力本质"的假设,选择聚合函数就是选择智能观

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次系统化地将补偿性问题引入 AGI 评估
  • 实验充分度: ⭐⭐⭐⭐ CHC 域 + 17 基准双重验证,但依赖外部数据无自有实验
  • 写作质量: ⭐⭐⭐⭐⭐ 数学优雅、论证严密、讨论深入
  • 对我的价值: ⭐⭐⭐⭐ 评估框架设计思路可借鉴,广义均值聚合适用于多任务评估