A Coherence-Based Measure of AGI¶

会议: AAAI 2026
arXiv: 2510.20784
代码: 暂无
领域: AI 评估 / AGI 度量
关键词: AGI评估, 广义均值, 一致性度量, 认知能力平衡, 非补偿性聚合

一句话总结¶

指出现有 AGI 评分用算术平均隐含"可补偿"假设（强项弥补弱项），提出基于广义均值连续谱的一致性度量 \(\text{AGI}_{\text{AUC}}\)：在补偿性参数 \(p \in [-1, 1]\) 上积分，惩罚能力不均衡，暴露被算术平均掩盖的瓶颈。

研究背景与动机¶

现有 AGI 评分的根本问题：Hendrycks 等人基于 CHC（Cattell-Horn-Carroll）认知理论定义 AGI 分数为 10 个认知域得分的算术平均。GPT-4 = 27%，GPT-5 = 58%。但算术平均隐含补偿性假设——推理好可以弥补记忆差
心理测量学证据反对补偿性：CHC 理论强调认知能力相互依赖（推理依赖工作记忆，感知约束抽象），极端不均衡通常意味着功能障碍而非高智能
系统理论支持瓶颈效应：复杂系统的整体能力受最弱环节制约（limiting-factor dynamics），简单求和无法捕捉这一点
核心主张：通用智能应该是一致性充分（coherent sufficiency）——所有关键能力均衡达标，而非个别能力突出

方法详解¶

整体框架¶

用广义均值（power mean）族参数化补偿性程度，通过 AUC 积分得到稳健的一致性度量：

\[\text{AGI}_p = \begin{cases} \left(\frac{1}{n}\sum_{i=1}^n \max(s_i, \varepsilon)^p\right)^{1/p}, & p \neq 0 \\ \left(\prod_{i=1}^n \max(s_i, \varepsilon)\right)^{1/n}, & p = 0 \end{cases}\]

\[\text{AGI}_{\text{AUC}} = \frac{1}{p_{\max} - p_{\min}} \int_{p_{\min}}^{p_{\max}} \text{AGI}_p \, dp\]

关键设计¶

补偿性指数 \(p\) 的语义：\(p=1\)（算术平均，强补偿）→ \(p=0\)（几何平均，中度非补偿）→ \(p=-1\)（调和平均，强非补偿）→ \(p \to -\infty\)（最小值，严格瓶颈）
\(\text{AGI}_p\) 曲线：横轴为 \(p\)，纵轴为得分。曲线越平坦越高 = 能力越均衡。GPT-5 的曲线在 \(p < 0\) 急剧下降 → 暴露记忆/感知等瓶颈
AUC 汇总：\(p \in [-1, 1]\) 上积分，综合衡量模型在不同补偿性假设下的稳健性
稳定性常数：\(\varepsilon = 10^{-6}\)，防止某维度为 0 时广义均值崩溃

损失函数 / 训练策略¶

本文不涉及模型训练，是纯评估框架。数值积分用复合梯形法则在 \(p\) 的均匀网格上计算。

实验关键数据¶

CHC 域评分分析（GPT-4 / GPT-5 / 理想 AGI）¶

模型	\(\text{AGI}_1\)（算术平均）	\(\text{AGI}_{0.5}\)	\(\text{AGI}_0\)（几何均）	\(\text{AGI}_{-0.5}\)	\(\text{AGI}_{-1}\)（调和均）	\(\text{AGI}_{\text{AUC}}\)（本文）
GPT-4	27%	16%	≈0%	≈0%	≈0%	7%
GPT-5	58%	50%	16%	≈0%	≈0%	24%
理想 AGI	100%	100%	100%	100%	100%	100%

GPT-4/5 十域得分明细¶

域	知识	读写	数学	推理	工作记忆	长期记忆存储	长期记忆检索	视觉	听觉	速度
GPT-4	80	60	40	0	20	0	40	0	0	30
GPT-5	90	100	100	70	50	0	40	40	60	30

关键发现¶

算术平均严重高估 AGI 进展：GPT-5 的 \(\text{AGI}_1 = 58\%\) 给人"已过半"的错觉，但 \(\text{AGI}_{\text{AUC}} = 24\%\) 才更接近真实水平
零分域导致几何/调和均值崩溃：GPT-5 长期记忆存储 = 0%，使得 \(\text{AGI}_0 = 16\%\)，\(\text{AGI}_{-1} \approx 0\%\)
与外部基准一致：\(\text{AGI}_{\text{AUC}} = 24\%\)（GPT-5）与 ARC-AGI-2 的 18% 更接近，而非算术平均的 58%
"GPT-6" 模拟实验：仅将 GPT-5 最弱域（长期记忆存储）从 0% 提升到 30%，\(\text{AGI}_{\text{AUC}}\) 就显著提升 → 修补瓶颈的收益远大于拉高强项
17 基准扩展验证：在 Gemini 3 Pro、GPT-5.1、Claude Sonnet 4.5 等模型上用 17 个异质基准重复分析，一致性模式与 CHC 域分析完全一致

亮点与洞察¶

概念贡献最大：将"补偿性"作为 AGI 评估的核心问题提出，是此前被忽视的根本假设
"GPT-6" 思想实验精彩：仅修补最弱域就能获得不成比例的一致性提升，直观说明瓶颈修补的杠杆效应
广义均值连续谱是优雅的数学工具：从完全补偿 (\(p=1\)) 到严格瓶颈 (\(p \to -\infty\)) 的连续过渡，\(\text{AGI}_p\) 曲线本身就是诊断工具
实际影响：如果 AGI 社区采用 \(\text{AGI}_{\text{AUC}}\)，模型开发将更注重补齐短板而非拉高强项
框架无关性：不依赖特定基准体系，任何评分集合均可用此框架聚合
与 ARC-AGI-2 和 BIG-Bench Hard 的一致性验证了 AUC 比算术平均更忠实地反映模型的功能性一致性

局限性 / 可改进方向¶

依赖域得分质量：CHC 域得分本身的归一化和估计也存在偏差（论文在附录中讨论了子域膨胀问题）
\(p\) 范围选择主观：\([-1, 1]\) 是经验选择，\([-2, 1]\) 或 \([-0.5, 1]\) 会产生不同结果
\(\varepsilon\) 处理零值：零分域用 \(10^{-6}\) 替代在数学上合理，但语义上"某能力为零"本身就应使 AGI 分数为零
纯评估框架：不提供如何提升弱项的技术方案，仅揭示问题
域权重未讨论：10 个认知域等权重处理，未考虑不同认知能力对"通用智能"的贡献差异
时间维度缺失：当前框架是静态快照式评估，未捕捉模型在持续学习/遗忘中的一致性变化
多模型对比有限：CHC 域分析仅含 GPT-4/5 两个模型，更多模型对比（如 Claude、Gemini）会更有说服力

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统化地将补偿性问题引入 AGI 评估
实验充分度: ⭐⭐⭐⭐ CHC 域 + 17 基准双重验证，但依赖外部数据无自有实验
写作质量: ⭐⭐⭐⭐⭐ 数学优雅、论证严密、讨论深入
对我的价值: ⭐⭐⭐⭐ 评估框架设计思路可借鉴，广义均值聚合适用于多任务评估