SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability

本文提出SuperARC测试框架，通过算法概率和Kolmogorov复杂度的原理，设计了一个客观的AGI和ASI评估方法，证明递归压缩等价于预测，并展示了LLMs的局限性。

Reasoning, Prediction, Planning, Representation Learning, Large Language Model, AI Ethics

Alberto Hernández-Espinosa, Luan Ozelim, Felipe S. Abrahão, Hector Zenil

Oxford University, London Institute for Healthcare Engineering, Karolinska Institute, King’s College London, University of Campinas, National Laboratory for Scientific Computing

Generated by grok-3-mini-latest

Background Problem

本研究的出发点是针对人工智能（AI）领域的AGI（人工通用智能）和ASI（超级智能）评估需求，提出一个基于算法概率的客观定量测试，以避免基准测试污染和人类中心偏见。论文指出，现有测试（如基于人类IQ测试或Turing测试）往往依赖统计压缩方法（如GZIP或LZW），这些方法更接近Shannon熵而非Kolmogorov复杂度，无法有效测试AI的根本智能特征，如合成、模型创建和逆问题求解。LLMs（大型语言模型）被批评为主要依赖记忆和统计模式匹配，而非批判性思考或一般智能，因此需要一个框架来评估AI的抽象、预测和规划能力，以揭示其在AGI和ASI方面的局限性。

Method

核心思想: 本文提出SuperARC框架，利用算法信息理论（AIT）的原理，包括算法概率和Kolmogorov复杂度，定义智能为创建可计算模型的能力，以尽可能无损地解释数据，并通过递归压缩和预测来量化智能。核心是证明压缩与预测等价，即系统能更好地压缩数据，就能更好地预测，反之亦然。
实现方式: 使用块分解方法（BDM）和编码定理方法（CTM）来近似算法复杂度。BDM将对象分解为小块，计算每个块的CTM复杂度，并结合Shannon熵修正因子；CTM基于算法概率估计算法复杂度。测试框架包括生成模型或程序来重现序列，并评估压缩和预测能力。公式为： $\text{BDM}(x) = \sum_{i=1}^{n} \text{CTM}(x_i) + \log m_i$ ，其中CTM基于算法概率近似局部复杂度。SuperARC测试通过动态生成序列，避免固定数据集的泄漏问题。
主要步骤: (1) 编码输入数据；(2) 使用代理模型生成序列；(3) 评估压缩和预测性能；(4) 比较LLMs与BDM/CTM方法的表现。

Experiment

数据集和设置: 使用二进制和整数序列，分为低、中、高复杂度组。实验包括下一位数字预测、自由形式生成和代码生成任务。LLMs（如GPT-4o、Claude 3.5 Sonnet等）被测试其在不同复杂度的序列上的性能，比较指标包括准确率、压缩率、相似度（如Levenshtein距离）。设置合理全面，因为它动态生成序列以避免基准污染，并使用多种模型和指标验证。
为什么这样设计: 目的是测试AI的抽象和预测能力，而非记忆。BDM/CTM作为基准，证明其在复杂序列上的优越性。实验验证了压缩与预测的等价性，并暴露LLMs的局限性，如依赖模式匹配而非因果推理。
结果和预期匹配: LLMs在简单序列上表现良好，但复杂度增加时准确率下降，倾向于简单输出（如打印序列），而BDM/CTM在预测和压缩上优于LLMs，符合预期，证明LLMs缺乏真正智能。

Further Thoughts

本文的灵感在于算法概率与Kolmogorov复杂度的等价性，这不仅适用于AI测试，还可扩展到其他领域，如生物信息学中的模式识别或医疗诊断中的因果推理；与ARC挑战类似，SuperARC强调动态生成测试以避免数据泄漏，这启发未来AI基准应整合符号计算与统计方法，实现更鲁棒的泛化；此外，BDM/CTM的神经符号方法可能与深度学习模型结合，提升LLMs的因果推理能力，但需注意计算开销；从进化角度看，这种框架可用于模拟自然选择过程，探索智能的演化机制。