Skip to content
Go back 2503.16743 arXiv logo

SuperARC: An Agnostic Test for Narrow, General, and Super Intelligence Based On the Principles of Recursive Compression and Algorithmic Probability

Published:  at  04:26 PM
54.84 🤔

本文提出SuperARC测试框架,通过算法概率和Kolmogorov复杂度的原理,设计了一个客观的AGI和ASI评估方法,证明递归压缩等价于预测,并展示了LLMs的局限性。

Reasoning, Prediction, Planning, Representation Learning, Large Language Model, AI Ethics

Alberto Hernández-Espinosa, Luan Ozelim, Felipe S. Abrahão, Hector Zenil

Oxford University, London Institute for Healthcare Engineering, Karolinska Institute, King’s College London, University of Campinas, National Laboratory for Scientific Computing

Generated by grok-3-mini-latest

Background Problem

本研究的出发点是针对人工智能(AI)领域的AGI(人工通用智能)和ASI(超级智能)评估需求,提出一个基于算法概率的客观定量测试,以避免基准测试污染和人类中心偏见。论文指出,现有测试(如基于人类IQ测试或Turing测试)往往依赖统计压缩方法(如GZIP或LZW),这些方法更接近Shannon熵而非Kolmogorov复杂度,无法有效测试AI的根本智能特征,如合成、模型创建和逆问题求解。LLMs(大型语言模型)被批评为主要依赖记忆和统计模式匹配,而非批判性思考或一般智能,因此需要一个框架来评估AI的抽象、预测和规划能力,以揭示其在AGI和ASI方面的局限性。

Method

Experiment

Further Thoughts

本文的灵感在于算法概率与Kolmogorov复杂度的等价性,这不仅适用于AI测试,还可扩展到其他领域,如生物信息学中的模式识别或医疗诊断中的因果推理;与ARC挑战类似,SuperARC强调动态生成测试以避免数据泄漏,这启发未来AI基准应整合符号计算与统计方法,实现更鲁棒的泛化;此外,BDM/CTM的神经符号方法可能与深度学习模型结合,提升LLMs的因果推理能力,但需注意计算开销;从进化角度看,这种框架可用于模拟自然选择过程,探索智能的演化机制。



Previous Post
CachePrune: Neural-Based Attribution Defense Against Indirect Prompt Injection Attacks
Next Post
Synergizing RAG and Reasoning: A Systematic Review