📰 新闻2026年5月3日
ARC-AGI-3分析揭示:GPT-5.5与Opus 4.7仍存在三大系统性推理错误,正确率低于1%
ARC Prize基金会分析160轮测试,发现顶级模型在ARC-AGI-3上存在三大系统性错误模式,正确率不足1%
来源:The Decoder / llm-stats.com · 查看原文 →
ARC Prize基金会对OpenAI GPT-5.5和Anthropic Claude Opus 4.7在ARC-AGI-3基准上的160轮测试进行了深度分析,揭示两大顶级模型均存在三大系统性推理错误模式,导致正确率均低于1%。ARC-AGI-3是评估通用人工智能抽象推理能力的核心基准,要求模型从少量示例中归纳出视觉模式规则并应用于新场景。研究发现,模型在三个方面反复出错:一是过度依赖表面相似性而忽略深层结构规则;二是在需要多步组合推理时频繁中断或跳步;三是对规则边界的泛化能力不足,面对与训练示例稍有变化的输入即失效。分析指出,这些错误并非随机出现,而是高度系统性的,暗示当前大模型在真正的抽象推理方面仍存在根本性瓶颈。这一发现对AI行业追求通用智能的目标提出了严肃挑战。
发布于 2026年5月3日 · 更新于 2026年5月3日