📰 新闻2026年5月3日

ARC-AGI-3分析揭示：GPT-5.5与Opus 4.7仍存在三大系统性推理错误，正确率低于1%

ARC Prize基金会分析160轮测试，发现顶级模型在ARC-AGI-3上存在三大系统性错误模式，正确率不足1%

来源：The Decoder / llm-stats.com · 查看原文 →

ARC Prize基金会对OpenAI GPT-5.5和Anthropic Claude Opus 4.7在ARC-AGI-3基准上的160轮测试进行了深度分析，揭示两大顶级模型均存在三大系统性推理错误模式，导致正确率均低于1%。ARC-AGI-3是评估通用人工智能抽象推理能力的核心基准，要求模型从少量示例中归纳出视觉模式规则并应用于新场景。研究发现，模型在三个方面反复出错：一是过度依赖表面相似性而忽略深层结构规则；二是在需要多步组合推理时频繁中断或跳步；三是对规则边界的泛化能力不足，面对与训练示例稍有变化的输入即失效。分析指出，这些错误并非随机出现，而是高度系统性的，暗示当前大模型在真正的抽象推理方面仍存在根本性瓶颈。这一发现对AI行业追求通用智能的目标提出了严肃挑战。

发布于 2026年5月3日 · 更新于 2026年5月3日