快人一步,尽晓币圈事
2026-03-26 18:58
查看原文ChainThink 消息,2026年3月26日,据1M AI News监测,由Keras创始人François Chollet与Zapier联合创始人Mike Knoop创办的非营利机构ARC Prize基金会发布ARC-AGI-3基准测试。
与前两代静态网格推理任务不同,ARC-AGI-3为交互式回合制环境,Agent在64×64、16色的网格世界中行动,无预设指令或目标提示,需自主探索环境、推断规则与胜利条件、构建世界模型并规划行动序列。评分采用"动作效率"机制,完成同一关卡所需步数越少得分越高,用以区分真正的推理能力和暴力穷举;所有环境均经人类校准测试,确认100%可由人类在首次接触时通关。
截至发布时,前沿AI模型的得分情况为:谷歌Gemini 3.1 Pro Preview 0.37%、OpenAI GPT 5.4(High)0.26%、Anthropic Opus 4.6(Max)0.25%、xAI Grok-4.20(Beta)0.00%。
新版本推出部分源于对前代基准被"污染"的担忧,此前Gemini 3在推理链中自动使用了ARC-AGI的整数-颜色映射关系,尽管提示词中未提及该映射,暗示模型训练数据已充分覆盖ARC-AGI任务。ARC-AGI-3通过交互式环境和自主目标发现机制抵抗这类记忆捷径,ARC Prize 2026竞赛总奖金超过200万美元。
免责声明:含第三方意见,不构成财务建议






