logo

ChainThink链智库

快人一步,尽晓币圈事

人类全通关、AI最高0.37%:ARC-AGI-3用「未知游戏」测Agent真智能

人类全通关、AI最高0.37%:ARC-AGI-3用「未知游戏」测Agent真智能

2026-03-26 18:58

查看原文

ChainThink 消息,2026年3月26日,据1M AI News监测,由Keras创始人François Chollet与Zapier联合创始人Mike Knoop创办的非营利机构ARC Prize基金会发布ARC-AGI-3基准测试。


与前两代静态网格推理任务不同,ARC-AGI-3为交互式回合制环境,Agent在64×64、16色的网格世界中行动,无预设指令或目标提示,需自主探索环境、推断规则与胜利条件、构建世界模型并规划行动序列。评分采用"动作效率"机制,完成同一关卡所需步数越少得分越高,用以区分真正的推理能力和暴力穷举;所有环境均经人类校准测试,确认100%可由人类在首次接触时通关。


截至发布时,前沿AI模型的得分情况为:谷歌Gemini 3.1 Pro Preview 0.37%、OpenAI GPT 5.4(High)0.26%、Anthropic Opus 4.6(Max)0.25%、xAI Grok-4.20(Beta)0.00%。


新版本推出部分源于对前代基准被"污染"的担忧,此前Gemini 3在推理链中自动使用了ARC-AGI的整数-颜色映射关系,尽管提示词中未提及该映射,暗示模型训练数据已充分覆盖ARC-AGI任务。ARC-AGI-3通过交互式环境和自主目标发现机制抵抗这类记忆捷径,ARC Prize 2026竞赛总奖金超过200万美元。

免责声明:含第三方意见,不构成财务建议

推荐阅读
CryptoQuant :BTC 长期持有者盈利指标跌破 1.0,市场或现投降信号
CryptoQuant :BTC 长期持有者盈利指标跌破 1.0,市场或现投降信号
Bitunix分析师:能源控制、货币收紧与战争升级错配,流动性转向挤压区间
Bitunix分析师:能源控制、货币收紧与战争升级错配,流动性转向挤压区间
高盛将 Coinbase 目标股价从 270 美元下调至 235 美元,但重申「买入」评级
高盛将 Coinbase 目标股价从 270 美元下调至 235 美元,但重申「买入」评级
伊朗高级官员:目前没有任何谈判安排,“15点意见”只符合美国和以色列利益
伊朗高级官员:目前没有任何谈判安排,“15点意见”只符合美国和以色列利益
某巨鲸以 20 倍杠杆做空约 577 枚 BTC 和 1.93 万枚 ETH,总价值约 8000 万美元
某巨鲸以 20 倍杠杆做空约 577 枚 BTC 和 1.93 万枚 ETH,总价值约 8000 万美元
币安整顿主动做市商,一场迟到的审判
币安整顿主动做市商,一场迟到的审判
花旗:稳定币奖励限制或拖累USDC扩张,但不改Circle基本面
花旗:稳定币奖励限制或拖累USDC扩张,但不改Circle基本面