logo

ChainThink链智库

快人一步,尽晓币圈事

人类全通关、AI最高0.37%:ARC-AGI-3用「未知游戏」测Agent真智能

人类全通关、AI最高0.37%:ARC-AGI-3用「未知游戏」测Agent真智能

2026-03-26 18:58

查看原文

ChainThink 消息,2026年3月26日,据1M AI News监测,由Keras创始人François Chollet与Zapier联合创始人Mike Knoop创办的非营利机构ARC Prize基金会发布ARC-AGI-3基准测试。


与前两代静态网格推理任务不同,ARC-AGI-3为交互式回合制环境,Agent在64×64、16色的网格世界中行动,无预设指令或目标提示,需自主探索环境、推断规则与胜利条件、构建世界模型并规划行动序列。评分采用"动作效率"机制,完成同一关卡所需步数越少得分越高,用以区分真正的推理能力和暴力穷举;所有环境均经人类校准测试,确认100%可由人类在首次接触时通关。


截至发布时,前沿AI模型的得分情况为:谷歌Gemini 3.1 Pro Preview 0.37%、OpenAI GPT 5.4(High)0.26%、Anthropic Opus 4.6(Max)0.25%、xAI Grok-4.20(Beta)0.00%。


新版本推出部分源于对前代基准被"污染"的担忧,此前Gemini 3在推理链中自动使用了ARC-AGI的整数-颜色映射关系,尽管提示词中未提及该映射,暗示模型训练数据已充分覆盖ARC-AGI任务。ARC-AGI-3通过交互式环境和自主目标发现机制抵抗这类记忆捷径,ARC Prize 2026竞赛总奖金超过200万美元。

免责声明:含第三方意见,不构成财务建议

推荐阅读
瑞银:美联储降息或推迟至9月,随后在12月再次降息
瑞银:美联储降息或推迟至9月,随后在12月再次降息
X在指控广告商抵制该平台的诉讼中败诉
X在指控广告商抵制该平台的诉讼中败诉
James Wynn再次开设40倍杠杆BTC空单,清算价70,270.83美元
James Wynn再次开设40倍杠杆BTC空单,清算价70,270.83美元
Greeks.live:明日加密期权将迎季度交割,整体情绪依然偏空
Greeks.live:明日加密期权将迎季度交割,整体情绪依然偏空
Verse8 完成 500 万美元种子轮融资,Story Foundation 及 NEXPACE 参投
Verse8 完成 500 万美元种子轮融资,Story Foundation 及 NEXPACE 参投
比特币跌破 69000 USDT
比特币跌破 69000 USDT
Watch.fun完成860万美元融资,Crypto.com Capital与Solana Ventures共同领投
Watch.fun完成860万美元融资,Crypto.com Capital与Solana Ventures共同领投