人类全通关、AI最高0.37%：ARC-AGI-3用「未知游戏」测Agent真智能

2026-03-26 18:58

ChainThink 消息，2026年3月26日，据1M AI News监测，由Keras创始人François Chollet与Zapier联合创始人Mike Knoop创办的非营利机构ARC Prize基金会发布ARC-AGI-3基准测试。

与前两代静态网格推理任务不同，ARC-AGI-3为交互式回合制环境，Agent在64×64、16色的网格世界中行动，无预设指令或目标提示，需自主探索环境、推断规则与胜利条件、构建世界模型并规划行动序列。评分采用"动作效率"机制，完成同一关卡所需步数越少得分越高，用以区分真正的推理能力和暴力穷举；所有环境均经人类校准测试，确认100%可由人类在首次接触时通关。

截至发布时，前沿AI模型的得分情况为：谷歌Gemini 3.1 Pro Preview 0.37%、OpenAI GPT 5.4（High）0.26%、Anthropic Opus 4.6（Max）0.25%、xAI Grok-4.20（Beta）0.00%。

新版本推出部分源于对前代基准被"污染"的担忧，此前Gemini 3在推理链中自动使用了ARC-AGI的整数-颜色映射关系，尽管提示词中未提及该映射，暗示模型训练数据已充分覆盖ARC-AGI任务。ARC-AGI-3通过交互式环境和自主目标发现机制抵抗这类记忆捷径，ARC Prize 2026竞赛总奖金超过200万美元。

免责声明：含第三方意见，不构成财务建议

推荐阅读

CryptoQuant ：BTC 长期持有者盈利指标跌破 1.0，市场或现投降信号

Bitunix分析师：能源控制、货币收紧与战争升级错配，流动性转向挤压区间

高盛将 Coinbase 目标股价从 270 美元下调至 235 美元，但重申「买入」评级

伊朗高级官员：目前没有任何谈判安排，“15点意见”只符合美国和以色列利益

某巨鲸以 20 倍杠杆做空约 577 枚 BTC 和 1.93 万枚 ETH，总价值约 8000 万美元

币安整顿主动做市商，一场迟到的审判

花旗：稳定币奖励限制或拖累USDC扩张，但不改Circle基本面

CryptoQuant ：BTC 长期持有者盈利指标跌破 1.0，市场或现投降信号

Bitunix分析师：能源控制、货币收紧与战争升级错配，流动性转向挤压区间

高盛将 Coinbase 目标股价从 270 美元下调至 235 美元，但重申「买入」评级

伊朗高级官员：目前没有任何谈判安排，“15点意见”只符合美国和以色列利益

某巨鲸以 20 倍杠杆做空约 577 枚 BTC 和 1.93 万枚 ETH，总价值约 8000 万美元

币安整顿主动做市商，一场迟到的审判

花旗：稳定币奖励限制或拖累USDC扩张，但不改Circle基本面

ChainThink链智库

人类全通关、AI最高0.37%：ARC-AGI-3用「未知游戏」测Agent真智能

OpenClaw实用指南

日报周报速览

最新热点前沿

爆雷预警

合规监管动态

热门空投追踪