logo

ChainThink链智库

快人一步,尽晓币圈事

美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

美团开源560B参数定理证明模型:72次推理通过率97.1%,刷新开源模型SOTA

2026-03-21 10:22

查看原文

1M AI News 监测,美团 LongCat 团队开源 LongCat-Flash-Prover,一个 5600 亿参数的 MoE 模型,专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布,已上线 GitHub、Hugging Face 和 ModelScope。

模型将形式化推理拆解为三项独立能力:自动形式化(将自然语言数学问题转化为 Lean4 形式语句)、草图生成(产出引理风格的证明框架)和完整证明生成。三项能力均通过 Agent 工具集成推理(TIR)与 Lean4 编译器实时交互验证。


训练方面,团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据,并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练,同时加入定理一致性和合法性检测机制防止 reward hacking。

基准测试显示,LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率,ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%,每题推理次数不超过 220 次。

#强化学习

免责声明:含第三方意见,不构成财务建议

推荐阅读
中国开源模型再成全球AI底座,Cursor「套壳」Kimi风波反转:从侵权质疑到授权合作
中国开源模型再成全球AI底座,Cursor「套壳」Kimi风波反转:从侵权质疑到授权合作
Cursor「自研」Composer 2内藏Kimi K2.5,月之暗面公开指控:未遵守许可证、未支付费用
Cursor「自研」Composer 2内藏Kimi K2.5,月之暗面公开指控:未遵守许可证、未支付费用
模型自己迭代自己:MiniMax M2.7发布,编程接近Opus水平
模型自己迭代自己:MiniMax M2.7发布,编程接近Opus水平
继百度之后,腾讯也成为OpenClaw赞助方
继百度之后,腾讯也成为OpenClaw赞助方
GitHub数据揭露加密开发者自2022年后大规模流失,AI成开发者迁徙新目的地
GitHub数据揭露加密开发者自2022年后大规模流失,AI成开发者迁徙新目的地
Karpathy开源autoresearch:睡一觉,AI自动跑100次LLM训练
Karpathy开源autoresearch:睡一觉,AI自动跑100次LLM训练
阿里关联研究团队:AI代理ROME未经授权启动加密货币挖矿
阿里关联研究团队:AI代理ROME未经授权启动加密货币挖矿