美团开源560B参数定理证明模型：72次推理通过率97.1%，刷新开源模型SOTA

2026-03-21 10:22

据 1M AI News 监测，美团 LongCat 团队开源 LongCat-Flash-Prover，一个 5600 亿参数的 MoE 模型，专攻形式化定理证明语言 Lean4 的数学推理任务。模型权重以 MIT 协议发布，已上线 GitHub、Hugging Face 和 ModelScope。

模型将形式化推理拆解为三项独立能力：自动形式化（将自然语言数学问题转化为 Lean4 形式语句）、草图生成（产出引理风格的证明框架）和完整证明生成。三项能力均通过 Agent 工具集成推理（TIR）与 Lean4 编译器实时交互验证。

训练方面，团队提出 Hybrid-Experts Iteration Framework 生成冷启动数据，并在强化学习阶段引入 HisPO 算法稳定 MoE 模型的长程任务训练，同时加入定理一致性和合法性检测机制防止 reward hacking。

基准测试显示，LongCat-Flash-Prover 在开源权重模型中刷新了自动形式化和定理证明两项 SOTA。MiniF2F-Test 上仅用 72 次推理即达 97.1% 通过率，ProverBench 和 PutnamBench 分别达到 70.8% 和 41.5%，每题推理次数不超过 220 次。

#强化学习

免责声明：含第三方意见，不构成财务建议