美团开源LongCat-Flash-Prover大模型5600亿参数刷新两项SOTA水平

作者:互联网

2026-03-22

AI快讯

美团最新开源LongCat-Flash-Prover大模型引发关注,这款5677亿参数的MoE架构模型专攻复杂数学证明领域。

该模型创新性地采用混合专家迭代框架,能够生成大规模高质量的形式化推理轨迹。通过结合Lean4验证工具与基于AST的多阶段严格验证流程,有效解决了传统模型常见的"幻觉"问题。

在训练策略上,研发团队采用混合专家迭代框架生成冷启动数据。强化学习阶段引入HisPO算法,显著提升了MoE模型在长程任务训练中的稳定性。同时建立的定理一致性与合法性检测机制,有效防范了奖励黑客行为的发生。

性能测试结果显示,该模型在MiniF2F-Test测试中达到97.1%准确率,仅需72次推理;PutnamBench任务上解决41.5%问题,使用118次推理次数,两项指标均刷新行业最高水平。

这款突破性大模型现已开放源代码,开发者可通过GitHub和Hugging Face平台获取相关资源。

相关标签:

美团 LongCatFlashProver MoE