美团LongCat-2.0评测：国产算力训练的万亿参数大模型开源

AI聊天 2026-07-01 20 阅读

LongCat-2.0 美团国产大模型 AI聊天

2026年6月30日，美团正式发布新一代万亿参数大模型LongCat-2.0，并宣布对外开源。这是业界首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数模型，总参数规模达到1.6万亿，原生支持1M（100万Token）超长上下文。在中国AI产业强调算力自主可控的背景下，LongCat-2.0的发布具有标志性意义。

简介：国产算力上的万亿参数模型

LongCat-2.0是美团自研的大规模MoE（混合专家）模型。它的核心亮点不在于参数规模本身，而在于它从零开始预训练，全程依赖国产算力芯片完成训练、推理和优化。此前，LongCat团队在2023年就开始探索国产算力，从千卡规模起步，逐步攻克算子适配、通信优化和稳定训练等难题。

核心技术规格

1.6T参数与动态激活

LongCat-2.0总参数1.6T，平均激活约48B，动态范围在33B到56B之间。它采用零计算专家机制，让简单Token不消耗算力，复杂Token自动获得更多计算资源。这种Token级动态激活策略，在代码生成等任务中尤为重要，因为代码中的不同Token对算力的需求差异巨大。

1M超长上下文

LongCat-2.0采用LongCat Sparse Attention（LSA）稀疏注意力机制，在处理长文本时不再逐字处理，而是智能筛选关键信息，将计算量从平方级降至线性级。这意味着模型在100万Token的超长上下文中，依然能保持信息定位和理解能力。

国产算力训练优化

面对万卡级训练中的硬件故障、通信异常、显存压力和数值波动，LongCat团队从稳定性、正确性和效率三方面优化：通过HCCL异常处理将月均日故障率降低70%以上，通过自研确定性算子保障训练结果可靠，通过流水线调度和算子级控核将训练MFU提升1.5倍。最终实现了稳态日吞吐超过1T tokens/天。

性能评测与横向对比

在编程能力评测中，LongCat-2.0在SWE-bench Pro中获得59.5，领先Gemini 3.1 Pro（54.2）、GPT-5.5（58.6）和Claude Opus 4.6（57.3）。在真实终端指令交互评测Terminal-Bench 2.1中取得70.8，体现出在真实运维与开发任务中的稳定执行能力。在RWSearch、FORTE、BrowseComp等办公和Agent场景中，也达到了接近前沿闭源模型的水平。

开发者可以通过OpenRouter平台和longcat.ai访问LongCat-2.0。对于关注国产大模型的用户，LongCat-2.0是继DeepSeek之后又一个值得关注的开源力量。

优缺点总结

优点：国产算力自主可控、超长上下文、编程能力突出、开源可商用。
缺点：生态工具链尚不如Llama或Qwen成熟；英文多语言能力需持续验证；本地部署对硬件要求极高。

适合人群与总结

LongCat-2.0适合关注国产自主可控、需要长文本处理能力的开发者和企业用户。它的开源将进一步推动中国大模型生态的发展。对于普通用户来说，通过OpenRouter即可快速体验，感受国产万亿参数模型的实际能力。