General 365推理评测发布：26款大模型超60%不及格深度分析

AI聊天 2026-06-11 9 阅读

AI推理评测基准大模型 General 365 推理能力

2026年6月，美团LongCat团队发布了General 365——一个专门评估大语言模型推理能力的评测基准。测试结果令人震惊：在26款主流模型中，排名第一的Gemini 3 Pro准确率仅62.8%，绝大多数模型连60%的及格线都未达到。

General 365是什么

不同于传统的数学或编程评测，General 365覆盖了365种日常推理场景，包括：逻辑推理、因果判断、类比推理、空间推理、时间推理、概率推理、反事实推理等。每道题都经过人工验证，确保答案的唯一性和正确性。

顶尖模型表现：Gemini 3 Pro 62.8%、Claude Opus 4.8 59.1%、GPT-5.5 57.3%、DeepSeek V4 Pro 55.6%。开源模型表现：Qwen3.6 48.2%、GLM-5.1 45.7%、Llama 4 42.1%。

AI大模型在模式匹配上表现出色，但真正的人类推理涉及多层抽象、常识判断和价值权衡。General 365的题目设计刻意避开了“训练数据中可能见过的问题”，真正测试模型的推理能力而非记忆能力。

对于需要高推理能力的场景（如AI编程中的架构设计、AI效率工具中的决策支持），目前没有任何模型可以“放心依靠”。建议在使用AI辅助决策时，始终保留人工验证环节。

General 365的推出本身也说明了AI评测领域的进步——评测方法正在从“刷榜”式的标准测试集，转向更接近真实人类推理的综合评估。这与我们之前介绍的其他AI评测标准形成了互补。

General 365的结果给AI行业的“推理能力神话”泼了一盆冷水。尽管AI模型在特定任务上表现出色，但在泛化推理能力上仍有巨大提升空间。对于普通用户来说，这意味着不要把AI当成“全知全能”的推理机器，而应该把它视为需要监督和验证的辅助工具。