General 365推理评测发布:26款大模型超60%不及格深度分析

AI聊天 2026-06-11 9 阅读
AI推理 评测基准 大模型 General 365 推理能力

2026年6月,美团LongCat团队发布了General 365——一个专门评估大语言模型推理能力的评测基准。测试结果令人震惊:在26款主流模型中,排名第一的Gemini 3 Pro准确率仅62.8%,绝大多数模型连60%的及格线都未达到。

General 365是什么

不同于传统的数学或编程评测,General 365覆盖了365种日常推理场景,包括:逻辑推理、因果判断、类比推理、空间推理、时间推理、概率推理、反事实推理等。每道题都经过人工验证,确保答案的唯一性和正确性。

测试结果摘要

顶尖模型表现:Gemini 3 Pro 62.8%、Claude Opus 4.8 59.1%、GPT-5.5 57.3%、DeepSeek V4 Pro 55.6%。开源模型表现:Qwen3.6 48.2%、GLM-5.1 45.7%、Llama 4 42.1%。

为什么推理能力这么难

AI大模型在模式匹配上表现出色,但真正的人类推理涉及多层抽象、常识判断和价值权衡。General 365的题目设计刻意避开了“训练数据中可能见过的问题”,真正测试模型的推理能力而非记忆能力

对AI工具选型的启示

对于需要高推理能力的场景(如AI编程中的架构设计、AI效率工具中的决策支持),目前没有任何模型可以“放心依靠”。建议在使用AI辅助决策时,始终保留人工验证环节。

评测基准的评测

General 365的推出本身也说明了AI评测领域的进步——评测方法正在从“刷榜”式的标准测试集,转向更接近真实人类推理的综合评估。这与我们之前介绍的其他AI评测标准形成了互补。

评测总结

General 365的结果给AI行业的“推理能力神话”泼了一盆冷水。尽管AI模型在特定任务上表现出色,但在泛化推理能力上仍有巨大提升空间。对于普通用户来说,这意味着不要把AI当成“全知全能”的推理机器,而应该把它视为需要监督和验证的辅助工具。