美团General365评测集：Gemini 3 Pro推理准确率仅62.8%，揭露大模型推理能力真相

AI搜索 2026-06-21 124 阅读

AI评测美团LongCat 大模型推理能力 General365

美团LongCat发布General 365评测集

2026年6月，美团LongCat团队正式发布General 365评测集，这是一个专注于测试大模型复杂推理能力的高难度基准测试。评测结果令人震惊：被誉为目前最强推理模型的Gemini 3 Pro，在该评测集上准确率仅为62.8%，绝大多数参与测试的26款主流大模型均未能达到60分及格线。

这一结果深刻揭示了当前AI大模型在复杂推理任务上的普遍短板，也为行业提供了一个更严苛、更贴近真实应用场景的评估标准。

现有大模型评测基准（如MMLU、GSM8K、HumanEval）存在明显局限：

General 365正是为解决这些问题而设计。"365"寓意覆盖全年365天各类真实场景的综合推理任务。

26款模型中，仅Gemini 3 Pro和Claude Opus 4.8超过60分，而人类专家在同等任务上的平均准确率约为87%，差距悬殊。

包含商业决策、科学推理、代码调试、因果分析、反事实推理、道德困境、多智能体博弈等365类典型推理任务，覆盖用户实际使用中最复杂的场景。

不只是单轮问答，而是包含需要多轮对话、追问、修正的复杂任务链，更贴近真实Agent使用场景。

题目定期轮换，并包含大量需要实时推理（而非记忆）的题型，有效降低数据污染影响。

结果公布后，AI社区展开热烈讨论。多位研究人员指出，62.8%的最高分与人类87%的水平之间存在显著差距，说明当前大模型的"推理能力"在很大程度上仍是模式匹配而非真正的逻辑推理。

也有观点认为，General 365的题目难度设计本身存在争议——部分任务可能超出了当前大模型的设计目标，将其与人类专家对比意义有限。但无论如何，这份评测为业界敲响了警钟：不要过度依赖现有评测基准对大模型的乐观判断。

General 365评测集的发布是AI评测领域的重要里程碑。它用数据告诉我们：即使是最强的大模型，在复杂推理任务上离人类水平仍有相当差距。这不是否定AI的价值，而是帮助我们更清醒地认识AI的能力边界，做出更明智的应用决策。

MMLU主要测试知识广度（多项选择题），General365专注测试复杂多步骤推理能力，包含商业决策、因果分析、多智能体博弈等真实场景任务，且设计了防数据污染机制，评测结果更能反映模型在实际应用中的表现。

General365的设计刻意超越了现有大模型的舒适区，测试的是需要多步骤跨领域推理的复杂任务。人类专家在同等任务上平均达到87%，说明当前大模型的推理能力与人类仍有25%左右的差距，主要体现在反事实推理、多智能体博弈等需要深层逻辑构建的场景。

建议综合参考多个评测基准，不要只看单一榜单。对于自己的具体使用场景（如代码生成、文档分析、数学计算），可以参考该领域专项评测的结果，或自行设计贴近实际需求的测试用例进行对比评估。