美团General365评测集:Gemini 3 Pro推理准确率仅62.8%,揭露大模型推理能力真相

AI搜索 2026-06-21 124 阅读
AI评测 美团LongCat 大模型 推理能力 General365

美团LongCat发布General 365评测集

2026年6月,美团LongCat团队正式发布General 365评测集,这是一个专注于测试大模型复杂推理能力的高难度基准测试。评测结果令人震惊:被誉为目前最强推理模型的Gemini 3 Pro,在该评测集上准确率仅为62.8%,绝大多数参与测试的26款主流大模型均未能达到60分及格线。

这一结果深刻揭示了当前AI大模型在复杂推理任务上的普遍短板,也为行业提供了一个更严苛、更贴近真实应用场景的评估标准。

为什么需要General 365?

现有大模型评测基准(如MMLU、GSM8K、HumanEval)存在明显局限:

  • 数据污染风险:训练数据可能包含评测题目,导致成绩虚高
  • 单一维度:各基准专注特定领域,缺乏综合评估
  • 与真实应用脱节:学术基准的题型与用户实际需求差距较大
  • 缺乏多轮推理测试:真实任务往往需要多步骤、跨轮次的逻辑推导

General 365正是为解决这些问题而设计。"365"寓意覆盖全年365天各类真实场景的综合推理任务。

测试结果:主流模型全面受挫

前10名排行

  • 🥇 Gemini 3 Pro:62.8%(最高分)
  • 🥈 Claude Opus 4.8:61.3%
  • 🥉 GPT-5:59.7%
  • 4. DeepSeek V4 Pro:58.9%
  • 5. Grok 4:57.4%
  • 6. Qwen3-235B:55.6%
  • 7. Llama 4 Maverick:52.1%
  • 8. MiniMax M3:49.8%
  • 9. 混元Large:47.3%
  • 10. GLM-5.2:44.6%

26款模型中,仅Gemini 3 Pro和Claude Opus 4.8超过60分,而人类专家在同等任务上的平均准确率约为87%,差距悬殊。

General 365的设计亮点

场景覆盖广

包含商业决策、科学推理、代码调试、因果分析、反事实推理、道德困境、多智能体博弈等365类典型推理任务,覆盖用户实际使用中最复杂的场景。

多轮交互测试

不只是单轮问答,而是包含需要多轮对话、追问、修正的复杂任务链,更贴近真实Agent使用场景。

防数据污染设计

题目定期轮换,并包含大量需要实时推理(而非记忆)的题型,有效降低数据污染影响。

行业反应与讨论

结果公布后,AI社区展开热烈讨论。多位研究人员指出,62.8%的最高分与人类87%的水平之间存在显著差距,说明当前大模型的"推理能力"在很大程度上仍是模式匹配而非真正的逻辑推理。

也有观点认为,General 365的题目难度设计本身存在争议——部分任务可能超出了当前大模型的设计目标,将其与人类专家对比意义有限。但无论如何,这份评测为业界敲响了警钟:不要过度依赖现有评测基准对大模型的乐观判断

对AI应用开发者的启示

  • 在复杂推理场景(如法律分析、医疗诊断、复杂商业决策)中,不要过度信任大模型的单次输出
  • 建立多模型交叉验证机制,对关键推理结果进行二次校验
  • 在RAG系统中,推理质量比检索速度更关键
  • 关注美团、清华、斯坦福等团队持续发布的新评测基准,及时更新对模型能力的认知

总结

General 365评测集的发布是AI评测领域的重要里程碑。它用数据告诉我们:即使是最强的大模型,在复杂推理任务上离人类水平仍有相当差距。这不是否定AI的价值,而是帮助我们更清醒地认识AI的能力边界,做出更明智的应用决策。

❓ 常见问题

General365和MMLU评测有什么区别?

MMLU主要测试知识广度(多项选择题),General365专注测试复杂多步骤推理能力,包含商业决策、因果分析、多智能体博弈等真实场景任务,且设计了防数据污染机制,评测结果更能反映模型在实际应用中的表现。

为什么Gemini 3 Pro这么强还只得62.8%?

General365的设计刻意超越了现有大模型的舒适区,测试的是需要多步骤跨领域推理的复杂任务。人类专家在同等任务上平均达到87%,说明当前大模型的推理能力与人类仍有25%左右的差距,主要体现在反事实推理、多智能体博弈等需要深层逻辑构建的场景。

选择AI工具时如何参考评测数据?

建议综合参考多个评测基准,不要只看单一榜单。对于自己的具体使用场景(如代码生成、文档分析、数学计算),可以参考该领域专项评测的结果,或自行设计贴近实际需求的测试用例进行对比评估。