美团WBench:全球首个交互式视频世界模型评测基准,用289个案例测出世界模型边界

AI搜索 2026-06-21 166 阅读
WBench 世界模型 美团LongCat 视频AI 评测基准

WBench:让世界模型"照CT"

2026年6月,美团LongCat团队开源了WBench——全球首个面向交互式视频世界模型的系统性多轮评测基准。WBench被团队形象地比作"CT扫描仪",能精准定位世界模型在从"被动观看"到"主动交互"过程中的技术瓶颈,揭示当前世界模型能力的真实边界。

这一成果恰逢世界模型热度爆发的关键节点,回应了李飞飞、Yann LeCun等AI领袖长期力推的研究方向,也为Sora、可灵、Kling等视频生成模型的能力评估提供了更严格的标准。

什么是视频世界模型?

视频世界模型(Video World Model)是一类能够理解和模拟物理世界规律的AI系统。与普通视频生成模型不同,世界模型的目标不只是"画面好看",而是能够:

  • 预测:根据当前状态预测下一步会发生什么
  • 交互:响应外部动作指令,生成合理的交互结果
  • 保持物理一致性:重力、碰撞、光影等物理规律在时序中保持自洽
  • 多轮推理:在多轮交互中保持场景状态的连贯记忆

世界模型被认为是通往具身智能(Embodied AI)和通用机器人的关键技术路径。

WBench的设计

规模与覆盖

WBench包含:

  • 289个测试案例(场景多样,随机性强)
  • 1058个交互轮次(每个案例平均3-4轮交互)
  • 6类场景:自然环境、城市场景、室内空间、幻想世界、机械场景、生物场景
  • 7种艺术风格:写实、卡通、游戏引擎渲染等

测试维度

WBench从三个核心维度评估世界模型能力:

  • 物理一致性(Physics Consistency):物体运动是否符合物理规律
  • 交互响应准确性(Interaction Accuracy):模型是否正确响应动作指令
  • 时序连贯性(Temporal Coherence):多轮交互中场景是否保持连贯

测试结果:世界模型仍有明显短板

对主流世界模型的测试揭示了几个共性问题:

  • 物体持久性(Object Permanence):物体被遮挡后重新出现时,外观和位置常常不一致
  • 交互因果理解:对"推倒一个物体会导致连锁反应"等因果关系的处理不稳定
  • 长时序退化:随着交互轮次增加,场景质量和一致性明显下降
  • 幻想场景泛化:在训练数据中不常见的幻想世界场景表现更差

WBench的行业价值

为研究者

WBench提供了标准化、可复现的评测协议,使不同团队的世界模型可以在统一标准下公平对比,加速研究迭代。

为产品团队

视频生成产品(如可灵、Sora)可借助WBench识别物理一致性弱点,定向优化用户最在意的体验维度。

为具身智能社区

机器人和具身AI研究者可用WBench评估感知世界模型的基础能力,为机器人仿真训练环境选择提供参考。

美团LongCat的多模态技术矩阵

WBench是美团LongCat团队2026年6月密集发布的系列技术成果之一:

  • LongCat-Next:原生多模态模型(视觉+语音+文本统一Token化)
  • LongCat-AudioDiT:端到端TTS语音克隆
  • WBench:交互式视频世界模型评测基准
  • LARYBench:具身智能动作表征评测
  • General 365:复杂推理能力评测(通过ACL 2026)

这一系列成果标志着美团已从互联网企业转型为具有全球影响力的AI研究力量。

总结

WBench的发布填补了交互式视频世界模型评测领域的重要空白。它不只是一套评测工具,更是对当前世界模型真实能力边界的一次诚实审视。对于视频生成、具身智能和机器人研究者而言,WBench提供了一把衡量"AI是否真正理解物理世界"的精密标尺。

❓ 常见问题

视频世界模型和普通视频生成模型有什么区别?

普通视频生成模型(如早期Sora)专注于生成视觉质量高的视频,但不要求理解物理规律;视频世界模型要求AI能够预测物体运动、响应交互指令、保持跨帧物理一致性,本质上是能模拟物理世界规律的AI系统,是具身智能的关键底层技术。

WBench评测结果如何获取?

WBench已在GitHub和Hugging Face完全开源,包含测试数据集、评测代码和排行榜。开发者可以直接运行评测脚本测试自己的世界模型,结果可提交至官方排行榜。访问美团tech.meituan.com可查看详细技术报告。

当前哪个视频生成工具世界模型能力最强?

根据WBench和业界普遍评测,OpenAI Sora和国内可灵AI(Kling)在物理一致性上表现相对较好,但在多轮交互和长时序连贯性上均有明显短板。WBench的价值就在于提供了标准化量化标准,避免仅凭主观视觉效果评判模型能力。