美团WBench：全球首个交互式视频世界模型评测基准，用289个案例测出世界模型边界

AI搜索 2026-06-21 166 阅读

WBench 世界模型美团LongCat 视频AI 评测基准

WBench：让世界模型"照CT"

2026年6月，美团LongCat团队开源了WBench——全球首个面向交互式视频世界模型的系统性多轮评测基准。WBench被团队形象地比作"CT扫描仪"，能精准定位世界模型在从"被动观看"到"主动交互"过程中的技术瓶颈，揭示当前世界模型能力的真实边界。

这一成果恰逢世界模型热度爆发的关键节点，回应了李飞飞、Yann LeCun等AI领袖长期力推的研究方向，也为Sora、可灵、Kling等视频生成模型的能力评估提供了更严格的标准。

视频世界模型（Video World Model）是一类能够理解和模拟物理世界规律的AI系统。与普通视频生成模型不同，世界模型的目标不只是"画面好看"，而是能够：

世界模型被认为是通往具身智能（Embodied AI）和通用机器人的关键技术路径。

WBench包含：

WBench从三个核心维度评估世界模型能力：

对主流世界模型的测试揭示了几个共性问题：

WBench提供了标准化、可复现的评测协议，使不同团队的世界模型可以在统一标准下公平对比，加速研究迭代。

视频生成产品（如可灵、Sora）可借助WBench识别物理一致性弱点，定向优化用户最在意的体验维度。

机器人和具身AI研究者可用WBench评估感知世界模型的基础能力，为机器人仿真训练环境选择提供参考。

WBench是美团LongCat团队2026年6月密集发布的系列技术成果之一：

这一系列成果标志着美团已从互联网企业转型为具有全球影响力的AI研究力量。

WBench的发布填补了交互式视频世界模型评测领域的重要空白。它不只是一套评测工具，更是对当前世界模型真实能力边界的一次诚实审视。对于视频生成、具身智能和机器人研究者而言，WBench提供了一把衡量"AI是否真正理解物理世界"的精密标尺。

普通视频生成模型（如早期Sora）专注于生成视觉质量高的视频，但不要求理解物理规律；视频世界模型要求AI能够预测物体运动、响应交互指令、保持跨帧物理一致性，本质上是能模拟物理世界规律的AI系统，是具身智能的关键底层技术。

WBench已在GitHub和Hugging Face完全开源，包含测试数据集、评测代码和排行榜。开发者可以直接运行评测脚本测试自己的世界模型，结果可提交至官方排行榜。访问美团tech.meituan.com可查看详细技术报告。

根据WBench和业界普遍评测，OpenAI Sora和国内可灵AI（Kling）在物理一致性上表现相对较好，但在多轮交互和长时序连贯性上均有明显短板。WBench的价值就在于提供了标准化量化标准，避免仅凭主观视觉效果评判模型能力。