WBench:让世界模型"照CT"
2026年6月,美团LongCat团队开源了WBench——全球首个面向交互式视频世界模型的系统性多轮评测基准。WBench被团队形象地比作"CT扫描仪",能精准定位世界模型在从"被动观看"到"主动交互"过程中的技术瓶颈,揭示当前世界模型能力的真实边界。
这一成果恰逢世界模型热度爆发的关键节点,回应了李飞飞、Yann LeCun等AI领袖长期力推的研究方向,也为Sora、可灵、Kling等视频生成模型的能力评估提供了更严格的标准。
什么是视频世界模型?
视频世界模型(Video World Model)是一类能够理解和模拟物理世界规律的AI系统。与普通视频生成模型不同,世界模型的目标不只是"画面好看",而是能够:
- 预测:根据当前状态预测下一步会发生什么
- 交互:响应外部动作指令,生成合理的交互结果
- 保持物理一致性:重力、碰撞、光影等物理规律在时序中保持自洽
- 多轮推理:在多轮交互中保持场景状态的连贯记忆
世界模型被认为是通往具身智能(Embodied AI)和通用机器人的关键技术路径。
WBench的设计
规模与覆盖
WBench包含:
- 289个测试案例(场景多样,随机性强)
- 1058个交互轮次(每个案例平均3-4轮交互)
- 6类场景:自然环境、城市场景、室内空间、幻想世界、机械场景、生物场景
- 7种艺术风格:写实、卡通、游戏引擎渲染等
测试维度
WBench从三个核心维度评估世界模型能力:
- 物理一致性(Physics Consistency):物体运动是否符合物理规律
- 交互响应准确性(Interaction Accuracy):模型是否正确响应动作指令
- 时序连贯性(Temporal Coherence):多轮交互中场景是否保持连贯
测试结果:世界模型仍有明显短板
对主流世界模型的测试揭示了几个共性问题:
- 物体持久性(Object Permanence):物体被遮挡后重新出现时,外观和位置常常不一致
- 交互因果理解:对"推倒一个物体会导致连锁反应"等因果关系的处理不稳定
- 长时序退化:随着交互轮次增加,场景质量和一致性明显下降
- 幻想场景泛化:在训练数据中不常见的幻想世界场景表现更差
WBench的行业价值
为研究者
WBench提供了标准化、可复现的评测协议,使不同团队的世界模型可以在统一标准下公平对比,加速研究迭代。
为产品团队
视频生成产品(如可灵、Sora)可借助WBench识别物理一致性弱点,定向优化用户最在意的体验维度。
为具身智能社区
机器人和具身AI研究者可用WBench评估感知世界模型的基础能力,为机器人仿真训练环境选择提供参考。
美团LongCat的多模态技术矩阵
WBench是美团LongCat团队2026年6月密集发布的系列技术成果之一:
- LongCat-Next:原生多模态模型(视觉+语音+文本统一Token化)
- LongCat-AudioDiT:端到端TTS语音克隆
- WBench:交互式视频世界模型评测基准
- LARYBench:具身智能动作表征评测
- General 365:复杂推理能力评测(通过ACL 2026)
这一系列成果标志着美团已从互联网企业转型为具有全球影响力的AI研究力量。
总结
WBench的发布填补了交互式视频世界模型评测领域的重要空白。它不只是一套评测工具,更是对当前世界模型真实能力边界的一次诚实审视。对于视频生成、具身智能和机器人研究者而言,WBench提供了一把衡量"AI是否真正理解物理世界"的精密标尺。
❓ 常见问题
视频世界模型和普通视频生成模型有什么区别?
普通视频生成模型(如早期Sora)专注于生成视觉质量高的视频,但不要求理解物理规律;视频世界模型要求AI能够预测物体运动、响应交互指令、保持跨帧物理一致性,本质上是能模拟物理世界规律的AI系统,是具身智能的关键底层技术。
WBench评测结果如何获取?
WBench已在GitHub和Hugging Face完全开源,包含测试数据集、评测代码和排行榜。开发者可以直接运行评测脚本测试自己的世界模型,结果可提交至官方排行榜。访问美团tech.meituan.com可查看详细技术报告。
当前哪个视频生成工具世界模型能力最强?
根据WBench和业界普遍评测,OpenAI Sora和国内可灵AI(Kling)在物理一致性上表现相对较好,但在多轮交互和长时序连贯性上均有明显短板。WBench的价值就在于提供了标准化量化标准,避免仅凭主观视觉效果评判模型能力。