LARYBench评测：美团定义具身智能"ImageNet"，通用视觉模型展现跨代优势

AI绘画 2026-06-22 4 阅读

LARYBench 具身智能视觉模型美团AI 动作表征

LARYBench简介

2026年6月22日，美团技术团队发布LARYBench（Latent Action Representation Yielding Benchmark），这是一个用于评估具身智能中动作表征能力的基准测试框架。LARYBench被研究界誉为具身智能领域的"ImageNet时刻"，因为它首次为这一新兴领域提供了标准化的评估标准和大规模数据集。

具身智能（Embodied AI）是AI领域的前沿方向，关注AI系统在物理环境中的感知、理解和交互能力。动作表征是具身智能的核心问题——如何让AI从视觉观察中提取有效的动作信息，并将其泛化到新的场景中。LARYBench正是为解决这一评估难题而设计。

核心功能与评测维度

大规模视觉数据学习

LARYBench从大规模视觉数据中学习通用隐式动作表征。与传统方法需要显式标注动作不同，LARYBench通过自监督学习方式，让模型从视频序列中自动发现和提取动作信息。这种数据驱动的方法大幅降低了对人工标注的依赖。

动作泛化能力评估

LARYBench设计了多种泛化测试场景，包括跨场景泛化、跨物体泛化和跨动作类型泛化。模型需要在训练时未见过的环境中展示动作理解和执行能力，这全面检验了动作表征的通用性。

控制精度评估

除了泛化能力，LARYBench还评估动作表征的控制精度——即模型对动作执行结果的预测准确性。高精度的控制能力是具身智能系统在真实物理环境中安全运行的基础。

关键发现：通用模型胜出

LARYBench最引人注目的发现是：通用视觉模型在动作泛化和控制精度上显著优于专门的具身专家模型。这一结果颠覆了AI领域"专用模型在特定任务上更优"的传统认知，证明大规模预训练的通用视觉模型蕴含着丰富的动作理解能力，只需适当的微调即可超越专门设计的模型。

这一发现对具身智能的研究方向有重要启示：与其投入大量资源训练专门的具身模型，不如利用已有的通用视觉模型进行迁移学习，可能获得更好的效果和更低的成本。

应用价值

LARYBench的应用价值涵盖多个方面：

机器人技术：为机器人动作学习提供标准化评估框架
自动驾驶：评估视觉模型对交通场景中动态行为的理解能力
智能监控：提升安防系统对异常行为的识别准确率
游戏AI：为游戏中的NPC行为学习提供新的训练范式

适合人群

LARYBench适合以下用户：具身智能研究者、机器人技术工程师、计算机视觉研究者、AI模型评测工程师，以及关注AI前沿技术的技术决策者。

评测总结

LARYBench是具身智能领域的重要里程碑。它不仅提供了标准化的评估框架，更重要的是揭示了通用视觉模型在动作理解方面的巨大潜力。对于在AI工具导航中关注具身智能和视觉AI的用户来说，LARYBench提供了一个了解这一前沿领域的重要窗口。随着更多研究者基于LARYBench进行模型评估和改进，具身智能领域有望迎来快速发展期。

❓ 常见问题

LARYBench是什么？

LARYBench（Latent Action Representation Yielding Benchmark）是美团发布的具身动作表征评测基准，用于从大规模视觉数据中学习通用隐式动作表征，被称为具身智能领域的ImageNet。

LARYBench的核心发现是什么？

研究发现通用视觉模型在动作泛化和控制精度上显著优于专门的具身专家模型，这颠覆了"专用模型更优"的传统认知。

LARYBench对具身智能发展有什么意义？

LARYBench为具身智能提供了标准化的评估框架，类似于ImageNet对图像分类的推动作用，将加速具身智能领域的研究进展和模型迭代。