美团LongCat-Next开源：原生多模态模型让AI像用母语一样处理视觉和语音

AI视频 2026-06-21 139 阅读

美团 LongCat 多模态AI 视频生成开源模型

美团开源LongCat-Next：探索物理世界AI新范式

2026年6月，美团技术团队正式开源原生多模态模型LongCat-Next及其核心离散分词器，这是继WBench评测基准之后，美团LongCat在多模态AI领域的又一重磅开源贡献。LongCat-Next的核心创新在于：让AI能够像使用母语一样处理视觉和语音信息，而不是将图像和声音转换为文字后再处理。

LongCat-Next的技术突破

原生多模态架构

传统多模态模型采用"分别编码→融合"的管道式架构，各模态信息先经过专属编码器转为向量，再输入统一的Transformer。这种方式存在天然的信息损失和模态间协作不流畅的问题。

LongCat-Next采用原生多模态设计：

视觉和语音信息与文本信息在同一个Token空间内统一表示
离散分词器将视频帧、音频波形直接"词汇化"，与文字Token同等对待
模型在预训练阶段即面对真正的多模态数据，而非后续微调的拼接

核心离散分词器

LongCat-Next最关键的组件是专有离散分词器，它能将：

视频帧 → 视觉Token序列（保留时序和空间信息）
音频波形 → 声音Token序列（保留音调、节奏、音色）
文本 → 传统BPE Token

三种Token在统一的词汇表中编码，模型可以无缝跨模态"阅读"和"生成"内容。

在视频世界模型领域的应用

LongCat-Next是美团构建交互式视频世界模型的关键底层技术。结合WBench评测基准中揭示的行业现状（最强模型在交互式视频任务上仍有显著差距），LongCat-Next的原生多模态能力有望：

提升视频生成中物理规律的一致性（如重力、碰撞、光影）
改善长视频中的时序连贯性（避免帧间"闪现"和物体消失）
支持基于自然语言的精细视频编辑指令

与主流多模态模型的对比

GPT-4o：强交互性，但视频理解受限于帧采样
Gemini 1.5 Pro：100万上下文支持超长视频，但视频生成能力弱
LLaVA系列：开源领先者，但图文为主，视频支持有限
LongCat-Next：原生视觉+语音Token化，视频理解与生成双向优化，最新开源，适合研究和二次开发

开源价值与适用场景

LongCat-Next的开源对以下群体价值显著：

研究者：研究原生多模态表示学习、视频理解、世界模型构建
视频AI开发者：基于LongCat-Next构建自定义视频分析、生成、编辑工具
内容创作平台：接入原生多模态能力，提升智能创作工具的视频理解深度
具身智能研究者：世界模型是机器人环境感知的关键，LongCat-Next提供基础框架

如何获取LongCat-Next

LongCat-Next模型权重和代码已在Hugging Face和GitHub开源，支持本地部署和API调用。基本配置需求：A100/H100 GPU（80GB显存）用于推理，训练建议多卡集群。

总结

美团开源LongCat-Next是中国AI团队在世界模型和原生多模态研究方向的重要突破。通过将视觉、语音和文本统一为Token序列，LongCat-Next为构建真正能"看懂、听懂、说懂"物理世界的AI系统奠定了技术基础。随着开源社区的参与，这一方向的研究有望加速迭代。

❓ 常见问题

LongCat-Next和LLaVA有什么本质区别？

LLaVA等主流多模态模型采用管道式架构，将图像用专属编码器转为向量后融入文本Transformer；LongCat-Next采用原生多模态设计，通过离散分词器将视频帧和音频波形直接转化为Token，与文字Token在同一词汇表统一处理，减少模态转换中的信息损失。

美团为什么要开源LongCat-Next？

开源是互联网技术公司建立技术影响力、吸引研究合作和优质开发者的重要策略。同时，开源后的社区反馈有助于加速模型迭代，美团也能通过企业API服务从开源生态中获得商业回报。

LongCat-Next需要什么硬件配置才能运行？

LongCat-Next推理建议使用NVIDIA A100或H100（80GB显存）GPU。如果只需要文本功能，低显存GPU也可运行量化版本。训练和微调需要多卡GPU集群。个人研究者可通过Hugging Face的在线Spaces免费体验模型效果。