2026年6月1日,MiniMax正式发布新一代通用大模型MiniMax M3。这款搭载自研稀疏注意力架构MSA的模型,集前沿编程能力、100万Token超长上下文、原生多模态三大核心能力于一身,一经发布便引发行业热议。
核心技术突破:MSA稀疏注意力架构
MiniMax M3最大的技术亮点是其自研的MiniMax Sparse Attention架构。相比传统Transformer的全注意力机制,MSA通过稀疏化注意力计算,将单token的计算量降至前代模型的1/20,这使得模型在超长上下文场景下的推理速度大幅提升。
实测数据显示,在100万Token上下文场景下,M3的预填充速度比前代快9倍,解码速度快15倍。这意味着用户可以向模型一次性输入整本技术手册或项目全量代码库,模型在数秒内即可完成理解和分析。
三大核心能力深度体验
1. 编程能力:自研模型的代码突破
M3在代码生成和理解方面表现出色。在HumanEval评测中,M3的pass@1指标达到了接近GPT-4级别的水平。特别值得注意的是,M3对中文技术文档的理解和代码注释生成质量显著优于多数海外模型,这对国内开发者是一大福音。
2. 100万Token上下文:长文处理的质变
100万Token的超长上下文意味着可以一次性处理约75万汉字或大量代码文件。实测中,我们上传了一本300页的技术书籍全文,M3不仅能准确回答书中的具体细节问题,还能跨章节进行关联分析,这在以往的模型中几乎无法实现。
3. 原生多模态:图文音全通
M3原生支持图像、音频、视频等多种输入模态。你可以上传一张设计稿并要求它生成对应的前端代码,也可以上传一段录音并获取精准的文字转录和内容总结。
价格与可用性
MiniMax M3目前通过MiniMax开放平台提供API调用,定价策略延续了国产模型高性价比的优势。对于独立开发者和小团队,平台提供免费额度。同时,M3也为即将到来的MiniMax科创板IPO增添了重要砝码。
优缺点与总结
M3的优点包括:自研MSA架构实现高效长文本处理;代码能力达国际一流水准;原生多模态覆盖全面;中文理解和生成质量优于海外模型;性价比突出。缺点包括:海外生态和社区规模尚不如OpenAI和Anthropic;部分专业领域的精确度有待验证。
MiniMax M3标志着国产大模型在自研架构上迈出了关键一步。结合100万Token上下文和原生多模态能力,M3在当前AI工具市场中具有明显的差异化优势。如果你想了解更多AI工具,可以查看我们的AI工具导航。