2026年5月28日,DeepSeek宣布新一代大模型V4.1将于2026年6月正式发布。这是DeepSeek首个集成图像与音频理解能力的大模型,标志着DeepSeek从纯文本模型向全模态AI助手的重大升级。
V4.1的三大核心升级
- 多模态能力:首次集成图像与音频理解,实现"文本+图像+音频"的全模态输入
- 企业级工具集成:深度适配行业通用的模块化工具调用框架
- 推理效率提升:相比V3,推理速度提升约40%,成本降低约30%
多模态技术路线
V4.1采用统一的Transformer架构处理文本、图像和音频,而非简单的多模态拼接。具体技术特点包括:
- 原生多模态Embedding:文本、图像、音频共享同一个向量空间
- 跨模态注意力机制:允许不同模态之间的信息交互
- 统一解码器:生成阶段可以输出文本、描述图像或生成音频
企业级工具集成
V4.1深度适配企业级应用场景,包括:
- 代码助手:支持多种编程语言的代码生成、调试和文档生成
- 数据分析:支持CSV、Excel、PDF等多格式数据的读取和分析
- 知识库检索:与企业知识库的深度集成,支持RAG(检索增强生成)
与竞品对比
V4.1的主要竞品包括GPT-5、Claude Opus 4.8、Gemini 3.5等。DeepSeek的优势在于:
- 成本优势:API价格预计为GPT-5的1/10
- 开源策略:基础模型将继续开源
- 本地化部署:支持私有化部署,满足企业数据安全需求
发布时间线
- 2026年5月28日:宣布V4.1定档6月
- 2026年6月(预计中旬):正式发布V4.1
- 2026年6月底:API全面开放