2026年6月初,AI行业迎来有史以来最密集的开源模型发布周。在短短数天内,超过25款开放权重模型集中亮相,覆盖大语言模型、图像生成、语音合成、视频生成、3D重建六大模态。这是开源AI生态的一次集体爆发。
大语言模型:三足鼎立
本周最大的亮点来自NVIDIA、Google和JetBrains三家:NVIDIA Nemotron 3 Ultra以550B Mamba-MoE架构成为首个公开权重500B+模型;Google Gemma 4 12B以Apache 2.0许可提供笔记本级可运行的多模态能力;JetBrains Mellum2以12B MoE架构在编程领域以1/5激活参数逼近Qwen3-14B的表现。
图像生成:Ideogram 4开源首秀
Ideogram 4以9.3B流匹配DiT架构开源,原生2K分辨率加JSON结构化提示词,在Design Arena榜单登顶开源模型榜首。这是Ideogram系列首次开放权重,标志着高质量AI图像生成进入"可控可编程"的新阶段。
语音与音乐:情感化生成崛起
语音合成领域的竞争尤为激烈:Boson AI的Higgs Audio v3支持100+语言情感标签控制;小红书dots.tts采用48kHz全连续自回归架构;Google Magenta RealTime 2实现200ms延迟的实时音乐生成。这些模型共同推动AI音频从"拟声"走向"传情"。
视频与3D:物理AI的前奏
NVIDIA Cosmos3-Super以64B参数实现物理AI全模态生成——可关联动作轨迹与视频+音频输出;字节跳动JoyAI-Echo支持5分钟多镜头视频;VAST TripoSplat实现单张图像到3D高斯泼溅模型的即时转换。这些模型代表了AI从"虚拟世界"走向"物理世界"的趋势。
趋势解读
本周发布周揭示了几个关键趋势:第一,Mamba-MoE混合架构成为新主流,在长序列处理上展现出优势;第二,开源模型从"追赶者"变为"引领者",在多个领域已经接近甚至超越闭源模型;第三,多模态一体化成为标配,纯文本模型的时代正在成为过去。
总结
2026年6月的这波开源发布潮,既是AI技术民主化的里程碑,也是行业竞争格局的缩影。开源不再只是"穷人的选择"——它正在成为技术创新的主战场。