法国AI明星公司Mistral AI近日发布了Leanstral 1.5,一款令人瞩目的开源形式化验证大模型。它不仅在数学推理基准测试中表现出色,还在实战代码审计中发现了5个此前未知的安全漏洞。本文将带您深度解析这款非主流赛道的重磅模型。
核心参数一览
| 总参数量 | 119B(1190亿) |
| 活跃参数 | 6B(60亿,MoE架构) |
| 开源协议 | Apache-2.0(完全开放) |
| 核心能力 | 形式化验证、数学定理证明、代码漏洞发现 |
| 获取方式 | Hugging Face + 免费API |
数学推理:Putnam竞赛级表现
Leanstral 1.5在miniF2F基准测试中达到饱和性能——这意味着测试集已不足以区分更强的模型。在更具挑战性的PutnamBench中,模型成功解决了587/672道难题,与人类顶尖数学选手的水平相当。这得益于其专门针对Lean定理证明器优化的架构设计,能够将自然语言数学问题自动转化为形式化证明。
值得关注的是,与通用的编程大模型(如Claude Code、GPT-5.6)不同,Leanstral专注于形式化验证这一细分领域,以6B活跃参数的轻量化架构实现了接近教师模型的性能。
代码安全审计:发现5个零日漏洞
在实战测试中,Leanstral 1.5被用于审计真实的开源项目代码,成功发现了5个此前未知的安全漏洞。这在AI代码审计领域是一个里程碑式的成果。传统静态分析工具常产生大量误报,而LLM又容易遗漏边界条件——Leanstral凭借形式化方法,能在数学层面严格证明代码的正确性,大幅降低了漏报率。
适用场景与局限
适用场景:
- 学术研究:数学定理证明、形式化验证研究
- 安全审计:智能合约、关键基础设施代码的形式化验证
- 教育领域:辅助数学和计算机科学教学,自动生成形式化证明
- 芯片验证:硬件设计的正确性证明
当前局限:
- 仅支持Lean定理证明器,生态相对狭窄
- 通用对话和创意写作能力弱于通用大模型
- 中文支持有限,主要面向英文数学社区
- 119B总参数对本地部署仍有较高硬件要求
总结:AI推理的新范式
Leanstral 1.5代表了AI模型从"经验性理解"到"严格性推理"的重要转型。它不是用来聊天或写文章的,而是用来做数学证明和安全审计的。Apache-2.0开源协议意味着企业可自由商用,这对于金融科技、区块链、航空航天等对代码正确性要求极高的行业而言,价值不可估量。更多AI编程和安全工具,可查看AiVsly AI工具导航。