Mistral Leanstral 1.5评测：119B开源形式化验证模型，587道Putnam难题一网打尽

AI聊天 2026-07-04 3 阅读

Mistral Leanstral 开源模型形式化验证数学推理

法国AI明星公司Mistral AI近日发布了Leanstral 1.5，一款令人瞩目的开源形式化验证大模型。它不仅在数学推理基准测试中表现出色，还在实战代码审计中发现了5个此前未知的安全漏洞。本文将带您深度解析这款非主流赛道的重磅模型。

核心参数一览

总参数量	119B（1190亿）
活跃参数	6B（60亿，MoE架构）
开源协议	Apache-2.0（完全开放）
核心能力	形式化验证、数学定理证明、代码漏洞发现
获取方式	Hugging Face + 免费API

数学推理：Putnam竞赛级表现

Leanstral 1.5在miniF2F基准测试中达到饱和性能——这意味着测试集已不足以区分更强的模型。在更具挑战性的PutnamBench中，模型成功解决了587/672道难题，与人类顶尖数学选手的水平相当。这得益于其专门针对Lean定理证明器优化的架构设计，能够将自然语言数学问题自动转化为形式化证明。

值得关注的是，与通用的编程大模型（如Claude Code、GPT-5.6）不同，Leanstral专注于形式化验证这一细分领域，以6B活跃参数的轻量化架构实现了接近教师模型的性能。

代码安全审计：发现5个零日漏洞

在实战测试中，Leanstral 1.5被用于审计真实的开源项目代码，成功发现了5个此前未知的安全漏洞。这在AI代码审计领域是一个里程碑式的成果。传统静态分析工具常产生大量误报，而LLM又容易遗漏边界条件——Leanstral凭借形式化方法，能在数学层面严格证明代码的正确性，大幅降低了漏报率。

适用场景与局限

适用场景：

学术研究：数学定理证明、形式化验证研究
安全审计：智能合约、关键基础设施代码的形式化验证
教育领域：辅助数学和计算机科学教学，自动生成形式化证明
芯片验证：硬件设计的正确性证明

当前局限：

仅支持Lean定理证明器，生态相对狭窄
通用对话和创意写作能力弱于通用大模型
中文支持有限，主要面向英文数学社区
119B总参数对本地部署仍有较高硬件要求

总结：AI推理的新范式

Leanstral 1.5代表了AI模型从"经验性理解"到"严格性推理"的重要转型。它不是用来聊天或写文章的，而是用来做数学证明和安全审计的。Apache-2.0开源协议意味着企业可自由商用，这对于金融科技、区块链、航空航天等对代码正确性要求极高的行业而言，价值不可估量。更多AI编程和安全工具，可查看AiVsly AI工具导航。