谷歌自测翻车:Gemini 3.5 Flash仅排第六
2026年6月16日,谷歌更新了其Android Bench榜单——这是谷歌官方推出的安卓开发任务基准测试,用于评估AI模型在代码编写、问题解决与开发辅助方面的实际能力。结果令人意外:谷歌在I/O 2026大力宣传的Gemini 3.5 Flash仅排名第六。
Android Bench完整排名
| 排名 | 模型 | 得分 |
|---|---|---|
| 1 | OpenAI GPT-5.5 | 74.0 |
| 2 | OpenAI GPT-5.4 | 72.4 |
| 3 | Google Gemini 3.1 Pro Preview | 72.4 |
| 4 | Claude Opus 4.7 | 68.7 |
| 5 | Claude Opus 4.6 | 66.6 |
| 6 | Google Gemini 3.5 Flash | 63.7 |
| 7 | 智谱 GLM 5.1 | 59.7 |
| 8 | Kimi K2.6 | 58.6 |
成本最贵:单次运行147美元
更令人震惊的是成本数据。Gemini 3.5 Flash平均每次基准测试消耗3.559亿Tokens,单次运行成本高达147.1美元(约996元人民币),是榜单中成本最高的模型。
对比之下:
- Gemini 3.1 Pro Preview:约49美元,是3.5 Flash的1/3,得分却更高
- DeepSeek V4 Flash:仅8.4美元(约57元),成本是3.5 Flash的1/17.5
Gemini 3.5 Flash的性价比之低,让人不得不质疑谷歌的定价策略和模型设计。
宣传与实际的巨大落差
在I/O 2026发布会上,谷歌宣称Gemini 3.5 Flash是"迄今最强的Flash模型",强调编码能力更稳健,适合AI智能体与复杂工作流,输出速度最高可达竞争模型的4倍。然而在真实的安卓开发场景中,Gemini 3.5 Flash未体现出应有优势——不仅排名落后于同门的Gemini 3.1 Pro Preview,成本更是榜单中最高。
对开发者的选型建议
从性价比角度,开发者应关注以下选择:
- 追求性价比:DeepSeek V4 Flash,单次成本仅8.4美元,得分52.7
- 追求质量:GPT-5.5或Gemini 3.1 Pro Preview,得分72-74
- 追求均衡:Claude Opus 4.7,得分68.7,成本适中
Gemini 3.5 Flash目前处于一个尴尬位置——既不够便宜,也不够强大。谷歌需要重新审视这个模型的定位和定价策略。