Gemini 3.5 Flash翻车：谷歌自家基准测试仅排第六，成本却最高

AI聊天 2026-06-16 2 阅读

Gemini Android Bench AI模型评测性价比 GPT-5.5

谷歌自测翻车：Gemini 3.5 Flash仅排第六

2026年6月16日，谷歌更新了其Android Bench榜单——这是谷歌官方推出的安卓开发任务基准测试，用于评估AI模型在代码编写、问题解决与开发辅助方面的实际能力。结果令人意外：谷歌在I/O 2026大力宣传的Gemini 3.5 Flash仅排名第六。

Android Bench完整排名

排名	模型	得分
1	OpenAI GPT-5.5	74.0
2	OpenAI GPT-5.4	72.4
3	Google Gemini 3.1 Pro Preview	72.4
4	Claude Opus 4.7	68.7
5	Claude Opus 4.6	66.6
6	Google Gemini 3.5 Flash	63.7
7	智谱 GLM 5.1	59.7
8	Kimi K2.6	58.6

成本最贵：单次运行147美元

更令人震惊的是成本数据。Gemini 3.5 Flash平均每次基准测试消耗3.559亿Tokens，单次运行成本高达147.1美元（约996元人民币），是榜单中成本最高的模型。

对比之下：

Gemini 3.1 Pro Preview：约49美元，是3.5 Flash的1/3，得分却更高
DeepSeek V4 Flash：仅8.4美元（约57元），成本是3.5 Flash的1/17.5

Gemini 3.5 Flash的性价比之低，让人不得不质疑谷歌的定价策略和模型设计。

宣传与实际的巨大落差

在I/O 2026发布会上，谷歌宣称Gemini 3.5 Flash是"迄今最强的Flash模型"，强调编码能力更稳健，适合AI智能体与复杂工作流，输出速度最高可达竞争模型的4倍。然而在真实的安卓开发场景中，Gemini 3.5 Flash未体现出应有优势——不仅排名落后于同门的Gemini 3.1 Pro Preview，成本更是榜单中最高。

对开发者的选型建议

从性价比角度，开发者应关注以下选择：

追求性价比：DeepSeek V4 Flash，单次成本仅8.4美元，得分52.7
追求质量：GPT-5.5或Gemini 3.1 Pro Preview，得分72-74
追求均衡：Claude Opus 4.7，得分68.7，成本适中

Gemini 3.5 Flash目前处于一个尴尬位置——既不够便宜，也不够强大。谷歌需要重新审视这个模型的定位和定价策略。