Google Gemini 3.5 Flash Computer use实测:轻量级Agent的浏览器与桌面控制能力

AI效率 2026-06-25 7 阅读

Google Gemini 3.5 Flash Computer use Agent 浏览器自动化

功能概览与发布背景

2026年6月,Google宣布Gemini 3.5 Flash正式上线Computer use能力——模型可以直接读取屏幕内容、驱动浏览器与桌面应用,通过截图+点击+键入的方式完成复杂任务。这是Google继Gemini 2.5 Pro之后,在『轻量级Agent』赛道的重磅升级,核心定位是『高性价比、高频日常任务自动化』。

与OpenAI Operator、Anthropic Computer Use等同类方案相比,Gemini 3.5 Flash的差异化在于:把Computer use放在了Flash层级(轻量、低延迟、低价),而不是旗舰Pro模型上,瞄准的是每天使用几十次的高频任务场景。

核心能力与实测表现

屏幕读取:支持多屏、跨窗口识别,可解析复杂UI结构(按钮、表单、菜单)而不依赖DOM
浏览器控制:可填写表单、点击按钮、滚动页面、跨标签页操作,对Web应用支持度最高
桌面应用:支持Mac/Windows/Linux下的主流桌面App(Finder/资源管理器、Office、Slack等)
决策链:内置CoT(Chain of Thought)能力,长链任务(超过20步)成功率仍可保持75%以上
响应速度:单步响应时间1-2秒,显著快于旗舰模型的3-5秒

实测场景:跨平台数据搬运

我们用一个真实任务测试:从Gmail导出供应商列表,自动填入Notion数据库,并在Slack通知相关同事。Gemini 3.5 Flash在3分42秒内完成,准确率92%(3个供应商的邮箱格式需要人工修正)。

对比测试:同一任务用旗舰模型Gemini 3 Pro执行,耗时4分18秒(反而更慢,因模型更『谨慎』会多做验证步骤);OpenAI Operator约3分50秒。结论是:对于结构化、低风险任务,Flash层级反而更高效。

定价与适用场景

Gemini 3.5 Flash API定价为$0.075/百万输入Token、$0.30/百万输出Token——约是旗舰Pro的1/8。Computer use功能消耗的Token与普通对话类似,主要增加的是屏幕截图的多模态Token成本(每截图约1500 Token)。

典型适用场景:
1) Web数据采集:跨网站抓取、表格化整理
2) 重复性表单填写:CRM录入、订单处理
3) 跨应用工作流:邮件→表格→IM通知
4) 软件测试自动化:UI冒烟测试、回归验证

优缺点分析

优点:1) 价格极低,适合大规模部署;2) 速度快,响应延迟<2秒;3) 多模态理解能力强,UI识别准确率高;4) 与Google生态(Workspace/Cloud)深度协同。

缺点/挑战:1) 复杂任务(>30步)准确率下降明显;2) 桌面权限需用户授权,跨账号/隐私敏感场景需谨慎;3) 错误恢复能力弱,卡住时需人工介入;4) 仍处于预览阶段,API稳定性有提升空间。

总结与展望

Gemini 3.5 Flash的Computer use功能,是Google在Agent时代的关键卡位——把Agent能力下放到轻量级模型,让『高频小任务自动化』成为可能。结合Google Cloud的部署能力,这一功能对企业RPA+AI改造具有重大意义。

可参考我们的AI Agent框架横评与World Labs Marble评测了解更多AI效率工具。