阿里Qwen3.7-Plus发布:多模态智能体模型,看懂界面操作应用生成代码

AI聊天 2026-06-20 2 阅读
通义千问 Qwen3.7 多模态智能体 阿里云 Agent模型 国产大模型

事件背景:Qwen3.7-Plus的发布

2026年6月12日,阿里巴巴在 2026 阿里云峰会上正式发布 Qwen3.7-Plus 多模态智能体模型。这是 Qwen3.7 系列的第二款重要产品,主打"看懂界面、操作应用、生成代码"三大核心能力,是国产大模型向"Agent 时代"全面进化的标志性产品。在 Arena 全球大模型盲测榜单上,Qwen3.7-Plus 文本赛道登顶国产第一。

核心能力一:看懂界面

技术原理

Qwen3.7-Plus 采用原生多模态架构,将屏幕截图、UI 元素、用户操作统一建模为"视觉-动作"序列:

1)UI 元素识别:精确识别按钮、文本框、下拉菜单、滑块等 UI 元素及其状态。

2)空间关系理解:理解 UI 元素的层级、位置、相对关系。

3)动态界面跟踪:支持视频流的实时分析,捕捉界面变化。

4)跨平台适配:支持 Web、桌面、移动 App 三大平台。

实际能力

1)截图问答:用户截一张图,模型能理解并回答相关问题。

2)界面翻译:将英文界面翻译为中文,保留布局和样式。

3)UI 审查:自动检测界面设计中的可用性问题。

核心能力二:操作应用

Agent 能力

Qwen3.7-Plus 支持端到端的应用操作能力:

1)浏览器操作:自动打开网页、填写表单、点击按钮、提取信息。

2)桌面应用:操作 Excel、Word、Photoshop 等桌面软件。

3)移动 App:控制手机 App 完成自动化任务。

4)跨应用协同:在不同应用间传递数据,完成复杂工作流。

实测案例

1)场景一:出差报销——用户说"帮我报销这次出差的发票",Agent 自动从邮箱提取发票,填入报销系统,提交审批。

2)场景二:周报生成——Agent 自动收集本周项目进度,整理成结构化周报,发送给指定同事。

3)场景三:网购比价——用户说"帮我买个最便宜的 65W 氮化镓充电器",Agent 自动搜索三大电商平台,筛选最优选项。

核心能力三:生成代码

编程能力

Qwen3.7-Plus 在代码生成上实现新突破:

1)HumanEval:得分 91.8%,与 Claude 4 Opus(93.5%)接近。

2)SWE-bench:得分 73.5%,在国产模型中领先。

3)LiveCodeBench:得分 69.2%,超过 GPT-5(69.8%)。

4)RepoBench:跨文件代码补全得分 82.7%,表现优秀。

特色能力

1)UI 还原代码:看到设计稿直接生成对应前端代码(HTML/CSS/React/Vue)。

2)截图生成代码:上传 App 截图,生成对应的实现代码。

3)视频生成代码:分析演示视频,生成模拟相同交互的代码。

技术架构深度解析

基础参数

1)总参数:约 720B(MoE 架构)

2)激活参数:约 36B

3)上下文窗口:256K Token

4)多模态:原生支持文本、图像、视频、音频

核心创新

1)UI-Vision 预训练:在 5000 万张 UI 截图、100 万段操作视频上预训练。

2)Agent RL:基于强化学习的 Agent 训练,奖励信号来自任务完成度。

3)工具学习:支持 50+ 工具调用协议,涵盖浏览器、办公软件、数据库等。

4)长期记忆:支持跨会话的长期记忆,提供个性化服务。

应用场景

1)企业自动化

1. 流程自动化(RPA):替代传统 RPA 工具,更智能、更灵活。

2. 智能客服:不只是回答问题,而是直接帮用户操作解决问题。

3. 数据分析:自动从多个数据源提取信息,生成分析报告。

2)开发者工具

1. AI 编程助手:集成到 VS Code、JetBrains 等 IDE。

2. UI 转代码:前端开发的革命性工具。

3. 自动化测试:基于视觉理解的 UI 自动化测试。

3)个人效率

1. 智能助手:理解用户需求,直接操作 App 完成。

2. 学习辅导:看懂学生操作界面,提供针对性指导。

3. 无障碍辅助:帮助视障用户操作数字界面。

价格与可用性

1)API 价格:输入 0.0008 元/千 Token,输出 0.002 元/千 Token(约 GPT-5 的 1/20)。

2)免费额度:新用户首月 100 万 Token。

3)部署选项:支持阿里云百炼 API、本地部署、专有云。

4)开源计划:基础版本计划在 7 月开源。

与同类模型对比

模型UI 理解Agent 能力代码生成价格
Qwen3.7-Plus⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐极低
GPT-5⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Claude 4 Opus⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Gemini 2.5 Pro⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐中等

对国产 AI 生态的意义

1)Agent 时代引领者:Qwen3.7-Plus 在多模态 Agent 能力上达到国际领先水平。

2)价格屠夫:极低的 API 价格将加速 Agent 应用的普及。

3)开源反哺:开源基础版将惠及整个国产 AI 生态。

局限与挑战

1)复杂任务稳定性:在多步骤复杂任务上仍有失败率。

2)实时性:大模型推理延迟影响交互体验。

3)安全合规:Agent 操作涉及权限和数据安全问题。

总结:国产 Agent 时代的"破壁者"

Qwen3.7-Plus 的发布标志着国产大模型在 Agent 时代的全面崛起。配合豆包任务模式GPT-5.4 药物合成,2026 年下半年 AI Agent 将进入"真应用"阶段。对关注AI 聊天助手AI 效率工具的从业者,Qwen3.7-Plus 是不可错过的国产新标杆。