阿里Qwen3.7-Plus发布：多模态智能体模型，看懂界面操作应用生成代码

AI聊天 2026-06-20 2 阅读

通义千问 Qwen3.7 多模态智能体阿里云 Agent模型国产大模型

事件背景：Qwen3.7-Plus的发布

2026年6月12日，阿里巴巴在 2026 阿里云峰会上正式发布 Qwen3.7-Plus 多模态智能体模型。这是 Qwen3.7 系列的第二款重要产品，主打"看懂界面、操作应用、生成代码"三大核心能力，是国产大模型向"Agent 时代"全面进化的标志性产品。在 Arena 全球大模型盲测榜单上，Qwen3.7-Plus 文本赛道登顶国产第一。

核心能力一：看懂界面

技术原理

Qwen3.7-Plus 采用原生多模态架构，将屏幕截图、UI 元素、用户操作统一建模为"视觉-动作"序列：

1）UI 元素识别：精确识别按钮、文本框、下拉菜单、滑块等 UI 元素及其状态。

2）空间关系理解：理解 UI 元素的层级、位置、相对关系。

3）动态界面跟踪：支持视频流的实时分析，捕捉界面变化。

4）跨平台适配：支持 Web、桌面、移动 App 三大平台。

实际能力

1）截图问答：用户截一张图，模型能理解并回答相关问题。

2）界面翻译：将英文界面翻译为中文，保留布局和样式。

3）UI 审查：自动检测界面设计中的可用性问题。

核心能力二：操作应用

Agent 能力

Qwen3.7-Plus 支持端到端的应用操作能力：

1）浏览器操作：自动打开网页、填写表单、点击按钮、提取信息。

2）桌面应用：操作 Excel、Word、Photoshop 等桌面软件。

3）移动 App：控制手机 App 完成自动化任务。

4）跨应用协同：在不同应用间传递数据，完成复杂工作流。

实测案例

1）场景一：出差报销——用户说"帮我报销这次出差的发票"，Agent 自动从邮箱提取发票，填入报销系统，提交审批。

2）场景二：周报生成——Agent 自动收集本周项目进度，整理成结构化周报，发送给指定同事。

3）场景三：网购比价——用户说"帮我买个最便宜的 65W 氮化镓充电器"，Agent 自动搜索三大电商平台，筛选最优选项。

核心能力三：生成代码

编程能力

Qwen3.7-Plus 在代码生成上实现新突破：

1）HumanEval：得分 91.8%，与 Claude 4 Opus（93.5%）接近。

2）SWE-bench：得分 73.5%，在国产模型中领先。

3）LiveCodeBench：得分 69.2%，超过 GPT-5（69.8%）。

4）RepoBench：跨文件代码补全得分 82.7%，表现优秀。

特色能力

1）UI 还原代码：看到设计稿直接生成对应前端代码（HTML/CSS/React/Vue）。

2）截图生成代码：上传 App 截图，生成对应的实现代码。

3）视频生成代码：分析演示视频，生成模拟相同交互的代码。

技术架构深度解析

基础参数

1）总参数：约 720B（MoE 架构）

2）激活参数：约 36B

3）上下文窗口：256K Token

4）多模态：原生支持文本、图像、视频、音频

核心创新

1）UI-Vision 预训练：在 5000 万张 UI 截图、100 万段操作视频上预训练。

2）Agent RL：基于强化学习的 Agent 训练，奖励信号来自任务完成度。

3）工具学习：支持 50+ 工具调用协议，涵盖浏览器、办公软件、数据库等。

4）长期记忆：支持跨会话的长期记忆，提供个性化服务。

应用场景

1）企业自动化

1. 流程自动化（RPA）：替代传统 RPA 工具，更智能、更灵活。

2. 智能客服：不只是回答问题，而是直接帮用户操作解决问题。

3. 数据分析：自动从多个数据源提取信息，生成分析报告。

2）开发者工具

1. AI 编程助手：集成到 VS Code、JetBrains 等 IDE。

2. UI 转代码：前端开发的革命性工具。

3. 自动化测试：基于视觉理解的 UI 自动化测试。

3）个人效率

1. 智能助手：理解用户需求，直接操作 App 完成。

2. 学习辅导：看懂学生操作界面，提供针对性指导。

3. 无障碍辅助：帮助视障用户操作数字界面。

价格与可用性

1）API 价格：输入 0.0008 元/千 Token，输出 0.002 元/千 Token（约 GPT-5 的 1/20）。

2）免费额度：新用户首月 100 万 Token。

3）部署选项：支持阿里云百炼 API、本地部署、专有云。

4）开源计划：基础版本计划在 7 月开源。

与同类模型对比

模型	UI 理解	Agent 能力	代码生成	价格
Qwen3.7-Plus	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	极低
GPT-5	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	高
Claude 4 Opus	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	高
Gemini 2.5 Pro	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	中等

对国产 AI 生态的意义

1）Agent 时代引领者：Qwen3.7-Plus 在多模态 Agent 能力上达到国际领先水平。

2）价格屠夫：极低的 API 价格将加速 Agent 应用的普及。

3）开源反哺：开源基础版将惠及整个国产 AI 生态。

局限与挑战

1）复杂任务稳定性：在多步骤复杂任务上仍有失败率。

2）实时性：大模型推理延迟影响交互体验。

3）安全合规：Agent 操作涉及权限和数据安全问题。

总结：国产 Agent 时代的"破壁者"

Qwen3.7-Plus 的发布标志着国产大模型在 Agent 时代的全面崛起。配合豆包任务模式和GPT-5.4 药物合成，2026 年下半年 AI Agent 将进入"真应用"阶段。对关注AI 聊天助手和AI 效率工具的从业者，Qwen3.7-Plus 是不可错过的国产新标杆。