阿里开源Page Agent评测:让大模型直接"看懂"网页DOM的新范式

AI编程 2026-07-03 2 阅读
阿里 Page Agent 开源 AI编程 DOM 网页理解 智能体

让AI操控网页一直是个技术难题。传统的做法是让AI通过截图"看"网页,或者通过简单的HTML文本理解网页结构,但这些方法都有明显的局限。2026年7月3日,阿里巴巴正式开源Page Agent,提出了一种全新的思路:让大模型直接理解HTML的DOM树结构,实现精准的网页操作与控制。

技术原理:DOM就是网页的"骨骼"

DOM(Document Object Model)是浏览器将HTML解析后生成的树状数据结构。传统方法的瓶颈在于:

  • 截图方案:AI只能"看到"像素,无法理解页面元素的层级关系和可交互性
  • 纯文本方案:丢失了HTML标签中的结构信息(如按钮、输入框、链接等)
  • 坐标方案:不同屏幕分辨率下坐标会漂移,鲁棒性差

Page Agent的创新在于,它向大模型输入的是结构化的DOM树信息——每个页面元素都带着层级关系、标签类型、位置信息和交互属性。这让AI可以像人类Web开发者一样"理解"网页:这是一个按钮,这是一个表单,这个区域是用来展示搜索结果列表的。

核心能力:精准的网页操作

基于DOM理解,Page Agent实现了几个关键能力:

  • 精准元素定位:通过DOM选择器(CSS选择器/XPath)精确找到目标元素,而非"大概在页面上方三分之一处"的模糊描述
  • 智能表单填写:理解表单字段的含义("姓名""邮箱""密码"),自动匹配和填写
  • 动态页面处理:能识别SPA(单页应用)和AJAX加载的内容,不依赖页面截图
  • 错误恢复:当操作失败时,能回溯DOM变化找到失败原因并重试

与现有方案的对比

方案定位精度动态页面速度成本
Page Agent (DOM)⭐⭐⭐⭐⭐⭐���⭐⭐⭐⭐⭐⭐⭐
截图+视觉模型⭐⭐⭐⭐⭐⭐⭐
Playwright MCP⭐⭐⭐⭐⭐⭐⭐⭐⭐

实际应用场景

  • 自动化测试:替代Selenium/Playwright,用自然语言编写测试用例
  • 数据采集:即使目标网站改版,AI也能自适应定位目标数据
  • RPA(机器人流程自动化):让AI完成报销审批、订单录入等需要操作网页后台的工作
  • Web应用无障碍:帮助视障用户通过自然语言操作网页

如何开始使用

Page Agent已在GitHub开源(github.com/alibaba/page-agent),支持通过DeepSeek通义千问等国产模型驱动。安装只需一行命令:

pip install page-agent

然后可以通过Python SDK快速构建自己的网页操作Agent。阿里官方还提供了与LangChain、AutoGPT等Agent框架的集成指南。

总结

阿里Page Agent的开源,为AI网页操控领域提供了一种"更聪明"的解决方案。通过让AI理解DOM而非仅仅"看"截图,Page Agent在定位精度和操作鲁棒性上都有显著提升。对于需要用AI实现网页自动化的开发者来说,这绝对是一个值得关注的项目。

想了解更多AI编程和自动化工具,可以查看我们的AI编程工具横评