让AI操控网页一直是个技术难题。传统的做法是让AI通过截图"看"网页,或者通过简单的HTML文本理解网页结构,但这些方法都有明显的局限。2026年7月3日,阿里巴巴正式开源Page Agent,提出了一种全新的思路:让大模型直接理解HTML的DOM树结构,实现精准的网页操作与控制。
技术原理:DOM就是网页的"骨骼"
DOM(Document Object Model)是浏览器将HTML解析后生成的树状数据结构。传统方法的瓶颈在于:
- 截图方案:AI只能"看到"像素,无法理解页面元素的层级关系和可交互性
- 纯文本方案:丢失了HTML标签中的结构信息(如按钮、输入框、链接等)
- 坐标方案:不同屏幕分辨率下坐标会漂移,鲁棒性差
Page Agent的创新在于,它向大模型输入的是结构化的DOM树信息——每个页面元素都带着层级关系、标签类型、位置信息和交互属性。这让AI可以像人类Web开发者一样"理解"网页:这是一个按钮,这是一个表单,这个区域是用来展示搜索结果列表的。
核心能力:精准的网页操作
基于DOM理解,Page Agent实现了几个关键能力:
- 精准元素定位:通过DOM选择器(CSS选择器/XPath)精确找到目标元素,而非"大概在页面上方三分之一处"的模糊描述
- 智能表单填写:理解表单字段的含义("姓名""邮箱""密码"),自动匹配和填写
- 动态页面处理:能识别SPA(单页应用)和AJAX加载的内容,不依赖页面截图
- 错误恢复:当操作失败时,能回溯DOM变化找到失败原因并重试
与现有方案的对比
| 方案 | 定位精度 | 动态页面 | 速度 | 成本 |
|---|---|---|---|---|
| Page Agent (DOM) | ⭐⭐⭐⭐⭐ | ⭐���⭐⭐⭐ | ⭐⭐⭐⭐ | 低 |
| 截图+视觉模型 | ⭐⭐⭐ | ⭐⭐ | ⭐⭐ | 高 |
| Playwright MCP | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | 中 |
实际应用场景
- 自动化测试:替代Selenium/Playwright,用自然语言编写测试用例
- 数据采集:即使目标网站改版,AI也能自适应定位目标数据
- RPA(机器人流程自动化):让AI完成报销审批、订单录入等需要操作网页后台的工作
- Web应用无障碍:帮助视障用户通过自然语言操作网页
如何开始使用
Page Agent已在GitHub开源(github.com/alibaba/page-agent),支持通过DeepSeek、通义千问等国产模型驱动。安装只需一行命令:
pip install page-agent
然后可以通过Python SDK快速构建自己的网页操作Agent。阿里官方还提供了与LangChain、AutoGPT等Agent框架的集成指南。
总结
阿里Page Agent的开源,为AI网页操控领域提供了一种"更聪明"的解决方案。通过让AI理解DOM而非仅仅"看"截图,Page Agent在定位精度和操作鲁棒性上都有显著提升。对于需要用AI实现网页自动化的开发者来说,这绝对是一个值得关注的项目。
想了解更多AI编程和自动化工具,可以查看我们的AI编程工具横评。