阿里开源Page Agent评测：让大模型直接"看懂"网页DOM的新范式

AI编程 2026-07-03 2 阅读

阿里 Page Agent 开源 AI编程 DOM 网页理解智能体

让AI操控网页一直是个技术难题。传统的做法是让AI通过截图"看"网页，或者通过简单的HTML文本理解网页结构，但这些方法都有明显的局限。2026年7月3日，阿里巴巴正式开源Page Agent，提出了一种全新的思路：让大模型直接理解HTML的DOM树结构，实现精准的网页操作与控制。

技术原理：DOM就是网页的"骨骼"

DOM（Document Object Model）是浏览器将HTML解析后生成的树状数据结构。传统方法的瓶颈在于：

Page Agent的创新在于，它向大模型输入的是结构化的DOM树信息——每个页面元素都带着层级关系、标签类型、位置信息和交互属性。这让AI可以像人类Web开发者一样"理解"网页：这是一个按钮，这是一个表单，这个区域是用来展示搜索结果列表的。

基于DOM理解，Page Agent实现了几个关键能力：

Page Agent已在GitHub开源（github.com/alibaba/page-agent），支持通过DeepSeek、通义千问等国产模型驱动。安装只需一行命令：

pip install page-agent

然后可以通过Python SDK快速构建自己的网页操作Agent。阿里官方还提供了与LangChain、AutoGPT等Agent框架的集成指南。

阿里Page Agent的开源，为AI网页操控领域提供了一种"更聪明"的解决方案。通过让AI理解DOM而非仅仅"看"截图，Page Agent在定位精度和操作鲁棒性上都有显著提升。对于需要用AI实现网页自动化的开发者来说，这绝对是一个值得关注的项目。

想了解更多AI编程和自动化工具，可以查看我们的AI编程工具横评。