2026年6月,法国AI公司H Company发布了Holo3.1——一款专为计算机操控设计的视觉语言模型(VLM)系列。Holo3.1能够像人类一样"看懂"屏幕内容、理解UI元素、并执行点击、输入、滑动等操作,在Web、桌面和移动端实现全平台的Agent自动化。
四种规格满足不同需求
Holo3.1提供了从轻量到高性能的四种模型规格:
| 规格 | 参数量 | 适用场景 | 最低硬件 |
|---|---|---|---|
| Nano | 0.8B | 简单表单填写、点击导航 | CPU即可 |
| Small | 4B | 网页浏览、数据采集 | 4GB VRAM |
| Medium | 9B | 复杂网页操作、多步骤任务 | 8GB VRAM |
| Large | 35B (激活3B) | 企业级自动化、复杂应用操控 | 16GB VRAM |
核心功能
跨平台操控
Holo3.1支持三大平台的UI操控:
- Web端:理解网页DOM结构和视觉布局,自动完成表单填写、数据抓取、购物下单等操作
- 桌面端:识别Windows/macOS/Linux桌面应用的UI元素,执行点击、拖拽、键盘输入
- 移动端:理解Android和iOS的屏幕内容,自动操作App
原生函数调用支持
Holo3.1内置了函数调用(Function Calling)能力,这意味着它可以作为更大AI工作流中的一个环节。例如,它可以接收来自GPT-5或Claude的指令,然后去执行具体的UI操作,最后将结果返回给上层AI Agent。
量化检查点
Holo3.1提供了多种量化版本(4-bit、8-bit),让用户可以根据硬件条件灵活选择。即使是35B规格的模型,经过4-bit量化后仅需约16GB VRAM即可运行。
应用场景
- RPA替代方案:用AI Agent替代传统的机器人流程自动化
- 数据采集:自动浏览网页收集结构化数据
- 测试自动化:自动执行UI测试用例,无需编写脚本
- 个人助理:自动化日常的电脑操作任务
优缺点分析
优点:
- 四种规格覆盖从轻量到企业级需求
- 完全本地部署,数据不出设备
- 原生函数调用支持,可融入更大的AI工作流
- 免费下载使用
不足:
- 复杂UI操作的成功率仍有波动
- 需要一定的技术能力进行部署和调优
- 中文UI的识别精度不如英文UI
评测总结
Holo3.1是2026年AI Agent领域的一个重要发展方向——让AI真正"使用"计算机。从0.8B到35B的四种规格意味着从个人开发者到大型企业都能找到适合自己的方案。虽然目前的技术成熟度还不足以完全替代人工操作,但在数据采集、测试自动化和简单RPA场景中已经展现出巨大的实用价值。