最近发现阿里云开源的 Page Agent 挺有意思,跟大家分享一下我的使用感受。
PageAgent 是一款由阿里巴巴开源的、基于 JavaScript 的 GUI 智能体(GUI Agent)。它最大的亮点在于无需依赖浏览器插件、Python 环境或无头浏览器,仅通过在页面中注入 JavaScript 即可运行。
它允许用户通过自然语言控制网页界面,将复杂的操作流程转化为简单的指令,非常适合用于 SaaS 产品的 AI 助手集成或个人网页自动化任务。
开源仓库:https://github.com/alibaba/page-agent
| 特性维度 | 描述 |
|---|---|
| 技术架构 | 纯前端 JavaScript 实现,基于 LLM(大语言模型)驱动。 |
| 集成方式 | 支持 CDN 直接引入、NPM 包安装,也支持独立的 Chrome 插件。 |
| 核心原理 | 基于文本的 DOM 操作,无需截图或多模态 LLM,直接解析页面元素。 |
| 适用场景 | 智能表单填写、SaaS 产品 Copilot、网页无障碍访问等。 |
如果你是网站开发者,希望为你的用户提供“AI 操控”能力,只需在网页源码中引入一行 JS 代码即可。
实现原理:
快速接入代码:
<script src="https://registry.npmmirror.com/page-agent/1.6.3/files/dist/iife/page-agent.demo.js"></script>
效果: 网站上会出现一个聊天框,用户可以通过文字沟通来自动化处理一些简单任务,无需后端重写。
体验地址: https://cooking.youhun.wang/
如果你不是网站所有者,但希望在日常浏览中使用自动化功能(如在非自家的网站上执行复杂任务),可以使用其提供的 Chrome 扩展程序。
使用方法:
适用场景: 适合完成跨页面任务或对第三方网站进行稍微复杂的自动化操作。
在实际体验中,PageAgent 的表现符合预期,但也存在一定的局限性:
优点:
Puppeteer 或 Selenium,它直接在页面上下文中运行,资源消耗更低。AI Copilot 能力。局限性(体验反馈):
aria-label 或文本内容),Agent 往往会“视而不见”,导致无法点击或输入。Page Agent 是一个挺有想法的项目,把 AI Agent 从“外部操控浏览器”变成了“内部嵌入网页”,架构轻量、接入成本低。但目前在实际使用中,DOM 识别的准确率还有提升空间,复杂任务容易翻车。
不过话说回来,这种纯前端实现 GUI Agent 的思路确实值得学习。如果你对 AI 自动化或者浏览器扩展开发感兴趣,去 GitHub 上看看源码应该能有不少收获。
!评论内容需包含中文