03-31 37人
最近发现阿里云开源的 Page Agent 挺有意思,跟大家分享一下我的使用感受。
PageAgent简介
PageAgent 是一款由阿里巴巴开源的、基于 JavaScript 的 GUI 智能体(GUI Agent)。它最大的亮点在于无需依赖浏览器插件、Python 环境或无头浏览器,仅通过在页面中注入 JavaScript 即可运行。
它允许用户通过自然语言控制网页界面,将复杂的操作流程转化为简单的指令,非常适合用于 SaaS 产品的 AI 助手集成或个人网页自动化任务。
开源仓库:https://github.com/alibaba/page-agent
核心特性概览
| 特性维度 | 描述 |
|---|---|
| 技术架构 | 纯前端 JavaScript 实现,基于 LLM(大语言模型)驱动。 |
| 集成方式 | 支持 CDN 直接引入、NPM 包安装,也支持独立的 Chrome 插件。 |
| 核心原理 | 基于文本的 DOM 操作,无需截图或多模态 LLM,直接解析页面元素。 |
| 适用场景 | 智能表单填写、SaaS 产品 Copilot、网页无障碍访问等。 |
两种接入与使用方式
网站所有者:嵌入式 AI 助手
如果你是网站开发者,希望为你的用户提供“AI 操控”能力,只需在网页源码中引入一行 JS 代码即可。
实现原理:
快速接入代码:
<script src="https://registry.npmmirror.com/page-agent/1.6.3/files/dist/iife/page-agent.demo.js"></script>
效果: 网站上会出现一个聊天框,用户可以通过文字沟通来自动化处理一些简单任务,无需后端重写。
体验地址: https://cooking.youhun.wang/
个人用户:浏览器插件扩展
如果你不是网站所有者,但希望在日常浏览中使用自动化功能(如在非自家的网站上执行复杂任务),可以使用其提供的 Chrome 扩展程序。
使用方法:
- 安装官方提供的 Chrome 扩展:https://alibaba.github.io/page-agent/docs/features/chrome-extension/。
- 扩展会注入 Agent 脚本到当前页面。
- 用户可以通过扩展面板发送指令,控制当前标签页。
适用场景: 适合完成跨页面任务或对第三方网站进行稍微复杂的自动化操作。
实际体验:有亮点也有槽点
在实际体验中,PageAgent 的表现符合预期,但也存在一定的局限性:
优点:
- 轻量级: 无需复杂的环境配置,纯 JS 运行,加载速度快。
- 低成本: 相比于
Puppeteer或Selenium,它直接在页面上下文中运行,资源消耗更低。 - 易上手: 开发者集成非常简单,几行代码即可拥有
AI Copilot能力。
局限性(体验反馈):
- DOM 依赖性强: 它的识别逻辑完全依赖于 DOM 模型。如果网页元素缺乏语义化标签(如没有
aria-label或文本内容),Agent 往往会“视而不见”,导致无法点击或输入。 - 简单任务为主: 目前更适合处理逻辑简单的线性任务(如填写表单、点击导航)。对于逻辑极其复杂或动态加载极快的 SPA 应用,可能会出现识别滞后或找不到元素的情况。
- 体验一般: 在一些非标准布局的网站上,交互体验可能不如原生插件流畅。
总结与建议
Page Agent 是一个挺有想法的项目,把 AI Agent 从“外部操控浏览器”变成了“内部嵌入网页”,架构轻量、接入成本低。但目前在实际使用中,DOM 识别的准确率还有提升空间,复杂任务容易翻车。
不过话说回来,这种纯前端实现 GUI Agent 的思路确实值得学习。如果你对 AI 自动化或者浏览器扩展开发感兴趣,去 GitHub 上看看源码应该能有不少收获。
欢迎留言