当前位置: 首页 > 技术教程 > 正文
流量卡

让AI住进网页里:Page Agent 纯前端自动化初探

游魂 发表于2026年3月31日 14:54

最近发现阿里云开源的 Page Agent 挺有意思,跟大家分享一下我的使用感受。

PageAgent简介

PageAgent 是一款由阿里巴巴开源的、基于 JavaScript 的 GUI 智能体(GUI Agent)。它最大的亮点在于无需依赖浏览器插件、Python 环境或无头浏览器,仅通过在页面中注入 JavaScript 即可运行。

它允许用户通过自然语言控制网页界面,将复杂的操作流程转化为简单的指令,非常适合用于 SaaS 产品的 AI 助手集成或个人网页自动化任务。

开源仓库:https://github.com/alibaba/page-agent

image-20260331142620208

核心特性概览

特性维度 描述
技术架构 纯前端 JavaScript 实现,基于 LLM(大语言模型)驱动。
集成方式 支持 CDN 直接引入、NPM 包安装,也支持独立的 Chrome 插件。
核心原理 基于文本的 DOM 操作,无需截图或多模态 LLM,直接解析页面元素。
适用场景 智能表单填写、SaaS 产品 Copilot、网页无障碍访问等。

两种接入与使用方式

网站所有者:嵌入式 AI 助手

如果你是网站开发者,希望为你的用户提供“AI 操控”能力,只需在网页源码中引入一行 JS 代码即可。

实现原理:

快速接入代码:

<script src="https://registry.npmmirror.com/page-agent/1.6.3/files/dist/iife/page-agent.demo.js"></script>

效果: 网站上会出现一个聊天框,用户可以通过文字沟通来自动化处理一些简单任务,无需后端重写。

体验地址: https://cooking.youhun.wang/

网站接入

执行任务

个人用户:浏览器插件扩展

如果你不是网站所有者,但希望在日常浏览中使用自动化功能(如在非自家的网站上执行复杂任务),可以使用其提供的 Chrome 扩展程序。

使用方法:

  1. 安装官方提供的 Chrome 扩展:https://alibaba.github.io/page-agent/docs/features/chrome-extension/。
  2. 扩展会注入 Agent 脚本到当前页面。
  3. 用户可以通过扩展面板发送指令,控制当前标签页。

适用场景: 适合完成跨页面任务或对第三方网站进行稍微复杂的自动化操作。

浏览器插件扩展

实际体验:有亮点也有槽点

在实际体验中,PageAgent 的表现符合预期,但也存在一定的局限性:

优点:

局限性(体验反馈):

总结与建议

Page Agent 是一个挺有想法的项目,把 AI Agent 从“外部操控浏览器”变成了“内部嵌入网页”,架构轻量、接入成本低。但目前在实际使用中,DOM 识别的准确率还有提升空间,复杂任务容易翻车。

不过话说回来,这种纯前端实现 GUI Agent 的思路确实值得学习。如果你对 AI 自动化或者浏览器扩展开发感兴趣,去 GitHub 上看看源码应该能有不少收获。

全文完
本文标签: jsAI助手PageAgent纯前端自动化网页自动化LLMAgent
本文标题: 让AI住进网页里:Page Agent 纯前端自动化初探
本文链接: https://www.iyouhun.com/m/?post=313

〓 随机文章推荐

上一篇: 已经是最新一篇
共有114阅 / 0我要评论
  1. 还没有评论呢,快抢沙发~

发表你的评论吧返回顶部

!评论内容需包含中文

请勾选本项再提交评论