Page Agent:驻留网页的 GUI 代理,多场景轻松集成!

发布时间:2026/6/27 23:59:56
Page Agent:驻留网页的 GUI 代理,多场景轻松集成! Page Agent驻留在网页中的 GUI 代理借助自然语言控制网页界面。 英文 | 中文 演示 | 文档 | Hacker News 讨论 | 在 X 上关注[page - agent - demo - 0227.mp4]未给出链接特性 轻松集成无需浏览器扩展、Python 或无头浏览器仅需页面内的 JavaScript 即可所有操作都在网页内完成。 基于文本的 DOM 操作无需截图也不需要多模态大语言模型LLMs或特殊权限。 自带大语言模型可使用自己的大语言模型。 可选的 Chrome 扩展适用于多页面任务还有一个 MCP 服务器测试版可从外部进行控制。使用场景SaaS AI 助手只需几行代码就能在产品中集成 AI 助手无需重写后端。智能表单填写将原本需要 20 次点击的操作简化为一句话非常适合 ERP、CRM 和管理系统。无障碍访问通过自然语言让任何网页应用都能实现无障碍访问支持语音命令和屏幕阅读器零门槛使用。多页面代理借助 Chrome 扩展让你的网页代理能够跨浏览器标签工作。MCP允许代理客户端控制你的浏览器。快速开始一行代码集成使用免费的演示大语言模型来尝试 PageAgent 的最快方式⚠️ 仅用于技术评估。此演示 CDN 使用免费测试大语言模型 API。使用即表示你同意其使用条款。全球镜像 URLhttps://cdn.jsdelivr.net/npm/page - agent1.10.0/dist/iife/page - agent.demo.js中国镜像 URLhttps://registry.npmmirror.com/page - agent/1.10.0/files/dist/iife/page - agent.demo.js可添加 ?autoInitfalse 来加载脚本而不自动创建演示代理之后可以使用 new window.PageAgent(...) 来实例化它。NPM 安装npm install page - agentimport { PageAgent } from page - agent;const agent new PageAgent({ model: qwen3.5 - plus, baseURL: https://dashscope.aliyuncs.com/compatible - mode/v1, apiKey: YOUR_API_KEY, language: en - US,});await agent.execute(Click the login button);更多编程式使用方法请查看 文档。精彩的 Page Agent 项目用 PageAgent 做出了很酷的东西在这里添加你的项目提交一个 Pull Request 来分享你的项目。这些都是社区项目不负责维护或背书请自行决定是否使用。项目描述你的项目提交 PR 贡献欢迎社区贡献请查看 CONTRIBUTING.md 获取贡献指南查看 docs/developer - guide.md 了解本地开发工作流程。请阅读维护者关于原则和当前状态的说明。完全由机器人或 AI 生成且无实质性人工参与的贡献将不被接受。许可证本项目采用 MIT 许可证。致谢本项目基于优秀的 browser - use 项目开发。PageAgent 旨在增强客户端网页功能而非用于服务器端自动化。DOM 处理组件和提示信息源自 browser - useBrowser Use 版权所有 (c) 2024 Gregor Zunic采用 MIT 许可证。衷心感谢 browser - use 项目及其贡献者在网页自动化和 DOM 交互模式方面所做的出色工作正是他们的努力让本项目得以实现。如果你觉得 PageAgent 有用请给这个仓库点个 ⭐