你有没有试过在网页上反复点击、填表、切换标签页,只为完成一个简单操作?Page Agent 就是这样一个“住在网页里的 AI 助手”——它不是插件、不依赖后端,只需一行代码接入,就能听懂你的中文指令(比如“把价格低于200的商品加入购物车”“登录后跳转到订单页”),自动操控当前页面完成任务。它把大模型的“理解力”和浏览器的“执行力”真正缝合在一起,让 Web 界面第一次拥有了自然语言交互能力。
核心功能
- 零扩展、纯前端运行:无需安装浏览器插件,不调用外部服务,所有逻辑在页面内执行,隐私安全有保障
- 中文自然语言直控界面:支持“筛选最新发布的5条评论”“点击‘立即支付’按钮并截图”等口语化指令,语义理解精准稳定
- 智能元素识别与操作:自动解析 DOM 结构,准确定位按钮、输入框、表格、弹窗等组件,支持点击、输入、滚动、截图、等待等完整动作链
- 轻量可嵌入:压缩后仅约 85KB(BundlePhobia 数据),支持 CDN 直接引入或 npm 安装,3 分钟即可集成到任意网站
- 开发者友好调试体验:内置可视化控制台,实时显示指令解析过程、元素高亮、执行日志,便于排查与优化
- 开放协议兼容未来:遵循 MCP(Model Communication Protocol)设计,可与本地 LLM 或私有推理服务对接,避免厂商锁定
适合哪些人用
前端工程师可以用它快速为内部系统添加语音/文本辅助操作;产品经理能基于它搭建原型级 AI 工作流,验证用户交互逻辑;测试同学可编写自然语言用例替代部分 Selenium 脚本;而普通用户——尤其是经常处理多步骤网页操作的运营、客服、电商从业者——只需打开网页,唤出 Page Agent 面板,说句话就能让页面“听话办事”,真正实现“所想即所得”。
快速上手
无需配置服务器,两步即可启用:
- 在 HTML 页面
<head>中添加 CDN 引入:<script src="https://unpkg.com/page-agent@latest/dist/index.umd.js"></script> - 在任意位置调用初始化:
<script>PageAgent.init({ hotkey: 'Alt+P' });</script>
按下 Alt+P 即可呼出对话面板,输入中文指令开始操控当前页面。
进阶用户可通过 npm 安装:npm install page-agent,结合 TypeScript 类型提示与自定义 Action 扩展能力,深度集成到项目中。
项目信息
JavaScript in-page GUI agent. Control web interfaces with natural language.
20.6k
今日 +1,778 stars this week
Stars
1.8k
Forks
TypeScript
MIT
TypeScript 编写|GitHub Star 数:20558|MIT 开源协议|GitHub 项目地址
这是阿里开源团队打磨出的“接地气”的 AI 前端实践——不炫技、不设限,把最前沿的 Agent 理念,变成每个网页都能立刻用上的真实生产力。



