大家好,我是何三,独立开发者

32KB。一行 script 标签。 让 AI 操控你的网页。

没跟你开玩笑。阿里的开源项目 page-agent,gzip 压缩后只有 31.9KB,做到的事跟 browser-use 这种 Python 全家桶差不多——甚至某些场景更好。而 browser-use 呢?装 Python、配环境、搞无头浏览器、还要多模态 LLM 烧 API 额度……

这反差,怎么说呢,就是离谱他妈给离谱开门。

Page-agent 目前在 GitHub 上已经 19.2k Star(近 2 万),NPM 月下载 4 万多,Hacker News 上也是 Show HN 热门,147 points 加 76 条讨论。一个阿里员工在工作之余搞的项目,MIT 协议开源,纯 TypeScript 写的。

这东西到底是干嘛的

简单说,你往网页里塞一个 script 标签,你的页面就变成了一个 AI Agent。

比如你做了一个 ERP 后台,用户说"帮我查上个月华南区的销售数据,做个图表",以前你得写一堆点击联动逻辑。现在,PageAgent 帮你理解这句话,然后直接在页面上操作 DOM 元素,找到对应的按钮、输入框、表格,完成整个流程。

传统方案 vs PageAgent

这个理念叫 "inside-out"——让 AI 活在网页内部,而不是从外部操控。

想想以前那些方案:Python 脚本启动一个无头浏览器,截图发给多模态模型,模型说"这里有点击",脚本再去找坐标……鬼都知道这玩意儿有多脆弱。截图糊了怎么办?坐标偏移了呢?页面重绘了呢?

PageAgent 的思路完全不一样——它直接读取 活的 DOM 树,拿到的是页面最底层的结构数据,不是一张图片。然后它把 DOM 简化成 LLM 能理解的文本格式(作者管这叫"HTML 脱水"),让模型通过索引去操作具体元素。

说白了,以前是让 AI "看"你的网页,现在是让 AI "读"你的网页。

不用截图,不用多模态,token 消耗直线下降。

说实话,这个脱水逻辑具体怎么实现的,我看了源码也没完全搞懂——涉及到很多 DOM 解析和语义压缩的细节。但核心思路我能讲明白:就是把

版权声明:如无特殊说明,文章均为何三笔记原创,转载请注明出处

本文链接:https://www.h3blog.com/article/873/

ai