近2万Star！32KB的JS让AI操控网页，比Python方案轻100倍，阿里这个项目太狠了-开源推荐-何三笔记

近2万Star！32KB的JS让AI操控网页，比Python方案轻100倍，阿里这个项目太狠了

发表于 2026年06月26日阅读 5 评论 0

大家好，我是何三，独立开发者

32KB。一行 script 标签。让 AI 操控你的网页。

没跟你开玩笑。阿里的开源项目 page-agent，gzip 压缩后只有 31.9KB，做到的事跟 browser-use 这种 Python 全家桶差不多——甚至某些场景更好。而 browser-use 呢？装 Python、配环境、搞无头浏览器、还要多模态 LLM 烧 API 额度……

这反差，怎么说呢，就是离谱他妈给离谱开门。

Page-agent 目前在 GitHub 上已经 19.2k Star（近 2 万），NPM 月下载 4 万多，Hacker News 上也是 Show HN 热门，147 points 加 76 条讨论。一个阿里员工在工作之余搞的项目，MIT 协议开源，纯 TypeScript 写的。

这东西到底是干嘛的

简单说，你往网页里塞一个 script 标签，你的页面就变成了一个 AI Agent。

比如你做了一个 ERP 后台，用户说"帮我查上个月华南区的销售数据，做个图表"，以前你得写一堆点击联动逻辑。现在，PageAgent 帮你理解这句话，然后直接在页面上操作 DOM 元素，找到对应的按钮、输入框、表格，完成整个流程。

传统方案 vs PageAgent

这个理念叫 "inside-out"——让 AI 活在网页内部，而不是从外部操控。

想想以前那些方案：Python 脚本启动一个无头浏览器，截图发给多模态模型，模型说"这里有点击"，脚本再去找坐标……鬼都知道这玩意儿有多脆弱。截图糊了怎么办？坐标偏移了呢？页面重绘了呢？

PageAgent 的思路完全不一样——它直接读取 活的 DOM 树，拿到的是页面最底层的结构数据，不是一张图片。然后它把 DOM 简化成 LLM 能理解的文本格式（作者管这叫"HTML 脱水"），让模型通过索引去操作具体元素。

说白了，以前是让 AI "看"你的网页，现在是让 AI "读"你的网页。

不用截图，不用多模态，token 消耗直线下降。

说实话，这个脱水逻辑具体怎么实现的，我看了源码也没完全搞懂——涉及到很多 DOM 解析和语义压缩的细节。但核心思路我能讲明白：就是把

、

版权声明：如无特殊说明，文章均为何三笔记原创，转载请注明出处

本文链接：https://www.h3blog.com/article/873/

近2万Star！32KB的JS让AI操控网页，比Python方案轻100倍，阿里这个项目太狠了

这东西到底是干嘛的

上手有多简单

能用到哪些场景

同类项目

项目地址