大家好,我是何三,独立开发者
你有没有想过,有一天你只需要对着终端说句人话,浏览器就自己动起来了?填表单、爬数据、刷后台、买东西……全部自动完成。近 10 万 Star,Browser Use 做到了。
说通俗点,这玩意儿就是个"AI 浏览器遥控器"。你告诉它"帮我把这个京东页面上在售的所有商品价格爬下来"或者"帮我登录公司后台把昨天的报表导出来",它就自己打开浏览器、点按钮、填输入框、等你验证码、提交、下载——全程不用你碰一下鼠标。
这哪是工具,这分明是给自己雇了个 24 小时不睡觉的实习生。

到底怎么做到的?
Browser Use 的核心逻辑,其实没你想的那么玄乎。
它底层连的是 Chrome 的 CDP 协议(Chrome DevTools Protocol),就是 Chrome 开发者工具背后那套协议。你按 F12 看到的那些 Network、Elements、Console,底层全是 CDP 在通信。
Browser Use 团队干了件什么事呢?他们写了一个"翻译层"——把人类的自然语言指令,转成 CDP 能理解的浏览器操作指令。
说白了,就是:你说人话 → LLM 理解 → 转成 CDP 指令 → 浏览器执行。

这个过程里的 LLM,他们没用 GPT-4 也没用 Claude——虽然你也完全可以用这些。他们自研了一个叫 ChatBrowserUse 的引擎,专门为浏览器操控场景优化过。价格有多便宜?输入 token 只要 $0.20/百万,比 GPT-4o 便宜了十几倍。
为啥这么便宜?说实话,这块我也没完全搞懂他们的定价逻辑,可能是专门蒸馏过的模型,也可能就是走量。反正用起来不心疼就对了。
说到这个我就想起以前用 Selenium 写自动化脚本的日子。一个简单的"登录后点击下载"流程,你得先查 CSS 选择器、等页面加载、处理弹窗、处理验证码……写 50 行代码只为了点一个按钮。现在你跟 AI 说一声,它自己搞定。技术这东西,有时候进化得让人猝不及防。
三种姿势,总有一种适合你
Browser Use 支持三种运行方式:
① 用你登录态的 Chrome:直接连你正在用的浏览器,账号密码全在,不用重新登录。适合日常跑个小任务。
② 无头浏览器:后台静默运行,适合服务器部署。
③ Browser Use 云端:官方托管的浏览器,自带代理轮换和反检测指纹,适合规模化跑任务。
我最喜欢第一个姿势——连自己正在用的浏览器,跑完拿结果,贼方便。
安装也是真简单:
pip install browser-use
然后写个 Python 文件:
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio
async def main():
agent = Agent(
task="打开 GitHub 首页,搜索 'browser-use' 这个项目,然后把 Star 数告诉我",
llm=ChatBrowserUse(),
browser=Browser(),
)
await agent.run()
asyncio.run(main())
然后?然后它就真的自己干了。
浏览器自己打开、自己输入搜索、自己读结果、自己告诉你答案。你只需要坐那儿看着。第一次跑起来的时候我愣了一分钟——这玩意儿居然真的在工作。
当然,也不是啥都能完美搞定。碰到复杂验证码、多步骤表单、或者某些反爬特别猛的网站,它也会卡壳。这时候你可以切到云端模式,他们的云浏览器自带了验证码识别和指纹伪装,通过率高很多。
它到底能干什么?
团队放出来的 Demo 挺有意思的:
- 投简历:跟它说"帮我把这份简历投到这 10 个岗位",它自动填表单、传附件、点提交
- 买东西:"帮我把这张购物清单加到 Instacart 购物车"
- 配电脑:"帮我在这几个网站上找配件,挑性价比最高的组合"
- 搬数据:"把 A 系统的客户数据导出来,传到 B 系统的后台"
之前看到有人在 Reddit 上说用它来自动签到、自动抢课、自动刷票……怎么说呢,用法越骚,越说明这工具做对了。
如果你对这类 AI 操控浏览器的工具感兴趣,他们最近还发布了一个兄弟项目叫 Browser Harness——13k+ Star 的新项目,原理更极致:直接裸连 CDP,不加任何框架,让 AI Agent 自己写 helper 函数来完成任何浏览器操作。主打一个"自愈合"。我觉得跟 Browser Use 搭配使用,效果翻倍。
项目地址:https://github.com/browser-use/browser-use
说个槽点。 他们的文档吧,写得……嗯,怎么说呢,就是那种"我以为我懂了,看完发现自己啥也没懂"的类型。很多高级用法要靠去 GitHub Issues 里面翻讨论才知道。文档写得跟谜语人似的,这点真的该打。
但话说回来,代码本身质量很高,README 里的 Quickstart 也够用。装起来跑一遍,你就知道这东西有多离谱了。
这个项目让我最大的感受不是技术有多牛——当然也牛——而是"AI 操控浏览器"这件事终于从实验室走到了"装个 pip 就能用"的阶段。
以前我们说"让 AI 替我上网",那是科幻片里的台词。现在你说这句话,pip install 一下就能实现。
本文使用 MGO 编辑并发布
关注"何三笔记",回复"mgo" 免费下载使用