开源推荐

其他

12MB的Go二进制，让AI操控浏览器只花800 tokens，PinchTab凭什么这么省？

发表于 2026年04月07日阅读 14 评论 0

大家好，我是何三，独立开发者

cover

AI 操控浏览器，到底有多烧钱？

最近半年，AI Agent 这个赛道火得一塌糊涂。Cursor、Devin、OpenHands……各种"AI 程序员"轮番登场。但如果你自己动手搭过一个能操作浏览器的 Agent，大概率踩过同一个坑——token 消耗炸了。

这事挺反直觉的。让 AI 看一眼网页，你以为是"看一眼"，实际上它要么接收一大坨原始 HTML（一个复杂页面动辄 10 万 tokens），要么收一张截图让视觉模型去猜（GPT-4o 每步大概 $0.01，多步操作下来钱包在滴血）。

Hacker News 上有个帖子说得很直白：Vision 模型做浏览器操控，每步 3-10 秒延迟，$0.01 成本，还会"幻觉坐标"——按钮在 (200, 300)，AI 点到了 (210, 298)，刚好偏了十像素，就点到了广告上。

你想想，让一个 AI 帮你"去某个网站下载个报告"，光来回交互就可能烧掉好几百 tokens 的截图费用。这谁顶得住？

开发者社区对此的吐槽从来没停过。有人用 Playwright + LLM 套了一层，发现一个月账单比服务器还贵；有人试了 Raw DOM 方案，100k+ tokens 的上下文窗口直接爆掉。

这事儿的核心矛盾是：浏览器世界是给"人眼"设计的，不是给"模型"设计的。

直到最近刷 GitHub，看到一个叫 PinchTab 的项目，才觉得这思路对了。

PinchTab：把浏览器"翻译"给 AI 听

PinchTab 是一个用 Go 写的独立 HTTP 服务，干的事情很朴素——让 AI Agent 通过 API 操控 Chrome。

没有花哨的名字，没有"颠覆性范式转移"的营销话术。GitHub 项目描述就一行：

Browser control for AI agents

它的核心卖点有三个：

1. Token 消耗压缩到 ~800 tokens/页

不是截屏，不是原始 HTML。PinchTab 用的是 Accessibility-first 的方式，把页面"翻译"成结构化的快照。可交互元素带上稳定的 ref 引用（比如 e5），AI 不需要去猜坐标，直接用 ref 就能点击、填写。

800 tokens 对比原始 HTML 的 100k+，差了一个数量级以上。官方声称 5-13 倍的成本节省，这个数字我没测过，但思路本身是对的——丢掉图片、CSS、脚本这些对 Agent 决策无用的噪音，只保留结构化的交互信息。

2. 单文件 ~15MB，零外部依赖

一个 Go 二进制，下载下来直接跑。不需要装 Node.js，不需要 Python 环境，不需要 Docker。curl 一行命令就装好：

curl -fsSL https://pinchtab.com/install.sh | bash

这在"一个 Chrome 扩展加三个 npm 包才能跑"的浏览器自动化圈子里，简直是清流。

3. 同时支持 Headless 和 Headed 模式

Headless 就是后台无窗口运行，适合自动化抓取。Headed 模式会打开真实的 Chrome 窗口——这意味着你可以用已有的登录态、Cookie、浏览器扩展。

比如让 Agent "登录我的工作账号，下载本周报表"，用 Headed 模式 + 已保存的 Profile 就能直接干，不用反复输密码。

架构图

核心原理：它到底怎么省 Token？

PinchTab 的关键设计可以拆成几层来看：

Server-Bridge 架构

PinchTab 不是直接在 Agent 进程里启动 Chrome（那是 Playwright/Puppeteer 的老路）。它把控制面和数据面分开了：

Server：主控进程，暴露 HTTP API，管理 Profile、实例、路由
Bridge：每个 Chrome 实例对应一个轻量 Bridge 运行时

这样做的好处是 Agent 不用操心 Chrome 生命周期，Server 统一调度，支持多实例并行。

Accessibility Tree 而非 DOM

这是最关键的一步。传统方案要么把 document.body.innerHTML 全倒出来（噪音太多），要么截图让视觉模型看（太贵太慢）。

PinchTab 用 Accessibility Tree 做中间层——浏览器本身对可访问性有完整的支持，能精确告诉你页面上有哪些按钮、输入框、链接，它们的位置关系是什么。这个信息对 Agent 做决策来说，已经足够了，而且体积小得多。

Ref 引用代替坐标

很多浏览器自动化方案让 AI 猜坐标。PinchTab 给每个可交互元素分配一个稳定的 ref（如 e5）。Agent 说"点击 e5"，而不是说"点击 (200, 300)"。坐标会因屏幕尺寸、缩放比例变化而失效，ref 不会。

结构化快照

PinchTab 的 snap 命令返回的是类似这样的结构：

[e3] input: "搜索框"
[e5] button: "搜索"
[e7] link: "关于我们"

简洁、无歧义、省 token。Agent 拿到这个就知道该点哪个、该填哪个。

动手试试

安装完之后，整个流程就三步：

第一步：启动服务

# 安装并启动后台 daemon（推荐日常使用）
pinchtab daemon install
pinchtab daemon

# 或者直接前台运行
pinchtab server

服务默认跑在 http://localhost:9867。

第二步：用 CLI 操控浏览器

# 打开一个页面
pinchtab nav https://pinchtab.com

# 获取可交互元素快照
pinchtab snap -i

# 点击第 5 个元素
pinchtab click e5

# 填写输入框
pinchtab fill e3 "hello@pinchtab.com"

# 按回车提交
pinchtab press e7 Enter

# 提取页面文本（token 高效方式）
pinchtab text

quickstart

第三步：HTTP API 调用

如果你是在写 Agent 代码，直接调 HTTP API 更方便：

# 创建 Profile
PROF=$(curl -s -X POST http://localhost:9867/profiles \
  -H "Content-Type: application/json" \
  -d '{"name":"work"}' | jq -r '.id')

# 启动 Headless 实例
INST=$(curl -s -X POST http://localhost:9867/instances/start \
  -H "Content-Type: application/json" \
  -d "{\"profileId\":\"$PROF\",\"mode\":\"headless\"}" | jq -r '.id')

# 打开标签页
TAB=$(curl -s -X POST http://localhost:9867/instances/$INST/tabs/open \
  -H "Content-Type: application/json" \
  -d '{"url":"https://pinchtab.com"}' | jq -r '.tabId')

# 获取页面快照
curl "http://localhost:9867/tabs/$TAB/snapshot?filter=interactive"

# 点击元素
curl -X POST "http://localhost:9867/tabs/$TAB/action" \
  -H "Content-Type: application/json" \
  -d '{"kind":"click","ref":"e5"}'

API 的设计风格很 RESTful，状态都是通过 ID 引用的，干净利落。

安全这事，它做得挺谨慎

PinchTab 的安全策略一句话概括：默认只绑定 127.0.0.1，默认只允许访问本地网站。

这很重要。给 Agent 开浏览器控制权，本质上是在开一个大口子——恶意网页可以反过来利用浏览器自动化接口做坏事。PinchTab 默认的 IDPI（本地域名白名单）机制确保 Agent 不能随便导航到互联网上的任意页面，除非你主动开放。

另一个细节：它把"attach 外部 Chrome 实例"这个高级功能默认关闭了。这功能很方便，但也很危险——意味着任何能访问本机的进程都能接管你的浏览器。默认关掉是正确决策。

当然，如果你想搞分布式部署（多台机器、远程桥接），它也支持，但官方文档反复强调：这是高级用法，你自己负责安全配置。

适合什么场景？

几个我觉得比较实际的使用场景：

网页数据抓取：让 Agent 自动翻页、提取结构化数据，token 消耗远低于截图方案。

表单自动化：自动填表、提交、验证。Headed 模式可以复用已登录的 Chrome Profile。

QA 测试：多实例并行跑测试，每个实例独立 Profile，互不干扰。

树莓派上的 Agent：官方明确说 ARM64 是"first-class 支持"，自动检测系统 Chromium。这意味着你可以把 PinchTab 跑在树莓派上，作为一个轻量级的"AI 浏览器后端"。

MCP 集成：项目自带 SMCP 插件，暴露 15 个工具（navigate、snapshot、action 等），可以直接接入支持 Model Context Protocol 的 Agent 框架。

聊聊槽点

话说回来，PinchTab 也不是没有问题。

Windows 支持是 best-effort。官方原文："Windows support is currently limited and best-effort"。如果你主力 Windows 开发环境，可能会遇到一些兼容性问题。

文档还在建设中。README 写得不错，但完整文档（pinchtab.com/docs）目前内容不算特别丰富。很多配置项需要翻源码才能搞清楚。

社区还比较早期。GitHub 上 star 数不多，Hacker News 上也才刚被分享不久。出了问题大概率得自己翻 issue 或者看源码。

它不是 Playwright 替代品。如果你需要的是精细的 CSS 选择器控制、复杂的等待策略、跨浏览器兼容性测试，Playwright 依然是更成熟的选择。PinchTab 解决的是一个更聚焦的问题：让 AI Agent 以最低的 token 成本操控浏览器。

写在最后

PinchTab 给我的感觉是那种"做对了核心抽象"的工具。它没有试图做一个大而全的浏览器自动化框架，而是聚焦在 AI Agent 这个场景，把最核心的矛盾——token 成本——用 Accessibility Tree + 结构化快照 + ref 引用这套组合拳解决了。

15MB 的二进制，一行命令安装，HTTP API 干净，CLI 直觉好用。这种"小而精"的工具，在 AI 工具链越来越臃肿的今天，反而显得稀缺。

如果你想搭一个能操作浏览器的 AI Agent，或者对现有的截图方案 token 消耗不满意，PinchTab 值得试试。

项目地址：github.com/pinchtab/pinchtab

本文使用 MGO 编辑并发布

关注"何三笔记"，回复"mgo" 免费下载使用

版权声明：如无特殊说明，文章均为何三笔记原创，转载请注明出处

本文链接：https://www.h3blog.com/article/767/

AI 操控浏览器，到底有多烧钱？
PinchTab：把浏览器"翻译"给 AI 听
核心原理：它到底怎么省 Token？
动手试试
安全这事，它做得挺谨慎
适合什么场景？
聊聊槽点
写在最后