开源推荐

其他

近 2 万 Star！AI 在后台操控电脑不抢你鼠标，Cua 让 Agent 真正「用」上电脑了

发表于 2026年06月08日阅读 604 评论 0

大家好，我是何三，独立开发者

你有没有想过一个问题——现在的 AI Agent，其实挺"残疾"的。

它们能写代码、能回答问题、能调 API，但你要让它"打开 Chrome 浏览器，登录邮箱，点开最新那封邮件，把附件下载到桌面"——它做不到。不是做不到，是压根没有"手"去操作。

这就是为什么 Cua 这个项目在 GitHub 上炸了——将近 2 万 Star，Hugging Face、Meta、NVIDIA、Apple 都在用。

它干的事一句话说清楚：让 AI agent 像人一样，真正上手操控电脑。

而且是后台静默操作，不抢你鼠标。

Cua 架构

AI Agent 缺的那双「手」

先理解一下问题。

现在的大模型，说白了就是个"大脑"。你跟它说话，它回答你。但要让它在电脑上干活——打开软件、点按钮、拖文件——它没手。

以前怎么解决？

要么写死脚本，要么用 Selenium 这种自动化测试工具。但脚本太死板，Selenium 只能在浏览器里用，离开了浏览器就抓瞎。

Cua 的思路直接得有点粗暴：给 AI agent 装上一套「操作系统驱动」。

这套驱动让 agent 可以： - 截图看屏幕，理解当前界面在显示什么 - 移动鼠标、点击、右键，操作界面元素 - 敲键盘、输入文字、按快捷键 - 执行 shell 命令，直接在终端里干活 - 所有这些操作都在后台完成——不抢占你的鼠标和键盘焦点

说白了，Cua 就是 AI agent 的「鼠标键盘扩展包」。

而且最离谱的是，它一套 API 管四套系统：macOS、Windows、Linux、Android。你写一次代码，AI 可以在任何系统上操作。

没懂这个"后台"有多重要是吧？接着往下看。

后台运行才是真·自动化

我觉得 Cua 最炸裂的设计，是那个 Cua Driver。

以前的自动化工具，不管是 Selenium 还是 PyAutoGUI，操作电脑的时候都是"前台抢焦点"——你的鼠标突然被"夺走"了，光标自己在屏幕上乱飞，你想干点别的事都干不了。

Cua Driver 解决了这个问题。

它在后台运行，通过截图理解屏幕内容，然后直接操作系统底层事件。不抢你的鼠标，不占你的键盘。你该写代码写代码，该刷网页刷网页，AI 在后台默默把活干了。

说实话，第一次看到这个设计的时候我愣了一下——"这种东西真的能稳定？"

然后翻了文档，发现它已经在 macOS 和 Windows 上跑生产环境了，Linux 也出了预发布版。而且可以通过 MCP 协议和 Claude Code、Cursor、Codex 等工具集成，相当于你写代码的时候，助手还能在后台帮你测试。

这让我想起之前用 PyAutoGUI 写自动化脚本的血泪史——脚本跑起来啥都干不了，只能盯着屏幕看光标自己跳舞。Cua 这个"后台不抢焦点"的设计，怎么说呢，就是……就是那种"早该有人这么做"的感觉。

三行代码，你的 AI 就能操控桌面

Cua 的使用方式很"Pythonic"。装好之后，你的 AI agent 可以直接调用沙箱环境：

from cua import Sandbox, Image

# 一键拉起一个 Linux 沙箱
async with Sandbox.ephemeral(Image.linux()) as sb:
    # 截个屏看看
    screenshot = await sb.screenshot()
    # 移动鼠标点一下
    await sb.mouse.click(100, 200)
    # 再打几个字
    await sb.keyboard.type("Hello from Cua!")

看见没？三行代码，AI 就能控制一台完整的桌面系统。

你说这玩意儿能干嘛？

自动化测试：不用写脚本了，让 AI 自己打开 App、截图、比对结果
数据采集：AI 像人一样在网页里点来点去，把数据扒下来
DevOps：让 AI 登录服务器、执行命令、检查日志
移动端测试：连 Android 都支持，手机 App 自动化也包了

而且它还支持 快照和分支——你可以配好一个环境，保存成快照，然后瞬间 fork 出 7 个并行测试实例。热启动不到 1 秒。

一条命令搞定 macOS 虚拟机

Cua 体系里还有一个我很喜欢的小工具——Lume。

如果你在 Apple Silicon 的 Mac 上开发，想跑个 macOS 或者 Linux 虚拟机做测试，Lume 一条命令搞定：

lume run macos-sequoia-vanilla:latest

它用的是 Apple 原生的 Virtualization.Framework，性能接近原生，不是那种跑起来风扇狂转的模拟器。

Lume 和 Cua Sandbox 是打通的，你可以在 Lume 虚拟机里跑 Cua agent，让 AI 在虚拟机里随便造，反正不影响宿主机。

一个让 AI「长出手」的开源全家桶

Cua 这个生态已经做起来了：

组件	干嘛的
Cua Sandbox	沙箱环境，支持本地 QEMU 和云端 cua.ai
Cua Driver	后台桌面操控 macOS/Windows/Linux
CuaBot	给任何 coding agent 套上沙箱
Cua-Bench	基准测试和 RL 训练环境
Lume	macOS 虚拟机管理

每个组件都是独立的，你可以只用一个，也可以全套上。全部 MIT 协议开源。

GitHub 地址：https://github.com/trycua/cua

最后说两句

Cua 解决了一个很朴素但一直被忽视的问题：AI 如果想真正帮人干活，它得有双"手"。云 API 调得再溜，不如它能自己打开浏览器点一下"导出"按钮。

装不装都行，看你自己。但说实话——如果你的工作流里涉及大量重复的桌面操作，Cua 可能会让你发出和我一样的感叹：

"擦，以前我怎么没想到还能这么搞。"

本文使用 MGO 编辑并发布

关注"何三笔记"，回复"mgo" 免费下载使用

版权声明：如无特殊说明，文章均为何三笔记原创，转载请注明出处

本文链接：https://www.h3blog.com/article/854/

AI Agent 缺的那双「手」
后台运行才是真·自动化
三行代码，你的 AI 就能操控桌面
一条命令搞定 macOS 虚拟机
一个让 AI「长出手」的开源全家桶
最后说两句