手表上跑大模型？Google 这个 3000+ Star 的框架太离谱了，首 token 不到 1 秒-开源推荐-何三笔记

手表上跑大模型？Google 这个 3000+ Star 的框架太离谱了，首 token 不到 1 秒

发表于 2026年04月11日阅读 5 评论 0

大家好，我是何三，独立开发者

litertlm

你有没有想过，一个手表上能跑大模型？

不是那种"阉割版"的文本分类器，而是正儿八经的语言模型，能聊天、能看图、还能调用工具。

Google 最近开源了一个叫 LiteRT-LM 的项目，3000+ Star，GitHub 上 Google AI Edge 团队的作品。

说白了，这玩意儿干了一件很多人觉得离谱的事：把大模型塞进了手表、浏览器和树莓派里，而且已经在 Chrome、Chromebook Plus 和 Pixel Watch 上正式跑起来了。

不是 Demo，是生产环境。

为什么这件事很重要

跑大模型，大家的第一反应是：搞台 A100，或者至少租张 4090。

但现实是，大量场景根本不需要那么重的算力。你想在手机上离线翻译、在手表上识别语音指令、在嵌入式设备上做文本分类——这些场景要的不是参数量，而是能在本地跑得动。

市面上做端侧推理的方案不少：llama.cpp、MLC-LLM、ONNX Runtime……但 Google 这回下场的方式有点不一样。

LiteRT-LM 直接从底层 C++ 写起，专门针对移动端和嵌入式设备的 GPU/NPU 做了深度优化。 不是把桌面端的方案"裁剪"一下就扔过来，而是为端侧量身打造的。

litertlm

简单翻译一下就是：别人是在 PC 上改改就往手机上搬，Google 是从芯片层面开始为手机设计。

这差别有多大呢？打个比方——就好比别人是拿大卡车改装成送快递的小车，Google 是直接造了一台快递车。

核心能力拆解

看了一圈这个项目，我觉得有几个点特别值得关注：

1. 一个框架覆盖所有端

Android、iOS、Web、桌面端（Linux/Windows/macOS）、甚至树莓派和 IoT 设备。你写一次代码，模型就能在所有平台上跑。这对做跨平台应用的开发者来说简直是福音。

2. NPU 真的在用力

不是那种"声明支持 NPU"然后实测没加速的方案。LiteRT-LM 在 v0.7.0 就加入了 NPU 加速支持，专门针对移动端芯片做了调优。这意味着在你的手机上跑模型，能真正利用上硬件的 AI 加速能力，而不是纯靠 CPU 硬扛。

3. 多模态和 Function Calling 都有

不只是文本输入，还支持视觉和音频输入。更关键的是支持 Function Calling——也就是说，你完全可以在端侧搭建一个 Agent 工作流。在本地跑 Agent，这个思路本身就很有意思。

4. Gemma 4 已经支持

Google 最新的 Gemma 4 模型，LiteRT-LM 已经第一时间跟进适配了。包括 Llama、Phi-4、Qwen 这些主流开源模型也都在支持列表里。

动手试试

想快速体验一下，其实特别简单。

先装一下 Python 的包管理工具 uv（如果你还没装的话）：

# 安装 uv（macOS/Linux）
curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows 用 PowerShell
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"

然后一行命令安装 CLI：

uv tool install litert-lm

跑起来也只需要一条命令：

litert-lm run \
  --from-huggingface-repo=google/gemma-3n-E2B-it-litert-lm \
  gemma-3n-E2B-it-int4 \
  --prompt="What is the capital of France?"

litertlm

第一次运行会自动从 HuggingFace 下载模型文件，之后就会走本地缓存。支持 Linux、macOS、Windows（WSL）和 Raspberry Pi。

如果是做 Android 开发的，Kotlin API 已经 Stable 了，可以直接集成到项目里：

// Kotlin 集成示例
val session = LlmInferenceSession.create(model)
val response = session.generate("你好，介绍一下你自己")

Python 和 C++ 的 API 也都是 Stable 状态，Swift 还在开发中。

和同类工具比，差在哪

说实话，端侧推理这个赛道已经挺拥挤了。我列几个常见的对比：

方案	特点	适合场景
LiteRT-LM	Google 出品，NPU 深度优化，跨平台最全	移动端 App、IoT 设备
llama.cpp	社区最火，纯 CPU 也能跑，生态最好	桌面端、服务器
MLC-LLM	TVM 编译优化，JavaScript/WebAssembly	Web 端部署
ONNX Runtime	微软出品，工业标准	企业级应用

LiteRT-LM 的独特优势是 Google 自家产品的生产验证。Chrome 浏览器里已经在用它跑 AI 功能了，Pixel Watch 上也有，这不是一个实验室项目。

但话说回来，它的社区活跃度和 llama.cpp 比差距还比较大。目前 135 个 Open Issues，文档也没有 llama.cpp 那么丰富。如果你只是想在电脑上跑跑模型玩玩，llama.cpp 依然是更省心的选择。

LiteRT-LM 更适合那些真的需要把模型塞进手机、手表或者嵌入式设备的开发者。

还有什么值得关注的

如果你对端侧 AI 感兴趣，我之前还写过几篇相关的：

用 Rust 写的命令行浏览器自动化工具 Shimmy，4.8MB 就能操控浏览器，比 Playwright 轻太多了
Ollama 的进阶玩法，在本地跑大模型的一站式方案

这些工具搭配 LiteRT-LM 使用，基本能覆盖从本地推理到端侧部署的完整链路。

总结

LiteRT-LM 的核心价值就一句话：Google 把自家的端侧 AI 能力开源了。

不是什么前沿研究项目，是在 Chrome 和 Pixel Watch 上已经跑起来的生产级框架。如果你在做移动端或者 IoT 相关的开发，需要把大模型集成到设备里，这可能是目前最"官方"的选择。

项目地址：https://github.com/google-ai-edge/LiteRT-LM

本文使用 MGO 编辑并发布

关注"何三笔记"，回复"mgo" 免费下载使用

本文链接：https://www.h3blog.com/article/779/