大家好,我是何三,独立开发者

Redis 之父 Salvatore Sanfilippo(antirez)——对,就是那个写了 Redis、被全球开发者供在神坛上的男人——前两天突然在 GitHub 丢了个新项目。

名字叫 ds4.c。一个专门为 DeepSeek V4 Flash 写的推理引擎,纯 C 语言,只跑在 Apple Silicon 上。

项目上线不到 48 小时,Star 数逼近 2000。

等等,他不是搞数据库的吗?怎么跑去给大模型写推理引擎了?

更离谱的是——284B 参数的模型,他硬是让它跑在了 MacBook 上。

一个大佬,为什么要「重复造轮子」

这年头搞本地推理,llama.cpp 已经是事实标准了。GGUF 格式、多后端支持、社区庞大,几乎什么模型都能跑。

按理说,antirez 直接提个 PR 给 llama.cpp 加 DeepSeek V4 支持就完事了。事实上他确实这么干过——他还专门 fork 了一个 llama.cpp-deepseek-v4-flash 的实验分支。

但他后来做了个大胆的决定:另起炉灶,单独写一个引擎

为什么?他的原话是:

"DeepSeek V4 Flash 太特别了,值得拥有一个独立的引擎。"

说白了,他觉得通用框架绑手绑脚,不如针对这个模型「量身定制」一把。

你还别说,这很 Redis 风格——单一职责、极致简单、不搞花架子。

DeepSeek V4 Flash 到底特别在哪?

我直接说结论:这是目前最适合本地部署的「准前沿模型」

DeepSeek V4 Flash 是 DeepSeek 最新发布的 MoE(混合专家)模型,总参数量 284B,但每次推理只激活约 37B 参数。这意味着什么?

大白话来说就是它长着一副千亿级模型的大脑,但干活的时候只用小脑,所以又快又省内存。

但这还不是最炸裂的。antirez 列了 8 个理由,我挑几个最让人心动的:

  • 思考长度跟问题复杂度成正比。问简单问题它思考短,问难问题它思考长——不会像其他模型那样无论啥问题都疯狂打几千字小作文。同样的思考模式,其他模型思考 5000 token,它只花 1000。
  • 上下文 100 万 tokens。什么概念?你扔三本《三体》进去它都记得住。
  • 2-bit 量化后效果出奇地好。一般模型压到 3-bit 以下基本就变智障了,但它 2-bit 量化后还能当编程助手用。
  • KV 缓存压缩率极高,甚至可以存到硬盘上随时恢复。

就是这种种特性让 antirez 觉得:这模型值得我单独为它写个引擎

ds4.c 到底干了件什么事

说白了这个项目就做了一件事:让 DeepSeek V4 Flash 在 Mac 上跑得飞快

它没有用 Python,没有用 PyTorch,没有套一层 llama.cpp——而是直接用 C + Metal(苹果的 GPU 计算框架) 从底层写起。

ds4.c 架构全景图

整个项目就几个核心概念:

1. 不是通用的 GGUF 加载器

ds4.c 只能跑 antirez 特制的 GGUF 文件。他专门搞了一套很「偏心」的量化方案——路由专家(routed MoE experts)用超低精度(IQ2_XXS 和 Q2_K),但共享专家、投影层等关键部件保持高精度。

这样既把模型塞进了 128GB 内存,又保住了推理质量。

2. KV 缓存是硬盘的一等公民

这可能是最颠覆性的设计。一般推理引擎把 KV 缓存当内存数据对待,但 antirez 受 Redis 影响,觉得这东西应该像数据库一样持久化到磁盘

他实现了磁盘 KV 缓存机制:当你跑同一段对话的不同分支时,不用重新处理整个上下文,直接从磁盘恢复之前的缓存状态就行。

为什么这么设计?别问我,问作者去。反正他在 README 里写得很直白:"那个压缩后的 KV 缓存,配合现代 MacBook 的高速 SSD,让我觉得 KV 缓存属于磁盘而不是内存。"

3. 自带 OpenAI/Anthropic 兼容 API

这不是一个让你在终端里玩的玩具。它跑起来后直接提供 /v1/chat/completions(OpenAI 风格)和 /v1/messages(Anthropic 风格)的 API 接口。

这意味着——你可以用 Claude Code、opencode、Pi 这些编程 Agent 直接连到本地跑的 DeepSeek V4 上,完全免费,数据不出本机。

上手试试

说实话,配置要求有点硬核——至少需要 128GB 内存的 MacBook Pro 或 Mac Studio。不过考虑到它跑的是 284B 参数的模型……这要求反而显得挺良心的。

下载和运行非常简单:

# 下载 2-bit 量化模型(128GB 内存机型用这个)
./download_model.sh q2

# 编译
make

# 启动交互式对话(默认开启思考模式)
./ds4

# 启动 API 服务器
./ds4-server --ctx 100000 --kv-disk-dir /tmp/ds4-kv --kv-disk-space-mb 8192

然后你就可以用 curl 跟它对话了:

curl http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{
    "model":"deepseek-v4-flash",
    "messages":[{"role":"user","content":"用一句话解释 Redis 的持久化机制"}],
    "stream":true
  }'

速度如何?antirez 放出了实测数据,老实说,有点猛

ds4.c 推理速度实测

拿 M3 Ultra Mac Studio 来说,2-bit 量化下短提示的生成速度达到 36.86 tokens/s,预填速度更是高达 84.43 t/s。对于本地推理来说,这个速度已经可以用「流畅」来形容了。

有一说一,也有槽点

目前 ds4.c 还只是 alpha 质量。antirez 自己也说了这几点:

  • 只支持 Metal,没有 CUDA 版本,N 卡用户暂时别想了
  • 不支持多请求并发批处理,多个请求会排队
  • 在 macOS 上跑 CPU 模式会触发苹果的虚拟内存 bug,导致内核崩溃
  • 那个 MTP(推测解码)功能目前还只是个摆设,加速效果微乎其微

但怎么说呢……这个项目才发布 2 天。以 antirez 的更新速度,后面肯定会有大动作。

如果你对本地大模型部署感兴趣,我此前还整理过一篇《2025 年本地跑大模型方案横评》,关注公众号后回复「本地AI」获取。

觉得这项目有意思?完整代码在这里:

👉 github.com/antirez/ds4

项目刚起步,才近 2000 Star,但以 antirez 的影响力,破万是早晚的事。

最后说句心里话。

一个写了 Redis 这种载入史册的项目的人,退休后又回来写 C 语言的推理引擎——不是因为他需要证明什么,而是因为他觉得「这事有意思」。

说实话,这块我也没完全搞懂……为什么一个数据库大神会对 AI 推理引擎这么上劲?但看他 README 里那句 "This software is developed with strong assistance from GPT 5.5 and with humans leading the ideas",我突然懂了:

他不是在写代码,而是在用代码探索 AI 的边界。

这才是真正的极客精神吧。

本文使用 MGO 编辑并发布

关注“何三笔记”,回复“mgo” 免费下载使用