大家好,我是何三,独立开发者

这两年大模型圈子卷来卷去,大家好像默认了一个潜规则:参数越大越牛逼。7B 是入门,70B 才算能打,千亿参数的模型都排着队发布。

直到 MiniCPM5-1B 出来,直接把这条潜规则怼碎了。

1B 参数——不是 7B,不是 13B,就 1 个 B——在推理、代码、数学、工具调用等十几个 benchmark 上拿到了 42.57 的平均分。同尺寸的其他开源模型最高才 35.61,差了一大截。更离谱的是,它甚至在不少任务上直接超越了 Llama3.1-8B、Qwen2-7B 这些比他大七八倍的模型。

说白了,你练了十年举重,被一个刚进健身房的小伙子一巴掌拍飞了。

这话不是我说的,是数据说的。

一个"小模型"凭什么这么狂?

MiniCPM5-1B 是清华系团队 OpenBMB 最新发布的模型,也是 MiniCPM5 系列的第一颗棋子。团队把这颗棋子的定位写得很清楚:端侧部署、本地运行、资源受限场景

说白了,就是要让 AI 在手机、PC、嵌入式设备上跑起来,而不是非得挂着一块 A100。

那它到底是怎么做到的?

训练过程分了三步走:基础训练 → 中间训练 → 后训练

MiniCPM5-1B 训练流程

前两步没啥好说的,就是常规的预训练流程,但数据质量很高——团队把训练数据也开源了,叫 Ultra-FineWeb,感兴趣的可以自己去扒。

真正厉害的是第三步:后训练

后训练又拆成三段:SFT → RL → OPD

SFT 阶段用了 400B token 的数据做指令微调(200B 深度思考 + 200B 混合思考)。RL 阶段针对数学、代码、问答等不同领域训练专门的"老师模型"。最后用 OPD(On-Policy Distillation,同策略蒸馏) 把这些老师模型的能力蒸馏回同一个学生模型里。

——这几个词有点硬是吧?我简单来说一下:

就像你同时请了数学、编程、写作三个家教,每人教了你一套独门心法,然后你把这些心法融合成自己的一套打法。最终你一个人,等于三个老师的合体。

OPD 这招效果有多炸?论文里给了个数字:RL + OPD 让平均分直接涨了 16 分,同时超长回答的比例降了 29 个百分点。

回答更准了,废话更少了。这事儿放哪个模型身上都是质的飞跃。

说实话,这块我也没完全搞懂——反向 KL 散度、top-k logits、token 集合并集……这些细节可能有出入。有懂的大佬欢迎指正。

装起来有多简单?

——说到装这个模型,其实没啥门槛。

团队做了一个让我很舒服的事:提供了 7 种推理后端的部署方案,而且每种都有现成的 cookbook(操作手册)。

最常用的方式就一行命令:

pip install "vllm>=0.21" && vllm serve openbmb/MiniCPM5-1B --port 8000

然后请求一下:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openbmb/MiniCPM5-1B",
    "messages": [{"role": "user", "content": "用中文介绍一下你自己"}],
    "max_tokens": 128,
    "temperature": 0.7
  }'

就完了。一个端侧大模型,部署门槛降到这个程度,我真的吹爆。

它还支持两种对话模式:Think(深度思考)No Think(快速回答)。同一个模型,同一个 checkpoint,通过 enable_thinking=True/False 来回切。想认真推理就让模型多想一会儿,日常闲聊就关掉省算力。

——这个设计怎么说呢,就是……就是那种"我虽然小,但我很灵活"的感觉。

如果你不想用 vLLM,它还支持 SGLang、llama.cpp、Ollama、LM Studio、MLX……7 种后端全覆盖。要微调?TRL、LLaMA-Factory、Unsloth 这些框架也全部安排了。

一个 1B 的小模型,配了一套旗舰级的服务体系。这点我是真佩服。

同系列的其他狠角

MiniCPM 系列不止 MiniCPM5-1B 这一个。同一屋檐下还有两个让我眼前一亮的兄弟:

MiniCPM-SALA(2026 年 2 月发布):这是第一个大规模应用 稀疏 + 线性混合注意力 的模型。在 RTX 5090 上能跑 百万 token 上下文,推理速度比 Qwen3-8B 快 3.5 倍。一个 9B 模型,在消费级显卡上处理 100 万 token 的长文本——这个压缩率——算了先不说这个,你先看看这个数据:

MiniCPM-SALA 在 2048K 上下文长度下还能保持 81.6 的评分,而同尺寸的 Qwen3-8B 在超长序列下直接 OOM 了。

你显卡显存放不下的东西,它装得下。你跑不动的任务,它跑得动。

另一个我觉得特别好玩的是 MiniCPM 桌面宠物(Desk Pet)。团队把 MiniCPM5-1B 塞进了一个桌宠程序里,打开 macOS 上的应用,一只小猫在屏幕上走来走去,你随时可以跟它对话。背后跑的是本地的 llama.cpp 侧车,完全不依赖云端。

这玩意儿解决了一个什么问题呢?就是——大语言模型终于不只是 black box API 了,它可以是你的桌面小伙伴。技术上可能没什么惊世骇俗的突破,但把 AI 从云端拽到桌面上这件事本身,就挺有意思的。

同类工具有没有?

如果你对"小模型干大事"这个话题感兴趣,还可以看看:

  • Qwen3-0.6B:阿里的迷你模型,0.6B 参数,也是端侧路线,性能也不错,但跟 MiniCPM5-1B 比还是差了一截。
  • Llama 3.2-1B:Meta 的 1B 小模型,也是端侧定位,但综合评分不如 MiniCPM5-1B。

觉得 MiniCPM 有意思?我之前还写过一篇《2026 年最值得关注的 5 个国产开源大模型》,关注后回复「模型」获取。

GitHub 地址: https://github.com/OpenBMB/MiniCPM

总结一下

1B 参数打 7B 模型,端侧部署做到毫米级体验,7 种推理后端全部支持——MiniCPM5-1B 证明了"大"不是唯一的出路。

装不装都行,看你自己。但如果你跟我一样,对"轻量但能打"的东西没有抵抗力——这模型值得你花十分钟跑一遍。

本文使用 MGO 编辑并发布

关注"何三笔记",回复"mgo" 免费下载使用