开源推荐

其他

近万Star！1B参数碾压7B模型，MiniCPM5把"大力出奇迹"的AI圈整不会了

发表于 2026年06月03日阅读 845 评论 0

大家好，我是何三，独立开发者

这两年大模型圈子卷来卷去，大家好像默认了一个潜规则：参数越大越牛逼。7B 是入门，70B 才算能打，千亿参数的模型都排着队发布。

直到 MiniCPM5-1B 出来，直接把这条潜规则怼碎了。

1B 参数——不是 7B，不是 13B，就 1 个 B——在推理、代码、数学、工具调用等十几个 benchmark 上拿到了 42.57 的平均分。同尺寸的其他开源模型最高才 35.61，差了一大截。更离谱的是，它甚至在不少任务上直接超越了 Llama3.1-8B、Qwen2-7B 这些比他大七八倍的模型。

说白了，你练了十年举重，被一个刚进健身房的小伙子一巴掌拍飞了。

这话不是我说的，是数据说的。

一个"小模型"凭什么这么狂？

MiniCPM5-1B 是清华系团队 OpenBMB 最新发布的模型，也是 MiniCPM5 系列的第一颗棋子。团队把这颗棋子的定位写得很清楚：端侧部署、本地运行、资源受限场景。

说白了，就是要让 AI 在手机、PC、嵌入式设备上跑起来，而不是非得挂着一块 A100。

那它到底是怎么做到的？

训练过程分了三步走：基础训练 → 中间训练 → 后训练。

MiniCPM5-1B 训练流程

前两步没啥好说的，就是常规的预训练流程，但数据质量很高——团队把训练数据也开源了，叫 Ultra-FineWeb，感兴趣的可以自己去扒。

真正厉害的是第三步：后训练。

后训练又拆成三段：SFT → RL → OPD。

SFT 阶段用了 400B token 的数据做指令微调（200B 深度思考 + 200B 混合思考）。RL 阶段针对数学、代码、问答等不同领域训练专门的"老师模型"。最后用 OPD（On-Policy Distillation，同策略蒸馏） 把这些老师模型的能力蒸馏回同一个学生模型里。

——这几个词有点硬是吧？我简单来说一下：

就像你同时请了数学、编程、写作三个家教，每人教了你一套独门心法，然后你把这些心法融合成自己的一套打法。最终你一个人，等于三个老师的合体。

OPD 这招效果有多炸？论文里给了个数字：RL + OPD 让平均分直接涨了 16 分，同时超长回答的比例降了 29 个百分点。

回答更准了，废话更少了。这事儿放哪个模型身上都是质的飞跃。

说实话，这块我也没完全搞懂——反向 KL 散度、top-k logits、token 集合并集……这些细节可能有出入。有懂的大佬欢迎指正。

装起来有多简单？

——说到装这个模型，其实没啥门槛。

团队做了一个让我很舒服的事：提供了 7 种推理后端的部署方案，而且每种都有现成的 cookbook（操作手册）。

最常用的方式就一行命令：

pip install "vllm>=0.21" && vllm serve openbmb/MiniCPM5-1B --port 8000

然后请求一下：

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "openbmb/MiniCPM5-1B",
    "messages": [{"role": "user", "content": "用中文介绍一下你自己"}],
    "max_tokens": 128,
    "temperature": 0.7
  }'

就完了。一个端侧大模型，部署门槛降到这个程度，我真的吹爆。

它还支持两种对话模式：Think（深度思考）和 No Think（快速回答）。同一个模型，同一个 checkpoint，通过 enable_thinking=True/False 来回切。想认真推理就让模型多想一会儿，日常闲聊就关掉省算力。

——这个设计怎么说呢，就是……就是那种"我虽然小，但我很灵活"的感觉。

如果你不想用 vLLM，它还支持 SGLang、llama.cpp、Ollama、LM Studio、MLX……7 种后端全覆盖。要微调？TRL、LLaMA-Factory、Unsloth 这些框架也全部安排了。

一个 1B 的小模型，配了一套旗舰级的服务体系。这点我是真佩服。

同系列的其他狠角

MiniCPM 系列不止 MiniCPM5-1B 这一个。同一屋檐下还有两个让我眼前一亮的兄弟：

MiniCPM-SALA（2026 年 2 月发布）：这是第一个大规模应用 稀疏 + 线性混合注意力 的模型。在 RTX 5090 上能跑 百万 token 上下文，推理速度比 Qwen3-8B 快 3.5 倍。一个 9B 模型，在消费级显卡上处理 100 万 token 的长文本——这个压缩率——算了先不说这个，你先看看这个数据：

MiniCPM-SALA 在 2048K 上下文长度下还能保持 81.6 的评分，而同尺寸的 Qwen3-8B 在超长序列下直接 OOM 了。

你显卡显存放不下的东西，它装得下。你跑不动的任务，它跑得动。

另一个我觉得特别好玩的是 MiniCPM 桌面宠物（Desk Pet）。团队把 MiniCPM5-1B 塞进了一个桌宠程序里，打开 macOS 上的应用，一只小猫在屏幕上走来走去，你随时可以跟它对话。背后跑的是本地的 llama.cpp 侧车，完全不依赖云端。

这玩意儿解决了一个什么问题呢？就是——大语言模型终于不只是 black box API 了，它可以是你的桌面小伙伴。技术上可能没什么惊世骇俗的突破，但把 AI 从云端拽到桌面上这件事本身，就挺有意思的。

总结一下

1B 参数打 7B 模型，端侧部署做到毫米级体验，7 种推理后端全部支持——MiniCPM5-1B 证明了"大"不是唯一的出路。

装不装都行，看你自己。但如果你跟我一样，对"轻量但能打"的东西没有抵抗力——这模型值得你花十分钟跑一遍。

本文使用 MGO 编辑并发布

关注"何三笔记"，回复"mgo" 免费下载使用

版权声明：如无特殊说明，文章均为何三笔记原创，转载请注明出处

本文链接：https://www.h3blog.com/article/852/

一个"小模型"凭什么这么狂？
装起来有多简单？
同系列的其他狠角
同类工具有没有？
总结一下

近万Star！1B参数碾压7B模型，MiniCPM5把"大力出奇迹"的AI圈整不会了

一个"小模型"凭什么这么狂？

装起来有多简单？

同系列的其他狠角

同类工具有没有？

总结一下