4B 参数吊打百亿模型！SWE-bench 飙到 87%，小模型写代码卷疯了

发表于 2026年05月25日阅读 485 评论 0

大家好，我是何三，独立开发者

4B 参数，87% 的 SWE-bench 通过率——你没看错，不是一个 70B 的大模型，而是一个可以在你笔记本上跑的小东西。

SmallCode，这个刚上线 5 天就冲上 GitHub Trending 的项目，给所有"写代码必须上大模型"的论调来了一记响亮的耳光。

说实话，刚看到这个数据的时候，我第一反应是：又有人在蹭 SWE-bench 的流量了吧？

结果读完 README，我沉默了。

这玩意儿不是靠模型大，是靠架构巧。

说白了，市面上那些 AI 编码工具，都默认你用的是 Claude、GPT 这种"富人家孩子"——128k 上下文、完美的工具调用能力、随便烧 Token 不心疼。

但 SmallCode 的出发点完全相反。

它从一开始就假设：你的模型很弱，上下文很小，工具调用经常崩。

然后围绕这个"弱模型"假设，做了一整套补救措施。

——限制工具结果不超过 4k 字符，防止小模型读不完 ——上下文窗口快爆了自动做语义压缩，而不是直接丢数据 ——模型输出格式烂？解析器支持 JSON/YAML/XML/纯文本，还带自动修复 ——编辑文件不搞全文件覆写，改用 patch 模式（搜索-替换），防止小模型写飞了 ——每个步骤都做校验，编译不过就不往下走

你要问这跟那些"全自动编码 Agent"有啥区别？

区别大了。那些 Agent 是大模型的玩具，SmallCode 是普通人的工具。

SmallCode vs OpenCode 对比

没懂作者为什么这么设计？我一开始也没懂。后来看了一下它定位的模型范围——8B 到 35B，跑在消费级显卡上——瞬间就明白了。

这玩意儿瞄准的不是花几万块买 GPU 的团队，而是你我这种用着 4060 甚至 MacBook 的普通开发者。

跑题了说一句，这让我想起前阵子一个很有意思的趋势：大家都在卷大模型，但真正落地的反而是那些"够用就好"的小模型方案。比如 Llama 3.2 的 3B 版本、Phi-3、Qwen 2.5 Coder 系列……它们单挑打不过 GPT-4，但组合起来，靠架构和流程优化，反而在很多场景里把大模型干翻了。

原理大概是这样，细节可能有出入——有懂的大佬欢迎指正。

但不管怎么说，这个项目让我最服的一点是：它没有回避小模型的短板，而是正面硬刚。每个问题都有对应的解法，而且全部开源。

上手试试？

安装就一行命令：

npm install -g smallcode

然后在你的项目目录里：

cd my-project
smallcode

它会在终端里启动一个交互式编码 Agent。你给它描述任务，它就开始干活——读代码、改文件、跑测试、修 bug，全在终端里完成。

当然，你需要先跑一个本地模型服务，比如 LM Studio 或 Ollama。然后在项目根目录放个 .env 文件：

SMALLCODE_MODEL=qwen2.5-coder:14b
SMALLCODE_BASE_URL=http://localhost:1234/v1

搞定。

SmallCode 核心架构

SmallCode 有一个功能我觉得特别牛逼——"模型升级"机制。本地模型搞不定的时候，可以配置 Claude/OpenAI/DeepSeek 作为"救火队"。如果本地模型反复失败，它会自动把任务甩给云端的强模型。但只在真正需要的时候才触发，不会像某些工具一样动不动就去云端烧钱。

这个设计思路，怎么说呢，就是……就是那种"我知道我穷，但我把每一分钱都花在刀刃上"的感觉。

GitHub 地址：https://github.com/Doorman11991/smallcode

别的不说，就冲它"用 4B 参数干到 87% SWE-bench"这个战绩，我觉得所有在折腾 AI 编码工具的人都该看一眼。装不装都行，看你自己——但至少了解一下，小模型这条路到底能走多远。

本文使用 MGO 编辑并发布

关注"何三笔记"，回复"mgo" 免费下载使用

版权声明：如无特殊说明，文章均为何三笔记原创，转载请注明出处

本文链接：https://www.h3blog.com/article/842/