大家好,我是何三,独立开发者

4B 参数,87% 的 SWE-bench 通过率——你没看错,不是一个 70B 的大模型,而是一个可以在你笔记本上跑的小东西。

SmallCode,这个刚上线 5 天就冲上 GitHub Trending 的项目,给所有"写代码必须上大模型"的论调来了一记响亮的耳光。

说实话,刚看到这个数据的时候,我第一反应是:又有人在蹭 SWE-bench 的流量了吧?

结果读完 README,我沉默了。

这玩意儿不是靠模型大,是靠架构巧。

说白了,市面上那些 AI 编码工具,都默认你用的是 Claude、GPT 这种"富人家孩子"——128k 上下文、完美的工具调用能力、随便烧 Token 不心疼。

但 SmallCode 的出发点完全相反。

它从一开始就假设:你的模型很弱,上下文很小,工具调用经常崩。

然后围绕这个"弱模型"假设,做了一整套补救措施。

——限制工具结果不超过 4k 字符,防止小模型读不完 ——上下文窗口快爆了自动做语义压缩,而不是直接丢数据 ——模型输出格式烂?解析器支持 JSON/YAML/XML/纯文本,还带自动修复 ——编辑文件不搞全文件覆写,改用 patch 模式(搜索-替换),防止小模型写飞了 ——每个步骤都做校验,编译不过就不往下走

你要问这跟那些"全自动编码 Agent"有啥区别?

区别大了。那些 Agent 是大模型的玩具,SmallCode 是普通人的工具。

SmallCode vs OpenCode 对比

没懂作者为什么这么设计?我一开始也没懂。后来看了一下它定位的模型范围——8B 到 35B,跑在消费级显卡上——瞬间就明白了。

这玩意儿瞄准的不是花几万块买 GPU 的团队,而是你我这种用着 4060 甚至 MacBook 的普通开发者。

跑题了说一句,这让我想起前阵子一个很有意思的趋势:大家都在卷大模型,但真正落地的反而是那些"够用就好"的小模型方案。比如 Llama 3.2 的 3B 版本、Phi-3、Qwen 2.5 Coder 系列……它们单挑打不过 GPT-4,但组合起来,靠架构和流程优化,反而在很多场景里把大模型干翻了。

原理大概是这样,细节可能有出入——有懂的大佬欢迎指正。

但不管怎么说,这个项目让我最服的一点是:它没有回避小模型的短板,而是正面硬刚。每个问题都有对应的解法,而且全部开源。

上手试试?

安装就一行命令:

npm install -g smallcode

然后在你的项目目录里:

cd my-project
smallcode

它会在终端里启动一个交互式编码 Agent。你给它描述任务,它就开始干活——读代码、改文件、跑测试、修 bug,全在终端里完成。

当然,你需要先跑一个本地模型服务,比如 LM Studio 或 Ollama。然后在项目根目录放个 .env 文件:

SMALLCODE_MODEL=qwen2.5-coder:14b
SMALLCODE_BASE_URL=http://localhost:1234/v1

搞定。

SmallCode 核心架构

SmallCode 有一个功能我觉得特别牛逼——"模型升级"机制。本地模型搞不定的时候,可以配置 Claude/OpenAI/DeepSeek 作为"救火队"。如果本地模型反复失败,它会自动把任务甩给云端的强模型。但只在真正需要的时候才触发,不会像某些工具一样动不动就去云端烧钱。

这个设计思路,怎么说呢,就是……就是那种"我知道我穷,但我把每一分钱都花在刀刃上"的感觉。

GitHub 地址:https://github.com/Doorman11991/smallcode

别的不说,就冲它"用 4B 参数干到 87% SWE-bench"这个战绩,我觉得所有在折腾 AI 编码工具的人都该看一眼。装不装都行,看你自己——但至少了解一下,小模型这条路到底能走多远。

本文使用 MGO 编辑并发布

关注"何三笔记",回复"mgo" 免费下载使用