开源推荐

同一个模型，成功率42%→78%！Anthropic说：别等下一代模型了，去搞Harness

发表于 2026年04月03日阅读 4 评论 0

大家好，我是何三，独立开发者

cover

同一个模型，什么都没换。数据没换，提示词没换，只换了模型外面包的那层运行环境，编程基准的成功率从 42% 跳到了 78%。

变量只有一个：模型外面的壳。

Anthropic 前阵子发了篇工程博客：同一句提示词、同一个模型，跑 20 分钟花 9 美元，出来的东西核心功能是坏的；换一套运行方式，跑 4 小时花 125 美元，出来一个能玩的游戏。

这层壳，现在有个正式名字：Harness。围绕它展开的工程实践，叫 Harness Engineering。

三代进化

理解 Harness 之前，先快速过一遍它的前两代。

2022-2024，Prompt Engineering——琢磨怎么写好一条指令。2025，Context Engineering——Karpathy 和 Shopify CEO Tobi Lütke 推动，关注怎么为模型动态构建完整上下文。

2026 年 2 月，Harness Engineering 来了。

三代进化

打个比方：Prompt Engineering 是写好一封邮件。Context Engineering 是把相关附件带上。Harness Engineering，是搭整个工作环境——约束、反馈循环、架构规则、工具链、生命周期管理。

这个词最早来自 Mitchell Hashimoto——HashiCorp 联合创始人、Terraform 缔造者。定义就一句话：

每当你发现 Agent 犯了一个错误，你就花时间去工程化一个解决方案，让它再也不会犯同样的错。

几天后 OpenAI 跟进重磅博文，Martin Fowler 团队接着分析，几周内这个词火遍 AI 工程圈。

OpenAI Codex 团队做了个实验：空仓库起步，5 个月，100 万行代码，1500 个 PR，人类一行代码都没写。7 个工程师，平均每人每天合并 3.5 个 PR。传统手写，工期大概是 10 倍。

核心工程师 Ryan Lopopolo 写了句话：Agent 不难，Harness 才难。 他们总结了几条硬规则：仓库是 Agent 唯一的知识来源；架构约束不靠 prompt，靠 linter；如果 PR 需要大改才能合并，问题不在 Agent，在 Harness。

Stripe 的内部系统每周合并 1300+ 个无人值守 Agent PR，CI 最多跑两轮——不允许无限重试。他们挂了约 500 个 MCP 工具，但给每个 Agent 只给精心筛选的子集。

Cursor 的实验更极端——每小时约 1000 个 commit，一周超 1000 万次工具调用。他们迭代了五版架构才找到相对稳定的方案，发现一个黑色幽默：一条模糊指令在数百个并发 Agent 之间会被放大，一个错乘以几百个，后果灾难性。

Stripe 工程团队的总结很直白：成功取决于可靠的开发者环境、测试基础设施和反馈循环，跟模型选择关系不大。

这些案例都在解决一个问题：怎么让 Agent 稳定产出高质量代码。但 Anthropic 的博客拆出了一个更底层的问题。

模型不会评价自己的工作。 让 Agent 自评，它会自信表示写得很好。即使人类看来质量明显不行。主观任务尤其严重——前端设计好不好看，没有二元标准。

Anthropic 的解法借鉴了 GAN 的思路：把生成和评估拆成两个独立 Agent。

3-Agent架构

generator 负责写，evaluator 负责评。evaluator 用 Playwright 真的去点页面、查 API、看数据库状态，像真人 QA 一样操作完再给反馈。

但开箱即用的 Claude 是个很差的 QA Agent。早期的 evaluator 会发现问题，然后说服自己这不是大问题，接着批准了。Anthropic 花了好几轮校准 evaluator 的严苛程度。

关键发现：让独立 evaluator 变严格，远比让 generator 学会自我批评容易得多。 这就是拆分的价值。

数据对比

优化模型外面的壳，回报率可能比等下一代模型更高。

当然，反对声音也有。OpenAI 的 Noam Brown 说 Harness 是根拐杖，迟早被淘汰——就像推理模型一出，之前围绕 GPT-4o 搭的复杂 Agentic 系统一夜之间多余了。METR 的数据也显示，自动评分器高估了 Agent 约 7 倍的能力。

但 Anthropic 的实验自己就是反驳。Opus 4.6 比 4.5 更强，sprint 结构直接被砍掉了。可 evaluator 没有被砍。 模型能力边界只是往外推了一些，边界本身没消失。他们判断：harness 的可能性空间不会缩小，只会平移。

OpenAI 团队不写代码了，写架构规则。Stripe 工程师不写代码了，写编排策略。Anthropic 工程师不写代码了，写 evaluator 的校准逻辑。

写代码正在变便宜。设计那套让 Agent 持续稳定写代码的系统，才是真正贵的部分。 而且每隔几个月，模型升级，这层壳就得重新审视。

真正稀缺的能力，不在模型里面，在模型外面。

本文使用 MGO 编辑并发布

关注"何三笔记"，回复"mgo" 免费下载使用

版权声明：如无特殊说明，文章均为何三笔记原创，转载请注明出处

本文链接：https://www.h3blog.com/article/750/