Harness 决定 AI 协作上限

这两年,AI 协作讨论的重心已经变了。

以前大家更关心的是:

但现在社区明显在往更深一层走。
大家讨论的不再只是“怎么让一个 Agent 动起来”,而是:

这说明一件事:
问题已经不是 Agent 会不会干活,而是它怎么稳定地工作。

我自己这段时间越用越觉得,AI 协作真正的分水岭,不是你有几个 Agent,也不是你把链路堆得多自动化,而是你有没有一层 harness

Agent 是能力单元。
harness 才是工作系统。

什么是 harness

我不想用概念词堆这个定义。

如果说得更实一点,harness 就是模型之外那一整层让 Agent 变得可工作的东西

也可以说得更直接一点:

harness 就是给 Agent 套上的工作壳。
没有这层壳,它会动;有了这层壳,它才开始能工作。

很多人会把注意力放在模型本身:哪个模型更强,哪个 Agent 更聪明。
但真实工作里,你很快会发现,模型能力只是底盘,能不能进入生产流,主要看外面那层壳。

为什么多 Agent 不是答案

“一个 Agent 不够,那我上多个 Agent。”
这条路很自然,所以社区现在会有越来越多 multi-agent 的东西。

问题是,多 Agent 不会自动变强,只会自动放大系统本身的优点和缺点。

如果这套系统里已经有这些问题:

那你加一个 Agent,是一个 Agent 跑偏;
你加三个 Agent,就是三个 Agent 一起把偏差放大。

所以我现在越来越不相信一种很表层的理解:

“多 Agent = AI 团队 = 更强产出”

真实情况更像是:

没有 harness 的多 Agent,不是团队,是噪声放大器。

我为什么开始重视 harness

我不是因为看了几个前沿词,才开始讲 harness。
恰恰相反,是因为我在真实工作里不断撞墙,才越来越觉得这个东西重要。

我前面也接触过一些更重的工作流。
spec、plan、分步执行、review、自动化链路,这些我都不是没见过。

这些方法不是没价值。
问题是,真实工作里我越来越在意的不是“这个流程看起来有多完整”,而是下面这些更硬的问题:

因为真实工作里最贵的,从来不是多花几分钟讨论。
真正贵的是:

系统看起来已经跑起来了,但其实一路在偏。

spec 写得很完整,也可能从第 3 步开始偏。
plan 做得很漂亮,也不代表上下文真的对齐了。
多 Agent 并行跑起来很热闹,也不代表最终返工更少。

我后来越来越接受一个很朴素的判断:

AI 协作里最值钱的,不是“自动化得很满”,
而是“偏得更少,错得更早,收得回来”。

而这件事,本质上就是 harness 在解决。

Agent 只是能力,harness 才决定上限

单看 Agent,你获得的是一种能力:

但真实工作不是一串能力拼图。
真实工作是一个会被打断、会被修正、会因为上下文缺失而跑偏、还要持续推进的系统。

也就是说,能力本身不稀缺,协作结构才稀缺。

今天很多人对 AI 协作的关注点,还停留在:

但对我来说,真正决定一套系统上限的问题已经变成:

这些问题都不是 Agent 本身回答的。
这些问题是 harness 回答的。

我现在怎么理解“够用的 harness”

我现在反而不太想把 harness 神秘化。

在我看来,一个 够用的 harness,至少要解决 5 件事:

1. 目标明确

这次任务到底要完成什么?

不是“优化一下”“改一改”这种模糊表述,
而是明确终点:什么算完成,什么不算完成。

2. 边界明确

什么要做,什么不要做,什么留给后面?

很多 AI 协作跑偏,不是因为模型能力不够,而是因为范围没有被说清楚。
边界不清,系统就会默认扩张。默认扩张,最后就一定返工。

3. 上下文受控

不是上下文越多越好,而是要刚好够。

给太少,它会瞎猜。
给太多,它会混乱。
好的 harness 不是把所有资料都塞进去,而是只给当前任务真正需要的那部分信息

4. 验证闭环存在

它做完之后,怎么知道它做对了?

这是我越来越重视的一点。
很多自动化工作流只解决了“怎么生成”,没有真正解决“怎么验证”。
结果就是:看起来产出很多,实际上不敢放心接。

5. 结果能沉淀

这次踩的坑,下次还会不会再踩?

如果每次协作都只是一次性对话,那再高级也只是临时劳务。
真正有复利的系统,一定能把这次的判断、边界、约束、经验,变成下一次协作的起点。

为什么我不迷信更重的一层

说到这里,很多人会自然地往下推一步:

既然 harness 这么重要,是不是越重越好?
越完整越好?
越自动越好?

我的答案是:不一定。

我现在不再把 SDD 当主开发方法,不是因为这些方向没价值。
恰恰相反,我越来越承认它们背后的问题意识是对的:
AI 协作确实需要结构、需要约束、需要编排、需要复盘。

但在我当前的真实工作里,我更在意的是另一件事:

这套东西能不能稳定地降低返工,而不是只是看起来更高级。

如果一个更重的流程带来的是:

那它就未必比一个更轻但更可控的 harness 更好。

所以我现在越来越接受一种更现实的判断:

不一定非得上到一个特别重、特别全自动、特别“社区前沿”的形态,才叫 harness。
对真实工作来说,可控比炫酷更重要,连续性比完整口号更重要。

我的结论

社区往 harness、multi-agent、自动化工作流走,我觉得方向是对的。
因为大家终于开始面对一个更真实的问题:

AI 协作真正难的,不是让 Agent 动起来,
而是让 Agent 在一个可控的系统里稳定地产生价值。

所以如果今天再让我重新概括这件事,我会这样说:

  1. Agent 是能力单元,不是工作系统
  2. 多 Agent 不会自动变强,只会放大系统质量
  3. 真正决定 AI 协作上限的,是 harness
  4. harness 的核心不是更重,而是更可控
  5. 真实工作的关键,不是自动化有多满,而是返工有多少

我现在更关心的,不是再找一个更强的 Agent。
而是继续把这层工作系统设计得更好一点。

AI 协作真正的问题,从来不是“让 Agent 动起来”,
而是“让 Agent 在可控的系统里稳定地产生价值”。

← 返回构建记录