Context 还不够,Harness 才是 Agent 工程优化的正解?


AI Agent 进入生产环境后,业界关注的重点正从生成转向执行。随着长程任务中的上下文挤压、工具开销和业务语境缺口持续暴露,单一的 Context Engineering 已难以支撑 Agent 的稳定运行,围绕执行环境、约束机制和反馈回路展开设计的 Harness Engineering 因而受到更多关注。

目录

01.  Agent 的稳定性问题还是得靠 Harness 来补?

Harness Engineering 将是 Context Engineering 之后的新范式?…

02 . 为什么 Context Engineering 还远远不够?

Andrej Karpathy 力挺的 Context Engineering 现在也不够用了?LLM 性能提升的关键不在于输入更多的 token?…

03 . Harness Engineering 如何让 Agent 更稳定?

不同厂商正在给 Agent 加上哪些新的约束和回路?…

Agent 的稳定性问题还是得靠 Harness 来补?

1、为了让智能体在真实任务中更可用、更稳定,业内始终在持续推进相关的工程优化工作。随着 AI 应用从单轮生成走向多步执行,Context Engineering 受到了更多关注,主要解决模型在推理过程中「应当看到什么」的问题。

2、而随着真实任务复杂度的上升,近期有思潮认为,要进一步提升 Agent 的稳定性,工程优化的重点不能仅停留在上下文管理中,而需进一步拓展为执行过程本身的设计,因此更关注 Agent 「应当如何运行」的 Harness Engineering 进入研究视野。

① 今年 2 月,云基础 infra 公司 HashiCorp 联创 Mitchell Hashimoto 强调当 Agent 反复犯同类错误时,关键点在于让系统更快暴露错误、定位错误并推动修正,他将这类实践概括为「harness engineering」。[1-1]

3、自 2025 年 12 月开始,AI 社区的 Harness Engineering 的讨论开始逐步升温,并将其视为 Prompt Engineering、Context Engineering 之后,Agent 工程进一步走向执行框架设计的一种信号。[1-2][1-3]

① 相关讨论的核心判断是,决定 Agent 落地效果的关键,已不只是模型能力本身,而在于系统能否提供清晰边界、自动校验和可复用的纠错流程。

② 也有观点认为,这意味着新的工程分工正在形成,即模型负责生成与执行,人类则更多负责设定约束、补充反馈并持续优化运行框架。

4、目前业内有观点认为,Harness Engineering 的价值并不依赖于更换底层模型,而可以直接体现在系统层优化上,例如 LangChain 团队就在固定模型不变的前提下实现了 Agent 表现的明显提升。[1-4]

① 在今年 2 月,其 Deep Agents 团队在保持模型固定为 GPT-5.2-Codex 的前提下,仅通过调整 harness,就将 coding agent 在 Terminal Bench 2.0 上的得分从 52.8% 提升至 66.5%,排名从 Top 30 附近跃升至 Top 5。

② 其改进方法则是借助 trace 在大规模运行中识别失败模式,再针对性回写到 harness 中。 这意味着 Harness Engineering 将「调试模型」转化为了「调整系统」,并通过可观测性与闭环迭代持续放大了模型已有的能力。

③ 而近期 OpenAI 的内部实验则说明,Harness Engineering 的作用并不止于在固定模型下提升 Agent 表现,更在于通过重构环境、上下文组织和反馈机制,使 Agent 得以进入真实的软件交付、部署、修复和迭代流程。[1-5]

为什么 Context Engineering 还远远不够?

1、在围绕 Agent 可用性展开的工程优化中,业内一直在探索更好的解决方案。在较早阶段,业界一度将优化重心放在 Prompt Engineering 上,但随着 AI 应用从单轮问答走向多步执行与长链路任务,单靠提示词已越来越难覆盖真实任务中的上下文缺失、信息噪声与工具协同问题。[1-6]

2、在这一背景下,Context Engineering 逐步受到更多关注,其核心是围绕模型推理所需的信息供给,对检索、记忆、工具反馈与上下文组织方式进行系统化设计,以减少执行偏移、结果失真和后续返工。

① 在 2025 年中,Andrej Karpathy 也表示,相比 prompt engineering,他更认同 context engineering,因为在工业级 LLM 应用中,真正关键的并不是润色单条提示词,而是为模型下一步推理提供恰当的上下文。[1-7]

3、但随着 Agent 进入更长链路、更高复杂度的真实任务,Context Engineering 的局限性也开始集中暴露,它既受到上下文注意力预算的约束,也会因为工具接入和协议开销持续挤压有效认知空间,同时还难以自动补齐企业场景中真正关键的业务定义、数据口径和组织隐性知识…

 关注👇🏻 「机器之心PRO会员」,前往「收件箱」查看完整解读 

]article_adlist–>

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->
            <!-- 非定向300*250按钮  end -->
        </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » Context 还不够,Harness 才是 Agent 工程优化的正解?
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的