【AI Insight】Agent Harness Engineering:管好你的小龍蝦

post image

想像你經營一家小龍蝦餐廳,養了一池既聰明又強壯的小龍蝦,牠們會自己找食物、會挖洞、會互動,但若缺乏管理,牠們會打架逃跑、搞亂池水。現在你需要的不是更聰明的小龍蝦,而是完善的養殖系統,能夠管理小龍蝦。

2026年的AI Agent正如這些小龍蝦,當LLM足夠聰明且執行複雜長任務的能力時,經過數天、涉及數百次工具調用的工作流之後,有可能會開始「Agent漂移」,偏離初始的指令或者缺乏防護而犯下錯誤。解決這個核心障礙的答案,就是今天要探討的Agent Harness Engineering:一門關於「如何管好你的小龍蝦」的全新工程學科。

什麼是Agent Harness?

Cobus Greyling在其2026年3月的文章中,引用了Philipp Schmid的電腦類比來解釋這一概念,被業界廣泛採用,說明Harness的定位。就像作業系統管理著CPU如何執行任務、記憶體如何分配、應用程式如何運行一樣,Agent Harness管理著模型的工具調用、上下文過濾、記憶狀態處理、權限控制等。

圖1:Agent Harness不是AI模型本身,而是管控Agent如何運行的軟體系統

資料來源:〈The Rise of AI Harness Engineering〉,https://cobusgreyling.substack.com/p/the-rise-of-ai-harness-engineering

Harness的六大核心組件如下表所示:

1Harness的六大核心組件

資料來源:〈What Is an Agent Harness〉,https://parallel.ai/articles/what-is-an-agent-harness

OpenAI的Harness Engineering實踐

OpenAI團隊透過三名工程師,在完全不手動輸入程式碼的約束下,利用Harness Engineering在五個月內打造超過百萬行程式碼的產品。工程師的工作不是寫程式,而是不斷回答「Agent缺少什麼條件才能正確完成任務」,然後把答案工程化進入Harness裏,這正是Harness Engineering的核心定義。他們建立了三層管控:

第一層:讓Agent知道什麼,Context Engineering提供用簡短的 AGENTS.md(約100行)作為地圖,指向更深的知識庫;

第二層:限制Agent能做什麼,Architectural Constraints強制規定程式碼依賴方向和執行規則;

第三層:定期清理Agent造成的無用資訊,Garbage Collection定期執行背景Codex任務,掃描偏差。

產業發展模式:通用型vs垂直型

當前Agent Harness的發展呈現明顯的兩極分化格局:通用型Harness依然稀缺,而垂直領域的專用型Harness開始萌芽。

通用型Harness以Claude Agent SDK為典型代表。提供了與Claude Code相同的工具、agent迴圈和上下文管理,開發者可以用Python或TypeScript程式化調用,建構任何類型的應用,如:財務agent、客服agent、資料工程agent等,不限於應用場景。

垂直型Harness則是專門針對程式設計這一個場景深度優化,不試圖成為通用平台,而是把編程工作流的每一個環節都做到極致,Codex CLI(OpenAI)與Cursor是垂直型Harness代表。

Greyling指出,模型正在吸收傳統上由Framework處理的能力,如Agent定義、Agent A的輸出要傳給哪個Agent B、任務生命週期、依賴管理、子Agent生成等,大約80%的Framework功能已被模型原生處理。剩餘的20%例如持久化、確定性重播、成本控制、可觀測性、錯誤恢復,正是Harness所提供的。

結論與建議

結論一:模型能力已非瓶頸,系統管控才是。Harness優化可帶來26%以上的效能提升,證明「管好小龍蝦」比「養更聰明的小龍蝦」更重要。

結論二:Harness Engineering不是選項,是必要條件。OpenAI團隊花了5個月構建Harness體系,才實現百萬行程式碼的AI自主開發。這不是一蹴而就的事情,需要持續的工程化投入。

結論三:確定性方法與LLM方法的融合是關鍵。最有效的Harness不是純粹依賴AI,而是結合傳統的靜態程式碼分析工具、結構測試等確定性方法,與LLM的靈活推理能力。

Harness將成為AI基礎設施的標配,正如作業系統對電腦是必需品一樣。未來開發者選擇技術stack時,「是否有成熟的Agent Harness支撐」和「AI友好性」將成為核心標準。「前AI」與「後AI」應用維護將分化為兩個世界。專為Harness設計的新應用將享受高度自動化維護,而舊系統要搭配Harness將面臨巨大的改造成本。Harness將反向驅動模型訓練,將Agent Harness作為模型訓練的核心回饋工具,透過Harness捕捉模型在長時任務中的每一個漂移點,讓訓練過程更精準地優化模型的上下文耐久性,而非單純追求排行榜分數。

回到小龍蝦比喻。2026年AI產業認清了一個事實,光靠培育更聰明的小龍蝦是不夠的,我們需要更好的養殖系統。Agent Harness Engineering就是這套系統,它不取代模型的智能,而是為模型的智能提供穩定、可靠、可控的運行環境。AI的未來不在於模型有多聰明,而在於我們能否讓這些聰明模型穩定發揮。

管好你的小龍蝦,才能端出一盤好菜。

 

封面圖片來源:本文作者使用Google Gemini由AI生成。

參考資料來源:

1.  Agent Harness Engineering,YouTube,2026年3月15日

2. Cobus Greyling,〈The Rise of AI Harness Engineering〉,Substack,2026年3月13日。https://cobusgreyling.substack.com/p/the-rise-of-ai-harness-engineering

3. Birgitta Böckeler,〈Harness Engineering〉,Martin Fowler's Blog,2026年2月17日。https://martinfowler.com/articles/exploring-gen-ai/harness-engineering.html

4. Mitchell Hashimoto,〈My AI Adoption Journey〉,個人博客,2026年2月5日。https://mitchellh.com/writing/my-ai-adoption-journey

5. Birgitta Böckeler,Publications,個人網站(birgitta.info)

6. LangChain,〈Improving Deep Agents with harness engineering〉,LangChain Blog,2026年2月17日。https://blog.langchain.com/improving-deep-agents-with-harness-engineering/

7. parallel.ai團隊,〈What Is an Agent Harness〉,parallel.ai,https://parallel.ai/articles/what-is-an-agent-harness

8. OpenAI | Harness Engineering,2026 年2月11日, https://openai.com/index/harness-engineering/

9. Inside the Claude Agents SDK: Lessons from the AI Engineer Summit,2026 年1月29日,https://www.ml6.eu/en/blog/inside-the-claude-agents-sdk-lessons-from-the-ai-engineer-summit

周世俊

2026-04-24

分享: 0 瀏覽量: 49