AI 軍備競賽的贏家不是做出最強模型的人——Harness 如何成為真正的護城河
🧪 AI 工具實測AI 軍備競賽的贏家不是做出最強模型的人——Harness 如何成為真正的護城河
你有沒有想過,為什麼做出最強模型的公司,不一定是最後的贏家?
導讀:過去三年,AI 產業拼的是參數量和跑分。但 2026 年的三件事打破了這個邏輯。LangChain 不換模型只改架構,排名飆升 25 名。Google、OpenAI、Anthropic 同時砸錢搶「部署工程師」。一群從 Discord 起家的加密原住民,七週拿下 128K GitHub stars。結論只有一個——AI 競爭的勝負手,已經從「模型更強」移到「模型外面的東西更好」。
一個排名的逆轉
不換模型只改架構,排名從三十名外飆到第五。
LangChain 在 TerminalBench 2.0 上原本排 30 名開外。這項測試衡量 AI Agent 處理命令列任務的能力。他們只做了一件事:改底層架構。模型沒換。參數沒動。結果?直接飆到第 5 名。
同一時期,Karpathy 在 X 上抱怨 Claude 寫程式三個毛病。默默做錯假設。過度複雜化。亂動不該動的程式碼。Forrest Chang 把抱怨打包成四條規則。寫進 CLAUDE.md。丟上 GitHub。第一天 5,828 顆星。兩週六萬個書籤。至今超過十二萬顆星——2026 年成長最快的單檔 repo。後續有人在 30 個程式庫上測了六週。錯誤率從 41% 降到 11%。再加八條規則?降到 3%。
兩件事,同一回事。模型沒變。外面的東西變了。效能就天差地別。
那個「外面的東西」有了正式名稱。猶如引擎外面的整台車。
什麼是 Harness?為什麼它是作業系統
LangChain 的 Vivek Trivedy 定義很乾脆。「不是模型本身?那你就是 Harness。」
Harness 是包裹在 LLM 之外的完整軟體架構。它管什麼?編排迴圈、工具呼叫、記憶管理、上下文控制、狀態持久化、錯誤處理、安全護欄。Anthropic 直說:SDK 就是「驅動 Claude Code 的 Harness」。OpenAI Codex 團隊用了同樣說法。
很多人把 Agent 和 Harness 搞混。區別很簡單。Agent 是使用者感受到的行為——有目標、會用工具、能自我修正。**Harness 是產出那個行為的機器。**說「我做了一個 Agent」?真正意思是「我做了一套 Harness,把模型接上去」。
Harness(模型外圍工程架構)是包裹在 LLM 外面的軟體系統。它負責編排流程、管理上下文、呼叫工具、持久化記憶、驗證輸出、執行安全護欄。實測數據很直接。同一模型配不同 Harness,TerminalBench 排名差距達 25 名。僅靠四條規則,錯誤率從 41% 降至 11%。
Beren Millidge 在 2023 年做了一個精準的類比。**裸裝的 LLM 就像一顆沒有記憶體、沒有硬碟、也沒有 I/O 裝置的 CPU。**上下文視窗充當記憶體,快但容量有限。外部資料庫扮演硬碟,大但慢。工具整合是裝置驅動程式。而 Harness?就是作業系統。
Millidge 的結論很直白:「我們重新發明了馮紐曼架構。」歷史在重演。
圖 1:模型外圍工程的馮紐曼類比。LLM 是 CPU、上下文視窗是記憶體、外部資料庫是硬碟、工具是 I/O 驅動,而 Harness 就是統御一切的作業系統。
這不是修辭。模型外圍的基礎建設可以分成三個同心圓:
- 提示詞工程:設計模型收到的指令。
- 上下文工程:管理模型在什麼時間點能看到什麼內容。
- Harness 工程:涵蓋前兩者。再加工具編排、狀態管理、錯誤復原、驗證迴圈、安全執行。
Harness 不是套殼。它如同汽車的底盤和傳動系統。引擎再強也得靠它才能上路。
圖 2:模型外圍工程的三個同心圓。提示詞工程是最內核,被上下文工程包覆,最外層的 Harness 工程再加上工具編排、狀態管理、錯誤復原與安全護欄。
十二個齒輪:生產級 Harness 的內部結構
生產級 Harness 可以拆成十二個核心組件。從編排迴圈到安全護欄。
1. 編排迴圈——系統的心臟
核心是「思考→行動→觀察」迴圈。組裝提示詞、呼叫模型、解析輸出、執行工具、回饋結果,然後重複。像一個不知疲倦的指揮家,每一拍都在確認樂團有沒有走音。技術上?它常常只是一個 while 迴圈。Anthropic 稱之為「笨迴圈」:所有智慧在模型裡,Harness 只管回合切換。
2. 工具與記憶——Agent 的雙手和大腦
工具讓 Agent 能讀寫檔案、搜尋、執行程式碼、存取網頁。記憶在不同時間尺度上運作。短期記憶是單次對話歷史;長期記憶跨越多個工作階段。Claude Code 實作了三層架構。輕量索引永遠載入。主題檔案按需呼叫。原始紀錄只能搜尋存取。
核心原則:**Agent 把記憶當成一種「提示」,行動前必須根據當下狀態驗證。**記憶不是萬能的。過期的記憶比沒有記憶更危險。
3. 上下文管理——最容易翻車的地方
想像拿手電筒照一本厚書:開頭和結尾照得清楚,中間一片模糊。史丹佛大學的「迷失在中間」研究證實了這點。關鍵資訊位於上下文視窗中段時,模型表現下降超過 30%。視窗再大也沒用。上下文一長,Token 被吃掉的速度遠超補給。指令遵循開始變懶。
圖 3:「迷失在中間」效應。如同手電筒照厚書,開頭與結尾清晰、中段模糊;當關鍵資訊落在上下文視窗中段,模型準確率呈 U 形谷底,表現顯著下滑。
生產環境有四招對付。壓縮:接近上限時摘要對話歷史。觀察遮罩:隱藏舊的工具輸出,但保留呼叫紀錄。即時檢索:只保留輕量識別符,動態載入資料。子 Agent 委派:深度探索後只回傳一兩千 Token 的濃縮摘要。
Anthropic 的上下文工程指南很簡潔。找到訊號最強的最小 Token 集合。
4. 驗證迴圈——區分玩具和生產品的關鍵
一個十步流程,每步成功率 99%,全流程只有 90.4%。錯誤會堆積。像滾雪球。越滾越大。
Boris Cherny(Claude Code 創造者)給了數字。讓模型驗證自己的工作,品質提升 2 到 3 倍。驗證方法三種。基於規則的回饋,如測試。視覺回饋,如 UI 截圖。或用另一個 LLM 當裁判。
5. 護欄與安全——模型決定想做什麼,Harness 決定允許做什麼
Anthropic 在架構上把「權限執行」和「模型推理」分開。比任何安全論文都實際。
產業面:部署比訓練更值錢了
如果 Harness 只是技術概念,它不會改變權力結構。但 2026 年春天的事把它推到了產業層面。
OpenAI 在五月成立了「部署公司」。 TPG、Advent 等私募基金投入 40 億美元。估值 140 億美元。OpenAI 同步收購英國 Tomoro。一口氣拿到 150 名 FDE。FDE 全稱 Forward Deployed Engineer,前線部署工程師。FDE 是什麼?介於軟體工程師、架構師和顧問之間。駐紮客戶現場,把模型接進業務流程。
Anthropic 做了同樣的事。 聯合黑石、高盛組建 FDE 諮詢公司。先期投入 15 億美元。主攻中型企業。
Google 則用自己的方式搶人。 FDE 崗位全球布局。面試流程從四到六輪壓縮到兩天兩輪。高階職位在美國的總包?超過 40 萬美元。
邏輯很清楚。三大 AI 公司同時做出同一判斷。訓練花一塊錢,部署可能再花一塊。 FDE 的本質?人肉版 Harness。把模型能力翻譯成客戶業務系統能消化的形式。
圖 4:2026 年的部署軍備競賽。OpenAI 砸 140 億美元成立部署公司、收編 150 名 FDE,Anthropic 投入 15 億美元做 FDE 諮詢。天平上「部署」已與「訓練」等重——FDE 就是把模型接進業務系統的人肉版 Harness。
FDE 的概念不新。Palantir 在 2010 年代就把工程師派到美軍和情報部門現場。近距離觀察需求,快速疊代。到 2016 年,Palantir 的 FDE 人數已經超過一般工程師。但 AI 時代的 FDE 有根本差異。他們部署的不是固定軟體,而是會隨上下文改變行為的概率系統。怎麼管理上下文?怎麼設定護欄?怎麼建立驗證迴圈?這些 Harness 設計能力,成了 FDE 最核心的技能。
故事面:從 8 個粉絲到 10 億美元估值
產業巨頭在搶 FDE 的同時,另一股力量也在證明 Harness 的價值。
先看一個數字:128,000。NousResearch 的 Hermes Agent 七週內在 GitHub 累積的 star 數。LangChain 花了大半年才走完這段路。
但比產品更精彩的是團隊背景。四位共同創辦人裡,三位有硬核 web3 經歷。CEO Jeffrey Quesnelle?之前在以太坊 MEV 專案 Eden Network 任職。Shivani Mitra?全球第一家加密藝術博物館共同創辦人。
最傳奇的是 Teknium。NousResearch 在 X 上流量最大的人物,至今沒人知道真名。2023 年最後一天他發了年終總結。「一年前的今天,我沒訓過模型,對 AI 一無所知,Twitter 上只有 8 個粉絲。」一年後?他做出的 OpenHermes 2.5 資料集成了開源圈無數模型微調的標準底料。三年後?他參與創建的組織估值 10 億美元。
首席科學家 Bowen Peng 的成名作不是正式論文,是一篇 Reddit 貼文。他在 r/LocalLLaMA 分享位置編碼插值的發現。後來成為 YaRN 論文。被 ICLR 2024 收錄。誰用了 YaRN?Meta Llama、阿里 Qwen、DeepSeek、Microsoft Phi3。甚至 OpenAI 自己的開源模型都用了。
結果?Paradigm 領投 5,000 萬美元 A 輪。估值 10 億美元。
為什麼 web3 出身的人能做出增長最快的 AI 產品?
三條基因直接搬過來。
開源不是慈善,是競爭策略。 web3 的核心程式碼幾乎全部開源。在那個生態裡待過的人天然理解這件事。NousResearch 從第一天起全部採用 MIT License。
社群運營能力。 web3 專案的存亡取決於社群熱度。把社群組織起來,讓人自願貢獻程式碼和算力。這種能力移植到 AI 開源專案,效果一樣強。七週 128K stars 的引爆速度不純粹靠技術。
週期免疫力。 web3 的人見過太多牛熊轉換。在混沌中做決策、不被短期波動嚇跑——這種韌性恰好是 AI 這種高速變化領域最需要的。NousResearch 從 2022 到 2026,熱點換了無數次。核心路線?一條都沒變。
這個故事的 Harness 啟示?Hermes Agent 的爆紅不只是因為模型好(後台接的是 GPT-5.5)。關鍵是它把 Agent 長期運作的能力拆得更細。自主記憶更新。skill 路由。工作階段連續性。排程任務。可觀測性。真正拉開差距的,不是引擎馬力,而是誰的底盤更穩、避震更好。
你能從這裡帶走什麼
Harness 能放大已有的能力,卻無法憑空製造模型不具備的推理深度。
把 Harness 當成萬能解藥?危險。TerminalBench 排名飆升 25 位的故事很性感。但 LangChain 同期在 SWE-bench 進步有限。那是需要深度推理的戰場。Harness 能放大模型已有的能力,卻無法憑空製造推理深度。這是最根本的限制。另一個常被忽略的事實:Harness 本身也需要維護。模型每次升級,prompt 工程、工具界面、上下文策略都可能需要同步調整。沒人能逃脫這個週期。把 Harness 當成「一次搭好就不用動」的基礎建設,是目前最常見的失敗模式。
數字已經把故事說了大半。Harness 改造讓 TerminalBench 排名跳升 25 位。四條規則把錯誤率從 41% 壓到 11%,十二條壓到 3%。OpenAI 砸 140 億美元、Anthropic 砸 15 億美元押注部署。NousResearch 七週收割 128K GitHub stars。不是孤立事件,是同一股力量的不同切面。
如果你是開發者: 下次 Agent 表現不佳,先別怪模型。檢查你的 Harness——上下文管理有沒有腐爛?驗證迴圈有沒有建立?工具權限有沒有收窄到最小集合?同一個模型,Harness 不同,排名差 25 名。數字不會騙人。
如果你是決策者: 注意這個訊號。OpenAI 砸 140 億美元成立部署公司。Anthropic 砸 15 億美元做 FDE 諮詢。「讓模型跑起來」的商業價值,正在快速逼近「讓模型更強」。你需要的可能不是更貴的模型 API。而是更好的 Harness 架構,和懂得設計它的人。
如果你是一般使用者: 不用理解十二個組件的細節。從最輕量的 Harness 開始就好——一份寫好規則的 CLAUDE.md。四條規則,錯誤率從 41% 降到 11%。十分鐘內就能拿到的效能提升。
結語
2026 年的 AI 產業正在經歷一場靜悄悄的權力位移。
表面上,模型參數的軍備競賽還在繼續。但地表之下,真正的勝負手已經轉移。LangChain 用 Harness 改寫了排名。三大公司用數百億美元押注部署。NousResearch 用社群和架構設計擊敗了資源多一百倍的對手。
Beren Millidge 說得對:我們重新發明了馮紐曼架構。LLM 是 CPU,Harness 是作業系統。而在運算史上,作業系統的贏家從來不是 CPU 的製造商。
常見問題
Q: Harness 和 AI Agent 有什麼不同? A: Agent 是使用者感知到的行為。Harness 是產生行為的機器。說「我開發了一個 Agent」?真正意思是「我做了一套 Harness,接上模型」。
Q: 不會寫程式的人,該怎麼理解 Harness 的價值? A: 把 LLM 想成裸裝引擎。Harness 是底盤、變速箱、煞車。引擎再強,沒底盤哪都去不了。CLAUDE.md 設定檔就是最輕量的 Harness。任何人都能從寫好規則開始。
Q: 模型會越來越強,Harness 不會被淘汰嗎? A: Harness 的複雜度會隨模型進步而降低,但永遠不會消失。即便最強的模型,仍然需要系統來管理上下文視窗、執行程式碼、保存狀態並驗證工作成果。正如建築的鷹架會隨著建築完工而拆除,但地基和管線系統永遠在。真正的風險不是被淘汰。而是設計太僵化,跟不上模型進化。
Q: Harness 工程和 prompt engineering 有什麼差別? A: Prompt engineering 只管模型收到什麼指令。它是 Harness 的子集。Harness 工程還包含工具編排、狀態管理、錯誤復原、驗證迴圈和安全護欄。用餐廳打比方。prompt engineering 是寫菜單。Harness 工程是經營整間餐廳。從廚房動線、出菜順序到食安檢查都算在內。
References
- Akshay Pachaar, "The Anatomy of an Agent Harness"。Harness 12 組件拆解。TerminalBench 排名資料。Beren Millidge 馮紐曼架構類比。Vivek Trivedy 定義。
- @Xudong07452910, "7 周 128K stars 爆火的 Hermes Agent"。NousResearch 創業史。Teknium/Bowen Peng 故事。Paradigm A 輪。web3 基因分析。
- @xxxjzuo, "從 OpenClaw 到 Hermes:重看 Agentic AI 架構"。Agent runtime 七層架構。skill routing。記憶治理。
- @dotey, "Forward Deployed Engineer:AI 時代的新寵崗位"。FDE 軍備競賽。OpenAI 部署公司 140 億美元估值。
- @cat88tw, "LLM/Harness/Agent 三者的區別"。概念釐清。
- @Mnilax, "Karpathy's 4 CLAUDE.md rules"。四規則錯誤率從 41% 降到 11%。十二規則降到 3%。合規率與規則數量的關係。
常見問題
Harness 和 AI Agent 有什麼不同?
Agent 是使用者感知到的行為體現,Harness 是產生這種行為的背後機器。當有人說「我開發了一個 Agent」,他真正的意思是「我開發了一套 Harness,並把它接入了模型」。
不會寫程式的人,該怎麼理解 Harness 的價值?
把 LLM 想成一顆裸裝的引擎,Harness 是整台車的底盤、變速箱、煞車系統。引擎再強,沒有底盤你哪裡也去不了。CLAUDE.md 這類設定檔就是最輕量的 Harness,任何人都能從寫好規則開始。
模型會越來越強,Harness 不會被淘汰嗎?
Harness 的複雜度會隨模型進步而降低,但永遠不會消失。即便最強的模型,仍然需要系統來管理上下文視窗、執行程式碼、保存狀態並驗證工作成果。
Harness 工程和 prompt engineering 有什麼差別?
Prompt engineering 只管模型收到什麼指令,是 Harness 的子集。Harness 工程還包含工具編排、狀態管理、錯誤復原、驗證迴圈和安全護欄。用餐廳打比方:prompt engineering 是寫菜單,Harness 工程是經營整間餐廳,從廚房動線、出菜順序到食安檢查都算在內。