Jun 21, 2026

by CY

AI 軍備競賽的贏家不是做出最強模型的人——Harness 如何成為真正的護城河

🧪 AI 工具實測

#科普#AI#Agent#Harness#NousResearch#FDE#產業分析

AI 軍備競賽的贏家不是做出最強模型的人——Harness 如何成為真正的護城河

你有沒有想過，為什麼做出最強模型的公司，不一定是最後的贏家？

導讀：過去三年，AI 產業拼的是參數量和跑分。但 2026 年的三件事打破了這個邏輯。LangChain 不換模型只改架構，排名飆升 25 名。Google、OpenAI、Anthropic 同時砸錢搶「部署工程師」。一群從 Discord 起家的加密原住民，七週拿下 128K GitHub stars。結論只有一個——AI 競爭的勝負手，已經從「模型更強」移到「模型外面的東西更好」。

一個排名的逆轉

不換模型只改架構，排名從三十名外飆到第五。

LangChain 在 TerminalBench 2.0 上原本排 30 名開外。這項測試衡量 AI Agent 處理命令列任務的能力。他們只做了一件事：改底層架構。模型沒換。參數沒動。結果？直接飆到第 5 名。

同一時期，Karpathy 在 X 上抱怨 Claude 寫程式三個毛病。默默做錯假設。過度複雜化。亂動不該動的程式碼。Forrest Chang 把抱怨打包成四條規則。寫進 CLAUDE.md。丟上 GitHub。第一天 5,828 顆星。兩週六萬個書籤。至今超過十二萬顆星——2026 年成長最快的單檔 repo。後續有人在 30 個程式庫上測了六週。錯誤率從 41% 降到 11%。再加八條規則？降到 3%。

兩件事，同一回事。模型沒變。外面的東西變了。效能就天差地別。

那個「外面的東西」有了正式名稱。猶如引擎外面的整台車。

什麼是 Harness？為什麼它是作業系統

LangChain 的 Vivek Trivedy 定義很乾脆。「不是模型本身？那你就是 Harness。」

Harness 是包裹在 LLM 之外的完整軟體架構。它管什麼？編排迴圈、工具呼叫、記憶管理、上下文控制、狀態持久化、錯誤處理、安全護欄。Anthropic 直說：SDK 就是「驅動 Claude Code 的 Harness」。OpenAI Codex 團隊用了同樣說法。

很多人把 Agent 和 Harness 搞混。區別很簡單。Agent 是使用者感受到的行為——有目標、會用工具、能自我修正。**Harness 是產出那個行為的機器。**說「我做了一個 Agent」？真正意思是「我做了一套 Harness，把模型接上去」。

Harness（模型外圍工程架構）是包裹在 LLM 外面的軟體系統。它負責編排流程、管理上下文、呼叫工具、持久化記憶、驗證輸出、執行安全護欄。實測數據很直接。同一模型配不同 Harness，TerminalBench 排名差距達 25 名。僅靠四條規則，錯誤率從 41% 降至 11%。

Beren Millidge 在 2023 年做了一個精準的類比。**裸裝的 LLM 就像一顆沒有記憶體、沒有硬碟、也沒有 I/O 裝置的 CPU。**上下文視窗充當記憶體，快但容量有限。外部資料庫扮演硬碟，大但慢。工具整合是裝置驅動程式。而 Harness？就是作業系統。

Millidge 的結論很直白：「我們重新發明了馮紐曼架構。」歷史在重演。

馮紐曼架構對照：LLM 是 CPU，Harness 是作業系統 圖 1：模型外圍工程的馮紐曼類比。LLM 是 CPU、上下文視窗是記憶體、外部資料庫是硬碟、工具是 I/O 驅動，而 Harness 就是統御一切的作業系統。

這不是修辭。模型外圍的基礎建設可以分成三個同心圓：

提示詞工程：設計模型收到的指令。
上下文工程：管理模型在什麼時間點能看到什麼內容。
Harness 工程：涵蓋前兩者。再加工具編排、狀態管理、錯誤復原、驗證迴圈、安全執行。

Harness 不是套殼。它如同汽車的底盤和傳動系統。引擎再強也得靠它才能上路。

三同心圓：提示詞工程 ⊂ 上下文工程 ⊂ Harness 工程 圖 2：模型外圍工程的三個同心圓。提示詞工程是最內核，被上下文工程包覆，最外層的 Harness 工程再加上工具編排、狀態管理、錯誤復原與安全護欄。

十二個齒輪：生產級 Harness 的內部結構

生產級 Harness 可以拆成十二個核心組件。從編排迴圈到安全護欄。

1. 編排迴圈——系統的心臟

核心是「思考→行動→觀察」迴圈。組裝提示詞、呼叫模型、解析輸出、執行工具、回饋結果，然後重複。像一個不知疲倦的指揮家，每一拍都在確認樂團有沒有走音。技術上？它常常只是一個 while 迴圈。Anthropic 稱之為「笨迴圈」：所有智慧在模型裡，Harness 只管回合切換。

2. 工具與記憶——Agent 的雙手和大腦

工具讓 Agent 能讀寫檔案、搜尋、執行程式碼、存取網頁。記憶在不同時間尺度上運作。短期記憶是單次對話歷史；長期記憶跨越多個工作階段。Claude Code 實作了三層架構。輕量索引永遠載入。主題檔案按需呼叫。原始紀錄只能搜尋存取。

核心原則：**Agent 把記憶當成一種「提示」，行動前必須根據當下狀態驗證。**記憶不是萬能的。過期的記憶比沒有記憶更危險。

3. 上下文管理——最容易翻車的地方

想像拿手電筒照一本厚書：開頭和結尾照得清楚，中間一片模糊。史丹佛大學的「迷失在中間」研究證實了這點。關鍵資訊位於上下文視窗中段時，模型表現下降超過 30%。視窗再大也沒用。上下文一長，Token 被吃掉的速度遠超補給。指令遵循開始變懶。

迷失在中間：上下文中段的準確率下滑圖 3：「迷失在中間」效應。如同手電筒照厚書，開頭與結尾清晰、中段模糊；當關鍵資訊落在上下文視窗中段，模型準確率呈 U 形谷底，表現顯著下滑。

生產環境有四招對付。壓縮：接近上限時摘要對話歷史。觀察遮罩：隱藏舊的工具輸出，但保留呼叫紀錄。即時檢索：只保留輕量識別符，動態載入資料。子 Agent 委派：深度探索後只回傳一兩千 Token 的濃縮摘要。

Anthropic 的上下文工程指南很簡潔。找到訊號最強的最小 Token 集合。

4. 驗證迴圈——區分玩具和生產品的關鍵

一個十步流程，每步成功率 99%，全流程只有 90.4%。錯誤會堆積。像滾雪球。越滾越大。

Boris Cherny（Claude Code 創造者）給了數字。讓模型驗證自己的工作，品質提升 2 到 3 倍。驗證方法三種。基於規則的回饋，如測試。視覺回饋，如 UI 截圖。或用另一個 LLM 當裁判。

5. 護欄與安全——模型決定想做什麼，Harness 決定允許做什麼

Anthropic 在架構上把「權限執行」和「模型推理」分開。比任何安全論文都實際。

產業面：部署比訓練更值錢了

如果 Harness 只是技術概念，它不會改變權力結構。但 2026 年春天的事把它推到了產業層面。

OpenAI 在五月成立了「部署公司」。 TPG、Advent 等私募基金投入 40 億美元。估值 140 億美元。OpenAI 同步收購英國 Tomoro。一口氣拿到 150 名 FDE。FDE 全稱 Forward Deployed Engineer，前線部署工程師。FDE 是什麼？介於軟體工程師、架構師和顧問之間。駐紮客戶現場，把模型接進業務流程。

Anthropic 做了同樣的事。 聯合黑石、高盛組建 FDE 諮詢公司。先期投入 15 億美元。主攻中型企業。

Google 則用自己的方式搶人。 FDE 崗位全球布局。面試流程從四到六輪壓縮到兩天兩輪。高階職位在美國的總包？超過 40 萬美元。

邏輯很清楚。三大 AI 公司同時做出同一判斷。訓練花一塊錢，部署可能再花一塊。 FDE 的本質？人肉版 Harness。把模型能力翻譯成客戶業務系統能消化的形式。

部署軍備競賽：部署的價值正逼近訓練圖 4：2026 年的部署軍備競賽。OpenAI 砸 140 億美元成立部署公司、收編 150 名 FDE，Anthropic 投入 15 億美元做 FDE 諮詢。天平上「部署」已與「訓練」等重——FDE 就是把模型接進業務系統的人肉版 Harness。

FDE 的概念不新。Palantir 在 2010 年代就把工程師派到美軍和情報部門現場。近距離觀察需求，快速疊代。到 2016 年，Palantir 的 FDE 人數已經超過一般工程師。但 AI 時代的 FDE 有根本差異。他們部署的不是固定軟體，而是會隨上下文改變行為的概率系統。怎麼管理上下文？怎麼設定護欄？怎麼建立驗證迴圈？這些 Harness 設計能力，成了 FDE 最核心的技能。

故事面：從 8 個粉絲到 10 億美元估值

產業巨頭在搶 FDE 的同時，另一股力量也在證明 Harness 的價值。

先看一個數字：128,000。NousResearch 的 Hermes Agent 七週內在 GitHub 累積的 star 數。LangChain 花了大半年才走完這段路。

但比產品更精彩的是團隊背景。四位共同創辦人裡，三位有硬核 web3 經歷。CEO Jeffrey Quesnelle？之前在以太坊 MEV 專案 Eden Network 任職。Shivani Mitra？全球第一家加密藝術博物館共同創辦人。

最傳奇的是 Teknium。NousResearch 在 X 上流量最大的人物，至今沒人知道真名。2023 年最後一天他發了年終總結。「一年前的今天，我沒訓過模型，對 AI 一無所知，Twitter 上只有 8 個粉絲。」一年後？他做出的 OpenHermes 2.5 資料集成了開源圈無數模型微調的標準底料。三年後？他參與創建的組織估值 10 億美元。

首席科學家 Bowen Peng 的成名作不是正式論文，是一篇 Reddit 貼文。他在 r/LocalLLaMA 分享位置編碼插值的發現。後來成為 YaRN 論文。被 ICLR 2024 收錄。誰用了 YaRN？Meta Llama、阿里 Qwen、DeepSeek、Microsoft Phi3。甚至 OpenAI 自己的開源模型都用了。

結果？Paradigm 領投 5,000 萬美元 A 輪。估值 10 億美元。

為什麼 web3 出身的人能做出增長最快的 AI 產品？

三條基因直接搬過來。

開源不是慈善，是競爭策略。 web3 的核心程式碼幾乎全部開源。在那個生態裡待過的人天然理解這件事。NousResearch 從第一天起全部採用 MIT License。

社群運營能力。 web3 專案的存亡取決於社群熱度。把社群組織起來，讓人自願貢獻程式碼和算力。這種能力移植到 AI 開源專案，效果一樣強。七週 128K stars 的引爆速度不純粹靠技術。

週期免疫力。 web3 的人見過太多牛熊轉換。在混沌中做決策、不被短期波動嚇跑——這種韌性恰好是 AI 這種高速變化領域最需要的。NousResearch 從 2022 到 2026，熱點換了無數次。核心路線？一條都沒變。

這個故事的 Harness 啟示？Hermes Agent 的爆紅不只是因為模型好（後台接的是 GPT-5.5）。關鍵是它把 Agent 長期運作的能力拆得更細。自主記憶更新。skill 路由。工作階段連續性。排程任務。可觀測性。真正拉開差距的，不是引擎馬力，而是誰的底盤更穩、避震更好。

你能從這裡帶走什麼

Harness 能放大已有的能力，卻無法憑空製造模型不具備的推理深度。

把 Harness 當成萬能解藥？危險。TerminalBench 排名飆升 25 位的故事很性感。但 LangChain 同期在 SWE-bench 進步有限。那是需要深度推理的戰場。Harness 能放大模型已有的能力，卻無法憑空製造推理深度。這是最根本的限制。另一個常被忽略的事實：Harness 本身也需要維護。模型每次升級，prompt 工程、工具界面、上下文策略都可能需要同步調整。沒人能逃脫這個週期。把 Harness 當成「一次搭好就不用動」的基礎建設，是目前最常見的失敗模式。

數字已經把故事說了大半。Harness 改造讓 TerminalBench 排名跳升 25 位。四條規則把錯誤率從 41% 壓到 11%，十二條壓到 3%。OpenAI 砸 140 億美元、Anthropic 砸 15 億美元押注部署。NousResearch 七週收割 128K GitHub stars。不是孤立事件，是同一股力量的不同切面。

如果你是開發者： 下次 Agent 表現不佳，先別怪模型。檢查你的 Harness——上下文管理有沒有腐爛？驗證迴圈有沒有建立？工具權限有沒有收窄到最小集合？同一個模型，Harness 不同，排名差 25 名。數字不會騙人。

如果你是決策者： 注意這個訊號。OpenAI 砸 140 億美元成立部署公司。Anthropic 砸 15 億美元做 FDE 諮詢。「讓模型跑起來」的商業價值，正在快速逼近「讓模型更強」。你需要的可能不是更貴的模型 API。而是更好的 Harness 架構，和懂得設計它的人。

如果你是一般使用者： 不用理解十二個組件的細節。從最輕量的 Harness 開始就好——一份寫好規則的 CLAUDE.md。四條規則，錯誤率從 41% 降到 11%。十分鐘內就能拿到的效能提升。

結語

2026 年的 AI 產業正在經歷一場靜悄悄的權力位移。

表面上，模型參數的軍備競賽還在繼續。但地表之下，真正的勝負手已經轉移。LangChain 用 Harness 改寫了排名。三大公司用數百億美元押注部署。NousResearch 用社群和架構設計擊敗了資源多一百倍的對手。

Beren Millidge 說得對：我們重新發明了馮紐曼架構。LLM 是 CPU，Harness 是作業系統。而在運算史上，作業系統的贏家從來不是 CPU 的製造商。

常見問題

Q: Harness 和 AI Agent 有什麼不同？ A: Agent 是使用者感知到的行為。Harness 是產生行為的機器。說「我開發了一個 Agent」？真正意思是「我做了一套 Harness，接上模型」。

Q: 不會寫程式的人，該怎麼理解 Harness 的價值？ A: 把 LLM 想成裸裝引擎。Harness 是底盤、變速箱、煞車。引擎再強，沒底盤哪都去不了。CLAUDE.md 設定檔就是最輕量的 Harness。任何人都能從寫好規則開始。

Q: 模型會越來越強，Harness 不會被淘汰嗎？ A: Harness 的複雜度會隨模型進步而降低，但永遠不會消失。即便最強的模型，仍然需要系統來管理上下文視窗、執行程式碼、保存狀態並驗證工作成果。正如建築的鷹架會隨著建築完工而拆除，但地基和管線系統永遠在。真正的風險不是被淘汰。而是設計太僵化，跟不上模型進化。

Q: Harness 工程和 prompt engineering 有什麼差別？ A: Prompt engineering 只管模型收到什麼指令。它是 Harness 的子集。Harness 工程還包含工具編排、狀態管理、錯誤復原、驗證迴圈和安全護欄。用餐廳打比方。prompt engineering 是寫菜單。Harness 工程是經營整間餐廳。從廚房動線、出菜順序到食安檢查都算在內。

References

Akshay Pachaar, "The Anatomy of an Agent Harness"。Harness 12 組件拆解。TerminalBench 排名資料。Beren Millidge 馮紐曼架構類比。Vivek Trivedy 定義。
@Xudong07452910, "7 周 128K stars 爆火的 Hermes Agent"。NousResearch 創業史。Teknium/Bowen Peng 故事。Paradigm A 輪。web3 基因分析。
@xxxjzuo, "從 OpenClaw 到 Hermes：重看 Agentic AI 架構"。Agent runtime 七層架構。skill routing。記憶治理。
@dotey, "Forward Deployed Engineer：AI 時代的新寵崗位"。FDE 軍備競賽。OpenAI 部署公司 140 億美元估值。
@cat88tw, "LLM/Harness/Agent 三者的區別"。概念釐清。
@Mnilax, "Karpathy's 4 CLAUDE.md rules"。四規則錯誤率從 41% 降到 11%。十二規則降到 3%。合規率與規則數量的關係。

常見問題

Harness 和 AI Agent 有什麼不同？

Agent 是使用者感知到的行為體現，Harness 是產生這種行為的背後機器。當有人說「我開發了一個 Agent」，他真正的意思是「我開發了一套 Harness，並把它接入了模型」。

不會寫程式的人，該怎麼理解 Harness 的價值？

把 LLM 想成一顆裸裝的引擎，Harness 是整台車的底盤、變速箱、煞車系統。引擎再強，沒有底盤你哪裡也去不了。CLAUDE.md 這類設定檔就是最輕量的 Harness，任何人都能從寫好規則開始。

模型會越來越強，Harness 不會被淘汰嗎？

Harness 的複雜度會隨模型進步而降低，但永遠不會消失。即便最強的模型，仍然需要系統來管理上下文視窗、執行程式碼、保存狀態並驗證工作成果。

Harness 工程和 prompt engineering 有什麼差別？

Prompt engineering 只管模型收到什麼指令，是 Harness 的子集。Harness 工程還包含工具編排、狀態管理、錯誤復原、驗證迴圈和安全護欄。用餐廳打比方：prompt engineering 是寫菜單，Harness 工程是經營整間餐廳，從廚房動線、出菜順序到食安檢查都算在內。

覺得這篇有幫助？

追蹤以收到新的 AI × 生醫研究筆記：

RSS X / Twitter

或請我喝杯咖啡，讓新內容持續產出。

☕ 請我喝杯咖啡

AI 軍備競賽的贏家不是做出最強模型的人——Harness 如何成為真正的護城河

AI 軍備競賽的贏家不是做出最強模型的人——Harness 如何成為真正的護城河

一個排名的逆轉

什麼是 Harness？為什麼它是作業系統

十二個齒輪：生產級 Harness 的內部結構

1. 編排迴圈——系統的心臟

2. 工具與記憶——Agent 的雙手和大腦

3. 上下文管理——最容易翻車的地方

4. 驗證迴圈——區分玩具和生產品的關鍵

5. 護欄與安全——模型決定想做什麼，Harness 決定允許做什麼

產業面：部署比訓練更值錢了

故事面：從 8 個粉絲到 10 億美元估值

你能從這裡帶走什麼

結語

常見問題

常見問題

Harness 和 AI Agent 有什麼不同？

不會寫程式的人，該怎麼理解 Harness 的價值？

模型會越來越強，Harness 不會被淘汰嗎？

Harness 工程和 prompt engineering 有什麼差別？

覺得這篇有幫助？

相關文章