下一個AI比賽場，為什么是Harness？

發(fā)布時間：2026-05-27 文章來源：本站瀏覽次數(shù)：371

"Agents aren't hard; the Harness is hard."

2026 年 2 月，當 OpenAI 工程師 Ryan Lopopolo 用這句話概括他剛完結的項目時，大多數(shù)人還不了解他的慨嘆。他帶著一個不到 10 人的小團隊，用 5 個月時間，讓 Codex 寫出了超越 100 萬行代碼，全程沒有手敲一行。這套能讓模型可靠地工作的體系，被他稱之為 "Harness Engineering"。

據(jù)揭露信息，Codex的周活潑用戶在3月初還是160萬左右，但到了5月，現(xiàn)已超越了400萬。

除了模型的升級，Codex的Harness才能也為它贏來不少用戶。比方，有開發(fā)者測驗發(fā)現(xiàn)，在一個相同使命上，Claude Code消耗的token約是 Codex的3到4倍。距離不全在模型自身，也和 Harness 規(guī)劃有關：Codex 傾向于把使命拆開并行跑，每個子使命上下文獨立，互不污染。

現(xiàn)在 AI 圈現(xiàn)已廣泛認可 "Agent = Model + Harness" 這一條公式。假如 Agent 是一輛車，大模型便是提供馬力的發(fā)動機。沒有發(fā)動機，全部無從談起。但一臺裸發(fā)動機放在地上，你也無法開它上路。Harness，便是把"發(fā)動機"變成"整車"的那套體系工程。

就在本月，DeepSeek 發(fā)布了兩個招聘崗位：Harness 產(chǎn)品經(jīng)理和 Harness 研制工程師。DeepSeek 資深研究員陳德里在交際媒體上表示，這是為了組建一個 Harness 團隊，且方向是"對標 Claude Code，做 DeepSeek Code Harness"。這一家以模型層打破著稱的公司，也把下一步的籌碼押在了 Harness 上。

曩昔幾年，模型才能是稀缺資源。但隨著模型才能根底設施化，搶先變得難以保持強壯模型，保質期越來越短了，模型之外的那一層 Harness 益發(fā)重要。

模型才能依然是根本，但Harness現(xiàn)已變成AI競賽的關鍵比賽場。

一、Harness 洗牌職業(yè)三層結構

Harness 開端反向優(yōu)化模型，僅僅洗牌當前整個 AI 職業(yè)結構的早期信號。

曩昔幾年，AI 產(chǎn)業(yè)被默許分紅三層結構：根底設施層、模型層和運用層。三層各司其職，價值分配相對清晰。但現(xiàn)在Harness開端影響這個“利益蛋糕”的分配。

模型公司首先感受到是“實現(xiàn)權”被拿走了一部分。

曩昔模型公司既練習模型，又決議模型怎么被用。賣 API、賣 Playground，模型才能的實現(xiàn)徹底在自己手里。模型強，就賣得貴，邏輯簡略。

Harness 出現(xiàn)后，這個邏輯松動了。在 DeepSeek官方?jīng)Q議下場做 Harness 之前，開發(fā)者社區(qū)里的一個 "DeepSeek版Claude Code"（名為"DeepSeek-TUI"）備受歡迎，現(xiàn)在Stars已超越3萬。這是由于同一個 DeepSeek 版別，跑在一個精調的 code Harness 里，能發(fā)揮更好的水準，而跑在一個粗糙的“殼”里，才能會大打折扣。

模型自身沒有改變，但Harness會影響模型才能實現(xiàn)的區(qū)間。模型公司辛苦訓出來的才能，假如拱手讓給別人的Harness 來接受，終究定價權或許會在別人手上。相當于自己成了供貨商，少賺一層，貨好貨差還由渠道說了算。

運用層的改變產(chǎn)生得更隱蔽和緩慢一些。曩昔不少運用公司的護城河是懂事務。這種"懂"藏在產(chǎn)品經(jīng)理的判別里、在多年打磨的交互細節(jié)里、在繼續(xù)迭代的功能邏輯里。但現(xiàn)在這些東西開端往Harness搬。例如，SaaS 巨頭 Salesforce 把出售頭緒追尋的規(guī)范動作固化進去，Claude Code 把代碼評定的規(guī)范流程嵌進去。曩昔靠人了解和沉積的東西，現(xiàn)在到了 Harness 這一層。

本年 5 月，老牌客服 SaaS 公司 Intercom 乃至直接改名為 Fin，用自家 AI Agent 產(chǎn)品的名字替換了運營 15 年的品牌，開端環(huán)繞 Harness 重構。那些還沒開端重視Harness的運用公司，幾年后回頭看，或許會發(fā)現(xiàn)自己的事務護城河現(xiàn)已被悄然掏空。事務了解一旦被 Harness 固化為可執(zhí)行的 Agent 動作，這套了解的所有權，就跟著 Harness 走了，不再跟著人走。

再往上走，根底設施層也無法置身事外，由于算力商場的需求會被反向界說。

曩昔英偉達等公司的產(chǎn)品規(guī)劃，很大程度上由大批量、穩(wěn)定負載的模型練習來驅動。但隨著Harness的遍及，Agent推理正成為算力商場的新主導力量。Agent 具有長鏈路、多次調用、帶東西、帶回憶的特征，其推理負載有長周期、不行猜測等動態(tài)改變，需求不同的調度方法、內存架構和網(wǎng)絡拓撲。英偉達在2026年發(fā)布的Vera Rubin渠道，便是專為智能體和大規(guī)模推理年代而構建。Harness 開端反過來影響芯片層的下一代產(chǎn)品形狀。

這些改變疊在一同，讓AI產(chǎn)業(yè)鏈的每一層利益分配，都要開端從頭商洽。

二、Harness 天然長在場景里

Harness 自身內部，也在產(chǎn)生分解。這種分解的根源，藏在 Harness 的一個根本性特色里。

Ryan Lopopolo團隊開端以為，只要把模型接上Harness就行，但后面發(fā)現(xiàn)，Harness不是一個即插可用的插件。Harness 不是一次規(guī)劃好就放在那里的，它必須在實在場景的失利里磨出來。沒有這種實在場景去糾偏，Harness就會僵化。

這便是為什么Harness天然長在場景里。而不同公司的事務場景千差萬別，Harness也就會分解。

早被驗證、也快能讓 Harness 跑通的是代碼場景。Harness 在代碼場景里跑出來的每一條軌跡，都自帶反應信號，模型能夠從中學習。這是為什么 Anthropic 和 OpenAI 不約而同把 Harness 的第一戰(zhàn)放在代碼場景上。

但代碼之外的國際沒有編譯器，要復雜得多。在客服答疑、售后服務、風控判別等非代碼場景里，沒有一個自動化的客觀規(guī)范能瞬間給出對錯。離開了天然驗證器，反應信號要么靠人工去工標示和復盤，但本錢高、迭代慢；要么靠實在事務成果反應，這就需求離事務滿足近、跑得滿足久。Harness 做得好的玩家，一定是離實在事務反應近的。

長遠來看，模型必定還會變得更強�，F(xiàn)在 Harness 面對的失利重試、上下文切斷等需求專門工程來處理的問題，未來或許模型自己就能處理。但 Harness 長在實在事務場景里、靠實在失利磨出來的部分，是模型再強也代替不了的。模型變強會消解 Harness 的工程層，但消解不掉 Harness 的場景層。

有實在事務反應的玩家，現(xiàn)已開端在 Harness 上顯示出優(yōu)勢。

比方，SaaS 巨頭 Salesforce 在 CRM 場景里有幾十年沉積的客戶行為數(shù)據(jù)、出售漏斗反應、服務工單記載。新財年的數(shù)據(jù)顯示，公司的Agentforce現(xiàn)已按"Agent 對話"收費，ARR 達 8 億美元，全年增速 169%，累計超 2.9 萬筆交易，已走通商業(yè)實現(xiàn)。

現(xiàn)在國內日活第一的 Agent 騰訊 WorkBuddy，也是很早就押注 Harness 的玩家。從團隊決議做 claw 形式到全量上線，只用了一個星期。能跑得這么快，是由于WorkBuddy的Harness早就在騰訊內部搭建好。在面向商場之前，WorkBuddy就被內部2000多人運用過。員工把會議紀要、跨部門協(xié)作、郵件草擬、文檔生成這些日常工作交給它，每一次運用和反應都被沉積回Harness里，將Harness打磨得更好。

可是，這不意味著各家公司在各自界說和制造徹底孤立、只精干一件事的 Agent 產(chǎn)品。而是在未來的AI競賽中，當模型要進入不同職業(yè)的事務深水區(qū)時，必須放入不同的 Harness 里去鍛煉。

這些鍛煉的分解不僅是Agent路線的挑選差異，更是企業(yè)各自護城河的重塑。代碼、協(xié)同工作、電商交易等等，不同的場景長出徹底不同的 Harness。由于非代碼場景的反應信號極難跨職業(yè)復制，在一個場景里磨出來的 Harness，無法直接搬到另一個場景里發(fā)力。那么，具有共同事務閉環(huán)的玩家，會在自己的領域內樹立起壁壘，外來者很難經(jīng)過單純堆疊算力或模型規(guī)模來打破這種搶先。

三、規(guī)范化與智能體生態(tài)之爭

當 Agent 在不同的 Harness 里鍛煉，長出了不同的規(guī)矩和行事風格，它們終究需求"彼此說話"。

假如每家都用私有協(xié)議、私有調用方法，整個 Agent 生態(tài)就會陷入 PC 年代軟件之間不能互通、互聯(lián)網(wǎng)年代瀏覽器各自實現(xiàn) HTML 的紊亂。為此，接下來 Agent 競賽一定會從場景層的工程上升到協(xié)議和規(guī)范層面，這是 Agent 大規(guī)�；ネǖ母讓�。

Agent 的規(guī)范化競賽現(xiàn)已開端。Anthropic在2024年底推出MCP（Model Context Protocol），把模型如何接入東西、如何獲取上下文這件事抽象成職業(yè)協(xié)議；Google 在2025年4月推出A2A（Agent2Agent）協(xié)議，讓多個 Agent 之間能跨廠商協(xié)作。

究竟，當Agent開端大規(guī)�；ネǎ热胝邩嫵傻膮f(xié)議網(wǎng)絡會成為后來者的進入門檻。誰先把協(xié)議鋪開、把生態(tài)接進來、把開發(fā)者留住，誰就在這一層拿到了類似 Android、iOS 的渠道位。

在國內，騰訊、阿里、字節(jié)都在跟進，防止在事實規(guī)范之外掉隊。騰訊云智能體開發(fā)渠道全面支撐MCP并上線MCP插件廣場；阿里百煉渠道已接入MCP；字節(jié)旗下的Trae和Coze也在全面擁抱和兼容MCP。

協(xié)議的規(guī)范化遠不止處理互通這件事自身。協(xié)議決議的還有能否讓用戶安全、信賴地運用Agent，終究能否實現(xiàn)大規(guī)模商業(yè)化落地。

當Agent能代你下單、付款、簽合一起，過程中的風險怎么把控？本年5月，中國信通院聯(lián)合騰訊、華為、中興、三大運營商和港中深共同發(fā)布的 ATH 協(xié)議，開端回應這些問題。這個協(xié)議的核心思路是經(jīng)過用戶、Agent 與服務的三方握手來確定權限鴻溝，權限取交集，任何一方缺席都無法經(jīng)過。

與協(xié)議之爭一起產(chǎn)生的，還有 Agent 協(xié)作根底設施的建造。

當十個 Agent 要協(xié)作，光有規(guī)范協(xié)議還不行。多個 Agent 之間的調度、共享內存、權限鴻溝、上下文路由、安全沙箱等問題是協(xié)議層面不能徹底處理的問題，需求一套底層根底設施接受。

這一層根底設施終究會長成什么樣，現(xiàn)在沒有一致。一種或許是被現(xiàn)有終端進一步集成，它們先拿到屏幕、體系算力和硬件權限，再去調用 Agent；另一種或許是演化出獨立的智能體生態(tài)，類似于PC年代的 Windows 或移動年代的 Android。

還有一種途徑是在已有的超級生態(tài)里長出來，這也是現(xiàn)在外界對微信 Agent 大的想象空間。騰訊高管在多個揭露場合提過微信 Agent 的方向。盡管現(xiàn)在還沒有正式產(chǎn)品形狀，但假如把 14 億微信用戶、450 萬小程序，以及掩蓋從支付到政務的事務場景，自身便是一張現(xiàn)成的Agent協(xié)作網(wǎng)絡。Agent不需求從頭“搭場子”，它接入的是現(xiàn)已跑通的實在事務，順著這張網(wǎng)往前走就行。

協(xié)議界說Agent之間如何互通，根底設施擔任讓Agent能穩(wěn)定運轉。能夠看到，現(xiàn)在跑在前面的AI公司都在一起考慮這兩件事，為搶占Agent年代的競賽優(yōu)勢做準備。

結語

曩昔看一家 AI 公司的競賽力，大家習慣性看它的模型有多強、榜單上的分數(shù)有多高、燒的錢有多少。但這些問題，只能告知你有沒有”發(fā)動機”，以及“發(fā)動機做得怎樣”。

可是，現(xiàn)在職業(yè)現(xiàn)已意識到這一套評價方法不行全面和實用。整車要跑上路，還需求一套安全可用的“整車體系”。當OpenAI和DeepSeek等模型層也在補齊Agent所需求的Harness才能時，其實現(xiàn)已提醒了AI競賽新的評價方法：Harness能不能反向優(yōu)化自家模型、有沒有實在事務場景做反應、能不能在Agent規(guī)范化之爭中卡位、有沒有樹立根底底座承載多Agent的協(xié)作等等。

模型依然是根本盤，但隨著Harness的影響在擴展，每一家AI公司接下來要回答的都不再僅僅“我的模型有多強”，還要想清楚自己在Harness攪動的新AI格局里，要站在哪里？

AI 年代一日千里，Harness 也許僅僅一個開端。再過幾年，它或許有新的名字，詳細形狀也或許會演化。但模型與場景之間，總要有一個銜接模型、嵌入事務、沉積反應的中間層。

這一層沉積的除了工程才能，還有事務了解、反應數(shù)據(jù)，以及一家公司和實在用戶之間日復一日的彼此校準�，F(xiàn)在來看，這件事情沒有捷徑，只能在滿足長的時間里沉積，在滿足大的實在事務中鍛煉。

上一條：買Token防騙指南...

下一條：拼多多新鏈接怎樣快速入池...

国产人成视频在线观看,青青操视频在线观看国产,国产精品大秀视频日韩精品,人妻丰满熟妇岳av无码区hd

下一個AI比賽場，為什么是Harness？

下一個AI比賽場，為什么是Harness？