在目前的 AI 領域中,我們習慣於看 LLM(大型語言模型)的排行榜,例如模型在某個基準測試中拿了多少分。但對於開發 AI Agent(AI 代理人)的工程師來說,這種評估方式存在一個巨大的盲點:Agent 的表現並不只取決於內部的模型,而取決於整個系統的設計。
當你部署一個 Agent 時,你選擇的不僅是一個模型,而是一套完整的系統,包含它能使用哪些工具(Tools)、如何規劃步驟(Planning)、如何在行動之間記憶資訊(Memory),以及在出錯時如何恢復(Error Recovery)。同樣的模型,搭配不同的系統設計,產出的結果與運算成本可能天差地遠。
為了填補這個缺口,IBM Research 推出了 Open Agent Leaderboard,這是一個專門評估完整 Agent 系統而非單一模型的開放框架。
什麼是 Agent 的通用能力(Generality)
許多 Agent 在特定任務中表現優異,例如專為某個程式碼庫設計的 Coding Agent,或針對特定產品線的客服 Agent。但真正的通用能力是指:同一個 Agent 能在不需要人工針對特定環境進行微調的情況下,直接投入多個截然不同的工作場景,並能適應各自的工具、規則與限制。
通用能力並非是非黑即白的標籤,而是一個光譜。一個真正實用的通用 Agent 必須滿足兩個條件:第一,隨著任務複雜度與場景增加,其能力不能大幅下降;第二,運作成本必須在可接受的範圍內。如果一個系統能解決所有問題但成本極高,在實務部署上並不具有通用價值。
評估框架的組成與實作
Open Agent Leaderboard 整合了六個具有代表性的基準測試,涵蓋編碼、網路研究、個人助理、客戶服務與技術支援等五大類場景,包括 SWE-Bench Verified、BrowseComp+、AppWorld 以及 tau2-Bench 等。
為了讓這些原本獨立的測試能統一評估,開發團隊建立了一套統一協定(Unified Protocol),將所有任務標準化為三個核心要素:任務目標(Task)、上下文資訊(Context)以及允許的操作集(Actions)。
這種標準化的過程非常困難,因為每個基準測試都有自己的假設與互動模式。透過這套協定,Agent 可以保持原生的工具介面,但能以統一的方式與不同環境接軌,讓評估結果更具可比性。
從排行榜中能學到什麼
透過觀察排行榜,可以發現幾個對工程實務至關重要的觀點。
首先,模型相同並不代表結果相同。在排行榜的前五名中,有三個系統使用了相同的模型,但成功率與成本卻截然不同。這證明了 Agent 的封裝設計(Agent Wrapper)對最終結果有顯著影響。
其次,失敗的成本比成功更高。研究發現,失敗的執行路徑比成功的路徑貴 20% 到 54%。對於在生產環境部署 Agent 的工程師來說,這意味著系統的失敗行為(Failure Behavior)將直接影響你的雲端帳單。
最後,工具篩選(Tool Shortlisting)能顯著提升效能。讓 Agent 專注於相關工具,而不是在海量工具集中盲目搜尋,能將原本會失敗的配置轉化為可行的方案。
結論與未來方向
目前的發現顯示,通用型 Agent 的競爭力已經足以媲美特定任務的專用 Agent。雖然模型選擇目前仍是決定表現的主導因素,但 Agent 的架構設計(如記憶管理與工具篩選)已經開始產生可視化的影響。
為了讓社群能共同推動,IBM 同時開源了 Exgentic 框架,讓開發者可以自行執行並複現評估結果。對於想要提升 Agent 效能的工程師來說,重點不再僅僅是更換更強的模型,而應專注於優化規劃、記憶與錯誤恢復等模組化組件。
來源:huggingface.co - The Open Agent Leaderboard
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。