當前許多 AI 模型在通用基準測試中表現優異,但在面對真實世界的企業 IT 運維任務時,表現卻不如預期。由 Artificial Analysis 與 IBM 共同推出的 ITBench-AA 評測集,專門針對 Agentic Enterprise IT Tasks(具備代理能力的企業 IT 任務)進行評估。首波測試聚焦在 SRE(Site Reliability Engineering,網站可靠性工程),也就是負責系統穩定性、故障排除與效能優化的工程實務。
結果顯示,即便是最頂尖的前沿模型,在處理 Kubernetes 故障診斷時的得分也低於 50%,揭示了 AI 在處理複雜基礎設施診斷時的顯著短板。
什麼是 ITBench-AA SRE 評測
這套評測的核心是模擬 Kubernetes 的事故響應流程。AI Agent 不能僅僅靠對話,而是必須扮演一名 SRE 工程師,進入一個沙盒環境,透過 Shell 指令讀取日誌(Logs)、追蹤依賴關係(Traces)、分析指標(Metrics)以及查看應用程式的拓撲結構(Topology),最終找出導致系統故障的根因實體(Root-cause Entities)。
評測涵蓋了 59 個 SRE 任務,包含基礎設施故障、服務異常、應用程式錯誤以及人為注入的混亂工程(Chaos Engineering)故障,例如資源配額耗盡(Resource Quota Exhaustion)、版本更新失敗(Rollout Failures)或網路分區(Network Partitions)等真實場景。
評分機制與工程實務的考量
對於 Junior 工程師來說,最值得關注的是 ITBench-AA 的評分邏輯。它採用的是一種嚴格的召回率門檻精度評分(Recall-gated Precision)。
簡單來說,如果 AI 漏掉任何一個真正的根因,該次嘗試直接得 0 分。如果找齊了所有根因,則根據精確度得分,即真正的根因佔其提交總數的比例。
這種設計模擬了真實運維壓力:在處理重大事故時,漏掉關鍵原因會導致故障無法修復,而提交過多無關的猜測(False Positives)則會誤導團隊,增加修復時間。
過度調查的陷阱
評測發現一個有趣的現象:對話輪數(Turn counts)越多,並不代表準確率越高。
部分模型傾向於過度調查,嘗試挖掘所有可能的關聯。然而,在 SRE 實務中,很多現象是共存的症狀而非原因。例如,AI 可能發現了觸發故障的混亂工程控制器,或者看到了上游的連鎖反應,將其誤認為根因。這種過度分析導致模型在精確度上失分。
對比數據顯示,某些模型平均每項任務花費 83 輪對話但得分僅 30%,而有些模型僅用 58 輪便能達到 37% 的得分。這說明 AI Agent 目前仍缺乏區分症狀(Symptom)與根因(Root Cause)的判斷力。
模型表現與成本分析
在目前的領先榜單中,Claude Opus 4.7 以 47% 的得分領先,但其單次任務成本最高(約 5.38 美元)。GPT-5.5 緊隨其後,得分約 46%。
值得注意的是開源權重模型(Open Weights Models)的崛起。例如 Gemma 4 31B 在得分(37%)與成本(每項任務 0.14 美元)之間取得了極佳的平衡,其表現甚至優於部分成本更高且得分更低的商業模型。這對企業在部署內部運維 AI 時提供了重要參考:不一定需要最昂貴的模型,適當規模的推理模型可能更具成本效益。
總結與啟發
ITBench-AA 的結果告訴我們,將 AI 轉化為合格的 SRE Agent 仍有很長的路要走。目前的挑戰不在於模型是否能讀懂日誌,而是在於如何從海量、雜亂的基礎設施數據中,精準地過濾雜訊並定位唯一的故障源。
對於開發 AI Agent 的工程師而言,優化方向不應僅是增加推理輪數,而應著重於提升模型對系統拓撲的理解能力,以及在診斷過程中建立更嚴謹的排除法邏輯。
來源:huggingface.co / IBM Research / Artificial Analysis
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。