很多工程師在開發 AI 產品時,最容易陷入的誤區就是:只要模型在測試集上的準確率(Accuracy)很高,或者通過了公開的 Benchmark(基準測試),產品就準備好上線了。
然而,在 Twitter、Walmart 和 Netflix 等大規模分散式系統的實務經驗中,Mallika Rao 指出,真正導致 AI 產品失敗的往往不是模型能力不足,而是一種隱形的風險——評估債(Evaluation Debt)。
什麼是評估債?簡單來說,就是當你的系統架構(例如引入了 LLM、向量資料庫、Agent 工作流)不斷進化,但你的評估手段還停留在 2018 年的傳統指標(如 Precision、Recall 或簡單的單元測試)時,兩者之間的落差就是評估債。
這類債務最危險的地方在於它會導致語義失效(Semantic Failure)。傳統系統崩潰時,監控面板會變紅,API 會報錯;但 AI 系統失敗時,面板可能是綠色的,API 回傳速度很快,但給使用者的答案雖然技術上正確,卻在邏輯或語義上完全錯誤。
為了避免這種沈默的崩潰,我們需要將 AI 評估視為一個完整的堆疊(Stack),而非單一的分數。
AI 評估的五層架構
第一層:模型正確性(Model Correctness) 這是最基礎的門檻,包含 Precision(精確率)、Recall(召回率)和 F1 分數。目的在於確認模型能否在測試集上預測正確的結果。
第二層:基礎設施魯棒性(Infrastructure Robustness) 關注系統的穩定度,例如 P95/P99 延遲、API 回應速度、快取命中率以及在 AI 工作負載下的系統壓力表現。
第三層:產品護欄(Product Guardrails) 這層決定了產品的底線。包括是否會產生有害內容、語義合理性檢查,以及如何偵測那些技術上正確但對使用者而言極其荒謬的結果。這需要工程師與產品經理(PM)共同定義什麼是可接受的邊界。
第四層:人類體驗(Human Experience) 這是最常被忽略的一層。使用者是否理解為什麼看到這個結果?視覺呈現是否一致?這個 AI 功能是增加了使用者的信心,還是造成了混亂?這需要設計師與研究員參與評估。
第五層:系統性影響(Systemic Impact) 最高層級的評估,關注長期的信任、合規性與隱私。例如,為了追求短期點擊率(CTR)而犧牲長期的使用者信任,這在監控面板上看不出來,但會導致產品緩慢死亡。
傳統評估失效的三大原因
為什麼我們不能只依賴傳統的測試方法?
首先是數據污染(Contamination)。許多公開的基準測試集(如 MMLU)已被包含在模型的訓練數據中,導致模型是在背答案而非在思考,得分被虛高。
其次是 Agent 系統的連鎖效應。如果一個 AI Agent 需要執行 8 個步驟才能完成任務,即使每一步的準確率高達 95%,最終的成功率也僅約 66%(0.95 的 8 次方)。傳統的單點指標在複雜工作流面前完全失效。
最後是 LLM-as-Judge 的偏見。使用 LLM 來評估另一個 LLM 時,會存在長度偏見(傾向於較長的回答)或風格偏見。正確的做法應是三層校準:人類標記金標準樣本 $\rightarrow$ LLM 大規模評估 $\rightarrow$ 人類定期審核。
實務案例:正確不等於信任
在搜尋推薦系統中,如果過度優化點擊率,模型可能會推薦熱門但無關的內容(例如搜尋 Bob Dylan 卻推薦 Taylor Swift),導致使用者對搜尋品質失去信心。
在金融獎勵系統中,技術上的正確可能導致災難。例如某州有特殊的稅務規定,後端計算完全正確,但前端 UI 顯示為 0 元。對系統而言,這是一個 0.2% 的顯示錯誤;但對 2500 萬名使用者而言,這被視為詐騙。結果是信任度崩潰,恢復期長達一年。
這證明了一個核心觀點:技術正確性(Technical Correctness)不等於語義相關性,而語義相關性不等於使用者信任。
如何診斷你的評估成熟度?
你可以嘗試問團隊這四個問題來判斷目前的等級: 我們是否只依賴基礎指標(如 Precision/Recall)? 我們是否缺乏對使用者體驗(UX)的量化評估? 我們的評估集是否隨著產品功能每月更新? 產品經理是否有權限因為評估未通過而攔截部署?
如果答案多為「是」,說明你們處於低成熟度階段,評估債正在累積。
總結與建議
評估 AI 產品不是為了拿到一個高分,而是為了建立信任。建議工程團隊採取以下行動: 建立私有評估集,確保測試數據與實際生產環境的分佈一致。 實施分層評估策略,對高意圖請求(如精確名稱搜尋)要求高準確率,對探索性請求則允許較高的容錯率。 將評估視為迭代過程,產品每更新一次,評估體系必須同步進化。
來源:infoq.com - Building Evals for AI Adoption: From Principles to Practice
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。