這篇文章將分享 Intuit(全球知名財務軟體公司)在將生成式 AI 從實驗室推向生產環境的過程中,如何建構一套名為 GenOS 的基礎設施,以及他們在開發 AI Agent 時遇到的實務挑戰與解決方案。
對於許多剛接觸 AI 開發的工程師來說,最容易陷入的誤區是認為寫好 Prompt 就是開發。但實際上,要讓 AI Agent 在企業級環境中穩定運行,基礎設施的設計遠比模型選擇更重要。
區分 Workflow 與 Agent
在進入技術細節前,我們必須先釐清兩個核心概念:Workflow 與 Agent。
Workflow(工作流)是指預定義的程式碼路徑。它像是一本標準作業程序(SOP),步驟固定且可預測。如果你追求的是一致性與穩定性,且任務定義非常明確,應該使用 Workflow。
Agent(代理人)則是基於模型驅動的決策系統。它沒有固定的步驟,而是根據當前的上下文(Context)與可用的工具(Tools)來決定下一步要做什麼。Agent 適合處理開放式問題或非結構化數據,但代價是不可預測性增加、Token 消耗更高且延遲較明顯。
AI Agent 的四個核心組成
一個完整的 Agent 通常包含以下四個部分: LLM(大語言模型):作為推理大腦,負責規劃執行路徑並生成回應。 Tools(工具):如 API、資料庫或外部服務,讓 Agent 能獲取即時資訊或執行動作。 Orchestration(編排層):管理狀態與記憶,將模型與工具縫合在一起。 Runtime(執行環境):觸發 Agent 運行的基礎設施。
從傳統應用到 LLM 應用的心態轉換
傳統軟體工程是確定性的(Deterministic),輸入 A 必定得到 B,測試指標明確,除錯(Debug)時可以設定斷點。
但 LLM 應用是機率性的。開發者寫的程式碼變少了,而邏輯被封裝在黑盒子(模型)中。這導致了幾個嚴重的問題: 測試標準模糊:自然語言的輸出很主觀,很難定義什麼叫正確。 失敗模式複雜:Agent 可能會忘記角色、陷入無限循環、忽略指令或提供錯誤的工具參數。 除錯困難:你無法在 LLM 內部設定斷點,只能透過追蹤軌跡(Trace)來推測哪一步出錯。
GenOS:加速 AI 開發的作業系統
為了讓 8,000 名開發者能快速且安全地實驗,Intuit 並非讓每個團隊各自造輪子,而是建構了 GenOS。這是一個將合規、安全、數據處理等通用需求抽象化的平台。
GenOS 的核心組成: AI Workbench:開發者的實驗室。提供 Prompt 管理、RAG 管道(包含分塊 Chunking、向量化 Embedding 與索引 Indexing)以及評估工具。 GenRuntime:執行層。包含 Agent 註冊表(Registry)與工具註冊表,讓不同團隊開發的 API 能像插件一樣被 Agent 調用。 GenUX:統一的用戶界面組件,確保 AI 交互體驗的一致性。 Agent Starter Kit:一套 CI/CD 模板,提供參考實現與預設配置,讓工程師能快速從零到一建立 Agent。
實務上的關鍵策略:Fixed, Flexible, Free
在技術選型上,Intuit 採取了一套管理框架: Fixed(固定):對於平台底層、安全性、合規性等標準,全公司統一,開發者無需重複思考。 Flexible(靈活):提供經過驗證的選項(例如不同的模型組合),開發者可以在推薦清單中選擇。 Free(自由):允許極少數先鋒團隊嘗試最前沿的技術,驗證成功後再回饋給平台。
如何解決 AI Agent 的品質問題?
面對 LLM 的不確定性,Intuit 強調不能只測試最終結果,而要測試軌跡(Trajectory)。
LLM-as-a-Judge:利用更高能力的模型來擔任裁判,根據定義好的準則對 Agent 的每一步決策進行評分。 持續評估(Continuous Eval):AI 的行為會隨模型更新而改變,因此需要像維護單元測試一樣,持續更新評估數據集,防止回歸(Regression)。 領域專家介入:工程師無法預見所有邊界案例,必須由產品經理(PM)或領域專家定義明確的驗收標準與測試數據。
給未來 AI 基礎設施的建議
即使你現在還沒開發 Agent,但為了準備未來,應該在基礎設施上做以下調整:
API Tool-Ready:傳統 API 是為人類工程師設計的(複雜的 JSON 嵌套),但 Agent 更喜歡簡單、定義清晰的 API。開始思考如何讓 API 變得易於被模型理解。 強化元數據(Metadata):數據湖中如果缺乏良好的元數據,Agent 就無法在海量數據中精準找到正確的上下文。 重新定義監控與 SLO:LLM 的回應時間波動極大,傳統的請求-響應延遲(Latency)監控已不再適用,需要建立一套針對生成式 AI 的可觀測性標準。
來源:infoq.com - Powering the Future: Building Your GenAI Infrastructure Stack
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。