當我們討論 AI Agent 時,通常關注的是大語言模型的推理能力,但對於工程師來說,真正的挑戰在於如何讓 AI Agent 安全地執行程式碼,以及如何管理規模龐大的運算資源。Google 在 Cloud Next '26 提出的 GKE 更新,核心目標就是將 Kubernetes 定位為 AI 時代的作業系統,解決 AI Agent 在實作上的兩個痛點:安全隔離與極限擴展。
AI Agent 的執行環境與安全隔離
目前的 AI Agent 趨勢是讓模型不僅能對話,還能撰寫並執行程式碼來解決問題。但讓 AI 在你的伺服器上執行隨機生成的程式碼是非常危險的,這就像在自己的電腦裡執行來源不明的 .exe 檔。為了降低風險,我們需要沙箱(Sandbox),也就是一種將執行環境與主機系統完全隔離的技術。
GKE Agent Sandbox 解決了這個問題。它採用了 gVisor 技術,這是一種核心層級的隔離機制,能讓不可信的程式碼在獨立的環境中運行,即使程式碼嘗試攻擊系統,也無法突破沙箱影響到底層主機。
對於開發者而言,這套方案引入了三個新的 Kubernetes 資源定義。首先是 Sandbox,定義了核心的工作負載;其次是 SandboxTemplate,作為安全設定的藍圖;最後是 SandboxClaim,讓像 LangChain 這樣的 AI 框架可以透過交易式請求來獲取執行環境。
為了克服容器啟動緩慢的冷啟動(Cold Start)問題,GKE 引入了預先配置的溫池(Warm Pools)機制,將啟動延遲降低到一秒以內。這對於需要即時回應的 AI 應用至關重要。值得注意的是,這套技術是以開源方式推向 Kubernetes 社群,意味著未來不限於 GKE,任何 Kubernetes 集群都有機會導入這種原生沙箱能力。
超大規模運算集群的統一管理
在 AI 訓練階段,面臨的挑戰則完全不同。隨著模型規模增加,企業往往需要數十萬顆加速晶片(如 GPU 或 TPU)。過去的做法是將資源拆分成數百個獨立的集群,但這會帶來巨大的維運壓力。
GKE Hypercluster 旨在打破這個僵局。它允許單一的控制平面(Control Plane)管理分布在多個區域、多達 25 萬個節點以及一百萬顆晶片的龐大資源。
在如此巨大的規模下,安全性與穩定性成為關鍵。Google 導入了 Titanium Intelligence Enclave 硬體認證機制,確保模型權重與提示詞在加密狀態下運行,即使是平台管理員也無法存取。不過,從工程實務角度來看,單一控制平面管理百萬級晶片雖然方便,但也會增加單點失效的影響範圍(Blast Radius),因此該功能目前採取私測 GA 模式逐步推行。
推理效能的實務優化
除了執行環境與管理規模,GKE 還針對推理(Inference)階段做了兩項具體優化。
第一是預測性延遲提升(Predictive Latency Boost)。傳統的請求路由多依賴經驗法則(Heuristic),而現在透過機器學習驅動的路由,能根據即時容量進行調度,將首個 Token 的輸出延遲(Time-to-First-Token)降低高達 70%。
第二是 KV Cache 的自動分層儲存。在處理長文本(Long Context)時,記憶體壓力極大。GKE 現在能將 KV Cache 自動在 RAM、本地 SSD 與雲端儲存之間分層,有效解決記憶體瓶頸,大幅提升處理長提示詞時的吞吐量。
此外,針對強化學習(RL)工作負載,GKE 推出了 RL Scheduler 與 RL Sandbox,並將自動擴展(Autoscaling)的反應時間從 25 秒縮短至 5 秒,直接從 Pod 獲取指標而非等待外部監控系統,讓資源調整能更即時地跟上 AI 運算的需求。
來源:infoq.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。