在企業導入生成式 AI 的過程中,工程師常面臨一個棘手問題:不同的模型供應商(如 OpenAI, Anthropic, Google Vertex AI)各自定義了不同的 API 格式。如果應用程式直接對接這些供應商,一旦未來需要為了成本、效能或法規而更換模型,就必須修改大量客戶端程式碼。為了解決這個痛點,Microsoft 在 Build 2026 推出了 Azure API Management (APIM) 的 AI Gateway 強化功能,旨在將 API 閘道轉化為 AI 時代的控制平面。
統一模型 API 解決多供應商碎片化問題
Unified Model API(統一模型 API)是本次更新的核心。它的作用像是一個翻譯層,允許開發者使用單一的 API 格式(目前預設為 OpenAI Chat Completions 格式)發送請求,而 APIM 會在後端透明地將其轉換為目標供應商的原生格式,例如 Anthropic 的 Messages API。
對於工程師來說,這帶來了兩個實務上的好處。第一是解耦,你可以在不更動客戶端代碼的情況下,隨時在後端切換模型供應商或進行流量分發。第二是統一治理,所有的速率限制 (Rate Limit)、內容安全檢查與 Token 統計都能在單一入口點完成,而不需要在每個供應商的後台分別設定。
擴展內容安全至 MCP 與代理間通信
隨著 AI Agent(AI 代理)的興起,安全防禦的範圍必須從單純的對話請求擴展到工具調用。Azure APIM 將 llm-content-safety 策略的範圍擴展到了 MCP (Model Context Protocol) 的工具調用參數、回應文本,以及 A2A (Agent-to-Agent) 代理之間的通信內容。
MCP 是一種開放標準,旨在讓 AI 模型能更輕鬆地連接到外部數據源與工具。當 AI 代理決定調用某個工具時,傳入的參數可能包含惡意指令。APIM 現在能對這些參數進行掃描,防止 Prompt Injection(提示詞注入攻擊)。
在實作上,該安全策略提供兩層防禦。第一層是基於類別的過濾,涵蓋仇恨、自殘、性內容與暴力,並提供 0 到 7 級的嚴重程度閾值供工程師調校。第二層則是專門針對對抗性攻擊的 shield-prompt 屬性。
需要注意的是,在處理 Streaming(串流)回應時,行為與一般請求不同。非串流模式下,違規會直接返回 403 錯誤;但在串流模式下,系統會使用滑動視窗緩衝內容,一旦偵測到違規會直接中斷傳輸而不會返回明確錯誤碼。因此,開發 AI 代理的工程師必須在客戶端實作優雅的處理機制,以應對這種突然的中斷。
精細化的 Token 度量與 FinOps 實務
在 AI 成本管理(FinOps)中,單純計算總 Token 數已不足夠。現代模型引入了 Reasoning Tokens(推理 Token,用於思考過程)與 Cached Tokens(快取 Token,用於降低重複輸入成本)。
APIM 現在將這些細分指標同步至 Application Insights。這讓財務與運維團隊能精確分析成本支出,了解推理過程消耗了多少預算,以及快取機制實際節省了多少成本,而不再是面對一個模糊的總額。
將企業 API 轉化為 AI 代理的工具箱
為了讓 AI 代理能調用企業既有的能力,Azure API Center 的 MCP 伺服器現已正式可用。這意味著企業不需要為了 AI 代理而重新開發 API,可以直接將現有的 REST API 暴露為 MCP 伺服器。
透過這種方式,當開發團隊在 API Center 註冊新的 MCP 伺服器或工具時,所有連接的 AI 代理都能自動發現這些能力,無需重新配置客戶端。這將 API 閘道定位為 AI 時代的服務目錄,讓企業資產能快速地被 AI 代理所利用。
總結與技術定位
相較於 AWS Bedrock Guardrails 專注於模型內部控制,或 Cloudflare AI Gateway 側重於快取與支出限制,Azure APIM 的策略是將 AI 治理整合進成熟的 API 治理框架中。它認為 API 閘道才是管理 AI 工作負載最自然的控制平面,因為它能同時處理協議轉換、安全過濾、流量管理與服務發現。
來源:infoq.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。