對於剛接觸 AI 開發的工程師來說,最常遇到的挑戰之一就是 LLM(大型語言模型)的「記憶碎片化」。即便有對話紀錄,但每次開啟新對話,你都得重新告訴 AI 你的偏好、專案背景或特定的處理流程。xAI 最近推出的 Grok Skills 以及對 Responses API 的更新,本質上就是在解決這個問題,試圖將 AI 從單純的問答界面,轉化為具備持續能力且能操作外部工具的 Agent(智能體)。
什麼是 Grok Skills?
簡單來說,Grok Skills 是一種帳號層級的持久化能力設定。在過去,如果你希望 AI 每次幫你寫報告都要遵循特定的格式,你必須在 System Prompt(系統提示詞)中定義,或者每次對話都重複要求。而 Grok Skills 允許使用者透過自然語言描述或上傳文件,一次性定義一套工作流、偏好或文件處理規則。
這對實務上的影響在於,這些設定會跨平台(Web、iOS、Android)生效,且優先權高於預設行為。例如,當你定義了一個處理 Excel 數據分析的 Skill 後,未來只要透過斜線指令呼叫,Grok 就會自動套用該流程,而不需要重新輸入冗長的指令。目前其內建能力已涵蓋 Word 格式保持、PPT 簡報生成、Excel 公式分析以及 PDF 的拆分與重組,將 AI 的輸出從單純的文字,延伸到了結構化文件的操作。
深入理解 Tool Calling 與 Responses API
對於開發者而言,更核心的更新在於 Responses API 對 Tool Calling(工具呼叫)的強化。Tool Calling 是實現 AI Agent 的關鍵技術,它讓模型不再只是「猜測」答案,而是能「決定」在什麼時候呼叫外部函數來獲取準確資訊。
在實作流程中,開發者會在 API 請求中定義工具清單。這些工具分為兩類:一種是 xAI 基礎設施提供的原生工具,例如 web_search(網頁搜尋)、x_search(X 平台搜尋)或 code_interpreter(程式碼解釋器);另一種則是開發者自定義的 Function,透過 JSON Schema 定義函數名稱、描述與參數。
當 Grok 4.3 判斷需要外部工具時,它不會直接給出答案,而是回傳一個結構化的 tool_call 物件,包含呼叫 ID 與參數。開發者的應用程式端接收到後,在本地執行該邏輯,將結果回傳給模型,模型最後再將結果整合為最終答案。這種循環讓 AI 具備了操作真實世界的權限。
技術規格與實務限制
在工程實作上,Grok 4.3 提供了相當強大的吞吐能力,支持單次請求最多 128 個工具呼叫,並擁有 100 萬個 Token 的上下文視窗(Context Window),這意味著它可以處理極其複雜的多步驟任務而不會遺忘前文。
然而,我們需要區分 Grok Skills 與完全自主的 Autonomous Agent。目前的 Grok Skills 更像是一個可複用的工作流層(Workflow Layer),而非能完全獨立運作的代理系統。它依賴於使用者的觸發與定義的指令,重點在於提升生產力流程的效率,而非像某些實驗性 Agent 那樣能自行設定目標並在背景獨立運行。
總結與觀點
將 Grok Skills 與 API 的更新放在 AI 生態系來看,這其實是 OpenAI 與 Anthropic 等競爭對手都在走的路徑:將 AI 的能力從單一的模型推理,轉向對外部工具的精準操控。
對於工程師來說,這意味著開發重點正在從「如何寫更好的 Prompt」轉移到「如何設計更好的 Tool Schema」。當模型能穩定地呼叫 API 並處理結構化數據時,AI 才能真正進入企業的工作流,成為能讀取 GitHub 提交紀錄、分析財務報表並產出格式正確文件的實用工具。
來源:infoq.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。