Notion 近期宣布對其 AI 架構進行了大規模的重構,核心目標是將 AI 從單純的寫作助手轉變為能夠自主執行任務的智慧體(AI Agents)。這次轉型的關鍵在於引入了 GPT-5 推理模型,並將系統邏輯從原本的任務導向改為推理導向。
對於許多開發者來說,早期的 AI 整合通常採取提示工程(Prompt Engineering)模式,也就是預先寫好一套指令,讓模型在特定情境下產出結果。這種方式在處理單一任務(如:摘要文章、校對文字)時非常有效,但當需求變成複雜的工作流時,例如彙整多方回饋並更新資料庫,傳統的提示鏈(Prompt Chains)會變得極其僵化,難以處理模糊的指令或動態調整執行路徑。
Notion 意識到,如果想讓 AI 具備自主決策能力,不能只是在舊系統上打補丁,而必須重建底層架構。
從提示鏈轉向中央推理架構
Notion 3.0 的核心改變在於建立了一個中央推理模型(Central Reasoning Model),這個模型不再是執行單一指令,而是扮演協調者的角色。它會接收一個宏觀的目標,然後自主決定需要調用哪些模組化的子智慧體(Sub-agents)來完成任務。
這些子智慧體被賦予了具體的工具權限,例如在 Notion 頁面中搜尋資訊、讀取 Slack 訊息、甚至直接編輯資料庫。當使用者下達一個模糊指令時,中央模型會先進行推理,拆解步驟,再指派適當的子智慧體執行,最後整合結果回報給使用者。這種設計讓 AI 具備了自主性(Autonomy),能夠在不依賴開發者預設死板流程的情況下,靈活應對複雜任務。
實務上的效能提升與驗證
為了驗證這套新架構的實力,Notion 並非使用標準的學術基準測試,而是採用真實的使用者工作負載進行評估。他們特別關注三類高難度情境:需要多步驟推理的長篇任務、資訊模糊或過時的內容處理,以及研究模式中的複雜問題。
測試結果顯示,GPT-5 在處理多步驟結構化任務(如競品研究或截止日期更新)時,表現提升了超過 100%。最顯著的突破在於處理衝突或過時資訊的能力,GPT-5 是唯一能完全達標的模型。這證明了推理模型在面對現實世界不完美數據時,具有更強的判斷力,而非僅僅是機率性地生成文字。
給工程團隊的架構實作建議
Notion 的這次經驗為開發 AI 產品的工程師提供了幾個重要的實務觀點。
首先是評估基準的選擇。不要過度依賴人工設計的 Benchmark,而應使用真實使用者會執行的任務作為測試基準,這樣才能發現模型在實際業務邏輯中的瓶頸。
其次是設計自主空間。如果希望 AI 成為智慧體,系統設計之初就必須提供足夠的推理空間與可操作工具。這意味著 API 的定義必須清晰,工具的說明文件(Tool Descriptions)必須精準,因為模型是根據這些說明來決定何時調用哪個工具。
最後是重建優於修補。許多團隊嘗試將原有的補全模型(Completion Model)邏輯強行擴展到智慧體,但這往往會導致系統過於複雜且不穩定。當模型能力發生代際跳躍(如從 GPT-4 跨入 GPT-5)時,重新設計一套符合模型推理邏輯的架構,往往比在舊有提示鏈上修補更有效率。
來源:openai.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。