在目前的 LLM(大型語言模型)開發中,工程師最頭痛的問題之一就是上下文視窗(Context Window)的成本與效能。當我們想要讓 AI 讀完一整本技術手冊或整個程式碼庫時,通常會遇到所謂的記憶瓶頸。最近一家名為 Subquadratic 的公司推出了 SubQ 模型,聲稱能以極低成本處理高達 1200 萬個 Token,這對 AI 基礎設施的設計邏輯將產生重大影響。
理解 Transformer 的成本陷阱
要理解 SubQ 的突破,首先得知道為什麼目前的模型(如 GPT-4 或 Claude)在處理長文本時會變得昂貴且緩慢。主流模型大多基於 Transformer 架構,其核心機制是注意力機制(Attention Mechanism)。
傳統的注意力機制具有 O(n²) 的時間與空間複雜度。簡單來說,如果你將輸入的文本長度增加 2 倍,計算量和成本會增加 4 倍。這種平方級的增長導致了長文本處理的成本飆升,這就是為什麼業界需要開發各種記憶補丁(Memory Hacks)。
目前的工程實務解決方案
為了規避 O(n²) 的高昂成本,目前的 AI 工程師通常會採取以下繞道方案:
RAG(檢索增強生成):將文件切成小塊(Chunking),儲存在向量資料庫中,僅在需要時檢索相關片段給 AI。這雖然省錢,但 AI 失去了對全局脈絡的掌控力。 代理框架(Agent Frameworks):將大任務拆分成多個子代理,彼此傳遞筆記。 摘要化(Summarization):將之前的對話不斷壓縮成摘要,導致細節在傳遞過程中流失。
這些方法本質上都是在用工程手段補救底層架構的缺陷,而非真正解決記憶問題。
SubQ 的技術突破:從平方到線性
SubQ 引入了一種稱為 SSA(Subquadratic Selective Attention,亞平方選擇性注意力)的新架構。其核心改變在於將計算複雜度從平方級降到了線性級(Linear Scaling)。
這意味著輸入長度增加 2 倍,成本僅增加 2 倍,而非 4 倍。這種改變帶來了幾個實務上的震撼結果:
成本大幅下降:在處理 128K Token 的測試中,傳統前沿模型的運行成本約為 2600 美元,而 SubQ 僅需 8 美元。 速度極快:在 100 萬 Token 的規模下,其運行速度比目前的業界標準 FlashAttention 快 52 倍。 極大化視窗:SubQ 原生支持 1200 萬 Token 的上下文,且在多針檢索(Multi-needle Retrieval,測試模型在海量資訊中精準找出多個特定資訊的能力)表現優於許多主流模型。
實務影響:開發範式的轉移
如果長上下文能變得如此廉價且高效,許多目前的 AI 工程開發流程將被簡化甚至取代:
首先,對於許多中小型專案,我們可能不再需要複雜的 RAG 管道。你不需要維護向量資料庫、設計切片策略或優化檢索演算法,直接將整個程式碼庫(Repo)或所有文件丟進上下文視窗即可。
其次,AI 代理的設計將從碎片化轉向整全化。例如 SubQ Code 允許開發者一次性載入整個專案,AI 能在理解全局架構的前提下進行修改,而非僅僅根據檢索到的片段進行局部修補。
未來展望與限制
儘管 SubQ 在成本與長度上取得了勝利,但仍有兩個關鍵問題需要觀察。第一是能力上限,長上下文並不等同於強大的推理能力,SubQ 在某些複雜的編碼基準測試中仍略遜於 Anthropic 的 Opus 模型。第二是市場分層,未來可能會演變成一種分工:密集模型(Dense Models)負責高難度邏輯推理,而長上下文專精模型(Long-context Specialists)負責海量數據處理。
來源:theneurondaily.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。