想像一下,如果你要開發一個超級複雜的軟體,但你的電腦記憶體不足且 CPU 跑不動,無論你的演算法寫得再完美,程式還是會崩潰或跑得極慢。對於 OpenAI 追求的 AGI(通用人工智慧,指能像人類一樣處理任何智力任務的 AI)來說,這種情況被放大到了國家級的規模。這就是為什麼他們啟動了名為 Stargate 的計畫。
對於剛入行的工程師來說,我們習慣於在雲端開個 VM 或租用幾個 GPU 就能開始工作,但要訓練像 GPT-5.5 這樣等級的模型,挑戰不再僅僅是寫程式,而是如何獲取並管理海量的運算能力,也就是 Compute。
運算能力在 AI 時代被視為一種基礎資源。簡單來說,更多的運算能力意味著我們能訓練參數更多、邏輯更強的模型;模型越強,使用者就越多;使用者越多,產生的收益就越高,而這些收益會被重新投入到建設更多基礎設施中。這形成了一個正向循環,OpenAI 將其稱為 AI 飛輪。
要實現這個目標,OpenAI 設定了一個極其激進的目標:在 2029 年前在美國確保 10GW(吉瓦)的 AI 基礎設施電力容量。這裡提到的 GW 是電力的單位,為什麼要強調電力?因為現代 AI 數據中心是由數以萬計的 GPU 組成的,這些晶片在運作時會消耗驚人的電力。沒有穩定的電力供應,再多的晶片也只是廢鐵。目前他們進展很快,在短短 90 天內就增加了 3GW 的容量,顯示出市場對 AI 運算的需求正處於爆炸式增長。
然而,建設這種規模的基礎設施,單靠一家軟體公司是不可能的。這涉及到了極其複雜的供應鏈協調,包括晶片製造商、雲端服務商(如 Oracle)、能源供應商、甚至包括建築公司和當地政府。這種生態系協作能降低執行風險,並在技術快速演進時保持靈活性。例如,如果明年出現了比現在更高效的晶片,他們必須能快速調整基礎設施以適應新硬體。
在實務執行上,OpenAI 以德州 Abilene 的站點為例,展示了如何解決基礎設施對環境的影響。最關鍵的挑戰之一是冷卻系統。傳統數據中心使用蒸發冷卻塔,會消耗大量的水資源。為了降低環境衝擊,他們採用了 Closed-loop cooling(閉環冷卻系統)。這是一種將冷卻液在密封管路中循環使用的技術,不需要像傳統方式那樣不斷補充新水。一旦系統填滿,每年的用水量僅相當於幾戶家庭或一棟中型辦公大樓,這解決了數據中心在乾旱地區部署的社會與環境爭議。
從技術產出來看,這種基礎設施的直接結果就是 GPT-5.5 的誕生。該模型是在 Abilene 站點上,利用 Oracle 的雲端基礎設施以及 NVIDIA GB200 系統訓練而成的。OpenAI 提到了一個重要的概念叫 Capability Overhang(能力過剩缺口),指的是 AI 熟練使用者與普通使用者之間的生產力差距。透過增加運算能力來提升模型智能,目標是縮小這個差距,讓 AI 的經濟利益能更廣泛地分佈,而不是只掌握在少數技術精英手中。
總結來說,Stargate 計畫告訴我們,AI 的競爭在底層其實是基礎設施的競爭。誰能規模化地解決電力、冷卻、晶片部署與社會協調,誰就能定義 AI 的上限。對於工程師而言,這提醒我們 AI 的發展不僅僅是模型架構的優化,底層硬體與能源的物理限制才是目前真正的瓶頸。
來源:openai.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。