在非同步強化學習(Async RL)的訓練流程中,有一個被許多人忽略的效能瓶頸:權重同步。簡單來說,當訓練器(Trainer)完成一次優化步驟並更新模型權重後,必須將這些新權重傳送到推理引擎(Inference Engine,例如 vLLM),讓它能產生符合最新策略的樣本。
對於一個 7B 參數且使用 bf16 精度(每個參數 2 位元組)的模型,每次同步就得傳輸 14 GB 的資料。如果面對的是萬億(1T)參數等級的前沿模型,每次同步竟然需要傳輸 1 TB 的資料。這種巨大的傳輸量會導致推理引擎在同步期間必須暫停運作,造成 GPU 算力的嚴重浪費,且強迫開發者必須依賴昂貴的 RDMA 網路或超級電腦叢集才能勉強運行。
TRL (Transformer Reinforcement Learning) 最近提出了一項新功能:Delta Weight Sync,旨在將這種同步成本降低兩個數量級。
權重同步的數學真相:為什麼 bf16 權重是稀疏的
許多工程師直覺認為,模型更新後每個參數都會改變,但事實並非如此。在 RL 常用的極低學習率(例如 $3 \times 10^{-6}$)下,bf16 格式的數值精度限制導致了一個有趣的現象:吸收效應(Absorption)。
bf16 的尾數(Mantissa)僅有 7 位。當權重更新的幅度 $\Delta w$ 低於該數值可表示的最小間距(Visibility Threshold)時,四捨五入後,該權重的位元表示法(Byte representation)根本不會改變。
實測數據顯示,在連續的兩個 RL 優化步驟之間,約 99% 的 bf16 權重在位元層級上是完全相同的。這意味著我們不需要傳送整個模型,只需要傳送那 1% 真正發生改變的權重(Delta)即可。
Delta Weight Sync 的技術實作
為了將這個數學特性轉化為工程實作,TRL 採取了以下方案:
變更偵測機制 訓練器在優化器(Optimizer)的步驟前後掛載 Hook。在更新前快照一份 bf16 權重,更新後比對位元差異,生成一個布林遮罩(Boolean Mask),精確記錄哪些參數發生了變化。
稀疏傳輸格式 採用 safetensors 作為傳輸格式。為了平衡效率,系統採取 錨點(Anchor)與 增量(Delta)交替的策略。 錨點:每隔 N 步上傳一次完整的模型快照。 增量:在兩次錨點之間,僅上傳包含 索引(Indices)與 數值(Values)的稀疏檔案。
以 Hub Bucket 作為同步中繼站 這是本方案最關鍵的架構變革。傳統同步依賴 NCCL 廣播,要求訓練器與推理端必須在同一叢集且網路互通。而 Delta Weight Sync 引入了 Hugging Face Bucket(一種高頻物件儲存庫)。 訓練器將稀疏增量上傳至 Bucket $\rightarrow$ 推理端(vLLM)從 Bucket 下載並套用。 由於使用了 Xet 儲存技術,Bucket 會對內容進行分塊去重(Deduplication),即使上傳完整快照,也僅會傳輸改變的部分。
解耦訓練與推理的實務影響
這種設計將訓練與推理完全解耦,帶來了三個核心優勢:
第一,打破地理限制。訓練器與推理伺服器不再需要處於同一區域或同一 VPN 內。只要能連上 HTTPS,你可以將訓練器放在本地 GPU,而將 vLLM 部署在 Hugging Face Spaces 的 L4 GPU 上。
第二,極大化推理利用率。在傳統同步中,傳輸權重時推理必須暫停。現在,訓練器在背景上傳 Delta 檔案,推理端繼續運作,直到收到更新通知後才進行極短時間的下載與套用(例如從數分鐘縮短至 1 秒)。
第三,低成本擴展。如果你需要 10 個推理副本來加速樣本收集,這 10 個副本可以同時從 Hub Bucket 下載相同的 Delta 檔案,而不會對訓練器造成額外的網路壓力。
實務限制與未來方向
目前該方案仍有優化空間: 記憶體開銷:目前訓練器與推理端各需保留一份 CPU 端的 bf16 快照用於比對與重建,這增加了記憶體壓力。未來若 vLLM 支援原生的稀疏權重載入(Sparse load_weights),即可直接在 GPU 上操作並捨棄 CPU 快照。 錨點頻率:目前是固定每 N 步快照一次,未來可改為根據累計漂移量(Cumulative Drift)動態決定。
總結來說,Delta Weight Sync 將同步壓力從 網路頻寬 轉移到了 儲存空間,對於追求非同步 RL 訓練的工程師而言,這讓大規模模型訓練從需要超級電腦叢集的專案,變成了只要有 Hugging Face 帳號就能嘗試的工程實踐。
來源:huggingface.co - Shipping a Trillion Parameters With a Hub Bucket: Delta Weight Sync in TRL
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。