在開發機器人學習(Robot Learning)時,最昂貴的成本往往來自於收集真實世界的軌跡數據(Trajectories)。如果我們能有一個高品質的「世界模型」(World Model),讓它根據指令生成物理上合理且符合邏輯的合成影片,就能大幅降低對實體數據的依賴。
NVIDIA 的 Cosmos Predict 2.5 正是一個強大的世界模型,能根據文字或圖像生成符合物理定律的影片。然而,通用模型在面對特定機器人手臂、特定視角或精細操作任務時,仍需要針對性地微調。本文將探討如何利用參數高效微調(PEFT)技術,讓 Cosmos Predict 2.5 快速適應機器人操作場景。
為什麼不能直接全量微調?
Cosmos Predict 2.5 是一個擁有 2B 參數的大規模模型。如果進行全量微調(Full Fine-tuning),會面臨兩個主要挑戰:首先是計算成本極高,需要巨大的顯存資源;其次是容易產生災難性遺忘(Catastrophic Forgetting),導致模型在學習新任務時,失去了原本對通用物理世界的認知。
為了平衡效能與成本,我們引入了 LoRA 與 DoRA 兩種技術。
LoRA(Low-Rank Adaptation,低秩自適應) LoRA 的核心思想是不更動原始模型的權重(將其凍結),而是在權重矩陣旁增加兩個低秩的小矩陣。訓練時只更新這兩個小矩陣,最後將結果加回原權重。這能極大降低顯存需求,且生成的適配器(Adapter)檔案非常小,方便在不同任務間快速切換。
DoRA(Weight-Decomposed Low-Rank Adaptation,權重分解低秩自適應) DoRA 是 LoRA 的進階版。它將權重分解為「幅度(Magnitude)」與「方向(Direction)」兩個分量。LoRA 僅更新方向,而 DoRA 同時優化兩者,這讓模型在低秩(Low Rank)情況下能擁有更接近全量微調的學習能力,且訓練過程通常更穩定。
模型架構與微調位置
Cosmos Predict 2.5 由三個核心模組組成: VAE(變分自動編碼器):將影片編碼為潛在空間(Latent Space)的張量。 Text Encoder(文字編碼器):將指令轉化為 Embedding。 DiT(Diffusion Transformer):在潛在空間中進行擴散過程,生成內容。
在微調過程中,VAE 與 Text Encoder 完全凍結。LoRA/DoRA 的適配器被注入到 DiT 的注意力機制投影層(to_q, to_k, to_v, to_out)以及前饋網路層(Feedforward layers)中。
訓練機制:Rectified Flow
Cosmos Predict 2.5 採用了 Rectified Flow 技術。簡單來說,它不再像傳統擴散模型那樣學習複雜的雜訊分布,而是學習一種「直線速度」,將隨機雜訊線性地推向乾淨的數據。
在機器人影片生成任務中,模型會將影片的前兩幀作為條件(Conditioning),確保生成的動作具有連續性。損失函數則使用均方誤差(MSE Loss),計算模型預測的速度與實際速度之間的差距。
實務調優經驗
根據 NVIDIA 的實驗,針對機器人操作任務(如:用左手將小黃瓜移至碗中),有幾個關鍵發現:
訓練成本與收斂 在 8 張 H100 GPU 上,訓練 100 個 Epoch 僅需 2.5 小時即可獲得顯著提升。這證明了 PEFT 技術在世界模型上的高效性。
Rank(秩)的影響 設定 Rank = 32(約 50M 可訓練參數)比 Rank = 8 能顯著提升「指令遵循能力」(Instruction Following)。例如,模型能更準確地分辨應該使用「左手」還是「右手」。
物理合理性與幾何一致性 有趣的是,增加 Rank 並不會提升影片的物理合理性或幾何一致性。這說明了世界模型對物理定律的理解主要儲存在凍結的基座權重中,LoRA 僅僅是將分佈「偏移」到機器人的外觀與特定任務結構上。
評估指標:如何定義影片「好」?
除了視覺觀察,技術上使用兩種量化指標:
Sampson Error(幾何誤差) 衡量關鍵點與對應極線之間的距離。Temporal Sampson Error 衡量時間上的穩定度(有無抖動),Cross-view Sampson Error 衡量多視角的一致性。數值越低,幾何品質越好。
LLM-as-a-Judge(大模型評審) 使用 Cosmos Reason2 作為評審,從「物理合理性」與「指令遵循度」兩個維度給分(1-5 分)。這解決了影片生成難以用單一數值衡量主觀品質的問題。
總結與建議
對於工程師在選擇微調方案時的建議:
若記憶體極其有限或需要極小檔案:從 LoRA Rank=8 開始。 若追求更高的指令精準度:使用 LoRA 或 DoRA Rank=32。 若在低 Rank 時發現訓練不穩定:嘗試切換至 DoRA,其幅度-方向分解能提供更好的穩定性。
來源:huggingface.co (NVIDIA Blog)
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。