對於開發機器人、自動駕駛或智慧空間的工程師來說,讓 AI 理解「物理世界」一直是一大挑戰。過去的 AI 模型大多擅長處理文字或像素,但缺乏對物理定律(如重力、因果關係、空間碰撞)的直覺。NVIDIA 推出的 Cosmos 3 旨在解決這個問題,它不再僅僅是一個影像生成器,而是一個世界基礎模型(World Foundation Model, WFM),讓 AI 能在數位環境中模擬並推理現實世界的物理行為。
從單一功能到全能模型的演進
在 Cosmos 3 之前,開發者如果想要建立一個物理 AI 系統,通常需要組合多個不同的模型:用一個模型來預測影像(Predict)、一個模型來控制生成(Transfer)、一個模型來分析場景(Reason),以及另一個模型來生成控制指令(Policy)。這種碎片化的管線(Pipeline)不僅增加了推論延遲,還容易在模型間傳遞資訊時產生誤差。
Cosmos 3 的核心突破在於它是一個全能模型(Omni-model)。它將世界生成、物理推理與動作生成整合在單一模型中。這意味著你可以在一次前向傳播(Forward Pass)中,讓模型同時理解目前的視覺狀態、推理接下來會發生什麼物理變化,並直接輸出對應的動作指令。
技術底層:混合變換器架構(MoT)
Cosmos 3 採用了 Mixture-of-Transformers (MoT) 架構。為了處理文字、影像、影片、音訊以及動作(Action)等多種模態,它設計了一套統一的處理流程。
首先,不同類型的輸入會經過專屬的編碼器,例如視覺使用 ViT(Vision Transformer),影像與音訊生成使用 VAE(變分自動編碼器),而動作則使用領域感知向量(Domain-aware vectors)。接著,這些資訊會被投影到一個共享的表示空間中。
最關鍵的設計在於,輸入序列被分為兩條路徑: 一是自回歸子序列(Autoregressive subsequence),負責推理與理解,透過預測下一個 Token 來處理邏輯。 二是擴散子序列(Diffusion subsequence),負責生成,透過迭代去噪來產生高品質的影像或影片。
這兩條路徑雖然使用不同的參數集,但透過共同注意力機制(Joint Attention)進行交互。這讓 Cosmos 3 能在不改變架構的情況下,靈活地在視覺語言模型(VLM)、影片生成器、物理動力學模型(Dynamics Model)或機器人策略模型(Robot Policy)之間切換。
實務應用場景與能力
對於工程師而言,Cosmos 3 提供了一套完整的輸入輸出組合,涵蓋了物理 AI 的核心需求:
前向動力學(Forward Dynamics):輸入目前的動作與影像,預測接下來會發生什麼(例如:如果機器手臂向下壓,物體會如何移動)。 逆向動力學(Inverse Dynamics):輸入目前的狀態與目標影像,推算出需要採取什麼動作才能達成該結果。 策略模型(Policy Model):直接根據影像與指令,輸出具體的動作序列。
在實際部署時,NVIDIA 提供了兩種版本。Cosmos 3 Nano(8B 參數)適合在工作站等級的 GPU(如 RTX PRO 6000)上運行,追求推論效率;而 Cosmos 3 Super(32B 參數)則針對大規模合成數據生成(SDG)與研究設計,需在 Hopper 或 Blackwell 等高效能 GPU 上運行。
合成數據與生態系支援
物理 AI 最缺的是高品質的訓練數據,因為在現實世界中收集所有可能的碰撞或錯誤案例成本太高且危險。因此,NVIDIA 同時釋出了多個合成數據集(SDG Datasets),涵蓋機器人場景、物理交互、空間推理、數位人類動作、自動駕駛以及倉庫作業。
為了降低開發門檻,Cosmos 3 已整合進 Hugging Face 的 Diffusers 函式庫。開發者可以使用 Cosmos3OmniPipeline 快速建立生成管線。此外,NVIDIA 還提供了 Cosmos Framework,包含後訓練(Post-training)腳本,讓工程師能針對特定的機器人硬體或特殊工業環境對模型進行微調,以獲得更精準的物理表現。
來源:https://huggingface.co/blog/nvidia/cosmos-3-for-physical-ai
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。