Google 近期在 Gemini 介面中意外流出了名為 Omni 的新影片生成模型測試功能。雖然官方尚未正式發表,但從目前的 Demo 表現來看,這不僅僅是單純的影片生成,而是試圖將影片編輯、模版應用與對話式指令深度整合的嘗試。
對於開發者或對 AI 關注的工程師來說,理解影片生成的難點在於時間軸上的連貫性(Temporal Consistency)。過去的 AI 影片常出現物體突然變形或背景閃爍的問題,而 Omni 展現出的能力在於處理複雜的邏輯細節。例如在一個教授在黑板上書寫三角函數證明(Trigonometric Identities)的測試案例中,模型能較好地處理文字的呈現與動作的同步,這在技術上是非常困難的,因為模型必須同時理解數學符號的空間排列與書寫的動態過程。
另一個值得關注的是所謂的 Will Smith Test(威爾史密斯測試)。這個名詞源自早期 AI 影片中,人物吃義大利麵時會出現極其詭異且不自然地吞噬動作的迷因。Omni 在處理兩名男子在海邊餐廳吃義大利麵的場景時,動作表現趨於自然,顯示其在物理模擬(Physics Simulation)與人體互動的擬真度上有顯著提升。
從產品脈絡來看,Google 先前推出了 Veo 作為專門的影片生成模型,而 Omni 似乎是 Veo 的延伸或整合版。其核心差異在於 Omni 試圖將影片生成直接嵌入 Gemini 的聊天介面中,讓使用者能透過對話直接進行 Remix(重新混編)或編輯,將影片生成從單純的輸入提示詞(Prompt)轉變為可互動的編輯流程。
然而,影片生成對運算資源的消耗極其驚人。從測試使用者的數據來看,僅僅生成兩段複雜影片就佔用了 AI Pro 方案每日配額的 86%。這解釋了為何 Google 正在同步規劃更明確的使用限制(Usage Limits),因為在高解析度與高幀率的影片生成中,GPU 算力的成本遠高於純文字或圖像生成。
總結來說,Omni 的出現代表 Google 打算在多模態(Multimodal)路徑上走得更遠,將影片生成從一個獨立的工具轉化為 AI 助理的一項原生能力。隨著 I/O 2026 開發者大會將至,我們預計會看到更多關於 Omni 如何定義影片生成工作流的詳細技術說明。
來源:9to5google.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。