Google I/O 2026 不僅僅是一場產品發表會,更是一次大規模的 AI 實作實驗。Google 團隊嘗試將 Gemini 系列模型與多項實驗性工具直接導入活動的視覺設計、影片製作與互動體驗中。對於工程師或產品開發者來說,這次活動最值得關注的不是最終成果,而是 AI 如何從單純的聊天機器人,演進為生產管線(Pipeline)中的一個環節,用來處理重複性勞作並釋放人類的創意空間。
AI 驅動的影片製作管線
在短片 TPU Training Day 的製作中,團隊採取了一種混合工作流,而非完全依賴 AI 生成。他們先使用傳統的木偶戲(Puppetry)和簡單的 3D 動畫來捕捉角色動作與鏡頭走位,這確保了對畫面構圖的絕對控制權。
接下來,他們引入了 Nano Banana(一種風格化圖像生成模型)來將原始素材轉化為特定藝術風格的第一幀圖像。為了解決 AI 生成常見的畫面閃爍或不一致問題,團隊在 Google AI Studio 中開發了自定義工具,大規模測試並確保每一幀的像素級匹配。最後透過 Gemini Omni 等多模態模型將基礎動畫與風格化畫面融合。這種做法證明了 AI 在影片製作中最好的角色是風格轉換器與精細化工具,而核心的敘事與動作控制仍由人類主導。
品牌視覺與動態識別的迭代
在建立 I/O 2026 的品牌視覺時,團隊將 Gemini 當作一個具有記憶能力的設計助手。他們將過去五年的品牌指南與活動回顧餵給模型,讓 AI 理解品牌基因。
實務上的挑戰在於 AI 的初步輸出往往不夠精準。團隊採取了微實驗(Micro-experiments)策略,將生成的圖像反饋給 Nano Banana 並持續調整提示詞(Prompt),最終實現了從平面 2D 圖標到高質感 3D 圖標的動態轉換。這顯示出 AI 在設計流程中的價值在於快速原型開發(Rapid Prototyping),讓設計師能迅速探索數百種風格方向,再由人類決定最終方案。
沉浸式互動體驗與即時生成
I/O 的前導活動展示了 AI 如何與硬體與即時數據結合。在 Jellectronica 裝置中,團隊利用 YOLO8(一種即時物件偵測模型)在 Google Colab 環境訓練,並部署於 Coral NPU(專為邊緣運算設計的神經處理單元)上,將水母的物理運動即時轉化為音樂參數,由 Lyria 3 Pro 負責聲音合成。
而在 Infinite Scaler 遊戲中,則實作了從 2D 到 3D 的生成路徑。系統利用 Gemini API 接收使用者提示詞,由 Nano Banana 生成 Sprite Sheets(圖集,將多個動作或物件整合在單張圖中以便於遊戲調用)。為了讓 2D 圖片在 WebGL 環境中呈現 3D 感,AI 還同步生成了 Normal Map(法線貼圖,定義表面凹凸)與 Roughness Map(粗糙度貼圖),讓簡單的 3D 方塊能擁有複雜的材質質感。
生成式 UI 與 Agentic Coding 的應用
在 Antigravity Coffee 快閃店的 App 中,Google 引入了 Generative UI(生成式使用者介面)概念。透過 Flutter 框架與 A2UI 協定,介面不再是靜態的表單,而是根據使用者互動即時改變的動態介面。
更重要的是,他們運用了 Agentic Coding(代理編碼),讓參與者能透過自然語言快速構建自己的點餐 App。這意味著開發門檻從撰寫程式碼轉移到了定義邏輯與流程,後端則由 Firebase 與 Gemini Enterprise Agent Platform 處理複雜的推理與內容生成。
總結與實務啟示
從這些案例可以看出,AI 在工程實務中的應用已從單一的 Prompt 輸出,轉向複雜的 Pipeline 整合。成功的關鍵在於將 AI 放置在正確的環節:用 AI 處理風格化、自動化重複素材生成、以及即時的數據轉換;而將結構控制、鏡頭設計與品牌定調留給人類。
對於開發者而言,這提醒我們在構建 AI 產品時,不應追求單一模型解決所有問題,而應思考如何將多個專門模型(如圖像生成、音訊合成、物件偵測)與傳統的工程框架(如 WebGL, Flutter, NPU)串接,才能創造出具有商業水準且可控的體驗。
來源:blog.google
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。