對於開發者來說,語音翻譯最困難的挑戰不在於翻譯文字,而是在於如何處理語音的流動性。傳統的翻譯系統大多採用輪詢式(Turn-by-turn)邏輯,也就是必須等到說話者完全停止發聲、系統判定句子結束後,才開始處理翻譯並輸出。這種做法會導致對話中出現尷尬的停頓,完全不像人類在進行同步口譯時的自然流動。
Google 推出的 Gemini 3.5 Live Translate 核心突破在於將翻譯過程轉化為流式處理(Streaming)。它不再等待句子結束,而是在音訊串流輸入的過程中就同步生成翻譯。這涉及到一個關鍵的工程權衡:如果翻譯太快,可能會因為缺乏後文的語境(Context)而導致翻譯不準確;如果翻譯太慢,則會產生明顯的延遲感。Gemini 3.5 在這兩者之間取得了平衡,讓翻譯內容能緊跟在說話者之後僅數秒,實現接近即時的語音對語音(Speech-to-Speech)體驗。
除了速度,這款模型還解決了語音翻譯中的情感流失問題。傳統翻譯往往會將語音轉成文字,翻譯後再用合成聲音讀出,導致原有的情緒消失。Gemini 3.5 能夠在翻譯過程中保留說話者的語調(Intonation)、節奏(Pacing)與音高(Pitch),讓翻譯後的聲音聽起來更像原說話者的自然延伸。
在實作層面,這項技術對工程師的影響在於降低了開發門檻。透過 Gemini Live API,開發者不需要自己建構複雜的語音處理管線,模型本身就具備自動語言偵測能力,支援超過 70 種語言,且對環境噪音有較強的魯棒性(Noise Robustness),意即在嘈雜的室外環境中依然能穩定運作。
目前這項技術已透過多種方式落地。對於企業端,Google Meet 將其整合進視訊會議,將原本僅限於五種語言且必須以英文為中介的翻譯,擴展到超過 2000 種語言組合的直接互譯。對於一般用戶,Android 與 iOS 的 Google Translate App 則推出了聆聽模式(Listening Mode),讓使用者像接電話一樣將手機貼在耳邊,直接透過聽筒接收即時翻譯,解決了在公共場合不便使用耳機且不想讓他人聽到翻譯內容的痛點。
在安全性與責任方面,針對 AI 生成音訊可能導致的誤導或偽造問題,Google 導入了 SynthID 技術。這是一種不可見的數位浮水印(Watermarking),直接編織在音訊輸出中。即便人耳聽不出來,但系統可以偵測出該音訊是由 AI 生成,從而降低假訊息傳播的風險。
總結來說,Gemini 3.5 Live Translate 的重要性在於它將翻譯從文字的轉換,提升到了對整場對話流(Conversation Flow)的即時管理,讓跨語言溝通在技術層面上更接近人類的直覺反應。
來源:blog.google
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。