對於視障或低視能的運動員來說,跑步通常依賴於物理上的限制,例如人導跑員的牽引繩或跑道上的標線。Google DeepMind 近期推出的 Running Guide Agent 則試圖打破這種依賴,利用即時環境感知與 AI 推理,讓視障跑者能獨立完成跑步訓練。這項技術的核心在於將 AI 從簡單的路徑跟隨,提升到具備空間推理能力的實時導航助手。
為了在高速運動中確保絕對的安全,這套系統採用了混合雙路徑架構,將低延遲的安全性與高層次的環境理解分開處理。
第一路徑是裝置端分割模型(On-device segmentation)。這部分直接運行在手機的自定義晶片上,完全不需要網路連接。它的目標是極低延遲,負責處理最關鍵的生存指令,例如立即停止或方向修正。系統會將這些指令轉化為方向性的滴答聲(Ticking sounds),讓跑者能像依靠雷達一樣,在毫秒之間感知方向並做出反應。
第二路徑則是基於 Gemma 40 億參數的 Gemma 4 E4B 模型。這是一個多模態模型,能夠同時處理影像與文字輸入,用來進行高層次的場景理解。為了避免處理每一幀畫面導致的運算壓力與延遲,工程團隊引入了智慧框架選擇(Smarter Frame Selection)機制。系統不會盲目處理所有影像,而是僅在偵測到高熵(High-entropy)框架時才啟動推理,也就是當地形突然改變或出現新障礙物時才進行分析,確保回饋既快速又精準。
在軟體邏輯上,Running Guide Agent 並非單一模型,而是一個多代理人協作框架(Multi-agent framework),將跑步的不同階段拆解給三個專門的 Agent 處理。
首先是規劃代理人(Planner agent),它利用函數調用(Function calling)能力,在跑前整合天氣資訊與 Google Maps 數據,與跑者溝通訓練目標,並設定數位起跑線。
接著是教練代理人(Coach agent),負責跑中的即時回饋。為了避免資訊過載,它將警訊分為三個優先級層級:危險(Danger)代表需立即閃避)、警告(Warning代表附近有其他跑者或障礙物)以及通知(Notice代表即將進入彎道)。這種分級機制能讓跑者在高速移動中迅速判斷狀況的緊急程度。
最後是休息代理人(Break agent),專門管理休息間隔,讓運動員能隨時暫停或恢復訓練流程。
目前的硬體方案是將 Pixel 10 Pro 手機佩戴在胸前,但為了進一步優化,Google 正在開發智慧眼鏡原型。眼鏡能提供更寬且更穩定的視野,優化輸入給多模態模型的數據質量,並將影像串流回手機處理,實現硬體與環境 AI 的深度融合。
這項技術的關鍵在於將邊緣運算(Edge Computing)的零延遲特性與深度世界理解(World Understanding)結合。對於開發者而言,這展示了如何透過分層架構,在對安全性要求極高的場景中,平衡即時反應(低延遲模型)與複雜推理(大語言模型)之間的矛盾。
來源:blog.google
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。