Uber 作為一個全球性的即時市場(Real-time Marketplace),其核心挑戰在於如何處理極其複雜且變動劇烈的數據。每天 4000 萬次行程、跨越 70 個國家、15,000 個城市,每個城市的交通法規、天氣與用戶行為都不同。對於工程師來說,這種規模的系統最難處理的是認知負荷(Cognitive Overhead),也就是用戶(司機或乘客)需要花多少心力才能從複雜的數據中做出正確決定。
為了降低這種負荷,Uber 導入了 OpenAI 的大型語言模型(LLM),將其從單純的聊天機器人轉化為能處理複雜邏輯的產品功能。
針對司機端的收益優化:Uber Assistant
對於司機而言,靈活性是核心,但這也帶來了決策難題:現在應該去機場嗎?午餐時間切換到外送會更賺錢嗎?過去,這些資訊分散在熱力圖(Heatmaps)或收益趨勢圖中,新進司機需要透過數百次行程的試錯(Trial and Error)才能掌握規律。
Uber 推出的 Uber Assistant 旨在將這些複雜的市場訊號轉化為可執行的建議。它不再要求司機去解讀圖表,而是讓司機用自然語言詢問,由 AI 總結市場現況並提供定位建議。這將原本屬於經驗主義的知識轉化為即時的數據洞察,大幅縮短了新司機的上手週期(Ramp-up time)。
工程實作:多代理架構(Multi-agent Architecture)與 AI Guard
在這種規模的應用中,不能簡單地將所有請求丟給同一個大型模型,因為這會導致延遲過高(Latency)且難以管控安全性。Uber 採取了多代理架構,將系統拆分為多個專業的子系統:
首先是路由分發。系統會根據請求類型將任務導向最適合的模型。例如,簡單的分類或快速回應會交給輕量化的 Nano 或 Mini 模型以確保低延遲;而涉及複雜推理的市場分析則交給大型推理模型。
其次是治理層 AI Guard。這是一個內部治理層,專門用來篩選輸入的 Prompt(提示詞)與輸出的 Response(回應)。它的目的在於防止模型產生幻覺(Hallucinations)、確保回應符合公司政策,並保護用戶隱私與數據安全。
對於工程師而言,這種設計體現了 AI 落地的一個關鍵原則:不能依賴單一模型的通用能力,而必須透過架構設計(路由 + 專門模型 + 治理層)來確保系統的穩定性與可預測性。
突破交互障礙:Realtime API 與語音介面
Uber 正在利用 OpenAI 的 Realtime API 嘗試將交互從文字轉向語音。這不僅是為了方便,更是為了解決複雜需求的輸入成本。
例如,一名乘客若想表達「我有五件行李且同行五人,需要推薦適合去機場的車型」,如果用手指點選選單會非常繁瑣。透過語音交互,系統可以一次性接收完整的意圖(Full Intent),並結合用戶的儲存位置與上下文(Context),直接推薦 UberXL 等車型,並同步在 App 介面上顯示視覺結果。
對司機端而言,語音則解決了行車安全問題,讓司機能以免持(Hands-free)方式與平台互動,減少分心。
開發模式的轉型:從中心化到去中心化
在導入 LLM 之前,AI 創新通常由少數專門的 AI 團隊主導。但隨著 Prompt Engineering(提示工程)、Retrieval Systems(檢索系統)以及評估管線(Evaluation Pipelines)的成熟,開發門檻降低。
現在,Uber 的產品、法律、營運與設計團隊能更緊密地協作,定義政策邊界並測試輸出結果。AI 能力不再是單一團隊的專利,而是被嵌入到整個公司的各個功能團隊中,這讓產品迭代速度大幅提升。
總結
Uber 的案例展示了 LLM 在企業級應用中的三個關鍵方向:第一,將複雜數據轉化為自然語言建議,降低用戶認知負荷;第二,透過多代理架構平衡速度、成本與準確度;第三,利用語音 API 消除多步驟點擊的交互障礙。
來源:openai.com
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。