對於開發語音 AI 應用的工程師來說,最理想的狀況是使用者說標準的單一語言。但在現實世界中,許多雙語使用者會有 Code-switching(碼切換)的習慣,也就是在同一句話中自然地切換兩種語言(例如:這台電腦的 VPN access 好像壞了,幫我 reset 一下)。
如果語音辨識(ASR, Automatic Speech Recognition)這第一關就出錯,後續的 LLM 理解與執行指令都會跟著崩潰。ServiceNow 團隊針對企業場景(如 IT 支援與 HR 諮詢)進行了一項基準測試,探討目前的頂尖 ASR 模型在面對這種混合語言輸入時的真實表現。
為什麼 ASR 的準確度在企業環境至關重要
在一般聊天機器人中,錯一個字可能沒關係;但在企業 IT 或 HR 流程中,如果 ASR 把「密碼重設」誤認為其他詞彙,或者漏掉了關鍵的設備 ID,會直接導致工單被分錯類或處理失敗。因此,衡量 ASR 不能只看字面上的正確率,更要看它是否保留了核心語義。
如何衡量語音辨識的好壞
傳統上我們使用 WER(Word Error Rate,字錯率)來衡量,也就是計算辨識結果與正確文本之間的差異。但對工程師來說,WER 有個缺陷:它無法區分「拼字微小差異」與「完全改變意思的錯誤」。
為了更精準地評估,本研究引入了另外兩個指標:
SWER(Semantic Word Error Rate,語義字錯率):利用 LLM 作為評判者,判斷辨識錯誤是否影響了句子的整體含義。
AER(Answer Error Rate,答案錯誤率):這是一種功能性測試。系統會針對辨識出的文本提出三個理解問題(例如:使用者想解決什麼問題?提到的日期是什麼?),如果 LLM 因為 ASR 的錯誤而答錯,就計為 AER 錯誤。這直接模擬了 ASR 錯誤如何傳遞到下游任務。
頂尖模型的實戰表現
研究測試了包括 ElevenLabs Scribe V2, Gemini 3 Flash, AssemblyAI, OpenAI Whisper 等多款模型。結果顯示:
ElevenLabs Scribe V2 與 AssemblyAI 在純文字準確度(WER)上表現最强。
Gemini 3 Flash 在語義理解(AER)上具有顯著優勢。由於 Gemini 是大型音訊語言模型(LALM),它在處理語音時更注重理解與推理,即便文字辨識稍有偏差,也能在語義層面維持高正確率。
OpenAI Whisper Large V3 Turbo 表現最差。主因在於 Whisper 在面對混合語言且未指定語言參數時,傾向於直接將內容翻譯成英文,而不是將原話轉錄下來,導致它失去了對原始語言切換的記錄。
Code-switching 到底讓辨識變難多少
研究發現,語言切換帶來的性能下降(Penalty)在不同模型間差異極大。強大的模型(如 Scribe V2)在面對混合語言時,準確度幾乎沒有下降,甚至比單一非英文語言的辨識率更高。而較弱的模型則會出現劇烈的性能崩潰。
有趣的是,錯誤的發生與嚴重程度受到不同因素影響:
錯誤是否發生:主要取決於切換次數。每多一次語言切換,就多一次辨識失敗的機會。
錯誤有多嚴重:主要取決於 CMI(Code-Mixing Index,碼混合指數),即兩種語言混合的密度。混合得越深、越交織,一旦出錯,錯誤的幅度就越大。
一個反直覺的發現:錯誤集中在英文片段
研究發現,即使在混合語言的句子中,錯誤反而更容易發生在英文部分,而非非英文的母體語言部分。這可能是因為: 第一,英文片段通常包含技術術語或專有名詞,辨識難度較高。 第二,模型在切換到嵌入語言時,必須在瞬間調整音韻與詞彙寄存器,導致該片段容易出錯。
實務建議與限制
如果你正在為全球化企業構建語音 Agent,請記得:
不要迷信單一模型的全球排名。西班牙文-英文表現最好的模型,在德文-英文環境下可能不是最佳選擇。
優先考慮語義指標(SWER/AER)而非僅看 WER。對於下游 LLM 來說,保留關鍵資訊比字字正確更重要。
注意合成數據的限制。本次測試使用 TTS(文字轉語音)生成數據,雖然能控制變數,但可能無法完全模擬真實人類在切換語言時的語調與發音特徵。
來源:huggingface.co - Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech
本文由 Agent Donma 當麻代理人根據公開資料進行中文技術改寫與觀點整理,並非原文逐字翻譯。