MOSS-TTS-Nano

MOSS-TTS-Nano:僅 0.1B 參數、可在 CPU 實時運行的多語言微型語音合成模型

github.com

此模型採取了極端且正確的『反規模化』策略,在維持 48kHz 高採樣率的前提下將參數壓至 0.1B,成功將 TTS 從 GPU 依賴轉向端側普及。然而,其自然度必然存在天花板,僅適用於『功能性』而非『藝術性』的語音場景;且其環境依賴(如 pynini)增加了初次部署的摩擦成本。

MOSS-TTS-Nano:僅 0.1B 參數、可在 CPU 實時運行的多語言微型語音合成模型

MOSS-TTS-Nano 是由 MOSI.AI 與 OpenMOSS 團隊開發的一個微型多語言語音生成模型。在目前大模型傾向於追求參數規模的趨勢下,這個 repo 走的是相反路線:它將參數規模壓縮到僅 0.1B(1 億參數),目標是讓語音合成不再依賴昂貴的 GPU,而是能在一般的 CPU 環境甚至瀏覽器中實時運行。

這個 repo 解決的核心問題是 TTS 部署的門檻。傳統的高質量 TTS 模型通常需要較大的顯存與計算量,導致其難以集成到輕量級的本地應用或 Web 端。MOSS-TTS-Nano 透過極小化模型體積與優化推理棧,實現了低延遲、低功耗的實時語音生成。

核心技術做法

MOSS-TTS-Nano 採用了純自回歸的流水線:Audio Tokenizer + LLM。

首先是 MOSS-Audio-Tokenizer-Nano。這是一個約 20M 參數的輕量級音頻編碼器,它將 48kHz 的立體聲音頻壓縮成離散的 Token 流。它使用了 Causal Transformer 架構(而非 CNN),能將音頻高效壓縮並保持高保真度。

其次是 TTS 生成模型。它像 LLM 一樣,根據輸入的文字與參考音頻的 Token,自回歸地預測接下來的音頻 Token,最後再由 Tokenizer 解碼回波形。

為了極致的部署性能,團隊提供了 ONNX 版本。這個版本移除了對 PyTorch 的依賴,直接運行在 ONNX Runtime 上。在 MacBook Air M4 的測試中,僅使用單核 CPU 即可流暢推理,效率比原版提升近 2 倍。

適合誰使用

這個項目非常適合需要將 TTS 功能集成到端側應用的開發者。例如:本地閱讀助手、輕量級 AI 智能體、不需要伺服器端 GPU 的 Web Demo,或是對隱私要求高、必須在本地處理音頻的應用場景。

技術亮點

極低資源佔用:0.1B 參數,對 CPU 極其友好,支持流式推理以降低首字延遲。 高音質輸出:原生支持 48kHz 雙聲道輸出,而非常見的低採樣率單聲道。 強大的克隆能力:支持 Zero-shot 語音克隆,只需提供一段參考音頻即可模仿音色。 多語言支持:內建支持中文、英文、日文等 20 種語言。 完整的微調工具鏈:提供從數據預處理、SFT 訓練到驗證的完整腳本,允許開發者在特定音色或語言上進行微調。

實務限制與導入風險

品質權衡:由於參數規模極小,其語音的自然度、情感表現力與細膩度必然無法與 8B 等級的大型 TTS 模型(如 MOSS-TTS 旗艦版)相比。它追求的是夠用且實時,而非完美。 環境配置坑:依賴項中包含 WeTextProcessing 和 pynini,這兩個庫在非 Conda 環境下安裝較為麻煩,經常出現編譯失敗,導入時需要仔細閱讀其環境安裝指南。 數據依賴:若要進行微調,需要準備特定格式的 JSONL 數據,且必須先經過 Audio Tokenizer 預處理成 codes,增加了數據準備的步驟。

成熟度判斷

該項目處於可實用階段。它不僅提供了模型權重,還提供了完整的 CLI 工具、FastAPI Web 服務以及 ONNX 導出路徑。從其支持瀏覽器插件運行以及提供多種後端(PyTorch/ONNX)來看,其部署工程化程度很高,是一個成熟的輕量級解決方案。