Pixelle-Video：基於 ComfyUI 的 AI 全自動化短視頻生成引擎

2026/05/08 github.com

Pixelle-Video 是一個將 LLM、ComfyUI 與 HTML 模板結合的自動化短視頻生產工具。它將視頻創作拆解為文案生成、配圖/視頻生成、語音合成與最後的合成四個模組，支持本地與雲端兩種部署模式，適合需要快速量產內容的創作者或希望構建自動化視頻管線的開發者。

Pixelle-Video 是一個旨在降低短視頻創作門檻的自動化引擎。簡單來說，它讓使用者只需輸入一個主題，就能由 AI 自動完成從寫劇本、找素材、配音到最後剪輯合成的整個流程。對於不熟悉剪輯軟體或沒有專業設計能力的初學者，這是一個能快速將想法轉化為視頻的工具。

這個工具解決的核心問題是短視頻生產的重複性勞動。傳統流程需要分開使用 LLM 寫稿、生圖工具找圖、TTS 工具配音，最後再用剪輯軟體對齊時間軸。Pixelle-Video 將這些原子能力整合在一起，形成了一條自動化流水線。

核心運作邏輯

Pixelle-Video 的運作可以拆解為四個連續的階段：

第一階段是文案生成。系統調用 LLM（如 GPT-4o、DeepSeek 或本地的 Ollama）將主題擴展為分鏡劇本，將內容拆分成多個場景。

第二階段是素材規劃與生成。系統根據每個場景的文案，自動生成對應的圖像或視頻提示詞，並調用 ComfyUI（本地或雲端 RunningHub）來產生視覺素材。

第三階段是語音合成。利用 Edge-TTS 或 Index-TTS 等方案將文案轉化為音頻，甚至支持上傳參考音頻進行聲音克隆。

第四階段是視頻合成。這是該項目的技術亮點之一，它不使用複雜的剪輯軟體，而是利用 HTML 模板來定義畫面的布局與樣式，最後將素材填入模板並合成最終視頻。

該項目的最大亮點在於其高度的模組化與可擴展性。它並非一個封閉的黑盒，而是基於 ComfyUI 構建。這意味著如果你懂 ComfyUI，你可以直接將自己設計的 JSON 工作流（Workflow）放入項目中，替換掉預設的生圖或 TTS 模型，實現完全自定義的視覺風格。

此外，它提供了靈活的部署選擇。對於有強大 GPU 的用戶，可以使用 Ollama 加本地 ComfyUI 實現零成本運行；對於沒有顯卡的用戶，則可以通過 API 調用雲端服務。

這款工具非常適合內容農場經營者、知識類博主或需要快速製作 Demo 視頻的產品經理。如果你需要大量產出形式統一、邏輯簡單的科普類或感悟類短視頻，這個工具能極大提高效率。

對於普通用戶，導入成本極低，尤其是 Windows 一鍵整合包，幾乎不需要配置環境即可運行。但對於開發者，需要注意以下風險：

首先是依賴項的複雜度。項目依賴於 ComfyUI 及其大量的插件節點，如果本地部署，模型下載與環境配置可能是最耗時且容易出錯的環節。

其次是穩定性風險。默認使用的 Edge-TTS 是調用免費接口，容易受到網絡波動影響導致生成失敗。

最後是視覺同質化。由於大量依賴預設的 HTML 模板，生成的視頻在視覺結構上會非常相似，若要做出具有品牌辨識度的內容，仍需投入時間開發自定義模板。

目前 Pixelle-Video 處於功能快速迭代階段，已具備完整的 API 接口（支持同步與異步生成）與 Web UI，且提供了詳細的 API 文檔與案例庫。它不再僅僅是一個簡單的 Demo，而是一個可投入實務生產的工具鏈，但在本地部署的自動化配置（如模型自動下載）方面仍有提升空間。