90 分鐘多角色播客生成技術,開源後 GitHub 狂攬 33,000+ Stars,重新定義語音合成新邊界
微軟亞洲研究院近日開源的 VibeVoice 語音 AI 模型,在 GitHub 上引發熱烈迴響,短短數日內突破 33,000 顆星。這項被定位為「Frontier Speech AI」的尖端技術,能夠生成長達 90 分鐘、支持最多 4 位不同說話者 的高質量對話式音頻,為播客製作、有聲書、虛擬助理等應用場景帶來革命性突破。
然而,這項強大的技術在開源後不久,微軟便移除了 TTS(文字轉語音)代碼,僅保留 ASR(語音識別)模組。背後的原因,正反映出 AI 技術發展中「創新」與「責任」之間的微妙平衡。
採用 LatentLM 自回歸擴散框架,透過連續語音 tokenizers operating at 7.5Hz 超低幀率,大幅提升長序列處理效率。
突破傳統 TTS 幾分鐘限制,可一次性生成 90 分鐘連續高品質音頻,無需分段處理。
支持最多 4 位獨立音色說話者,每位角色保持音色一致性,自然呈現對話轉場。
自動生成呼吸聲、停頓、唇齒音等細節,甚至可加入背景音樂,增強氛圍感。
傳統語音生成模型的局限:大多數現有系統基於離散化技術,將語音表示為梅爾頻譜圖等離散聲學特徵,再分階段預測基頻、時長、頻譜等參數。這類方案高度依賴特定說話人音色的訓練數據,難以泛化至新角色或多音色場景,因此大多數自動播客仍停留在「幾分鐘、兩人對話」階段。
VibeVoice 的創新方案:微軟亞洲研究院的研究員們另闢蹊徑,將連續化的 LatentLM 模型算法引入語音生成任務。
「這項技術的核心在於模型對上下文的深度理解能力。正是這種能力,使 VibeVoice 在語調控制和自發性語言生成方面展現出接近人類表現的自然度。」—— 微軟亞洲研究院研究員 彭智亮
| 模型名稱 | 類型 | 參數量 | 主要功能 | 狀態 |
|---|---|---|---|---|
| VibeVoice-ASR-7B | 語音識別 | 7B | 60 分鐘長格式音頻轉文字,支持 50+ 語言 | ✅ 開源中 |
| VibeVoice-TTS-1.5B | 語音合成 | 1.5B | 90 分鐘多角色語音生成 | ⚠️ 已停用 |
| VibeVoice-Realtime-0.5B | 實時 TTS | 0.5B | 流式文本輸入,支持 9 國語言 | ✅ 開源中 |
📌 重要時間軸:
• 2025-08-25:VibeVoice-TTS 開源,接受為 ICLR 2026 Oral
• 2025-09-05:微軟移除 TTS 代碼(負責任使用考量)
• 2025-12-03:VibeVoice-Realtime-0.5B 開源
• 2026-01-21:VibeVoice-ASR 開源,支持 50+ 語言
• 2026-03-06:ASR 整合至 Hugging Face Transformers v5.3.0
2025 年 9 月 5 日,微軟在 GitHub 上發布聲明,表示在 VibeVoice 開源後發現「某些使用方式與既定意圖不符」,基於負責任 AI 原則,決定移除 TTS 代碼。這一決定引發社群熱烈討論。
微軟在官方研究部落格中強調:「如需使用真人且具有辨識度的聲音,建議事先獲得相關方的明確授權,並結合音頻內容真實性檢測機制,以降低非法使用風險。」
儘管 TTS 模組已停用,但 VibeVoice-ASR 持續開源並獲得社群廣泛採用。2026 年 3 月,基於 VibeVoice-ASR 開發的語音輸入法「Vibing」正式發布,支持 macOS 和 Windows 平台。
研究團隊計劃在未來版本中引入情感控制功能,使生成內容更多元生動。同時探索「語音 + 音樂 + 音效」一體化的音頻生成模型,讓創作者只需輸入文字腳本,AI 即可自動生成包含對話、配樂和場景音效的完整音頻作品。
VibeVoice 的出現,標誌著語音合成技術邁向新的里程碑。它不僅在技術層面實現了超長時長、多角色協同的突破,更在產業層面引發了對 AI 負責任使用的深度思考。
正如微軟所強調的,這項技術的定位是「基礎研究框架」,旨在促進語音合成社群的協作與進步。在享受技術帶來的便利同時,如何建立完善的倫理規範和使用機制,將是整個 AI 社群需要共同面對的課題。