📰 AI News 專題報道

微軟 VibeVoice 語音 AI 全解析

90 分鐘多角色播客生成技術,開源後 GitHub 狂攬 33,000+ Stars,重新定義語音合成新邊界

📅 2026-04-06
GitHub 33,000+ Stars
🎯 ICLR 2026 Oral
VibeVoice AI 科技感插圖

📺 影片來源YouTube 專題解析

🔗 GitHubmicrosoft/VibeVoice

📄 技術報告arXiv:2508.19205

🌐 專案頁面microsoft.github.io/VibeVoice

新聞導語

微軟亞洲研究院近日開源的 VibeVoice 語音 AI 模型,在 GitHub 上引發熱烈迴響,短短數日內突破 33,000 顆星。這項被定位為「Frontier Speech AI」的尖端技術,能夠生成長達 90 分鐘、支持最多 4 位不同說話者 的高質量對話式音頻,為播客製作、有聲書、虛擬助理等應用場景帶來革命性突破。

然而,這項強大的技術在開源後不久,微軟便移除了 TTS(文字轉語音)代碼,僅保留 ASR(語音識別)模組。背後的原因,正反映出 AI 技術發展中「創新」與「責任」之間的微妙平衡。

核心技術突破

🎯 Next-Token Diffusion

採用 LatentLM 自回歸擴散框架,透過連續語音 tokenizers operating at 7.5Hz 超低幀率,大幅提升長序列處理效率。

⏱️ 90 分鐘超長生成

突破傳統 TTS 幾分鐘限制,可一次性生成 90 分鐘連續高品質音頻,無需分段處理。

👥 4 角色協同

支持最多 4 位獨立音色說話者,每位角色保持音色一致性,自然呈現對話轉場。

🎙️ 細節擬真

自動生成呼吸聲、停頓、唇齒音等細節,甚至可加入背景音樂,增強氛圍感。

技術架構解析

傳統語音生成模型的局限:大多數現有系統基於離散化技術,將語音表示為梅爾頻譜圖等離散聲學特徵,再分階段預測基頻、時長、頻譜等參數。這類方案高度依賴特定說話人音色的訓練數據,難以泛化至新角色或多音色場景,因此大多數自動播客仍停留在「幾分鐘、兩人對話」階段。

VibeVoice 的創新方案:微軟亞洲研究院的研究員們另闢蹊徑,將連續化的 LatentLM 模型算法引入語音生成任務。

專家觀點

「這項技術的核心在於模型對上下文的深度理解能力。正是這種能力,使 VibeVoice 在語調控制和自發性語言生成方面展現出接近人類表現的自然度。」—— 微軟亞洲研究院研究員 彭智亮

模型家族成員

模型名稱 類型 參數量 主要功能 狀態
VibeVoice-ASR-7B 語音識別 7B 60 分鐘長格式音頻轉文字,支持 50+ 語言 ✅ 開源中
VibeVoice-TTS-1.5B 語音合成 1.5B 90 分鐘多角色語音生成 ⚠️ 已停用
VibeVoice-Realtime-0.5B 實時 TTS 0.5B 流式文本輸入,支持 9 國語言 ✅ 開源中

📌 重要時間軸:

2025-08-25:VibeVoice-TTS 開源,接受為 ICLR 2026 Oral

2025-09-05:微軟移除 TTS 代碼(負責任使用考量)

2025-12-03:VibeVoice-Realtime-0.5B 開源

2026-01-21:VibeVoice-ASR 開源,支持 50+ 語言

2026-03-06:ASR 整合至 Hugging Face Transformers v5.3.0

開源與責任的平衡

2025 年 9 月 5 日,微軟在 GitHub 上發布聲明,表示在 VibeVoice 開源後發現「某些使用方式與既定意圖不符」,基於負責任 AI 原則,決定移除 TTS 代碼。這一決定引發社群熱烈討論。

微軟在官方研究部落格中強調:「如需使用真人且具有辨識度的聲音,建議事先獲得相關方的明確授權,並結合音頻內容真實性檢測機制,以降低非法使用風險。」

儘管 TTS 模組已停用,但 VibeVoice-ASR 持續開源並獲得社群廣泛採用。2026 年 3 月,基於 VibeVoice-ASR 開發的語音輸入法「Vibing」正式發布,支持 macOS 和 Windows 平台。

應用前景

未來發展方向

研究團隊計劃在未來版本中引入情感控制功能,使生成內容更多元生動。同時探索「語音 + 音樂 + 音效」一體化的音頻生成模型,讓創作者只需輸入文字腳本,AI 即可自動生成包含對話、配樂和場景音效的完整音頻作品。

結語

VibeVoice 的出現,標誌著語音合成技術邁向新的里程碑。它不僅在技術層面實現了超長時長、多角色協同的突破,更在產業層面引發了對 AI 負責任使用的深度思考。

正如微軟所強調的,這項技術的定位是「基礎研究框架」,旨在促進語音合成社群的協作與進步。在享受技術帶來的便利同時,如何建立完善的倫理規範和使用機制,將是整個 AI 社群需要共同面對的課題。