微軟 VibeVoice 語音 AI 全解析｜90 分鐘多角色播客生成技術

📄 技術報告：arXiv:2508.19205

🌐 專案頁面：microsoft.github.io/VibeVoice

新聞導語

微軟亞洲研究院近日開源的 VibeVoice 語音 AI 模型，在 GitHub 上引發熱烈迴響，短短數日內突破 33,000 顆星。這項被定位為「Frontier Speech AI」的尖端技術，能夠生成長達 90 分鐘、支持最多 4 位不同說話者 的高質量對話式音頻，為播客製作、有聲書、虛擬助理等應用場景帶來革命性突破。

然而，這項強大的技術在開源後不久，微軟便移除了 TTS（文字轉語音）代碼，僅保留 ASR（語音識別）模組。背後的原因，正反映出 AI 技術發展中「創新」與「責任」之間的微妙平衡。

核心技術突破

🎯 Next-Token Diffusion

採用 LatentLM 自回歸擴散框架，透過連續語音 tokenizers operating at 7.5Hz 超低幀率，大幅提升長序列處理效率。

⏱️ 90 分鐘超長生成

突破傳統 TTS 幾分鐘限制，可一次性生成 90 分鐘連續高品質音頻，無需分段處理。

👥 4 角色協同

支持最多 4 位獨立音色說話者，每位角色保持音色一致性，自然呈現對話轉場。

🎙️ 細節擬真

自動生成呼吸聲、停頓、唇齒音等細節，甚至可加入背景音樂，增強氛圍感。

技術架構解析

傳統語音生成模型的局限：大多數現有系統基於離散化技術，將語音表示為梅爾頻譜圖等離散聲學特徵，再分階段預測基頻、時長、頻譜等參數。這類方案高度依賴特定說話人音色的訓練數據，難以泛化至新角色或多音色場景，因此大多數自動播客仍停留在「幾分鐘、兩人對話」階段。

VibeVoice 的創新方案：微軟亞洲研究院的研究員們另闢蹊徑，將連續化的 LatentLM 模型算法引入語音生成任務。

變分自編碼器（VAE）：將語音波形編碼為連續的潛在向量序列，保留音色、語調、節奏等關鍵信息
因果 Transformer 架構：以對話腳本（包括說話人標籤）和已生成的潛在向量為輸入，逐步預測下一個語音片段
低幀率壓縮機制：將幀率壓縮至 7.5fps，生成 90 分鐘音頻只需處理約 6.4 萬個 token，計算量大幅降低
角色標籤系統：透過輸入文本中加入角色標籤（如 [說話人_1]、[說話人_2]），實現自然音色切換

專家觀點

「這項技術的核心在於模型對上下文的深度理解能力。正是這種能力，使 VibeVoice 在語調控制和自發性語言生成方面展現出接近人類表現的自然度。」—— 微軟亞洲研究院研究員彭智亮

模型家族成員

模型名稱	類型	參數量	主要功能	狀態
VibeVoice-ASR-7B	語音識別	7B	60 分鐘長格式音頻轉文字，支持 50+ 語言	✅ 開源中
VibeVoice-TTS-1.5B	語音合成	1.5B	90 分鐘多角色語音生成	⚠️ 已停用
VibeVoice-Realtime-0.5B	實時 TTS	0.5B	流式文本輸入，支持 9 國語言	✅ 開源中

📌 重要時間軸：

• 2025-08-25：VibeVoice-TTS 開源，接受為 ICLR 2026 Oral

• 2025-09-05：微軟移除 TTS 代碼（負責任使用考量）

• 2025-12-03：VibeVoice-Realtime-0.5B 開源

• 2026-01-21：VibeVoice-ASR 開源，支持 50+ 語言

• 2026-03-06：ASR 整合至 Hugging Face Transformers v5.3.0

開源與責任的平衡

2025 年 9 月 5 日，微軟在 GitHub 上發布聲明，表示在 VibeVoice 開源後發現「某些使用方式與既定意圖不符」，基於負責任 AI 原則，決定移除 TTS 代碼。這一決定引發社群熱烈討論。

微軟在官方研究部落格中強調：「如需使用真人且具有辨識度的聲音，建議事先獲得相關方的明確授權，並結合音頻內容真實性檢測機制，以降低非法使用風險。」

儘管 TTS 模組已停用，但 VibeVoice-ASR 持續開源並獲得社群廣泛採用。2026 年 3 月，基於 VibeVoice-ASR 開發的語音輸入法「Vibing」正式發布，支持 macOS 和 Windows 平台。

應用前景

播客製作：創作者只需提供帶角色標註的腳本，即可自動生成高質量多角色對話音頻
有聲書：支持多角色演繹，自動呈現對話場景的氛圍感
虛擬助理：實時生成自然語音回應，支持多語言切換
在线教育：自動生成教學音頻，支持多講師協同授課
娛樂節目：快速製作廣播劇、音頻劇等內容

未來發展方向

研究團隊計劃在未來版本中引入情感控制功能，使生成內容更多元生動。同時探索「語音 + 音樂 + 音效」一體化的音頻生成模型，讓創作者只需輸入文字腳本，AI 即可自動生成包含對話、配樂和場景音效的完整音頻作品。

結語

VibeVoice 的出現，標誌著語音合成技術邁向新的里程碑。它不僅在技術層面實現了超長時長、多角色協同的突破，更在產業層面引發了對 AI 負責任使用的深度思考。

正如微軟所強調的，這項技術的定位是「基礎研究框架」，旨在促進語音合成社群的協作與進步。在享受技術帶來的便利同時，如何建立完善的倫理規範和使用機制，將是整個 AI 社群需要共同面對的課題。