返回事件流

SwanVoice:適用於獨白與對話的表現力零樣本語音合成

研究論文提出針對零樣本語音合成在長篇多說話者對話中的挑戰,指出常見方法是合成每個輪次後拼接,但這會增加推理成本並破壞聲學一致性和對話連貫性。近期對話 TTS 系統開始解決此問題,但仍難以同時保持表達連貫性、可控的說話者切換和獨白質量。為此,研究者開發了 SwanData-Speech 數據集和 SwanVoice 模型。SwanData-Speech 利用野外音頻構建獨白和對話語料,並使用 Swan Forced Aligner 進行暫停感知的詞級對齊,以及 RobustMegaTTS3 處理發音困難情況。SwanVoice 則是一個零樣本 TTS 模型,支持 1 到 4 個說話者,結合了 25 Hz VAE、帶有暫停感知符號和拼音替換的文本條件,以及流匹配 DiT 架構,並使用說話者輪次條件。訓練過程從獨白語音開始,逐步過渡到混合和真實對話數據,並使用 DiffusionNFT 進行後訓練,獎勵包括音素級和說話者相似性。在 SwanBench-Speech 基準測試上,SwanVoice 在獨白和對話設定中均獲得了比所有評估開源基線更高的豐富度和層次分數,但內容準確性仍是主要限制。音頻演示可在指定 URL 查看。

來源

來源:Hugging Face / 論文來源