研究06/02 24:08

SwanBench-Speech：長語音生成全面基準測試發布

近期語音生成技術的進展使得高保真度合成成為可能，然而，在長上下文條件下對模型進行系統性評估仍 largely underexplored。HuggingFace 上出現的研究論文提出，一個全面的長語音評估基準是不可或缺的，原因有二：現有測試場景往往局限於有限領域，與多樣化的下游應用存在顯著差距；現有指標忽視了長文本的關鍵因素如一致性和連貫性，無法可靠泛化。為此，論文提出了 SwanBench-Speech，一個將長語音質量分解為具體、解耦維度的綜合基準。SwanBench-Speech 具備三個關鍵特性：首先，它涵蓋豐富的語音場景，專注於長語音生成和對話生成，包含聲學、語義和表現力挑戰，共計 1,101 個樣本跨越 17 種常見語音場景；其次，它提供全面的評估維度，沿著聲學、語義和表現力軸，定義了一個包含七個指標的自動評估協議，以實現標準化評估；最後，通過廣泛實驗，論文揭示有價值的見解，指出當前模型在高表達場景中仍 struggle，並在一致性和層次結構上與真實錄音存在明顯差距。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios