SwanBench-Speech:長語音生成全面基準測試發布
近期語音生成技術的進展使得高保真度合成成為可能,然而,在長上下文條件下對模型進行系統性評估仍 largely underexplored。HuggingFace 上出現的研究論文提出,一個全面的長語音評估基準是不可或缺的,原因有二:現有測試場景往往局限於有限領域,與多樣化的下游應用存在顯著差距;現有指標忽視了長文本的關鍵因素如一致性和連貫性,無法可靠泛化。為此,論文提出了 SwanBench-Speech,一個將長語音質量分解為具體、解耦維度的綜合基準。SwanBench-Speech 具備三個關鍵特性:首先,它涵蓋豐富的語音場景,專注於長語音生成和對話生成,包含聲學、語義和表現力挑戰,共計 1,101 個樣本跨越 17 種常見語音場景;其次,它提供全面的評估維度,沿著聲學、語義和表現力軸,定義了一個包含七個指標的自動評估協議,以實現標準化評估;最後,通過廣泛實驗,論文揭示有價值的見解,指出當前模型在高表達場景中仍 struggle,並在一致性和層次結構上與真實錄音存在明顯差距。
來源
來源:Hugging Face / 論文來源