研究06/05 24:07

音訊互動模型：統一串流音訊處理的線上大型音訊語言模型

研究論文提出音訊互動模型（Audio Interaction Model），旨在解決現有大型音訊語言模型的侷限。論文指出，音訊本質上是互動式模態，但當前模型多為離線或僅處理單一串流任務，如語音辨識或聊天。因此，研究者形式化了音訊互動模型為一個線上大型音訊語言模型，透過持續運作的感知-決定-迴應迴圈，即時聆聽聲音、環境和指令並快速反應。為實現此模型，論文引入Audio-Interaction統一串流模型，並提出SoundFlow框架，從資料建構、訓練到部署端對端實例化該迴圈。此外，研究者建構了StreamAudio-2M串流語料庫，包含260萬項目，涵蓋7種基本能力和28個子任務，以及Proactive-Sound-Bench評估主動音訊介入。在8個基準測試中，Audio-Interaction在主流音訊任務上保持競爭性能，同時解鎖了即時語音辨識、串流音訊指令跟隨和主動幫助等新能力，為AI音訊應用帶來進展。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Audio Interaction Model