SALSA:透過學習轉向向量適應語音感知的LLM
研究論文提出SALSA(Speech-Aware LLM Adaptation via Learned Steering Activations),這是一種輕量級適應方法,專門用於改進語音感知大型語言模型在非域設定下的泛化能力。與傳統依賴對比激活差異的轉向方法不同,SALSA直接優化轉向向量,使用監督式目標。在兒童語音、多語言語音和普通話-英語語碼切換等基準測試中,SALSA顯著優於零樣本推理和語音上下文學習基線,最高可達46.8%的相對改進。進一步的分析表明,調整編碼器的後層比調整LLM骨幹更為有效。這些發現暗示,轉向通過適應更高層的聲學和語音表示來提升下游自動語音識別性能,而非修改解碼器本身。
來源
來源:網頁來源