多模態語音模型偏見評估研究
研究論文提出,隨著大型神經模型在語言任務上表現提升,研究人員越來越傾向於構建處理更多數據模態的多模態和全模態模型,例如將語音識別模型擴展到音視覺數據以減輕噪音和實現多模態字幕。然而,單一模態中的性能和偏見已被廣泛研究,但新模態的影響尚不清楚,即使它們在人類中產生偏見。因此,論文探討首個多模態語音識別的偏見評估方法,通過創建視頻將不同面部與相同音頻配對,測量語音轉錄準確度的變化。研究評估了 mWhisper-Flamingo 和 Gemini 模型,發現在自我報告的性別、種族及其交叉屬性上,品質服務存在顯著差異,錯誤率點數最多下降4.05。論文指出,提供更多模態的訊號不必然更好,甚至可能導致偏見結果,並呼籲開發者優先評估、修復和傳達這些限制。
來源
來源:網頁來源