緩解多模態 LLM 評審中的感知判斷偏差
近期研究論文提出,多模態大語言模型在作為自動評審工具時,存在一種稱為感知判斷偏差的現象。當視覺證據與文本線索發生衝突時,這些模型往往偏向獎勵聽起來合理的敘述,而非感知上正確的答案。論文通過控制視覺擾動,對現有評審模型進行了系統分析,發現它們經常錨定於回應文本而非自身視覺感知,導致評估不一致且不可驗證。為解決此問題,研究團隊引入了感知擾動判斷數據集,該數據集通過最小編輯構建反事實回應,以隔離感知錯誤並實現可驗證監督。在此基礎上,開發了一個統一的訓練框架,結合基於 GRPO 的結構化獎勵與批次排序目標,無需顯式成對標籤即可實現連貫的全局排序。實驗在多個多模態 LLM 評審基準上進行,結果顯示該方法顯著提升了感知忠實度、排序連貫性以及與人類評估的一致性,為訓練感知接地、可解釋且對視覺推理衝突穩健的多模態評審提供了可擴展且可推廣的路徑。
來源:Hugging Face / 論文來源