返回事件流

研究:大規模多語言平行資料品質評估模型基準測試

研究論文提出,大規模多語言雙語平行資料經常包含非平行句對與低品質翻譯兩大問題。為應對此挑戰,研究者將基於模型的品質評估分解為兩個獨立組件:使用多語言嵌入進行平行性評估,以及無參考的品質估計。在平行性評估方面,他們於 FLORES-200 和 BOUQuET 檢索任務上,針對目標語言對庫中 6,654 個源語言-目標語言方向,對四個嵌入模型進行了基準測試。對於品質估計,則評估了九個無參考評估器在專業 FLORES-200 翻譯上的表現,涵蓋了 41,412 個有序的源目標方向。實驗結果顯示,沒有一個模型能在所有翻譯方向上都保持普遍可靠。研究指出,簡單的品質估計集成會稀釋強模型的有效信號,而模型對目標語言的文件化覆蓋範圍則與更高的品質估計分數有強關聯。論文總結認為,多語言平行資料的品質評估最好被視為一個需要方向感知的路由與校準問題,沒有一個單一的通用指標能夠滿足所有語言的需求。

來源

來源:Hugging Face / 論文來源