返回事件流

大規模多語言平行數據的基於模型品質評估

研究論文提出,大規模多語言平行數據常面臨非平行句子對和低品質翻譯兩個問題。論文探討將基於模型的評估分解為兩個獨立組件:使用多語言嵌入的平行性評估,以及無參考品質估計。在平行性方面,研究在 FLORES-200 和 BOUQuET 檢索任務上基準測試了四個嵌入模型,覆蓋多達 6,654 個源-目標語言方向。對於品質估計,則在專業的 FLORES-200 翻譯上評估了九個無參考評估器,涵蓋 41,412 個有序方向。實驗結果顯示,沒有一個模型能在所有翻譯方向上普遍可靠。簡單的品質估計集成方法可能會稀釋強模型信號,而有記錄的目標語言覆蓋與較高的品質估計分數有強相關。總體而言,這些發現表明,多語言平行數據的評估最好作為一個方向感知的路由和校準問題來處理,沒有任何單一通用指標能適用於所有語言。

來源

來源:網頁來源