改進韓語二語學習者的基於詞的語法錯誤標註
研究論文探討韓語語法錯誤校正(K-GEC)面臨的結構性挑戰,指出詞級評估與許多學習者錯誤的語素級位置之間存在不匹配。後置詞和動詞詞尾綁定在詞彙主詞上,但它們編碼了必須在校正和評估中表示的語法關係。論文通過解決現有資源中的三個相關問題來改進基於詞的標註:表面目標實現、韓語特定編輯標註和單參考評估。研究者從國家韓語研究所(NIKL)的L2語料庫中重建目標句子,並在形態約束下實現規則,將其語素級標註轉換為詞級m2編輯。然後定義了一種韓語ERRANT風格的標註方案,保留MRU核心同時區分功能語素錯誤、拼寫錯誤、詞邊界錯誤和詞序錯誤。此外,研究者還擴充了KoLLA語料庫,增加了額外的參考校正,從而為韓語GEC建立了多參考評估設置。實驗驗證顯示,改進後的NIKL目標具有較低困惑度,轉換的m2文件與源目標編輯表示達到更高一致性,且改進的資源在相同模型設置下提升了KoBART基於校正的效能。多參考KoLLA評估進一步減少了對偏離單參考的有效校正施加的懲罰,特別是對於神經和提示GEC系統。這些結果表明,韓語GEC評估不僅取決於校正模型,還取決於反映韓語形態、間距和校正變異性的參考數據和編輯標註。
來源
來源:網頁來源