研究06/01 12:11

改進韓語二語學習者的基於詞的語法錯誤標註

研究論文探討韓語語法錯誤校正（K-GEC）面臨的結構性挑戰，指出詞級評估與許多學習者錯誤的語素級位置之間存在不匹配。後置詞和動詞詞尾綁定在詞彙主詞上，但它們編碼了必須在校正和評估中表示的語法關係。論文通過解決現有資源中的三個相關問題來改進基於詞的標註：表面目標實現、韓語特定編輯標註和單參考評估。研究者從國家韓語研究所（NIKL）的L2語料庫中重建目標句子，並在形態約束下實現規則，將其語素級標註轉換為詞級m2編輯。然後定義了一種韓語ERRANT風格的標註方案，保留MRU核心同時區分功能語素錯誤、拼寫錯誤、詞邊界錯誤和詞序錯誤。此外，研究者還擴充了KoLLA語料庫，增加了額外的參考校正，從而為韓語GEC建立了多參考評估設置。實驗驗證顯示，改進後的NIKL目標具有較低困惑度，轉換的m2文件與源目標編輯表示達到更高一致性，且改進的資源在相同模型設置下提升了KoBART基於校正的效能。多參考KoLLA評估進一步減少了對偏離單參考的有效校正施加的懲罰，特別是對於神經和提示GEC系統。這些結果表明，韓語GEC評估不僅取決於校正模型，還取決於反映韓語形態、間距和校正變異性的參考數據和編輯標註。

來源

來源：網頁來源

網頁來源Refining Word-Based Grammatical Error Annotation for L2 Korean