MIRA:面向來源的中期訓練數據選擇框架
研究論文提出一個名為MIRA的資料選擇框架,旨在解決大型語言模型中期訓練階段的資料篩選挑論。論文指出,中期訓練的數據來自格式與訓練角色各異的異質來源,傳統的基於模型的方法雖具擴展性,但提供的品質訊號較為隱晦;而語義選擇方法則往往預設固定的評估標準,難以適應不同來源。為此,MIRA的核心思想是將評估標準的建構本身納入資料選擇流程。論文介紹,該框架首先為每個來源群組自動發現應當評估的內容,隨後將這些判斷提煉為可擴展的學生評分器,用於對整個語料庫進行篩選。在一項涵蓋21個來源、5個來源群組的程式碼導向中期訓練實驗中,MIRA的表現超越了多個資料選擇基準,並在僅使用一半詞元數的情況下,於九項程式碼基準測試上達到了使用完整語料庫訓練的效果。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection