研究06/04 14:30

MIRA：面向來源的中期訓練數據選擇框架

研究論文提出一個名為MIRA的資料選擇框架，旨在解決大型語言模型中期訓練階段的資料篩選挑論。論文指出，中期訓練的數據來自格式與訓練角色各異的異質來源，傳統的基於模型的方法雖具擴展性，但提供的品質訊號較為隱晦；而語義選擇方法則往往預設固定的評估標準，難以適應不同來源。為此，MIRA的核心思想是將評估標準的建構本身納入資料選擇流程。論文介紹，該框架首先為每個來源群組自動發現應當評估的內容，隨後將這些判斷提煉為可擴展的學生評分器，用於對整個語料庫進行篩選。在一項涵蓋21個來源、5個來源群組的程式碼導向中期訓練實驗中，MIRA的表現超越了多個資料選擇基準，並在僅使用一半詞元數的情況下，於九項程式碼基準測試上達到了使用完整語料庫訓練的效果。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源MIRA: Mid-training Rubric Anchoring for Source-Aware Data Selection