返回事件流

Trajectory 發布並行多 LoRA 訓練堆棧,持續學習吞吐量提升 2.81 倍

媒體報導指出,Trajectory 團隊近日發布了一個並行多 LoRA 訓練堆棧,專為持續學習設計,旨在取代傳統的週期性模型更新流程,使模型能從即時反饋和生產互動中學習。該堆棧採用並行架構,允許同時運行多個實驗,每個實驗映射到專用的 LoRA 適配器,並在始終處於熱狀態的多租戶引擎上運行,從而大幅提升吞吐量。報告顯示,在八個並發實驗下,端到端實驗吞吐量比單租戶 RL 框架提升了 2.81 倍,且未出現獎勵回歸現象。所有訓練代碼已開源在 NovaSky-AI/SkyRL 的 GitHub 倉庫中,與 UC Berkeley Sky Lab 和 Anyscale 合作完成。架構方面,它利用 vLLM 的 SGMV 解碼內核,實現多適配器在同一批次中的混合解碼,並通過 LoRA 凍結基礎模型僅訓練適配器權重,將記憶體使用減少一個數量級。測試在 H200 節點上使用 Qwen3-4B-Instruct-2507 模型進行,在 GSM8K 工具使用任務上,準確率從約 40% 提升至 90% 以上。儘管並發實驗會增加每步延遲和首次實驗時間,但整體吞吐量提升顯著,為持續學習提供了高效且可擴展的解決方案。

來源

來源:媒體報導