研究05/31 17:47

Trajectory 發布並行多 LoRA 訓練堆棧，持續學習吞吐量提升 2.81 倍

媒體報導指出，Trajectory 團隊近日發布了一個並行多 LoRA 訓練堆棧，專為持續學習設計，旨在取代傳統的週期性模型更新流程，使模型能從即時反饋和生產互動中學習。該堆棧採用並行架構，允許同時運行多個實驗，每個實驗映射到專用的 LoRA 適配器，並在始終處於熱狀態的多租戶引擎上運行，從而大幅提升吞吐量。報告顯示，在八個並發實驗下，端到端實驗吞吐量比單租戶 RL 框架提升了 2.81 倍，且未出現獎勵回歸現象。所有訓練代碼已開源在 NovaSky-AI/SkyRL 的 GitHub 倉庫中，與 UC Berkeley Sky Lab 和 Anyscale 合作完成。架構方面，它利用 vLLM 的 SGMV 解碼內核，實現多適配器在同一批次中的混合解碼，並通過 LoRA 凍結基礎模型僅訓練適配器權重，將記憶體使用減少一個數量級。測試在 H200 節點上使用 Qwen3-4B-Instruct-2507 模型進行，在 GSM8K 工具使用任務上，準確率從約 40% 提升至 90% 以上。儘管並發實驗會增加每步延遲和首次實驗時間，但整體吞吐量提升顯著，為持續學習提供了高效且可擴展的解決方案。

來源

來源：媒體報導

媒體報導Trajectory Releases a Concurrent Multi-LoRA Training Stack for Continual Learning, Reporting a 2.81× Experiment-Throughput Gain