TRON:用於視覺推理強化學習的目標導向規則可驗證線上環境
研究論文提出 TRON,一個專為視覺推理強化學習設計的線上環境基礎設施。論文探討現有方法依賴於固定數據集,受限於數據收集預算,而 TRON 透過可控的生成器-驗證器程式按需生成訓練過程,提供可擴展、可驗證和可控的訓練信號。TRON 套件目前包含 520 個環境,組織成五個能力桶:空間、數學、圖表、模式/邏輯和計數,支持單一模型或按桶專門模型的訓練,無需額外數據收集。研究還進行了基礎設施分析,涵蓋生成可靠性、實例和級別多樣性、跨環境近重複以及基礎模型通過率。實驗結果顯示,在 Qwen3-VL-4B、Qwen2.5-VL-7B 和 MiMo-VL-7B-SFT 等模型上,使用 TRON 進行強化學習後訓練,在十個外部多模態推理基準測試中一致提高了性能。
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL