研究06/04 14:28

TRON：用於視覺推理強化學習的目標導向規則可驗證線上環境

研究論文提出 TRON，一個專為視覺推理強化學習設計的線上環境基礎設施。論文探討現有方法依賴於固定數據集，受限於數據收集預算，而 TRON 透過可控的生成器-驗證器程式按需生成訓練過程，提供可擴展、可驗證和可控的訓練信號。TRON 套件目前包含 520 個環境，組織成五個能力桶：空間、數學、圖表、模式/邏輯和計數，支持單一模型或按桶專門模型的訓練，無需額外數據收集。研究還進行了基礎設施分析，涵蓋生成可靠性、實例和級別多樣性、跨環境近重複以及基礎模型通過率。實驗結果顯示，在 Qwen3-VL-4B、Qwen2.5-VL-7B 和 MiMo-VL-7B-SFT 等模型上，使用 TRON 進行強化學習後訓練，在十個外部多模態推理基準測試中一致提高了性能。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL