MindGames Arena 泛化賽道:In2AI 延遲逐步獎勵歸因解決方案
研究論文探討了在多智能體戰略互動中訓練語言模型代理的核心難題:任何行動的質量可能取決於未來未發生的事件、違反遊戲規則的動作或其他玩家的決策。標準強化學習假設每步都能分配獎勵,但在結果跨時間和智能體糾結的環境中,這一假設失效。為此,論文引入延遲逐步獎勵歸因與資格門控,這是一個事件生命週期和後處理管道,僅在事件結束時計算獎勵,根據任務特定語義將其傳播回原始步驟,並排除缺乏有效依賴信息的步驟。結合透過 vLLM 的連續批處理進行異步 roll-out 生成、基於課程的對手抽樣和多層次分層批次構建,這種方法在多智能體環境中實現了穩定、樣本效率高的強化學習訓練。研究在 MindGames Arena 基準測試(NeurIPS 2025)上評估,一個單一的 80 億參數開源模型經此方法訓練後,在正面對決中匹配或超越了包括 GPT-5 在內的更大規模專有系統,並在開放賽道和效率賽道中均獲得第一名。
來源
來源:網頁來源