返回事件流

MineExplorer:評估 MLLM 代理在 Minecraft 中的開放世界探索能力

研究論文提出 MineExplorer,這是一個新的基準測試,用於評估多模態大型語言模型(MLLMs)在 Minecraft 遊戲中的開放世界探索能力。論文指出,現有的具身和遊戲基準測試往往將互動壓縮到短期任務中,或將成功與特定遊戲機制糾結。因此,MineExplorer 首先篩選那些解決方案高度依賴 Minecraft 特定知識的原子任務,以更好地反映一般開放世界推理。基準測試圍繞 ReAct 風格的能力制定,並將原子任務組合成隱式多跳任務。為了構建可靠實例,MineExplorer 使用多代理合成工作流程,共同設計任務圖、沙箱場景和基於規則的里程碑評估器。人類評估顯示,多代理合成工作流程比單代理基線產生顯著更可靠的實例。實驗使用先進的 MLLM 代理,結果表明開放世界探索仍然具有挑戰性,因為強大模型能處理許多單跳任務,但當隱藏前提需要協調 over longer trajectories 時,性能急劇下降。進一步分析發現,任務難度與代理完成情況相關,且更大模型或思考模式並不一致地轉化為更好性能。代碼和數據集可在 GitHub 上獲取。

來源

來源:Hugging Face / 論文來源