研究06/03 01:35

MineExplorer：評估 MLLM 代理在 Minecraft 中的開放世界探索能力

研究論文提出 MineExplorer，這是一個新的基準測試，用於評估多模態大型語言模型（MLLMs）在 Minecraft 遊戲中的開放世界探索能力。論文指出，現有的具身和遊戲基準測試往往將互動壓縮到短期任務中，或將成功與特定遊戲機制糾結。因此，MineExplorer 首先篩選那些解決方案高度依賴 Minecraft 特定知識的原子任務，以更好地反映一般開放世界推理。基準測試圍繞 ReAct 風格的能力制定，並將原子任務組合成隱式多跳任務。為了構建可靠實例，MineExplorer 使用多代理合成工作流程，共同設計任務圖、沙箱場景和基於規則的里程碑評估器。人類評估顯示，多代理合成工作流程比單代理基線產生顯著更可靠的實例。實驗使用先進的 MLLM 代理，結果表明開放世界探索仍然具有挑戰性，因為強大模型能處理許多單跳任務，但當隱藏前提需要協調 over longer trajectories 時，性能急劇下降。進一步分析發現，任務難度與代理完成情況相關，且更大模型或思考模式並不一致地轉化為更好性能。代碼和數據集可在 GitHub 上獲取。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源MineExplorer: Evaluating Open-World Exploration of MLLM Agents in Minecraft