DeskCraft:桌面代理專業工作流程評測基準
研究論文提出了一個名為 DeskCraft 的新基準,旨在評估桌面代理在長時間跨度的專業創意和工程工作流程中的表現。該基準特別強調人類在迴路中的協作模式,即代理主動尋求資訊,用戶在任務進展中提供指示、澄清、反饋或修正。與現有桌面 GUI 基準將任務簡化為短時間、所有指令預先提供的情況不同, DeskCraft 組織任務為多層級難度分類,長時間任務需要超過 50 個執行步驟,並涵蓋設計、視頻、音頻和 3D 創作等專業軟體。此外, DeskCraft 將人類代理協作形式化為一個互動協議,包括中途交流(如代理在不確定時主動澄清或用戶在執行中中斷)和事後交流(如用戶在代理完成後提供反饋),以捕捉現實中的完整協作模式。評估了 18 個專有和開源代理在 538 個任務上的表現,結果顯示 GPT-5.4 在標準任務上達到 31.6% 的成功率,在互動任務上達到 27.6%。進一步分析揭示了在長時間工作流程交付和主動澄清方面的持續失敗。該論文承諾將在 GitHub 上開源所有評估代碼、任務和數據。
來源
來源:網頁來源