返回事件流

RePoT:透過檢查點修復的可恢復程序化思維

研究論文提出 RePoT(可恢復的程序化思維)方法,旨在解決 Program-of-Thought (PoT) 中單一無效動作導致計劃失效的問題。傳統 PoT 生成 Python 程序來輸出原始動作計劃,但一個無效動作可能使整個軌跡無效。RePoT 引入確定性驗證重放機制,逐步在環境中執行計劃,直到遇到第一個無效轉換,然後使用一次大型語言模型 (LLM) 呼叫從驗證前綴恢復。這種方法在 PoT 失敗的約 14% 問題中,僅需額外一次 LLM 呼叫。在 PuzzleZoo-775 基準上,RePoT 在四種閉源模型配置中比 PoT 提升 3 到 11 個百分點,特別是在 gpt-5.4-mini-medium 上達到 96.9% 的成功率,而 PoT 為 86.3%。與匹配預算的 PoT 重試基線相比,RePoT 在 Gemini 上顯著勝出,提升 3.8 個百分點,95% 置信區間為 [+2.2, +5.4]。論文還在 PlanBench Blocksworld 和四個開源權重模型上複製了結果,提升幅度從 1.1 到 20.0 個百分點。在控制恢復基準 Derail-550 上,具備檢查點資訊的條件在 GPT-medium 和 Gemini 上分別成功解決至少 30% 和 70% 的問題,而僅錯誤反饋的條件成功率極低,顯示檢查點資訊是恢復的關鍵信號。此外,論文探討自適應 RePoT,作為規則基礎的調度器,根據驗證前綴長度在後綴修復和全新 PoT 重試之間路由,以處理不同模型的能力縮放模式。

來源

來源:Hugging Face / 論文來源