研究05/31 17:54

RePoT：透過檢查點修復的可恢復程序化思維

研究論文提出 RePoT（可恢復的程序化思維）方法，旨在解決 Program-of-Thought (PoT) 中單一無效動作導致計劃失效的問題。傳統 PoT 生成 Python 程序來輸出原始動作計劃，但一個無效動作可能使整個軌跡無效。RePoT 引入確定性驗證重放機制，逐步在環境中執行計劃，直到遇到第一個無效轉換，然後使用一次大型語言模型 (LLM) 呼叫從驗證前綴恢復。這種方法在 PoT 失敗的約 14% 問題中，僅需額外一次 LLM 呼叫。在 PuzzleZoo-775 基準上，RePoT 在四種閉源模型配置中比 PoT 提升 3 到 11 個百分點，特別是在 gpt-5.4-mini-medium 上達到 96.9% 的成功率，而 PoT 為 86.3%。與匹配預算的 PoT 重試基線相比，RePoT 在 Gemini 上顯著勝出，提升 3.8 個百分點，95% 置信區間為 [+2.2, +5.4]。論文還在 PlanBench Blocksworld 和四個開源權重模型上複製了結果，提升幅度從 1.1 到 20.0 個百分點。在控制恢復基準 Derail-550 上，具備檢查點資訊的條件在 GPT-medium 和 Gemini 上分別成功解決至少 30% 和 70% 的問題，而僅錯誤反饋的條件成功率極低，顯示檢查點資訊是恢復的關鍵信號。此外，論文探討自適應 RePoT，作為規則基礎的調度器，根據驗證前綴長度在後綴修復和全新 PoT 重試之間路由，以處理不同模型的能力縮放模式。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源REPOT: Recoverable Program-of-Thought via Checkpoint Repair