研究06/03 24:40

多臂老虎機模擬用於平均獎勵推斷

研究論文提出一個名為 BSI 的框架，旨在解決多臂老虎機算法在統計推斷上的難題。多臂老虎機算法廣泛應用於線上平台、臨床試驗和社會科學實驗，但其性能的有效推斷一直是開放性挑戰，因為算法引入數據依賴性，違反了標準統計方法的獨立同分布假設。BSI 通過從觀察數據中擬合一個環境模擬器，用於估計任何評估政策下的平均獎勵，包括自適應黑盒算法。論文探討指出，BSI 能夠正式將模擬器參數的不確定性傳播到信賴區間構建中，僅需行為政策的弱探索假設，並避免使用重要性加權。作者證明 BSI 產生漸近有效的信賴區間，並在實證中顯示其在標準離線策略評估方法失敗的設定中仍能維持名義覆蓋率，為算法性能評估提供了新途徑。

來源

來源：網頁來源

網頁來源Bandit Simulation for Average Reward Inference