人機迴圈上下文臂用於短期租賃動態定價:歷史熱身與審批閘控學習的結構等效性
研究論文提出了一種名為『人機迴圈閘控臂』的框架,專門應用於短期租賃市場的動態定價挑戰。在該框架中,上下文臂演算法生成價格建議,但人類代理商保留最終審批權限,可以接受、修改或拒絕每個建議後才應用於實際定價。論文指出,在此審批約束下,歷史定價數據(原先在確定性策略下收集)與策略性熱身數據在結構上等效,從而可以繞過純線上臂學習在稀疏反饋市場中面臨的數週至數月冷啟動期。作者形式化了審批閘控獎勵信號,並從歷史情節中推導出正則化嶺回歸熱身程序,該方法在真實短期租賃生產數據上驗證,包括匿名城市市場、兩個房間和 1,461 個夜間定價情節。結果顯示,熱身程序可將有效冷啟動期從約 150 個情節壓縮至約 30 個情節,初始化基於層次因式化湯普森採樣的代理商。論文進一步認為,結構等效結果是領域無關的:任何需要人類審批的高風險領域,包括臨床藥物劑量、信貸發放、內容審核和放射診斷,都滿足相同條件並受益於相同的熱身策略。在受監管行業中,強制性人類監督因此被視為統計資產而非部署約束。
來源
來源:網頁來源