BehaviorBench:基於行為追蹤的真實世界用戶決策建模
研究論文提出BehaviorBench,這是一個用於評估個人化決策建模的基準系統。論文指出,現有評估數據有限,且常依賴模擬用戶,但模擬行為可能與人類行為有系統性差異。BehaviorBench從真實世界的行為追蹤中重建錢包級別的決策歷史,基於公開的預測市場和鏈上記錄。它組織成兩個互補任務層:信念預測,預測用戶在市場中的最終立場和信心;交易預測,預測個別交易的方向和金額。基準包含2,000個評估錢包,有超過14萬個信念實例和超過148萬個交易實例。研究評估了前沿和開源生成模型在四種歷史介面下的表現,發現個人化在信念預測中更為有效,模型排名隨任務層和指標變化,不同介面暴露不同失敗模式。這提供了研究個人化方法是否能使用真實行為證據而非僅模擬用戶的評估環境。
來源
來源:網頁來源