邁向穩健上下文學習:利用分佈外代理進行示範檢索
研究論文指出,大型語言模型在分佈外任務中的表現往往隨分佈偏移加劇而減弱。為提升模型推理能力,研究人員通常從可用的源域中檢索分佈相似且具資訊性的示範,但在目標域無法存取的實際場景中,評估未知分佈變得困難,進而影響所選示範的品質。針對此問題,本研究提出了DOPA示範搜索框架。DOPA整合分佈外代理以近似不可存取的目標域,並引導檢索過程。基於代理評估,框架進一步引入基於馬哈拉諾比斯距離的全局多樣性約束,確保檢索示範間具有足夠的多樣性。實驗在多個大型語言模型和任務上進行,結果顯示DOPA能有效增強分佈外設定下的穩健性。相關實現代碼已於GitHub發布,為後續研究提供參考。
來源
來源:網頁來源