條件假設生成用於LLM文本分析與協變量考量
這篇研究論文提出了一種條件假設生成框架,旨在改進基於大型語言模型(LLM)的文本分析方法。論文指出,傳統的LLM假設生成方法僅選擇全局區分性模式,忽略了數據中由研究者領域知識決定的協變量,這可能導致混淆而非實質興趣的差異。為此,框架引入了研究者指定的協變量,將假設發現引導至相關子群組中的差異。研究提出兩個挑戰:目標子群組可能代表性不足(層不平衡)以及差異方向可能在子群組間反轉(符號反轉)。作者提出兩種經濟計量學啟發的方法:一種通過特徵-協變量交互來檢測符號反轉,另一種應用層內去均值化和逆頻率重加權來平衡代表性不足的層。合成實驗顯示每種方法在其目標設定中優於全局基線,兩個現實世界數據集的專家評估也證實,協變量感知生成在相關子群組內產生更有用的假設。這項研究有助於計算社會科學領域更精準的語言變異分析。
來源:Hugging Face / 論文來源