研究06/04 24:49

條件性假說生成：結合協變量的LLM文字分析框架

研究論文提出條件性假說生成框架，旨在改進基於大型語言模型的文字分析。計算社會科學的核心目標是發現語言在感興趣結果（如政治傾向或教學質量）間的可解釋差異。現有的LLM假說生成方法雖能用自然語言描述差異，但選擇全球模式時未考慮研究者領域知識中的協變量，可能導致混淆模式而非實質興趣的差異。新框架引入研究者指定的協變量，引導假說發現朝向在相關子群內成立的差異。面臨的挑戰包括目標子群代表性不足（分層不平衡）和差異方向可能在子群間反轉（符號反轉）。論文提出兩種計量經濟學啟發的方法：一種引入特徵與協變量交互以檢測符號反轉，另一種應用分層內去均值和逆頻率重新加權以平衡代表性不足的分層。合成實驗顯示每種方法在其目標設定中優於全球基線，專家評估在兩個真實世界數據集上確認，協變量感知生成在相關子群內浮現更有用的假說。

來源

來源：網頁來源

網頁來源Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates