研究06/04 14:34

條件假設生成用於LLM文本分析與協變量考量

這篇研究論文提出了一種條件假設生成框架，旨在改進基於大型語言模型（LLM）的文本分析方法。論文指出，傳統的LLM假設生成方法僅選擇全局區分性模式，忽略了數據中由研究者領域知識決定的協變量，這可能導致混淆而非實質興趣的差異。為此，框架引入了研究者指定的協變量，將假設發現引導至相關子群組中的差異。研究提出兩個挑戰：目標子群組可能代表性不足（層不平衡）以及差異方向可能在子群組間反轉（符號反轉）。作者提出兩種經濟計量學啟發的方法：一種通過特徵-協變量交互來檢測符號反轉，另一種應用層內去均值化和逆頻率重加權來平衡代表性不足的層。合成實驗顯示每種方法在其目標設定中優於全局基線，兩個現實世界數據集的專家評估也證實，協變量感知生成在相關子群組內產生更有用的假設。這項研究有助於計算社會科學領域更精準的語言變異分析。

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Conditional Hypothesis Generation for LLM-Based Text Analysis with Researcher-Specified Covariates