馬爾可夫邊界在表格預測中的好、壞與醜陋
研究論文探討馬爾可夫邊界在表格預測中的角色。在標準圖形假設下,馬爾可夫邊界是最小特徵集,使其他特徵冗餘,理論上應提升預測效率。然而,現代迴歸器仍使用全特徵集訓練。論文在SCM3K基準上評估,該基準包含3,450個任務,特徵數從40到1000不等,涉及六種結構因果模型家族,並使用六種迴歸器。研究發現,當特徵空間更大且稀疏時,將迴歸器限制在神諭邊界能顯著改善預測。但使用因果發現恢復邊界並訓練的自然管道未能實現類似效果,現有估計器在計算預算內難以達到邊界最有益的區域。原因包括發現優化結構恢復而非預測、假陰性和假陽性的預測成本不對稱,以及確切邊界只是眾多優於全特徵集的特徵集之一。論文最後探討這些發現對預測導向特徵選擇和學習使用因果結構的表格模型的影響。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction