研究06/01 12:35

透過隨時有效推論修正線上決樹的分裂選擇

在機器學習領域，袋裝集成方法如自適應隨機森林是數據流學習的強大工具，其中霍夫丁樹作為基礎學習器，通過增量方式生長決策樹。然而，研究論文指出，現有方法依賴於固定樣本的集中不等式進行分析，但分裂決策使用數據相關的停止規則，這導致統計保證無效，可能使錯誤分裂的概率趨向於一。本文提出一種基於隨時有效推論的原則性替代方案，該方法提供：在任意數據流下，包括非平穩環境，對虛假分裂的隨時有效控制；在預測優勢下有限的承諾時間；以及在平穩獨立同分佈數據下，風險單調遞減且在每次分裂時嚴格改善。實驗評估顯示，該方法在非平穩數據流上不僅提高了性能，還產生了更小的樹結構。這為在線決策樹的分裂選擇提供了更可靠的統計基礎，並有望應用於數據流挖掘場景。

來源

來源：網頁來源

網頁來源Correcting Split Selection in Online Decision Trees via Anytime-Valid Inference