研究06/04 02:05

學習連貫表徵：可解釋性的拓撲方法

研究論文提出一種新的幾何屬性稱為連貫性，旨在改善深度神經網路的可解釋性。論文指出，深度網路學習的表徵中，個別特徵往往缺乏可解釋意義，單一神經元可能對分散、不相關的輸入激活。受大腦神經編碼啟發，如網格細胞和頭方向細胞對狀態空間的連續區域響應，連貫性定義為非負矩陣的屬性，其中每行（樣本）關注幾何聚集的列（特徵），反之亦然。論文證明連貫矩陣誘導樣本和特徵的 Vietoris-Rips 過濾之間的有界交織，確保兩者空間共享兼容的拓撲結構。這有助於可解釋性，例如如果數據在圓上，連貫特徵必須將圓分割為連續弧。論文引入 Coh，一個基於 Fréchet 方差的可微目標函數，在訓練中強制連貫性。與稀疏性不同，連貫性限制特徵激活的樣本幾何連通性，而非僅僅罕見性，從而產生可解釋的特徵空間。實驗在合成和旋轉 MNIST 數據集的自編碼器以及 BERT 的詞嵌入中進行驗證。

來源

來源：網頁來源

網頁來源Learning Coherent Representations: A Topological Approach to Interpretability