嵌入模型如何綁定概念?
研究論文提出,人類能輕易分辨多物體場景中顏色與形狀的歸屬關係,即「概念綁定」能力,但現有的視覺-語言嵌入模型如CLIP在這方面表現不佳。論文探討指出,雖然CLIP在跨模態檢索中表現得像一個「概念集合」模型,但其單模態嵌入中仍可恢復物體資訊,存在矛盾。研究透過「綁定函數」來分析此張力,發現場景嵌入可加性分解為物體表示,解釋了單模態探針能提取資訊的原因,但CLIP的綁定函數複雜度高,可能阻礙影像與文字編碼器學習到可泛化至未見概念組合的共享綁定機制。研究進一步追問此限制是否為根本性的,結果顯示並非如此。在從頭訓練的受控Transformer模型中,當數據覆蓋充足時,綁定泛化能力會出現。這些模型學習到以乘法交互為特徵的低複雜度綁定函數,從而實現系統性泛化。相關程式碼已於GitHub公開。
來源
來源:Hugging Face / 論文來源
- Hugging Face / 論文來源How can embedding models bind concepts?