研究06/04 01:11

融合前先問保留什麼：多模態信號的上下文校準

研究論文提出，多模態系統在結合語言、聲音和視覺等不同模態的資訊時，常面臨模態之間干擾的問題。論文探討如何在融合信號之前進行校準，開發了一個緊湊的校準模組，該模組在摘要層級比較各模態，提取跨來源支持和衝突的線索，並將這些線索轉換為實例級和維度級的調變信號。校準應用於原始模態特徵，而非已融合的表示，使得模型能夠抑制誤導性組件，保留弱但有用的證據，並強調當前多模態上下文中更好支持的回應。該模組設計為即插即用組件，可附加到不同的融合骨幹，而不改變其預測頭。在五個基準測試上，包括情感理解、動作識別、音視頻事件檢測和音視頻情感分類，所提出的預組合校準策略在基於序列和基於卷積的融合設置下都提升了性能。此外，在模態移除、合成損壞、訓練動態和特徵級可視化等方面的分析顯示，在融合前校準信號可以減少來自不可靠模態的干擾，並產生更穩定的多模態優化。

來源

來源：網頁來源

網頁來源Before Fusion, Ask What to Keep: Contextual Calibration of Multimodal Signals