返回事件流

Brain-IT-VQA:從腦信號進行視覺問答的框架

研究論文提出 Brain-IT-VQA,一個用於從 fMRI 信號進行視覺問答的框架。長期以來,從腦部活動解碼視覺內容並回答相關問題是一項挑戰,儘管近年進展,但性能仍受限。Brain-IT-VQA 基於 Brain Interaction Transformer,從腦活動中解碼語言標記,並整合語言模型來回答視覺問題,模型在現有方法中表現優異。同時,研究引入 NSD-VQA 數據集,與先前數據集不同,它提供每個圖像平均 20 個問題-答案對,涵蓋 20 個受控問題類別,這些類別分離了多層次的視覺理解,使得即使在有限的 fMRI 測試數據下,也能進行更可靠和可解釋的評估。結合 Brain-IT-VQA 和 NSD-VQA,不僅提供強大的預測工具,還用於研究腦部視覺表示。使用此基準,研究量化了可從 fMRI 回應中可靠解碼的視覺和語義資訊形式,並分析了不同腦區在各問題類型中的貢獻,為理解腦部結構提供新途徑。

來源

來源:Hugging Face / 論文來源