研究06/02 10:06

Brain-IT-VQA：從腦信號進行視覺問答的框架

研究論文提出 Brain-IT-VQA，一個用於從 fMRI 信號進行視覺問答的框架。長期以來，從腦部活動解碼視覺內容並回答相關問題是一項挑戰，儘管近年進展，但性能仍受限。Brain-IT-VQA 基於 Brain Interaction Transformer，從腦活動中解碼語言標記，並整合語言模型來回答視覺問題，模型在現有方法中表現優異。同時，研究引入 NSD-VQA 數據集，與先前數據集不同，它提供每個圖像平均 20 個問題-答案對，涵蓋 20 個受控問題類別，這些類別分離了多層次的視覺理解，使得即使在有限的 fMRI 測試數據下，也能進行更可靠和可解釋的評估。結合 Brain-IT-VQA 和 NSD-VQA，不僅提供強大的預測工具，還用於研究腦部視覺表示。使用此基準，研究量化了可從 fMRI 回應中可靠解碼的視覺和語義資訊形式，並分析了不同腦區在各問題類型中的貢獻，為理解腦部結構提供新途徑。

來源

來源：Hugging Face / 論文來源

Hugging Face / 論文來源Brain-IT-VQA: From Brain Signals to Answers