研究06/01 12:12

AI用於監控研究文獻中的數據集使用

研究論文指出，現有學術平台如Google Scholar和Semantic Scholar能夠追蹤論文引用，但並無類似機制監控研究文獻中數據集的使用，導致數據使用情況不透明。解決此問題對於提升研究透明度、可再現性及影響力監控至關重要，然而進展受制於引用方式不一致、標籤數據稀缺以及數據集參考模糊等因素。傳統自然語言處理方法難以應對這些挑戰，促使研究轉向更具適應性、語義豐富的模型。本論文在先前使用大型語言模型偵測數據提及和合成數據訓練的基礎上，提出一個可擴展的數據集監控更新方法。研究團隊設計了一個多任務GLiNER框架，能同時執行數據集提及提取、關係識別與使用情境分類。為克服標籤數據不足，該方法利用合成數據生成訓練樣本，並透過大型語言模型再驗證來過濾錯誤提及並確保標籤一致性，從而提高系統的可靠性、覆蓋範圍和輸出一致性。這項研究推動了監控研究文獻數據使用開源工具的發展，有助於實現更通用、無限制的數據集引用追蹤目標。

來源

來源：網頁來源

網頁來源AI for Monitoring and Classifying Data Used in Research Literature