大型語言模型不確定性的人類對齊、校準與激活模式
一篇發表於 arXiv 的研究論文探討大型語言模型不確定性與人類不確定性之間的相似性。論文指出,不確定性量化是大型語言模型行為分析的重要子領域,主要用於識別和對抗幻覺,並聚焦於校準的準確性。這項研究調查了相對未充分探索的問題,即模型的不確定性是否與人類相似。研究人員分析了模型的外在行為和內部激活模式中,是否存在並強化人類相似的不確定性信號,稱為不確定性對齊。此外,論文識別模型在多種數據集上,包括多選題和開放式事實回憶,是否同時顯示對齊和校準的證據,並描述指令微調對這些方面的影響。這項研究有助於理解模型的不確定性表達,可能提升其在實際應用中的可靠性和可信度。
來源
來源:網頁來源