研究06/02 24:07

微調提升語言模型中的資訊傳遞效率

根據一篇發表於arXiv的研究論文，微調大型語言模型常被認為會降低模型的不確定性和輸出多樣性，但現有分析忽略了輸出長度這一關鍵因素，導致無法捕捉不確定性在整個生成過程中的分佈。為此，研究者提出了Canopy Entropy（CE*）指標，從樹狀結構的視角看待語言生成，其中「樹冠」代表所有可能生成空間，從而自然量化有效生成空間的大小。該指標聯合捕捉輸出長度和生成序列的不確定性，等同於總Shannon熵。論文進一步提出可解釋的度量標準，包括長度與熵率的相關性項ρ(N, r_N)，用於評估資訊傳遞效率，指示較長輸出是否每詞元提供更多或更少資訊。實驗結果顯示，經過微調的模型在不同任務和模型家族中均展現出更強的正相關性，即使總熵下降。控制模型家族、任務、提示和輸出長度後，微調使熵率與語義多樣性的相關性強度增加近三倍，表明對齊的模型能更有效地將詞元不確定性轉化為語義多樣性。總體而言，這些發現證明微調並非簡單地減少不確定性，而是根本性地重組不確定性，以產生更具資訊量和語義意義的生成。研究代碼已在GitHub上發布。

來源

來源：網頁來源

網頁來源Fine-Tuning Improves Information Conveyance in Language Models