微調提升語言模型中的資訊傳遞效率
根據一篇發表於arXiv的研究論文,微調大型語言模型常被認為會降低模型的不確定性和輸出多樣性,但現有分析忽略了輸出長度這一關鍵因素,導致無法捕捉不確定性在整個生成過程中的分佈。為此,研究者提出了Canopy Entropy(CE*)指標,從樹狀結構的視角看待語言生成,其中「樹冠」代表所有可能生成空間,從而自然量化有效生成空間的大小。該指標聯合捕捉輸出長度和生成序列的不確定性,等同於總Shannon熵。論文進一步提出可解釋的度量標準,包括長度與熵率的相關性項ρ(N, r_N),用於評估資訊傳遞效率,指示較長輸出是否每詞元提供更多或更少資訊。實驗結果顯示,經過微調的模型在不同任務和模型家族中均展現出更強的正相關性,即使總熵下降。控制模型家族、任務、提示和輸出長度後,微調使熵率與語義多樣性的相關性強度增加近三倍,表明對齊的模型能更有效地將詞元不確定性轉化為語義多樣性。總體而言,這些發現證明微調並非簡單地減少不確定性,而是根本性地重組不確定性,以產生更具資訊量和語義意義的生成。研究代碼已在GitHub上發布。
來源
來源:網頁來源