研究06/01 12:14

黑盒LLM蒸餾的有界行為不可區分性研究

研究論文提出了一種名為有界行為不可區分性的新概念，用於評估黑盒大型語言模型（LLM）的蒸餾過程。傳統評估僅關注輸出相似性，但作者認為這不足以確保行為上的不可區分性。他們形式化了這一概念，並在Qwen和Llama模型上進行實驗，比較基礎學生模型與LoRA蒸餾學生模型。結果顯示，LoRA蒸餾將語義相似性從0.788提升至0.862（Qwen）和從0.814提升至0.874（Llama），但對抗性評估仍發現行為差異，例如在風格、穩健性和領域技術提示方面的遺留問題。此外，實驗表明，查詢預算優化並未明顯優於隨機採樣，強調覆蓋和多樣性的重要性。總結來說，論文認為語義忠誠度雖然有用，但黑盒LLM蒸餾需要更嚴格的有界、對抗性和類別感知評估。

來源

來源：網頁來源

網頁來源Bounded Behavioral Indistinguishability for Black-Box LLM Distillation