剖析提示如何引導行為
研究論文探討大型語言模型(LLMs)和視覺語言模型(VLMs)中,提示如何在不更新權重的情況下引導行為,但指令變化如何重塑內部表示以產生行為仍不清楚。論文提出一個嵌套幾何分解框架,將提示視為對提示後內容表示幾何的轉換。對於每個提示對,作者使用表達力遞增的刺激不變映射(如平移、剛性轉換、仿射轉換等)來對齊相同刺激在兩個提示下的表示。通過替換單層的隱藏狀態,他們因果測試每個映射,測量恢復目標提示的表示幾何和行為的效果。在三個LLM、三個VLM和六個涵蓋風格、情感、場景內容和數字的數據集上測試,提示一致地將表示重塑為指令任務結構。交叉驗證的變異數分解顯示,大部分提示引起的激活變化被形狀保持映射捕獲,尤其是平移和剛性轉換,而層級輪廓揭示模型和任務特定的跨層路由策略。關鍵是,雖然平移和剛性層級已改善行為一致性,但仿射轉換是第一個幾乎恢復目標提示任務幾何的層級,並帶來相應行為增益。這表明跨維度線性混合是提示將表示重組為指令任務結構的關鍵機制。框架將提示引起的表示變化分解為可解釋的幾何組件,並揭示模型如何路由任務相關結構以產生提示驅動的行為。
來源
來源:網頁來源