返回事件流

LongAttnComp:跨家族長上下文壓縮技術

研究論文提出,現實應用中處理超過十萬個令牌的需求日益增加,導致上下文長度與推理效率之間的差距成為關鍵瓶頸。上下文壓縮技術可以降低預填充成本,同時保持任務準確性。然而,現有的無需訓練的注意力基準方法在代碼推理等長上下文任務中仍有顯著不足。為此,研究人員開發了 LongAttnComp,這是一種長上下文適應版本的 AttnComp,通過精調輕量級跨注意力評分層,並引入令牌級分塊、令牌預算 top-p 算法、位置重排序和格式無關查詢解析器。此外,設計了兩階段精調食譜:第一階段建立通用檢索基礎,第二階段擴展到多跳和推理數據,以覆蓋更廣泛的長上下文任務。在 InfiniteBench Code-Debug 測試中,LongAttnComp 匹配或超過完整上下文準確度,大幅優於無需訓練的基線方法,並能在四個來自不同家族的目標模型上遷移。在 LongBench v2 上,兩階段食譜有效縮小了多文檔推理的差距,同時保持代碼偵錯性能。

來源

來源:Hugging Face / 論文來源