重探填充Transformer的表達能力:哪些架構選擇重要、哪些不重要
研究論文提出,近期研究透過與布爾電路的聯繫來描述Transformer能計算與不能計算的內容,但現有結果缺乏精確表徵且對建模選擇敏感。填充Transformer——其輸入附加了諸如「...」的填充符號——被視為建立與電路類別等價的有用工具,因其提供了用於自適應平行計算的多項式空間。然而,先前僅研究了有限的填充Transformer理想化模型,使其在注意力類型、模型寬度與一致性等變化下的穩健性如何仍待釐清。論文發現,在實際假設下,填充Transformer對所有這些變動均展現出驚人的穩健性,並識別出數值精度與模型深度是影響表達能力的主要因素。具體而言,研究證明多項式填充的L-一致常數精度Transformer等價於L-一致AC^0電路類別,而增長精度的模型則無論寬度如何都能達到L-一致TC^0。此外,迴圈運作實現了類比於電路的序列處理:log^d N-迴圈的常數精度Transformer達到FO-一致AC^d,增長精度版本則達到FO-一致TC^d。有趣的是,將寬度或精度增長至超越對數級別並不會增加表達能力,且所有結果對於softmax與平均硬注意力Transformer均成立。
來源
來源:網頁來源