研究06/01 12:15

重探填充Transformer的表達能力：哪些架構選擇重要、哪些不重要

研究論文提出，近期研究透過與布爾電路的聯繫來描述Transformer能計算與不能計算的內容，但現有結果缺乏精確表徵且對建模選擇敏感。填充Transformer——其輸入附加了諸如「...」的填充符號——被視為建立與電路類別等價的有用工具，因其提供了用於自適應平行計算的多項式空間。然而，先前僅研究了有限的填充Transformer理想化模型，使其在注意力類型、模型寬度與一致性等變化下的穩健性如何仍待釐清。論文發現，在實際假設下，填充Transformer對所有這些變動均展現出驚人的穩健性，並識別出數值精度與模型深度是影響表達能力的主要因素。具體而言，研究證明多項式填充的L-一致常數精度Transformer等價於L-一致AC^0電路類別，而增長精度的模型則無論寬度如何都能達到L-一致TC^0。此外，迴圈運作實現了類比於電路的序列處理：log^d N-迴圈的常數精度Transformer達到FO-一致AC^d，增長精度版本則達到FO-一致TC^d。有趣的是，將寬度或精度增長至超越對數級別並不會增加表達能力，且所有結果對於softmax與平均硬注意力Transformer均成立。

來源

來源：網頁來源

網頁來源Revisiting Padded Transformer Expressivity: Which Architectural Choices Matter and Which Don't