[NAS論文][Transformer]HAT: Hardware-Aware Transformers.....
[HAT: Hardware-Aware Transformers for Efficient Natural Language Processing]

論文地址:https://arxiv.org/abs/2005.14187
-碼:https://github.com/mit-han-lab/hardware-aware-transformers.git
【總覽】
1、一個足夠的設計空間中使用一個高效的權重共享SuperTransformer進行硬件感知的神經結構搜索[NAS],并發現高性能低延遲模型,消耗的成本比之前的Evolved Transformer少四個數量級
2、在評估Transformer的時候,往往有兩個問題,1是FLOPs并不反映測量的latency。雖然在現有很多論文里,FLOPs被用作效率的衡量標準,但是其實在不同硬件下,FLOPs和latency之間并不完全對應,下圖可見,同樣的FLOPs模型的latency其實可以差很遠。2是不同的硬件偏好的模型結構不同。ARM 對于Hidden Dim, Embedding Dim 和 Layer Num都比較敏感下圖(a),大致呈線性關系。但是Intel CPU和NVIDIA?GPU卻基本只和layer num呈線性關系(下圖bc),這也本文的動機,為不同的硬件提供他們喜歡的模型架構。
【方法】
為了使得Transformer可以變成超網絡,提供可選的op,也就是從Transformer --> superTransformer這個過程,有兩點改變:
1、Arbitrary Encoder-Decoder Attention
傳統的transformer只從encoder最后一層抽取信息,迫使雖有的解碼器只從高抽象層學習,而忽略了低級信息,形成了信息瓶頸。因此,本文對transformer做的第一個改變是允許每個解碼器層可以選擇多個編碼器層,它允許關注不同的抽象級別,從而提高了模型的容量,如下圖所示。
2、?Heterogeneous Transformer Layers
傳統的 Transformer 對所有的層重復同樣的網絡結構。在本文中,所以層的結構可以不相同,例如有不同的頭數(Head Number),隱藏層維度(Hidden Dim),詞向量長度(Embedding Dim)等等(?with different numbers of heads, hidden dim, and embedding dim)。
①?hidden dim?elastic
傳統的transformer的hidden dim是embedding dim 的2倍、4倍,但這不是最優的,因為不同的層需要不同的能力,這取決于特征提取的難度
②?elastic?embedding dim
也支持編碼器和解碼器的elastic?embedding?dim,但在編碼器/解碼器內部是尺度一致的
③?elastic layers
【superTransformer構建】
因為訓練每個架構然后再BLEU上比較不顯示,所以,類似于CNN的supernet,這里也構建一個超網絡涵蓋了所有的子架構,叫做superTransformer,同樣的,也采樣權重共享的方案。對于?elastic embedding dim,所有子架構(subtransformer)共享最長單詞embedding的前端部分和相應的FC層權值。對于elastic?FFN dim,前端FC權重共享,?Elastic layer numbers共享前幾層,對于?elastic head number的注意模塊中,全部Q;K;V向量(長度在NAS空間中是固定的?Q; K; V
vector dim fixed as 512)通過劃分頭部數部分來共享,上述看下圖。
superTransformer采用uniformly sample訓練。
【如果不是共享前面部分,比如說共享中間部分會怎么樣?】
【Evolutionary Search for SubTransformer】
【Result】
結果可以直接看圖:,在機器翻譯任務上,以transformer-big為基準,在GPU上可以加速2.7倍和1.8倍推理速度在WMT'14 En-De/WMT'14 EN-FR任務上
【結論分析】
1、從搜到的結果來看,GPU的網絡搜到的網絡偏向于又寬又淺,樹莓派的則又窄又深
神經網絡
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。